1. 高手問答第 307 期 —— 大數據時代下機器學習的新范式

        小白兔愛吃大灰狼 發布于 2023/10/17 15:41
        閱讀 4K+
        收藏 0

        開源中國社區團隊直播首秀,以分享為名講述開源中國社區背后的故事”

        在大數據時代,數據的數量和復雜性都呈指數級增長。然而,這些數據往往分散在不同的組織和個人之間,限制了數據的利用和挖掘。此時,聯邦學習應運而生。它是 一種新興的機器學習方法,允許多個參與方共同訓練模型。在大數據時代和人工智能的發展下,聯邦學習成為了應對數據分散和隱私保護的有效解決方案,在醫療、金融、推薦等領域都有廣泛的應用。
         
        OSCHINA 本期高手問答 (10 月 18 日 - 10 月 24 日) 我們請來了 PrimiHub 開源 和大家一起探討關于「聯邦學習技術」的問題??捎懻摰膯栴}包括但不限于:
        1. 什么是聯邦學習?與分布式訓練的區別和聯系
        2. 聯邦學習的場景:包括但不限于橫向 / 縱向聯邦、跨企業、跨設備等
        3. 當前聯邦學習面臨的問題:計算 / 通信復雜度、數據分布不均衡、安全隱私、公平性等
        4. 聯邦學習入門學習、上手開發的建議
        如有其他「聯邦學習技術」 相關的問題,也歡迎提問  !
         

        嘉賓介紹

        許雪峰,北航網絡安全碩士,北京原語科技隱私計算工程師。從事聯邦學習、差分隱私相關算法開發工作。熱愛技術和開源,曾多次為知名開源機器學習框架 scikit-learn 貢獻代碼。
         
        ?? 為了鼓勵踴躍提問, 原語科技 PrimiHub 會在問答結束后從提問者中抽取 5 名幸運會員,贈予 PrimiHub 定制筆記本禮盒 3 件套(內含:筆記本 * 1、金屬簽字筆 * 1、U 盤 * 1)。
         

        OSChina 高手問答一貫的風格,不歡迎任何與主題無關的討論和噴子。

        下面歡迎大家就 “聯邦學習技術” 相關問題向 PrimiHub 許雪峰老師 提問,直接回帖提問既可。

        PrimiHub  作為一款由密碼學專家團隊打造的開源隱私框架,具有以下特性:
        • 開源:完全開源、免費
        • 自主研發:安全多方計算、聯邦學習、同態加密、可信計算等隱私計算技術
        • 開箱即用:擁有 Web 界面、命令行和 Python SDK 等多種使用方式
        • 功能豐富:支持隱匿查詢、隱私求交、聯合統計、數據資源管理等功能
        • 靈活配置:支持自定義擴展語法、語義、安全協議等
        GitHub 地址:https://github.com/primihub/primihub
        加載中
        0
        小白兔愛吃大灰狼
        小白兔愛吃大灰狼

        高手問答第 307 期 —— 大數據時代下機器學習的新范式 

        @ericyan1 @xiaoaiwhc1   @xdev   @osc_11168344  @osc_63852221

        恭喜以上5位網友分別獲得 PrimiHub 定制筆記本禮盒 3 件套一套。

        請于2023年11月2日前登陸賬號, 私信  @小白兔愛吃大灰狼   告知快遞信息(格式:高手問答第307期+姓名+電話+地址),過期視為自動放棄哦~

        1
        iman123
        iman123

        @PrimiHub開源 你好,聯邦學習與分布式學習有什么區別和聯系;安全多方計算、聯邦學習、同態加密、可信計算等這些與隱私計算又有什么關聯呢;隱私計算目前實際應用場景都有哪些?

        PrimiHub開源
        PrimiHub開源
        3. 隱私計算多應用在金融、醫療、政務、營銷等行業,比如「金融領域」的聯合反洗錢、銀(行)證(券)數據共享、高凈值/風險用戶共享;「集團機構」間的數據共享比如共建用戶黑名單。
        PrimiHub開源
        PrimiHub開源
        2. 列舉的這些是隱私計算所采用的不同技術路線,可以理解為不同的解決方案。不同技術有各自的優勢和劣勢,以及各自適合的應用場景。
        PrimiHub開源
        PrimiHub開源
        1. 區別:分布式學習本質上是把收集到的數據分散到各個集群上,其主要瓶頸是計算;聯邦學習的數據存儲在用戶本地,面臨的一個瓶頸是通信,還有用戶掉線的問題。聯系:分布式的一些優化算法可以用在聯邦學習上。
        1
        clearsky1991
        clearsky1991

        @PrimiHub開源 你好,我對聯邦學習不了解,可以詳細介紹一下什么是聯邦學習,其應用領域和場景是什么,發展演講路線是什么呢?

        PrimiHub開源
        PrimiHub開源
        3. 谷歌于2016年提出了聯邦學習的概念,經過幾年的研究和發展,已經在很多領域得到了廣泛應用。
        PrimiHub開源
        PrimiHub開源
        2. 聯邦學習主要利用了多方的數據,能夠得到更好的模型,比如醫療領域做疾病預測、金融領域反欺詐模型、零售業進行商品推薦等。
        PrimiHub開源
        PrimiHub開源
        1. 聯邦學習指的是多個實體在中央服務器的協調下進行機器學習訓練。每個實體的數據存儲在本地,不進行交換和傳輸,只進行一些中間結果的聚合來達到訓練目標。
        0
        開源博客
        開源博客

        @PrimiHub開源 許老師好,有幾個問題請教:
        1. 什么是聯邦學習?與PyTorch的分布式訓練有什么區別與聯系?
        2. primihub 對算力有什么要求,需要GPU之類的嗎?
        3. 能否幫舉個實際例子,比如primihub具體解決了哪個問題?
        謝謝!

        開源博客
        開源博客
        回復 @PrimiHub開源 : Thanks
        PrimiHub開源
        PrimiHub開源
        3. PrimiHub采用了隱私計算技術,如同態加密、多方安全計算、TEE等,保護聯邦學習過程中的數據隱私。
        PrimiHub開源
        PrimiHub開源
        2. 算力主要和數據量、模型大小有關。PrimiHub的模型大多使用CPU即可,少數支持GPU。
        PrimiHub開源
        PrimiHub開源
        1. 聯邦學習指的是多個實體在中央服務器的協調下進行機器學習訓練。每個實體的數據存儲在本地,不進行交換和傳輸,只進行一些中間結果的聚合來達到訓練目標。PyTorch分布式訓練本質上利用了數據并行來提速,數據還是中心化存儲的,而聯邦學習的數據是存儲在各個實體本地。
        0
        LeoXu
        LeoXu

        @PrimiHub開源 老師好,想問下這個領域有沒有什么開放的生態存在?

        PrimiHub開源
        PrimiHub開源
        PrimiHub是一個開源的隱私計算平臺,支持聯邦學習模型訓練和預測,使用隱私計算技術保護數據隱私。谷歌、微軟等公司也有一些聯邦學習框架和產品,如TensorFlow Federated。
        0
        s
        shanch

        @PrimiHub開源  什么是聯邦學習?第一次聽到這個概念

        PrimiHub開源
        PrimiHub開源
        聯邦學習指的是多個實體在中央服務器的協調下進行機器學習訓練。每個實體的數據存儲在本地,不進行交換和傳輸,只進行一些中間結果的聚合來達到訓練目標。
        0
        e
        ericyan1

        @PrimiHub開源
        許老師好, 麻煩問下:
        1.聯邦學習有國內有哪些落地場景?
        2. 聯邦學習在云計算行業怎么結合起來呢?

        e
        ericyan1
        回復 @PrimiHub開源 : 感謝!
        PrimiHub開源
        PrimiHub開源
        2. 聯邦學習是一種機器學習技術,而云計算是一種提供計算、存儲、網絡和其他計算機資源的平臺。聯邦學習可以保護數據隱私,這樣數據所有者不需要將其數據共享給云服務提供商;同時,聯邦學習可以利用云計算的資源,來訓練大型的模型。
        PrimiHub開源
        PrimiHub開源
        1. 百度、阿里、騰訊等公司均有聯邦學習產品,應用于疾病預測、基因分析、信貸風控、零售營銷等領域。具體可參考信通院的報告 http://www.caict.ac.cn/kxyj/qwfb/ztbg//202202/P020220222528294962585.pdf
        0
        南方Go
        南方Go

        @PrimiHub開源

        1.聯邦學習算法,怎么做單機算法調優,獨立單份的數據做聯邦算法,不準,怎么同步修改聯邦算法,升級算法的依據是什么?

        2.同態加密, 這個是什么?加密這塊是否做了國產化,還是依賴國外加密技術??

        3.primihub已經可以一鍵部署docker了,基于k8s平臺運行的適配做了嗎? fastdfs這種 分布式文件系統,怎么做隱匿查詢、隱私求交,安全加密訪問? 已經有了https安全,為啥還是不安全?

        PrimiHub開源
        PrimiHub開源
        3. 做了k8s的適配,https://github.com/primihub/primihub-deploy/blob/main/k8s-deploy/README.md;算法原理和使用哪種數據源是無關的,需要增加fastdfs的支持即可;通信加密不能解決所有的問題,比如經典的“百萬富翁問題”:兩個人想比較誰更有錢,但是又不想讓對方知道自己的財富值。
        PrimiHub開源
        PrimiHub開源
        2. 同態加密技術可以支持密文上的計算,例如密文加法和密文乘法。目前有基于國密SM2和SM9的同態加密算法的論文,http://www.jcr.cacrnet.org.cn/CN/10.13868/j.cnki.jcr.000532。
        PrimiHub開源
        PrimiHub開源
        1. 參數調優一般通過調整訓練超參數(網格搜索、貝葉斯)、模型結構等。聯邦學習的參數還包括本地訓練的輪次、全局聚合的輪次、聚合求平均的方法。同時聯邦學習還需要進行通信效率優化。
        0
        賀小皮蛋
        賀小皮蛋

        我怎么感覺聯邦學習  就和漩渦鳴人學習螺旋丸手里劍一樣   先分身 然后一起學 再收回分身 收到所有分身的經驗

        PrimiHub開源
        PrimiHub開源
        回復 @賀小皮蛋 : 不一定,聯邦學習里常見的一種攻擊手段是“投毒”,指的是向服務器上傳惡意的模型,去擾亂主體模型的訓練。有一些針對這種惡意模型設計的協議,簡單來說上傳的數據要滿足一定的格式和要求,感興趣的話可以去了解下。
        賀小皮蛋
        賀小皮蛋
        回復 @PrimiHub開源 : 謝謝老師的回復 純純小白 老師 主體 會完全相信 收回的經驗與數據嗎 會二次整理分辨嗎 可能存在偽裝機器嗎 會有什么問題
        PrimiHub開源
        PrimiHub開源
        你這個比喻很形象??
        0
        袁旭成是我
        袁旭成是我

        @PrimiHub開源  有么有聯邦學習入門學習、上手開發的建議

        PrimiHub開源
        PrimiHub開源
        2. 上手開發:可以學習一些開源框架的代碼,了解其基本邏輯后編寫程序,比如在PrimiHub上開發新的聯邦算法。
        PrimiHub開源
        PrimiHub開源
        1. 入門學習:建議先看看綜述類的文章,了解領域現狀,比如這篇 https://arxiv.org/pdf/1912.04977.pdf,然后可以在自己感興趣的地方深挖下去。
        OSCHINA
        登錄后可查看更多優質內容
        返回頂部
        頂部
        一本久久综合亚洲鲁鲁五月天,无翼乌口工全彩无遮挡H全彩,英语老师解开裙子坐我腿中间