《智譜AI&清華大學:2023聯邦學習全球研究與應用趨勢報告(178頁).pdf》由會員分享,可在線閱讀,更多相關《智譜AI&清華大學:2023聯邦學習全球研究與應用趨勢報告(178頁).pdf(178頁珍藏版)》請在三個皮匠報告上搜索。
1、 清華大學深圳國際研究生院知識工程研究中心 北京智譜華章科技有限公司 開放群島開源社區 2023 聯邦學習全球研究與應用趨勢報告 I 主要發現 “中美雙雄”引領全球聯邦學習發展 中國和美國的聯邦學習論文發布量遙遙領先于其他國家。六成以上高被引論文來自中美兩國,中美兩國論文合作數量也是全球最多;七成以上最佳論文來自中美兩國。聯邦學習全球高被引論文領先的機構是谷歌(11 篇)、卡內基梅隆大學(7 篇)。中國的高被引論文量較多的機構是北京郵電大學、香港科技大學、中山大學以及深圳市大數據研究院。最佳論文數量則是卡內基梅隆大學與香港科技大學各以 3 篇而并列第一。全球高被引論文作者主要聚集在中美,美國的
2、高被引論文作者數量是中國的 2.3 倍。全球專利受理數量以中國地區最多,約占全球受理總量的七成。專利申請數量前三名機構全部是中國機構。聯邦學習的九成以上國家自然科學基金資助是青年科學基金項目和面上項目。開源框架主要來自中美,其中 OpenMined 推出的 Pysyft、FATE開源社區的 FATE 熱度超過 4000,居于第一梯隊;FedML.AI 的FedML、Adap 的 Flower、谷歌的 TFF 等框架的熱度也較高,熱度超過 2000,且 FATE 和 FedML 兩個框架目前已推出 LLM 模塊。未來聯邦學習研究趨勢將更多與算法模型和安全隱私技術相關 目前聯邦學習研究熱點主要聚焦
3、在機器學習方法、模型訓練、隱私保護三方面。未來幾年研究將更多涉及算法模型和安全隱私技術,如數據隱私、差分隱私、邊緣計算、物聯網、同態加密等??尚怕摪顚W習成為重要趨勢,聯邦大模型技術、模型產權保護(IPR)、模型定價等正在初步探索。行業應用越來越成熟,應用研究方向呈現出更多與物聯網、區塊鏈、客戶端、電子設備等融合的態勢。II 目錄 1.報告說明.1 1.1 數據范圍.3 1.2 聯邦學習知識樹.3 2.引言.5 3.聯邦學習技術研究與應用現狀.10 3.1 技術研究現狀.10 3.1.1 科研論文成果現狀.10 1 論文發表量復合年增長率為 38.6%.10 2 論文發布量以中美兩國為引領.11
4、 3 研究熱點涵蓋應用、系統和模型設計、安全隱私三個領域.12 3.1.2 高被引論文分析.20 1 六成以上高被引論文來自中美兩國.20 2 美國的論文被引用量全球顯著領先.21 3 谷歌擁有最多數量的高被引論文.23 4 聯邦學習十大算法.23 5 高被引論文 TOP10 解讀.25 6 中美兩國論文合作數量全球最多.33 7 美英兩國合作論文被引量全球領先.34 8 七成以上論文存在跨機構合作現象.35 9 物聯網期刊是發布高被引論文最多的渠道.36 10 國際頂會相關論文收錄量逐年增加.37 3.1.3 聯邦學習的特刊、書籍和綜述.38 1 特刊.38 2 書籍.41 3 綜述.44
5、3.1.4 聯邦學習研討會最佳論文.47 1 七成以上最佳論文來自中美兩國.47 2 卡內基梅隆和香港科大最佳論文量并列第一.48 3 FL-IJCAI 獲獎作者人次以中國居首,FL-NeurIPS 則以美國領先.49 4 FL-ICML 系列最佳論文作者次數最多的機構是瑞士 EPFL 與韓國 KAIST III .52 5 FL-AAAI 系列最佳論文作者半數以上為華人.53 3.1.5 高被引論文作者的人才地圖與畫像.54 1 全球高被引論文作者主要聚集在美國和中國.54 2 美國高被引論文學者量是中國的兩倍以上.55 3 谷歌是高被引論文學者量最多的機構.56 4 近三成高被引論文作者供
6、職于企業.57 5 不同研究方向的代表學者畫像.58 3.1.6 專利申請現狀.75 1 全球專利申請總體呈現上升趨勢.75 2 全球專利受理情況以中國地區最多.76 3 中國是聯邦學習技術第一大來源國.77 4 國內專利申請以北京、廣東和浙江領先.77 5 兩家金融機構專利申請量較為突出.78 6 專利技術創新點最多聚焦于客戶端與區塊鏈.79 7 專利申請最多布局在機器學習與數據存取訪問平臺保護兩個 IPC 分類 80 8 引入新興技術創新點的聯邦學習專利已開始萌芽.82 3.1.7 國家自然科學基金項目資助分析.84 1 NSFC 相關資助項目數量與金額近年來明顯增加.85 2 香港地區基
7、金資助項目多于澳門基金資助量.89 3 基金國際合作項目較多資助了安全與隱私研究方向.91 3.2 聯邦學習框架與系統現狀.92 3.2.1 開源框架.93 1 OpenMinedPySyft.97 2 FATE 開源社區FATE.98 3 FedML.AIFedML.100 4 谷歌TensorFlow Federated,TFF.102 5 字節跳動Fedlearner.103 6 百度PaddleFL.104 7 京東九數聯邦學習 9NFL.105 3.2.2 非開源框架與系統.106 1 騰訊Angel PowerFL.110 2 京東科技Fedlearn.111 IV 3 平安科技蜂
8、巢.112 4 富數科技FMPC.113 5 星云 Clustar AIOS.115 6 光之樹科技天機、云間.116 7 翼方健數翼數坊 XDP.118 8.AIIA電信領域聯邦學習技術架構.120 9.中國工商銀行工行聯邦學習平臺框架.121 3.3 聯邦學習行業應用現狀.122 4.聯邦學習發展趨勢.135 4.1 研究趨勢.135 4.1.1 總體趨勢.135 4.1.2 聯邦學習與大模型技術的融合趨勢.136 1 聯邦大模型是 AI 大模型時代的產物.136 2 聯邦學習大模型相關論文.141 4.2 技術成熟度.143 4.3 市場化與商業化趨勢.146 4.4 國內外相關標準.1
9、47 4.5 生態建立與發展.149 5.結語.151 附錄一 聯邦學習領域頂級國際期刊會議列表.153 附錄二 聯邦學習架構和應用規范簡介.154 附錄三 聯邦學習特刊的部分已發表文章.155 Computer Networks 聯邦學習特刊已發表文章.155 Computers&Security 聯邦學習特刊已發表文章.157 IEEE INTELLIGENT SYSTEMS 聯邦學習特刊已發表文章.158 Electronics 聯邦學習特刊已發表文章.160 Wireless Communications and Mobile Computing 聯邦學習特刊已發表文章.161 參考文
10、獻.165 致謝.171 版權說明.172 V 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 編寫團隊 顧問 李涓子 清華大學人工智能研究院知識智能中心 唐杰 清華大學人工智能研究院知識智能中心 編寫團隊 張淼 張建偉 張淳 商瑩玥 孫旭東 徐潔 數據 仇瑜 趙慧軍 宋健 孫堯 排版設計 邊云風 韓宇 周凱杰 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 1 1.報告說明 聯邦學習全球研究與應用趨勢報告是一個追蹤聯邦學習領域動態和進展的非營利性項目。2023 年度報告是本系列第三期,旨在更新展示聯邦學習科研成果與技術應用的最新動態。在過去的一年里,AI 世界已經
11、進入一個以大模型引領的新的發展階段。人們在驚嘆大模型的強大能力的同時,也在擔憂其訓練數據來源合規性、數據使用的偏見性等安全風險隱患;同樣,在行業監管環境越來越規范化、信息安全與隱私數據越來越受重視的背景下,聯邦學習研究和應用趨勢也逐漸邁向可信聯邦學習。聯邦學習(Federated Learning)是在進行分布式機器學習的過程中,各參與方可借助其他參與方數據進行聯合建模和使用模型。參與各方無需傳遞和共享原始數據資源,同時保護模型參數,即在數據不出本地的情況下,進行數據聯合訓練、聯合應用,建立合法合規的機器學習模型1。聯邦學習是一種新興的人工智能基礎技術,其概念于 2016 年由谷歌公司 H.B
12、rendan Mcmahan 在論文Federated Learning of Deep Networks using Model Averaging 23 中最先提出,原本用于解決安卓手機終端用戶在本地更新模型的問題,后來經香港科技大學與微眾銀行楊強教授所領導團隊在 2018 年將其擴展為機構間 B2B 分布式聯合建模架構,包括按樣本、特征分割以及異構多方建模,同時可以建立去中心協調器的 Peer-to-Peer 架 1 楊強、劉洋、陳天健等:聯邦學習,中國計算機學會通訊,2018 年版第 11 期,第 49-55 頁.2 McMahan,H.B.,Moore,E.,Ramage,D.,&y
13、 Arcas,B.A.(2016).Federated learning of deep networks using model averaging.arXiv preprint arXiv:1602.05629.3 注:該論文后于 2017 年以Communication-Efficient Learning of Deep Networks from Decentralized data 為標題發表于 AISTATS 2017。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 2 構形式,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提
14、下,在多參與方或多計算結點之間開展高效率、安全、可靠的機器學習。聯邦學習同時包括鼓勵多方持續參與合作生態的激勵機制,建立正向激勵的數據價值交易市場機制。當下,聯邦學習已經被大量應用于金融4、安防5、醫療6、在線推薦系統7等領域。聯邦學習有望成為下一代人工智能協同算法、隱私計算和協作網絡的基礎。2023 年,美國白宮發布了 國家人工智能研發戰略計劃,其中,“促進聯邦機器學習方法(Federated ML)”被列為首要戰略的十大優先事項之一,即列入“對基礎和負責任的人工智能研究進行長期投資”戰略。2023 聯邦學習全球研究與應用趨勢報告主要從技術研究、學者畫像、主流框架、行業應用,以及發展趨勢幾大
15、方面,較為全面深入地介紹聯邦學習自 2016 年誕生以來到2022 年的技術研究和應用進展,并展望該技術的未來發展方向與前景。本期報告不僅將數據范圍擴展到 2016-2022 年、更新了相關技術數據統計、現狀進展等內容,重點突出展示了該領域具有較高技術質量、創新力的科研成果,例如,對科研實踐具有較大影響力的高被引論文及其作者的分析、來自知名人工智能國際頂會的聯邦學習專題研討會最佳論文相關分析等,而且增加了聯邦學習領域的國家自然科學基金獲批項目分析、以及融合了大模型技術 4 https:/www.fedai.org/cases/utilization-of-fate-in-anti-money-
16、laundering-through-multiple-banks/5 Liu,Y.,Huang,A.,Luo,Y.,Huang,H.,Liu,Y.,Chen,Y.,Feng,L.,Chen,T.,Yu,H.,&Yang,Q.(2020).“FedVision:An Online Visual Object Detection Platform Powered by Federated Learning,”Proceedings of the AAAI Conference on Artificial Intelligence,34(08),13172-13179.6 Li W.et al.“
17、Privacy-Preserving Federated Brain Tumour Segmentation,”In:Suk HI.,Liu M.,Yan P.,Lian C.(eds)Machine Learning in Medical Imaging.MLMI 2019.Lecture Notes in Computer Science,vol 11861.Springer,Cham.7 Ben Tan,Bo Liu,Vincent Zheng,and Qiang Yang.2020.A Federated Recommender System for Online Services.I
18、n Fourteenth ACM Conference on Recommender Systems(RecSys 20).Association for Computing Machinery,New York,NY,USA,579581.DOI:https:/doi.org/10.1145/3383313.3411528 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 3 的聯邦學習論文和專利分析,以展示更加豐富的聯邦學習新方向和新探索。1.1 數據范圍 本報告研究數據范圍是科技情報大數據挖掘與服務系統平臺 AMiner 數據庫所收錄的2016-2022 年期間與聯邦學習研究
19、主題強相關的論文數據、專利數據以及公開數據等。論文的引用量數據統計截止日期為 2023 年 3 月 31 日。1.2 聯邦學習知識樹 本報告根據聯邦學習的關鍵技術和相關技術,以及該領域高被引學術論文的研究主題,將挖掘出的全球活躍的聯邦學習重要技術點表征為知識樹結構,如圖 1 所示。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 4 圖圖 1 1 聯邦學習知識樹聯邦學習知識樹 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 5 2.引言 人工智能未來能否可持續發展面臨三大困境。一是數據困境。人工智能和機器學習算法具有對數據強依賴的特性?,F實中,多數行業領域存在著數據有
20、限且質量較差的問題,并且數據以碎片化的形式分散存在,不足以支撐人工智能技術的實現。同時,數據源之間存在著難以打破的壁壘。由于行業競爭、隱私安全、行政手續復雜等問題,數據還多是以孤島形式存在的。此外,研究界和企業界目前的情況是收集數據的一方通常不是使用數據的一方。因此,將分散在各地、各機構的數據進行整合用于機器學習所需的成本非常巨大。二是法律挑戰。當前,重視數據隱私和安全已經成為世界性的趨勢,各國都在不斷地推出和加強對數據安全和隱私保護相關法規的完善。歐盟 2018 年正式施行通用數據保護條例(General Data Protection Regulation,GDPR)。在中國,全國信息安全
21、標準委員會先后于 2017 年 12 月和 2020 年 3 月發布了兩版 信息安全技術個人信息安全規范(GB/T 35273-2017、GB/T 35273-2020),對個人信息收集、儲存、使用做出了明確規定。此外,在 2017 年起實施的中華人民共和國網絡安全法8 和中華人民共和國民法總則9 中也指出網絡運營者不得泄露、篡改、毀壞其收集的個人信息,并且與第三方進行數據交易時需確保在合同中明確約定擬交易數據的范圍和數據保護義務。2021 年陸續公布實施了數 8 中華人民共和國網絡安全法,中共中央網絡安全和信息化委員會辦公室、中華人民共和國國家互聯網信息辦公室,http:/ 9 中華人民共和
22、國民法總則,中華人民共和國中央人民政府,http:/ 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 6 據安全法10、個人信息保護法11、關鍵信息基礎設施安全保護條例12,為數據安全提供了法律保護,更規范了數據的合法合規使用。三是算力困境。盡管計算設備的性能不斷提升,但 AI 算法的復雜性和計算需求也在同步增長。算力不足成為當前人工智能發展面臨的另一個困境。分布式計算通過將計算任務分散到多個計算節點上來提高計算能力和效率,既可以減輕集中計算的壓力,又可以通過動態調整計算節點的數量來適應不同的計算需求,具有可靠性和可擴展性,有助于解決人工智能發展的算力困境。針對以上困境,“狹義”
23、聯邦機器學習的概念于 2016 年由谷歌研究人員首先提出,隨后成為解決數據孤島問題、滿足隱私保護和數據安全的一個可行性解決方案 13。聯邦學習的特征是數據不出本地、各個參與者的身份和地位平等,它能夠實現多個參與方在保護數據隱私、滿足合法合規要求的前提下進行機器學習,協同地進行模型訓練與結果預測,并且建模效果和將整個數據集放在一處建模的效果相同或相差不大(在各個數據的用戶對齊(user alignment)或特征對齊(feature alignment)的條件下)13,從而實現企業間的數據融合建模,解決數據孤島問題?!皬V義”聯邦學習的概念由香港科技大學楊強教授所領導的微眾銀行 AI 團隊在 20
24、18 年提出,該團隊將聯邦學習擴展為機構和個人間的 B2C 模式和不同機構間 B2B 分布式聯合建模架構,包括按樣本、按特征分割以及異構多方建模,同時可以建立去中心協調器的 Peer-10 中華人民共和國數據安全法,中國人大網,2021 年 06 月 10 日,http:/ 11 中華人民共和國個人信息保護法,中國人大網,2021 年 08 月 20 日,http:/ 12 關鍵信息基礎設施安全保護條例,中國政府網,2021 年 08 月 17 日http:/ 13 楊強、劉洋、陳天健等:聯邦學習,中國計算機學會通訊,2018 年版第 11 期,第 49-55 頁.人工智能之聯邦學習 2023
25、 聯邦學習全球研究與應用趨勢報告 7 to-Peer 架構形式,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率、安全、可靠的機器學習和模型使用。聯邦學習同時包括鼓勵多方持續參與合作生態的激勵機制,建立正向激勵的數據價值交易市場機制。如上所述,根據孤島數據的分布特點(用戶與用戶特征的重疊情況),聯邦學習可以分為橫向聯邦學習、縱向聯邦學習與聯邦遷移學習 14。聯邦學習能夠成功的一個重要根基,在于與激勵機制、隱私和安全保護等技術的融合。聯邦學習激勵機制研究的是如何量化每個參與方對數據聯邦帶來的收益,公平地與參與者分享部
26、分收益以此作為激勵,從而實現數據聯邦長期的可持續經營15。為了防止攻擊者通過梯度匹配和模型反演等攻擊手段復現原始數據,聯邦學習通過與安全多方計算(Secure Multi-Party Computation,MPC)、同態加密(Homomorphic Encryption,HE)、差分隱私(Differential Privacy,DP)和可信執行環境(Trusted Execution Environment,TEE)等隱私計算技術相融合,進一步提升對數據的隱私保護。然而,隱私保護方法的使用往往帶來聯邦學習中模型性能的損失或者模型訓練(或推理)效率的下降。因此聯邦學習與隱私計算技術的融合通常
27、需要在模型精度、模型訓練效率和隱私(或安全)保護程度這三個維度之間進行權衡。這三個維度也是可信聯邦學習中最重要的三個優化目標。如何能夠在這三個維度上得到綜合性的提升,是聯邦學習的一個熱點研究方向1617。隨著聯邦學習的研究和應用 14 Liu Y,Chen T,Yang Q.Secure Federated Transfer Learning FrameworkJ.IEEE Intelligent Systems,vol.35,no.4,pp.70-82,1 July-Aug.2020.15 楊強,劉洋,程勇,康焱,陳天?。郝摪顚W習,電子工業出版社:北京,2020 年:99-99.16 Gir
28、gis,Antonious M.,Deepesh Data,Suhas Diggavi,Peter Kairouz,and Ananda Theertha Suresh.Shuffled model of federated learning:Privacy,accuracy and communication trade-offs.IEEE journal on selected areas in information theory 2,no.1(2021):464-478.17 Zhang,Xiaojin,Yan Kang,Kai Chen,Lixin Fan,and Qiang Yan
29、g.Trading off privacy,utility and efficiency in 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 8 不斷深化,可信聯邦學習所涉及的目標維度也在不斷延伸,比如,聯邦學習的模型魯棒性18,公平性19,可解釋性20,模型的產權保護21等都是支撐可信聯邦學習的重要維度。近年來,大模型(又稱大型語言模型,Large Language Model,簡稱 LLM)進入了快速發展的時期。先進的大模型 ChatGPT 2223 在各種自然語言處理任務上的卓越表現,進一步激發了研究機構和各大企業對大模型進行研究和應用的熱情,各種通用和垂直領域大模型層出
30、不窮。然而,大模型在實際應用中面臨諸多挑戰,主要包括:1)訓練大模型所需的公域數據即將耗盡;2)模型訓練和使用過程中涉及數據隱私保護問題;3)所需巨額的數據、算力等資源帶來的高門檻使中小型機構望而卻步,不利于技術普惠。聯邦學習是應對這些挑戰的一個很有潛力的工具。它能夠使不同規模的企業利用各自的私有領域數據共同地訓練或微調一個或多個大模型,而不必擔心私有領域數據的泄露。目前,聯邦大模型的研究還處于早期階段,主要集中在如何使聯邦學習參與方高效地微調大模型 24。聯邦大模型中的隱私、安全、魯棒性等問題仍處于探索階段。federated learning.ACM Transactions on Int
31、elligent Systems and Technology(2022).18 Xie,Chulin,Minghao Chen,Pin-Yu Chen,and Bo Li.Crfl:Certifiably robust federated learning against backdoor attacks.In International Conference on Machine Learning,pp.11372-11382.PMLR,2021.19 Li,Tian,Shengyuan Hu,Ahmad Beirami,and Virginia Smith.Ditto:Fair and
32、robust federated learning through personalization.In International Conference on Machine Learning,pp.6357-6368.PMLR,2021.20 Li,Anran,Rui Liu,Ming Hu,Luu Anh Tuan,and Han Yu.Towards Interpretable Federated Learning.arXiv preprint arXiv:2302.13473(2023).21 Li,Bowen,Lixin Fan,Hanlin Gu,Jie Li,and Qiang
33、 Yang.FedIPR:Ownership verification for federated deep neural network models.IEEE Transactions on Pattern Analysis and Machine Intelligence 45,no.4(2022):4521-4536.22 Vaswani,Ashish,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,ukasz Kaiser,and Illia Polosukhin.Attention is all
34、you need.Advances in neural information processing systems 30(2017).23 Introducing ChatGPT,https:/ 24 Zhang,Zhuo,Yuanhang Yang,Yong Dai,Qifan Wang,Yue Yu,Lizhen Qu,and Zenglin Xu.FedPETuning:When Federated Learning Meets the Parameter-Efficient Tuning Methods of Pre-trained Language Models.In Findin
35、gs of the Association for Computational Linguistics:ACL 2023,pp.9963-9977.2023.人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 9 聯邦學習作為未來 AI 發展的底層技術,它依靠安全可信的數據保護措施下連接數據孤島的模式,將不斷推動全球 AI 技術的創新與飛躍。隨著聯邦學習在更大范圍和更多行業場景中的滲透及應用,它不僅能輔助人類的工作及生活,也將逐步改變人類的認知模式,促進全社會智能化水平提升,并以“合作共贏”的模式帶動跨領域的企業級數據合作,有效降低技術應用的成本和門檻,催生基于聯合建模的新業態,進而
36、推動社會經濟及發展25。截至目前尚沒有關于聯邦學習技術發展的權威統計,本報告將主要回顧其從 2016 年誕生至 2022 年的技術發展趨勢,作為學者們了解該技術進展的重要渠道。未來我們將定期進行該技術的階段性回顧。25 微眾銀行人工智能部、鵬城實驗室、騰訊研究院、中國信通院云大所、平安科技、招商局金融科技、電子商務與電子支付國家工程實驗室(中國銀聯):聯邦學習白皮書 V2.0,深圳,2020 年,第 5-7 頁.人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 10 3.聯邦學習技術研究與應用現狀 3.1 技術研究現狀 3.1.1 科研論文成果現狀 1 論文發表量復合年均增長率為
37、38.6%基于 AMiner 系統,通過關鍵詞組26在標題和摘要中檢索 2016 年至 2022 年論文數據。結果顯示,研究時段內聯邦學習相關論文共計 6861 篇,自 2016 年被提出以來,研究論文數量逐年增多,2016-2022年的復合年均增長率為38.6%,相關論文趨勢如圖 2所示。26 聯邦學習關鍵詞檢索式:federated machine learning OR federated optimization OR federated learning OR federation learning OR(privacy AND distributed AND data mining
38、)OR(secure AND distributed AND data mining)OR(secure AND multiparty)OR(secure AND multi-party)OR(privacy AND multi-party)OR(privacy AND multiparty)OR(privacy AND distributed AND machine learning)OR(secure AND distributed AND machine learning)OR(privacy and joint learning)OR(secure and joint learning
39、)OR(privacy AND distributed AND deep learning)OR(secure AND distributed AND deep learning)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 11 圖圖 2 2 聯邦學習研究論文趨勢(聯邦學習研究論文趨勢(2 2016016-20222022 年)年)2 論文發布量以中美兩國為引領 根據論文作者所在機構所屬國家進行排序分析,發現研究時段內聯邦學習論文發布量TOP 10 國家依次是中國、美國、英國、印度、加拿大、澳大利亞、德國、俄羅斯、日本和韓國。論文量較突出的國家是中國(2217 篇)和美國(1
40、723 篇),詳細信息如圖 3 所示。圖圖 3 3 聯邦學習論文發表量聯邦學習論文發表量 TOP 10 TOP 10 國家(國家(2 2016016-20222022 年)年)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 12 3 研究熱點涵蓋應用、系統和模型設計、安全隱私三個領域(1)總體研究熱點 總體來看,基于 AMiner 系統的論文熱詞分析,發現 2016-2022 年聯邦學習領域的研究熱點 TOP 10 按熱度遞減依次包括:Internet of Things(物聯網)、aggregation(聚合)、optimization(優化)、blockchain(區塊鏈)、
41、edge computing(邊緣計算)、privacy preserving(隱私保護)、differential privacy(差分隱私)、deep network(深度網絡)、healthcare(醫療保?。?、robustness(魯棒性)等,如圖 4 所示??梢?,在研究時段內,聯邦學習的主要研究熱點是關于應用及相關算法模型,同時,安全272829和 27 Xie,Chulin,Minghao Chen,Pin-Yu Chen,and Bo Li.Crfl:Certifiably robust federated learning against backdoor attacks.In
42、 International Conference on Machine Learning,pp.11372-11382.PMLR,2021 28 So,Jinhyun,Baak Gler,and A.Salman Avestimehr.Byzantine-resilient secure federated learning.IEEE Journal on Selected Areas in Communications 39,no.7(2020):2168-2181.29 Li,Bowen,Lixin Fan,Hanlin Gu,Jie Li,and Qiang Yang.FedIPR:O
43、wnership verification for federated deep neural network models.IEEE Transactions on Pattern Analysis and Machine Intelligence 45,no.4(2022):4521-4536.人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 13 隱私303132、效用和效率333435,以及可信和可信賴相關的聯邦學習3637成為研究的關鍵因素。此外,reinforcement learning(強化學習)、multiparty computation(多方計算)、homom
44、orphic encryption(同態加密)、privacy leakage(隱私泄露)、communication efficiency(溝通效率)、vehicle(車輛交互)、wireless communication(無線通信)等相關研究也較熱,但在本期報告內沒能進入熱點 TOP 10。30 Bonawitz,Keith,Vladimir Ivanov,Ben Kreuter,Antonio Marcedone,H.Brendan McMahan,Sarvar Patel,Daniel Ramage,Aaron Segal,and Karn Seth.Practical secure
45、 aggregation for privacy-preserving machine learning.In proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security,pp.1175-1191.2017.31 Wei,Kang,Jun Li,Ming Ding,Chuan Ma,Howard H.Yang,Farhad Farokhi,Shi Jin,Tony QS Quek,and H.Vincent Poor.Federated learning with different
46、ial privacy:Algorithms and performance analysis.IEEE Transactions on Information Forensics and Security 15(2020):3454-3469.32 Zhang,Chengliang,Suyi Li,Junzhe Xia,Wei Wang,Feng Yan,and Yang Liu.BatchCrypt:Efficient homomorphic encryption for Cross-Silo federated learning.In 2020 USENIX annual technic
47、al conference(USENIX ATC 20),pp.493-506.2020.33 McMahan,Brendan,Eider Moore,Daniel Ramage,Seth Hampson,and Blaise Aguera y Arcas.Communication-efficient learning of deep networks from decentralized data.In Artificial intelligence and statistics,pp.1273-1282.PMLR,2017.34 Konen,Jakub,H.Brendan McMahan
48、,Felix X.Yu,Peter Richtrik,Ananda Theertha Suresh,and Dave Bacon.Federated learning:Strategies for improving communication efficiency.arXiv preprint arXiv:1610.05492(2016).35 Liu,Yang,Xinwei Zhang,Yan Kang,Liping Li,Tianjian Chen,Mingyi Hong,and Qiang Yang.FedBCD:A communication-efficient collaborat
49、ive learning framework for distributed features.IEEE Transactions on Signal Processing 70(2022):4277-4290.36 Zhang,Xiaojin,Yan Kang,Kai Chen,Lixin Fan,and Qiang Yang.Trading off privacy,utility and efficiency in federated learning.ACM Transactions on Intelligent Systems and Technology(2022).37 Trust
50、worthy federated learning,Springer Cham,2023 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 14 圖圖 4 4 20162016-20222022 年聯邦學習領域研究熱點詞云圖年聯邦學習領域研究熱點詞云圖 (2)年度研究熱點 分年度來看,聯邦學習研究熱點從機器學習到優化、從信息統計到量子密碼、從數據隱私到行業應用,學者們不斷探索落地聯邦學習的方法,一方面是利用交替方向乘子法(ADMM)、量化、壓縮等方式進行聯邦學習算法優化,另一方面是引入區塊鏈、密碼學、物聯網等技術建立全局共享的數據集,并對抗惡意攻擊和信息泄露。同時,學者們也對多任務
51、學習、個性化及元學習、概率近似正確學習等方法進行廣泛的研究來應對聯邦學習中的數據的非獨立同分布(Non-IID)問題、多目標優化問題等。各年度研究熱點具體情況如下。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 15 主 要 研 究 熱 點 包 括differential privacy,communication efficiency,deep network,edge computing,database 等技術,關注secret sharing,quantum signature,homomorphic encryption,secure aggregation 等安全技術
52、問題,應用領域研究以biology medicine,healthcare 為主。此外,當時熱點還包括 support vector machine,graph computation,vertical federated learning 等。延續了上年的 differential privacy,database,secure aggregation,communication efficiency 等研究熱點,新增出現了 multi-task learning,quantum key agreement,ADMM,anomaly detection,Bayesian learning,s
53、ocial network,collusion attack,quantum machine,reinforcement learning 等研究熱點。在應用方面,healthcare 依然是聯邦學習的熱點應用方向,cloud computing 和 Internet of Things 和聯邦學習的結合也成為研究熱點。2018 年聯邦學習應用相關研究熱度增加并居于前 列,如 healthcare,Internet of Things,biology medicine,edging computing。同時,學者們依舊較關注 differential privacy,secret sharin
54、g,homomorphic encryption,Quantum Key Agreement,communication efficiency 等聯邦學習安全與效率問題的研究。在這一階段區塊鏈(blockchain)技術成為熱點,為聯邦學習提供了保障用戶隱私的新方法。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 16 2019 年,edge computing,Internet of Things,blockchain 成為熱門研究領域,homomorphic encryption,secret sharing,secure aggregation 等隱私保護技術依舊受到高度關
55、注。2019 年加大了對數據異構和模型壓縮等技術的 研 究 力 度,transfer learning,multi-task learning,quantization,compression 成為熱點研究方向。如何在聯邦學習中有效地利用資源也成為 2019 年研究的熱點之一。2020 年,edge computing,Internet of things,healthcare 依舊是聯邦學習的應用熱點。聯邦學習中的效率和隱私保護技術依舊是研究熱點。2020 年加大了對聯邦學習數據異構方向的研究,熱門的研究點包括 personalization 和 transfer learning。同時,聯
56、邦學習激勵機制(incentive mechanism)的研究開始增加,以此激勵更多機構加入數據聯邦。2021 2021 年明顯加大了對聯邦學習技術應用的研究力度,Internet of Things 成為最熱門的研究點,其次是 blockchain 和 edge computing 等應用研究。Deep network,optimization,aggregation,reinforcement learning 等相關算法技術研究依舊受到高度關注。同時,privacy protection,distributed learning,multiparty computation 等成為新的熱
57、點研究方向。2022 2022 年系統和模型設計方面的總體研究熱度明顯上升且居于前列,尤其聚合技術研究熱度最高。同 時,privacy preserving,blockchain,differential privacy 等隱私保護和安全相關研究成果較上年顯著大幅增加;可信聯邦學習、安全與隱私之間的權衡、以及效用和效率等問題進一步被探索。應用研究方面,物聯網 Internet of 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 17 Things、醫療保健等熱度延續上升,本年度仍保持在前列。值得關注的是,6G 等的研究熱度增加較多,車輛交互等研究熱度則較上年有所下降。(3)主題
58、熱點趨勢 通過 TF-IDF 算法對所研究時段內每一年的聯邦學習主題相關論文數量進行計算,獲取論文數量 TOP 30 的熱點詞,然后聚合成聯邦學習的應用(application)、系統和模型設計(system and model design)和安全隱私(secure and privacy)三個主題領域的研究熱點集。這三個細分主題的研究趨勢呈現出如下特征。在應用研究領域,聯邦學習的研究熱點按照總熱度由高到低依次包括物聯網(Internet of things)、邊緣計算(edge computing)、醫療保?。╤ealthcare)、車輛交互(vehicle)、無線通信(wireless
59、communication)、5G(第 5 代移動網絡)、數據庫(database)、以及推薦(recommendation),詳細信息如圖 5 所示。聯邦學習近年來在物聯網、邊緣計算、醫療保健、數據庫、車輛交互以及推薦方面的應用研究熱度逐漸上升。相比而言,數據庫、醫療保健的研究熱度曾在 2016 年與 2017 年的研究熱度相對較高且不相上下,近年來則被其他主題的研究熱度所超過,2018 年聯邦學習相關的醫療保健應用研究熱度明顯超出其他的應用研究熱度。邊緣計算在 2019 年與 2020 年是聯邦學習技術應用研究熱度之榜首,在 2021 年與 2022 年則被物聯網方面應用研究所趕超。聯邦學
60、習在物聯網方面應用研究熱度于2017年開始出現且一路上升成為當前最熱,在車輛交互方面應用研究熱度于2018年開始出現,在 5G、6G 方面應用研究熱度則是分別從 2019 年、2020 年開始出現的。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 18 圖圖 5 5 聯邦學習在應用方面的研究熱點趨勢(聯邦學習在應用方面的研究熱點趨勢(2 2016016-20222022 年)年)關于聯邦學習在系統和模型設計方面的研究熱點趨勢情況如圖 6 所示。由圖可見,截止目前,在系統和模型設計方面研究熱點依照熱度遞減分別是聚合(aggregation)、優化(optimization)、異構(
61、heterogeneity)、魯棒性(robustness)、通信效率(communication efficiency)、公平性(fairness)、激勵機制(incentive mechanism)和資源效率(resource efficiency)。聚合主題曾經在 2019 年研究熱度最高,經過被異構和優化等主題超越的兩年之后,在 2022 年再次成為熱度最高的領域研究主題。優化主題曾經在 2016 和 2017 年研究熱度最高,經過 2018-2020 年的熱度相對弱化后,在 2021 年再度成為最熱門的研究主題。2017 年,資源效率和公平性相關主題研究開始嶄露頭角;2018年通信效
62、率相關研究占據熱度榜第一;2019 年熱度最高的是與聚合相關研究,同時,對聯邦學習(數據和系統)異構的研究大幅提升;2020 年與異構相關研究上升為最熱門,和激勵機制相關的研究數量大幅提升;2021 年與優化和聚合相關主題研究上升幅度顯著。從熱度持續性看,聚合、優化、魯棒性、激勵機制和公平性的相關研究在研究時段內一直保持著050100150200250300350物聯網邊緣計算 醫療保健 車輛交互 無線通信5G數據庫推薦 6G論文量(篇)2016年2017年2018年2019年2020年2021年2022年人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 19 不同程度的熱度上升。
63、圖圖 6 6 聯邦學習系統和模型設計方面的研究熱點趨勢(聯邦學習系統和模型設計方面的研究熱點趨勢(2 2016016-20222022 年)年)在安全隱私方面,聯邦學習研究主題依據總熱度遞減依次包括區塊鏈(blockchain)、差分隱私(differential privacy)、安全多方計算(multiparty computation)、隱私泄露(privacy leakage)、同態加密(homomorphic encryption)、惡意攻擊(malicious attack)、網絡安全(cyber security)以及容錯(fault tolerance),具體熱度趨勢情況如圖
64、7 所示。在研究時段內,區塊鏈、差分隱私、惡意攻擊、隱私泄露和同態加密的研究熱度總體持續逐年上漲。2016 年研究最熱的是對聯邦學習中惡意攻擊的研究,2017 年研究最熱的是差分隱私,2018 年研究最熱的是安全多方計算所涉及數據安全和隱私保護技術,與區塊鏈結合的相關研究雖然于 2018 年出現但快速上升成為 2019 年至 2022 年最熱的研究主題。050100150200250300350聚合優化異構魯棒性通信效率公平性激勵機制資源效率論文量(篇)2016年2017年2018年2019年2020年2021年2022年人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 20 圖圖
65、 7 7 聯邦學習安全隱私方面的研究熱點趨勢(聯邦學習安全隱私方面的研究熱點趨勢(2 2016016-20222022 年)年)3.1.2 高被引論文分析 根據聯邦學習領域論文被引用量進行排序,選取了排名前 3%的論文作為具有重大學術影響的高被引論文進行相關的作者及其所隸屬機構與國家等特征分析。數據顯示,本期聯邦學習領域高被引論文的最低被引次數是 182 次,比上期高被引論文最低被引次數提升 52%,反映出該領域論文的整體學術影響力大幅提升??紤]到在科研實踐中,一篇論文通常由來自不同國家或不同機構的幾名作者共同合作完成,本報告采用以第一作者所屬國家和機構的方法進行統計。統計分析得到以下相關發現
66、。1 六成以上高被引論文來自中美兩國 根據論文第一作者所在機構的所屬國家進行統計分析,發現聯邦學習的近年來高被引論文發表主要是來自于美國和中國。其中,美國的高被引論文占 39.2%,較上期占比略升,保持全球首位;中國的高被引論文占 22%,雖仍居于全球第二位,但數量比上期下降了近 4 個百分點;澳大利亞、英國也擁有一定數量的高被引論文;新加坡、德國、韓國、加拿大與其050100150200250區塊鏈差分隱私多方計算隱私泄露同態加密惡意攻擊網絡安全容錯 論文量(篇)2016年2017年2018年2019年2020年2021年2022年人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告
67、 21 余國家所發表高被引論文的占比均低于 5%,詳細信息如圖 8 所示。圖圖 8 8 聯邦學習高被論文國家分布(聯邦學習高被論文國家分布(2 2016016-20222022 年)年)2 美國的論文被引用量全球顯著領先 聯邦學習相關論文總引用量 TOP 10 國家是美國、中國、德國、英國、新加坡、澳大利亞、印度、瑞士、加拿大和韓國,具體信息如圖 9 所示。美國、中國已經連續三年穩居全球前兩名。本期,美國的論文總被引用量仍明顯高于其他國家,并較上期增長 2.3 倍,仍占據榜首;中國的論文被引用量較上期增長近 2 倍,保持第二位置。瑞士、加拿大和韓國是本期新進入前十的國家,上期居于前十的日本、以
68、色列和波蘭本期未能進入前十。美國39.6%中國22.0%澳大利亞5.5%英國5.5%新加坡4.9%韓國2.7%加拿大2.7%德國2.7%其他14.3%人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 22 圖圖 9 9 聯邦學習論文引用量聯邦學習論文引用量 TOP 10 TOP 10 國家(國家(20162016-20222022 年)年)從領先國家來看,美國聯邦學習被引用量最高的論文是谷歌公司研究科學家 H.Brendan Mcmahan 作為一作發表的論文Communication-efficient learning of deep networks from decentr
69、alized data 38,該論文于 2016 年發表于 ArXiv e-prints(2016):arXiv-1602,并在 2017 年收錄于 AISTATS(International Conference on Artificial Intelligence and Statistics),目前其被引用 9226 次39。中國聯邦學習總體論文引用量居于第二,其中被引用最高的論文是香港科技大學計算機科學與工程學系教授楊強為第一作者與微眾銀行 AI 部門、北京航空航天大學計算機學院的研究人員聯合發表的Federated Machine Learning:Concept and Appli
70、cations40,該文被引用量 3856 次41。38 McMahan,B.,Moore,E.,Ramage,D.,Hampson,S.,&y Arcas,B.A.(2017,April).Communication-efficient learning of deep networks from decentralized data.In Artificial Intelligence and Statistics(pp.1273-1282).PMLR.39 引用量數據統計截止到 2023 年 3 月 31 日。40 Yang,Q.,Liu,Y.,Chen,T.,&Tong,Y.(2019
71、).Federated Machine Learning:Concept and Applications.ACM Trans.Intell.Syst.Technol.10,2,Article 12,February,2019.DOI:https:/doi.org/10.1145/3298981 41 論文的被引用量數據統計截止到 2023 年 3 月 31 日。5266818807521347333720305616941611143113350100002000030000400005000060000美國中國德國英國新加坡澳大利亞印度瑞士加拿大韓國論文被引總量(次)2023年-論文被引量
72、2022年-論文被引量2021年-論文被引量人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 23 3 谷歌擁有最多數量的高被引論文 根據論文第一作者所屬機構進行排序分析,發現從全球范圍來看,聯邦學習領域高被引論文來自全球 100 多家機構。入選 3 篇以上高被引論文的機構共計 11 家機構,詳細分布情況如圖 10 所示。其中,有兩家企業、九家大學或研究所;美國機構四家,中國機構四家,另外三家分別來自澳大利亞、韓國和新加坡。其余機構的高被引論文量均在 3 篇以下。谷歌的聯邦學習高被引論文不僅入選數量最多,有 11 篇,而且相關論文的總被引用量也遙遙領先于其他機構,達 2 萬多次;卡
73、內基梅隆大學的高被引論文數量居于第二,有 7篇;新加坡的南洋理工大學有 6 篇,位于第三。中國的北京郵電大學、香港科技大學、中山大學以及深圳市大數據研究院也各有 3 篇以上入選。圖圖 1010 聯邦學習高被引論文量聯邦學習高被引論文量 3 3 篇及以上的機構(篇及以上的機構(20162016-20222022 年)年)4 聯邦學習十大算法 通過對 2016 年至 2022 年底所發表的涉及聯邦學習算法的論文進行引用量排序(去除117655444333024681012美 谷歌美 卡內基梅隆大學新 南洋理工大學美普林斯頓大學澳迪肯大學中 北京郵電大學韓慶熙大學中香港科技大學美英偉達中中山大學中深
74、圳市大數據研究院論文量(篇)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 24 高引綜述論文),選出了引用量大于 100 的前十大算法相關論文,包括 8 篇橫向、2 篇縱向的聯邦學習場景。這些算法及具體信息按照相關論文引用量排序顯示如表 1 所示。表表 1 1 聯邦學習十大算法聯邦學習十大算法 算法名 主要研究問題 聯邦學習場景 論文標題 被 引 用量(次)Federated Averaging(FedAvg)Aggregation 橫向聯邦學習 Communication-Efficient Learning of Deep Networks from Decentraliz
75、ed Data 9226 Secure Aggregation Security,Aggregation 橫向聯邦學習 Practical Secure Aggregation for Privacy-preserving Machine Learning 2015 Federated Stochastic Variance Reduced Gradient(FedSVRG)Communication-efficient 橫向聯邦學習 Federated Optimization:Distributed Machine Learning for On-device Intelligence 1
76、471 Data heterogeneity MOCHA Communication-efficient 橫向聯邦學習 Federated Multi-Task Learning 1396 Data heterogeneity FedProx Data heterogeneity 橫向聯邦學習 Federated Optimization in Heterogeneous Networks 2357 System heterogeneity Federated Learning with Client Selection(FedCS)System heterogeneity 橫向聯邦學習 Cl
77、ient Selection for Federated Learning with Heterogeneous Resources in Mobile Edge 983 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 25 SCAFFOLD Data heterogeneity 橫向聯邦學習 SCAFFOLD:Stochastic Controlled Averaging for Federated Learning 1232 Agnostic Federated Learning(AFL)Data heterogeneity 橫向聯邦學習 Agnostic Federated
78、 Learning 619 Secure Logistic Regression Security,Aggregation 縱向聯邦學習 Private Federated Learning on Vertically Partitioned Data via Entity Resolution and Additively Homomorphic Encryption 444 Lossless Privacy-preserving Tree-boosting Algorithm(SecureBoost)Security 縱向聯邦學習 SecureBoost:A Lossless Federa
79、ted Learning Framework 405 Aggregation 注:引用量數據統計截止到 2023 年 3 月 31 日。5 高被引論文 TOP10 解讀 通過對 2016 年至 2022 年底所發表論文的引用量進行統計和排序,得到聯邦學習領域高引論文 TOP10,如表 2 所示。其中,論文的被引用量數據統計截止到 2023 年 3 月 31日。本部分將對這些論文進行解讀。表表 2 2 聯邦學習領域高引論文聯邦學習領域高引論文 TOPTOP 10 10(2 2016016-20222022 年)年)排名 論文標題 作者 發表年份 被 引 用量(次)1 Communication-
80、Efficient Learning of Deep Networks from McMahan,H.Brendan;Moore,Eider;Ramage,2016 42 9226 42 該文最早發表在 ArXiv e-prints(2016):arXiv-1602,后于 2017 年被 International Conference on Artificial Intelligence and Statistics(AISTATS)收錄。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 26 排名 論文標題 作者 發表年份 被 引 用量(次)Decentralized Data
81、 Daniel;2 Federated Machine Learning:Concept and Applications Yang,Qiang;Liu,Yang;Chen,Tianjian;2019 3856 3 Federated learning:Strategies for improving communication efficiency J Konen,HB McMahan,FX Yu,P Richtrik,AT Suresh,D Bacon 2016 3577 4 Advances and Open Problems in Federated Learning Kairouz
82、Peter;McMahan H.Brendan;Avent Brendan;2021 3321 5 Federated Learning:Challenges,Methods,and Future Directions Li,Tian;Sahu,Anit Kumar;Talwalkar,Ameet;2020 2709 6 Towards federated learning at scale:System design K Bonawitz,H Eichner,W Grieskamp,D Huba,A Ingerman,V Ivanov,2019 2019 7 Practical Secure
83、 Aggregation for Privacy-Preserving Machine Learning Bonawitz,Keith;Ivanov,Vladimir;Kreuter,Ben;2017 2015 8 Federated Learning with Non-IID Data Yue Zhao;Meng Li;Liangzhen Lai;Naveen Suda;Damon Civin;Vikas Chandra 2018 1578 9 Federated optimization:Distributed machine learning for on-device intellig
84、ence J Konen,HB McMahan,D Ramage,P Richtrik 2016 1471 10 Federated Multi-Task Learning Virginia Smith,Chao-Kai Chiang,Maziar Sanjabi,Ameet Talwalkar 2017 1396 注:引用量數據統計截止到 2023 年 3 月 31 日。論 文 標 題:Communication-Efficient Learning of Deep Networks from Decentralized Data 作者:H.Brendan McMahan,Eide Moor
85、e r,Daniel Ramage,Seth Hampson;Blaise 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 27 Agera y Arcas 發表期刊:International Conference on Artificial Intelligence and Statistics(AISTATS),2017 論文地址:https:/ IID 數據分布具有魯棒性,這是該設置的一個定義特征。通信成本是主要限制因素,與同步隨機梯度下降相比,該方法顯示所需的通信輪次減少 10-100 倍。論文標題:Federated Machine Learning:Concept
86、and Applications 作者:Qiang Yang,Yang Liu,Tianjian Chen,Yongxin Tong 發表期刊:ACM Transactions on Intelligent Systems and Technology,Article No.:12pp 119,2019 論文地址:https:/ 論文摘要:今天的人工智能仍然面臨兩大挑戰。一是在大多數行業中,數據以孤島的形式存在;另一個是加強數據隱私和安全。本文為這些挑戰提出了一個可能的解決方案:安全聯邦學習。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 28 除了谷歌在 2016 年首次提出的
87、聯邦學習框架之外,本文還引入了一個全面的安全聯邦學習框架,其中包括橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。本文提供了聯邦學習框架的定義、體系結構和應用程序,并提供了關于這個主題的現有工作全面調查。此外,還提出了在組織間建立基于聯邦機制的數據網絡,作為在不損害用戶隱私的前提下實現知識共享的有效解決方案。論 文 標 題:Federated Learning:Strategies for Improving Communication Efficiency 作者:Jakub Konecn,H.Brendan McMahan,Felix X.Yu,Peter Richtrik,Ananda Thee
88、rtha Suresh,Dave Bacon 發表期刊:arXiv:Machine Learning(cs.LG),2018 論文地址:https:/ and Open Problems in Federated Learning 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 29 作者:Peter Kairouz,H.Brendan McMahan,Brendan Avent,Aurelien Bellet,Mehdi Bennis,Arjun Nitin Bhagoji,Keith Bonawitz,Zachary Charles,et al.58 authors 發表期刊
89、:Foundations and Trends in Machine Learning,no.1,2021 論文地址:https:/ Learning:Challenges,Methods,and Future Directions 作者:Tian Li,Anit Kumar Sahu,Ameet Talwalkar,Virginia Smith 發表期刊:IEEE Signal Processing Magazine,no.3,pp:50-60,2020 論文地址:https:/ Federated Learning at Scale:System Design 人工智能之聯邦學習 2023
90、 聯邦學習全球研究與應用趨勢報告 30 作者:Keith Bonawitz,Hubert Eichner,Wolfgang Grieskamp,Dzmitry Huba,Alex Ingerman,Vladimir Ivanov,ChloéKiddon,Jakub Konecný,Stefano Mazzocchi,H.Brendan McMahan,Timon Van Overveldt,David Petrou,Daniel Ramage,Jason Roselander 發表期刊:Proceedings of Machine Learning and Syst
91、ems Volume:1,pp:374-388,2019 論文地址:https:/ TensorFlow 為移動設備領域的聯邦學習構建了一個可擴展的生產系統,描述了由此產生的高級設計,勾勒出一些挑戰及其解決方案,并涉及未解決的問題和未來的方向。論文標題:Practical Secure Aggregation for Privacy-Preserving Machine Learning 作者:Keith Bonawitz,Vladimir Ivanov,Ben Kreuter,Antonio Marcedone,H.Brendan McMahan,Sarvar Patel,Daniel Ra
92、mage,Aaron Segal,Karn Seth 發表期刊:Computer and Communications Security pp:1175-1191,2017 論文地址:https:/ 2023 聯邦學習全球研究與應用趨勢報告 31 性分析和具體實現表明,即使在大型數據集和客戶端池上,其運行時和通信開銷仍然很低。對于 16 位輸入值,本文的協議以明文形式發送數據,為 210 個用戶和 220 維向量提供1.73 倍的通信擴展,并為 214 個用戶和 224 維向量提供 1.98 倍擴展。論文標題:Federated Learning with Non-IID Data 作者:Yu
93、e Zhao,Meng Li,Liangzhen Lai,Naveen Suda,Damon Civin,Vikas Chandra 發表期刊:arXiv:1806.00582 cs.LG,2018 論文地址:https:/ Non-IID 數據訓練的神經網絡,聯合學習的準確性顯著降低,高達 55%,其中每個客戶端設備僅在一類數據上訓練。進一步表明,這種精度下降可以用權重偏差來解釋,權重偏差可以用每個設備上類別分布和種群分布之間的地球移動器距離(EMD)來量化。作為一種解決方案,該文提出了一種策略,通過創建在所有邊緣設備之間全局共享的一小部分數據來改進 Non-IID 數據的訓練。實驗表明,對
94、于只有 5%的全球共享數據的 CIFAR-10 數據集,準確率可以提高 30%。論文標題:Federated Optimization:Distributed Machine Learning for On-Device Intelligence 作者:Jakub Konecn,H.Brendan McMahan,Daniel Ramage,Peter Richtrik 發表期刊:arXiv preprint arXiv:1610.02527(2016).論文地址:https:/ 2023 聯邦學習全球研究與應用趨勢報告 32 數據不均勻地分布在大量節點上。其目標是培養一個高質量的稱為聯邦優化
95、的集中模型。在這種情況下,通信效率是最重要的,而最小化通信輪數是主要目標。當將培訓數據保存在usersu0027 移動設備本地,而不是將其記錄到數據中心進行培訓時,就出現了一個激勵的示例。在聯合優化中,這些設備被用作計算節點,對本地數據執行計算,以更新全局模型。假設在網絡中有非常多的設備與給定服務的用戶數量一樣多,每個用戶只擁有一小部分可用數據的。特別是,本文預計本地可用的數據點數量要比設備數量少得多。此外,由于不同的用戶使用不同的模式生成數據,可以合理地假設沒有任何設備具有總體分布的代表性樣本。本文證明了現有的算法不適合這種設定,并提出了一種新的算法,它顯示了稀疏凸問題,出現了令人鼓舞的實驗
96、結果。這項工作還為聯邦優化方面的未來研究奠定了基礎。論文標題:Federated Multi-Task Learning 作者:Virginia Smith,Chao-Kai Chiang,Maziar Sanjabi,Ameet Talwalkar 發表期刊:Advances in Neural Information Processing Systems 30(NIPS),2017 論文地址:https:/ MOCHA,它對實際系統問題具有魯棒性。本文的方法和理論首次考慮了分布式多任務學習的高通信成本、滯后性和容錯性問題。與聯合設置中的替代方法相比,所得到的方法實現了顯著加速,正如作者通過
97、模擬真實世界聯合數據集所證明的那樣。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 33 6 中美兩國論文合作數量全球最多 AMiner 發現,四成以上的高被引論文存在著跨國科研合作,涉及到 37 個國家。如圖 11 所示,中國和美國合作的論文數量最多,高達 23 篇;其次是美國和英國、中國和新加坡,兩者之間各分別有 18 篇、11 篇的合作論文;之后,中國和英國、美國和韓國之間都各有 9 篇合作論文;中國和澳大利亞、中國和加拿大之間都各有 6 篇合作論文。其他各國家之間雖有合作但大部分為 5 篇及以下。圖圖 1111 聯邦學習高被引論文的國際合作聯邦學習高被引論文的國際合作 3
98、 3 篇以上篇以上情況(情況(2 2016016-20222022 年)年)在中國的高被引論文之中,有 71.2%存在國際之間科研合作,涉及到 18 個國家。其中,有兩篇中外合作論文涉及合作國家數量各多達 6 個。從中國在聯邦學習領域所開展的國際合作情況看,美國是中國科研論文合作最多的國家,新加坡和英國也與中國開展了較多的合作,此外,中國還與澳大利亞、加拿大、挪威、韓國、日本等國進行過論文合作。中國與以上這些國家合作的高被引論文量較上期均有不同程度增加。23181199665443333330510152025中國/美國中國/新加坡美國/韓國中國/加拿大美國/澳大利亞澳大利亞/新加坡中國/挪威
99、加拿大/韓國合作論文量(篇)合作國家人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 34 圖圖 1212 聯邦學習高被引論文的中外合作情況(聯邦學習高被引論文的中外合作情況(2 2016016-20222022 年)年)7 美英兩國合作論文被引量全球領先 在各個國家之間合作發表的高被引論文之中,美國與英國合作論文引用量超越上期居于首位的美中合作論文被引情況,成為本期跨國合作論文被引量之首。美國與中國,以及新加坡與中國的合作論文被引用量依次居于第二、三位,詳細情況如圖 13 所示。由圖可見,美國和英國、中國和美國的合作論文總引用量均超過萬次,明顯高于其他國家之間合作論文的學術影響力
100、。從跨國合作的單篇論文被引用情況看,美國谷歌研究人員與沙特阿卜杜拉國王科技大學以及英國愛丁堡大學(蘇格蘭)學者等合作發表的論文 Federated learning:Strategies for improving communication efficiency43引用量最高,達 3577 次44。43 Konen,J.,McMahan,H.B.,Yu,F.X.,Richtrik,P.,Suresh,A.T.,&Bacon,D.(2016).Federated learning:Strategies for improving communication efficiency.arXiv p
101、reprint arXiv:1610.05492.44 論文的被引用量數據統計截至到 2023 年 3 月 31 日。中/美,23中/新,11中/英,9中/澳,6中/加,6中/挪威,3中/韓,3中/卡塔爾,2中/日,2中/越,1中/俄,1中/以,1中/荷,1中/馬其頓,1中/泰,1中/芬,1中/朝,1中/瑞典,1其他,9單位:篇人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 35 圖圖 1313 聯邦學習國際合作論文的引用量聯邦學習國際合作論文的引用量 TOPTOP1010 國家組合(國家組合(2 2016016-20222022 年)年)8 七成以上論文存在跨機構合作現象 國內
102、外機構之間開展聯邦學習論文合作較為常見。高被引論文中有 74.7%是通過機構之間合作發表的。在機構之間合作的論文之中,一篇論文合作機構數量少則兩家、多則十幾家,具體分布情況如圖 14 所示。由圖可見,由 2 家機構合作完成的論文占比最多,其次是由 3 家機構合作的論文占比。值得一提的是,合作機構數量最多的論文是The future of digital health with federated learning 45,該論文合作機構涵蓋了來自德國的慕尼黑工業大學、德國癌癥研究中心、海德堡大學醫院,美國的賓夕法尼亞大學、范德比爾特大學、英特爾、國立衛生研究院,英國的倫敦帝國理工學院、倫敦國王學
103、院、牛津大學、人工智能治理中心、OpenMined 和法國的奧金以及英偉達在各國的公司等共計 16 家機構。45 Rieke,N.,Hancox,J.,Li,W.,Milletari,F.,Roth,H.,Albarqouni,S.,Maier-Hein,K.H.(2020).The future of digital health with federated learning.Npj Digital Medicine,3(1),119119.人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 36 圖圖 1414 聯邦學習合作論文的機構合作數量分布聯邦學習合作論文的機構合作數量分
104、布 9 物聯網期刊是發布高被引論文最多的渠道 從發布渠道看,2016-2022 年期間聯邦學習的高被引論文發表在 80 多個期刊會議等渠道上。其中,有 13 個發行渠道(約占 15%)發布了 3 篇及以上高被引論文,如圖 15 所示。由圖 15 可知,高被引論文較多借助于發布在 ArXiv 渠道(由美國康奈爾大學運營維護的一個非盈利的數據庫),有 22 篇;正式發布高被引論文最多的渠道是物聯網領域頂級期刊 IEEE Internet of Things Journal,其次是人工智能領域國際學術會議神經信息處理系統大會 NIPS(包括 workshop)以及 IEEE Transactions
105、 on Wireless Communications(IEEE TWC),分別各發布 11 篇、8 篇高被引論文。2家,573家,424家,205家,85家,9人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 37 圖圖 1515 高被引論文的較多發布來源高被引論文的較多發布來源 ArXiv上發表過的聯邦學習最高引用論文是2016年的Federated Learning:Strategies for Improving Communication Efficiency,該論文提出了結構化更新和草圖更新這兩種降低上行鏈路通信成本的方法,目標是利用聯邦學習提高通信效率。發表在 IoT
106、-J 上的最高被引論文是 2019 年的Incentive Mechanism for Reliable Federated Learning:A Joint Optimization Approach to Combining Reputation and Contract Theory,該文提出了一種將聲譽與契約理論相結合的有效激勵機制,以激勵具有高質量數據的高聲譽移動設備參與模型學習。發表在 NeurIPS 上的最高被引論文是Federated Multi-Task Learning,該論文發表于 2017 年,針對聯邦學習在分布式設備網絡上訓練機器學習模型時統計和系統問題,提出了一種具
107、有魯棒性的系統感知優化方法 MOCHA。10 國際頂會相關論文收錄量逐年增加 人工智能國際頂會(主會)所收錄的聯邦學習相關論文數量自 2019 年起呈現成倍增長趨勢,如圖 16 所示。2019 年僅 ICML、INFOCOM、IJCAI 三個會議收錄了相關論文,共人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 38 計 6 篇。這些會議 2020 年收錄聯邦學習的論文量達 43 篇,2021 年收錄相關論文量達 114篇,2022 年收錄聯邦學習的論文量已達 185 篇。其中,聯邦學習在 2019 年被收錄論文最多的會議是 ICML,在 2020 年至 2022 年被收錄論文最多
108、的會議都是 NeurIPS,收錄量分別是 17 篇、33 篇和 43 篇。圖圖 1616 聯邦學習國際頂會論文聯邦學習國際頂會論文 3.1.3 聯邦學習的特刊、書籍和綜述 1 特刊 據不完全統計,截至 2022 年底國內外關于聯邦學習主題的特刊已出版的有十份,涉及到聯邦學習技術及其在智能終端、網絡安全、6G 等方面應用與挑戰。這些特刊主題及出版方情況如表 3 所示。特刊的部分文章信息見附錄三。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 39 表表 3 3 已出版的聯邦學習主題的特刊已出版的聯邦學習主題的特刊 序號 特刊名稱及鏈接 期刊(出版方)影響因子/Citescore 已
109、發表的論文量(篇)1 Special Issue on Federated Learning:Algorithms,Systems,and Applications ACM Transactions on Intelligent Systems and Technology,Volume 13,Issue 4-5 10.489/4.88 24 2 Special Issue on Federated Learning for privacy preservation of Healthcare data in Internet of Medic IEEE Journal of Biomedic
110、al and Health Information,vol.27,issue 2 7.021/10.2 23 3 Special section on Enabling Blockchain and Federated Learning for Smart Services in Beyond 5G/6G Networks Computer Networks 46(Elsevier)4.474/8.1 7 4 Special Issue on Federated Learning for Decentralized Cybersecurity Computers&Security Comput
111、ers&Security 47(Elsevier)4.438/8.5 2 5 Special Issue on Federated Machine Learning IEEE INTELLIGENT SYSTEMS 48((Volume:35,Issue:4,July-Aug.1 2020)3.405/9 10 6 Special Issue Federated and Transfer Learning Applications Applied Sciences 2023,13(9)(MDPI)2.838/3.7 11 7 Special Issue Federated Learning:C
112、hallenges,Applications and Future Electronics 49(MDPI)2.390/2.7 3 8 Special Issue on AI-Based Federated Learning for 6G Mobile Networks Wireless Communications&2.336/4.300 13 46 Aims and scope-Computer Networks|ScienceD by Elsevier 47 COSE|Computers&Security|Journal|ScienceD by Elsevier 48 https:/ie
113、eexplore.ieee.org/xpl/RecentIssue.jsp?punumber=9670 49 Electronics|An Open Access Journal from MDPI 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 40 序號 特刊名稱及鏈接 期刊(出版方)影響因子/Citescore 已發表的論文量(篇)Mobile Computing 50(WILEY&Hindawi)9 Special Issue Federated Learning-Enabled Lightweight Computing and Privacy-Preserving f
114、or AIoT Security and Communication Networks,Volume 2023(Hindawi)1.968/4.2 1 10 Special Issue Commemorative Special Issue:Adversarial and Federated Machine Learning:State of the Art and New Perspectives Algorithms 2022,15(8)(MDPI)0.515/3.3 4 此外,還有六份特刊近期待截稿,如表 4 所示。表表 4 4 待發表的聯邦學習特刊一覽待發表的聯邦學習特刊一覽 序號 特
115、刊名稱及鏈接 期刊 截稿日期 1 Special Issue on Trustworthy Federated Learning IEEE Transactions on Neural Networks and Learning Systems(TNNLS)6 月 1 日2023 2 Special Issue Advancements in Deep Learning and Deep Federated Learning Models Big Data and Cognitive Computing 7 月 31 日2023 3 Special Issue Federated Learni
116、ng:Applications and Future Directions Journal of Sensor and Actuator Networks 8 月 15 日2023 4 Special Issue on Federated Learning for Big Data Applications IEEE Transaction on Big Data 9 月 1 日2023 5 Special Issue:Federated Learning Systems for Industrial Internet of Things and Blockchain:Trends and C
117、hallenges Human-Centric Intelligent Systems 9 月 30 日2023 6 Special Issue on Federated Learning on Future Generation Computer 11 月 1 日 50 AI-Based Federated Learning for 6G Mobile Networks|Hindawi 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 41 序號 特刊名稱及鏈接 期刊 截稿日期 the Edge:Challenges and Future Directions Systems 2
118、023 注:數據信息截至 2023 年 3 月 31 日。2 書籍 本報告重點推薦七本聯邦學習領域的代表書籍,其中包括兩本英文圖書、五本中文圖書。按照出版時間,相關書籍介紹如下。書名-1 Federated Learning:Privacy and Incentive 作者 Qiang Yang,Lixin Fan,Han Yu 出版社 Springer International Publishing,Switzerland 出版時間 2020 年 第 1 版 正文語種 英文 ISBN 9783030630768 該書對聯邦學習進行了全面而自成一體的介紹,從基礎知識和理論到各種關鍵應用,隱私
119、和激勵因素是全書的重點。該書包含三個主要部分:首先,它引入了不同的隱私保護方法來保護聯邦學習模型免受不同類型的攻擊,例如數據泄漏和/或數據中毒;其次,介紹了旨在鼓勵個人參與聯邦學習生態系統的激勵機制;三是描述了聯邦學習如何在工業和商業中應用,以解決數據孤島和隱私保護問題。書名-2 聯邦學習 Federated Learning 作者 楊強,劉洋,程勇,康焱,陳天健,于涵 出版社 電子工業出版社 出版時間 2020-04-01 第 1 版 正文語種 中文 ISBN 9787121385223 該書是首部全面和系統論述聯邦學習的中文著作。該書闡述了聯邦學習的定義、分類和發展歷程,并且介紹了與聯邦學
120、習緊密相關的基礎知識,比如分布式機器學習和隱私保護技術。該書對聯邦學習的每一分類,即橫向聯邦學習、縱向聯邦學習和聯邦遷移學習,所涉及的架構和算法進行了詳盡的介紹。同時,該書也討論了聯邦強化人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 42 學習,聯邦學習的激勵機制和應用實例。該書適合作為讀者入門和探究聯邦學習的第一本書。書名-3 聯邦學習技術及實戰 作者 彭南博,王虎 等 出版社 電子工業出版社 出版時間 2021-03-01 第 1 版 正文語種 中文 ISBN 9787121405976 該書由京東科技集團有著多年聯邦學習實戰經驗的工程人員合作編寫,內容包括聯邦學習基礎、具
121、體的聯邦學習算法、聯邦學習的產業應用和展望三個大部分,并給出較多案例。該書針對產業界在智能化過程中普遍面臨的數據不足問題,詳細地闡述了聯邦學習如何幫助企業引入更多數據、提升機器學習模型效果。該書廣泛介紹了聯邦學習技術的實戰經驗,主要內容包括隱私保護、機器學習等基礎知識,聯邦求交、聯邦特征工程算法,以及工程架構、產業案例、數據資產定價等。書名-4 聯邦學習實戰 作者 楊強,黃安埠,劉洋,陳天健 出版社 電子工業出版社 出版時間 2021-05-01 第 1 版 正文語種 中文 ISBN 9787121407925 該書是微眾銀行聯邦學習團隊在該領域的第二本專著。相較于第一本以理論和概述為主,該書
122、以實戰為主,兼顧對理論知識的系統總結。該書在聯邦學習的理論知識基礎上,主要介紹如何使用 Python 和 FATE 進行聯邦學習建模,包括大量聯邦學習的案例分析,篩選了經典案例進行講解,部分案例用 Python 代碼實現,部分案例采用 FATE 實現。此外,介紹了聯邦學習相關的高級知識點,包括聯邦學習的架構和訓練的加速方法等。該書適合對聯邦學習和隱私保護感興趣的高校研究者和企業研發人人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 43 員閱讀。書名-5 深入淺出聯邦學習:原理與實踐 作者 王健宗,李澤遠,何安珣 出版社 機械工業出版社 出版時間 2021-05-01 正文語種 中
123、文 ISBN 9787111679592 該書從理論與實踐的雙重維度對聯邦學習進行了闡述,提供了可動手實踐的源碼案例,也分享了作者對聯邦學習發展趨勢的洞察和思考。全書分為四個部分。第一部分主要介紹了聯邦學習的概念、由來、發展歷史、架構思想、應用場景、優勢、規范與標準、社區與生態等基礎內容。第二部分詳細講解了聯邦學習的工作原理、算法、加密機制、激勵機制等核心技術。第三部分主要講解了 PySyft、TFF、CrypTen 等主流聯邦學習開源框架的部署實踐,并給出了聯邦學習在智慧金融、智慧醫療、智慧城市、物聯網等領域的具體解決方案。第四部分概述了聯邦學習的形態、聯邦學習系統架構、當前面臨的挑戰等,并
124、探討了聯邦學習的發展前景和趨勢。書名-6 Federated and Transfer Learning 作者 Roozbeh Razavi-Far,Boyu Wang,Matthew E.Taylor,Qiang Yang 出版社 Springer Nature 出版時間 2022-09-30 正文語種 英文 ISBN 978-3-031-11747-3 該書匯集了從去中心化數據中學習、將信息從某領域轉移到另一領域、解決了關于改善聯邦學習的隱私和激勵因素及其與轉移學習和強化學習聯系的理論問題等最新研究。該書適合于在應用聯邦學習和遷移學習來解決不同類型現實世界問題的學生和學者,以及人工智能業、
125、自動駕駛汽車和網絡物理系統的科學家、研究人員和從業者。書名-7 聯邦學習原理與算法 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 44 作者 耿佳輝 牟永利 李 青 容淳銘 出版社 機械工業出版社 出版時間 2023-06 正文語種 中文 ISBN 9787111728535 重點介紹了聯邦學習計算機視覺及推薦系統等方面的應用,方便算法工程師拓展當前的算法框架,對金融、醫療、邊緣計算、區塊鏈等應用也做了詳盡闡述。詳細的代碼以及對現有框架和開源項目的介紹是本書的一大特色。還提供了全部案例源代碼下載和高清學習視頻。該書受到三位院士推薦,屬于國家出版基金項目。3 綜述 聯邦學習自 2
126、016 年提出以來,就吸引了學界和工業界的廣泛興趣。在聯邦學習的各個領域如基礎理論、系統設計方法、實施應用,面臨的挑戰和范式創新等都涌現了大量研究,相應地也產生了許多綜述文章。這里我們基于綜述的引用量和關注范圍的多樣性,選取了 9篇綜述進行介紹。詳細信息如表 5 所示。表表 5 5 聯邦學習綜述性文章一覽聯邦學習綜述性文章一覽 序號 文章 Paper 范圍 Scoping 1 Federated Machine Learning:Concept and Application 51 General overview 是聯邦學習領域最早的綜述,介紹了聯邦學習的概念,分類,系統架構和涉及的主要技術
127、方法?;跀祿植继攸c,該綜述將聯邦學習分為橫向聯邦學習,縱向聯邦學習和聯邦遷移學習,并列舉了相關應用場景。此外,通過總結相關領域的論文,討論了聯邦學習與其它學習范式,如分布式學習,邊緣計算和聯邦數據庫系統的關聯和區別。51 Q.Yang,Y.Liu,T.Chen,and Y.Tong,“Federated Machine Learning:Concept and Applications,”ArXiv190204885 Cs,Feb.2019,Accessed:Jun.16,2021.Online.Available:http:/arxiv.org/abs/1902.04885 人工智能之聯
128、邦學習 2023 聯邦學習全球研究與應用趨勢報告 45 序號 文章 Paper 范圍 Scoping 2 Advances and Open Problems in Federated Learning 52 General overview 對聯邦學習的理論和應用進行了系統和全面的介紹,涵蓋了聯邦學習的各個方面,包括定義,分類,效率和效能,數據隱私保護,攻擊及故障的魯棒性,參與方的公平性等,并重點探討了聯邦學習待解決的問題和面臨的挑戰,給研究員總結了聯邦學習的研究方向。3 Federated Learning:Challenges,Methods,and Future Directions
129、53 General overview 主要討論了聯邦學習的特點及其相較于傳統分布式計算面臨的挑戰,包括節點間的通信效率,系統的異構性,數據的不均勻性和隱私保護能力。通過深入分析這些問題提出了解決思路和未來研究方向。4 A Survey on Federated Learning System:Vision,Hype and Reality for Data Privacy and Protection 54 System review 作者主要從系統的角度對于聯邦學習進行了歸納,分析和總結。首先,介紹了聯邦學習系統的定義和系統組件?;跀祿植?、機器學習模型、隱私保護技術、通信架構、系統規模
130、和聯邦的動機六個維度對現有聯邦學習系統和方法進行了分類和研究總結,此外還探討了聯邦學習系統的設計方法、典型案例和未來的研究方向。5 Federated Learning in Mobile Edge Networks:A Comprehensive Survey 55 mobile edge networks 聚焦將聯邦學習應用于移動端邊緣計算。首先介紹了邊緣計算的動機和如何與聯 52 P.Kairouz et al.,“Advances and Open Problems in Federated Learning,”ArXiv191204977 Cs Stat,Dec.2019,Acces
131、sed:Aug.10,2020.Online.Available:http:/arxiv.org/abs/1912.04977 53 T.Li,A.K.Sahu,A.Talwalkar,and V.Smith,“Federated Learning:Challenges,Methods,and Future Directions,”IEEE Signal Process.Mag.,vol.37,no.3,pp.5060,May 2020,doi:10.1109/MSP.2020.2975749.54 Q.Li et al.,“A Survey on Federated Learning Sys
132、tems:Vision,Hype and Reality for Data Privacy and Protection,”ArXiv190709693 Cs Stat,Jan.2021,Accessed:Jun.16,2021.Online.Available:http:/arxiv.org/abs/1907.09693 55 W.Y.B.Lim et al.,“Federated Learning in Mobile Edge Networks:A Comprehensive Survey,”IEEE Commun.Surv.Tutor.,vol.22,no.3,pp.20312063,t
133、hirdquarter 2020,doi:10.1109/COMST.2020.2986024.人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 46 序號 文章 Paper 范圍 Scoping 邦學習結合進行聯合模型訓練。然后重點分析了基于聯邦學習的邊緣計算在通信成本、計算資源分配、數據隱私和數據安全方面所面臨的挑戰及未來研究方向。此外,介紹了聯邦學習與邊緣計算結合的一些應用和實現。6 Threats to Federated Learning:A survey 56 Security and privacy 從聯邦學習系統的威脅模型及可能受到的攻擊方式的角度進行了總結,主要聚
134、焦會影響模型期望行為的“投毒”和“推斷”攻擊。7 A Survey on Security and Privacy of Federated Learning 57 Security and privacy 為研究員在聯邦學習安全和隱私保護領域提供一個清晰的研究方向。該綜述對聯邦學習中所涉及的安全威脅和隱私隱患進行了全面的闡述,并且給出了可能降低這些安全威脅和隱私隱患的基本方法和可能帶來的成本。8 A Systematic Literature Review on Federated Machine Learning From a Software Engineering Perspectiv
135、e 58 Software engineering perspective 從軟件工程的角度對聯邦學習的研究進行了系統的分析和總結。該綜述詳細闡述了軟件開發生命周期中的需求分析、背景理解、架構設計、系統實現和性能評估等各個環節所對應的聯邦學習研究問題。9 Federated Learning for Healthcare Informatics 59 Healthcare 分析了聯邦學習技術應用于醫療領域所面臨的困難與挑戰,并總結了現有的解決 56 L.Lyu,H.Yu,and Q.Yang,“Threats to Federated Learning:A Survey,”ArXiv20030
136、2133 Cs Stat,Mar.2020,Accessed:Jun.16,2021.Online.Available:http:/arxiv.org/abs/2003.02133 57 V.Mothukuri,R.M.Parizi,S.Pouriyeh,Y.Huang,A.Dehghantanha,and G.Srivastava,“A survey on security and privacy of federated learning,”Future Gener.Comput.Syst.,vol.115,pp.619640,Feb.2021,doi:10.1016/j.future.2
137、020.10.007.58 S.K.Lo,Q.Lu,C.Wang,H.-Y.Paik,and L.Zhu,“A Systematic Literature Review on Federated Machine Learning:From A Software Engineering Perspective,”ACM Comput.Surv.,vol.54,no.5,pp.139,Jun.2021,doi:10.1145/3450288.59 Xu,B.S.Glicksberg,C.Su,P.Walker,J.Bian,and F.Wang,“Federated Learning for He
138、althcare Informatics,”ArXiv191106270 Cs,Aug.2020,Accessed:Jun.16,2021.Online.Available:http:/arxiv.org/abs/1911.06270 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 47 序號 文章 Paper 范圍 Scoping 方案。同時分享了聯邦學習在醫療領域的應用場景。3.1.4 聯邦學習研討會最佳論文 一些人工智能國際學術頂會在年度會議舉辦期間,專門設立了聯邦學習主題研討會(workshop)并且評選出聯邦學習領域最佳論文。2016 年至 2022 年期間人工智能頂會
139、期間聯邦學習專題研討會的最佳論文共計發現 31 篇,它們來自包括 FL-NeurIPS、FL-IJCAI、FL-ICML 以及 FL-AAAI 四個頂會系列;此外,還有一篇來自阿里巴巴達摩院團隊的論文因把圖學習用在聯邦學習上而獲得 KDD 2022 應用科學方向“最佳論文獎”。1 七成以上最佳論文來自中美兩國 基于論文一作的所屬國家,發現聯邦學習的最佳論文來自于美國、中國、瑞士、沙特阿拉伯、新加坡、韓國和法國七個國家,如圖 17 所示。其中,美國的最佳論文有 13 篇,占40.6%;中國的最佳論文有 12 篇,占 37.5%。中美兩國合計占比達七成以上。人工智能之聯邦學習 2023 聯邦學習全
140、球研究與應用趨勢報告 48 圖圖 1717 聯邦學習聯邦學習 worksworkshophop 最佳論文最佳論文國家分布國家分布 這些最佳論文的所有作者共計 130 位,來自美國、中國、瑞士、沙特阿拉伯、新加坡、韓國、俄羅斯、日本等 11 個國家的 50 多個不同機構,其中,有 6 位作者(Honglin Yuan,Junxue Zhang,Kai Chen,Tengyu Ma,Michael I.Jordan,Yiqiang Chen)參與了 2篇最佳論文的研究。2 卡內基梅隆和香港科大最佳論文量并列第一 從最佳論文一作的所在機構來看,美國的卡內基梅隆大學(Carnegie Mellon U
141、niversity)與中國的香港科技大學(The Hong Kong University of Science and Technology)各分別獲得 3 篇最佳論文,并列第一。美國的斯坦福大學(Stanford University)與伯克利大學(UC Berkeley)、瑞士的洛桑聯邦理工(EPFL)以及中國的新奧集團 ENN均分別獲得 2 篇最佳論文,其余的 10 多家機構各自獲得 1 篇最佳論文。從最佳論文所有作者所在機構來看,中國的香港科技大學與 ENN 集團是出現最佳論文作者數量最多的機構,分別達 11 人次;其次為美國的卡內基梅隆大學,出現最佳論文作者10 人次;阿里巴巴與
142、IBM 依次出現 8 人次、7 人次的最佳論文作者;美國的伯克利大學美國40.6%中國37.5%瑞士6.3%韓國6.3%沙特阿拉伯3.1%新加坡3.1%法國3.1%人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 49(University of California at Berkeley)和南加州大學,以及瑞士的 EPFL 這 3 家機構各出現 6 人次的最佳論文作者;美國的谷歌(Google)和斯坦福大學各出現 5 人次的最佳論文作者。具體信息如圖 18 所示。圖圖 1818 聯邦學習聯邦學習 worksworkshophop 最佳論文最佳論文作者數量作者數量 5 5 人次以
143、上的機構分布人次以上的機構分布 3 FL-IJCAI 獲獎作者人次以中國居首,FL-NeurIPS 則以美國領先 FL-NeurIPS 與 FL-IJCAI 兩個系列研討會的獲獎論文數量并列第一,分別評選出 12 篇最佳論文。所有這些最佳論文均是由多位作者合作完成的。FL-IJCAI 獲獎論文相關作者共計50 位,來自中國、新加坡、美國、瑞士、法國、韓國、澳大利亞、芬蘭八個國家的 20 多個機構;FL-NeurIPS 獲獎論文相關作者共計 45 位,來自美國、日本、中國、新加坡四個國家的 10 多個機構。相比而言,中國作者在 FL-IJCAI 研討會獲獎論文中表現最突出,共計有 33 人次獲獎
144、,是美國作者在該研討會獲獎人次的 6 倍以上;美國作者則在 FL-NeurIPS 研討會獲獎論文中表現更突出,共計有 40 人次獲獎。其中,FL-NeurIPS 出現最佳論文作者次數最多的機構是美國的卡內基梅隆大學(Carnegie Mellon University)(為 10 人次)。在 FL-IJCAI 系列 Workshop 中,出現人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 50 最佳論文作者次數最多的機構是中國的香港科技大學(The Hong Kong University of Science and Technology)(為 11 人次)。FL-NeurIP
145、S 與 FL-IJCAI 這兩個研討會評選的最佳論文具體信息如表 6 和表 7 所示。表表 6 6 FLFL-NeurIPS WorkshopNeurIPS Workshop 最佳論文最佳論文 Workshop名稱 序號 最佳論文標題 第一作者 FL-NeurIPS22 1 Conditional Moment Alignment for Improved Generalization in Federated Learning Jayanth Reddy Regatti(Ohio State University)2 Mechanisms that Incentivize Data Shar
146、ing in Federated Learning Sai Praneeth Karimireddy(University of California,Berkeley)FL-NeurIPS21 1 A Unified Framework to Understand Decentralized and Federated Optimization Algorithms:A Multi-Rate Feedback Control Perspective Xinwei Zhang(University of Minnesota)2 Architecture Personalization in R
147、esource-constrained Federated Learning Mi Luo(National University of Singapore)3 Efficient and Private Federated Learning with Partially Trainable Networks Hakim Sidahmed(Google Research)4 FLoRA:Single-shot Hyper-parameter Optimization for Federated Learning Yi Zhou(IBM Almaden Research Center)5 Per
148、sonalized Neural Architecture Search for Federated Learning Minh Hoang(Carnegie Mellon University)6 Sharp Bounds for Federated Averaging(Local SGD)and Continuous Perspective Margalit R Glasgow(Stanford University)FL-NeurIPS19 1 Private Federated Learning with Domain Adaptation Daniel Peterson(Oracle
149、 Labs)2 FedMD:Heterogenous Federated Learning via Model Distillation Daliang Li(Harvard University)3 Think Locally,Act Globally:Federated Learning with Local and Global Representations Paul Pu Liang(Carnegie Mellon University)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 51 Workshop名稱 序號 最佳論文標題 第一作者 4 MATCHA:Speed
150、ing Up Decentralized SGD via Matching Decomposition Sampling Jianyu Wang(Carnegie Mellon University)表表 7 7 FTLFTL-IJCAI WorkshopIJCAI Workshop 最佳論文最佳論文 Workshop名稱 序號 最佳論文標題 第一作者 FL-IJCAI2 22 1 A General Theory for Client Sampling in Federated Learning Yann Fraboni (INRIA)2 Visual Transformer Meets C
151、utMix for Improved Accuracy,Communication Efficiency,and Data Privacy in Split Learning Sihun Baek(Yonsei University)3 MetaFed:Federated Learning among Federations with Cyclic Knowledge Distillation for Personalized Healthcare Yiqiang Chen(Beijing Key Lab.of Mobile Computing and Pervasive Devices)4
152、Cluster-driven Personalized Federated Learning for Natural Gas Load Forecasting Shubao Zhao(ENN)FTL-IJCAI21 1 Robust Federated Learning with Attack-Adaptive Aggregation Ching Pui Wan(The Hong Kong University of Science and Technology)2 A Contract Theory based Incentive Mechanism for Federated Learni
153、ng Mengmeng Tian(Northeastern University,China)3 Aegis:A Trusted,Automatic and Accurate Verification Framework for Vertical Federated Learning Cengguang Zhang(Hong Kong University of Science and Technology)4 Learning Transferable Features With Deep Adaptation Networks Mingsheng Long(Tsinghua Univers
154、ity&University of California)FL-IJCAI19 1 Preserving User Privacy For Machine Learning:Local Differential Privacy or Federated Machine Learning?Huadi Zheng(Hong Kong Polytechnic University)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 52 Workshop名稱 序號 最佳論文標題 第一作者 2 FedHealth:A Federated Transfer Learning Framework
155、 for Wearable Healthcare Yiqiang Chen(Institute of Computing Technology,CAS)3 Quantifying the Performance of Federated Transfer Learning Qinghe Jing(Hong Kong University of Science and Technology)4 Federated Generative Privacy Aleksei Triastcyn and Boi Faltings(Ecole Polytechnique Fed erale de Lausa
156、nne Lausanne,Switzerland)4 FL-ICML 系列最佳論文作者次數最多的機構是瑞士 EPFL 與韓國 KAIST 在 FL-ICML 系列 Workshop 中,聯邦學習最佳論文有四篇,出現在 2020 和 2021 年(2022 年沒有組織相關主題的 workshop),均是由多位作者合作完成。相關論文作者共計14 位,來自瑞士、沙特阿拉伯、美國、韓國、俄羅斯五個國家六個機構。沒有來自中國的機構獲得該系列 Workshop 最佳論文。其中,出現最佳論文作者次數最多的機構是瑞士的EPFL(洛桑聯邦理工學院)與韓國的 KAIST(韓國科學技術高等研究院),各自分別為 4
157、人次;具體信息如表 8 所示。表表 8 8 FLFL-ICML WorkshopICML Workshop 最佳論文最佳論文 Workshop名稱 序號 最佳論文標題 作者 FL-ICML21 1 Optimal Model Averaging:Towards Personalized Collaborative Learning Felix Grimberg(EPFL),Mary-Anne Hartley(EPFL),Sai Praneeth Karimireddy(EPFL),Martin Jaggi(EPFL)2 Lower Bounds and Optimal Algorithms f
158、or Smooth and Strongly Convex Decentralized Optimization over Time-Varying Networks Dmitry Kovalev(KAUST),Elnur Gasanov(KAUST),Peter Richtarik(KAUST),Alexander Gasnikov(MIPT&ISP RAS)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 53 Workshop名稱 序號 最佳論文標題 作者 FL-ICML20 1 Federated Accelerated Stochastic Gradient Descen
159、t Honglin Yuan(Stanford University),Tengyu Ma(Stanford University)2 Federated Semi-Supervised Learning with Inter-Client Consistency Wonyong Jeong(KAIST),Jaehong Yoon(KAIST),Eunho Yang(KAIST&AITRICS),Sung Ju Hwang(KAIST&AITRICS)5 FL-AAAI 系列最佳論文作者半數以上為華人 頂會 AAAI 于 2022 年首次開設了聯邦學習研討會,其主題是 Trustable,Ve
160、rifiable and Auditable Federated Learning,并評選出 3 篇最佳論文,具體信息如表 9 所示。該系列Workshop 獲獎論文均是由多位作者合作完成,共計 14 位作者,來自美國、中國、日本三個國家四個機構。其中,華人作者有 9 位,占比六成以上。表表 9 9 FLFL-AAAIAAAI WorkshopWorkshop 最佳論文最佳論文 Workshop名稱 序號 最佳論文標題 作者 FL-AAAI-22 1 GEAR:A Margin-based Federated Adversarial Training Approach Chen Chen(Zh
161、ejiang University),Jie Zhang(Zhejiang University),Lingjuan Lyu(Sony AI)2 WT-Shapley:Efficient and Effective Incentive Mechanism in Federated Learning for Intelligent Safety Inspection Chengyi Yang(ENN),Jia Liu(ENN),Hao Sun(ENN),Tongzhi Li(ENN),Zengxiang Li(ENN)3 SSFL:Tackling Label Deficiency in Fed
162、erated Learning via Personalized Self-Supervision Chaoyang He(University of Southern California,USC),Zhengyu Yang(USC),Erum Mushtaq(USC),Sunwoo Lee(USC),Mahdi Soltanolkotabi(USC),Salman Avestimehr(USC)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 54 3.1.5 高被引論文作者的人才地圖與畫像 1 全球高被引論文作者主要聚集在美國和中國 基于 AMiner 系統,通過關鍵詞組60
163、在標題和摘要中檢索 2016 年至 2022 年聯邦學習相關論文數據,然后根據聯邦學習領域論文被引用量進行排序,選取了排名前 3%的論文作為具有重大學術影響的高被引論文。對這些高被引論文進行數據挖掘而獲取論文作者信息,通過命名消歧和信息抽取等大數據分析和挖掘技術,進行作者畫像和人才相關分析。此外,還抽取論文作者發表該論文時的供職機構和國家信息,對不同國家和機構的研究者進行統計和特征分析。在研究時段內,聯邦學習領域高被引論文作者共計 898 位61,分布在亞洲、北美洲、歐洲以及大洋洲的 50 多個國家之中,所在國家分布如圖 19 所示,從分布密度來看,這些學者主要聚集在東亞的中國(173 位)、
164、新加坡(40 位),北美洲的美國(392 位)和歐洲的英國(44 位)、德國(29 位)等國家。60 聯邦學習關鍵詞檢索式:Federated Machine Learning OR Federated optimization OR federated learning OR federation learning OR(Privacy AND Distributed AND data mining)OR(Secure AND Distributed AND data mining)OR(Secure AND Multiparty)OR(Secure AND Multi-party)OR(p
165、rivacy AND Multi-party)OR(privacy AND Multiparty)OR(Privacy AND Distributed AND machine learning)OR(Secure AND Distributed AND machine learning)OR(Privacy and joint learning)OR(Secure and joint learning)OR(Privacy AND Distributed AND deep learning)OR(Secure AND Distributed AND deep learning)61 作者統計未
166、去重,包含同一作者發表多篇高被引論文情況,下文同。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 55 來源:AMiner 知因系統 圖圖 1919 聯邦學習聯邦學習全球高被引論文作全球高被引論文作者者位置分布(位置分布(20162016-20222022 年年)2 美國高被引論文學者量是中國的兩倍以上 聯邦學習高被引論文作者主要聚集在美國和中國,這兩個國家擁有的學者數量分別為392 位和 173 位,明顯多于其他國家的學者數量,如圖 20 所示。其他前十國家的學者數量的均不足百人。澳大利亞和英國的高被引論文作者數量并列第三。值得注意,美國的高被引論文作者數量全球最多,占全球四成
167、以上,也是中國高被引論文作者數量的 2.3 倍。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 56 圖圖 2020 聯邦學習聯邦學習高被引論文作高被引論文作者數量者數量 TOPTOP 10 10 國家國家(20162016-20222022 年年)3 谷歌是高被引論文學者量最多的機構 基于對研究時段內相關高被引論文作者所供職機構信息的抽取分析,發現從全球范圍來看,聯邦學習領域高被引學者總量 TOP 10 機構之中,半數席位被美國機構占據,其余幾家機構則來自中國、新加坡,其中,中國電子科技大學與英特爾公司并列第十,如圖 21 所示。前十機構包括五家企業,分別是谷歌、IBM、英偉達
168、、微眾銀行和英特爾;谷歌的高被引論文作者數量最多,其余各家機構的聯邦學習領域研究學者數量在 1020 位。3921734444402925241712050100150200250300350400450作者數量(人次)國家人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 57 圖圖 2121 聯邦學習領域聯邦學習領域高被引學者數量高被引學者數量 TOPTOP 1010 機構(機構(20162016-2022022 2 年年)4 近三成高被引論文作者供職于企業 研究聯邦學習的高被引論文作者之中,有 26.1%供職于企業,如圖 22 所示。同時,如前文所述,高被引論文作者數量全球前十
169、機構有約一半是企業,而且,谷歌的高被引論文作者數量最多??梢?,在聯邦學習領域,企業人才是一個不可忽視的研究群體。究其這種現象的原因,可能是由于聯邦學習是一個起源于工業界且已落地于醫療、金融等應用場景的新技術,更是一個有活力、有前途的熱門發展領域,工業界研究者有較多實踐研究成果來發布。81201918171614121110100102030405060708090作者數量(位)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 58 圖圖 2222 聯邦學習聯邦學習高被引論文作高被引論文作者者供職機構性質分布供職機構性質分布 5 不同研究方向的代表學者畫像 在 AMiner 學術搜索
170、服務平臺上,根據相關算法,通過對 AAAI、CCS、ICLR、ICML、IJCAI、NIPS、SP 等聯邦學習領域頂尖學術會議近年來收錄論文的挖掘,并結合熱心網友的推薦和整理,篩選出了“聯邦學習”主題領域 100 篇經典必讀論文(簡稱 Topic 必讀論文)??梢詭椭脩艨焖倭私庠擃I域知識,從而提高學習效率。用戶只需在檢索框輸入“Federated Learning”或中文“聯邦學習”,就能看到聯邦學習 TOPIC 頁面(https:/ H-index 值與至少 3 篇以上代表作論文的被引用量大學69.7%企業26.1%研究組織4.2%人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報
171、告 59 均大于 30 62;學者的代表作論文則是指該學者在 2016-2022 年發表的引用量大于 30 63 的聯邦學習相關的非綜述論文,并且,該學者作為該篇論文的前兩位作者或者通訊作者出現。限于報告篇幅,我們不能對所有學者逐一羅列,僅隨機抽取了符合以上規則的部分學者作為展示,同時同一機構僅抽取一或兩位以求盡量覆蓋到更多不同機構的學者。最終所抽取的代表性學者按照其 H-index 值進行從高到低的順序展示。如要獲得更多學者信息,請查看網址 https:/ Qiang Yang(楊強)香港科技大學 教授;微眾銀行 首席人工智能官 最高學位畢業院校:美國馬里蘭大學 博士 曾經任職:香港科技大學
172、計算機與工程系主任、第四范式有限公司聯合創始人、華為諾亞方舟研究實驗室創始主任、加拿大 BC 省西蒙弗雷澤大學副教授/正教授、加拿大滑鐵盧大學計算機科學助理/副教授等。研究興趣:人工智能、遷移學習、聯邦學習、機器學習、數據挖掘 相關論文代表作:62 H-index 值是基于 AMiner 數據庫截至 2023 年 3 月 31 日的統計。63 論文引用量數據統計截至到 2023 年 3 月 31 日。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 60 序號 論文名稱 論文地址 發表期刊/年份 1 FedVision:An Online Visual Object Detecti
173、on Platform Powered by Federated Learning https:/ AAAI,no.08(2020):13172-13179 2 A Fairness-aware Incentive Scheme for Federated Learning https:/ AIES,pp.393-399,(2020)3 FedBCD:A Communication-Efficient Collaborative Learning Framework for Distributed Features https:/ arXiv preprint arXiv:1912.11187
174、(2019)/FL-NeurIPS 2019;IEEE Transactions on Signal Processing 2022 4 A Secure Federated Transfer Learning Framework https:/ Intelligent Systems,35(4),70-82.5 SecureBoost:A Lossless Federated Learning Framework https:/ Intelligent Systems(2021)6 Secure Federated Matrix Factorization https:/ Intellige
175、nt Systems(2020)7 Federated Machine Learning:Concept and Applications https:/ Transactions on Intelligent Systems and Technology(TIST)10.2(2019):1-19.8 Privacy-preserving Heterogeneous Federated Transfer Learning https:/ IEEE International Conference on Big Data(Big Data)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢
176、報告 61 Dawn song(宋曉東)加州大學伯克利分校電氣工程與計算機科學系 教授 最高學位畢業院校:美國加州大學伯克利分校博士 曾經任職:卡內基梅隆大學助理教授 研究興趣:深度學習、區塊鏈和去中心化系統,計算機安全、隱私和應用密碼學,使用程序分析、算法設計和機器學習來確保安全和隱私。相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Epione:Lightweight Contact Tracing with Strong Privacy https:/ Data Eng.Bull.,no.2(2020):95-107 2 Keystone:An Open Framework
177、 for Architecting Trusted Execution Environments https:/ 20:Fifteenth EuroSys Conference 2020 Heraklion Greece April,2020,pp.1-16,(2020)3 The Secret Revealer:Generative Model-Inversion Attacks Against Deep Neural Network https:/ The Secret Sharer:Evaluating and Testing Unintended Memorization in Neu
178、ral Network https:/ Security Symposium,pp.267-284,(2019)5 Towards Pratical Differential Privacy for SQL Queries https:/ of the Vldb Endowment,no.5(2018):526-人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 62 539 6 Ekiden:A Platform for Confidentiality-preserving,Trustworthy,and Performant Smart Contracts https:/ Tar
179、geted Backdoor Attacks on Deep Learning System using Data Poisoning https:/ and Security,(2017)Bingsheng He 新加坡國立大學 副教授 最高學位畢業院校:香港科技大學 博士 曾經任職:南洋理工大學 研究興趣:并行和分布式系統、云計算、高性能計算、數據庫系統、大數據系統、GPGPU 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Federated Learning on Non-IID Data Silos:An Experimental Study https:/ 2022
180、2 Model-Contrastive Federated Learning https:/ 2021 3 Practical federated gradient boosting decision trees https:/ of the AAAI Conference on Artificial Intelligence 34(04),4642-4649 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 63 Salman Avestimehr 南加州大學 教授;FedML 首席執行官兼聯合創始人 最高學位畢業院校:加州大學伯克利分校 博士 曾經任職:康奈爾大學助理教授、加州
181、理工學院博士后 研究興趣:信息論、機器學習、分布式計算、安全/隱私學習/計算、聯邦學習 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 FedML:A Research Library and Benchmark for Federated Machine Learning https:/ Machine Learning(2020)2 Group knowledge transfer:Federated learning of large cnns at the edge https:/ in Neural Information Processing Systems 33,1
182、4068-14080 3 Turbo-aggregate:Breaking the quadratic aggregation barrier in secure federated learning https:/ Journal on Selected Areas in Information Theory 2(1),479-489 Peter Richtarik 阿卜杜拉國王科技大學 教授 最高學位畢業院校:康奈爾大學 博士 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 64 曾經任職:康奈爾大學 研究與教學助理,魯汶天主教大學博士后,加州大學伯克利分??妥斫淌?,愛丁
183、堡大學 數學副教授,斯科國立大學物理與技術學院客座教授 研究興趣:優化、機器學習、聯邦學習、深度學習 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Federated Optimization:Distributed Machine Learning for On-Device Intelligence https:/ preprint arXiv:1610.02527 2 Federated Learning of a Mixture of Global and Local Models https:/ preprint arXiv,2020,2002(05516)Wojci
184、ech Samek 德國柏林理工學院電子工程與計算機系 教授 最高學位畢業院校:柏林工業大學 博士 研究興趣:機器學習、可解釋性深度學習、聯邦學習 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Robust and Communication-Efficient Federated Learning from Non-i.i.d.Data https:/ transactions on neural networks(2020)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 65 2 Clustered Federated Learning:Model-Agnos
185、tic Distributed Multitask Optimization Under Privacy Constraints https:/ Transactions on Neural Networks and Learning Systems 32(8),3710-3722 H.Brendan Mcmahan 谷歌公司 研究科學家 最高學位畢業院校:美國卡耐基梅隆大學 計算機科學博士 研究興趣:機器學習、聯邦學習、分布式優化、差異隱私、深度學習 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Advances and Open Problems in Federated
186、Learning https:/ Foundations and Trends in Machine Learning,no.1(2019)2 Generative Models for Effective ML on Private,Decentralized Datasets https:/ Communication-efficient learning of deep networks from decentralized data https:/ Federated Optimization:Distributed Optimization for On-Device Intelli
187、gence https:/ preprint arXiv:1610.02527(2016)5 Federated Learning:Stragegies for https:/arXiv preprint 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 66 Improving Communication Efficiency/pub/58437725ac44360f1082f72b/arXiv:1610.05492(2016)6 Can You Really Backdoor Federated Learning?https:/ preprint arXiv:1911.0796
188、3(2019)Ameet Talwalkar 美國卡耐基梅隆大學 助理教授 最高學位畢業院校:美國紐約大學 博士 曾經任職:Determined AI、加州大學洛杉磯分校 研究興趣:機器學習,重點關注與自動化、公平性、可解釋性和聯邦學習相關的主題 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Federated multi-task learning https:/ Leaf:A benchmark for federated settings https:/ Expanding the reach of federated learning by reducing clien
189、t resource requirements https:/ Tong(童詠昕)北京航空航天大學計算機科學與工程學院 教授 最高學位畢業院校:香港科技大學 博士 曾經任職:北航計算機科學與工程學院軟件開發環境國家重點實驗室(SKLSDE)研究興趣:聯邦學習、數據聯邦、時空大數據分析、眾包數據庫、隱私保護數據分析 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 67 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Federated Machine Learning:Concept and Applications https:/ Transactions on I
190、ntelligent Systems and Technology,2019,10(2):12:1-12:19.2 Profit Allocation For Federated Learning https:/ IEEE International Conference on Big Data(Big Data),2577-2586 Bo Li(李博)美國伊利諾伊大學厄巴納-香檳分校 助理教授 最高學位畢業院校:美國德克薩斯農工大學 博士 研究興趣:對抗性機器學習、安全、隱私、大數據 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 DBA:Distributed Backdoo
191、r Attacks against Federated Learning https:/ Conference on Learning Representations(ICLR),人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 68 2020 2 CRFL:Certifiably Robust Federated Learning against Backdoor Attacks https:/ Conference on Machine Learning,11372-11382,2021 3 Attack-Resistant Federated Learning with Re
192、sidual-based Reweighting https:/ preprint arXiv:1912.11464,2019 Reza Shokri 新加坡國立大學 教授 最高學位畢業院校:瑞士洛桑聯邦理工學院 EPFL 博士 研究興趣:計算機安全和隱私、機器學習 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Comprehensive Privacy Analysis of Deep Learning:Passive and Active White-box Inference Attacks against Centralized and Federated Learni
193、ng https:/ IEEE symposium on security and privacy,pp.739-753,(2019)2 Machine Learning with Membership Privacy using Adversarial Regularization https:/ of the 2018 ACM SIGSAC Conference on Computer and Communications Security.3 Privacy Risks of Securing Machine https:/CCS,pp.241-人工智能之聯邦學習 2023 聯邦學習全球
194、研究與應用趨勢報告 69 Learning Models against Adversarial Examples/pub/5cf48a3dda56291d582a0290/257,2019.4 Synthesizing Plausible Privacy-preserving Localtion Traces https:/ Symposium on Security and Privacy,pp.546-563,(2016)5 Membership Inference Attacks against Machine Learning Models https:/ Symposium on
195、Security and Privacy,(2017)Han Yu 新加坡南洋理工大學 助理教授 最高學位畢業院校:新加坡南洋理工大學 博士 曾經任職:惠普軟件工程師、微眾銀行顧問 研究興趣:可信聯邦學習、人工智能倫理 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 A Fairness-aware Incentive Scheme for Federated Learning https:/ 3rd AAAI/ACM Conference on AI,Ethics,and Society(AIES-20),393399 126 2020 2 Privacy and robust
196、ness in federated learning:Attacks and defenses https:/ Transactions on Neural Networks and Learning Systems(TNNLS)2022 3 Collaborative fairness in federated learning https:/ Learning:Privacy and Incentive,人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 70 f95615d/189-204,(2020)Daniel Ramage 斯坦福人工智能實驗室 研究科學家 最高學位畢業院
197、校:斯坦福大學 博士 曾經任職:谷歌研究、IBM 蘇黎世研究實驗室、微軟研究院 研究興趣:機器學習、聯邦學習、安全隱私、自然語言處理、移動系統 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Communication-Efficient Learning of Deep Networks from Decentralized Data https:/ Conference on Artificial Intelligence and Statistics(AISTATS)(2017)2 Federated learning for mobile keyboard predict
198、ion https:/ Research Repository(CoRR)(2018)Ananda Theertha Suresh 谷歌公司 高級研究科學家 最高學位畢業院校:美國加州大學圣地亞哥分校 博士 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 71 研究興趣:聯邦學習、統計分析、信息理論 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Three Approaches for Personalization with Applications to Federated Learning https:/ SCAFFOLD:Stochastic Contro
199、lled Averaging for Federated Learning https:/ Foundations and Trends in Machine Learning,2019.3 Agnostic Federated Learning https:/ Conference on Machine Learning.PMLR,2019.4 cpSGD:Communication-efficient and Differentially-private Distributed SGD https:/ Distributed Mean Estimation with limited Com
200、unication https:/ Conference on Machine Learning.PMLR,2017(2)聯邦學習應用方面(邊緣計算與區塊鏈等)Dusit Tao Niyato 新加坡南洋理工大學計算機科學與工程學院、物理與數學學院 教授 最高學位畢業院校:加拿大馬尼托巴省溫尼伯市曼尼托巴大學 博士 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 72 研究興趣:可持續性、邊緣智能、去中心化機器學習、激勵機制設計 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Federated learning for 6G communications:Chal
201、lenges,methods,and future directions https:/ Communications(2020)17(9),105-118 2 Completion Time and Energy Optimization in the UAV-Enabled Mobile-Edge Computing System https:/ Internet of Things Journal 7(8),7808-7822(2020)Song Guo 香港理工大學計算機系 教授 最高學位畢業院校:加拿大渥太華大學 博士 曾經任職:日本會津大學教授、北不列顛哥倫比亞大學助理教授、香港理
202、工大學邊緣智能實驗室創始主任 研究興趣:邊緣智能、聯邦學習、AI 賦能的物聯網、邊緣計算與區塊鏈、分布式系統 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 73 1 A Learning-based Incentive Mechanism for Federated Learning https:/ internet of things journal(2020)2 Experience-driven computational resource allocation of federated learning by d
203、eep reinforcement learning https:/ International Parallel and Distributed Processing Symposium(2020):234-243 3 Parameterized knowledge transfer for personalized federated learning https:/ on Neural Information Processing Systems abs/2111.02862(2021):10092-10104.Jun Zhang 香港科技大學 副教授 最高學位畢業院校:德克薩斯大學奧斯
204、汀分校 博士 曾經任職:香港理工大學電子及計算機工程學系副教授 研究興趣:移動邊緣計算、邊緣人工智能、無線通信、聯邦學習 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Client-edge-cloud hierarchical federated learning https:/ 2020-2020 IEEE International Conference on Communications(ICC),1-6 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 74 2 Dynamic Computation Offloading for Mobile-Edge
205、Computing with Energy Harvesting Devices https:/ Journal on Selected Areas in Communications(2016)34(12),3590-3605 3 Hierarchical federated learning with quantization:Convergence analysis and system design https:/ Transactions on Wireless Communications 22.1(2023):2-18.Zehui Xiong 新加坡科技設計大學 助理教授 最高學
206、位畢業院校:新加坡南洋理工大學 博士 曾經任職:新加坡阿里巴巴-南洋理工大學聯合研究院 研究興趣:網絡系統的優化和智能、區塊鏈與數據管理的安全和隱私保護、邊緣人工智能系統的聯邦機器學習、智能物聯網的群體智能和邊緣學習、無線通信的資源管理、元宇宙 相關論文代表作:序號 論文名稱 論文地址 發表期刊/年份 1 Incentive Design for Efficient Federated Learning in Mobile Networks:A Contract Theory https:/ Incentive Mechanism For Reliable Federated Learning
207、:A Joint Optimization Approach To Combining Reputation And Contract Theory https:/ internet of things journal(2019)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 75 3 Reliable Federated Learning for Mobile Networks https:/ Wireless Communications(2020)3.1.6 專利申請現狀 基于 AMiner 和智慧芽專利數據庫,通過聯邦學習相關關鍵詞檢索式 64,在“標題/摘要/權利要求”
208、中進行相關專利搜索,并按照受理局進行簡單同族申請去重,統計截止日期為 2023 年 4 月 30 日。數據結果顯示,2016 年至 2022 年七年期間,共計得到 5,968 件簡單同族(共 9,277 條)聯邦學習技術相關專利申請記錄。1 全球專利申請總體呈現上升趨勢 聯邦學習的專利申請數自 2016 年以來呈現不斷攀升的趨勢,直至 2022 年達到峰值,其中,2019 年聯邦學習專利申請的增長幅度最大,其次是 2020 年相關專利申請增幅,2019和 2020 這兩年的專利增長幅度均超過 100%;2021 年和 2022 年的聯邦學習專利申請量基本持平,具體申請趨勢情況如圖 23 所示。
209、預計接下來幾年內,隨著聯邦學習技術的進一步發展,相關專利申請數量仍將熱度不減。64關鍵詞檢索式:TAC_ALL:(federated machine learning OR federated optimization OR federated learning OR federation learning OR(privacy AND distributed AND data mining)OR(secure AND distributed AND data mining)OR(secure AND multiparty)OR(secure AND multi-party)OR(privac
210、y AND multi-party)OR(privacy AND multiparty)OR(privacy AND distributed AND machine learning)OR(secure AND distributed AND machine learning)OR(privacy AND joint learning)OR(secure AND joint learning)OR(privacy AND distributed AND deep learning)OR(secure AND distributed AND deep learning)AND APD:20160
211、101 TO 20221231 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 76 圖圖 2323 20162016-20222022 年聯邦學習專利申請趨勢年聯邦學習專利申請趨勢 2 全球專利受理情況以中國地區最多 全球范圍內,近年來受理聯邦學習專利申請數最多的地區是中國,有 4000 多件,約占全球受理總量的七成以上,數量優勢非常突出,如圖 24 所示。美國和世界知識產權組織等其他國家和地區的專利受理數量遠遠低于在中國的受理量。這反映出聯邦學習技術創新和推廣應用在中國地區相對比較熱門。圖圖 2424 聯邦學習專利申請全球受理局分布(聯邦學習專利申請全球受理局分布(20162
212、016-20222022 年)年)6511620254111991906193978.5%74.1%167.8%121.6%59.0%1.7%0%20%40%60%80%100%120%140%160%180%050010001500200025002016201720182019202020212022增幅(%)專利申請數(單位:件)年份4642680209155845243171613010002000300040005000中國美國世界知識產權組織印度韓國德國歐洲專利局澳大利亞中國臺灣英國專利數(單位:件)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 77 3 中國是聯邦
213、學習技術第一大來源國 截至本報告時段,全球聯邦學習第一大技術來源國為中國,中國聯邦學習專利申請量占全球聯邦學習專利總申請量的 75.8%;其次是美國,美國聯邦學習專利申請量占全球聯邦學習專利總申請量的 11.6%。韓國和印度雖然排名第三和第四,但是與排名第一的中國專利申請量差距較大。相關信息如圖 25 所示。圖圖 2525 聯邦學習專利申請技術來源國分布聯邦學習專利申請技術來源國分布 4 國內專利申請以北京、廣東和浙江領先 國內近年來聯邦學習專利申請量 TOP10 省市分別是北京、廣東、浙江、上海、江蘇、山東、陜西、四川、湖南和重慶,其中包括了較多的沿海地區省市,詳細申請情況如圖 26所示。其
214、中,北京、廣東和浙江屬于該領域第一梯隊,專利申請量均高于 500 件,明顯超過其他省市。北京在 2021 與 2022 年的專利申請量增長快速,超過廣東成為國內領先城市。中國75.8%美國11.6%韓國2.5%印度1.9%其他8.2%人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 78 圖圖 2626 聯邦學習專利量聯邦學習專利量 TOPTOP 10 10 國內省市分布國內省市分布(2 2016016-20222022 年)年)5 兩家金融機構專利申請量較為突出 從專利申請人來看,聯邦學習專利申請量 TOP10 的機構主要分布在中國和美國兩個地區,依次占據八席和兩席,同時,排名前
215、 3 名機構都位于中國。具體情況如圖 27 所示。TOP10 的機構中有兩所高校即北京郵電大學、西安電子科技大學,其余都是全球頂尖的科技或者是互聯網公司。相比上期報告,支付寶(杭州)信息科技有限公司與深圳前海微眾銀行股份有限公司這兩家金融機構仍然保持在榜單的前兩位,且它們的專利申請數均超過 200件。本期包括三家新入榜機構,分別是華控清交信息科技(北京)有限公司、北京郵電大學、深圳致星科技有限公司。10759966753572921401351218276020040060080010001200北京廣東浙江上海江蘇山東陜西四川湖南重慶專利申請量(單位:件)人工智能之聯邦學習 2023 聯邦學
216、習全球研究與應用趨勢報告 79 圖圖 2727 聯邦學習專利申請量聯邦學習專利申請量 TOPTOP 10 10 機構(機構(20162016-20222022 年)年)6 專利技術創新點最多聚焦于客戶端與區塊鏈 通過算法對聯邦學習相關專利進行詞頻統計分析和文本聚類,提取該領域排名靠前的關鍵詞并制作詞云圖,如圖 28 所示。最熱門的聯邦學習技術主題詞包括客戶端、區塊鏈、服務器、學習方法、電子設備、全局模型、機器學習、隱私保護、模型參數、模型訓練、分布式等。與上期報告相比,除了安全與隱私保護,以及機器學習方法等方向,聯邦學習本期的專利布局更多地聚焦于客戶端、電子設備、全局模型、模型訓練等方面。29
217、028510490817877737063050100150200250300350支付寶(杭州)信息技術有限公司深圳前海微眾銀行股份有限公司華控清交信息科技(北京)有限公司北京郵電大學谷歌有限責任公司西安電子科技大學深圳致星科技有限公司國際商業機器公司平安科技(深圳)有限公司華為技術有限公司專利申請量(單位:件)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 80 圖圖 2828 聯邦學習相關專利申請涉及的關鍵詞云聯邦學習相關專利申請涉及的關鍵詞云 7 專利申請最多布局在機器學習與數據存取訪問平臺保護兩個 IPC 分類 在聯邦學習專利之中,申請數量最熱門的專利 IPC 分類是
218、G06N20 機器學習2019.01,相應的專利申請約近三成;其次是 G06F21/62(通過一個平臺保護數據存取訪問,例如使用密鑰或訪問控制規則 2013.01 2013.01),相關專利量居于第二位。詳細信息如圖 29 所示。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 81 圖圖 2929 聯邦學習專利申請量聯邦學習專利申請量 TOPTOP 10 10 的的 IPCIPC 分類分類 在聯邦學習專利的數據存取訪問平臺保護、機器學習兩個最熱門申請的 IPC 分類下,領先專利申請機構主要來自中國和美國,詳細情況如圖 30 所示。其中,支付寶公司在G06F21/62(數據存取訪問
219、平臺保護)方面進行了最多數量的聯邦學習專利布局,微眾銀行在 G06N20(機器學習)方面了進行最多數量的聯邦學習專利布局,此外,北京郵電大學、谷歌公司都在機器學習、數據存取訪問平臺保護等不同分類的專利技術布局較均衡;華控清18391415101510118637997505144393460500100015002000G06N20/00G06F21/62G06F21/60G06N3/08.G06K9/62.G06N3/04.G06N20/20H04L9/08.H04L9/40.H04L29/06專利申請量(單位:件)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 82 交信息公
220、司也較多布局在數據存取訪問平臺保護方面技術。圖圖 3030 聯邦學習專利聯邦學習專利 IPCIPC 分類分類 TOPTOP 3 3 專利領先申請人技術分布專利領先申請人技術分布 8 引入新興技術創新點的聯邦學習專利已開始萌芽 上期報告以來,聯邦學習領域出現了一些技術主題創新,其中以可信聯邦學習和大模型尤為火熱。本報告期內,引入這些相關技術創新點的專利已經開始出現,雖然專利數量目前暫時還都很少,但是值得關注??尚怕摪顚W習相關專利 65 共計發現 58 件簡單同族專利,分布在 2020 年(10 件)、2021 年(18 件)和 2022(37 件)。這些專利申請全部都來自中國,其中,可信聯邦學習
221、相關專利申請量最多的機構是深圳前海微眾銀行股份有限公司(4 件),緊隨其后的是廈門大學(3 件)。最早的可信聯邦學習專利是 2020 年 7 月由華南師范大學申請的“一種基于區塊鏈的可信聯邦學習方法、系統、裝置及介質”(專利號 CN111966698A)。65 來源:AMiner 和智慧芽專利數據庫;關鍵詞檢索式=TAC:(可信聯邦學習)OR TAC:(可信隱私計算)OR TAC:(聯邦學習 AND(可解釋性 OR 可溯源 OR 可審計 OR 可監管 OR 知識產權保護 OR 公平性 OR 技術普惠 OR 可證明 OR 效率可控),在“標題/摘要/權利要求”中進行搜索,并按照受理局進行簡單同族
222、申請去重;統計截止日期為 2023 年 4月 30 日。93150691615156338383520817206020406080100120140160180G06N20/00G06F21/62G06F21/60專利申請量(件)IPC 分類號支付寶(杭州)信息技術有限公司深圳前海微眾銀行股份有限公司華控清交信息科技(北京)有限公司北京郵電大學谷歌有限責任公司人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 83 引入大模型技術的聯邦學習專利申請最早出現在 2021 年 4 月,是由深圳前海微眾銀行股份有限公司申請的“信息處理方法及系統”(專利號 CN113222175B)。本報
223、告期內僅發現 4 件引入大模型技術的聯邦學習相關專利 66。詳情如下所示。申請時間 引入大模型技術的聯邦學習專利情況 2022-8 專利號 CN115408377A 專利名稱 一種基于聯邦學習構建醫學影像大模型的方法和裝置 申請人 北京智源人工智能研究院 發明人 肖宏旺 黃文灝 葉啟威 董思維 史業民 舒彧 曹崗 黃鐵軍 摘要:本方法用于服務端,包括:利用醫學影像公開數據進行預訓練,得到全局初始化大模型;將所述全局初始化大模型分發至各個客戶端;利用各個客戶端上傳的各自對應的本地大模型生成全局大模型,其中,本地大模型是各個客戶端利用本地醫學影像數據對所述全局初始化大模型進行優化訓練得到的。本發明
224、通過聯邦學習的方式,充分發揮了集中化公開數據和各醫院私有數據的協同價值,實現了高效、安全地共建醫學影像大模型,提升模型穩定性和泛化能力,促進人工智能醫學影像應用的發展,賦能醫院端醫療影像 AI 系統。2022-5 專利號 CN114584406B 專利名稱 一種聯邦學習的工業大數據隱私保護系統及方法 申請人 湖南紅普創新科技發展有限公司 發明人 陳曉紅 許冠英 徐雪松 胡東濱 梁偉 袁依格 摘要:本發明的系統包括設備選擇層、終端層、聚類層、邊緣層以及云層。方法包括:根據篩選的終端設備采集工業數據;對工業數據進行聚類處理;將處理后的工業數據發送至邊緣服務器,建立本地模型;云服務器根據接收的本地模
225、型進行全局模型聚合和更新,并將全局模型下放至設備選擇層篩選出的終端設備,實現數據共享。通過設備選擇層對終端設備進行選擇,并對工業數據聚類,滿足了聯邦學習數據樣本同質性的要求,提高了聯邦學習的聚合效率;通過邊緣層與云層之間的建模、更新以及下放,提高了海量數據傳輸的速率,實現數據共享,并且保證數據的安全性。2021-7 專利號 CN113518007B 授權 專利名稱 一種基于聯邦學習的多物聯網設備異構模型高效互學習方法 申請人 華東師范大學 發明人 陳銘松 夏珺 66 來源:AMiner 和智慧芽專利數據庫;關鍵詞檢索式=TAC_ALL:(聯邦學習)AND TAC_ALL:(大模型 OR 大型語
226、言模型 OR 基石模型 OR 大規模預訓練模型 OR 提示工程 OR 涌現能力 OR 同質化 OR 生成預訓練語言模型),在“標題/摘要/權利要求”中進行搜索,并按照受理局進行簡單同族申請去重;統計截止日期為 2023 年 4 月 30 日。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 84 摘要:本發明所述方法可以打破異構模型之間的知識壁壘,提高異構模型在各類物聯網設備中的性能。在本方法框架中,不同的模型開始相互學習,兩種模型都可以收斂到很好的結果。為了增加聯邦學習的普適性,本發明提出一種基于深度相互學習的訓練方法,考慮局部模型之間的知識共享過程。通過綜合實驗對本發明方法 P
227、FL 進行了論證,可以在實際場景中在通信量和預測精度方面的有效性。2021-4 專利號 CN113222175A 專利名稱 信息處理方法及系統 申請人 深圳前海微眾銀行股份有限公司 發明人 何元欽 劉洋 陳天健 摘要:本發明公開了一種信息處理方法及系統,包括:協作方根據協作方模型確定得到與各個數據提供方對應的中間模型并分別下發給對應的各個數據提供方;數據提供方根據數據提供方的私有數據,對接收到的用于作為其本地模型的中間模型和數據提供方的個性化模型進行知識蒸餾,得到訓練后的個性化模型;數據提供方根據各個參與方共有的公共數據集,通過訓練后的個性化模型進行預測得到輸出數據并將輸出數據發送至協作方;協
228、作方根據輸出數據和公共數據集,通過知識蒸餾對協作方模型進行訓練,得到目標全局模型,用以執行數據提供方計算資源少于預設計算資源場景下的聯邦學習的操作。本發明可以在有參與方計算資源少的場景下,有效地實現大模型訓練。3.1.7 國家自然科學基金項目資助分析 根據基金組織官網上的公開數據,通過在項目標題中進行關鍵詞67搜索,獲取到了中國(含大陸、港澳)以及中外地區合作的聯邦學習基金項目資助情況。從目前所獲取數據的總體情況來看,雖然 2016 年至 2022 年間相關基金項目數量趨勢略有上升,但是總量較少,共計發現 156 個聯邦學習在各地區的獲批基金項目,包括 102 個國家自然科學基金項目NSFC,
229、26 個香港地區的創新及科技基金項目,澳門科學技術發展基金項目 FDCT 以及國家自然科學基金委員會國際合作項目分別各有 14 個。這些獲批項目的趨勢分布如圖 31 所示。67 關鍵詞檢索式=聯邦學習 OR 隱私保護 OR 分布式技術 OR 數據安全 OR 邊緣計算 OR 可信執行環境 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 85 圖圖 3131 20162016-20222022 年幾個國家地區聯邦學習年幾個國家地區聯邦學習相關相關基金項目獲批分布基金項目獲批分布 注:NSFC 是指國家自然科學基金項目;HK Innovation and Tech Fund 是指香港創
230、新及科技基金項目;FDCT 是指澳門科學技術發展基金;NSFC International Cooperation 是指國家自然科學基金委員會國際合作局合作項目。1 NSFC 相關資助項目數量與金額近年來明顯增加 2016 至 2022 年期間,聯邦學習領域的國家自然科學基金項目共計獲批 102 個,所獲批項目分布在全國 22 個省份的 60 多家依托單位,涉及 20 多個學科,總資助金額達 5277萬元人民幣。值得注意,2019 年之后,聯邦學習相關基金項目獲批勢頭增長明顯:2020 至2022年的基金項目獲批數量占總量的 84.3%,獲資助金額占總額的 74.5%。如圖 32所示。2230
231、2299283513400510152025303540NSFCHK Innovationand Tech FundFDCTNSFCInternationalCooperation項目數量(個)基金2016年2017年2018年2019年2020年2021年2022年人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 86 圖圖 3232 20162016-20222022 年聯邦學習領域國家自然科學基金項目的獲批趨勢年聯邦學習領域國家自然科學基金項目的獲批趨勢 (1)超九成資助集中在青年科學基金與面上項目 聯邦學習領域的國家自然科學基金項目資助主要以青年科學基金項目和面上項目為主,
232、這兩類項目數量合計占 90%以上。其中,青年科學基金項目數量雖然最多,占比過半,但其獲資助金額卻低于面上項目類的資助金額。如圖 33 所示。超百萬級別的重大研究計劃僅一項、聯合基金項目僅四項。圖圖 3333 20162016-2 2022022 年聯邦學習領域國家自然科學基金項目的資助類別年聯邦學習領域國家自然科學基金項目的資助類別 2842222935978281063131339122613680500100015000102030402016201720182019202020212022資助金額(萬元)項目數量(個)年份項目數量資助金額(萬元)53404411,502 2,250 14
233、4 1,251 130 050010001500200025000102030405060資助金額(萬元)項目數量(個)項目數量(個)資助金額(萬元)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 87(2)集中在計算機科學、人工智能、電子學與信息系統三學科 聯邦學習領域國家自然科學基金項目遍布醫學科學部、管理科學部、數理科學部、工程與材料科學部、信息科學部的共計 20 多個學科。其中,信息科學部的基金項目最多,占比近九成。在信息科學部的基金項目之中,計算機科學、人工智能、以及電子學與信息系統三個學科所獲批項目最多,位于前三。如圖 34 所示。圖圖 3434 20162016-2
234、0222022 年聯邦學習領域國家自然科學基金項目學科分布年聯邦學習領域國家自然科學基金項目學科分布 (3)北京和廣州兩地所獲批的基金項目量較多 聯邦學習領域所獲批的國家自然基金項目存在明顯的地區差異。根據各個省份基金項目獲批數量,大致可分為三個梯隊:北京、廣州位于第一梯隊,所獲批基金項目數量均大于 10個;江蘇、上海、浙江、湖北、遼寧、陜西、天津、四川這八個省份處于第二梯隊,它們所獲批基金項目數量在 5 個至 10 個之間;其余國內省份的所獲批基金項目數量均不足 5 個,處于第三梯隊。如圖 35 所示。從獲資助金額來看,浙江、北京、廣東依次居于全國前三,其余省份所獲項目的資助額則均不足 50
235、0 萬元。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 88 圖圖 3535 20162016-20222022 年聯邦學習領域國家自然科學基金項目獲批省份年聯邦學習領域國家自然科學基金項目獲批省份 TOPTOP 1010 (4)華中科技大學是基金項目獲批最多的單位 聯邦學習領域的國家自然科學基金項目的依托單位以高校為主,占比 90.2%。在獲得基金項目的高校之中,985/211 學校獲批的項目量約占總量的 61%。此外,近兩年香港中文大學、香港浸會大學、香港中文大學(深圳)也獲得了該領域的國家自然科學基金項目資助,成為不容忽視的一股力量??傮w上,聯邦學習領域基金項目獲批最多的
236、單位是華中科技大學,其次是浙江大學。如圖 36 所示。值得一提的是,哈爾濱工業大學獲批的聯合基金項目城市重大基礎設施災害風險主動感知與精準管控,所獲資助金額最高,超 500 萬元。該項目建立了城市重大基礎設施災害風險主動感知與精準管控的系統理論與方法,其中提出了系列城市重大基礎設施主動監測方法與智能感知技術,包括移動群智感知技術與端邊云協同聯邦學習機制等。141397775555503 547 319 265 432 673 200 254 260 378 0200400600800051015廣東 北京 江蘇 湖北 上海 浙江 遼寧 陜西 四川 天津資助金額(萬元)項目數量(個)省份項目數量
237、(個)資助金額(萬元)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 89 圖圖 3636 20162016-20222022 年聯邦學習領域國家自然科學基金項目依托單位年聯邦學習領域國家自然科學基金項目依托單位 TOPTOP 1010 2 香港地區基金資助項目多于澳門基金資助量 本研究主要調研了香港創新及科技基金(ITF)與澳門科學技術發展基金(FDCT)項目。數據顯示,針對聯邦學習相關領域,香港創新及科技基金的資助項目數量略多于澳門科學技術發展基金資助的項目數量。香港創新及科技基金由創新科技署管理,該基金旨在支持研究及發展、推動科技應用、培育科技人才、支援科技初創企業,以及培
238、養創科文化。針對聯邦學習領域,該基金在 2016-2022 期間資助過 26 個項目,趨勢分布如圖 37 所示。由圖 37 可見,盡管項目數量較少,但是聯邦學習相關的資助項目數量與資助金額均呈現逐年增加趨勢。其中,最早的資助項目是 2019 年的一項創新及科技支援計劃,即香港應用科技研究院的“物聯網區塊鏈:數據交換”項目,它基于有權限分布式分類賬技術,解決實際案例應用中區塊鏈累積物聯網數據時量數可擴展性問題,以及智能交易合同、數據安全和隱私保護等問題。65333333333華中科技大學浙江大學天津大學廣東省人民醫院西安交通大學西南交通大學東北大學中國科學院計算技術研究所中山大學深圳大學南京航空
239、航天大學基金項目數量(個)人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 90 圖圖 3737 20162016-20222022 年年香港香港創新及科技基金創新及科技基金與澳門與澳門科學技術發展科學技術發展基金基金資助的資助的聯邦學習聯邦學習相關相關項目趨勢項目趨勢 注:澳門科學技術發展基金未獲取到項目資助金額數據。在香港地區,聯邦學習領域的創新及科技基金項目資助主要以研究人才庫和創新及科技支援計劃為主,這兩類項目數量合計占 90%以上。其中,研究人才庫項目資助量最多,有13 個;創新及科技支援計劃資助數量次之,有 11 個。如圖 38 所示。所資助項目主要聚焦于資訊及通訊這個
240、科技范疇,以及少量的電子與先進制造技術類。從資助金額來看,超千萬級別的資助計劃有 3 個,它們均屬于創新及科技支援計劃,也均由香港應用科技研究院承擔。其中,資助金額最多的項目是“硬件加速智能家居隱私及安全技術平臺”,達到了 1313 萬港元;“開放式銀行智能個人助理”與“物聯網的可信執行環境”兩個項目的資助金額次之,分別均獲得 1035 萬港元資助。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 91 圖圖 3838 20162016-20222022 年聯邦學習領域香港年聯邦學習領域香港創新及科技基金創新及科技基金資助項目分布資助項目分布 澳門科學技術發展基金是為了配合澳門特別
241、行政區科技發展政策的目標,對有助于提升澳門特別行政區的科研實力、創新能力及競爭力的各類項目提供資助。數據顯示,該基金在2016 年至 2022 年期間共計資助了 14 個聯邦學習相關項目。其中,2019 年與 2022 年資助的項目最多,分別有 4 個;2018 年與 2020 年則沒有發現相關項目。在這 14 個項目之中,有 11 項 是一般科研資助,還有一個是澳門科學技術發展基金與國家自然科學基金委員會聯合科研資助項目。從項目申請者看,申請量最多的機構是澳門大學,有 5 個;其次是澳門科技大學基金會-澳門科技大學,申請了 4 個項目。澳門地區這些被資助項目的研究主題涉及了分布式計算與隱私保
242、護兩個方面。其中,隱私保護的相關項目有 7 項,從 2017 年到 2022 年均都有項目涉及。此外,有 2 個項目研究了生物或醫療領域的相關聯邦學習問題;2 個項目研究了分布式計算方法等。3 基金國際合作項目較多資助了安全與隱私研究方向 根據國家自然科學基金委員會官方網站的公開數據,通過在項目標題中進行關鍵詞68搜 68 關鍵詞檢索式=聯邦學習 OR 隱私保護 OR 分布式技術 OR 數據安全 OR 邊緣計算 OR 可信執行環境 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 92 索,發現 2016 年至 2022 年間,國家自然科學基金委員會批準了 14 個聯邦學習相關的國
243、際合作基金項目。其中,2021 年獲批的相關國際合作項目數量有 8 個,2017 年、2018 年與 2020 年均分別獲批了 2 個,其余年份則未發現有聯邦學習相關國際合作項目獲批。國家自然科學基金委員會所披露的這些聯邦學習國際合作基金項目涉及到中國、英國、瑞典等 8 個地區之間的合作。相關基金合作分布如圖 39 所示。所合作項目的研究主題大部分都與隱私保護或數據安全有關。其中,中國國家自然科學基金與英國皇家學會之間的自然科學基金合作交流項目較多,有 6 項,研究方向包括智慧醫養物聯網中隱私保護、機器學習的隱私保護以及基于聯邦學習的腦疾病早期診斷等。圖圖 3939 20162016-2022
244、2022 年聯邦學習領域年聯邦學習領域國家自然科學基金委員會國家自然科學基金委員會 NSFCNSFC 國際合作項目國際合作項目 3.2 聯邦學習框架與系統現狀 近年來,聯邦學習算法框架和系統的開發和部署正在蓬勃發展。目前,市面上既有許多開源的聯邦學習框架平臺,也有許多非開源的自研式框架平臺。本部分通過 AMiner 數據人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 93 庫中的新聞數據,分析梳理了國內外知名高校、科研機構、科技企業巨頭、金融科技公司,以及初創公司等推出的主要聯邦學習相關系統框架,具體信息如下。3.2.1 開源框架 開源的聯邦學習框架多數是由國內外企業推出發布的,
245、高??蒲袡C構發布的相對較少。Pysyft 是 2017 年也是最早推出開源框架,隨后幾年陸續有新的開源框架推出,2020 年開源的聯邦學習框架數量最多,如圖 40 所示。圖圖 4040 聯邦學習框架開源趨勢圖聯邦學習框架開源趨勢圖 注:圖中的數字代表該聯邦學習框架在 GitHub 平臺的熱度值(截止到 2023 年 4 月 30 日)。其中,熱度是指一個項目在 GitHub 上的 Star 數值;一個項目的 Star 數值越大,表示它的熱度越高。根據這些聯邦學習框架在 GitHub(代碼托管服務平臺)上的熱度排序(數據統計日期截至到 2023 年 3 月 31 日),發現 OpenMined
246、推出的 Pysyft 熱度最高,FATE 開源社區的 FATE 熱度居于第二,熱度均超過 4000,FedML.AI 的 FedML、Adap 的 Flower、谷歌的 TFF 框架的熱度也較高,均過 2000。聯邦學習相關開源系統框架的詳細信息如表 10所示。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 94 表表 1010 開源的聯邦學習框架開源的聯邦學習框架 GitHub 熱度 發布方 系統名稱 開源時間 系統特點 8700 OpenMined PySyft 2017-7 一個用于安全和私有深度學習的 Python 庫 基 于 PyTorch,使 用 Unity Game
247、 Engine 安全多方計算 聯合學習、差異隱私 4900 FATE 開源社區 FATE 2019-2 工業級框架。分布式計算引擎支持 EGGROLL、Spark 等高性能計算引擎,AI 框架支持 Pytorch,TensorFlow,DeepSpeed 提供一站式的聯邦模型企業級服務解決方案。提供多插件支持聯邦學習企業和科研應用 支持主流的分類、回歸、聚類和遷移學習的聯邦化算法 提供多種安全計算協議支撐上層應用,支持同態加密協議、秘密共享協議、不經意傳輸協議和DH 密鑰交換算法等 提供 40 多個聯邦算法組件 FATE-LLM 模塊支持 BERT,GPT-2,ChatGLM-6B,LLaMa
248、等多種大型自然語言處理模型 2600 FedML.AI FedML 2020-7 支持分布式訓練、移動設備/物聯網訓練、獨立仿真 FedLLM 基于 MLOps 支持,具備 LLM 的訓練、服務和可觀察能力,在專有數據上構建企業自己的大模型 2400 Adap Flower 2020-11 聯邦學習框架,源自牛津大學的一個研究項目 可定制、可擴展、可與任何機器學習框架一起使用 2100 谷歌 TensorFlow Federated 2019-3 可以選擇 ML 模型架構 模型設計理念以數據為主 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 95 GitHub 熱度 發布方 系
249、統名稱 開源時間 系統特點 1400 螞蟻集團 隱語 SecretFlow 2022-7 可 信 隱 私 計 算 框 架,采 用 Apache-2.0 協議 統一支持 MPC、TEE、FL、HE、DP 等多種主流隱私計算技術 密態計算設備 SPU 明密文混合 實現安全和性能的平衡 多方安全計算 1300 Facebook CrypTen 2019-10 安全多方計算 1100 DropoutLabs,OpenMined,阿里巴巴 TF-Encrypted 2018-3 安全多方計算、同態加密 TensorFlow 中的加密機器學習框架 898 阿里巴巴達摩院 FederatedScope 20
250、22-5 使用事件驅動的編程范式來構建聯邦學習 支持大規模、高效率的聯邦學習異步訓練,能兼容 PyTorch、TensorFlow 等不同設備運行環境,且提供豐富功能模塊 833 字節跳動 bytedance Fedlearner 2020-1 代碼里有大量的 JS、HTML 模塊 強調聯邦學習在推薦、廣告等業務中的落地 可輸出性 522 矩陣元 LatticeX-Foundation Rosetta 2020-8 安全多方計算 基于 TensorFlow 488 Intel 英特爾實驗室、英特爾物聯網集團 openfl 2021-2 Python*3 項目 開放式聯合學習實用程序 聚合器與框
251、架無關 441 百度 PaddleFL 2020-2 可信計算 基于飛槳(PaddlePaddle)和Kubernetes 面向深度學習設計,提供在計算機視覺、自然語言處理、推薦算法等領域的聯邦學習策略及應用場景 簡化大規模分布式集群部署 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 96 GitHub 熱度 發布方 系統名稱 開源時間 系統特點 二次開發接口允許各方定義私有化的數據讀取器 提供了基礎編程框架,并封裝了一些公開的聯邦學習數據集 429 SMILELab-FL FedLab 2021-8 聯邦機器學習的簡單高性能計算框架 406 IBM IBM FL 2020-1
252、1 Python 框架,適用于企業環境 用于私有云和公共云 支 持 Keras、PyTorch和TensorFlow 模型 225 谷歌 fedjax 2021-2 一種適用于研究、速度較快且簡單易用的聯邦學習模擬庫 218 FedML-AI 南加州大學團隊 FedNLP 2021-5 以研究為導向的聯邦學習賦能NLP 的 FedNLP 框架 支 持 兩 種 類 型 的 模 型:Transformer 和 LSTM 110 天冕科技 tianmiantech WeFe 2021-9 同態加密算法 內置多種常用機器學習算法和特征工程工具 支持私有化、云端化以及安全一體機等多樣化部署方式 104
253、京東 9NFL 九數聯邦學習 2020 初 支持百億級規模樣本、百 T 級容量數據的超大規模的樣本匹配、聯合訓練 在電商推薦領域可實現線上業務落地 實現分布式異步框架、Failover、擁塞控制等機制 針對跨域與跨公網的復雜環境,設計了一系列的可用性與容災的機制與策略 53 同盾科技 tongdun/iBond-flex 2020-2 一套標準化的聯邦協議:約定了聯邦過程中參與方之間的數據交換順序,以及在交換前后采用的數據加解密方法 來源:根據公開資料整理 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 97 以上部分的聯邦學習系統框架的詳細介紹信息如下。1 OpenMinedP
254、ySyft PySyft 是開源社區 OpenMined 推出的一個用于安全和私有深度學習的 Python 庫。它使用聯邦學習、差分隱私和加密計算來解耦私人和敏感數據,可以在主要的深度學習框架中使用,例如 TensorFlow 和 PyTorch。PySyft 是在深度學習程序中啟用可靠的隱私模型的首批嘗試之一。PySyft 的核心組件是稱為 SyftTensor 的抽象。SyftTensors 旨在表示數據的狀態或轉換,并且可以鏈接在一起。鏈結構始終在其頭部具有 PyTorch 張量,并且使用 child 屬性向下訪問由 SyftTensor 體現的變換或狀態,而使用 parent 屬性向上
255、訪問由 SyftTensor 體現的變換或狀態。開源地址:https:/ PySyft 的系統框架如圖 41 所示。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 98 來源:https:/arxiv.org/pdf/1811.04017.pdf 圖圖 4141 OpenMined PySyftOpenMined PySyft 系統框架系統框架 2 FATE 開源社區FATE FATE 開源社區是全球范圍內規模較大的隱私計算聯邦學習開源社區,擁有工業級聯邦學習開源框架 FATE(Federated AI Technology Enabler),2019 年 2 月由微眾銀行開源發
256、布,并于同年六月捐獻給 Linux 基金會。當前,微眾銀行與工商銀行、農業銀行、中國銀聯、中國銀行、建信金科、光大科技、中國電信、中國聯通、中國移動等 25 家頭部機構協力共建 FATE 開源社區為核心的聯邦學習開源生態。FATE 開源框架累積發布 40多個版本,覆蓋 40 多種算法組件。中國信通院調查報告顯示,FATE 開源框架有效降低了聯邦學習的技術門檻,為很多 2020 年及之后出現的聯邦學習產品的研發與應用提供了可靠的借鑒或參考。FATE 開源社區加速了聯邦學習從“大廠”向小微 B 端企業的覆蓋與普及的同時,讓聯邦學習產業生態及參與方從“單兵作戰”走向生態化。目前 FATE 開源社區的
257、參與者多達 1200 余家企業和 500 余所高校和科研機構,牽頭制定了國際標準 IEEE P3652.1聯邦學習架構和應用規范,AIOSS 團標信息技術服務 聯邦學習 參考架構等標準,撰寫出版了聯邦學習聯邦學習實戰等多本專著,為行人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 99 業提供理論和實踐指導。FATE 項目使用多方安全計算(MPC)以及同態加密(HE)技術構建底層安全計算協議,以此支持不同種類的機器學習的安全計算,包括邏輯回歸、樹算法、深度學習(人工神經網絡)和遷移學習等。FATE 目前支持三種類型聯邦學習算法:橫向聯邦學習、縱向聯邦學習以及遷移學習。開源地址:ht
258、tps:/ 整體架構如圖 42 所示。FATE 主倉庫包含 FederatedML 核心聯邦算法庫和多方聯邦建模 Pipeline 調度模塊 FATE-Flow,FATE 擁抱大數據生態圈,底層引擎支持使用微眾銀行自主研發的 EGGROLL 或者 Spark 進行高性能的計算。圍繞 FATE 聯邦學習生態,FATE還提供了完整的聯邦學習生態鏈,如聯邦可視化模塊 FATE-Board、聯邦在線推理模塊 FATE-Serving、聯邦多云管理 FATE-Cloud,云原生聯邦學習管理平臺 KubeFATE,聯邦大模型FATE-LLM 等。來源:Architecture-FATE 圖圖 4242 F
259、ATE FATE 系統架構系統架構 FederatedML 是 FATE 的聯邦學習算法庫模塊,提供了 20+種聯邦學習算法,支持縱人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 100 向聯邦學習、橫向聯邦學習、聯邦遷移學習三種聯邦建模場景,覆蓋了工業建模的數據處理、特征變換、訓練、預測、評估的全建模流程。另外,封裝了眾多的多方安全計算協議以提供給上層算法的調度和支持聯邦學習開發者的聯邦算法開發。FATE-Flow 為 FATE 提供了端到端聯邦建模 Pipeline 調度和管理,主要包括 DAG 定義聯邦建模 pipeline、聯邦任務生命周期管理、聯邦任務協同調度、聯邦任務
260、追蹤、聯邦模型管理等功能,實現了聯邦建模到生產服務一體化。FATE-Board 聯邦學習建模的可視化工具,為終端用戶提供可視化和度量模型訓練的全過程。FATE-Board 由任務儀表盤、任務可視化、任務管理與日志管理等模塊組成,支持模型訓練過程全流程的跟蹤、統計和監控等。FATE-Serving 為 FATE 提供聯邦在線推理服務,主要包含實時在線預測、集群管理與監控、在線模型管理與監控、服務治理等功能。FATE-Cloud 是構建和管理聯邦數據合作網絡的基礎設施,為跨機構間、機構內部不同組織間提供了安全可靠、合規的數據合作網絡構建解決方案,實現多客戶端的云端管理。KubeFATE 為 FAT
261、E 提供云原生支持,提供云原生容器平臺,靈活部署,自動化運維,支持 K8s,多云和跨云管理。FATE-LLM 是基于 FATE 底座的構建的聯邦大型框架,為大模型提供聯邦學習支持,目前已經在橫向聯邦場景支持了 Bert、GPT-2、ChatGLM-6B、LLaMa 等大模型。3 FedML.AIFedML FedML 是一個以研究為導向的聯邦學習圖書館,支持分布式計算、移動/物聯網設備上訓練和獨立模擬,可促進新的聯合學習算法的開發和公平的性能比較。該成果曾獲 NeurIPS 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 101 2020 聯合學習研討會最佳論文獎。發布方 Fed
262、ML.AI 來自于美國南加州大學 USC聯合MIT、Stanford、MSU、UW-Madison、UIUC 以及騰訊、微眾銀行等眾多高校與公司聯合發布的 FedML 聯邦學習開源框架。其系統架構如圖 43 所示。FedML 還通過靈活且通用的 API 設計和參考基準實現和促進了各種算法研究。針對非I.I.D 設置的精選且全面的基準數據集旨在進行公平比較。FedML 可以為聯合學習研究社區提供開發和評估算法的有效且可重復的手段。開源地址:https:/ 來源:FedML-AI/FedML,https:/ 圖圖 4343 FedML.AI/FedML.AI/FedMLFedML 系統架構系統架構
263、 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 102 4 谷歌TensorFlow Federated,TFF TensorFlow Federated project(TFF)由谷歌公司開發和維護,是一個為聯邦機器學習和其他計算方法在去中心化數據集上進行實驗的開源框架。TFF 讓開發者能在自己的模型和數據上模擬實驗現有的聯邦學習算法,以及其他新穎的算法。TFF 提供的建造塊也能夠應用于去中心化數據集上,來實現非學習化的計算,例如聚合分析。TFF 的接口有兩層構成:聯邦層(FL)應用程序接口(API)和聯邦核心(FC)API。TFF 使得開發者能夠聲明和表達聯邦計算,從而能夠
264、將其部署于各類運行環境。TFF 中包含的是一個單機的實驗運行過程模擬器。該聯邦學習的框架如圖 44 所示。來源:Open-Source Federated Learning Frameworks for IoT:A Comparative Review and Analysis 69 圖圖 4444 谷歌谷歌 TFFTFF 框架框架圖圖 在實現方面,TensorFlow 專門為聯邦學習推出了一個學習框架(TensorFlow 69 Open-Source Federated Learning Frameworks for IoT:A Comparative Review and Analysi
265、s,Dec 2020,https:/ by Evgeniy D.Shalugin 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 103 Federated,簡稱 TFF),現有的 TensorFlow(簡稱 TF)或 Keras 模型代碼通過一些轉換后就可以變為聯邦學習模型,甚至可以加載單機版的預訓練模型,以遷移學習的模式應用到分散式數據的機器學習中。不同于分布式訓練理念,TFF 框架設計理念是以數據為主,而不是代碼分離上。在編寫模型、訓練代碼的時候,將 clients 和 server 看作一個整體,同一個文件里不需要分割開Server 端(S 端)和 Clients 端(C
266、 端)的代碼,C 端和 S 端的區分是在代碼邏輯層面的。也就是說,用戶在編寫 TFF 代碼時,不需要指明某段代碼是應該運行在 C 端還是 S 端,僅需要指出每個數據是儲存在 C 端/S 端、是全局唯一的還是有多份拷貝的即可。類似 TF 的non-eager 模式,當用戶編寫完模型代碼和訓練代碼后,TFF 會自動地將代碼分別放置到clients 和 server 設備上。用戶只要關注模型架構、C&S 端交互的數據格式、聚合多 clients模型的方式即可。TFF 通過 Python 代碼來編寫運算邏輯,實際運行則是編譯成另一種語言去執行,以便讓模型能運行在真實分布式場景下。開源地址:https:
267、/ 5 字節跳動Fedlearner 字節跳動聯邦學習平臺 Fedlearner 基于字節跳動在推薦和廣告領域積累的機器學習建模技術和個性化推薦算法,可以支持多類聯邦學習模式,已經在電商、金融、教育等行業多個落地場景實際應用。該平臺已經于 2020 年初開源并持續更新,開源地址:https:/ 聯邦學習平臺整個系統包括控制臺、訓練器、數據處理、數據存儲等模塊,各模塊對稱部署在參與聯邦的雙方的集群上,透過代理互相通信,實現訓練。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 104 Fedlearner 雙方在發起訓練之前,必須要基于雙方的數據進行求交,找出交集從而實現模型訓練。訓
268、練數據求交的方式主要分為兩種:流式數據求交、PSI 數據求交。6 百度PaddleFL PaddleFL 是一個基于百度飛槳(PaddlePaddle)的開源聯邦學習框架。PaddleFL 提供很多聯邦學習策略及其在計算機視覺、自然語言處理、推薦算法等領域的應用,例如,橫向聯邦學習(聯邦平均、差分隱私、安全聚合)和縱向聯邦學習(帶 privc 的邏輯回歸,帶ABY3 的神經網絡)。研究人員可以用 PaddleFL 復制和比較不同的聯邦學習算法。此外,PaddleFL 還提供傳統機器學習訓練策略的應用,例如多任務學習、聯邦學習環境下的遷移學習、主動學習。依靠 PaddlePaddle 的大規模分
269、布式訓練和 Kubernetes 對訓練任務的彈性調度能力,PaddleFL 可以基于全棧開源軟件輕松地部署。PaddlePaddle 背靠百度的信息庫,提供的預訓練模型的準確率較高。開源地址:https:/ 45 所示。來源:https:/ 圖圖 4545 百度百度 PaddleFLPaddleFL 整體架構整體架構 PaddleFL 中主要提供兩種解決方案:Data Parallel 以及 Federated Learning with 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 105 MPC(PFM)。通過 Data Parallel,各數據方可以基于經典的橫向聯邦學
270、習策略(如 FedAvg,DPSGD 等)完成模型訓練。此外,PFM 是基于多方安全計算(MPC)實現的聯邦學習方案。作為 PaddleFL 的一個重要組成部分,PFM 可以很好地支持聯邦學習,包括橫向、縱向及聯邦遷移學習等多個場景。7 京東九數聯邦學習 9NFL 京東自研的九數聯邦學習平臺(9NFL)于 2020 年初正式上線。9NFL 平臺基于京東商業提升事業部 9N 機器學習平臺進行開發,在 9N 平臺離線訓練、離線預估、線上推斷(inference)、模型的發版等功能的基礎上,增加了多任務跨域調度、跨域高性能網絡、大規模樣本匹配、大規??缬蚵摵嫌柧?、模型分層級加密等功能。整個平臺可以支
271、持百億級/百 T 級超大規模的樣本匹配、聯合訓練,并且針對跨域與跨公網的復雜環境,對可用性與容災設計了一系列的機制與策略,保障整個系統的高吞吐、高可用、高性能。開源地址:https:/ 9NFL 整體系統架構分為四大模塊:整體調度與轉發模塊、資源管理與調度模塊、數據求交模塊、訓練器模塊。如圖 46 所示。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 106 來源:新浪 VR 70 圖圖 4646 九數聯邦學習平臺(九數聯邦學習平臺(9NFL9NFL)3.2.2 非開源框架與系統 非開源的聯邦學習框架基本上都是由企業推出的。根據其正式發布時間進行排序,發現這些聯邦學習框架最多集中
272、發布于 2020 年,如圖 47 所示。其中,發布時間較早的是翼方健數的聯邦學習框架,以及星云 Clustar 的 AIOS,兩者均于 2019 年發布。電信與銀行兩個領域已有行業級的聯邦學習框架。其中,農業銀行、光大、浦發等幾家銀行發布的聯邦學習平臺較多是基于 FATE 框架構建或延續的。70 京東開源超大規模聯邦學習平臺,2020-09-15 來源:新浪 VR,http:/ 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 107 圖圖 4747 非開源的聯邦學習框架發布趨勢圖非開源的聯邦學習框架發布趨勢圖 非開源聯邦學習系統框架的詳細信息如表 11 所示。表表 1111 非開
273、源的聯邦學習系統一覽非開源的聯邦學習系統一覽 發布時間 發布方 系統名稱 系統特點 2019 年 4月 15 日 翼方健數 翼數坊XDP 基于隱私計算的原理和應用 通過多方安全計算 MPC/同態加密、聯邦學習、安全沙箱計算/TEE 等技術實現 通過自主研發的 DaaS 服務進行數據治理和清洗以達到數據可用 2019 年 9月 5 日 星云Clustar AIOS 以聯邦學習和區塊鏈作為基礎設施 采用 FATE 聯邦學習軟件框架 2019 年 9月 19 日 華為 NAIE 目前以橫向聯邦為基礎,內置了眾多聯邦學習能力,包括聯邦匯聚、梯度分叉、多方計算、壓縮算法等。2020 年底 星環科技 So
274、phon FL 底層為分布式架構,使用差分隱私、同態加密、不經意傳輸和可信計算等隱私保護機技術 2020 年 3月 23 日 騰訊 Angel PowerFL 支持超大規模數據量的多方聯合建模 有高容錯性 不依賴于可信第三方 2020 年 4月 23 日 上海富數科技 FMPC 密文訓練聯邦學習誤差小于 1%安全計算支持的算法包括:普通多方計算、統計分析、機器學習(LR、DT、RF、LightGBM 等)機器學習訓練收斂速度提高了 3 倍;匿蹤查詢 100 億條+記錄秒級響應 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 108 發布時間 發布方 系統名稱 系統特點 支持本地私
275、有化、對等網絡鏈接的部署 2020 年 5月 27 日 光之樹科技 天機可信計算框架、云間聯邦學習平臺 基于芯片 TEE 技術和其他加密技術的可信計算體系 基于機器學習、深度學習算法和加密協議的安全計算框架 2020 年 8月 28 日 平安科技 蜂巢平臺 定位是服務于營銷、獲客、定價、風控、智慧城市和智慧醫療 支持傳統的統計學習以及深度學習的模型,比如邏輯回歸、線性回歸、樹模型等 提供加密方式,支持同態加密等多方安全計算機制。在模型訓練中,對梯度進行非對稱加密,整合梯度和參數優化、更新模型;最后加密原始傳輸數據,實現推理結果 支持單機和多機訓練 可使用 CPU 和 GPU 訓練 支持多種深度
276、學習框架,如 TensorFlow,Keras,Pytorch,Mxnet 2020 年 10月 12 日 京東數科 Fedlearn 提出了并行加密算法、異步計算框架、創新聯邦學習等技術架構,達到融合億級規模數據的能力 在通訊方面,引入中心化數據交換的概念,使得數據交換獨立于參與方 采用異步計算框架,提高了模型訓練速度,并推動異步聯邦學習的發展 應用于信貸風控、智能營銷等方向 2020 年 12月 中國電信 天翼云諸葛AI-聯邦學習平臺 加密的分布式機器學習技術 使用多方安全計算、數據加密等核心技術 高性能加密算法庫 2021 年 2月 華為云 FedAMP 首創自分組個性化聯邦學習框架,引
277、入了一種注意消息傳遞機制 讓擁有相似數據分布的客戶進行更多合作,并對每個客戶的模型進行個性化定制 已 被 集 成 至 華 為 云 一 站 式 AI 開 發 管 理 平 臺 ModelArts 聯邦學習服務中 2021 年 4月 華為云 可信智能計算服務 基于安全多方計算 MPC、區塊鏈等技術 實現了聯盟管理、計算節點管理、聯邦數據分析作業、人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 109 發布時間 發布方 系統名稱 系統特點 TICS 聯邦機器學習作業、聯邦預測作業等功能 2021 年 6月 聯易融 蜂隱聯邦學習平臺 支持本地化與 SAAS 部署,可應用于供應鏈金融業務中,
278、合同、票據 OCR、關鍵要素提取、文本分類等圖像和 NLP 場景下的深度學習聯合建模 2021 年 6月 洞見科技 洞見數智聯邦平臺(INSIGHTTONE)基于隱私計算和區塊鏈技術的金融級隱私保護計算平臺產品 2021 年 7月 百度 百度點石聯邦學習平臺 兼容 PaddleFL 采用集群分布式、并發計算、算法優化等策略 提供數據核實、匿蹤查詢、聯合分析、聯合建模、在線預測等 支持私有化+公有云的部署方式,并且能夠與區塊鏈、邊緣計算等業務進行融合 2021 年 9月 中國人工智能產業發展聯盟 AIIA 電信領域聯邦學習技術架構 支持多參與方或多計算結點之間在不共享原始數據的基礎上聯合進行高效
279、的模型訓練 與物聯網、邊緣計算、5G/6G 等技術相結合,支撐智能化應用 2021 年 9月 中國移動 基于聯邦學習的分布式智能架構 四項關鍵技術:多主體協同訓練、網絡能力登記、動態成員管理、訓練策略調優 正式寫入 3GPP R18 技術標準 TS 23.288 2021 年 11月 新心數科 新心數述聯邦學習平臺 多方安全計算金融應用技術 2021 年 12月 字節跳動安全研究團隊 火山引擎Jeddak 聯邦學習平臺 融合了多方安全計算 MPC、全同態加密 FHE、差分隱私 DP、可信計算 TEE 等多種技術 2022 年 2月 中國銀聯 中國銀聯聯邦學習平臺 多方安全計算 采用開放云原生架
280、構 2022 年 11月 中國工商銀行 聯邦學習平臺 企業級框架 算法層、技術框架層均基于開源 FATE 框架;AI 工作站為自主開發 具備數據安全引入、數據安全對齊、數據安全計算三大優勢 2022 年 11月 光大銀行 光大聯邦學習平臺 基于 FATE 框架構建,引入了區塊鏈平臺、聯合激勵模型等 采用 Exchange 星型模式進行部署 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 110 來源:根據公開資料整理 以上部分非開源的聯邦學習系統平臺的介紹信息如下。1 騰訊Angel PowerFL Angel Power FL(原名 AngelFL)安全聯合計算是基于騰訊自研的
281、多數據源聯合計算技術,提供安全、易用、穩定、高性能的聯邦機器學習、聯合數據分析解決方案,助力數據融合應用。它構建在 Angel 機器學習平臺71上,利用 Angel-PS 支持萬億級模型訓練的能力,將很多在 Worker 上的計算提升到 PS(參數服務器)端;Angel PowerFL 為聯邦學習算法提供了計算、加密、存儲、狀態同步等基本操作接口,通過流程調度模塊協調參與方任務執行狀態,而通信模塊完成了任務訓練過程中所有數據的傳輸。采用去中心的架構設計,全自動化流程,算法支持 LR、XGBoost、PCA、用戶自定義神經網絡模型(如 MLP、CNN、RNN、Wide&Deep,DeepFM,D
282、SSM 等)72。Angel PowerFL 聯邦學習已經在騰訊金融云、騰訊廣告聯合建模等業務中開始落地。目前主要應用產品是騰訊云安全隱私計算。Angel Power FL 目前沒有開源,平臺架構如圖 48 所示。騰訊于 2021 年 1 月 22 日申請公開“聯邦學習方法、裝置、計算機設備及介質”專利信息,公開號為 CN112257876A。71 72 Angel PowerFL 安全聯合計算_聯邦學習_聯合數據分析-騰訊云()人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 111 來源:騰訊 Angel PowerFL 聯邦學習平臺73 圖圖 4848 騰訊騰訊 AngelF
283、LAngelFL 聯邦學習系統架構聯邦學習系統架構圖圖 2 京東科技Fedlearn 京東數字科技集團(簡稱:京東數科,現名:京東科技)于 2020 年 10 月推出自主研發的聯邦學習平臺 Fedlearn。Fedlearn 平臺具有“六位一體”核心能力:多自研聯邦學習算法、多方同態加密、輕量級分布式架構、區塊鏈與聯邦學習融合、數據安全容器、一站式操作平臺。京東科技 Fedlearn 平臺具有三大特點:第一,在數據和模型隱私方面,不同參與方之間沒有直接交換本地數據和模型參數,而 73 Angel PowerFL 安全聯合計算_聯邦學習_聯合數據分析-騰訊云()人工智能之聯邦學習 2023 聯邦
284、學習全球研究與應用趨勢報告 112 是交換更新參數所需的中間數值。為了避免從這些中間數值中恢復數據信息,采用增加擾動的方法對這些數值進行保護,確保了數據和模型的隱私安全;第二,在通訊方面,引入中心化數據交換的概念,使得數據的交換獨立于參與方;第三,采用異步計算框架,提高了模型訓練的速度。Fedlearn 平臺融合了密碼學、機器學習、區塊鏈等聯邦學習算法,搭建出一套安全、智能、高效的鏈接平臺,在各機構數據不用向外傳輸的前提下,通過聯合多方機構數據,實現共同構建模型等多方數據聯合使用場景,獲得加成效應。相較于傳統的數據共享交換方法,Fedlearn 平臺創新性地提出了并行加密算法、異步計算框架、創
285、新聯邦學習等技術架構,在保證數據安全的前提下提升學習效率,并逐步達到融合億級規模數據的能力。京東科技 Fedlearn 平臺實現了“基于核的非線性聯邦學習算法”。這一方法不傳輸原始樣本及梯度信息,充分保護數據隱私;并使用首創的雙隨機梯度下降,大大提高計算速度,充分利用計算資源,通過增加擾動提高數據的安全保護。產品地址:https:/ 3 平安科技蜂巢 平安科技研發的蜂巢聯邦智能平臺,是數據安全保護、企業數據孤島、數據壟斷、數據壁壘等問題的商用級解決方案。它能夠讓參與方在不共享原始數據的基礎上聯合建模,從技術上打破數據孤島,從而綜合化標簽數據,豐富用戶畫像維度,從整體上提升模型的效果,實現 AI
286、 協作。蜂巢平臺的功能框架如圖 49 所示。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 113 來源:平安官網鏈接 https:/ 4949 蜂巢平臺功能結構蜂巢平臺功能結構 平安科技聯邦智能平臺蜂巢的建模是在保護用戶隱私的前提下進行。原始數據不離開用戶,建模所交換的是模型的中間參數和梯度。此外,采用 GPU 等異構計算芯片來加速聯邦學習的加密和通信過程,從而達到效率升級的效果。4 富數科技FMPC 富數多方安全計算平臺(FMPC)是上海富數科技旗下產品,目前未開源,主要通過體驗或者服務購買方式使用。產品官網地址:https:/ 目前公開的技術架構如圖 50 所示。人工智能之
287、聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 114 來源:兩大主流聯邦學習產品體驗_hellompc 的博客-CSDN 博客 圖圖 5050 富數科技富數科技 FMPC FMPC 系統架構系統架構 FMPC 架構具有以下特點:聯邦學習:原始數據不出門,參與各方本地建模;沒有敏感數據流通,只交互中間計算結果;整個模型被保護,參與各方只有自己模型參數;私有化部署;開放 API 快速開發;支持主流機器學習算法,如 LR,DT,RF,Xgboost 等;建模速度快 3 倍;密文訓練精度誤差1%。多方安全計算:落地應用計算量 1.1 萬+次/天;支持多方數據安全求交;支持一次多項式;支持多方歸因
288、統計分析;支持多方多維數據鉆取分析;私有化部署。匿蹤查詢:支持 100 億+條記錄;秒級響應時間;查詢授權存證;甲方查詢信息不泄露;加密隧道避免中間留存;私有化部署。聯盟區塊鏈:聯盟節點 30+;高性能擴展 1 萬 TPS;合約調用 20 萬次/天;電子存證和智能合約;隱私保護協議;快捷部署場景應用;開源開發社區。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 115 5 星云 Clustar AIOS 星云 AIOS(AI Operating System)是一款具備高性能、高可靠、高靈活及高擴展特性的人工智能操作系統,由高性能 AI 加速中間件、深度學習訓練平臺及數據推理平臺
289、三個子系統構成,為用戶提供數據處理、模型訓練、推理服務及 AI 應用等完整的 AI 解決方案??傮w框架如圖 51 所示。來源:星云 Clustar 官網 圖圖 5151 星云星云 AIOSAIOS 系統框架系統框架 AIOS 產品矩陣 74 星云聯邦數據網絡(數據):通過 API 提供服務,隱私保護的大數據安全連接平臺,以聯邦學習和區塊鏈作為基礎設施,拼接多方數據源,建立企業間數據合作的安全橋梁,實現企業效能和數據價值的最大化。星云聯邦計算平臺(框架)FATE 聯邦學習軟件框架,由多個主要功能模塊構成:聯邦算法倉庫、聯邦訓練服務、聯 74 來源:星云 Clustar 官網 https:/ 人工
290、智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 116 邦推理服務、可視化面板。企業可以輕松的通過可視化面板直接對各類聯邦算法模型進行調用與實驗,可大幅降低聯邦學習的使用門檻。星云 FATE 企業版,為基于數據隱私保護的安全建模過程提供豐富的可視化呈現,為終端用戶提供可視化和度量模型訓練的全過程,支持模型訓練過程全流程的跟蹤、統計和監控等,幫助模型開發人員快速搭建聯邦學習任務,可根據客戶需求深度定制開發。來源:星云 Clustar 官網 圖圖 5252 星云星云 FATEFATE 企業版企業版聯邦架構層聯邦架構層 星云隱私計算一體機(算力)針對數據使用方和數據提供方提供不同產品方案:
291、一體機完美融合 CPU/GPU/FPGA 服務器、FATE 和 FDN,開箱即用,大大降低了企業使用聯邦學習的門檻;密態計算效率提升400%、降低延遲 300%、降低功耗 70%,強大算力推動各方數據協作,實現數據資產變現。6 光之樹科技天機、云間 光之樹科技旗下有天機可信計算框架和云間聯邦學習平臺兩個隱私計算產品,提供從共享模型訓練即“云間”聯邦學習到基于芯片 TEE 技術的“天機”機密計算在內的全流程、多場景安全多方計算框架,保護數據資產權益,安全發揮數據價值。天機可信計算框架 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 117 天機可信計算框架于 2019 年 8 月發
292、布。它是一個基于芯片中的可信執行環境(TEE:Trusted Execution Environment)和其他加密技術的可信計算體系,主要通過將數據從共享到聯合計算在硬件創建的可信執行環境中進行的方式,從而做到數據可用不可見,確保了數據隱私、安全和合規。它具有的安全機制可同時保護模型和計算過程中的數據,可直接運行機器學習級別的高復雜度計算模型,兼容當前主流的大數據和機器學習框架包括xgboost、scikit-learn(支持邏輯回歸等算法)、TensorFlow 等。用戶無需二次開發,可快速部署于公有云、私有云或線下環境,并兼容主流數據庫以及數據服務。它搭配區塊鏈用于數據存證和權限控制,做
293、到數據使用全程可追溯可審計。來源:光之樹官網75 圖圖 5353 天機可信計算框架總體框架圖天機可信計算框架總體框架圖 云間聯邦學習平臺 云間聯邦學習平臺是基于機器學習、深度學習算法和加密協議的安全計算框架。數據無需離開本地,主要通過將模型下發到數據聯盟本地服務器訓練的模式,以最小的數據交互對模型進行更新和迭代的計算方法,從而達到保證數據安全性的前提下多方聯合計算的目的。75 來源:光之樹官網 https:/ 2023 聯邦學習全球研究與應用趨勢報告 118 應用于普惠金融、貿易金融、保險反欺詐、供應鏈金融等場景。具有以下優勢:a.安全性:通過聯邦學習特有的算法保證數據不出本地,并通過加密協議
294、確保數據交互的安全性。b.一鍵式訓練和模型部署:擁有自動建模功能,支持多種機器學習和深度學習的聯邦學習訓練和模型部署。c.可視化:對訓練狀態和訓練效果進行全方位監控。d.快速部署:支持多種數據庫的接入,快速進行私有化部署。e.場景多樣性:支持多種場景,包括橫向和縱向學習。7 翼方健數翼數坊 XDP 翼方健數通過多方安全計算 MPC/同態加密、聯邦學習、安全沙箱計算/TEE 等前沿技術,實現數據“可用而不可見”,提出“數據和計算互聯網”(IoDC)的概念并付諸實踐。在技術運用層面,翼方健數自主研發的 DaaS 服務,可以對多組學數據、表型數據、臨床數據進行數據治理和清洗,達到數據可用的狀態,從而
295、實現不分享原始數據、數據在平臺內授權使用、通過計算來分享數據的價值這一目的。2019 年 4 月 13 日,醫療數據隱私計算平臺 XDP 翼數坊 v1.0 發布。翼數坊 XDP 利用隱私安全計算技術,實現合理的、授權下的數據價值共享,創造數據流通性,降低數據科學的門檻。翼數坊 XDP 平臺的整體設計從最底層開始,完全基于隱私計算的原理和應用。采用了一系列新型技術,包括多方安全計算、同態加密、聯邦學習、可信執行環境、零知識驗證等,具有開放、安全、整合、高效、智能五大性能。XDP 平臺可基于智能合約技術追溯源數據集,建立“數據血緣”。此外,XDP 構筑出的封閉的數據存儲和計算環境,將從各醫療機構采
296、集到的數據進行清洗、脫敏、歸一,形成DaaS 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 119 數據集后進行加密,杜絕數據的泄露。形成的數據權限管理系統,可以確保平臺用戶所有者授權后才能使用數據,數據所有者的權益也可以得到保障。平臺數據僅限于在平臺內使用,即使被授權的數據也不能離開平臺,從而進一步保護數據所有者的權益。XDP 平臺上可以關聯、集成并融合各個醫療機構、檢驗檢查以及健康數據;數據應用方面,XDP 平臺擁有分層可擴展的技術架構,能夠實現高密度存儲、快速訪問和迅速分析計算,并且支持多種人工智能模型的建立,從而多角度直觀分析和展示數據。人工智能之聯邦學習 2023 聯
297、邦學習全球研究與應用趨勢報告 120 來源:翼方健數官網 76 圖圖 5454 翼數坊翼數坊 XDPXDP 平臺平臺總體架構總體架構 8.AIIA電信領域聯邦學習技術架構 2021 年 9 月 27 日,中國人工智能產業發展聯盟(AIIA)正式發布電信領域聯邦學習技術應用白皮書7777。該白皮書由中國信息通信研究院、中國移動通信有限公司研究院、聯通數字科技有限公司、華為技術有限公司等共同編寫。該白皮書對聯邦學習應用于電信行業的技術潛力與應用前景進行了分析,并介紹了電信聯邦學習技術架構(如圖 55 所示)、技術分類、部署框架與關鍵優化技術等內容。白皮書指出,電信領域聯邦學習的發展與落地應用尚處于
298、發展初期,通過需求牽引提升關鍵技術,強化電信聯邦學習標準與測評工作,可加快電信聯邦學習落地應用與產業發展。76 來源:翼方健數官網 https:/www.basebit.me/77 來源:AIIA 正式發布電信領域聯邦學習技術應用白皮書 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 121 圖圖 5555 電信領域聯邦學習技術架構電信領域聯邦學習技術架構 9.中國工商銀行工行聯邦學習平臺框架 工商銀行依托自主建設的數據安全技術平臺及聯邦學習等隱私計算技術平臺,強化數據安全和個人信息保護,挖掘數據價值,促進數據智能化應用。其中,數據安全技術平臺框架分為安全服務、核心功能、基礎能力
299、三層;工商銀行自研推出的企業級聯邦學習平臺,目前上線平臺已具備數據安全引入、數據安全對齊、數據安全計算三大優勢,為金融數據安全合規地流通和使用提供可靠的技術產品。聯邦學習平臺框架分為技術框架層、算法層、AI 工作站三層,如圖 56 所示。其中 AI 工作站主要為工行自主開發,目前已經完成可視化建模流水線、模型管理、隱私求交三個部分的工程開發,能夠初步滿足用戶的聯邦需求。算法層基于開源 FATE 框架集成了橫向聯邦、縱向聯邦的算法。技術框架層延續 FATE 框架的算法,主要集成同態加密的安全協議,后續需要通過外部引入完善安全協議。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 12
300、2 圖圖 5656 工行聯邦學習平臺框架工行聯邦學習平臺框架 3.3 聯邦學習行業應用現狀 通過新聞事件分析挖掘和搜索系統 NewsMiner 數據庫,從已公開的新聞數據發現,聯邦學習技術的行業應用最早出現在 2018 年,當時被應用在金融、IT 和通信領域,后來幾年其應用探索逐漸擴展到智慧城市、教育、汽車等其他多個行業領域。1.在金融業應用 聯邦學習在金融業應用目前處于框架設計、模型構建、合作探索、在幾個業務場景中初步試點的階段,應用主要體現在軟硬件解決方案、數據安全、隱私保護、信貸營銷、金融風險管理等方面。推進聯邦學習在金融業應用落地的參與主體主要是科技公司(百度、騰訊、京東等)、互聯網金
301、融機構(微眾銀行、螞蟻金服等)、少數傳統商業銀行(江蘇銀行、浦發銀行、建設銀行等)等。相關信息如表 12 所示。表表 1212 20162016-20222022 年度聯邦學習技術在金融業應用動態年度聯邦學習技術在金融業應用動態 金融業應用場景 標題 年-月 來源 金融風險管理 建設銀行創新合作伙伴揭曉 京東數科、科大訊飛、同盾科技等企業入選 2018-06 CSDN 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 123 金融業應用場景 標題 年-月 來源 數據安全、隱私保護 螞蟻金服推出“摩斯 MORSE”多方安全計算平臺 2018-08 CSDN 小微信貸 微眾銀行開源 F
302、ATE 2019-02 新華網 解決數據孤島問題 微眾銀行與瑞士再保險合作探討聯邦學習技術如何解決數據孤島的挑戰,助力保險行業共同發展。2019-5 同花順 深度聯合建信用模型、客服、偵測欺詐 同盾科技與招聯金融共建 AI 創新實驗室 聯邦學習為主攻方向之一 2019-06 新華網 高性能分布式異構計算技術、軟硬件解決方案 星云和微眾達成合作,推動 AI 新技術聯邦學習的發展 2019-08 科學中國 提升金融服務質量、安全深入地挖掘數據價值 微眾銀行和騰訊云合作升級 聯邦學習攜手神盾沙箱共建行業標桿 2019-09 搜狐 數據價值共享、加速金融行業轉型進化 英特爾助力平安科技聯邦學習落地 2
303、019-09 新浪 多方聯合建模 螞蟻金服基于 MPC 的共享學習 2019-09 ITPUB 支持多方縱向聯邦建模、支持 spark 引擎、支持FATEServing 服務治理、支持secureboost在線預測、支持公有云和私有云部署和使用 微眾銀行發布 FATE v1.1,聯合 VMware 中國研發開放創新中 心云原生實 驗室的團 隊發布KubeFATE 項目。FATEBoard:簡單高效,聯邦學習建模過程可視化 2019-11 賢集網 打造大規模 AI 協作通用方案 微眾銀行與蒙特利爾學習算法研究所合作打造安全金融 AI 實踐 2019-12 騰訊 智能化信用卡 江蘇銀行與騰訊安全舉
304、行聯邦學習線上發布會,將聯合共建“智能化信用卡管理聯合實驗室”,圍繞聯邦學習開展合作 2020-04 CSDN 金融數據保密、信貸業務綜合評估、控制企業技術升級成本 編織聯邦學習的產業路徑,騰訊向金融智能化的更遠處進發 2020-04 搜狐 信用卡管理 江蘇銀行與騰訊安全共建“智能化信用卡管理聯合實驗室”,圍繞聯邦學習開展合作。2020-5 騰訊 金融產品管理、營銷、安全風控、客戶服務、運營管理 百度金融安全計算平臺(度信)建設與實際應用 2020-06 騰訊安全 普惠金融試點應用 騰訊安全靈鯤與浦發銀行、北京金控合作的“多方數據學習 政融通 在線融資項目”入選北京金融2020-8 第一財經
305、人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 124 金融業應用場景 標題 年-月 來源 科技創新監管第二批 11 個試點名單,成為基于聯邦學習的普惠金融試點應用。信貸風控 騰訊安全天御憑借其在信貸風控場景的落地實踐,榮獲首個 CCF-GAIR“聯邦學習應用獎”2020-08 搜狐 反詐騙技術、普惠金融 反詐騙、管控金融風險,騰訊安全發力聯邦學習技術 2020-09 新浪 金融服務、風險識別能力、數字營銷 京東數科自研聯邦學習平臺 Fedlearn,助力數據安全保護并大幅提升學習效率 2020-10 機器之心 電商營銷、廣告投放、個性化內容推薦、廣告推薦 字節跳動破局聯邦學習:
306、開源 Fedlearner 框架,廣告投放增效 209%2020-10 CSDN 金融風控、營銷 光大科技加入 FATE 聯邦學習社區技術指導委員會(TSC)并貢獻關鍵算法源碼基于“可驗證秘密分享技術”研發的“聯邦學習平臺多方安全求和算法”2021-1 搜狐 數字信貸 新網銀行聯合多家金融機構、互聯網公司、公共單位,探索聯邦學習在數字信貸領域的應用,將商業銀行的金融大數據挖掘和建模經驗與互聯網公司、數據生態和公共單位豐富的客戶畫像數據及完善的大數據支持環境相結合,打破數據孤島、保護客戶隱私、實現數據價值。2021-3 中國金融電腦 健康險的保險獲客 數鳴科技獲過億元 A 輪融資,用 AI 算法
307、賦能醫療健康險 2021-3 新浪 銀行風險管理 京東金融云攜手平安蜂巢聯合開發出行業領先的跨平臺聯邦建模數據合作安全保護方案,應用于不同聯邦學習平臺之間的實時通信,實現了聯邦學習跨平臺的重大創新突破。雙方基于聯邦學習技術進行聯合開發和方案部署,為平安銀行提升風險管理自動化水平賦能,在兩方數據特征無需出庫的前提下,較單方模型效果提升 30以上。2021-3 金融界 數據融合應用 央行啟動金融數據綜合應用試點 2021-5 新華網 信貸風險控制、金融營銷與廣告投放 微眾銀行的普惠金融 AI 全布局 2021-6 雷鋒網 數據安全與保障數據合規流通 星云 Clustar 與 VMware 聯合發布
308、聯邦學習企業級解決方案 2021-9 新華網 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 125 金融業應用場景 標題 年-月 來源 數據共享應用 北京法定數字貨幣試驗區揭牌,中國人民銀行副行長范一飛表示,要深度挖掘數據價值,重點要集中在數據治理、數據應用、數據保護方面。探索應用多方安全計算、聯邦學習等技術,實現數據可用不可見、數據不動價值動。2021-9 新浪 金融數據安全與合規流通 星云 Clustar 與 VMware 聯合發布聯邦學習企業級解決方案 2021-9 中國網 中小微企信貸評估 應科院伙渣打及 PAOB 以聯盟式學習為中小微企進行信貸評估 2021-10 輔
309、助醫療保險金給付理賠核算 14 家產險強制險理賠 跨入 2.0 版 2021-10 工商時報 金融風控 工商銀行的聯邦學習系統已應用于風控等多個場景,比如,引入北京金控的不動產數據,與行內貸款企業的時點貸款余額、注冊資本、賬戶余額等數據聯合建立企業貸中預警監測模型,該模型提升準召率約 4%,進一步提升了工商銀行的風險監測業務能力。2021-11 新浪 數據安全、隱私保護 凌華科技與致星科技攜手打造邊緣聯邦學習的一體機,以應對集中式機器學習訓練中的數據時延與隱私保護問題,充分保障數據隱私安全,可應用于著重隱私的金融、醫療、零售、互聯網等領域。2022-07 搜狐 數據安全、隱私保護 度小滿貔貅隱
310、私計算平臺通過國家金融科技測評中心(銀行卡檢測中心)聯邦學習金融應用測評。2022-11 數據猿 外匯業務監管及風險評估 中國工商銀行聯合青海省外管局融合工行客戶畫像、人民幣交易、客戶信用和外管局外匯交易等業務數據,利用聯邦學習技術,將雙方數據加密后進行隱私求交,在不獲得對方特征數據的情況下進行聯邦學習建模,在雙方本地部署計算節點、搭建聯邦學習平臺,全鏈路保障合作雙方業務數據隱私安全;建立關注指數模型、共享模型,實現個人客戶風險評分,提前預判客戶合規風險程度。2022-11 安全內參 銀行風控策略優化 中國民生銀行羅勇:聯邦學習技術助力銀行風控策略組合優化,在保護用戶信息不泄露的前提下將多元、
311、多維度的數據納入聯合風控模型中,實現更精細的洞察,構建更精準的風控模型。另一方 2022-12 和訊網 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 126 金融業應用場景 標題 年-月 來源 面,金融機構與外部機構之間也可基于聯邦學習技術,利用多維度數據建立聯合金融風險模型、擇優導流、共享黑名單等,在數據沒有離開本地的情況下,擴充多方特征或樣本,提高模型效果。信息合規共享 興業銀行利用隱私計算技術,實現了反洗錢信息合規共享與優質企業聯合發卡試點 2022-12 央廣網 來源:根據公開資料整理 2.在醫療業應用 聯邦學習在醫療業應用目前處于研究探索、項目試點的階段,參與主體不僅
312、有科技公司,而且有較多的國內外權威科研機構、大學院所、醫療機構。國際性科技期刊 Nature 自然曾發表關于聯邦學習在醫療領域應用的文章,展示出聯邦學習技術醫療應用的強大潛力,如表 13 所示。新冠疫情期間,通過使用聯邦學習和來自各地區各醫療機構的數據來開發模型的研究意愿和實踐較強烈。表表 1313 自然關于聯邦學習技術在醫療業應用相關文章自然關于聯邦學習技術在醫療業應用相關文章 應用場景 論文 簡介 來源 精 準 醫療、醫療數據隱私保護 Swarm Learning for Decentralized and Confidential Clinical Machine Learning 引入
313、分散式機器學習方法 Swarm Learning來整合各地醫療數據,它結合了邊緣計算、基于區塊鏈的點對點網絡和協調,無需中央協調器即可保持機密性。Nature,no.7862(2021):265-270 醫療成像及潛在攻擊向量和未來 Secure,Privacy-Preserving and Federated Machine Learning in Medical Imaging 為了促進旨在改善患者護理的大型數據集科研并保護患者隱私,必須實施技術解決方案以同時滿足數據保護和利用的需求。該文概述了當前和下一代聯合、安全和隱私保護人工智能的方法,重點是醫學成像應用,以及醫學成像及其他領域的潛在
314、攻擊向量和未來前景。Nature Machine Intelligence,no.6(2020):305-311 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 127 醫療數據集分析;醫療用藥診斷;精準/個 性化醫療 Federated Learning in Medicine:Facilitating Multi-Institutional Collaborations Without Sharing Patient Data 表明通過多個數據私有機構合作而增加的數據訪問可以更多地有益于訓練模型質量。聯邦學習的臨床采用有望對精準/個性化醫學產生催化影響。Scientific
315、reports,no.1(2020):12598 數字健康 The Future of Digital Health with Federated Learning 如果無法獲得足夠的數據,機器學習將無法充分發揮其潛力,并最終無法從研究過渡到臨床實踐。本文探討了聯邦學習如何為數字健康的未來提供解決方案,并強調需要解決的挑戰和注意事項。NPJ DIGITAL MEDICINE,no.1.0(2020):119 聯邦學習在醫療行業已開展的項目,不僅包括系統平臺,而且具體落地到腦卒預測、識別腦腫瘤、預測新冠患者的氧氣需求等實踐。其應用主要體現在醫療影像、醫療診斷、醫療數據安全與數據孤島問題、隱私保護
316、、疾病預測、疾病庫建設等方面。已公開的應用信息如表 14 所示。表表 1414 20162016-20222022 年度聯邦學習技術在醫療業應用動態年度聯邦學習技術在醫療業應用動態 醫療業應用場景 標題 年-月 來源 解決信息孤島,提供數據安全和授權使用機制 醫療數據隱私計算平臺 XDP 翼數坊 v1.0 全球首發 2019-04 搜狐 醫療成像 英偉達在 MICCAI 2019 上發布首個面向醫學影像的隱私保護型聯邦學習系統 2019-10 摩爾芯聞 醫療服務患者數據保護 英偉達推出了 NVIDIA Clara 聯邦學習 2019-12 極客公園 生物醫藥、健康管理、養老旅游、醫療設備、健康
317、保險、保健食品等 Hitacea(醫圖亞)打造成為基于區塊鏈+聯邦學習等新興技術的亞洲首家全鏈條大健康科技產業平臺 2020-04 科學中國 疾病預測 騰訊天衍實驗室聯合微眾銀行研發醫療聯邦學習 AI 利器讓腦卒中預測準確率達 80%2020-04 CSDN 醫療診斷 英特爾和賓夕法尼亞大學佩雷爾曼醫學院組建醫療聯盟研發用以識別腦腫瘤的人工智能模型 2020-05 中電網 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 128 醫療業應用場景 標題 年-月 來源 AI 影像輔助診斷、高精度疾病檢測、多維分析以及 3D術前規劃與模擬 商湯科技 SenseCare智慧診療平臺推出包含
318、胸部 CT、胸部 X 線、心臟冠脈、病理、骨腫瘤等多款產品解決方案 2020-07 趣味科技 保護用戶隱私建模、醫?;鹂刭M、個人與機構拒付識別、醫學影像輔助診斷、醫院運營、臨床醫療、健康管理、科研教學 騰訊醫療健康攜手微眾銀行成立聯合實驗室 2020-08 TechWeb 醫學統計分析、臨床試驗模、藥物研發 中 科 院 上 海 藥 物 所 聯 合 華 為 云 發 布 基 于ModelArts 平臺的藥物聯邦學習服務 2020-09 飛象網 藥物隱私數據保護 藥物研發 同濟大學與微眾銀行 AI 團隊協同提出了一種基于聯邦學習的協同藥物定量構效原型系統 FL-QSAR 2020-12 科學中國
319、臨床驗證評估、醫學影像輔助診斷 德國癌癥研究中心、倫敦國王學院、麻省總醫院、NVIDIA、斯 坦 福 大 學 和 范 德 堡 大 學 推 出MONAI(Medical Open Network for AI)2020-12 電子發燒友 電子病例相似性搜索、病人表征學習、SplitNN、社區特異性模型、預測健康風險 康奈爾大學研發團隊發現聯邦學習將可應用于眾多生物醫學領域的場景 論文:Federated Learning for Healthcare Informatics 2021-5 澎湃新聞 輔助醫生診療 推出擬人化、全技能的“主動式 AI 醫生”,左手醫生獲得 1 億元 B 輪融資 20
320、21-8 36 氪 新冠患者對呼吸器的需求預測 來自美國、英國、加拿大、日本、韓國、泰國、巴西以及臺灣等國家地區 20 間醫院及研究機構,共同開發能夠精準預測新冠患者對呼吸器的需求程度,透過先進 AI 技術輔助醫事人員預測患者的氧氣需求,以便最有效率地安置患者,使醫療資源達到更適切的運用。2021-10 中時新聞網 醫學成像、基因分析、腫瘤學和新冠肺炎(COVID-19)研究 NVIDIA 利用 FLARE 進行聯邦學習,將協作式 AI 帶入醫療健康及其他領域 2021-11 英偉達中國 AI 診療、新冠 CT 數據采集 華中科技大學、劍橋大學、斯坦福大學、約翰霍普金斯大學等國內外權威科研機構
321、提出基于聯邦學習開源醫學人工智能計算框架(UCADI)2021-12 機器之心 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 129 醫療業應用場景 標題 年-月 來源 論文:Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in Artificial Intelligence 精準醫療 英特爾與高雄榮總、緯創打造 OWL 數字病理平臺,同步實現數字化病理學 2021-12 ETtoday財經云 疾病預測 零氪科技提出的基于聯邦學習的多中心數據處理框架 FedCIE 正在逐步應用,該模型基于零氪
322、的醫療數據治理能力,特別是在病歷深度結構化、患者畫像、科研主題庫建設等方面的深厚積累,能夠解決單中心數據孤島的問題,使各中心間數據能力彼此共享。目前,FedCIE 已被用來訓練信息抽取模型、疾病預測模型等,并應用在多個項目上,取得了安全與高效的雙重收益。2022-02 金融界 醫療輔助診斷、健康險風險等級評估、對某種疾病患者的社會行為做出風險評估、實現個性化智能診療 同盾科技李曉林:可信 AI 生態系統,將成為下一代 AI 醫療的基礎設施 2022-04 雷鋒網 醫療影像 醫療集團 Aster DM Healthcare 旗下的 Aster創新研究中心與英特爾公司、人工智能企業CARPL.ai
323、 合作,在印度開發并推出一款基于 AI的健康數據平臺。該健康數據平臺應用了英特爾的開源框架 OpenFL,已經使用喀拉拉邦、班加羅爾和維杰亞瓦達等地 Aster 醫院的醫院數據進行了測試,共提取了超過 125000 張胸部 x 射線圖像,使用雙位點方法訓練 CheXNet AI 模型,并通過模型檢測 x 射線報告中的異常。2022-07 雷鋒網 醫療數據安全、隱私保護 采用英特爾 SGX,醫渡云打造了一個多方安全計算解決方案,又通過多中心醫學研究全場景解決方案,部署了臨床研究開展、藥械試驗與研究等。锘崴科技打造的锘崴信 隱私保護計算平臺,支持華西醫院等在內的多家三甲醫院和大學,完成了強直性脊柱
324、炎的全基因組關聯研究分析,有效解決了基因數據共享中存在的隱私安全問題。锘崴科技還開發了一個 PICOTEES 隱私保護查詢在線系統,實現帶有隱私保護的罕見病查詢,2022-08 數據猿 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 130 醫療業應用場景 標題 年-月 來源 已在復旦大學附屬兒科醫院取得了令人滿意的應用表現。疾病預測預警、輔助診斷、專病庫建設 華西二院選擇翼方健數來搭建數據開放服務平臺及先心病專病庫。數據開放服務平臺內置同態加密、聯邦學習、安全沙箱等多種隱私計算技術,實現數據的隱私保護和安全流通。2022-12 BaseBit 翼方健數 來源:根據公開資料整理
325、3.在電信業應用 聯邦學習的最初提出就是為了解決移動設備數據訓練問題,可以看作是其在電信業的最早應用。從公開的新聞數據看,聯邦學習在電信業應用探索從 2018 年開始至今,應用場景從早期的通信資源分配已擴展到近期的客戶體驗和精準營銷、6G 和衛星網絡等。其中的參與主體主要是大型通信運營商、軟硬件制造商等。相關信息如表 15 所示。表表 1515 20162016-20222022 年度聯邦學習技術在電信行業應用動態年度聯邦學習技術在電信行業應用動態 電信業應用場景 標題 年-月 來源 車聯網通信 華為數字算法實驗室利用聯邦學習原理解決車聯網中可靠低延遲通信的聯合功率和資源分配問題 2018-0
326、7 arXiv.org 智能手機 谷歌發布全球首個移動端分布式機器學習系統,數千萬手機同步訓練 2019-02 億歐 聯邦節點管理、邊緣節點管理、聯邦實例運行 華為 NAIE 聯邦學習服務助力華為 CloudMSE基于業務感知(Service Awareness,SA)技術的業務管理 2019-09 知乎 數據采集、模型訓練、推理判斷及智能預測 中國移動在 3GPP 標準引入基于聯邦學習的分布式智能架構 2020-07 通信世界 識別業務流量后的帶寬控制、阻塞控制、業務保障,用戶信用評估、用戶滿意度提升 華 為CloudMSE的 業 務 感 知(Service Awareness,SA)技術
327、2020-10 知乎 精確營銷并推薦最佳產品權益 天津移動打造基于“聯邦學習+區塊鏈”的多方安全計算引擎系統-“珍瓏”,在運營商、本地生2020-12 C114 技術 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 131 電信業應用場景 標題 年-月 來源 活、視頻內容、交通出行等多行業數據的支撐下,實現精確的營銷識別,并推薦最佳產品權益,讓區塊鏈+聯邦學習成為智慧零售的引擎、智腦。語音識別、打字預測、更新系統 蘋果和谷歌運用聯邦學習技術,在不獲取原始數據的情況下更新基于云的機器學習系統。此前,谷歌使用該技術來使其移動打字預測與語言趨勢保持同步;蘋果已使用它來更新語音識別模型的
328、研究。2021-6 Wired 6G 網絡、衛星互聯網 北郵深研院與天儀研究院共建“天算星座”,首發星計劃明年擇機發射 2021-11 中國科技網 手機用戶體驗提升 手機 AI 怎么突然就智商井噴了?高通提出了一種手機端的聯邦學習方法,既能使用手機用戶語音訓練模型,同時保證語音數據隱私不被泄露。2021-12 搜狐 客戶體驗管理 聯邦學習在移動通信網絡智能化的應用,進行客戶體驗感知模型訓練 2022-2 移動通信J 來源:根據公開資料整理 4.在 IT 行業應用 聯邦學習在 IT 業應用動向主要聚焦于數據安全和基于數據的增值服務方面,主要參與者是互聯網科技公司以及一些有地方政府背景的數據交易所
329、,如表 16 所示。表表 1616 20162016-20222022 年度聯邦學習技術在年度聯邦學習技術在 ITIT 行業應用動態行業應用動態 IT 行業應用場景 標題 年-月 來源 用戶數據保護 騰訊云發布數據安全解決方案數盾 2018-05 騰訊 隱私數據安全流轉 ARPA 測試網 1.0 版本 ASTRAEA 正式發布 2019-03 金色財經 可擴展分布式數據協作 趣鏈科技自主研發 BitXMesh 正式發布 2019-05 太平洋電腦 聯合學習、聯合計算、數據共享、模型訓練 光之樹發布天機可信計算框架和云間聯邦學習平臺 2019-08 搜狐 跨行業數據融合、隱私保護 富數科技結合聯
330、邦學習和安全多方計算技術推出了富數安全計算平臺 2019-08 鳳凰網 人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告 132 IT 行業應用場景 標題 年-月 來源 面向產業應用的工具組件 百度發布 3 項深度學習前沿技術工具組件:聯邦學習 PaddleFL、圖神經網絡 PGL 和多任務學習 PALM 等 2019-11 錢江晚報 提出知識聯邦框架 同盾科技人工智能研究院深度學習實驗室發布成果:“面向聯邦學習的加密神經網路”2019-09 極客網 擴大光大聯邦學習生態圈 光大科技加入 FATE 聯邦學習社區技術指導委員會(TSC)并貢獻關鍵算法源碼 2020-01 新華網 數據
331、脫敏及去標識化、加密算法支持、DMZ 區建設 同盾科技聯邦學習技術加持 讓數據“可用不可見”2020-03 網易 大數據安全 平安科技聯邦智能平臺“蜂巢”落地 2020-09 搜狐 解決數據交易過程中確權困難、定價困難、隱私保護困難等問題 北部灣大數據交易中心建設運營取得初步成效 2021-1 人民網 支撐數據使用權交易 北京國際大數據交易所成立 探索全國數據交易新樣板 2021-3 財經網 根據用戶瀏覽習慣進行廣告投放 新技術剛測試就被禁 谷歌“殺死”Cookies真能重寫規則?2021-4 新浪 用戶數據保護 抹掉你的網絡痕跡,從未如此簡單。谷歌宣稱,從今年起,所有用戶的所有使用數據都會默
332、認在 18 個月后自動刪除 2021-7 搜狐 公共數據交易 深圳已經在籌備數據交易所等多項基礎設施建設 預計今年底可開始公共數據交易 2021-8 新浪 廣告平臺客戶隱私數據保護 SaaS+云計算,能打開匯量科技的增長空間嗎?2021-10 OFweek物聯網 解決企業信息安全及隱私外泄 科技園推金融科技虛擬實驗室 采用聯邦學習技術保數據安全 2021-11 香港經濟日報 來源:根據公開資料整理 5.在其他行業應用 2019 年以來,智慧城市、教育、汽車/自動駕駛等領域也嘗試引入聯邦學習技術,進行了相關的應用探索,如表 17 所示。人工智能之聯邦學習 2023 聯邦學習全球研究與應用趨勢報告
333、 133 表表 1717 20162016-20222022 年度聯邦學習技術在其他行業應用動態年度聯邦學習技術在其他行業應用動態 行業 應用場景 標題 年-月 來源 智慧城市 智慧城市政務、安全、交通、醫療、物流,跨部門、跨領域、跨區域的即時數據處理和數據融合 京東城市基于城市計算和聯邦學習技術打造的產品“數字網關”2019-10 技術前線 公共安全、智能交通、智能能源 京東城市發布了城市操作系統升級版本“智能城市操作系統 2.0”2019-12 鏈財經 重大災難中的人群疏散;零售、物流業的倉庫選址 微眾銀行 AI 團隊可視化再獲新里程碑,兩篇論文獲 EuroVis 2020 收錄 2020-03 CSDN 城市交通監測 星云 Clustar 打造智慧城市領域的數據集CityNet 2020-09 騰訊 城市管理、公安、社區安防 微眾銀行與特斯聯在北京宣布成立“AIoT 聯合實驗室”20