《北京金融科技產業聯盟:FATE隱私計算開源框架金融行業技術應用報告(2023)(63頁).pdf》由會員分享,可在線閱讀,更多相關《北京金融科技產業聯盟:FATE隱私計算開源框架金融行業技術應用報告(2023)(63頁).pdf(63頁珍藏版)》請在三個皮匠報告上搜索。
1、 FATE 隱私計算開源框架金融行業技術應用報告 1 FATE 隱私計算開源框架金融行業技術應用報告 The Application and Development Report of Open Source Privacy Computing Framework(FATE)in Financial Industry 北京金融科技產業聯盟 2023 年 1 月 FATE 隱私計算開源框架金融行業技術應用報告 2 前 言 本報告由北京金融科技產業聯盟開源專業委員會組織編寫并擁有相關版權。凡轉載、引用、摘錄或以其他方式利用本報告觀點、內容、圖表的,都應注明“引用來源:北京金融科技產業聯盟”。FAT
2、E 隱私計算開源框架金融行業技術應用報告 3 編制委員會 主任:潘潤紅 編委會成員(按姓氏筆畫排序):楊強 涂曉軍 聶麗琴 魯金彪 編寫組成員:夏知淵 丁文定 苗天麒 范濤 葛嫻 高鵬飛 陳東熠 周雍愷 張遠健 丁銳 徐梓丞 周柚池 李艷 黃安埠 梁曄華 胡玉杰 劉微 王鵬 霍昱光 樊昕曄 李鈺 申超波 張國慶 劉文懋 徐安瀅 張宏 高翔 胡達川 李尋 耿航 程勇 李克鵬 楊揚 統稿:丁文定 參 編 單 位:北京金融科技產業聯盟、中國工商銀行股份有限公司、深圳致星科技有限公司、深圳前海微眾銀行股份有限公司、中國銀聯股份有限公司、中國銀行股份有限公司、建信金融科技有限責任公司、光大科技有限公司、
3、廣發銀行股份有限公司、北京神州綠盟科技有限公司、中國農業銀行股份有限公司、騰訊云計算(北京)有限責任公司 另有以下單位也為本次報告編制分析提供了行業案例參考:中國郵政儲蓄銀行股份有限公司、交通銀行股份有限公司、平安銀行股份有限公司、上海浦東發展銀行股份有限公司、興業銀行股份有限公司、華夏銀行股份有限公司、泰康保險集團股份有限公司、星環信息科技(上海)股份有限公司、同盾科技有限公司、上海同態信息科技有限責任公司、神譜科技(上海)有限公司、神州融安數字科技(北京)有限公司 感謝以上機構及人員對本報告編寫的大力支持!FATE 隱私計算開源框架金融行業技術應用報告 4 目目 錄錄 概述.5 一、研究背
4、景.7(一)數據需求推動發展.8(二)開源成為重要途徑.9(三)政策環境提供支持.10 二、主流開源隱私計算框架介紹.12(一)特點概況.12(二)應用情況.16 三、金融業隱私計算開源生態建設現狀.21(一)發展歷程.21(二)路徑及形式.22(三)痛點和需求.25(四)隱私計算開源生態位全景圖.27 四、FATE 開源框架技術分析.30(一)框架特點.30(二)一站式解決方案.32(三)靈活適配.36(四)云原生.36 五、未來展望.38(一)技術發展展望.38(二)生態建設展望.40 參考文獻.43 附錄:FATE 開源框架的典型應用案例.44(一)應用概況.44(二)應用場景.44 F
5、ATE 隱私計算開源框架金融行業技術應用報告 5 概 述 近年來,我國 數據安全法 網絡數據安全管理條例 個人信息保護法陸續出臺,數據安全已經邁入了重要發展階段。在充分保護數據和隱私安全的前提下,隱私計算技術實現不泄露數據本身的情況下,對數據進行分析與計算,滿足數據“可用不可見”的要求,促進數據價值的轉化和釋放。2022 年,隱私計算技術體系不斷完善,行業標準日趨統一,應用場景逐漸豐富,實踐案例不斷增加,隱私計算技術蓬勃發展。金融行業是隱私計算技術應用落地的最重要領域,金融機構在數字化轉型升級中有著強烈的數據流通需求,迫切需要打破數據流通的壁壘,實現數據融合運用。金融機構通過開源共建方式能夠解
6、決互信協作難的問題,但如何在保障用戶隱私安全同時,釋放數據要素價值,成為金融機構必須面對的挑戰?;仡欕[私計算技術的發展歷程,開源模式已經成為隱私計算技術創新及產業協同發展的重要驅動力,極大促進了隱私計算技術的進步與融合。開發者們通過大量的落地案例及場景應用實踐,對開源隱私計算框架進行持續的技術驗證與創新,不斷推進開源隱私計算技術快速發展與完善。同時,我國形成了以 FATE 為代表的隱私計算開源社區,各大院校、科技企業、科研機構、協會團體、金融機構等積極參與其中,共建隱私計算開源生態,為隱私計算產學研用的深度融合起到了良好的示范及推動作用。從長期來看,開源是促進隱私計算技術互聯互通的重要模式,也
7、是隱私計算技術規?;l展的必要途徑。在政策層面在政策層面,國家和金融行業積極鼓勵開源創新;在技術層面在技術層面,開源有效加速構建隱私計算生態,降低技術開發門檻,促進行業標準統一及互聯互通,并推動隱私計算技術朝著更安全、更可信、更普惠的方向穩步發 FATE 隱私計算開源框架金融行業技術應用報告 6 展;在行業應用層面在行業應用層面,開源隱私計算技術已經在金融、政務、醫療等領域中具備豐富的成功案例,并通過大量的實踐案例持續反哺技術的不斷成熟。本報告對主流隱私計算開源框架和金融業隱私計算開源生態建設現狀進行研究,結合金融業對隱私計算技術的實際場景需求,以業界影響力較大的 FATE 隱私計算開源框架為
8、研究對象,通過豐富的實踐案例,探索金融業對隱私計算開源框架的通用技術能力要求,為隱私計算開源框架更好地適配金融業數據流通需求提供指導和建議,從而實現金融業隱私計算技術需求與開源技術框架供給的雙向循環和良性互動。FATE 隱私計算開源框架金融行業技術應用報告 7 一、研究背景 隨著大數據時代的到來,數據的價值得到越來越深的發掘,數據的應用方式更加多樣化,數據正和土地、勞動力、資本等生產要素一樣,成為促進經濟增長和社會發展的基本要素。在數據要素的經濟價值和戰略價值愈發重要的同時,數據安全、隱私保護引發的“數據孤島”問題也愈發凸顯。隱私計算技術因具有“數據可用不可見”的特性,能夠充分發揮數據要素價值
9、,促進數據要素安全流通。開源能夠降低隱私計算技術的應用門檻、增強軟件安全性、打破“計算孤島”,是隱私計算技術規?;闹匾緩?,對數據要素市場的建設有著積極推進作用。金融行業是最早應用信息技術的產業之一,從上世紀 80 年代的 ATM 機到近年的開放銀行,金融行業已經產生、收集、積累了大量的數據1。同時,金融行業也是可以最大化利用數據價值的行業之一,從個人征信到公司估值,從價值投資到技術分析,金融行業想提供高效服務、賦能實體經濟,離不開對數據的合理使用。隨著金融行業對多維度數據需求的增加,和數據安全、隱私保護重要性的提升,全行業亟需安全、易用、普適的數據要素流通解決方案。在金融數據要素流通需求的
10、推動下,金融機構開始逐漸參與開源隱私計算框架的開發與共建,促進機構數字化轉型升級工作。FATE 隱私計算開源框架金融行業技術應用報告 8 (一)(一)數據需求推動發展數據需求推動發展 數據作為戰略性和基礎性資源,是數字經濟體系中技術創新、需求挖掘、效率提升的重要動能2。數據雖然在不斷地創造價值,但其存在的隱私泄漏、安全合規等潛在問題,引起了社會各界的廣泛關注。金融行業作為數據密集型行業,天然具備數據流通的大規模應用場景和更嚴格的管理要求,因此,數據的安全合規流通需求推動了隱私計算技術在金融行業的發展。1金融行業隱私計算的必要性金融行業隱私計算的必要性 在新的數據監管要求下,金融機構認真做好用戶
11、隱私保護和數據安全,但也出現了“不敢、不愿、不得”共享數據和數據流通不暢的情況,金融機構無法通過便捷引入互聯網公司的行為數據,豐富自身數據項及數據維度,解決數據存在片面、單一等問題,提升金融服務的質量和效益。金融機構難以獲取外部數據,導致智能化程度受限,如何保障用戶隱私,同時保障數據權屬問題成為挑戰。而隱私計算技術可以實現金融機構內部、同業之間、甚至跨行業的數據合作與共享,滿足金融機構迫切打破數據流通壁壘的需求,實現金融數據融合運用的解決方案。2隱私計算在金融行業的應用場景隱私計算在金融行業的應用場景 金融行業存在大量的多維度、高價值的數據,這一類數據通常具備極強的金融屬性,但缺少行為數據、場
12、景數據等。而大型互聯網公司、運營商等機構通常有大量的行為數據與場景數據,金融機構可通過聯邦學習、多方安全計算、可信執行環境、同態加密等隱私計算技術,在保證原始數據不泄露的情況下,與之進行聯合建模,提升金融業務效果。例如,在聯合營銷方面在聯合營銷方面,聯合各方數據構建營銷模型,進一步豐富用戶畫像,制訂更加精準的營銷策略,實現多贏的聯合營銷效果3。在聯合風控方面在聯合風控方面,一方面通過融合多個金融機構數據,可以解決單一機構數據量有限的 FATE 隱私計算開源框架金融行業技術應用報告 9 問題,形成全局風控模型,提升模型精準度;另一方面,綜合利用金融機構同其他行業數據,可以在各方原始特征不出域的前
13、提下建立風控模型,形成對業務的多維度認識,提升風控質量。(二)(二)開源成為重要途徑開源成為重要途徑 隨著數據要素流通體量的增長,隱私計算技術面臨規?;?、產業化的重要挑戰。開源隱私計算技術通過開放、連接、協作、共創等方式,有效重塑隱私計算生態,加速行業標準統一,促進行業互聯互通,并推動隱私計算技術朝著更安全、更可信、更普惠的方向穩步發展。1.開源促進數據流通融合進程開源促進數據流通融合進程 近年來,閉源隱私計算廠商技術百花齊放,但因彼此技術理念、技術框架、技術路徑及數據連接生態不同,導致在解決“數據孤島”問題之后,出現了不同廠商產品無法協作的問題。而開源隱私計算社區則通過打造通用開放的隱私計算
14、技術框架,統一計算、存儲、通信、流程編排、任務調度、運維部署等標準,實現不同計算節點之間數據、算法、模型、算力等層面的互動和協同,讓隱私計算開發者向一個共同的標準靠攏,以達到系統互聯互通的效果,成為加速隱私計算行業發展的重要路徑。同時,社區通過統一運營的方式整合多方資源,重塑隱私計算數據參與方之間及數據參與方與技術提供方之間的生態關系,使生態中的數據節點彼此資源共享、優勢互補,最大化釋放數據要素價值。2開源實現隱私開源實現隱私計算技術安全可證明計算技術安全可證明 當前,我國隱私計算技術面臨著安全證明難、模型監管難等問題。一是近年來數據流通過程中存在大量的用戶隱私及用戶原始數據泄漏案例,加劇了用
15、戶對企業數據使用的不信任感;但閉源隱私計算技術及第三方機構安全認證難以徹底解決安全可證明、模型可監管等問題。二是我國現有監管法律制度,對數據流 FATE 隱私計算開源框架金融行業技術應用報告 10 通的監管全過程,尚未提出明確的參考指引和實操指南,數據流通合規性難以把控。開源隱私計算框架由于其開放共享、公開透明、共創迭代等特性,可以有效解決隱私計算技術提供方本身潛在的作惡風險,以及技術平臺與數據源合謀作惡等問題,從而滿足安全可證明,模型可監管等要求。并且,算法的設計離不開新的場景應用,開源可以讓廣大用戶在不同應用場景下對系統進行監督和貢獻,使得安全性不斷在場景訓練中持續提升。3開源助力隱私計算
16、技術普惠開源助力隱私計算技術普惠 隱私計算技術復雜度較高,研發和部署存在一定門檻。開源社區具備天然的知識共享土壤與多方協同機制,能夠加速隱私計算技術持續升級和商業化發展,高效提升產品版本迭代效率,進而不斷增強隱私計算的場景適配性,從而降低隱私計算行業進入門檻和企業隱私計算資源重復建設成本,助力技術普及加速。近年來,國內外許多機構積極擁抱開源,并投入大量資源到開源項目的研發與貢獻中。特別是以聯邦學習為核心的開源項目,在隱私計算產業化落地進程中貢獻了巨大力量。目前 55%的國內隱私計算產品是基于或參考開源項目開發的,其中,開源項目以FATE 為主1,很多聯邦學習類產品或多或少吸收和借鑒了 FATE
17、 供給的營養。(三)(三)政策環境提供支持政策環境提供支持 2021 年 3 月,中華人民共和國國民經濟和社會發展第十四個五年規劃和 2035 年遠景目標綱要(以下簡稱目標)提出“支持數字技術開源社區等創新聯合體發展”,開源被首次寫入國家戰略規劃。目標還將數據和技術與土地、勞動力、資本一并納入要素市場化改革范疇。同年,央行等五部門發布關 1 數據來源:中國信通院隱私計算白皮書(2021)FATE 隱私計算開源框架金融行業技術應用報告 11 于規范金融業開源技術應用與發展的意見(以下簡稱 意見),鼓勵金融機構將開源技術應用作為提高核心技術自主可控能力的重要手段。2021 年央行印發的 金融科技發
18、展規劃(2022-2025年)(以下簡稱發展規劃)將“充分釋放數據要素潛能”列為未來四年八項重點任務之一,要求“推動數據有序共享”?;凇敖y一大市場”和“數據要素潛能”兩方面代表性政策態勢,為開源隱私計算框架應用于金融行業營造了良好互促的條件和氛圍。首先,統一大市場建設客觀上加速了隱私計算技術應用。首先,統一大市場建設客觀上加速了隱私計算技術應用。中共中央國務院于 2022 年發布的關于加快建設全國統一大市場的意見明確界定了統一大市場的要義,即“促進商品要素資源在更大范圍內暢通流動為建設高標準市場體系、構建高水平社會主義市場經濟體制提供堅強支撐”。各行業積極響應國家、部委層面關于數據要素流通的
19、隱私保護、分類分級等要求2,通過隱私計算技術的支撐,探索“原始數據不出域、數據可用不可見”的交易范式,實現數據使用的“可控可計量”3。同時,開源在金融機構數字化轉型中發揮重要作用。同時,開源在金融機構數字化轉型中發揮重要作用。在技術發展方面,發展規劃提出要“積極應用多方安全計算、聯邦學習、差分隱私、聯盟鏈等技術實現數據可用不可見、數據不動價值動”。意見也明確了“鼓勵金融機構將開源技術應用作為提高核心技術自主可控能力的重要手段”。充分體現了 2 2020 年國務院辦公廳印發關于構建更加完善的要素市場化配置體制機制的意見,要求“探索建立統一規范的數據管理制度,提高數據質量和規范性,豐富數據產品。制
20、定數據隱私保護制度和安全審查制度。推動完善適用于大數據環境下的數據分類分級安全保護制度,加強對政務數據、企業商業秘密和個人數據的保護?!? 2022 年國務院辦公廳印發要素市場化配置綜合改革試點總體方案要求“探索原始數據不出域、數據可用不可見的交易范式,在保護個人隱私和確保數據安全的前提下,分級分類、分步有序推動部分領域數據流通應用。探索建立數據用途和用量控制制度,實現數據使用可控可計量”。FATE 隱私計算開源框架金融行業技術應用報告 12 金融行業對運用開源技術平臺開展高質量金融場景應用建設的積極態度和必行趨勢。在國家及行業層面重視開源技術應用的政策背景下,隱私計算框架的研究不僅是必要的,
21、而且通過開源的形式加快落地也是可行的。開源與隱私計算框架的有機結合,將不斷適應新形勢下金融行業數據流通安全可控、守正創新等內在要求,大力發展開源隱私計算框架正當時。二、主流開源隱私計算框架介紹(一)(一)特點概況特點概況 自 2017 年 OpenMined 推出 PySyft 以來,開源隱私計算框架層出不窮,不同技術路線、開發語言、系統架構的開源框架百花齊放。本報告調研了熱度較高(以 GitHub 的 star 數統計)、更新較為活躍(最近版本更新及總版本數統計截止 2022 年 8 月)的 25 種業內主流開源隱私計算框架,并對各框架特點進行了分析與歸納。表 1 開源隱私計算框架概況4 開
22、源框架開源框架名稱名稱 開源機構開源機構 主導主導機構機構 開源時開源時間間 最近版最近版本更新本更新 總版總版本數本數 系統特點系統特點 PySyft OpenMined 國外 2017.7 2021.12 22 1.用于安全和私有深度學習的 Python庫 2.基于 PyTorch,使用 UnityGameEngine安全多方計算 3.聯合學習、差異隱私 TF-Encrypted DropoutLabs,OpenMined,阿里巴巴 國外/國內 2018.3 2022.3 17 1.基于 TensorFlow 的安全多方計算框架 2.在底層集成了安全多方計算、同態加密等技術,利用預先構建的
23、協議或使用TF-Encrypted 的可插拔架構構建和測試用戶的協議。Asylo Google 國外 2018.5 2021.6 19 1.Asylo 是下一代機密運算框架,旨在提供一個在可信執行環境(TEEs)中執行的應用的開發框架和 SDK,以確保應用及資料的安全性。FATE 隱私計算開源框架金融行業技術應用報告 13 2.Asylo 是一個全新類型的框架,它包含用于加密敏感通信的功能和服務,有助于保護數據和應用程序。Asylo 框架的出現使得更多的開發人員能夠使用TEE,并支持各種硬件從企業內部系統到云端 3.開發語言 C/C+MesaTEE/ApacheTeaclave 百度 國內 2
24、018.9 2022.4 4 1.內存安全 2.安全多方計算,區塊鏈和云服務 3.約束所有控制流和數據流必須經過關鍵檢查點,顯著減輕了審計和訪問控制的難度 4.通過利用包括 IntelSGX 在內的 TEE,安全地將云用戶的數據和代碼執行隔離、加密起來,即使云計算環境里的操作 系 統、虛 擬 機 管 理 器(VMM/hypervisor)、或相鄰的其他虛擬機被攻破或作惡,這些數據代碼的完整性和保密性都能得到保障。用戶也可以通過遠程地驗證執行環境,確保遠程執行的代碼是否符合預期 5.靈活可配置的安全等級 CrypTen Facebook 國外 2019.1 2020.4 1 1.安全多方計算框架
25、,有一個通用的、機器學習優先的 API 設計 2.采用了一種命令式編程模型 FATE 微眾銀行 國內 2019.2 2022.4 34 1.工業級框架,統一計算,存儲,通信抽象層,適配不同的計算引擎,存儲引擎,通信引擎 2.提供一站式的聯邦模型企業級服務解決方案。提供多插件支持聯邦學習企業和科研應用 3.支持主流的分類、回歸、聚類和遷移學習的聯邦化算法 4.提供多種安全計算協議支撐上層應用,支持同態加密協議、秘密共享協議、不經意傳輸協議和 DH 密鑰交換算法等 5.提供 30 多個聯邦算法組件 6.累計迭代 34 個版本 TensorFlowFederated,TFF Google 國外 20
26、19.3 2022.8 36 1.可以選擇 ML 模型架構 2.模型設計理念以數據為主 FATE 隱私計算開源框架金融行業技術應用報告 14 Occulum 螞蟻集團 國內 2019.3 2022.7 41 1.提供輕量級的 LibOS 進程,這些進程共享一個 enclave 的單個地址空間,啟動速度,進程間通信速度均有提高 2.支持各種類型的文件系統 3.使用 Rust 從頭開始構建的,減少低級別的內存安全錯誤 Fedlearner 字節跳動 國內 2020.1 2021.3 4 1.代碼里有大量的 JS、HTML 模塊,產品化程度高 2.采用云原生部署方案。數據存放在HDFS,用 MySQ
27、L 存儲系統數據,通過Kubernetes 管理任務 PaddleFL 百度 國內 2020.2 2021.12 5 1.基 于 飛 槳(PaddlePaddle)和Kubernetes 2.面向深度學習設計,提供在計算機視覺、自然語言處理、推薦算法等領域的聯邦學習策略及應用場景 3.簡化大規模分布式集群部署 4.二次開發接口允許各方定義私有化的數據讀取器 5.提供了基礎編程框架,并封裝了一些公開的聯邦學習數據集 FLEX 同盾科技 國內 2020.2 2020.12 1 一套標準化的聯邦協議:約定了聯邦過程中參與方之間的數據交換順序,以及在交換前后采用的數據加解密方法 FedML 美 國 南
28、 加 州大學 國外 2020.7 2022.4 1 支持三種計算范例:分布式訓練、移動設備訓練、獨立仿真 Rosetta 矩陣元 國內 2020.8 2021.7 5 1.集成了 3 方參與的安全多方計算(MPC)協 議、零 知 識 證 明 協 議Mystique 2.基于 TensorFlow 開發的隱私計算框架 IBMFederatedLearning IBM 國外 2020.8 2022.3 7 1.無需遷移即可在企業范圍內收集、清理和培訓具有大量數據的站點 2.適應數據格式、質量和約束方面的差異 3.在訓練具有不同數據源的模型時遵守數據隱私和安全性 9NFL 京東 國內 2020.9/
29、1.支持百億級規模樣本.百 T 級容量數據的超大規模的樣本匹配、聯合訓練 2.實現分布式異步框架、Failover 擁塞控制等機制 FATE 隱私計算開源框架金融行業技術應用報告 15 Fedlearn 京東 國內 2020.10 /自主研發的聯邦學習平臺,不同參與方之間交換更新參數所需的中間數值,采用增加擾動對這些數值進行保護,引入中心化數據交換的概念,采用異步計算框架 IntelOpenFL Intel 國外 2021.1 2021.4 157 1.OpenFL是用于聯邦學習的python3庫 2.OpenFL 是適用于數據科學家的靈活、可擴展且易于學習的工具 MindSporeFeder
30、ated 華為 國內 2021.7 2022.7/開源聯邦學習框架,支持面向千萬級無狀態終端設備的商用化部署,可在用戶數據不出本地的前提下,使能全場景智能應用。特點是:隱私安全、分布式聯邦聚合、聯邦效率提升、靈活易用 NVFlare NVIDIA 國外 2021.7 2022.7 13 與模型無關、開源、可擴展的 SDK,允許研究人員將現有的 ML/DL 工作流程(PyTorch、RAPIDS、Nemo、TensorFlow)快速適配到聯邦學習架構上 EFLS 阿里巴巴 國內 2021.10 /彈性聯邦學習解決方案,支持兩個合作方在特征維度拓展樣本,并進行聯合訓練 WeFe 天冕科技 國內 2
31、021.10 /致力于實現在非共享的情況下,充分保護各方用戶數據安全,實現跨數據、跨行業的數據合作 FederatedScope 阿里巴巴 國內 2022.5 2022.7 2 支持大規模、高效率的聯邦學習異步訓練,能兼容不同設備運行環境,且提供豐富功能模塊,大幅降低了隱私保護計算技術開發與部署難度 Primihub 原語科技 國內 2022.5 2022.8 3 1.集成密碼學、機器學習技術和加密硬件等多種安全方案 2.提供一站式端到端的應用服務開發平臺和可視化交互方式 3.實現十億級規模大數據計算 SecretFlow 隱語 螞蟻集團 國內 2022.7/通過架構設計,統一架構能夠同時支持
32、MPC、TEE 和聯邦學習的方案 XFL 翼 數聯邦學習及XSCE翼數安全計算 翼方健數 國內 2022.7 2022.7/在系統構架上強調輕量、高效、低依賴、高性能、易擴展、易集成,讓開發者實現輕量級二次開發,幫助用戶在不同應用場景實現“數據使用”自由 FATE 隱私計算開源框架金融行業技術應用報告 16 (二)(二)應用應用情況情況 通過調研發現,國內企業積極主導、參與開源隱私計算框架,本次梳理的隱私計算框架開源統計表中,約 2/3 開源框架為我國科技企業貢獻。同時,隱私計算開源框架總體較為活躍,上述統計的開源框架中,約一半在近一年內發布了版本更新,通過不斷迭代優化產品性能,豐富和提升框架
33、算法、性能和易用性等方面能力。對于更新比較頻繁,應用相對廣泛的幾款開源框架,本報告從其技術和應用情況進一步分析介紹。1PySyft PySyft 是開源社區 OpenMined 于 2017 年推出的用于安全和隱私深度學習的 Python 庫,目前已在醫療、金融、通信等行業獲得了應用。PySyft 使用聯邦學習、差分隱私和安全多方計算將隱私數據和模型訓練分離,可以在主要的深度學習框架中使用,例如 TensorFlow 和 PyTorch。PySyft 代表了在深度學習程序中啟用可靠的隱私計算模型的首批嘗試之一。PySyft 的核心組件是稱為 SyftTensor 的抽象張量。SyftTenso
34、rs 旨在表示數據的狀態或轉換,并且可以鏈接在一起。鏈結構的頭部始終有一個PyTorch 張量,并且使用子屬性向下訪問由 SyftTensor 體現的變換或狀態,而使用父屬性向上訪問由 SyftTensor 體現的變換或狀態。2MesaTEE MesaTEE 是百度于 2018 年 9 月對外發布。其基于英特爾 SGX技術,使用內存安全的 Rust 語言開發,旨在構建內存安全的可信計算平臺,使得敏感數據即便在企業外環境和離岸場景下也能安全受控的流通和處理,而不會被泄漏或者濫用。MesaTEE 方案的特點有:第一,借助芯片級硬件的保護方案和混雜內存安全模型,解決各類非法攻擊和內存安全問題,最大程
35、度保障數據機密 FATE 隱私計算開源框架金融行業技術應用報告 17 性與完整性。第二,基于分布式安全計算架構,性能相比傳統密碼學技術更快,在沒有參與方限制的情況下,支持億級數據計算。第三,操作靈活,內置多種常用機器學習算法和特征工程工具,以及標準的 Python 語言和 SQL 操作,通過可視化操作滿足大部分場景的數據計算問題。第四,容器化部署方式,支持私有化、云端化以及安全一體機,且支持可信區塊鏈以插件化方式鏈接。從應用角度看,首先,MesaTEE 結合區塊鏈和云服務,適合在區塊鏈和云計算的場景下提供通用安全計算應用。其次,使用MesaTEE完成的安全多方計算直接在保護環境中對明文進行計算
36、,計算成員和算法可以動態修改,具有更大的靈活性,且減少了通信開銷,提高了效率和性能。再次,MesaTEE 原生提供了高安全等級的秘鑰保護和加解密操作,可以提供類比傳統 KeyVault 和HSM 的功能,安全地存儲和控制對密鑰/證書的訪問。最后,MesaTEE 已經在所有安全級別(包括 Level5 的 IntelSGX)中支持了 GBDT,線性回歸以及神經網絡。主流的 AI 框架(例如Tensorflow,Caffe 等)生成的 CNN/RNN 模型都可以轉換并加載到 MesaTEE 里,并且可以同時支持模型推理和訓練。3FATE FATE(Federated AI Technology E
37、nabler)是聯邦學習工業級框架開源項目,已在金融、醫療、零售等多個行業獲得了廣泛的應用。目前 FATE 開源社區已匯聚了 800 多家企業、350 余所高校等科研機構的開發者,是國內最大的聯邦學習開源社區。FATE項目使用多方安全計算(MPC)以及同態加密(HE)技術構建底層安全計算協議,以此支持不同種類的機器學習的安全計算,包括邏輯回歸、樹算法、深度學習(人工神經網絡)和遷移學習等。FATE 目前支持三種類型聯邦學習算法:橫向聯邦學習、縱向聯邦學習以及遷移學習。FATE 隱私計算開源框架金融行業技術應用報告 18 FATE 主倉庫包含 FederatedML 核心聯邦算法庫和多方聯邦建模
38、 Pipeline 調度模塊 FATE-Flow,FATE 擁抱大數據生態圈,底層引擎支持使用 EggRoll 或者 Spark 進行高性能的計算。圍繞FATE 聯邦學習生態,FATE 還提供了完整的聯邦學習生態鏈,如聯邦可視化模塊 FATE-Board、聯邦在線推理模塊 FATE-Serving、聯邦多云管理 FATE-Cloud 等。4TensorFlow Federated TensorFlow Federated(TFF)是由谷歌公司開發的開源框架,用于對分散式數據進行機器學習和其他計算。TFF 提供的構建塊也可用于實現非學習計算,例如對分散式數據進行聚合分析,主要特點是可以將現有 K
39、eras 或非 Keras 機器學習模型應用在TFF 框架中;可以執行基本任務,例如聯合訓練或者評估,而無需研究算法的細節;通過在強大類型的功能編程環境中將TensorFlow 與分布式通信運算符結合在一起,簡潔地表達自定義聯邦算法。借助 TFF,開發者能夠以聲明方式表達聯合計算,從而將它們部署到不同的運行時環境中。5Fedlearner Fedlearner 是字節跳動于 2020 年開源的聯邦學習平臺。Fedlearner 系統包括控制臺、訓練器、數據處理、數據存儲等模塊,各方透過代理互相通信,實現訓練。Fedlearner 強調聯邦學習在推薦、廣告等業務中的落地。針對流式數據的場景,除了
40、傳統的 PSI 求交,Fedlearner 還提供了流式數據求交。Fedlearner實現了一個基于 GRPC 的通信協議,并以算子的形式集成到TensorFlow 中,支持橫縱向的神經網絡以及縱向樹模型。在部署方 式 上,Fedlearner擁 抱 云 原 生,采 用 基 于Kubernetes+HDFS/MySQL/Elasticsearch的 解 決 方 案,由Kubernetes 管理集群和任務。FATE 隱私計算開源框架金融行業技術應用報告 19 字節跳動前期在推薦和廣告領域積累了成熟的機器學習建模技術,為聯邦學習提供了算法的支撐。除此之外,依托今日頭條、抖音的數據優勢,字節跳動擁有
41、 600T+的海量用戶群體畫像和超過 220 萬用戶標簽。Fedlearner 也已經在電商、金融、教育等行業多個落地場景實際應用,例如幫助電商廣告主取得了可觀的投放效率增長,幫助教育客戶廣告跑量提升 124%。6PaddleFL PaddleFL 是百度基于飛槳(PaddlePaddle)開源的聯邦學習框架。PaddleFL 支持橫向聯邦學習和縱向聯邦學習。PaddleFL 提供了兩種聯邦學習策略:Data Parallel 以及 Federated Learning with MPC(PFM)。Data Parallel 主要針對橫向聯邦學習場景,分為編譯階段和運行階段。編譯階段定義聯邦學
42、習任務,各參與方可使用 FedAvg,DPSGD 等策略,運行階段進行模型訓練。PFM 則可以支持縱向聯邦學習場景?;?MPC 的聯邦學習方案支持三方安全計算協議 ABY3 和兩方計算協議 PrivC。與大多數開源聯邦學習框架類似,PaddleFL 也支持并推薦 docker、Kubernetes 方式部署。7NVIDIA FLARE NVIDIA FLARE 是英偉達開源的用于協作計算的 PythonSDK,全稱是聯邦學習應用程序運行時環境(NVIDIA Federated Learning Application Runtime Environment),旨在支持各方之間的聯邦學習,使用
43、其本地安全受保護數據進行客戶端訓練,同時它包括協調和交換所有站點的結果進展的功能,以實現更好的全局模型,同時保護數據隱私。NVIDIA FLARE 主要功能是幫助開發人員能夠在真實場景中輕松執行聯邦學習建模;NVIDIA FLARE 使用高可用性基礎結構啟動聯合學習的系統功能,支持多任務執行,最大限度地提高工 FATE 隱私計算開源框架金融行業技術應用報告 20 作效率。NVIDIA FLARE 控制器和 Worker API 用于實現 NVIDIA FLARE 應用程序中定義的基于任務的交互。服務器配置可以定義用于累積客戶端任務數據的聚合器、用于保存模型的持久化器以及用于交換數據的可共享對象
44、。NVIDIA FLARE 建立在靈活的、模塊化的架構之上,并通過 API 進行抽象,允許開發人員和研究人員在聯邦學習范式中實現自定義其功能學習組件。8Primihub Primihub 是原語科技于 2022 年 5 月底開源的隱私計算平臺,主要應用于金融、政務、交易所、工業互聯網、醫療等領域。Primihub 平臺融合了 MPC(多方安全計算)、FL(聯邦學習)、HE(同態加密)、TEE(可信執行環境)等多種技術路線,提供多安全級別、多性能要求、多場景支持的解決方案,幫助企業用戶保護數據隱私的同時,深度連接各個合作方,實現跨數據、跨行業的合作共贏。Primihub 開源框架有以下特點:一是
45、融合了多種隱私計算主流技術和協議;二是具有高可用的分布式調度平臺,管理平臺主要功能涉及項目管理、模型管理、匿蹤查詢、隱私求交、資源管理和系統設置。用戶通過簡單的學習后,可以自定義配置機構、資源、項目等管理應用;三是有豐富的擴展接口;四是支持多種輸入源。FATE 隱私計算開源框架金融行業技術應用報告 21 三、金融業隱私計算開源生態建設現狀(一)(一)發展歷程發展歷程 隨著金融機構對于開源價值的逐步認同,金融機構開始開展開源技術的使用及治理,越來越多的金融機構參與到開源治理及開源生態建設過程中。一是伴隨著金融機構數字化轉型的浪潮,金融機構對于開源技術擁有強烈的使用意向。二是金融機構開源軟件的使用
46、量大幅提高。三是我國的金融機構穩步開始了開源技術治理工作,金融業開源治理組織已經形成。近年來,金融機構不斷建立、完善開源治理體系,并逐步參與開源生態建設。例如中國工商銀行,于 2020 年完成了開源評估體系內部建設,從開源引入、使用和退出建立全生命周期的管控能力,并開始逐步嘗試對外開源。同時金融機構積極參與開源生態治理及建設,持續加大投入,促進了我國開源產業的蓬勃發展。在自主開源方面,金融機構在業務層面面臨著較高的安全合規要求,而民營銀行成為了開源技術探索的先鋒。以微眾銀行為例,作為國內最早的一批對外開源的金融機構,由微眾銀行在2017 年牽頭開源的金融級聯盟鏈底層技術平臺 FISCO BCO
47、S,就在業內獲得了不俗反響。意見提出鼓勵金融機構重視開源技術的應用和發展,積極參與國際國內開源技術社區建設,汲取先進技術,貢獻中國智慧,培育適合金融場景的開源產業鏈,并加強對開源技術應用的組織管理和統籌協調??傮w來看,金融行業參與開源社區建設,可以分為如下幾個階段:開源使用階段、聯合對外開源階段、獨立對外開源階段。開源使用階段:開源使用階段:金融機構以使用者的身份參與到開源技術發展過程中。由于初期金融機構對于某一開源技術領域所涉及到的技術儲備、知識產權、法務風險、運營模式等相對陌生,無法深 FATE 隱私計算開源框架金融行業技術應用報告 22 度參與到開源生態的共同建設中,但可以在持續使用開源
48、產品或技術的過程中,不斷積累技術經驗與管理經驗。聯合對外開源階段聯合對外開源階段:金融機構以貢獻者的身份參與到開源技術發展過程中?;陂_源產品或技術在不同金融業務中的使用情況,以業務導向及場景積累為核心,并依托自身技術研發實力,通過貢獻源代碼等方式,聯合開源方共同參與開源社區建設,進而與開源方協同完善開源技術體系。獨立對外開源階段獨立對外開源階段:金融機構以開源者的身份參與到開源技術發展過程中。往往適用于科技研發能力較強的頭部金融機構,隨著這些頭部金融機構在某一開源技術領域的技術能力持續積累及開源社區治理經驗的不斷積累,逐漸具備獨立設計開源產品及獨立運營開源社區的能力,并以自身核心技術平臺或產
49、品為核心,構建開源生態環境。(二)(二)路徑及形式路徑及形式 1金融業參與開源隱私計算現狀金融業參與開源隱私計算現狀 整體上,金融行業開源需求往往從新技術領域開始。以“隱私計算”技術為例,2020 年,隱私計算技術普及之初,由于數據隱私保護領域尚未探索出有效的商業運營模式,且大部分金融機構最初對于隱私計算技術并不熟悉,此時盲目投入隱私計算的自主研發會對金融機構造成巨大的資金壓力及研發風險,同時由于隱私計算技術本身處于場景探索階段,尚未形成規?;氖袌鼋Y構,而閉源隱私計算技術研發初期投資回報率較低,因此,許多金融機構使用了開源隱私計算框架(如 FATE 聯邦學習開源框架)進行隱私計算平臺搭建。另
50、一方面,由于金融業務往往具備較大規模的數據體量和較多高并發的復雜場景,可以為數據流通、人工智能領域的相關技術提供豐富的技術實踐環境,同時海量的數據流通場景本身存在著大量的數據隱私保護需求,因此反過來極 FATE 隱私計算開源框架金融行業技術應用報告 23 大帶動了隱私計算開源技術發展。在技術發展方面,在技術發展方面,金融機構積極參與開源隱私計算技術。一方面金融機構基于場景需求自發選擇開源產品的趨勢愈發明顯,另一方面具備科技研發能力的金融機構,正在逐步加入到開源項目貢獻中來。金融是隱私計算場景實踐的第一陣地,在不斷的場景應用過程中,金融機構可以第一時間驗證隱私計算技術環節中風險與缺陷,并通過獨自
51、開發或上報反饋等形式,推動隱私計算技術發展。金融機構無論從技術研發層面,還是應用測試層面,都為開源隱私計算技術不斷演進及生態融合貢獻了寶貴力量。在標準建設方面在標準建設方面,金融行業數據流通參與方可以共同使用并驗證統一的開源框架,最大化節省開發團隊的人力及開發成本,并在反復的場景實踐中探索出符合金融行業現狀的行業規律,進而總結形成既滿足技術要求、監管要求、合規要求,也需要符合市場要求,并具備促進行業融合的標準。金融行業正在持續推進隱私計算開源行業標準的不斷完善,以聯盟為代表的組織機構以開源、數據、人工智能等領域為出發點,積極推進相關行業標準的研制,是推動金融行業隱私計算平臺互聯互通的良好平臺。
52、2金融行業參與開源隱私計算生態建設里程碑金融行業參與開源隱私計算生態建設里程碑 2019年2月,微眾銀行自研的聯邦學習工業級開源框架FATE(Federated AI Technology Enabler)首次對外開源,為機器學習、深度學習、遷移學習算法提供高性能的安全計算支持,能有效解決如何在保護數據隱私的前提下實現跨機構 AI 協作的問題;6 月成立聯邦學習開源社區 FATE 技術委員會(以下簡稱“FATE TSC”)對 FATE 社區進行開源治理,成員包含國內主要云計算和金融服務企業。同年,以光大科技為代表的金融機構基于FATEv0.1 開始探索聯邦學習領域,并進行 POC 測試。202
53、0 年隨著中國銀聯、建信金科、工商銀行、光大科技以及 FATE 隱私計算開源框架金融行業技術應用報告 24 星云 Clustar 等機構加入 FATE TSC,各金融機構逐步開始了基于開源隱私計算技術的研究和應用。10 月,光大科技使用聯邦學習和區塊鏈技術,幫助證券機構聯合外部數據源構建機構客戶風險評級模型,實現隱私計算在智能風控領域的實踐探索。12 月,建設銀行利用隱私計算技術進行了集團一體化建模探索,參與聯合建模的雙方在生產環境中驗證了隱私計算技術在金融產品智能營銷場景的可行性;該項目被中國信息通信研究院和中國信息標準化協會大數據技術標準推進委員會認定為“隱私計算優秀案例”,獲得“星河”獎
54、項。交通銀行使用隱私計算框架 Avatar 和多方安全隱私計算框架 PrivPy,開展“基于多方安全知識圖譜計算的中小微企業融資服務”項目,在確保原始數據不出域的基礎上,將銀行內部數據與外部數據融合,打破現有數據壁壘,準確識別企業集群背后的復雜關系鏈條及欺詐風險,提升銀行整體的風控水平,在業內獲得廣泛影響力。同年,光大科技基于“可驗證秘密共享技術”研發的“聯邦學習平臺多方安全求和算法”被 FATE 采納,并分別于 7 月和 10月參與 CCFAI 方向及信用評分與信用評級國際會議發表專業報告,表明金融業在隱私計算領域已經開始了深入研究與實踐。2021 年 3 月,FATE 社區牽頭的首個聯邦學
55、習國際標準IEEEP3652.1 Guide for Architectural Framework and Application of Federated Machine Learning發布;4 月,微眾銀行 AI 團隊和富數科技隱私計算團隊聯手破解了不同聯邦學習平臺之間互聯的技術難題,在行業內第一次實現了異構聯邦學習平臺的互通,初步驗證了正在制定中的聯邦學習技術互聯互通技術標準的可行性。7 月,FATE TSC 發起成立互聯互通工作組,初始成員包括來自工商銀行、農業銀行、建信金科、微眾銀行、光大科技、中國電信等 TSC 成員,旨在解決不同聯邦學習平臺間 FATE 隱私計算開源框架金融行
56、業技術應用報告 25 以安全便捷的方式實現互聯互通,促進 FATE 與業界主流聯邦學習產品的磨合應用,推動聯邦學習步入開放通用階段,共同打造聯邦數據網絡生態。工商銀行、建設銀行、光大銀行、廣發銀行、中國銀聯等機構也在同年陸續完成自研隱私計算平臺的建設與上線,標志著金融機構已初步具備在隱私計算平臺方面的建設與運營能力。其中,上海浦東發展銀行基于隱私計算開源框架 Rosetta 開發了數據多方安全計算應用系統,并聯合其他金融機構進行“聯合黑名單”、“匿蹤查詢”、“用戶統一資產視圖”、“聯合營銷”等創新場景的落地實施,驗證了結合隱私計算技術、區塊鏈技術和業務場景落地的可行性,并向更廣闊的生態體系進行
57、隱私計算能力與場景的輸出。2022 年,光大科技發起基于聯邦框架的半監督學習訓練范式,推動開源社區算法的創新孵化,并出版聯邦學習原理與應用書籍。由工商銀行牽頭編寫的聯邦學習技術金融應用白皮書、多方安全計算金融應用現狀及實施指引、隱私保護計算與合規應用研究報告、基于聯盟鏈技術數據共享的應用研究報告等技術應用規范和研究報告相繼發布;由中國銀聯牽頭的兩項課題金融行業異構隱私計算平臺互聯互通技術規范及隱私計算互聯互通技術研究報告正式開展,金融機構開始進入對開源隱私計算技術管理體系的建設進程。(三)(三)痛點和需求痛點和需求 當前,金融機構在業務中使用開源隱私計算框架時,仍然存在著一些業務痛點,這些問題
58、不斷促進隱私計算開源技術不斷完善、持續發展。一是隱私計算開源技術成熟度方面仍然存一是隱私計算開源技術成熟度方面仍然存有有不足。不足。隱私計算 FATE 隱私計算開源框架金融行業技術應用報告 26 處于發展階段,不同技術框架均在進行周期性的、持續性的版本迭代。各隱私計算科技廠商、開源社區、各大金融機構在隱私計算技術不斷使用的過程中,不斷積累與業務及場景相關的經驗。隱私計算未來發展方向,除了提高穩定性、計算效率、通信效率以外,還要不斷提升場景適配度,來滿足不同業務場景下用戶對于隱私計算平臺的不同需求。此外,開源標準制定與安全可信評估過程,旨在向全流程安全合規對標,需要持續及時更新和完善,這是隱私計
59、算開源技術逐漸走向成熟的必經之路。二是隱私計算框架面臨安全性與可用性(計算效率)的平衡二是隱私計算框架面臨安全性與可用性(計算效率)的平衡性挑戰。性挑戰。根據隱私與模型性能的“No-free-lunch安全-收益恒定”定律,對于滿足“貝葉斯隱私”的多方計算系統而言,都滿足“安全+效能常數”這一“安全-效益恒定定律”5,即天下沒有免費的午餐,想同時不泄露隱私和不降低模型性能是不可能的。如何找到既不會犧牲對數據的安全保護,也不會放任模型性能和計算效率大幅下降的平衡點,兼顧安全性與可用性,是隱私計算技術領域的共同挑戰。開源框架有豐富的場景可用于驗證安全與效率的平衡,且隨著業務需求的發展、技術能力的進
60、步,開源框架本身也在不斷迭代優化,因此,開源或可成為尋找隱私計算產品平衡點的最佳實踐路徑。三是開源存在知識產權風險。三是開源存在知識產權風險。開源知識產權風險問題相對隱蔽,在隱私計算開源領域,從技術角度來看,由于隱私計算的技術原理相對統一,且開源許可證的具體條款差異性難以甄別,權責界限不清,不易鑒別侵權、失權,這些因素都進一步導致隱私計算開源技術知識產權的保護難度增加。如何在遵循隱私計算開源協議的基礎上,加強對于開源者的知識產權保護,也是行業待解決的重要問題。開源領域知識產權保護力度的提升與保護意識的普及,對我國開源軟件產業的整體發展將起到積極促進作用。FATE 隱私計算開源框架金融行業技術應
61、用報告 27 四是四是當前當前隱私計算框架隱私計算框架暫時暫時無法有效解決金融機構內部數無法有效解決金融機構內部數據治理的復雜性據治理的復雜性問題問題。金融集團型企業廣泛存在著業態多樣、人員分散、管理流程和模式差異大的特點,集團企業內部的數據治理工作面臨巨大的困難和挑戰。各個子公司的主營業務相差巨大,行業細分的數據標準和規范各有特點、不盡相同,從而增加了不同企業間數據互聯互通和共享創造價值的復雜度,數據多源異構現象普遍存在。(四)(四)隱私計算開源生態位全景圖隱私計算開源生態位全景圖 圖 1 金融業隱私計算開源生態位全景圖 金融業隱私計算開源生態,整體分為開源項目、開源社區、技術貢獻方、行業推
62、動方、開源使用方等角色??傮w來看,我國金融行業隱私計算開源產業初具規模,生態逐步完善。1、態勢蓬勃,隱私計算開源社區穩步發展。、態勢蓬勃,隱私計算開源社區穩步發展。從開源項目角度來看,當前我國各大互聯網公司及頭部科技公司,紛紛加入開源行列,積極打造開源生態。特別是在 2018 年以后,騰訊、微眾銀行、百度、阿里、京東、字節跳動等科技公司,陸續發布了隱私計算相關開源項目。在國際層面,Google、Facebook、IBM、Intel、NVIDIA 等科技公司,也發布了自己主導 FATE 隱私計算開源框架金融行業技術應用報告 28 的隱私計算相關開源項目,并在各自擅長的技術領域持續積累,快速進步。
63、以 FATE 為例,開源至今已迭代 30 余個版本,聯邦算法組件已發展至 30 余個,實現了主流場景算法全覆蓋和工業界主流多方安全計算協議全覆蓋。圖 2 FATE 發展里程碑 我國隱私計算開源社區穩步發展,其中 FATE 社區目前共建最為廣泛,已經匯集了近千家企業及科研機構的開發者參與社區生態共建,并在多個金融機構、隱私計算科技公司產品體系中產生了影響。同時,近期深圳數據交易有限公司聯合 50 家國家單位、智庫、高校及大型金融機構和互聯網公司,共同發起成立了開放群島(OpenIslands)開源社區,旨在打造全國首個工業級信創版隱私計算開源框架。2 2、各行業積極貢獻,推動隱私計算開源發展、各
64、行業積極貢獻,推動隱私計算開源發展 各行業領軍企業均在積極參與隱私計算開源社區貢獻。例如,2022 年 8 月,FATE 開源社區正式公布 19 家首批成員單位名單,涉足領域廣泛覆蓋數字經濟發展生命周期,既有隱私計算應用較為成熟的金融機構,也有電力、互聯網、通信、醫療等隱私計算創新應用領域,還包括了專注網絡安全、人工智能的前沿獨立技術公司,多方協同下,將充分發揮開源社區開放共建的生態優勢,以產業實踐帶動創新發展,通過開源的方式推動隱私計算進入應 FATE 隱私計算開源框架金融行業技術應用報告 29 用快車道。3、隱私計算開源框架在金融行業應用廣泛、隱私計算開源框架在金融行業應用廣泛 隱私計算開
65、源框架已經具備豐富的實踐落地案例,其中以金融行業應用最為活躍。本報告對銀行業金融機構開源框架應用情況展開了問卷調查。根據調研結果,約 84%的受訪機構有隱私計算平臺,其中約 30%是基于開源項目研發的平臺,其余為自研的閉源平臺?;陂_源項目研發的平臺中,有 75%是基于 FATE 開源框架。金融行業隱私計算開源框架使用率呈逐年上升趨勢,成為隱私計算開源實踐的第一陣地,為開源隱私計算技術的發展奠定了堅實的實踐基礎。FATE 隱私計算開源框架金融行業技術應用報告 30 四、FATE 開源框架技術分析 FATE 是國內較為成熟,金融行業參與較為廣泛的開源隱私計算框架,因此,以 FATE 為研究對象,
66、有助于系統梳理隱私計算開源框架的應具備技術特點,可以為開源隱私計算框架技術發展提供重要借鑒。(一)(一)框架框架特點特點 FATE 在設計上具備工業級別開箱即用的特點,旨在安全合規前提下跨機構進行數據合作,為傳統聯合統計、機器學習、深度學習和遷移學習等功能需求,提供安全高效的聯邦機制,為開發者提供安全高可信、算法易開發、產品易集成、生產易運維、框架可測試、交互可審計的聯邦學習隱私計算解決方案,可以簡化隱私計算創新和應用復雜度,降低隱私計算技術使用門檻。1系統框架分層清晰系統框架分層清晰 FATE 為聯邦學習隱私計算應用,提供了從模型研發階段的聯邦分析、聯邦建模、聯邦模型可視化和可解釋性能力,到
67、生產環境的聯邦在線推理、以及多云管理、云原生運維管理等一整套解決方案,開發者可以較低的集成成本使用 FATE 能力。同時,FATE 對計算,存儲,通信等基礎設施進行統一抽象,可以根據實際場景適配不同基礎設施以及不同的組網模式,為隱私計算框架間的互聯互通提供了可能。FATE 隱私計算開源框架金融行業技術應用報告 31 圖 3 FATE 平臺系統架構 2部署架構靈活部署架構靈活可配可配 在部署架構層面,FATE 支持在多種計算引擎進行部署,可以根據企業資源場景靈活選擇。1)FATE on EggRoll FATE 默認支持使用“EggRoll”作為其底下計算和存儲的集群,在經過幾年持續迭代和優化之
68、后目前已經能夠滿足大多數聯邦學習應用場景的生產需求。圖 4 以 EggRoll 為計算引擎的 FATE 部署架構 2)FATE on Spark FATE 同時支持 Spark 作為計算引擎時,基于 Spark 的 FATE的部署架構如下:FATE 隱私計算開源框架金融行業技術應用報告 32 圖 5 以 Spark 為計算引擎的 FATE 部署架構 3網絡架構網絡架構星點結合星點結合 FATE 網絡連接提供星型架構和點對點連接兩種方式,可以適配不同場景需要。圖 6 網絡互聯架構 (二)(二)一站式解決方案一站式解決方案 1.聯邦學習算法庫聯邦學習算法庫 聯邦學習算法庫(FATE Federat
69、edML)提供了覆蓋隱私求交,匿蹤查詢,聯邦統計,聯邦特征工程,聯邦機器學習,聯邦深度學習等 30 多種聯邦算法,支持兩方以及多方隱私計算場景,實現傳統建模場景全面聯邦化隱私計算。FATE 隱私計算開源框架金融行業技術應用報告 33 2聯邦調度引擎聯邦調度引擎 聯邦調度引擎(FATE-Flow)基于共享狀態調度架構和跨數據中心的多方安全通信,實現了端到端全流程的多方聯合任務安全調度和生命周期管理聯邦調度框架。FATE-Flow 框架設計在隱私計算產品互聯互通應用實踐中常被采納和借鑒。圖 7 FATE-Flow 多方聯合任務安全調度 3聯邦可視化組件聯邦可視化組件 聯邦可視化組件(FATE-Bo
70、ard)是聯邦學習建??梢暬徒忉屝怨ぞ?,為終端用戶可視化和度量模型訓練的全過程。FATE-Board 是聯邦建??梢暬ぞ?,被眾多公司的隱私計算產品進行集成應用。FATE 隱私計算開源框架金融行業技術應用報告 34 圖 8 聯邦模型可視化 4聯邦在線服務框架聯邦在線服務框架 聯邦在線服務框架(FATE-Serving)為 FATE 提供聯邦在線推理服務,打通了聯邦建模到生產部署應用環節,為聯邦學習,隱私計算大規模生產應用和商業化提供了可能。FATE-Serving是已知最早進入生產應用開源聯邦在線服務框架,在眾多公司應用落地。FATE 隱私計算開源框架金融行業技術應用報告 35 圖 9 FA
71、TE-Serving 架構 5聯邦計算引擎聯邦計算引擎 聯邦計算引擎(FATE EggRoll)是一個多范式計算框架,它實現了計算、存儲、通信的一體化,旨在提高大規模機器學習的計算力。圖 10 EggRoll 架構 6聯邦云聯邦云 聯邦云(FATE Cloud)是構建和管理聯邦數據合作網絡的基礎設施,為跨機構間、機構內部不同組織間提供了安全可靠、合 FATE 隱私計算開源框架金融行業技術應用報告 36 規的數據合作網絡構建解決方案,實現多客戶端的云端管理。據了解目前 FATE Cloud 在近百家機構和站點間生產組網中得到應用。圖 12 FATECloud 核心功能(三)(三)靈活適配靈活適配
72、 FATE 底層支持多種安全計算協議,綜合安全、效率、性能多維度考慮,為上層聯邦算法組件提供靈活適合的安全協議,支持協議可插拔。目前 FATE 同態加密算法采用 Paillier 半同態加密,多方安全計算協議采用 SPDZ 秘密分享協議,以及同態加密和 MPC 混合協議 SSHE。上述 3 種類型安全協議廣泛應用于縱向聯邦特征工程,縱向聯邦機器學習,深度學習算法組件中。DH 和ECDH 密鑰交換協議,RSA 協議這三種安全協議主要應用在安全求交。不經意傳輸協議(OT)用于安全隱匿查詢。FedAvg 安全聚合協議廣泛應用于橫向聯邦算法組件中。(四)(四)云原生云原生 聯邦學習屬于計算資源密集型應
73、用,常見的運行形態為分布式計算,對云原生化有強需求。KubeFATE 項目對 FATE 框架進行 FATE 隱私計算開源框架金融行業技術應用報告 37 了云原生改造。目前,FATE 框架已經實現所有組件容器化,同時KubeFATE 支持 Docker-compose 和Kubernetes 兩種部署方式。Docker-compose 定位為簡單,易用,小規模生產環境使用,而對于有強計算能力需求的情況下,可以選擇 Kubernetes 作為平臺。FATE 隱私計算開源框架金融行業技術應用報告 38 五、未來展望 根據前期調研結果及分析,金融機構對隱私計算開源框架需求主要聚焦在三大方面:一是提升技
74、術成熟度,保障系統平穩運行;二是需要實現模型性能、數據安全、算法效率的平衡;三是提高隱私計算平臺功能的豐富性,以滿足多樣化的業務需求?;谝陨瞎残孕枨?,以 FATE 開源框架和社區建設為研究對象,歸納未來技術發展和生態建設方向。(一)(一)技術發展展望技術發展展望 1可信聯邦學習將得到廣泛應用可信聯邦學習將得到廣泛應用 傳統的聯邦學習在發展過程中正面臨包括安全、效率,以及模型的可監管、可解釋性問題等多方面的挑戰。隨著聯邦學習技術的日益普及和大規模應用,聯邦學習安全、性能、效率三者的平衡變得至關重要。為了降低參與方加入聯邦學習的成本與顧慮,鼓勵不同行業內用戶參與聯邦學習,更好地促進數據流通,需要
75、對傳統的聯邦學習技術和概念不斷升級和完善,這也促使了傳統的聯邦學習邁向新的可信聯邦學習??尚怕摪顚W習是一種增強型的聯邦學習,它除了保證原始數據的隱私安全和模型的可證安全,還保證學習過程的高效率和模型的可用性,模型決策機制的可解釋性、及模型的可溯源性和審計監管性。在此范式中,隱私保護、模型性能、算法效率是核心的三角基石,并且與模型的決策可解釋性和可監管性兩大支柱一道,共同構成了更加安全可信的聯邦學習。數據安全可證明、模型性能可使用、機器學習效率可控、決策可解釋、模型可監管和普惠是可信聯邦學習的核心特征。因此,可信聯邦學習勢必將得到更廣泛的發展和應用。2多方異構平臺互聯互通勢在必行多方異構平臺互聯
76、互通勢在必行 FATE 隱私計算開源框架金融行業技術應用報告 39 異構平臺之間無法協作問題,導致隱私計算運維成本的提高和數據安全風險的提升,制約了隱私計算技術應用的效率。解決技術差異造成的不同平臺間的通信壁壘,實現互聯互通,已經成為業內共識。針對上述問題,為實現隱私計算技術大規模商業落地,首要是建立一套隱私計算框架的標準,在此基礎上對身份認證、數據授權、任務同步、資源訪問等關鍵問題深入探索。通過不斷實踐總結,明確數據傳輸格式,梳理交互流程,逐步形成一套安全可靠的通信協議,并提供規范示例。3支持異構基礎算力設施的能力持續發展支持異構基礎算力設施的能力持續發展 為了靈活適應不同企業的軟硬件要求,
77、隱私計算開源框架有必要適配多種不同的計算引擎與通信模式,從而方便企業根據現有情況以及未來規劃靈活選擇。FATE 框架在計算引擎、網絡通信等多個基礎設施方面做了大量的抽象與統一工作,對于有投入GPU、FPGA 等硬件來加速聯邦學習系統的企業,FATE 也將在基礎架構的層次上進行深度支持優化。在未來將在現有的成果基礎上,開源框架應著力優化統一的計算、通信抽象和支持CPU/GPU/FPGA靈活適配擴展兩個方面。統一的計算通信接口不僅使得企業可以靈活配置與使用開源框架實現業務需求,而且在未來可能催生提供各種軟硬件加速實現的商業服務,從而使得服務提供方與服務使用方都從中獲益。4云原生管理有必要進一步強化
78、云原生管理有必要進一步強化 FATE 框架目前擁有 KubeFATE,FedLCM 兩個開源項目,已經基本支持聯邦以及框架層面的云原生管理,這為開源框架提供了重要參考。在后續開發中,開源框架應考慮以下幾個方面能力的建設:1)異構計算的支持異構計算的支持。增加對異構計算、加速的支持,使得 FATE 隱私計算開源框架金融行業技術應用報告 40 某些算法組件可按需選擇使用不同加速引擎,加速聯邦學習等隱私計算過程,提高場景落地效率。2)更友好的配置管理更友好的配置管理。開源框架可以結合具體硬件、異構系統配置進一步優化這些分布式系統的部署配置,使用戶可以統一調管聯邦學習資源。3)互聯互通的支持互聯互通的
79、支持。開源框架應考慮互聯互通需求,實現統一管理、配置多種聯邦學習隱私計算框架。5與大數據、人工智能等技術生態結合將更加緊密與大數據、人工智能等技術生態結合將更加緊密 隱私計算尤其其中的聯邦學習技術是在站在大數據處理技術和 AI 人工智能技術的巨人肩膀上發展起來的,并充分結合這些成熟生態已有技術進行了演進。FATE 自 v1.5.0 版本開始,重構了基礎架構,構建了統一計算、存儲、通信抽象層,適配不同的計算引擎、存儲引擎、通信引擎、以滿足不同場景適配不同引擎的需求。未來 FATE 還會更多接入大數據生態產品,和這些產品互通,進一步提升 FATE 在大規模數據處理和規范化數據治理能力。以 Tens
80、orflow、Pytorch 為代表 AI 生態已逐漸成熟,并成功應用于自然語言、視覺搜索、廣告推薦、智能風控等眾多領域,在這些領域技術升級重塑上發生了重要的作用。未來隱私計算開源框架,應進一步拓展對自然語言、視覺、推薦等領域聯邦化支持,充分擁抱這些領域已有成熟成果。FATE 技術框架與大數據生態,AI 生態的充分結合,極大的展現生態優勢,充分說明了隱私計算開源框架與大數據、人工智能等技術生態融合的重要性。(二)(二)生態建設展望生態建設展望 1.金融行業參與開源生態建設形式將走向多樣化金融行業參與開源生態建設形式將走向多樣化 金融機構目前參與以 FATE 為代表的開源社區生態建設主要 FAT
81、E 隱私計算開源框架金融行業技術應用報告 41 形式包括:一是作為用戶,基于開源框架自建隱私計算平臺服務自有業務。二是作為開源貢獻者,基于自身實踐貢獻相關代碼完善開源平臺。目前已有多家銀行、金融科技公司成為 FATE 開源社區技術指導委員會(FATE TSC)成員單位,從代碼貢獻、社區運營等多方面深入參與開源社區生態建設。預計未來金融業參開源社區生態建設的主要方式與形態將會更加多樣化,吸納更多行業參與者,形成生態集聚效應,包括但不限于以下幾種:1)參與對象上,將吸納更加豐富的生態合作伙伴類型參與對象上,將吸納更加豐富的生態合作伙伴類型。當前參與生態的主要金融機構類型包括銀行、互聯網金融機構、金
82、融科技公司等技術使用方與提供方,隨著落地方案的成熟與普及,數據提供方、數據交易平臺等更多維度的上下游相關機構將加入生態,進一步促進數據價值流通。2)組織方式上,按主題成立金融特別興趣小組(組織方式上,按主題成立金融特別興趣小組(SIGSIG)形)形式逐步流行式逐步流行。SIG 負責金融應某一領域的設計、建議和審批等,發揮開源社區“群力群策”、“開源開放”的特性,為進入開源生態的金融機構提供平等、有效的技術應用支持與開放、包容的交流環境。3)合作機制上,探索更加公平合理的激勵機制合作機制上,探索更加公平合理的激勵機制?;谀P退〉刃录夹g與公開透明開放的運營機制,開源社區中的生態合作伙伴將基于更
83、加公平合理的激勵機制作開源貢獻,在使用開源框架賦能業務的同時反哺社區,促進開源框架高效、穩定迭代,促進開源生態良性發展。2.金融業將為開源生態發展提供持續動力金融業將為開源生態發展提供持續動力 開源社區鼓勵開發者和開發者社區普及開源文化、倡導開源精神,參與開源、貢獻開源,增強開發者對開源領域問題的研判及引領能力,積極引導和提升開發者的開源專業能力,推動開源 FATE 隱私計算開源框架金融行業技術應用報告 42 開發者的成長與貢獻,為開源框架提供持續動力。從 FATE 開源社區發展角度看,在促進行業認知和完善開源運營機制方面,金融行業將發揮更大作用。一是一是金融行業內需要高效協同,加大開源布道、
84、加強隱私計金融行業內需要高效協同,加大開源布道、加強隱私計算相關合規的普及算相關合規的普及。加深對開源社區治理的研究,提高開源社區和開源項目的治理和運營能力,為開源社區治理專家、開源項目核心維護人員提供定向資助,讓有實力、有經驗的專業人員,持續的專注于開源項目的發展。二是繼續完善開源運營機制二是繼續完善開源運營機制。一方面是持續推進與金融企業的開源運營合作,借助聯盟標準化與行業推廣優勢,推動 FATE 開源項目應用。另一方面是形成穩定的決策機制,項目孵化流程,為 FATE 開源項目運營提供有力的知識產權、托管、孵化及法律、協作支撐6。數據的生產要素化將成為衡量企業價值的重要標度,也將很大程度上
85、決定企業在未來競爭格局中的地位。鑒于金融行業的增長需求、市場環境的變化、安全需求等因素,金融機構自身的資源有限性難以支撐敏捷響應、快速迭代及開發。因此,越來越多的金融機構積極擁抱開源、引入開源技術,是防止自身發展受制的積極舉措;是以保護隱私和數據安全為前提,實現互利共贏的創新嘗試;也是金融業與開源社區為金融科技能力建設雙向賦能的成功實踐,為探索培育適合金融行業的開源生態形成良好基礎。FATE 隱私計算開源框架金融行業技術應用報告 43 參考文獻參考文獻 1 徐磊,魏思遠.金融業隱私計算的內涵,應用和發展趨勢J.中國銀行業,2021(000-011).2 騰訊隱私計算白皮書 2021.3 趙大偉
86、.我國互聯網消費金融相關問題研究基于金融消費者權益保護視角J.金融理論與實踐.4 智譜 AI,清華大學人工智能研究院知識智能中心.2021 全球聯邦學習研究與應用趨勢報告.5 No Free Lunch Theorem for Security and Utility in Federated Learning Xiaojin Zhang,Hanlin Gu,Lixin Fan,Kai Chen,Qiang Yang 6 劉韻潔,黃韜,汪碩.關于未來網絡技術體系創新的思考J.中國科學院院刊,2022(001):037.FATE 隱私計算開源框架金融行業技術應用報告 44 附錄:FATE 開源框
87、架的典型應用案例(一)(一)應用概況應用概況 整體來看,FATE 開源框架在金融行業中,主要應用于聯合風控、聯合營銷兩大類場景,具體場景包括企業信用評估、風險管理、反洗錢、反欺詐、交叉營銷、風險識別、智能營銷等。各大金融機構積極參與到 FATE 隱私計算開源框架建設中來,FATE 開源隱私計算框架在金融行業逐步涌現大量落地案例。同時,隨著金融場景數據維度逐漸增多,數據體量逐漸變大,開源隱私計算框架面臨算力問題,部分隱私計算科技企業根據自身科技能力,也在金融行業開源隱私計算框架的算力層面上積極參與貢獻,顯著提升了開源隱私計算算力水平。(二)(二)應用場景應用場景 1銀聯關于小微企業信用評估聯合建
88、模案例銀聯關于小微企業信用評估聯合建模案例 案例背景案例背景 小微企業貸款難是當前面臨的痛點問題,重要原因之一是銀行自有數據中缺乏體現小微企業經營的維度,使得銀行無法客觀評估小微企業的信用資質,而銀行也缺乏動力對大量小微企業的放貸關鍵信息做調研。另外,與放貸評估相關的數據分布在不同機構中,但是受限于“數據合規”要求,不同機構之間的企業信息無法高效共享。案例介紹案例介紹 本案例是銀聯與某銀行在 FATE 聯邦學習平臺中利用縱向聯邦學習技術開展跨機構數據融合,基于縱向邏輯回歸共建小微企業信貸風控模型。其中銀行側提供小微企業的違約標簽信息,機構側補充該企業的經營特征、交易特點等信息。雙方基于 FAT
89、E 平臺開展聯合建模,其中數據合作的方案如下:FATE 隱私計算開源框架金融行業技術應用報告 45 圖 15 銀聯小微企業信用評估數據合作方案 經過聯合建模及效果驗證,在加入機構側數據后,測試集的AUC 從 0.615 提升到了 0.690,提升幅度達到了 12.2%。有效地提升了小微企業風險評估模型的性能,超出銀行的預期,滿足其生產落地的需求。2微眾銀行關于小微企業信用風險管理中的應用案例微眾銀行關于小微企業信用風險管理中的應用案例 案例背景案例背景 近年來,隨著國家政策的支持,小微企業貸款越來越受到重視。但由于風險過高,許多銀行不愿給小微企業貸款,因此如何規避風險,降低小微企業貸款的不良率
90、顯得尤為重要。目前,大多數銀行都將白名單機制用于小微企業貸款的風險管理,而白名單是通過篩選規則和風險模型來實現的。不管是規則還是風險模型,都需要依賴于對小微企業及其控制人的相關數據了解。對于風險管理來說,相關數據可以包括央行征信報告、稅收、聲譽、財務、無形資產等。然而,對于銀行而言,往往只有央行征信報告。在數據方面,與其他可以直接沉淀小微企業交易數據的電商公司或 ERP 軟件公司相比,銀行并不具有優勢。數據是數據方擁有的重要資產,合理地應用將會給自身帶來極大的好處。但是,隨著用戶隱私保護變得越來越嚴格,數據方很難在保護用戶隱私的前提下保證自身利益的獲取。案例介紹案例介紹 FATE 隱私計算開源
91、框架金融行業技術應用報告 46 本案例中,微眾銀行具有標簽和央行信貸特征(與風控相關),合作公司擁有發票相關數據特征,雙方進行縱向聯邦建模,微眾銀行希望提升自己的模型預測能力。傳統建模方法存在著兩個問題:第一,合作公司因為沒有標簽而無法訓練模型;第二,由于用戶隱私的問題,合作公司不能將發票數據直接發送給微眾銀行。面對以上的問題,微眾銀行采用了 FATE 的縱向聯邦學習技術,保證在數據不出庫的情況下,達到與聚合數據建模等效或者接近等效的建模效果?;诼摪顚W習,多個機構可以構建聯合模型而無需共享其原始數據。在進行縱向聯邦建模之前,首先需要找到微眾銀行與合作公司之間的公共用戶,(例如雙方共同的納稅人
92、識別號),但又必須保證不能讓另一方知道對方非共同的用戶,這種方法稱為PSI。使用基于 RSA 加密技術的 PSI,合作伙伴可以通過傳輸加密的中間結果(而不是原始用戶數據)來找到雙方的交集用戶。使用縱向聯邦學習可以在保證數據安全的情況下訓練聯合模型,并且聯合模型的效果比任一方單邊數據建模效果要好。利用聯邦學習框架 FATE 可以輕松高效地實現聯邦學習算法。通過使用 FATE,微眾銀行與有發票數據的合作公司一起完成了縱向聯邦建模,使用的聯邦訓練模型為縱向邏輯回歸(Hetero-LR)。不同于傳統的邏輯回歸,微眾銀行和合作公司利用各自的數據一起訓練模型,使用加密的中間結果進行交互,并且各自維護屬于自
93、身的模型,當需要預測的時候,需要結合兩邊的模型共同預測。整個模型訓練的過程保證了數據和模型的安全性。與只使用微眾銀行擁有的央行信用評分來訓練標簽 Y 相比,聯合了發票數據的 Hetero-LR 模型在指標 AUC 上增加了 12,并且隨著模型效果的改善,不良貸款率明顯下降,如下圖所示。FATE 隱私計算開源框架金融行業技術應用報告 47 圖 16 微眾銀行基于 FATE 改善小微企業貸款模型效果 產業價值產業價值 本案例利用 FATE 進行聯合建模,用聯邦學習的方式將銀行的數據與其他公司擁有的小微企業特征數據結合起來進行聯合建模,具有如下兩方面價值:一方面,在保護用戶隱私和機構的數據安全的前提
94、下,促進數據價值流通,極大地擴展了人工智能的適用范圍;另一方面,緩解了小微企業融資難的問題,降低了小微企業貸款的審核難度和發放成本。3微眾銀行跨銀行反洗錢應用案例微眾銀行跨銀行反洗錢應用案例 案例背景案例背景 反洗錢在銀行的日常經營中發揮著重要作用。有效的反洗錢模型可以遏制經濟犯罪活動。然而,確定一個交易記錄是否涉及洗錢活動,這一過程是繁復的,并且極其容易出錯。傳統方法上,銀行會使用基于規則的模型來過濾那些明顯的非洗錢記錄,并手動審查其他記錄?;谝巹t的模型確實發揮了很大的作用,但由于覆蓋范圍小,仍然需要在剩余大量的樣本中進行人工審查,因而花費大量的時間。此外,雖然它在已知的傳統案例中很有效,
95、但在面對新的未知案例時,難以察覺其行為是否違法。因此,利用機器學習模型,找到所有特征之間不可見的關聯成為了新的手段。而機器學習模 FATE 隱私計算開源框架金融行業技術應用報告 48 型需要大量的數據作為支撐,如何在保護數據安全、遵守監管要求的前提下利用多方數據構建性能良好的模型,是解決問題的關鍵。案例介紹案例介紹 微眾銀行作為中國第一家互聯網銀行,目前正在利用邏輯回歸模型等機器學習模型,使用的特征數多達 900 多種,有效地覆蓋了人們日常金融活動的方方面面,對未知的洗錢方法有很好的挖掘作用。然而,這些模型由于缺乏數據(更具體地說,是洗錢的案例)而準確率受損。由于沒有大量的實證案例,模型的評價
96、性能很差,很難獲得對未知案例的推理能力。微眾銀行引入了聯邦學習來解決這個問題。聯邦學習使多個機構能夠在不共享數據的情況下構建一個通用模型。為了實現這一目標,微眾銀行使用聯邦學習工業級的開源框架 FATE,聯合多家銀行共同訓練反洗錢模型。反洗錢場景使用的聯邦訓練模型被稱為橫向邏輯回歸(Homo-LR)。所有銀行都提供相同特征維度的數據,這意味著它們具有相同的特征和不同的樣本 ID。通過這種組合,整個數據集包含了大量的實證案例,使模型表現良好。在每次迭代中,每一方都通過自己的數據訓練模型,并將模型權重或梯度發送給稱為協助者(arbiter)的第三方。Arbiter聚合所有這些模型權重或梯度,然后更
97、新回每一方。當模型由各方訓練時,各方的數據不會離開本地,推理過程也很容易理解和執行。通過測試,我們證明這樣的建模合作方式取得了巨大的成功,極大地提高了模型的性能。LR 模型的 AUC 增加了 14%,在減少手工評審的工作量和難度的同時顯著地增加了預測效果。下圖是使用聯邦模型前后的效果比較。每個方格的數字代表 FATE 隱私計算開源框架金融行業技術應用報告 49 洗錢案件的可能性。圖 17 微眾銀行使用聯邦模型前后效果對比 如果采用傳統的單邊建模模式,這些案件就不會被認定為可疑案件。在回顧兩起紅色案件的具體情況時,發現它們具有非法結算型地下錢莊的特點,利用我國電子銀行賬戶進行過渡的可能性較大。此
98、外,AUC 隨建模數據的增加而增加,從而滿足了數據增長的需求。如果我們只使用基于規則的模型,每天需要審查 1000 多個案例。然而,隨著聯邦 homo-LR 的使用,這個數字已經減少到38。產業價值產業價值 洗錢活動具有嚴重的社會危害性,破壞了社會的正常經濟秩序,損害了金融體系的安全和信譽。因此,反洗錢是銀行等金融機構的重要工作,也是金融監管機構的監管重點。利用 FATE 開源框架在不同金融機構間進行橫向建模,建立更優的反洗錢模型,不僅提高了模型準確性,強化了對可疑案件的識別,而且降低了人工篩查成本,讓反洗錢更準確、更高效。4光大科技交叉營銷案例光大科技交叉營銷案例 案例背景案例背景 FATE
99、 隱私計算開源框架金融行業技術應用報告 50 交叉營銷旨在發現客戶多種需求并有針對性地進行產品組合,促使客戶在購買某種產品的同時可以繼續購買其他關聯產品。大數據挖掘與分布式處理技術的成熟應用,為交叉營銷領域提供了有力的技術支持,在提高客戶轉化率的同時還減少了對客戶的不必要打擾。但是,考慮到個人隱私保護和數據安全問題,不同機構之間的交叉營銷,尤其是金融機構間無法直接進行數據融合與分析建模,使得更加廣泛、更深層次的機構間產品交叉營銷場景受到限制。案例介紹案例介紹 某保險機構基于 FATE 聯邦學習平臺,在保證己方數據安全的前提下,聯合外部其他保險機構的數據源來指導內部的營銷策略。其目的是使購買過團
100、險醫療險的客戶二次購買業務重點營銷的重疾險,以增加客戶對產品的交叉持有,同時提升客戶粘性與保障,延續客戶在該保險機構的生命力。在此營銷案例中,該保險機構將傳統機器學習與聯邦學習相結合。在計算參與方共同客戶的階段,使用 FATE 中基于 RSA 的隱私求交組件。對與外部數據源的共同客戶部分采用 FATE 中的縱向聯邦學習模型,對非共同客戶部分采用本地的傳統機器學習模型。之后將兩部分模型的預測結果映射到同一評分區間,并將該評分返回至該保險機構的數據庫,方便業務人員的查詢和調用。具體邏輯流程圖如圖 18 所示:該保險機構對比了使用聯邦學習技術前后的模型效果,選用AUC、KS、Lift 作為評估指標,
101、得出聯邦前后各模型評估指標均有顯著提高?!奥摪钋啊睘閮H使用該保險機構本地數據的機器學習模型,“聯邦后”為利用了外部數據的聯邦學習模型。在對比中,AUC 從 0.839 提升至 0.879,提高了 4%;KS 從 0.539 提升至0.601,提高了約 6%;排序前 10%的 Lift 從 4.353 提升至 5.582。FATE 隱私計算開源框架金融行業技術應用報告 51 圖 18 團險職域營銷邏輯流程圖 產業價值產業價值 通過聯邦學習可以幫助金融機構以密態的方式共享各自的用戶數據進行營銷模型計算,根據建模結果制定營銷策略,實現雙贏的聯合營銷目標。通過數據感知用戶需求,利用聯邦學習實現數據的開
102、放共享、突破中心化和封閉的數據壁壘,形成用戶資產統一視圖,實現智慧聯動。同時幫助機構分析用戶的資產分布、消費喜好和征信登記等信息,給予用戶聚合金融等綜合產品和服務,為用戶創造差異化價值,打造全景體驗。5光大科技聯合風控案例光大科技聯合風控案例 案例背景案例背景 近年來,國內證券市場的規模持續穩步增加,同時監管政策不斷深化完善,監管要求更加細致嚴格,金融行業已步入強監管時代,這給證券風控提出了新的挑戰。隨著互聯網技術與傳統金融的結合,新的金融服務模式在滿足消費者金融需求、促進消費的同時,也存在由于機構眾多、覆蓋面廣和新業務模式等而產生的問題與風險。因此,如何升級信用風險管理對金融機構至關重 FA
103、TE 隱私計算開源框架金融行業技術應用報告 52 要,而基于聯邦學習的解決方案將有望成為解決這一行業性難題的關鍵。案例介紹案例介紹 通過 FATE 聯邦學習平臺和區塊鏈技術,某證券機構聯合外部數據源構建機構客戶風險評級模型。依據風險等級來輔助確定客戶的授信額度、融資額度等指標,從而降低證券的信用風險。此外,為了保證聯合建模的公平性,對參與雙方數據的樣本數、特征數、貢獻度等指標進行存證,以此作為未來分潤的參考。在此風控案例中,該證券機構基于三組對照實驗驗證了聯邦學習的重要性和有效性。對比實驗如圖 19 所示:圖 19 機構客戶風險評級對照實驗結果 實驗一可以得出,相比于僅使用本地數據的機器學習,
104、縱向聯邦學習雖然在一定程度上損失了部分數據量,但特征維度的增加最終提升了模型準確率;實驗二可以得出,針對證券數據多分類、標簽分布不平衡等特點,聯邦模型應選擇效果表現更優的集成模型 SecureBoost;實驗三可以得出,通過設置機構名稱的模糊匹配規則,使得樣本對齊字段不局限于“社會信用號”,進一步增加交集數量的同時,模型的準確率也會得到小幅度的提升?;谏鲜龅膶嶒灲Y果,該證券機構最終采用 FATE 框架中的SecureBoost 作為該風控場景的解決方案。同時,通過搭建區塊鏈 BaaS 平臺,利用區塊鏈技術保證數據的可信可追溯。該證券機構將聯邦參與方數據的樣本數、特征數、貢獻度等信息上鏈存 F
105、ATE 隱私計算開源框架金融行業技術應用報告 53 證。下表列出部分存證字段:表 4 機構客戶風險評級存證字段 產業價值產業價值 聯邦學習在風控領域的應用一直是金融行業重點關注的領域。聯邦學習技術使金融機構、信貸機構、互聯網科技公司等主體間的數據得以相互連接,在滿足合法合規要求下最大化了自有數據價值,金融機構得以進一步靠近支付及消費場景端,信貸機構核心競爭力獲得增強。此外,金融機構通過聯邦學習技術,對多源數據進行協同建模分析,在數據使用安全合規、保護用戶隱私的前提下,緩解由于信息不對稱而無法有效識別風險的問題。6廣發銀行風險識別案例廣發銀行風險識別案例 案例背景案例背景 隨著數字經濟時代的發展
106、,數據安全與個人隱私保護問題逐漸成為焦點。金融行業同樣面臨這種問題,尤其是在金融機構之間,缺少數據價值安全共享的機制?;谶@種現狀,廣發銀行基于 FATE 開源框架,以監管機構為中心建設能夠靈活支持大數據建模、可彈性擴展的聯邦學習平臺,同時,選擇三家有代表性的金融機構,在對公貸款業務場景下探索橫向聯邦建模的可行性,實現各行業務數據跨機構、跨區域的數據不出域、可用不可見的安全聯合建模,挖掘數據價值。案例介紹案例介紹 聯邦建模平臺以某監管為中心,各金融機構為輔助,構成了易部署、高可用、可彈性擴展的平臺架構,如圖 20 所示。FATE 隱私計算開源框架金融行業技術應用報告 54 圖 20 聯邦建模平
107、臺架構 在對公貸款風險識別業務場景中,平臺根據對公貸款歷史數據構建模型,以預測一筆正常對公貸款當月是否會存在風險。監管機構擁有各個金融機構上報的歷史數據,分別展開本地單體建模、本地聯合建模、聯邦聯合建模,對比驗證聯邦建模效果,并分析其價值。聯邦建模過程:(1)數據預處理 對數據做探索性分析,篩選出與對公貸款業務相關性較強的數據。其中正樣本數據的貸款五級分類為非正常,負樣本數據的貸款五級分類為正常。對數據進行一系列清洗加工、特征工程等操作,得到最終的入模數據表。(2)模型選擇及評價 建模預測目標為對公貸款是否會存在風險,邏輯回歸是解決二分類問題常用的方法之一,本方案決定采用業界使用比較廣泛的邏輯
108、回歸。模型評價機制:為了盡可能找出對公貸款存在風險的客戶,同時保證預測的精度,因此模型評價機制為:模型精確率不低于80%且接近的情況下比較模型召回率,模型召回率越高則模型效 FATE 隱私計算開源框架金融行業技術應用報告 55 果越好。(3)實驗設計 A、B、C 機構兩兩聯邦建模,對比本地單體建模、本地聯合建模、聯邦建模的結果。驗證聯邦聯合建模效果有兩個目標:聯邦聯合建模與本地聯合建模效果是否接近;聯邦建模效果是否優于本地單體建模。實驗結果及分析:由于各機構數據不符合同一特征空間分布,得到的實驗結果不理想,因此使用卡方檢驗的方法剔除區分度高的特征,使數據滿足同分布。采用數據處理后趨向同分布的數
109、據進行聯合建模實驗,訓練集分別為 A 機構和 B 機構 1-5 月數據,測試集為對應組合的 6 月數據,實驗結果如圖 21 所示。圖 21 A、B 機構測試結果 從實驗結果中可以看到,A 機構結果差異不大(A 機構數據量遠大于 B 機構),而 B 機構測試集本地聯合和聯邦聯合的建模效果均優于本地單體建模,召回提升近 14%,同時本地聯合與聯邦聯合效果接近。產業價值產業價值 從聯合建模效果驗證實驗中可以發現,當數據集滿足同分布時,以聯邦學習形式的聯合建模與本地聯合建模效果接近,且優0.8240.8240.8160.7790.8890.88900.20.40.60.81本地單體本地聯合聯邦聯合A機
110、構測試集B機構測試集 FATE 隱私計算開源框架金融行業技術應用報告 56 于本地單體建模效果,說明使用聯邦學習的方式能夠使金融機構間對公貸款數據安全共享,有效擴展對公貸款風險識別模型數據范圍,進一步增強模型效果。同時實驗發現,模型效果更偏向于數據較少的一方,說明聯邦學習建模有利于中小銀行等數據樣本不足的機構彌補數據匱乏的問題,提升中小銀行模型建設及應用能力。7中國建設銀行智能營銷應用場景案例中國建設銀行智能營銷應用場景案例 案例背景案例背景 對于金融產品的傳統營銷方式,金融機構通?;趯嶓w網點、地推沙龍、電話短信等對客戶進行無差別的促銷,即基于上述方式的營銷由于缺乏對于客戶需求、畫像的了解。
111、這種方式存在兩處不足:一方面,無法有效識別潛在客戶;另一方面,無差別標準化的推廣方式無法滿足客戶的個性化需求。此外,上述方式存在人力、財力、時間成本巨大、最終客戶轉化率偏低等問題。隨著人工智能及大數據技術的興起,智能營銷可基于客戶不同維度的信息,如金融屬性、消費行為、社交關系、信用評分等方面的數據,刻畫精準、定制化的客戶畫像,以深度挖掘用戶的潛在需求及產品偏好?;谏鲜龇治?,金融機構可進一步結合金融產品特點,形成精準的營銷促活方案,優化對于客戶的精準推薦服務,大幅度提高轉化率。案例介紹案例介紹 2020年下半年,由中國建設銀行上海大數據智慧中心牽頭,建信金科提供技術支持,聯合子公司建信基金,利
112、用隱私計算技術進行了集團一體化建模探索,參與聯合建模的雙方在生產中驗證了隱私計算技術在金融產品智能營銷場景的可行性。本項目的實施基于中國建設銀行數據共享安全計算平臺,所應用的聯邦學習功能基于 FATE1.5LTS 版本改進實現,基于縱向 FATE 隱私計算開源框架金融行業技術應用報告 57 SecureBoost 模型進行業務建模。在本項目中,雙方在生產環境中利用真實業務數據進行了基于用戶特征維度拼接的縱向聯合建模,針對“速盈客群價值提升場景”,實現跨雙方隱私計算模型建立,定位目標客群,助力客戶價值提升。在實際的營銷中,針對評分前 5%客群的響應率相對于單邊模型提升了 34%。產業價值產業價值
113、 本項目利用隱私計算技術開展集團一體化建模探索為銀行業在該領域應用場景的創新探索,對行業提供示范效應和促進作用,通過自主創新引領行業發展。該項目被中國信息通信研究院和中國信息標準化協會大數據技術標準推進委員會認定為“隱私計算優秀案例”,獲得“星河”獎項。8中國工商銀行反欺詐風險識別案例中國工商銀行反欺詐風險識別案例 案例背景案例背景 電信詐騙是當前社會關注的熱點問題。經案例分析發現,詐騙分子的異常行為在運營商側更為提前(如更換手機設備、異地聯網等),可以幫助銀行提前發現風險事件。但反欺詐信息涉及大量隱私數據,企業間反欺詐協作無法開展,銀行反欺詐風控能力的提升受限,反欺詐能力無法輸出。聯邦學習利
114、用同態加密技術和分布式模型訓練,保證企業數據不出本地的情況下實現機器學習模型的共建共享,為跨企業、跨行業反欺詐風控提供可能。本項目為反欺詐風險識別場景數據合作項目,以工行客戶分級模型-登錄模型為例,應用聯邦學習技術,聯合運營商相關數據和工行數據,在數據互不出庫的基礎上建立聯邦學習模型。該案例旨在通過本次數據合作驗證提升行內模型效果,更早抓出可疑客戶,并為工行進一步分析欺詐風險和優化反欺詐模型提供決策支撐。FATE 隱私計算開源框架金融行業技術應用報告 58 案例介紹案例介紹 (1)建模過程介紹 1、建模數據的準備 本案例中聯邦學習建模,工行側要提供樣本標簽以及近百個樣本特征,運營商側提供超 5
115、0 個通信類數據特征。2、樣本對齊過程 本案例使用 PSI(隱私集合求交)技術實現樣本對齊,PSI 的主要目標是在不泄露非雙方共同客戶的前提下,完成雙方共有客戶的篩選工作,如下圖所示示:圖 22 反欺詐風險客戶篩選圖示 3、聯邦建模 本案例采用基于 lightgbm 的縱向 SecureBoost,使用雙方特征和工行標簽共同訓練模型,用于篩選出高風險欺詐客戶名單。在整個訓練過程中,各自的數據互不交換,避免數據泄露;建模完成后模型分布式存儲,避免模型泄露。4、模型效果評估 TOP100 較僅用行內特征準確率提升 38.46%,TOP500 查準率同比提升 37.14%。(2)落地場景和實施方案
116、工行反欺詐系統每日發起批量模型預測批量,通過聯邦學習平臺將交易特征和電信側的客戶特征融合計算,得到客戶的欺詐 FATE 隱私計算開源框架金融行業技術應用報告 59 風險評分。對于高欺詐風險評分的客戶,工行反欺詐系統將其保存到可疑欺詐客戶名單中??蛻敉ㄟ^手機銀行登錄時,手機銀行向工行反欺詐系統發起實時反欺詐檢測請求,反欺詐系統受到請求后,查詢可疑欺詐客戶名單庫,對于命中名單的客戶,向手機銀行回復“禁止登陸手機銀行、提示轉柜面辦理業務”的干預策略。對于可疑欺詐客戶名單中最終被公安部等機構通報為欺詐的客戶,作為模型訓練的樣本,輸入到每月定期發起聯邦建模批量中,實現反欺詐模型的定期自動更新。圖 23
117、工行反欺詐系統欺詐檢測工作流程 產業價值產業價值 通過隱私計算技術,可以聯合運營商、大型同業機構、支付清算協會等機構合作建立反欺詐模型,推動運營商詐騙黑、灰名單的深度挖掘的試點項目:一是大幅提升了工行反欺詐模型和名單的識別精度和范圍,在客戶登陸、交易、改密等環節提前識別、阻斷可疑客戶操作,為金融行業進一步分析欺詐風險和優化反欺詐模型提供有力支撐;二是通過開放銀行的反欺詐服務輸出,共享防控成果,賦能同業企業客戶,共建金融行業跨企業的聯防聯控的生態體系。FATE 隱私計算開源框架金融行業技術應用報告 60 圖 24 工行反欺詐風險識別技術的產業價值 9星云關于金融行業異構算力加速案例星云關于金融行
118、業異構算力加速案例 案例背景案例背景 隨著金融行業數據要素流通體量不斷攀升,在保證隱私計算安全、合規的情況下,高效地產出隱私計算結果,成為了企業的剛需。隱私計算在保護了數據隱私安全的前提下實現了數據的融合與流通,同時也會產生額外巨大的計算壓力與通信壓力,例如國內某頭部互聯網銀行的信貸風控業務場景,對縱向聯邦學習以及端到端的性能及時延提出了較高的要求。星云 Clustar 基于自身的 FPGA 硬件加速及高性能網絡加速技術,為該互聯網銀行提供定制化的聯邦學習異構加速一體機,通過對 FATE 開源框架流程優化,幫助該銀行業務的端到端性能實現了數倍的提升。案例介紹案例介紹 星云 Clustar 結合
119、自身 FPGA 硬件加速技術與高性能網絡技術,幫助某頭部互聯網銀行定制了基于 NVIDIAGPU 和 XilinxFPGA的聯邦學習異構加速一體機。該方案基于 FATE 開源框架,并通過 GPU+FPGA 硬件組合方式,極大地提升了隱私計算算力水平,最終使得聯邦學習端到端的計算性能顯著提升。在項目的具體實 FATE 隱私計算開源框架金融行業技術應用報告 61 施過程中,異構加速一體機通過對 FATE 聯邦學習過程中的數據加密、數據解密、數據混淆、密文矩陣乘法,密態加法、密態乘法、模冪算子、模乘算子等操作進行解構和重組加速,實現了全流程的算力性能提升。在實際操作過程中,FATE 聯邦訓練流程和基
120、本的數據源抽取是由 CPU 控制的,但訓練過程中的數據計算過程通過 FPGA 和GPU 來承擔。在這個過程中,FPGA 主要負責同態加密計算,密文矩陣運算,密文乘法運算,模冪運算,而 GPU 主要負責同態解密運算,密文求和運算,數據混淆運算,密態加法運算,模乘運算等其他運算。在運行過程中,星云 Clustar 的異構加速方案,可以使 FPGA 和 GPU 獨立并行工作,二者都能夠同時進行超大級別的數據量運算。不僅如此,FPGA 和 GPU 單芯片也分別支持多任務并行計算,可以極大的提高運算性能。產業價值產業價值 從應用落地效果來看,在本項目的實際場景中,數據量超過千萬級別,數據特征維度超過 3
121、0 維,通過星云 Clustar 的異構加速一體機進行 FATE 縱向聯邦訓練,端到端的性能加速效果相對于 CPU 多核方案提升 3 倍,單核算力提升約 60 倍。通過實際業務訓練的數據表明,基于 FATE 開源框架的 FPGA 或 GPU 的異構算力加速系統能顯著提高聯邦學習中的訓練性能,大幅度降低模型訓練耗時,加速業務產品版本迭代,推進業務場景商業化落地,并極大地提升用戶體驗,可以為整體行業帶來效率提升和商業價值。10騰訊云信貸反欺詐案例騰訊云信貸反欺詐案例 案例背景案例背景 在銀行進行信貸業務時,需要進行風險識別和控制。傳統做法是,銀行引入第三方的大數據能力,和通用模型進行風控判斷。FA
122、TE 隱私計算開源框架金融行業技術應用報告 62 但通用模型普遍存在對業務匹配度不高,效果不理想的情況?;诼摪顚W習技術,可以綜合利用銀行機構同其他行業數據,在各方原始特征不出域的前提下建立風控模型,形成對業務的多維度認識,提升風控質量。在信息核驗時,可通過隱私計算實現多方黑名單數據共享,對電詐、洗錢、騙貸等行為的黑名單用戶進行匿蹤識別,數據方不能獲知查詢的具體內容,提升客戶背景調查的安全可信程度,實現信貸反欺詐。案例介紹案例介紹 騰訊云安全聯邦學習平臺,基于 FATE 開源框架和AngelPowerFL 聯邦學習框架,幫助金融機構建設線上信貸業務系統,通過聯邦學習技術在“數據不出域”的前提下
123、,聯合構建反欺詐模型、畫像模型,模型效果顯著提升。在提升銀行的大數據信貸風控能力的同時,實現優質客群優質定價,既滿足銀行實際管理需求,資金又得到高效使用。其技術架構圖,如下圖所示:圖 25 騰訊云安全聯邦學習平臺技術架構 騰訊云安全聯邦學習平臺覆蓋 PaaS 級和 SaaS 級領域,形成 FATE 隱私計算開源框架金融行業技術應用報告 63 產業鏈協同互補關系,從而提升聯邦學習技術的附加值。在 PaaS級層面,平臺基于 FATE 開源框架和自研的 PowerFL 隱私計算框架,并對這兩種計算框架進行了云化部署,形成了 PaaS 級聯邦學習服務。在 SaaS 級層面,聯邦學習應用服務基于自身海量
124、安全大數據,提供安全、合規、高效的聯合建模服務,并通過部署云端的 SaaS 服務進行輸出,幫助金融機構用戶快速應用聯邦學習技術成果;同時支持海量互聯網用戶參與對用戶有價值的聯合建模,在個人隱私數據均不出域的情況下實現有價值的數據應用。在反欺詐模型協同訓練時,數據始終沒有離開本地,有效解決了在聯合建模過程中各方面臨的隱私保護問題。同時,實現雙方特征的融合,讓模型效果達到最佳。比起通用模型的測試結果,基于聯邦學習的聯合建模效果提升 20%。產業價值產業價值 在產業方面,基于 FATE 開源框架的聯邦學習平臺通過融入多方的數據,提高了模型的準確率,規范了數據使用形式,降低了數據泄露的風險,提升風控模型的準確度,以創新技術應用賦能金融數據要素價值發揮。對產業發展而言,在數據安全及個人信息保護相關法律法規的推動下,隱私計算已成為“數字產業化”與“產業數字化”發展進程中的關鍵技術。隱私計算的“原始數據不出域、數據可用不可見”的交易范式,作為數據流通中的底層基礎設施,賦能金融行業數據要素市場有序發展。本案例具有良好的示范性,在普惠金融對于中小微企業的風險管理及風控策略調優方面,均具備較高的落地業務價值,對于金融機構和企業精準融資業務起到明確的支撐作用。