《德勤:金融服務業新一代數據共享:利用隱私增強技術解鎖全新價值(36頁).pdf》由會員分享,可在線閱讀,更多相關《德勤:金融服務業新一代數據共享:利用隱私增強技術解鎖全新價值(36頁).pdf(36頁珍藏版)》請在三個皮匠報告上搜索。
1、白皮書 世界經濟論壇與聯合呈現 2019年9月 金融服務業新一代數據 共享:利用隱私增強技 術解鎖全新價值 世界經濟論壇 91-93 route de la Capite CH-1223 Cologny/Geneva Switzerland 電話:+41 (0)22 869 1212 傳真:+41 (0)22 786 2744 電郵:contactweforum.org 網址:www.weforum.org 2019世界經濟論壇 版權所有 保留一 切權利。嚴禁以任何方式(包括復印和 刻錄)或通過任何信息存儲和檢索系統 復制或傳播本出版物的任何內容。 本白皮書由世界經濟論壇出版,致力于推動某一項
2、目、領域洞察或某種互動的發 展。本報告所述調查結果、詮釋和結論均在世界經濟論壇的推動和支持下完成, 但并不一定代表世界經濟論壇或其成員、合作伙伴及其他利益相關者的觀點。 3金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 目錄 序言 4 前言 5 第一章:金融行業隱私現狀 6 數據共享的收益 6 數據共享的潛在弊端 6 改變數據共享現狀 7 第二章:隱私增強技術 8 第一項技術:差分隱私 9 第二項技術:聯合分析 11 第三項技術:同態加密 13 第四項技術:零知識證明 15 第五項技術:安全多方計算 17 第三章:金融服務業應用 20 為金融機構解鎖新價值 20 為客戶解鎖新價值 22
3、為監管部門解鎖新價值 24 結語 25 附錄 26 技術優勢和限制 26 相關閱讀資料 29 鳴謝 30 尾注 32 4金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 序言 Matthew Blake 世界經濟論壇 未來金融和貨幣體 系部門負責人 現今,數據之于第四次工業革命轉型的重要意義不言而喻,數據被喻為新一代的石油、黃金,炙手可 熱。毫無疑問,在數據變得日益重要的同時,企業的工作重點也在轉變。然而,媒體競相報道各企業 積累海量數據的競賽,卻甚少關注企業對發掘機構間數據共享潛能的興趣。尤其在金融服務行業,企 業對機構間協作的需求大大增加,涵蓋了從改進欺詐檢測手段到賦能新型個人理財咨詢
4、服務的各種應 用場景。 當然,數據共享存在風險。企業在發掘數據潛在價值時,須妥善降低對客戶隱私的影響、保障數據安 全,并對競爭性敏感信息加以管控。從過往經驗來看,金融服務行業在隱私保護與數據應用上的目標 往往是矛盾的,需要在數據共享價值與潛在的隱私風險間進行權衡,這也直接導致許多原本似乎很有 希望落地的數據共享項目被束之高閣。 新興的“隱私增強技術”或將通過消除(或降低)過往的相關協作風險,從根本上推動數據共享領域 的變革。隨著隱私增強技術的成熟,企業會期望利用這些技術重新審核許多擱置的數據共享項目,借 此探索此前難以實現的項目機會。 隱私增強技術可以為金融業帶來巨大價值 前提是行業高管和監管
5、部門能夠了解這些需要應用到復 雜數學和計算的技術以及具體應用。本文旨在概述當前最有前景的一些技術,幫助讀者理解有關理 論概念,并展示如何在金融體系中應用這些技術。我們希望通過這種方式助力打造高效協作的金融環 境,期望金融機構、消費者和更廣泛的金融體系都能從數據共享中受益。 Jesse McWaters 世界經濟論壇 金融業創新項目 主管 Rob Galaski 管理咨詢 銀行業及資本市場 全球領導人 5金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 前言 古有盲人摸象的故事,形容不窺得事物全貌無法得出正確的 結論。如今,金融服務業面臨著同樣的問題。在“消費者( 客戶)是否值得信賴”、“交
6、易商是否互相串通”或“某項 交易是否是欺詐性交易”等重要問題上,每個機構都僅握有 一塊拼圖(即數據),但因為各自手上的數據有限,金融機 構就像故事中的盲人一樣,都存在得出錯誤結論的風險。而 信息分享是解鎖事物全貌、全面了解事物的關鍵,可惜金融 機構間數據共享并不容易。由于面臨數據存儲、管理和共享 方面的諸多限制,因此,金融機構至今仍無法對客戶和運營 環境有全面的了解。 完整的數據才能發揮最大的價值,但獲取最大價值的過程卻 十分復雜,其間還伴隨目標沖突:例如,金融機構通過數據 共享將能更好地識別隱藏的交易欺詐模式,減少金融犯罪檢 測誤報。但是金融機構對于披露與自身客戶有關的競爭信息 相當謹慎,通
7、常盡量避免違反隱私監管規定。值得一提的 是,數據共享不僅能使金融機構受益,還能讓客戶得到更加 個性化、更為具體和細致的建議,但客戶可能擔心自身信息 被誤用、濫用或在未經本人同意的情況下被共享。 這些都說明了數據共享的矛盾:數據共享可以創造價值,但 對于信息被共享的個體而言,其隱私信息不再是秘密,對于 開展數據共享的機構而言,其機密性也會受到影響。各方已 投入大量精力希望以一種機構、客戶、行業協會和監管機構 都能夠接受的方式平衡目標之間的沖突,保障金融體系的運 營?!半[私增強技術”能夠使機構、客戶和監管部門在不損 害“數據所有者”(客戶)隱私和“數據管理者”(金融機 構)機密性的情況下發掘共享金
8、融數據的價值。這些技術并 不新鮮,但近年來的巨大發展已使其從單純的探索性研究轉 變為可服務于生產實踐的技術,或將為數據共享帶來根本性 的改變。 本文就隱私增強技術的工作原理及其可能為金融機構帶來的 價值作簡要概述,供各金融子行業(如保險、銀行、投資管 理)高管使用。我們將圍繞下述議題進行分析和論述: 第一章:金融行業隱私問題現狀概覽 第二章:隱私增強技術工作原理介紹 第三章:隱私增強技術如何應用于數據共享 本文包含三個章節: 第一章: 金融行業隱私現狀 第6頁 第二章: 隱私增強技術 第8頁 第三章: 金融服務中的應用 第20頁 6金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 第一章:
9、金融行業隱私現狀 因在數據使用上相互競爭,金融機構往往難以就如何存儲、管理和共享數據達成一致。金融機構、監管部門和消費者間的矛盾 沖突也由來已久。 我們將在下文探討這三個領域的目標沖突(數據共享的益處與弊端)。 金融機構監管部門消費者(客戶) 數據共享的益處 金融機構可從以下三種數據共享方式中受益: 輸入式數據共享 (從第三方獲取數據) 輸出式數據共享 (向第三方提供數據) 協作式數據共享 (與第三方就形式相近的數據互通有無) 首先,輸入式數據共享使機構可借助更多信息來豐富其決策 系統,獲得更高質量的輸出結果,助力精準運營。例如,貿 易公司可使用湯森路透的MarketPsych Indices
10、1 等第三方服 務,基于社交媒體數據的分析支撐采購/銷售相關決策,或更 準確地了解市場行情;其次,輸出式數據共享使機構可在自 身缺乏相關能力的情況下,借他山之石攻玉(并最終使客戶 受益)。例如,智能投資顧問Wealthsimple可通過安全鏈接 將客戶投資組合信息導入M,2 使客戶可同時查看日常 支出和投資余額,進而全面了解自身的財務狀況;最后,協 作式數據共享使機構能夠獲得單靠自身之力所無法得到的海 量數據,從而收獲更深、更廣的洞察。例如,六家北歐銀行 近期宣布合作開發共享的“了解客戶”(KYC)實用程序3, 以強化其金融犯罪防御系統的能力。 對于監管部門而言,數據共享提供了將金融數據的控制
11、權和 所有權交還客戶的機會,進而促進創新和競爭,這在監管法 規中均有體現:如英國的開放銀行標準(Open Banking Standard)、歐盟的歐盟支付服務修訂法案第二版 (PSD2)、澳大利亞的消費者數據權利法案(Consumer Data Right)以及新加坡、中國香港和日本所采取的其他形式 的開放應用程序接口(API)監管條例。這些法規中均有相應 條文規定機構應按客戶要求將其擁有的客戶數據(如交易數 據)提供給經認可的第三方,使市場的新參與者得以訪問這些 數據并制定新的價值主張,監管部門認為這將最終改善公民的 財務狀況。4 對于客戶而言, 數據共享使其可獲得更高質量的產品和更高效
12、的服務。 例如, Lenddo通過分析客戶的社交媒體數據、 通信數 據和交易數據為其提供更高質 (即準確性可能更高) 的信用評 分。 5 客戶正逐步認識到個人信息的價值, 愈發傾向于僅在交換 中獲得實際利益時才會共享其個人信息 (直接向金融機構提供 更多信息或授權其作為代表與第三方共享數據) 。 6 數據共享的潛在弊端 一些因素會阻礙金融服務中的數據共享。對于金融機構而 言,任何輸出式數據共享都使其面臨可能被第三方濫用競爭 性信息(如客戶身份及特征)的風險;此外,數據共享還可 能違反諸如通用數據保護條例(GDPR)等隱私監管法 規,或因必需流程(如建立新機制以確保知情同意)過于復 雜而導致投入
13、超出數據共享所能帶來的益處。隨著人工智能 和其他高級分析技術應用的不斷增加,大型金融機構的高管 已經開始擔憂因掌握過多客戶數據而使其感到不安進而對金 融機構心生恐懼。 監管部門長期以來通過限制數據共享的方式達成其一項重要 職責,即保持消費者金融和非金融信息的機密性。7 例如, 美國1999年金融服務現代化法案(Gramm-Leach-Bliley Act of 1999)要求金融機構了解其客戶敏感信息是如何被共 享的,并允許金融機構選擇退出數據共享或采取特定措施保 護共享內容。8 近年來,全球監管部門還推出了新的更為嚴格 的客戶隱私保護要求:例如,歐盟的GDPR規定機構應讓客戶 能夠更便捷的查
14、閱保存在機構處的個人信息;其他法規則禁 止公司跨國共享個人身份信息(PII)以保護本國客戶隱私, 這或將阻止跨國機構分析其整個組織所擁有的內部數據。這 些要求意味著無法共享某些類型的數據,或因共享變得過于 昂貴、復雜且耗時而使機構不愿更多開展數據共享。 7金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 數據共享的潛在益處數據共享的潛在弊端 金融機構 監管部門 消費者(客戶) 改變數據共享現狀 如圖所示,金融服務業中的每個利益相關者都面臨隱私相關沖突,而這些沖突一直阻礙著數據共享巨大價值的實現。新興的隱 私增強技術能夠使金融機構、消費者和監管部門能夠在競爭機會與保護義務之間取得平衡,實現既
15、符合監管原則,又保護消費 者隱私,并保持金融機構業務流程機密性的數據共享。這些技術或將擴大金融服務中數據共享范圍,從而使金融機構掌握全局 信息,進而為自身、消費者、監管部門乃至全社會創造全新價值。 豐富決策系統 促進創新和競爭 獲得更高質的產品和服務濫用個人信息 泄露競爭性信息 利用第三方能力 提供有效的系統監察 獲得更高效的產品和服務泄露敏感信息 侵犯客戶隱私 違反隱私監管法規 形成更大規模的數據因“了解過多”而嚇退客戶 雖然客戶尋求從自身數據共享中獲得更多利益,但他們也愈 發警惕其數據可能被濫用:Harris Poll的一項調查顯示,只有 20%的美國消費者“完全信任”與其打交道的公司會妥
16、善保 護其信息隱私。9 2018年發生的幾起備受關注的安全和隱私泄露事件 (包 括Cambridge Analytica10、 Capital One11、 Google +12 和 Aadhaar13 等) 無疑加劇了客戶的擔憂。 客戶擔心其數據可能被 用于會損害自身權益的情形 (如身份盜用) , 更有可能被未經授 權的第三方得知自己的隱私信息 (如敏感的購買記錄) 。 14 8金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 第二章:隱私增強技術 數據作為第四次工業革命的動力,推動了人工智能和互聯設備等新技術的發展。為了真正從這些新技術中受益,機構要充分利 用內外部所能獲取的數據。管理
17、數據隱私的技術能夠幫助機構發掘新價值。我們將在下文介紹五類關鍵技術15。 我們將探索各隱私增強技術的潛在益處,以假設的案例演示技術運用,通過既往隱私泄露實例展示相應隱私增強技術的用處, 并評估其在金融服務中的可行性。隨后,我們將探討如何結合這些技術在金融行業打開數據共享協作的新局面。 差分隱私 在數據集(DataSet) 中添加噪聲,防止通過 逆向工程分析還原個人 數據 零知識證明 用戶能夠在不透露自身 有價值信息的情況下證 明自己的合法權益 聯合分析 各方僅共享分析數據所 得洞察而不共享數據 本身 安全多方計算 各參與方對數據進行分 析,輸出計算結果,并 保證任何一方均無法得 到除應得的計算
18、結果之 外的其他任何信息 同態加密 在不解密的條件下對加 密數據進行分析并共享 9金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 第一項技術:差分隱私 原理揭示: 假設一組10名從事相同工作的個人想要共享薪資信息, 以了 解自己的薪資是偏高還是偏低, 但又不想向其他任何人透露 自己的實際薪資。 為此, 他們找到一個獨立且受信任的第三 方充當中介, 中介會將所有人輸入的信息匿名化, 同時根據 匯總數據得出有用洞察。 中介對他們的數據取平均值, 并告 知10人的平均薪資為50K。 這對于個人是很有用的信息, 因 為他們可以確定自己的薪水是偏高還是偏低。 一旦知道了房間里眾人的平均薪資,此人就
19、可推斷出第十 人的確切薪資為45K,并可公開或使用該私人信息。 為防止這種侵犯隱私的行為,中介可在他/她的平均值計算 中添加噪聲。例如,調查員可刪除十人中某一人的答案, 并用一個在收到的答案范圍內(即39K和58K之間)的隨機 數進行代替。 概述: 當機構想要與第三方共享數據時,刪除或匿名化個人身份信息的方式并非總能充分保護數據庫中個體的隱私。例如,將數 據與其他數據集相結合就可重新識別數據庫中的特定個體。對此,一種行之有效的解決方法是在流程中(輸入、計算或輸 出)添加噪聲,確保特定數據“行”的保密性,但仍可通過查詢匯總數據獲得有意義的洞察。例如,人口普查數據通常采 用添加噪聲的方式實現匿名化
20、處理,以保護受訪個體的隱私;美國也將在2020年的聯邦人口普查中應用差分隱私技術。16 2006年,Cynthia Dwork等人17 發表了有關“差分隱私”的標志性論文,提出了一種普遍適用的方法來計算為保護數據庫 中每一個體的隱私所需添加的噪聲量,18 后經大量深入研究提升其效率和可擴展性后,該方法目前已投入各種實際應用。 目前,差分隱私已在蘋果等公司的大規模生產中得以運用(如自動完成網上搜索19),并已嵌入各種廣泛運用的分析和機器 學習庫中(如PyTorch20 和TensorFlow21)。 注:差分隱私本身并非一種技術或機制,而是對添加噪聲的各種技術和方法的一種度量,這些添加噪聲的技術
21、和方法可限制各不相關方試圖從分析結果中推 斷出輸入數據的能力。 45K “房間里10人的平均薪資為50K” “房間里10人的平均薪資為51K” 該人知道自己和其他八人的薪資 受信任的中介將刪除其中一個答 案,并將其替換為隨機數:55K 但是, 如果某人已經知道房間中其他八人的薪資, 只剩一人 的信息未知。 隨后照常計算平均薪資, 中介提供了51K這一帶有輕微噪聲 的答案, 同時任何第三方都無法逆向分析得出輸入數據。 55K39K50K 54K45K58K50K47K57K 55K39K50K 54K 58K50K47K57K45K45K 45K55K 55K 39K50K 54K45K58K5
22、0K47K57K 45K47K39K50K 54K55K58K50K47K57K 10金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 知道其他八人薪資的那個人無法推斷出房間里最后一人的確切薪資,因為添加噪聲會帶來兩個不確定性: 八個已知薪資的任何一個都可能被一個未知數所代替,當得知平均數為51K時,只能推定未知薪水范圍為36K-74K。而這 個范圍太大,沒有任何價值。 如刪除的剛好是未知薪資,甚至無法逆推出薪資范圍。 想要窺探他人隱私的人不知道發生了以上兩種情況中的哪一種,因此無法逆推出房間中最后一人的薪資信息。同時,其他 人仍然可以定向確定自身薪資高低。 如果不信任中介能夠對個人信息保
23、密,那么他們也可在與中介共享之前即在個人輸入數據中添加噪聲。例如,每人都可在 提供給中介的薪資數上增加或減少一定的數額(如2K),輸出數據的大方向仍將是正確的,每個人既可確定自己的薪水高 低,同時又能保護其輸入的隱私信息。 隱私泄露實例探討: 二十世紀九十年代中期,美國某州政府保險機構公開了經匿名 處理的健康記錄,以鼓勵醫療保健領域的公共研究,其間使用 了多種技術對數據進行匿名處理,例如刪除地址、將姓名替換 為隨機字符串等。但是,研究人員仍然能夠將該信息與可從公 開渠道獲取的選民登記數據進行比較和關聯,進而重新識別數 據庫中的特定個體,22 甚至此前向公眾保證患者隱私受保護的 州官員亦被識別出
24、。與其直接公開數據庫,不如僅提供數據集 查詢功能,再應用差分隱私系統在反饋結果中添加噪聲,從而 防止患者個人信息泄露。例如,研究人員可以查詢“郵政編碼 為ABCDE的人中有多少人患有糖尿???”,差分隱私系統則會 回復“郵政編碼為ABCDE的人中有12,045人患有糖尿病”,這 是圍繞真實值的“模糊”響應。如果查詢過于具體,例如“郵 政編碼為ABCDE的人中有多少人患有菲爾德?。ㄒ环N極為罕 見的疾?。??”,回復可能是只有一兩個人患有這種疾病,這 可能泄露私人信息。為了保護這部分人的隱私,差分隱私系統 會添加噪聲,返回諸如“郵政編碼為ABCDE的人中有五人患 Fields癥”之類的回復,而這與現實
25、情況大不相同。 金融服務業的應用: 該技術已足夠成熟, 可應用于金融機構; 其益處顯而易見, 并且 將其整合到現有數據系統中不會增加過多成本。 添加噪聲在數 據精度和隱私保護之間作取舍, 因此該技術最適合評估總體趨 勢, 而不適用于異常檢測 (如欺詐分析) 或精確的模式匹配 (如 光學字符識別) 。 目前Immuta等多家公司已開發出差分隱私解 決方案, 為金融機構提供服務。 11金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 第二項技術:聯合分析 原理揭示: 假設三家電子郵件提供商想要幫助用戶減少收到的垃圾郵 件數量,一種方式是基于各自數據集分別對被報告為垃圾 郵件的電子郵件進行分析,
26、開發各自的垃圾郵件過濾器。 集合三家機構信息的數據規模使得這一引擎更具優勢,所 有用戶都可從中受益。但是,該解決方案的問題在于:1) 各電子郵件提供商的用戶可能都不希望與第三方共享自己 的郵件(即使已經聲明共享目的是為用戶自身利益而改進 垃圾郵件過濾器);2)各機構均面臨競爭性信息(如用戶 相關信息)被公開的風險;3)該共享數據庫還有可能成為 惡意第三方集中攻擊的目標 破壞一個數據庫就可訪問 三家電子郵件提供商所有用戶的敏感信息。盡管這種共享 數據的方法達到了改進反垃圾郵件引擎的預期目標,但同 時也帶來了巨大的風險。 在這種情況下,三家機構可能會重復工作,因為垃圾郵件 發送者的特征可能在三個用
27、戶群中均有出現。此外,分析 或輸入數據集的任何差異都可能導致各自的垃圾郵件檢測 引擎出現漏洞。 為解決漏洞問題, 這些機構可將其報告的垃圾郵件數據合并 到中央數據庫中, 而后創建一個共享的垃圾郵件檢測引擎。 概述: 如某家機構想要分析跨多個數據庫或設備保存的大量數據,可將所有數據整合入一個數據庫中,再對整個信息集合進行分 析,但這就出現了三個問題:1)在某些情況下,機構可能無權將本地存儲的數據向外傳輸(例如,基于不同司法管轄區就 隱私或其他本地化的限制);2)數據可能為敏感信息(如就醫記錄、私人交易信息)且數據主體(即客戶)可能不愿意共 享此類信息;3)數據集中化風險:如果中央數據庫被第三方惡
28、意攻擊,就會集中泄露大量敏感信息。所以,機構和數據主 體可能都不愿意以這種方式共享數據。對此,解決方案是分析不同的數據集,然后共享分析所得洞察。23 近年來,聯合分析作為此類問題的解決方案,已被谷歌等大型科技公司廣泛用于學習個人計算設備(如手機和筆記本 電腦)中的用戶輸入數據。24 該領域的研究仍在繼續,聯合分析模型已與人工智能等其他新興技術結合使用:2019年3 月,TensorFlow(一個廣泛使用的機器學習開源庫)發布了名為TensorFlow Federated的開源框架,25 該框架支持基于聯 合數據集的機器學習。 供應商A 反垃圾郵件引擎A: 主題為“您違反了國 際稅法”的郵件是垃
29、 圾郵件。 反垃圾郵件引擎B: 正文以“我是尼日利 亞的特雷奧拉親王” 開頭的郵件是垃圾 郵件。 反垃圾郵件引擎C: 使用地址 FreeMoviesspam. com的是垃圾郵件 發送者 供應商B供應商C 供應商A供應商B 共享數據庫 供應商C 共享的反垃圾郵件引擎: 主題為“您違反了國際稅法”的郵件是垃圾郵件。 正文以“我是尼日利亞的特雷奧拉親王”開頭的郵件是垃圾郵件。 使用地址FreeM的是垃圾郵件發送者。 12金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 而使用聯合分析就可在不產生新風險的情況下達到同樣的 目的。三家機構可共享其垃圾郵件檢測模型并創建匯總模 型,而不用共享底層原始
30、數據。 通過這種方法仍然可以建立強大的反垃圾郵件引擎,同時 降低共享底層數據所帶來的風險。各機構能夠從更大規模 的數據中獲益,同時,因未與其他電子郵件提供商共享用 戶數據,從而不會違反在共享用戶數據方面需遵循的限制 性規定。從安全性角度來看,也不存在惡意第三方會集中 攻擊的目標。 值得一提的是,該模式下得到的模型與通過將初始訓練數 據合并到中央數據庫得到的模型并不完全等效;多數情況 下,通過聯合機器學習訓練的模型不如在集中化數據集上 訓練的模型。用例一中就有一個此類示例。 供應商A供應商B供應商C 反垃圾郵件引擎A: 主題為“您違反國際 稅法”的郵件是垃圾 郵件。 反垃圾郵件引擎B: 正文以“
31、我是尼日利 亞的特雷奧拉親王” 開頭的郵件是垃圾 郵件。 反垃圾郵件引擎C: 使用地址 FreeMoviesspam. com的是垃圾郵件發 送者。 共享的反垃圾郵件引擎: 主題為“您違反了國際稅法”的郵件是垃圾郵件。 正文以“我是尼日利亞的特雷奧拉親王”開頭的郵件是垃圾郵件。 使用地址FreeM的是垃圾郵件發送者。 隱私泄露實例探討: 2017年,安全研究人員能夠通過名為ai.type26 的Android應用 程序訪問3,100萬名用戶的個人信息,該應用程序是第三方鍵 盤,允許用戶自定義手機/平板電腦鍵盤并提供個性化的輸入 聯想建議。ai.type程序收集了各種數據(如能夠提供數據輸入 建
32、議的聯系信息或改進自動聯想功能的擊鍵歷史),存儲于 一個中央數據庫中;然后,該數據庫會先刪除其中的私人信息 (如密碼字段),再分析數據從而為用戶提供自動輸入填充功 能。但是,研究人員能夠在清理私人信息之前訪問數據庫,并 能公開所有3,100萬名用戶的電子郵箱地址、密碼和其他敏感 信息。ai.type原本可以使用聯合分析在每個用戶的手機上創建 本地預測模型,而不是將所有數據集中到一個數據庫,然后再 匯總3,100萬名用戶的模型而非數據本身,從而保護每個用戶 的輸入歷史記錄。27 隨后再將匯總模型通過更新推送回到每個 手機中,并不斷重復學習過程,這樣就可以使鍵盤基于匯總模 型對全體用戶的學習分析提
33、供高級建議。這也是谷歌和蘋果在 Android和iOS的默認鍵盤上采用的方法。28 金融服務業的應用: 盡管此項技術已被熟知并且已足夠成熟,但目前在金融服務中 的應用仍然有限。當存在大量單獨的數據源(如手機、物聯網 (IoT)設備、筆記本電腦等)時,聯合分析能夠發揮最大的 價值。在數十萬個單獨數據源中存儲敏感信息,如此規模在金 融服務實踐中是罕見的。金融機構會集中存儲交易信息和客戶 信息等數據,且多數地區均由排名前十的機構占據了絕大部分 市場份額。但無論如何,聯合分析作為一種技術上成熟的方 法,是能夠為金融服務行業帶來益處的。第三章中探討了一個 相關用例。 13金融服務新一代數據共享:利用隱私
34、增強技術解鎖全新價值 第三項技術:同態加密 原理揭示: 假定Susan希望深入分析自己的健康記錄,以識別并預測潛在的健康風險,但她自身并無能力做這樣的分析,需借助第三 方 該領域的領軍企業HealthAnalytics Co.進行分析。為了與HealthAnalytics Co.共享數據,Susan可將自己所有的健康 記錄放入一個盒子中,再將盒子寄給分析公司,但這會產生一些風險:盒子可能在傳輸中或在HealthAnalytics Co.的辦公室 被未經授權的第三方攔截;此外,HealthAnalytics Co.雇員也可能非法使用這些資料。 避免冒險,Susan可使用加密技術保護自己的信息。為
35、此,Susan會將所有健康記錄放入保險箱,并在不附密鑰的情況下將 其寄給HealthAnalytics Co.,再通過其他渠道將密鑰單獨發送給該公司。這消除了非原定接收方獲取保險箱內文件的風險: 即使有惡意第三方企圖在傳輸間或在HealthAnalytics Co.辦公室獲取保險箱內文件,因沒有密鑰,也無法得逞。惡意方必須 同時攻破HealthAnalytics Co.的數據庫和Susan用于共享其數據訪問密鑰的傳輸渠道。 概述: 某些情況下需由第三方進行數據分析,原因包括: 第三方具備數據管理方所沒有的能力,并且愿意在不共享其所用底層函數的情況下提供分析服務; 第三方能訪問數據管理方無法訪問
36、的其他輔助性數據,從而能提供更好的分析和洞察,這是數據管理方獨自分析所不可 及的。 但與聯合分析一樣:1)數據管理方可能無權轉移數據;2)如果數據管理方并不信任第三方,或者擔心第三方或其合作伙 伴的內部人員濫用數據,則數據管理方不愿進行數據共享;3)如果第三方發生信息泄漏,原數據管理方可能因先前與第三 方共享了數據而被客戶追究責任。為解決這些問題,可使用同態加密(HE)技術對數據加密,以便在進行數據分析時維持 信息不可讀。并且,分析結果對除原定接收方(通常為輸入數據的所有者)以外的任何人也都不可讀。 “RSA”加密系統是首批廣泛用于傳輸數據的加密方案之一,在1977年問世后,同態加密理論也在1
37、978年被首次提出。29 在RSA加密系統下,(公開)密鑰被用于加密數據并維持數據不可讀;而后,該數據可被傳輸至原定接收者,接收者再使 用另一種(私人)密鑰對其進行解密;1978年,有人提出:能否使用加密數據執行不同類型的函數(如加法、乘法),而 無須首先解密數據并因此暴露敏感信息;此后三十多年間,開發的各類解決方案已能使用加密數據執行特定函數,但仍未 開發出可執行任何轉換的全同態加密系統;2009年,Craig Gentry開發出了首個全同態加密(FHE)系統30,自2010年以 來,全同態加密系統的效率和可行性得到了顯著提升。 Susan將自己的健康記錄放入一個盒子,寄給分析公司,公司對記
38、 錄進行分析,生成報告,并將報告寄回給Susan。 S HealthAnalytics Co. 數據可能在傳輸中被 非法訪問。 數據也可能在HealthAnalytics Co. 被有權進入辦公室的人非法訪問。 14金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 通過提升惡意方的執行難度, 安全風險得以降低。 但該公司 得到密鑰后會否將這些文件用于非預期目的或復制這些文件 就不再是Susan能夠掌控的了。 因此, 這種形式的 “加密” 也 并非完全可靠。 為全方位保護自己的數據, Susan可借助同態加密 一種 特殊的保險箱。 她將自己的健康記錄鎖入這個特殊的保險 箱, 在不附密鑰的情況
39、下將其寄給HealthAnalytics Co.。 如 果第三方試圖在傳輸過程中或在HealthAnalytics Co.的辦 Susan將自己的健康記錄放入上鎖的保險箱,寄給分析公 司,并向該公司單獨發送密鑰以便其分析保險箱內數據。該 分析報告被放入另一個上鎖的保險箱,并寄回給Susan。 Susan將自己的健康記錄放入一個同態加密的保險箱,寄給 分析公司。該公司像分析其內的健康記錄一樣分析此保險 箱,并生成另一個也只能由Susan解鎖的保險箱。此保險箱 被寄回給Susan,Susan再用密鑰將其轉換為分析報告。 SHealthAnalytics Co. 數據可能在HealthAnalyti
40、cs Co.被該公司內部能同時接 觸保險箱和密鑰的員工非法訪問, 或在分析期間 (數據被 從保險柜中取出后) 被公司外部的惡意方非法訪問。 公室獲取保險箱內文件, 因沒有密鑰, 將無法打開保險箱。 不 同于之前的情況, HealthAnalytics Co.無須打開這種特殊 的保險箱, 就可完成所需分析。 對這個特殊保險箱進行的分 析將其轉換為另一個包含分析結果的特殊保險箱, 同樣也只 能使用仍由Susan持有的密鑰才能解鎖。 HealthAnalytics Co.隨后將此保險箱寄回給Susan, Susan再用自己的密鑰解 鎖保險箱, 并閱讀該公司對其健康記錄的分析。 該公司本身 無法讀取健
41、康記錄, 甚至無法讀取其數據分析結果, 因為記 錄和分析結果都受特殊保險箱的保護。 在整個傳輸/存儲過 程中, 信息也受Susan所持同一密鑰的保護。 SHealthAnalytics Co. 隱私泄露實例探討: 2018年,Cambridge Analytica被卷入了數據泄露事件,此前 該公司已收集了超過5,000萬臉譜(Facebook)公司用戶的數 據。31 該公司向一個性格測試應用程序公司購買數據,此應用 程序通過收集用戶的姓名、電子郵箱地址、個人資料照片、社 交網絡、喜好和其他信息,再向用戶返回高水平的個性特征 圖解。此應用程序存儲了其“抓取”的數據,然后與第三方 Cambridg
42、e Analytica共享,而Cambridge Analytica利用這些 數據建立了詳細的消費心態檔案,以向目標受眾投放數字廣 告。臉譜公司本可強制實施同態加密,或涉事的性格測試應用 程序公司也可主動采用此法,以樹立負責任的數據管理方形 象。同態加密雖然可能不是防止數據濫用最高效或最直接的方 法,卻不失為一種可行的辦法。使用同態加密,用戶數據在被 共享給第三方性格測試應用程序前將被加密。然后,該應用程 序將分析此加密數據,并將個性特征圖解返回給個人用戶。 應用程序本身無法讀取用戶的個性特征圖解。用戶可使用基 于自己臉譜賬戶密碼的私鑰解密這些分析結果,而Cambridge Analytica
43、或其他任何第三方均無法使用數據,甚至無法讀取 數據。 但一定要注意,以同態或其他方式加密數據并不意味著免除機 構的隱私義務。經加密的數據本質上仍屬于個人信息,需要有 力的管理和監督以確保數據共享和使用方式合乎道德規范。 金融服務業的應用: 以當前的技術成熟度,同態加密未能實現大規模應用有兩個關 鍵原因:技術的局限性及公認標準缺失。 許多同態加密方案僅能執行一種類型的運算(例如,加法或乘 法,而非兩者皆可),且分析全同態加密(可能采取任何一種 加密算法)數據要比分析未加密數據慢幾個數量級。因此,該 技術僅能用于采用特定函數的場景(同態加密案例),或者計 算速度和計算成本并非優先考慮因素的場景(全
44、同態加密案 例)。但這些技術近期的快速發展和改進(幾秒到幾分鐘)使 應用同態加密來保護高度敏感信息成為可能。目前,該領域的 開發活動仍十分活躍,諸如Ziroh Labs和Inpher等初創公司已 經開發了在實際用例中具備計算可行性的同態加密或全同態加 密方案。 傳統加密系統存在公認標準,具備高度的互操作性,因而應用 廣泛。由于目前尚未建立起針對同態加密或全同態加密方案的 公認標準,各類同態加密方案的可用性均大為受限。目前推 進的一些舉措(如同態加密標準化)正力圖為此技術建立共 同標準。 15金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 原理揭示: 假定Peggy想向Victor證明她能
45、分辨出裝在兩個完全相同 的玻璃杯中的兩種蘇打水的區別。Peggy還有另外兩個要 求:她不想讓Victor知道區分兩種蘇打水的方法(例如,通 過甜度不同來區分),也不想讓Victor知道每杯蘇打水的品 牌。如果Peggy能滿足上述要求,她就完成了“零知識證 明” 既證明了自己能分辨兩種飲料的區別,又未暴露 與自己或玻璃杯內飲料相關的其他任何信息。 為此,Peggy應品嘗每個玻璃杯里的飲料,然后背對桌 子;接著,Victor應隨機調換玻璃杯位置或者保持它們原 本的位置(概率各約50%),然后讓Peggy再次品嘗每個 玻璃杯里的飲料;Peggy應回答指出是否調換了玻璃杯 的位置,但不透露每個玻璃杯內
46、蘇打水的品牌,亦不解 釋她是如何得知玻璃杯是否換過位置。第一次進行測試 時,Peggy僅憑猜測就有50%的正確幾率。但是,若她能 分辨兩種蘇打水的區別,則應在重復測試過程時能夠始終 回答正確,且她靠猜測得到正確答案的幾率應大大降低。 到第20次測試時,Peggy猜對的幾率大約為百萬分之一, 因此Victor有理由確定Peggy的確知道這兩種蘇打水的區 別。這就是零知識證明,因為Victor既不知道每杯蘇打水 的區別,也不知道Peggy是如何分辨出兩杯蘇打水之間的 區別的。 第四項技術:零知識證明 概述: 一些情況下,用戶期望共享特定信息,同時又不泄露其他任何數據。當用戶對另一方會否將此信息用于
47、非預期用途存疑 時,采用這一方式共享信息就非常重要。例如,在填寫租賃申請表時,某人要證明自己的收入超過了房東的最低要求, 但同時又不愿讓對方得知自己確切的收入信息 如果他的收入遠高于最低要求,則房東有可能很快尋機提高租金。在此 情況下,接收收入證明的第三方可利用其收到的額外信息(確切的薪資)得出申請人希望保密的其他信息。零知識證明 (ZKP)使一方能向另一方證明某些特定信息,而無須共享除預期信息以外的任何信息。 1985年,Shafi Goldwasser(麻省理工學院)、Silvio Micali(麻省理工學院)和Charles Rackoff(多倫多大學)在論文 交互式證明系統的知識復雜性
48、(The Knowledge Complexity of Interactive Proof-Systems)中首次提出了零知識證 明。32 此后,零知識證明不斷發展,涵蓋了廣泛的用例,包括證據不可區分證明、非交互式證明和可抵抗量子攻擊的證明 等。與聯合分析一樣,該技術也結合其他新興技術使用 最著名的是結合分布式賬本使用,從而在完全隱私的情況下跨 P2P系統轉移資產。 Peggy嘗了兩杯飲料, 但什么也沒告訴Victor。 然后,Victor隨機調換杯 子的位置,這一過程不 讓Peggy看見。 Peggy再次品嘗每種飲 料,然后告訴Victor是否 調換了玻璃杯的位置。 多次重復這個過程,直
49、到Victor確信Peggy不是 靠猜測。 SV P P V V 16金融服務新一代數據共享:利用隱私增強技術解鎖全新價值 隱私泄露實例探討: 2019年1月,美國某大型零售商的一名員工被捕,因其涉嫌將 客戶的信用卡號透露給同伙,然后由同伙使用竊取的信用卡信 息進行購物。33 該員工會在客戶購物時記住他們的卡號并抄錄 下來,隨后將號碼通過短信發送給同伙。在2018年到2023年 期間,零售商遭遇的無卡交易欺詐涉案總值預計將達1,300億 美元,其中與上述案件類似的信用卡盜刷不容忽視。34 而今我 們可設想采用零知識證明支付系統來避免此類損失:零知識 證明支付系統允許個人在零售商處驗證其銀行信息和余額,而 無須向任何第三方(如收銀員)透露賬戶信息和信用卡驗證值 (CVV)代碼。 金融服務業的應用: 隨著技術方法不斷成熟,零知識證明近期終于投入了實際 應用,例如,支付(如Zcash35)、互聯網基礎設施(如 NuCypher36)和數字身份(如Nuggets37)等用例。荷蘭國際 集團(ING)等大型機構已投入資金在金融服務領域推廣零知 識證明技術的運用,38 并且該技術還有望在廣泛推動分布式賬 本技術發展中發揮關鍵作用(因為它使個人和機構能夠保護公 共分布式賬本上的私人信息)。 17金融服務新一