《BDEX&工信安全:數據要素安全流通白皮書(2022)(221頁).pdf》由會員分享,可在線閱讀,更多相關《BDEX&工信安全:數據要素安全流通白皮書(2022)(221頁).pdf(221頁珍藏版)》請在三個皮匠報告上搜索。
1、編寫委員會編寫委員會指導單位:指導單位:國家工業信息安全發展研究中心協辦單位:協辦單位:數據寶 ChinaDataPay聯合發起單位:聯合發起單位:華東江蘇大數據交易中心貴州賽昇工業信息研究院有限公司深圳國家金融科技測評中心有限公司主編單位:主編單位:華東江蘇大數據交易中心貴州賽昇工業信息研究院有限公司深圳國家金融科技測評中心有限公司數據寶 ChinaDataPay南京航空航天大學特別致謝專家團:特別致謝專家團:邱凱達國家工業信息安全發展研究中心貴陽分中心(貴州賽昇工業信息研究院)總經理湯寒林華東江蘇大數據交易中心 總經理丁紅發貴州財經大學 副教授張斌中國科學院軟件所 研究員方黎明南京航空航天
2、大學深圳研究院 副院長國家重點研發計劃 首席科學家劉哲之江實驗室基礎理論研究院 副院長南京航空航天大學 教授/博士生導師劉巍然阿里巴巴集團 高級安全專家朱艷春聯通(廣東)產業互聯網有限公司 首席科學家李克鵬騰訊云計算(北京)有限責任公司 資深標準專家劉宏建元知未來研究院 常務副院長鄭崢國家金融科技測評中心(銀行卡檢測中心)信息安全業務部高級主管參編單位參編單位(排名不分先后):鹽城市大數據集團有限公司中國電子系統技術有限公司北京易華錄信息技術股份有限公司前海飛算云創數據科技(深圳)有限公司聯通(廣東)產業互聯網有限公司杭州瓴羊智能服務有限公司度小滿科技(北京)有限公司杭州锘崴信息科技有限公司杭
3、州安存網絡科技有限公司杭州后量子密碼科技有限公司杭州量安科技有限公司北京數牘科技有限公司深圳致星科技有限公司北京握奇數據股份有限公司上海三零衛士信息安全有限公司普華永道商務咨詢(上海)有限公司北京三快在線科技有限公司深圳市騰訊計算機系統有限公司騰訊云計算(北京)有限責任公司順豐科技有限公司深圳微言科技有限責任公司翼?。ㄉ虾#┬畔⒖萍加邢薰竞贾轃摮綌抵强萍加邢薰窘K安幾科技有限公司上海同態信息科技有限責任公司翼集分(上海)數字科技有限公司上海零數科技有限公司熵鏈科技(廈門)有限公司藍象智聯(杭州)科技有限公司蘇州數字力量教育科技有限公司零幺宇宙(上海)科技有限公司上海斐波那契人工智能科技有限
4、公司北京力碼科技有限公司浩鯨云計算科技股份有限公司北京沖量在線科技有限公司深圳市洞見智慧科技有限公司星環信息科技(上海)股份有限公司北京云集至科技有限公司北京熠智科技有限公司神譜科技(上海)有限公司神州融安數字科技(北京)有限公司深圳數鑫科技有限公司北京融數聯智科技有限公司北京策略律師事務所廣州九四智能科技有限公司安徽徽投控股有限公司天道金科股份有限公司浙江浙里信征信有限公司杭州微風企科技有限公司中數智創科技有限公司深圳市信息服務業區塊鏈協會南京郵電大學鹽城大數據研究中心鹽城優易數據有限公司參編成員參編成員(排名不分先后):湯寒林邱凱達張斌丁紅發鄭崢劉巍然李克鵬劉哲方黎明朱艷春劉宏建王天昊王逸
5、君張志波曹宇唐凱彭力強蔣俊楊蔚夏正勛吳葉國強鋒王超博毛岱山金朵程勇仵大奎干露吳國雄賴博林李云亮劉喜臣唐俊峰商慶一胡君杏劉瑾胡成鍇馬福忠金銀玉王爽陳富節鄭灝李幟張霖濤吳趙偉張婷華郭欣陳鑫蔣嘉琦聶耀昱趙蓉林鎮陽趙川張峰譚坤張培肖斌尤磊葛春鵬王同新謝作偉趙欣磊徐單恒章妍晨戴智張威王曉東王慧馮劉豪廖玉梅蘭春嘉沈文昌楊珍李博鄭華祥周岳騫湯載陽范學鵬馬經緯戴建軍胡雪暉黃國慶姜蒙龔燕玲陶瑞巖于新宇傅毓敏黃耀駒王斌李登峰劉偉國德峰曾曉鋒雷朋蔣美獻顧逸暉龐理鵬孫亮林慶治伍鎮潤唐嘉成李響王敏由楷蘇澎郭路建宣淦淼袁曄王一沙程燁洪波廖炳才張寵鄭定向龍璽爭劉遠騏王武成臧云龍潘成挺張敏王瑤李超目錄目錄第 1 章 數據安全
6、流通的時代背景.11.1 數字經濟新發展機遇促使各國搶占數據戰略資源高地.11.2 各國政策法規不斷完善促使數據安全流通確保合規.21.3 市場商業巨大需求推動數據安全流通保障合法權益.41.4 數據安全流通的核心技術創新支撐產業升級與創新.5第 2 章 數據安全流通相關概念.72.1 數據要素概述.72.2 數據流通的形式及特征.82.3 數據安全流通的體系架構.16第 3 章 數據流通行業發展現狀.203.1 數據流通政策發展現狀.203.2 數據流通法律法規發展現狀.233.3 數據流通標準發展現狀.283.4 數據流通技術發展現狀.31第 4 章 數據可信確權技術.354.1 數據可信
7、確權概述.354.2 數據可信確權基礎支撐技術.36第 5 章 數字資產化技術.405.1 數據價值評估概述.405.2 現有數據價值評估方案.415.3 數據價值評估技術對比.46第 6 章 數據安全保障技術.536.1 數據安全風險評估技術.536.2 數據治理技術.586.3 數據安全防護技術.646.4 數據安全計算技術.756.5 數據安全溯源與確權技術.82第 7 章 數據流通機制.867.1 過往數據流通方式.867.2 數據流通機制.887.3 數據流通模式.907.4 流通的監管與保護.917.5 數據流通合規.94第 8 章 全國數據流通產業生態鏈.1008.1 數據數據要
8、素流通核心產業.1008.2 數據要素流通基礎設施產業.1028.3 數據要素流通咨詢服務產業.107第 9 章 數據安全流通場景及案例.1169.1 電信領域.1169.2 金融領域.1229.3 政務領域.1509.4 醫療領域.1699.5 物流領域.1759.6 能源領域.1809.7 汽車領域.1819.8 其他.185第 10 章 數據安全流通產業的挑戰.19610.1 數據要素安全流通的國際挑戰.19610.2 數據要素安全流通的國內挑戰.19710.3 政策和法律的挑戰.19710.4 產業生態挑戰.19910.5 技術挑戰.200第 11 章 數據安全流通的未來趨勢和發展對策
9、.20211.1 未來趨勢.20211.2 對策建議.204參考文獻.2121第 1 章 數據安全流通的時代背景數據要素是參與社會生產經營活動、帶來經濟效益,以電子方式記錄的數據資源,數據要素來源廣泛,在數據流通中扮演重要角色。2022 年 6 月 22 日,習近平總書記主持召開中央全面深化改革委員會第二十六次會議,會議明確指出,數據作為新型生產要素,是數字化、網絡化、智能化的基礎,已快速融入生產、分配、流通、消費和社會服務管理等各個環節,深刻改變著生產方式、生活方式和社會治理方式。數據要素的流通是充分發揮數據價值的基礎,而流通與安全密不可分。數據要素流通安全是國家安全的重要組成部分,其對于促
10、進數字經濟的發展有著重要的價值。當今世界數據體量爆炸式增長,數據產業市場規模不斷擴大,全球進入數字經濟時代。各國都在積極部署數據戰略,成立國家級數據管理部門或部署國家級數據服務平臺,在國際數據要素流通中搶占數據主權;加速頒布數據相關政策法規,重點關注數據要素的安全流通;探索數據交易市場新模式,大力推動數據要素市場化配置;隱私保護技術應用而生并得到迅猛的發展,成為各行各業研究的熱點。然而,數據要素流通也面臨著“數據壁壘”、技術落地不足等問題,促進數據要素安全流通道阻且長。1.1 數字經濟新發展機遇促使各國搶占數據戰略資源高地大數據時代背景下,數字經濟正處于蓬勃發展的階段,大量相關的企業如雨后春筍
11、般涌出。數字經濟的核心是數據資源,人工智能、云計算、區塊鏈等新興技術無一不是以海量的數據為基礎。對于一個國家而言,數據是重要的戰略資源,是一個國家安全和發展的核心依賴,同時數據安全也是國家安全的重要組成部分。數據主權可以理解為一個國家對于數據的擁有權和掌控權,是一個國家軟實力和綜合競爭力的體現,是國家主權的演化。所以搶占數據資源戰略高地、維護數據主權,對于國家數字經濟的發展有重要的戰略意義。為了維護數據主權、促進本國數據要素市場的發展,各個國家出臺了不同的政策。美國憑借發達的信息科技產業而擁有大量數據資源,強大的數據供給能力促進了數據要素市場的形成,在數據監管方面美國通過建立政務開放機制、發展
12、多元數據交易模式等規范數據市場的發展。歐盟中各成員國作為一個整體,在數據規模上擁有一定優勢,為了維護數據主權同時促進數據要素的流通與共享,歐盟提出專有領域數字空間戰略來推動數據要素的流通。德國為實現各行各業數據2互通以及數據安全,提出通過構建數據空間來實現行業數據安全可信的交換。我國移動支付、網絡購物、共享經濟等數字經濟蓬勃發展,數據要素市場正處于高速發展的階段,所以加強數據監管、維護數據主權至關重要。近年來,我國出臺多項政策文件,明確提出要加快培育數據要素市場、促進數據要素市場流通,加快構建數據要素市場規則,探索合理的數據交易模式和數據資產定價機制。此外,我國重視數據安全治理,不斷加強立法及
13、強化執法,2020-2021 年頒布的有關數據安全的法律較前幾年增長近兩倍,以強力的手段提高數據安全保障能力,維護國家安全。數據中心在數據存儲與云計算中扮演重要的角色,是爭奪數據戰略資源高地的基礎,我國目前數據中心的數量位列世界第二,但占比僅有 15%。為了維護我國數據主權、應對數據霸權主義,我國于 2022 年 2 月正式全面啟動“東數西算”工程,規劃在全國建立 10 個數據中心集群并在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、寧夏、甘肅建設 8 個數據算力樞紐節點,著力打造全國的算力網,對于數字經濟的發展也有重要的戰略意義。從世界各國在數據主權問題上的一系列措施和政策中可以看出,數
14、據主權對于一個國家至關重要,美國著名政治學者小約瑟夫奈在理解國際沖突:理論與歷史一書中所指出,一場信息革命正在改變世界政治,處于信息技術領先地位的國家可攫取更大的權力,相應的,信息技術相對落后的國家則會失去很多權力。數據資源可以看作是 21 世紀的“石油”,數據資源經過合理的處理可以提高生產力、優化資源配置、推動數字經濟的持續發展。數據安全流通同樣也離不開法律法規的支持,政策法規能夠促進數據安全流通的建設更加完善。1.2 各國政策法規不斷完善促使數據安全流通確保合規各個國家之間數據主權的爭奪愈演愈烈,2013 年“棱鏡門”事件更是給各國政府敲響警鐘,各國開始審視本國數據戰略,加速數據安全保護立
15、法,力圖在數據主權爭奪戰中搶占先機。據聯合國貿易和發展會議(United NationsConference on Trade and Development,簡稱 UNCTAD)2021 年 12 月統計,在全球范圍內的國家中,制定了保護數據和隱私法律的占 69%,處于起草過程中的占10%,可見在數字經濟時代背景下,世界各國都高度重視數據安全治理,通過頒布政策法規、加強關鍵信息基礎設施保護、加強監管執法等措施全面強化數據安全保護能力,應對日益嚴峻的數據安全威脅,為促進數據要素安全流通保駕護航。(一)中國我國關于數據要素市場化配置方面的政策出臺逐步深化,從強調加強數據安全,到明確提出建立數據資
16、源產權和交易流通等基礎制度和標準規范,再到提出3加快培育統一的技術和數據市場。政策的深入體現了國家在數據安全、數據要素流通、數據要素市場上的發展戰略,也為數據安全、數據要素等法律法規的制定和頒布奠定了主旋律。我國近年來在國家治理層面頒布了一系列與數據監管相關的法律法規?;痉蓸嫿藬祿弦幍幕玖⒎w系,并向下延伸出多項基本制度,進一步在法律法規層面夯實我國數據合規和隱私保護的規范體系??傮w而言,我國數據合規立法體系兼具綜合性、創新性、多層級性,法律規定的數據安全保護范圍廣泛,首創符合國情的數據保護新措施,法律法規保護體系自上而下,全方位構建我國數據安全保護體系1。各省市政府積極響應中央政策
17、,緊密推進省市級數據管理條例,此外,國家各行業、各領域也發布數據安全各類指南文件,其中金融、工業、醫療、交通等領域的探索建設相對領先。隨著數據價值的不斷凸顯,在實現數據要素合規流通、數據價值最大化挖掘的過程中,相應配套的技術標準也在陸續發布。近年來國內標準化組織一直積極制定數據保護和數據流通技術標準,標準化體系建設工作快速推進,為數據要素流通市場奠定了標準化基礎。從行業領域來看,金融、工業、政務、交通、醫療、電信等行業領域都相繼制定數據安全標準,各行業結合相應的業務場景出臺了不同細化程度的行業標準??傮w上看,我國對于數據安全、數據流通的政策、法律法規、標準全套體系日趨完善,逐步彌補數據安全相關
18、漏洞,全國各地、各領域都對數據資源加倍重視,數據安全監管機構機制已初步形成。(二)歐盟歐盟發布了歐洲數據保護監管局戰略計劃(2020-2024),旨在從前瞻性、行動性和協調性三方面繼續保證個人隱私、加強數據安全。針對跨境流動中的數據保護問題,歐盟發布了為保持歐盟個人數據保護級別而采用的數據跨境轉移工具補充措施。歐盟通過近年來的一系列立法舉措,從個人數據保護規則、數據產權和交易規則、數據自由流動規則、數據安全規則和數據開放共享規則五個方面建立了統一的數據法律規則2。歐盟對數據的管理主要以綜合性立法為主,從歐洲人權公約到第 95/46/EC 號保護個人在數據處理和自動移動中權利的指令,再到通用數據
19、保護條例(General Data Protection Regulation,簡稱 GDPR),其數據保護法經過了數十年的發展沿革,最終形成了現有的突破地域性的綜合法律體系。其中,GDPR 對原有數據保護體系進行了補充和更新,對于數據采集的標準和義務做出了更加詳盡的規定,該條例對其他國家和地區數據權益制度的建構和完善產生了深遠影響。4(三)美國美國致力于維護其世界領導地位。美國發布的聯邦數據戰略與 2020 年行動計劃,以 2020 年為起點描述了美國聯邦政府未來 10 年的數據發展愿景,其核心目標是將數據作為戰略資產加以利用。該戰略與 數據科學戰略計劃(2018)、美國國家網絡戰略(201
20、8)、美國先進制造業領導力戰略(2018)等聯邦戰略互為補充,致力于“維護全球數字化轉型背景下的數字領導地位”3。立法層面主要以澄清境外合法使用數據法案(Clarifying Lawful OverseasUse of DataAct,簡稱 CLOUD 法案)為主,CLOUD 法案確立了以數據自由為核心的數據主權規則。美國在數據保護方面的立法具有較強的分散性,美國聯邦層面未能形成統一的法律體系,而是采用不同行業分散立法的模式,在電信、金融、醫療、教育等領域都有相應的立法來對數據市場進行監管;其次,美國各州立法分化,法律地域性較強??傮w而言,當下全球各國都在積極制定數據安全國家戰略規劃,從個人信
21、息保護、數據跨境漏洞監管、數據市場治理等各方面對數據安全進行法律法規保護,確保數據要素安全合規流通。在國際組織層面,聯合國也致力于推動數字通用連接,促進數字技術成為公共產品,保證數字技術惠及所有人,支持數字能力建設,保障數字領域尊重人權,應對人工智能挑戰,建立數字信任和安全。盡管世界主要國家都高度重視數據安全,但因國情、關切點、治理能力不同,所以各國維護數據安全的政策法規、治理機制、應對措施等不存在統一模式,而是展現出各自的發展特色。有些發達國家憑借技術與產業優勢試圖通過“長臂管轄”式法律法規實現數據主權的超地域延展;有些發達國家經過多年發展形成了強調“數字團結”且外緊內松的統一數據治理框架理
22、念;廣大發展中國家因起步較晚,現行的法律法規和治理措施傾向于對本國數據的主權保護,避免本國數據受外國監視或調取,充分體現了“數據防御主義”。1.3 市場商業巨大需求推動數據安全流通保障合法權益近年來國家高度重視數據要素及其市場化配置。這項系統工程的關鍵在于,通過數據流通使得數據資源流向最需要的領域和方向,在社會生活和生產經營中產生收益,以充分釋放數據要素的價值。然而,數據價值實現與數據安全的沖突日益加劇,如何統籌兼顧發展和安全的關系,成為當前核心議題。數據安全作為數據市場化過程中必須守住的底線,也是制約數據市場化發展的天花板,會掣肘數據要素的流動和應用,需要重點關注。數字經濟和新一輪科技革命正
23、在成為引領世界經濟發展的新增長極,數字經濟上升為國家戰略。據中國信息通信研究院發布數據顯示,2021 年中國數字經5濟規模已達 45.5 萬億元,占 GDP 比重為 39.8%。圍繞數據開展的基礎設施規劃和建設、數據資產的整合、數據的分析處理以及數據開放共享和數據安全,鑄就了大數據產業發展的核心要素。自 2011 年互聯網公司實驗大數據技術以來,經過十余年的蓬勃發展,大數據技術已經步入成熟階段。據互聯網數據中心(Internet Data Center,簡稱 IDC)預測,預計至 2025 年,中國的大數據硬件市場將穩定增長占到 40%,超過軟件和服務占比;大數據軟件市場占比將逐年提升,202
24、5 年超 30%的市場支出將流向軟件。中國大數據網對大數據軟件市場的進一步細分做了獨立研究,2021 年中國大數據軟件市場支出中,大數據基礎設施占比為 42%,大數據分析占比為30%、大數據應用占比為 28%。以此推算,2021 年中國大數據分析市場支出為10 億美元,2025 年有望超過 22 億美元。據 IDC 預測,中國大數據市場 2021 年整體規模超 110 億美元,且有望在 2025 年超過 250 億美元,呈現出強勁的增長態勢。大數據產業的蓬勃發展是社會進步的必然結果,在數字經濟的大背景下,數據的生成、獲取、復制、消費呈現指數級發展的趨勢,推動著大數據產業的急速發展。大數據在業務
25、需求和技術創新的結合中蓬勃發展,物聯網和數字化在數據供給側產生巨量數據,入網設備指數級增長,源源不斷地產生各類數據;數字化的發展浪潮更是讓每個人的消費模式和消費觀念發生了質的變化。同時,人工智能技術的快速發展對數據提出新需求,尤其是深度學習神經網路的發展對數據的需求極大。大數據產業的迅猛發展對數據流通的安全性問題提出更高的要求。結合數據要素的特征以及數據行業的發展現狀,目前數據安全流通主要存在數據信息泄露風險、數據存儲管理風險、數據傳輸安全隱患、數據濫用法律風險四類風險。這些風險因素中涉及數據的三種狀態:存儲狀態、傳輸狀態和使用狀態。數據的價值與其動態性是不可分割的,即有價值的數據一定會處于動
26、態之中。因此保護數據要素安全流通意義重大。數據要素安全流通助力數據要素市場化配置,也是防范數據泄露的突破口,在數據要素安全流通過程中能夠促進多方數據安全合規協作,促進數據行業進入新的發展階段。針對當下巨大的商業需求和行業現狀,需要快速發展數據共享和隱私安全保障技術升級,構建高效、安全的數據流通方案應對挑戰。1.4 數據安全流通的核心技術創新支撐產業升級與創新科學技術是支撐和推動產業升級與創新的源動力。近年來,信息技術、大數據、密碼學、區塊鏈、可信硬件、人工智能、云計算、物聯網、網絡安全等技術以及算力均得到了前所未有的發展與突破。這些技術發揮各自的特點,可以在數6據安全流通的各個環節發揮其作用,
27、巧妙地解決數據流通過程中存在的問題和挑戰。數據安全流通過程中,隱私計算技術、區塊鏈技術起到了關鍵支撐作用。如今隱私計算技術在國內外都進行了部分場景下的試點,試點場景主要集中在聯合風控、聯合營銷、反欺詐等。在數據跨界共享過程中,隱私計算技術有權屬分離、數據價值最大化、用法用量“可控可計量”的優點,使得數據共享交易更加安全便捷。此外,基于同態加密的隱私計算技術作為密碼學中一種特殊加密模式的應用,相較于其他加密模式,能夠在不改變業務流程和數據流程的前提下最小程度的改造系統,降低數據合規成本,有效彌補技術安全漏洞,實現隱私數據的全面開發利用。區塊鏈技術是國家數字產業和新型基礎設施的重要部分,在中華人民
28、共和國國民經濟和社會發展第十四個五年規劃和 2035 年遠景目標綱要(簡稱“十四五”規劃)中被列入七大新興數字產業。區塊鏈技術在數據要素流通中,可在數據的產生、存儲、流通階段進行支撐和賦能,在數據要素流通前打通數據孤島、明晰數據權屬、提升數據質量,在數據流通過程中,保障數據安全、記錄流轉過程、形成監管閉環。區塊鏈技術已逐漸得到行業認可與共識,有望在跨產業聯通,構建多方協作的可信網絡,加強國際協作,引領新一輪產業融合。數據安全流通過程中,隱私計算技術并非是合規的全部內容,還需要綜合管理和技術完成合規,包括從源頭上把握合規、設計分工配合機制、動態評估全流程風險、保證技術方案安全性、明確計算模型的歸
29、屬、關注產出結果的合規性、關注自動化決策的風險、建立日志審計和監督機制等各類管理制度和合規方案。我國高度重視數據安全流通,而新圖景需要硬核技術的支撐。數字經濟時代,數據規模迅猛增長,數據安全重視程度提升,數據安全政策層出不窮,合規帶領技術和產業創新,拉動了數據安全流通核心技術與產業的發展。7第 2 章 數據安全流通相關概念2.1 數據要素概述2.1.1 數據資源化、資產化、資本化定義在探討數據要素價值時,一般會遵循資源化、資產化及資本化三大階段,對其價值驅動因素進行剖析。數據資源化指將無序、混亂的原始數據開發為有序、有使用價值的數據資源的過程,包括數據采集、整理、分析等行為,最終形成可用、可信
30、、標準的高質量數據資源。數據資源化階段的數據資產尚未體現出完整的場景應用價值,因此影響數據資產價值的因素除成本外,主要為數據資產的質量因素。數據資產化指基于既定的應用場景及商業目的,將數據資源進行一系列加工,形成可供企業部門應用或交易的數據產品。數據資產在數據資產化階段擁有了場景賦能,預期可產生經濟利益,形成數據交換價值。數據資本化指數據資產化階段發展后期,數據資產被進一步賦予金融屬性。數據資本化主要有兩種方式,即數據信貸融資與數據證券化。數據資本化是拓展數據價值的途徑,其本質是實現數據要素的社會化配置。從資源、資產到資本,是數據要素化過程“質的飛躍”,實現數據資本化關乎數據價值的全面升級,是
31、實現數據要素市場化配置的關鍵所在。2.1.2 數據要素的特征數字經濟進入數據資源驅動新時代,發展數據安全流通技術,培育數據要素市場,促進數據交易流通是經濟社會創新發展的必然要求。囿于數據的法律屬性和產權規則在理論和立法層面長期未能清晰界定,規范有效的數據交易流通市場始終未能真正形成,數據要素的社會經濟價值仍存在巨大的挖掘提升空間。由于數據具備分散性、多樣性、易復制性、時效性等特性,使得數據作為一種新的生產要素,數據要素主要有以下特征:數據要素來源比較分散且多元化。數據要素可能來自于個人、企業、政府、各類社會團體組織以及機器設備產生大量的、分散的數據,這些數據包括了具有多種表現形式的結構化、半結
32、構化、非結構化的數據;數據要素易獲取且易傳播。數據是易復制的,在多種傳播途徑的情況下,突破了地域和時間的約束,具有較高的流動性和可獲得性;數據要素要求隱私性和安全性并存。數據要素具有“看見即泄露”的特點,數據的隱私安全關系到個人隱私、企業機密,甚至關乎國家安全;8數據要素相關主體比較繁雜,如數據產生者、數據存儲者、數據處理者、數據應用者等;數據要素的權屬復雜,如用戶在平臺上產生數據,平臺方可對數據進行采集、加工處理等,對數據及其衍生產品的權益如何界定暫無相關法律法規說明;數據要素價值后驗突出,數據在經過加工變成價值數據后,可應用于智慧城市、智能制造等,同時數據可以供多個主體重復使用,數據要素新
33、增的產出或收益不隨使用次數而遞減,邊際成本相對較低;數據要素具有時效性,數據價值隨時間變化,數據實際產生越久遠,它的價值可能就越低,而對于大量的新數據可研究性強,具有前瞻性;數據要素具有融合性,數據要素可深度融入勞動力、資本、技術等每個單一要素,如人才大數據、金融科技大數據、知識產權大數據等,驅動制造業、服務業、農業數字化轉型升級。時至今日,數據作為數字經濟時代最為核心的生產要素,在社會生產、生活的巨大價值已經不言而喻。數據要素價值的充分發揮在于其有效流通共享,亦已經成為了人們的共識性認識。2.1.3 數據要素與其它生產要素流通方式的區別作為一種全新的生產要素,數據無論是在產權界定還是交易規則
34、方面都與土地、資本、勞動、技術等傳統生產要素存在本質區別,數據要素的交易流通規則也必然存在其自身的特殊性。不同于傳統生產要素的流通,所有權轉移在數據要素交易流通中的價值大為降低。一個使用者對數據的利用并不減少數據對其他使用者的供應,增加一個數據利用主體也不會減少任何其他主體對數據的使用。之所以在數據交易中無需過分強調和關注所有權的移轉問題,是因為數據具備上述非競爭性和非排他性的天然屬性。由此,傳統生產要素會折舊且規模報酬遞減,越用越少,而數據要素不會折舊,具有規模報酬遞增和邊際成本為零的特性,越用越多,越用越好。因此,傳統生產要素的交易規則下的所有權轉讓模式不適用于數據要素,明確數據要素交易流
35、通的價值,探索數據交易流通的可行模式,建構保障各方主體權益的規范性制度,對于加快培育數據要素交易市場具有重要的現實意義。2.2 數據流通的形式及特征2.2.1 數據流通的三種類型流動的數據才能產生價值,目前,數據要素流通類型主要包括數據開放、數9據共享和數據交易。(一)數據開放數據開放指政府向其他社會主體開放數據,包括政府體系內部不同部門、不同層級之間互相開放數據,也包括政府向企業或公眾開放數據,是政府數據由內向外的流動,是帶有公共服務屬性的一種數據流通類型。涉及的主體包括數據提供方、數據使用方以及政府數據管理機構,而每個政府部門可能既是數據提供方又是數據使用方,但數據使用方是市場和社會主體,
36、包括企業、高校、研究機構、社區、公眾等。在政府數據開放共享方面,現階段已經形成了以“國家電子政務網站”為平臺,促進各部委、省市政務數據縱向共享體系和以部委、地方政府為主體,對社會進行橫向數據共享開放體系的建設。政府數據具有范圍廣、種類多、價值高等特點,政府數據開放可以為市場主體提供極具市場價值的要素資源。從政府數據公開程度發展來看,各國均在戰略布局,如美國在 1996 年頒布了信息自由法修正案,提出“政府信息公開”機制;2009 年簽署了開放透明政府備忘錄,并構建了政府數據開放平臺。我國先發布政府信息公開條例,進而在促進大數據發展綱要中提出政務數據要開放共享的必要性。據國家工業信息安全發展研究
37、中心統計,國家電子政務網站接入中央部門和相關單位共計 162 家,接入全國政務部門共計約 25.2 萬家。隨著國家政策的引導以及各地數據開放體制機制的完善,我國地方政府數據開放平臺數量和開放的有效數據集數量呈現爆發式增長。截至 2020 年全國已有 12 個省市及地級政府舉辦了開放數據利用互動。政府數據開放共享,有助于打造陽光政府、智慧政務、便民政府。通過數據開放共享,為社會各主體提供了便捷的政務服務,并提高了業務效率,目前已有多個城市建設智慧政府,如北京市的“一網統管”、上海市的“一網通辦”、廣東省的“數字廣東”、杭州市的“城市大腦”、山東省的“云網數用”、遼寧省的“一網協同”、福建省的“一
38、網好辦”等。(二)數據共享數據共享指政府數據授權共享以及企業之間數據的流動,是數據的交互共享過程。2016 年,國務院關于印發政務信息資源共享管理暫行辦法,提出加快推動政務信息系統互聯和公共數據共享,增強政府公信力,提高行政效率,提升服務水平,充分發揮政務信息資源共享在深化改革、轉變職能、創新管理中的重要作用。該類數據的共享是有條件的共享,需要經過授權后才能被使用。對于政務數據,首先各委辦局數據編制成統一的數據目錄,其他委辦局在共享平臺上檢索到對應數據表后可向提供部門提出授權申請,授權通過后即可獲取到相應數據,使用部門按授權的范圍使用共享信息(提供部門在向使用部門提供共享信息10時,應明確信息
39、的共享范圍和使用用途),該數據共享方式鼓勵采用系統對接、前置機共享、聯機查詢、部門批量下載等方式獲得數據,使用方在獲得數據后與自己的數據進行聯合分析。從企業層面看,2020 年 4 月,工業和信息化部關于工業大數據發展的指導意見提出支持優勢產業上下游企業開放數據,加強合作,共建安全可信的工業數據空間,建立互利共贏的共享機制。從實踐看,微信、支付寶、抖音等互聯網平臺集聚了海量的用戶和流量,基于隱私計算、匿名化或去標簽化等方式在保障用戶數據隱私和平臺運行安全的基礎上,通過開放接口的方式將數據和流量向中小應用平臺開放,這種共享方式是互利共贏的,互聯網平臺可以豐富自身產品生態,而中小應用平臺在獲得數據
40、服務的同時,可以為社會主體提供個性化服務或其他服務從而獲得收益,有利于加快市場數據的流通,從而實現數據價值。對于金融機構、保險機構,通過數據共享有利于聯合風控、聯合營銷、監管等,盡管數據共享對提升供應鏈協同效應、提升產業競爭力有明顯的帶動作用,但與政府數據開放共享程度相對比,企業數據開放共享仍處于較低水平。另外數據共享時需要支持數據的權限管控、加密、簽名等功能,防越權、防泄露、防篡改,同時可以引入區塊鏈、數據水印等技術,確保數據共享前可以確權,在泄露之后可追溯。(三)數據交易數據交易指政府與企業或企業與企業之間通過隱私計算或去標簽、匿名化等方式就數據所有權進行數據交易的過程,對于數據提供方而言
41、是由內向外流動的過程。中共中央、國務院公開關于構建更加完善的要素市場化配置體制機制的意見,提出“加快培育數據要素市場”,進一步強化了數據作為生產要素的重要性。數據共享開放作為促進數據要素流通的基礎,打破存在于政府間、部門間、行業間以及企業間的數據要素壁壘,成為激發數據要素流通活力的重要著力點。政府數據交易前,政府將政務數據授權給特定市場主體進行市場化運營,政務數據交易涉及主體包括數據方、數據運營方、數據使用方等機構。數據方為政府部門,數據運營方為獲得政府授權的市場主體,數據使用方包括市場和社會主體。與數據開放和數據共享不同,這里政府授權的數據在使用時需支付費用。目前企業之間的數據交易主要通過構
42、建數據交易平臺來實現。數據交易平臺在吸收第三方數據后,撮合數據方和數據使用方進行數據所有權交易,并獲取交易的服務費。企業數據交易涉及主體包括數據方、平臺方、數據使用方、算法方等。目前我國數據確權相關法律法規有 網絡安全法、數據安全法 以及個人信息保護法,但具體細節內容仍不明晰,數據交易模式存在一定的數據安全11風險,數據所有者利益保護度有限,但從數據要素流通的效率來看,該方式最為有效和快速。數據要素的流通在公共決策效率、擴展商業應用、社會服務、城市治理、公共交通等方面具有顯著作用。以上提到的三種數據流通類型各有優劣,相互促進、相互支撐、相互貫通、相互影響、相互協同,共同推進數據要素市場的建設,
43、推動公共數據融合應用產業鏈、資金鏈和政策鏈的精準對接,強化普惠高效優質的數字化公共服務,促進數據應用福祉惠及全民。2.2.2 數據流通的主要參與主體目前,市場上數據流通的主要參與體包括:數據生產者、數據擁有方、數據使用方、監管方、數據經紀人和生態服務方。各方主要的作用和職責如下:數據生產者,參與社會實踐活動,基于各種載體產生數據的個人及企業;數據擁有方,在數據生產者授權同意情況下,對數據提供載體的組織。并在獲取相應授權的情況下,可根據相應的需求對數據進行使用、流轉等操作;數據使用方,基于相應數據流通技術能力,對數據擁有方的數據進行加工、使用,從數據提供方獲取流通數據使用權,直接開展非身份識別下
44、的數據利用,或基于數據對象主體的同意而識別身份使用數據,或基于相關法律依據而識別使用數據;監管方,數據流通過程中對數據流通參與主體及其進行的數據流通行為進行監管(行政監管),由行政主管部門承擔。行政監管通過制定數據流通相關法律法規政策,并監督數據流通其余各方對法律法規政策的執行情況。主要職責為對數據運營平臺進行監管,確定相應的準入制度以及對數據提供方、數據需求方及交易過程監管監管,審核交易主體的安全性、真實性、準確性、合法性等要求;數據經紀人,在監管方監管下,具備開展數據經紀活動資質的機構,為數據提供方和數據需求方實現交互媒介、中介撮合、傳輸流動、清算結算、服務整合等數據流通服務的數據流通平臺
45、組織,如數據運營中心、大數據交易所等類似組織。為數據需求方和數據提供方提供數據流通平臺,解決數據流通過程中數據匯聚困難、數據不規范、分析數據可用性不強、行業數據無法對接使用等難題,從而實現數據靈活有效流通;同時承擔著提供交易規則、審核交易主體資格、監督交易行為的職責;生態服務方,為數據流通提供技術支持、法律相關的第三方組織,為數據流通場景提供相應技術、法律支持保障,支持數據流通中的相應需求,保障數據安全。技術能力提供方可以是提供數據流通模型工具的模型方、提供數據流通安全技術的安全方、提供數據評估意見的評估方以及提供數據加工(清洗、分類分級12等)的加工方,其中,模型方根據相關行業標準規范、技術
46、與法律法規,創建合規模型,支持評估方對數據進行有效評估;評估方在模型方支持下,為運營方、數據提供方、數據需求方等提供數據流通安全合規評估、資產評估等服務;安全方提供數據流通安全合規的過程監管與過程控制以及安全審查等服務,保障運營方、數據提供方、數據需求方等開展數據流通;加工方接受數據提供方或數據需求方的委托,加工處理數據,提供數據服務,獲得服務收益權;法律法規支持方為數據供需等各方提供法律法規支持,確保各方行為滿足法律規定的合法條件。各個參與體在數據流通場景中的關系如圖 2-1 所示。此外,在實際的數據流通場景中,同一家企業和機構可能同時承擔其中的多個角色。圖圖 2-1 數據流通主要參與體關系
47、示意圖數據流通主要參與體關系示意圖2.2.3 數據流通的內容和形式根據數據流通的形式,可以有三種劃分形式,包括原始數據和計算結果、明文和密文、離線文件和應用程序接口(Application Program Interface,簡稱 API)。(一)原始數據和計算結果原始數據指未經過處理或簡化的數據,也就是以第一次采集時的形式存在的數據,可以是紙質形態,也可以是電子形態(文本數據,圖像數據,音頻數據等),這時數據作為信息的最原始載體記錄于物理介質中。未經過處理(重構、存儲、計算、稽核、審計、防偽等環節)的原始數據,并不能直接產生高價值的信息,但經過處理后的原始數據不僅產生高價值的信息,還可以獲得
48、更多維度的信息,如電商前端埋點會收集到大量的原始數據,經過處理后可以獲得用戶經常關注的商品、訪問時間段、購買品類、消費價格范圍、喜歡購買的商品等。13結果數據,將原始數據經過篩選、組織(如模型化)然后按照一定的格式進行整理,使數據可以很好的體現信息,為數據價值的挖掘與實現提供最原始的動力。未經過視覺翻譯的計算結果是非常干澀、乏味、很難理解和感知的數據,需要借助圖表、觸點交互來提升其表達含義。(二)明文和密文在密碼學中,明文(Plaintext)指傳送方想要接收方獲得的可讀信息,通常是指沒有加密的文字或者字符串,一般人都能看懂的意思,在通信系統中它可能是比特流,如文本、位圖、數字化的語音或者數字
49、化的視頻圖像等。數據明文流通方式下,數據源頭企業擔心丟失數據所有權,這對于不具備持續生產源數據能力的企業,越發擔心數據被他人清洗所用;由于數據復制成本極低,一旦分享出去就容易失去了對數據的控制權,因此數據明文獲取削弱了源頭廠商的數據稀缺性和分享動力;在涉及高度涉密數據或敏感個人信息隱私數據時,企業往往拿不準數據輸出尺度;同時有大量企業因為擔心數據安全事件或信息泄露而不敢交互數據,導致出現數據價值遞減風險,進而影響了數據要素的流通與價值的盤活。在密碼學中,密文(Ciphertext)是明文經過加密算法所產生的。因為密文是一種除非使用恰當的算法進行解密,人類或計算機不可以直接閱讀理解的明文的形態,
50、所以可以被理解為加密的信息。密文經過解密還原得來的信息即為明文。在數據要素流通過程中,指數據擁有方或需求方的數據或中間結果,通過某種加密算法,對其進行加密處理,防止隱私數據被泄露,即隱私計算這一技術體系。通過綜合運用多方安全計算、聯邦學習、同態加密等技術,將明文數據轉換成密文數據,在充分保護數據隱私的條件下,實現數據的密態安全流通。(三)離線文件和 APIAPI 是一種計算接口,它定義多個軟件中介之間的交互,以及可以進行的調用(call)或請求(request)的種類,如何進行調用或發出請求,應使用的數據格式,應遵循的慣例等。一個 API 可以是完全定制的,針對某個組件的,也可以是基于行業標準
51、設計的以確?;ゲ僮餍?。通過信息隱藏,API 實現了模塊化編程,從而允許用戶實現獨立地使用接口。API 是數據流通的重要形式之一,數據提供方將加工處理完的單方結果數據以接口形式輸出,數據使用方調用該接口,雙方完成數據流通交互。該模式下按照數據分類沉淀的 API 接口日調用量可達到上億次,滿足較廣的服務覆蓋范圍,且一定程度保護了用戶隱私信息以及降低二次利用可能性。離線文件,也稱為數據包,是傳統服務通常用于數據流通與應用?;跀祿牧魍ㄒ话鄬儆谂苛魍?,可以是數據提供方和數據使用方之間進行交換,也14可以通過第三方(如數據交易平臺)進行交易。由于數據確權相關法律法規不明晰,該模式有較高的數據安全風
52、險,較難保護數據所有者利益,易導致涉及用戶隱私的信息暴露以及數據被使用方二次利用甚至濫用。2.2.4 數據流通的應用挑戰隨著國家數據宏觀政策的推動,數據資產流通和共享交換已經成為必然趨勢,區域化、產業化的數據要素交易市場正在逐步興起。數據交易流通在金融、運營商、政府等領域廣泛開展,這些機構擁有大量的企業、用戶和市場數據,數據在機構內部不同分支機構以及跨機構之間進行共享和交換,將極大促進數據生產要素價值激活,同時也可以幫助實現數據資產所有方的對外運營和價值變現。然而因為數據本身存在容易復制、可修改、權屬不清晰等特征,數據共享交換目前在實際應用過程中,仍然存在很多問題,各個領域都在嘗試摸索一套與傳
53、統資產交易不同的全新技術方案予以支撐。從產業應用角度出發,隨著國家相關政策的驅動,數據的交易流通在一些行業頭部機構已經開始廣泛探索、并且逐漸開始試點落地,但是距離大規模推廣仍然有一定距離;從政府側出發,由北京、上海等城市牽頭的數據交易所在 2021-2022 年紛紛成立,逐漸構建覆蓋全國各地域的地方性數據交易網絡;在行業自身驅動下,各大頭部商業銀行、保險公司、三大電信運營商,也開始建設自身的數據交流流通平臺,在近兩年涌現出大量的試點應用項目;從技術應用角度出發,盡管區塊鏈、隱私計算等技術的發展,大大促進了數據流通的應用落地,數據流通仍需要通過更加強大的技術手段解決數據難以確權、權屬難以保護、數
54、據定價模型復雜復雜、交易信息的正確性保護等挑戰。難以確權,與傳統的資產不同,由于數據本身具備極強的流動性和時效性,數據資產往往不具備一個固定的形態。如何在數據隨著使用和時間不斷變化的過程中,保持數據資產標識與數據權屬所有者之間唯一確定的關聯關系,是數據交易流通面臨的第一大挑戰;權屬難以保護,由于數據較容易被復制和轉讓,數據的使用者可能在數據使用過程中將數據本身存儲下來,從而在未來加以再次利用和轉讓給第三方。因此如何在數據使用的過程中保護數據的所有權不丟失,是數據交易流通面臨的第二大挑戰;數據定價模型復雜,數據使用面領著復雜的應用場景,包括查詢、數據分析、機器學習等等。在數據使用過程中將產生大量
55、的數據分割、中間數據產生和最終的結果數據,如何對這些不同粒度的數據資產定價、如何評價一個復雜數據使用15流程中各個數據產生的價值,將是數據交易流通面臨的第三大挑戰;交易信息的正確性保護,區塊鏈保障了數據交易過程的可信與公正,但實際的數據交易行為涉及到數據隱私,無法直接在鏈上完成。一旦交易數據發生在鏈外,就需要實現鏈上到鏈下的信任鏈構建。在記賬和確權的過程中,賬本和資產確權中包含的數據交易行為信息可能被偽造或抵賴。如何在區塊鏈分布式記賬的基礎上保證實際交易行為的正確性,是數據交易流通面臨的第四大挑戰。2.2.5 數據流通的未來趨勢對于未來發展趨勢的預判,隱私計算、區塊鏈、數據定價模型是當前數據流
56、通領域各方研究的重點。隱私計算技術用于保障數據的所有權不丟失,在數據交易過程中將數據使用權與所有權分離開來,保護數據所有方的隱私信息和數據資產合法權益;區塊鏈技術用于實現數據權屬的記錄與公證,通過將數據確權、數據交易、數據計算等過程信息上鏈存證,保障數據交易各方的公平與互信;數據定價模型用于實現數據資產的市場化定價,通過數據血緣分析、數據價值分析等細分技術,再結合不同行業的專家經驗實現數據資產價值的量化評估。(一)隱私計算“數據可用不可見”的隱私計算技術為數據流通與共享提供了新方式,為打破“數據孤島”、實現機構間的業務協同與數據共享提供了可行性。隱私計算是一套為了保證數據隱私安全流動的技術總稱
57、,即在保護數據本身不泄露的前提下,實現數據利用。隱私計算能夠實現數據處于加密狀態或非透明狀態下的計算,達到各參與方隱私保護的目的,隱私計算交叉融合了密碼學、人工智能、計算機硬件等眾多學科,逐漸形成以多方安全計算、聯邦學習、可信執行環境為代表的多種技術體系。在未來,搭建數據生產要素流通平臺要充分考慮數據本身和數據交易行為的特點,依托于國產化自主可控的基礎設施,搭建可信執行環境、多方安全計算、聯邦學習融合的技術路線,并解決大規模生產應用的性能和穩定性瓶頸,是隱私計算在數據流通領域的發展趨勢。(二)區塊鏈區塊鏈是構建數據生產要素市場的信任基石。區塊鏈因其“去信任化、不可篡改”的特性,可以極大的降低信
58、用成本,實現數據指紋、數據權屬和交易流程的安全存儲?;趨^塊鏈技術的數據交易平臺,不僅可以保障數據的真實、安全、可信,還提供了可追溯路徑。16利用區塊鏈不可篡改、數字簽名、共識機制、智能合約等技術可以對數據進行確權,并對數據的產生、收集、傳輸、使用與收益進行全周期的記錄與監控,為數據共享和流通提供了堅實的技術基礎。具體來說,數據資產的所有者、生產者和使用者作為重要的節點加入到區塊鏈網絡中,利用區塊鏈同步共識,詳細記錄數據產生、流轉、交易等全部環節,不但記錄數據本身,而且記錄該數據資產相關主體的身份及其操作歷史,并全節點共識見證,任何一方都不能抵賴。這樣生態圈中的所有參與方都能貢獻自己的數據資產
59、,并通過智能合約對資產流轉與收益分配進行監督,實現了收益共享與風險共擔,大大促進了數據資產的流通,實現開放數據生態圈的合作共贏。隨著數據流通領域的發展,區塊鏈將以聯盟鏈的應用為主要趨勢,因其相比于公鏈具備可控性更強、私密性更強、交易速度更快等特點,更加適用于當前數據流通市場的現狀。(三)數據定價模型數據成為一種新的數據資產,需要有效、公平的評估和定價方法。目前仍未能在全球領域內形成對數據定價方法的統一認識。因此,如何實現數據定價理論中定價機制的公開化、數據價格的透明化,一直是困擾國內外科研人員以及大數據從業者的重大問題。在現有的研究成果中,通常以數據計量、定價模型等手段為切入點,著重探索數據資
60、產化定價的數學方法,包括數據資產化框架、評估模型、定價模型、標準等。當前,數據定價模型目前仍處在理論發展與建設階段,在實際應用中還未大規模驗證與推廣。數據資產化涉及法律、會計、技術、方法等多方面因素,是一個混沌問題,需要從多種視角開展研究和實踐。2.3 數據安全流通的體系架構圍繞確權、定價、安全、機制等方面,深入分析構建數據安全流通的體系架構,涉及數據安全流通的構成要素,包括政策、法律、標準、技術、監管、行業主體等。2.3.1 數據安全流通架構簡介數據要素市場旨在實現數據要素的市場化配置。對于實現數據要素的市場化,首先需要具備規?;乙幏痘臄祿w系,特別是政府數據和企業數據,形成較為成熟的數
61、據形態。其次,搭建促進數據安全流通的硬件(算力等)和軟件(算法等)環境,圍繞現在的隱私計算等核心技術進行基礎設施的建設,從底層技術路徑上構建數據安全防護、數據可信流通、數據綜合治理等貫穿數據生命全周期17的流通環節的技術支撐。數據要素的流通主要以數據開放、數據共享、數據交易的三種模式進行。圍繞各種數據流通的模式,又衍生出具體的法律法規、標準規定以及監管要求等政策。例如,數據交易涉及到數據確權、定價機制、交易機制、監管機制、法律范圍等保障制度基礎上。因此,在設計頂層政策框架時,要進一步完善數據公共屬性的權屬安排,制定相關技術標準、行業標準和立法監管體系。2.3.2 數據安全流通構成的要素為了完成
62、數據安全流通,需要在數據要素市場體系架構中進行要素的補充,從而確保數據要素在流通過程中實現“可用不可見”。(一)技術層數據作為數字經濟基礎性資源,對于經濟發展、社會治理等都產生了重要影響,成為數字經濟時代重要的競爭性戰略資源與生產要素。然而,作為信息時代的遺留物,數據具備獨特的經濟學特征,它是非競爭性的,在傳統共享和使用方式下,存在數據資產流失或者轉移的風險。通常需要一套完整的系統工程全棧技術矩陣解鎖數據價值,包含從數據治理、跨云存儲計算、隱私安全計算、工具及模型、流通與歸因等數據安全防護、數據可信流通、數據綜合治理方面端對端的全鏈條數據解決方案,實現數據要素的流通。1、數據安全防護數據安全的
63、解決方案除了需要保障對外網絡安全,也需要保證數據存儲、計算、傳輸中的數據安全和授權使用。因此在安全方案的設計中需要定義安全威脅模型。安全威脅模型將會從外部、用戶、系統管理員、應用等不同角色分析可能產生的各種數據安全、數據授權使用的風險。通過假定攻擊者的視角來發現、窮舉系統潛在的安全威脅,并評估處理這些潛在威脅的優先級。安全威脅模型中通常會使用網絡安全措施、數據安全措施、身份認證安全、隱私保護措施等手段降低數據安全風險。網絡安全措施,提供“幾乎”封閉的數據存儲及計算環境,以減少和控制網絡與 Internet 的交互;數據安全措施,采用密鑰管理系統(KMS)加密靜態數據,從而減輕了大規模數據泄漏的
64、風險;身份認證安全,采用如密碼強度要求、兩因素身份驗證、密碼更新策略以及用于用戶權限管理的授權模塊。同時通過大量日志記錄并進行深入分析,以檢測可疑的用戶行為,網絡行為和數據集操作行為等,對賬戶安全進行及時反饋;隱私保護措施,數據進入平臺前會進行匿名化處理,與數據處理無關信息將會在數據編組過程中刪除,同時還會采用差分隱私等技術降低重新識別的風險。18在數據的使用過程中,嚴格執行數據的“最小可用原則”,在數據被探查和訪問的時候,同樣保護其隱私安全,在這一場景下便“無法關聯”。2、數據可信流通通過多方安全計算、同態加密、聯邦學習、安全沙箱計算、可信執行環境(Trusted Execution Env
65、ironment,簡稱 TEE)等前沿技術,達成使用細粒度的訪問控制保證數據“最小可用原則”、將行業數據分級分類與隱私計算的技術手段相結合等方式,實現高規格安全保護和數據“可用而不可見”。因此隱私計算為數據所有權和使用權的分離提供了合規和法律層面的抓手,能夠在特定的信任假設下,在保護數據所隱含的隱私和機密,避免數據資產的流失、轉移和失控的前提下,實現和分享數據價值。通過區塊鏈技術對數據進行溯源。在數據存儲的過程中將數據集產生過程記錄在案,包括項目本身、項目輸入的數據集等,建立輸出數據集和輸入數據集的血緣關系。對于任何一個數據集,都可以通過數據集的出處和血緣進行追蹤,一直回溯到最原始的數據集,從
66、而減少了數據要素的歸屬風險。3、數據綜合治理數據要素流通的關鍵在于對原始數據的綜合治理,達到數據可用的狀態以便于后續流通。數據質量評估,原始數據通過關系型數據庫、非關系型數據庫庫、紙質文件、文件、圖像音頻、文件系統、分布式、大數據文件等形式進行儲存,作為數據要素前需要進行數據清洗、主數據融合、自然語言處理等方法實現各系統的原始數據打通,形成標準化和結構化的高質量數據倉庫和數據服務;統一的接入認證,數據要素流通主要通過 API 技術、大數據、混合應用、流式計算、ELK 等技術進行接入,包含靜態交換處理、動態流轉要求、互通互聯等接入狀態;數據資源定價,隱私計算流程中結合區塊鏈技術,在各個環節形成全
67、閉環服務,操作和處理記錄上鏈保存,實現防篡改的目的。定價方面通過多個標準化智慧合約為參與方提供可信服務,在各個環節智能評估各方價值貢獻,依據合約內容獲得價值收益,解鎖數據要素流通的核心價值。(二)模式層1、數據開放數據開放的主體主要是政府和企業。所謂政府數據指政府部門在開展各項工作與履行職責過程中,所獲得的與人們生活存在密切關系的各種大量數據。政府數據開放指在不違背相關政策法規且對公共利益不受影響的基礎上,免費向公眾開放,使社會上任何人均能夠獲取及應用相關數據。通過原始數據的開放,可使19政府各項工作的開展能夠更廉潔透明,促進經濟創新發展,推動社會治理創新。政府數據開放工作目前主要以政府為主導
68、,通過建設統一的公共數據開放平臺,將本地區可開放的公共數據以數據集、API 等方式提供給社會公眾使用。政府也鼓勵公共企事業單位及其他社會組織提供可開放的數據以豐富和提升公共數據多樣性及公共數據質量,目前尚在早期建設階段。2、數據共享數據共享限定在內部受管控的范圍內進行數據共享和交換。以政府數據共享為例,僅限數據在政府部門之間的流動,比如對數據交換平臺等基礎設施的訪問也僅限于政府內部的網絡訪問。數據共享是一個高度專業化的工作,需要對數據進行分類分級、供需對接、收放結合、安全治理等內容。其中,隱私計算平臺等的基礎設施的建設是開展安全數據共享的必要前提。3、數據交易數據交易所在數據要素流通過程中作為
69、交易媒介起到了關鍵的作用,隨著各項相關配套政策相繼落地,數據交易產業生態逐步繁榮。數據交易由通用數據中心占據主導,演變為多類型數據中心共同發展局面。數據中心之間互相協同以及云邊協同體系不斷完善,共同提供算力服務,數據要素將會在更大范圍上進行無障礙流通。數據交易所存在數字經紀中介產業體系、數商體系和數據經紀人三種體系,數字經紀中介服務不直接參與交易,只提供提升交易效率、服務質量和市場活躍度等服務。數商指以數據作為業務活動的主要對象的經濟主體,數商的首要價值是幫助企業發現數據資源的價值,聯結跨組織數據要素和提供服務。數據經紀人是在政府的監管下,具備開展數據經紀活動資質的機構,需要具備生態協同能力、
70、數據運營能力、技術創新能力、數據安全能力和組織保障能力。(三)政策層近年來,我國出臺了數據安全法、個人信息保護法等關于數據和個人信息安全保護的法律法規,民法典也首次明確將數據納入民法保護范圍。促進大數據發展行動綱要、“十四五”數字經濟發展規劃等文件則積極推進數據要素市場化,推動數字經濟健康發展。數據要素流通、交易相關技術標準及數據資產標準數據資產標準的研究制定已成為國內外各標準化組織共同關注的熱點,涵蓋數字化基礎設施、底層技術、平臺工具、行業應用、管理和安全等方面的數據標準體系建設尚處于起步階段,距離打造互認互通的標準化、規范化、高質量的數據資源標準體系仍需很長一段時間。20第 3 章 數據流
71、通行業發展現狀數據作為關鍵的生產要素,在數字經濟發展過程中能夠與其他生產要素不斷交叉融合,加速迭代組合,引發生產要素跨領域、跨維度、系統性、革命性的突破。一方面,隨著數字技術與國民經濟各領域的融合應用不斷深化,數據的產量、市場規模不斷增長;另一方面,數據要素市場發展的政策環境、相關標準、法制環境、技術支撐也在隨之不斷優化完善。3.1 數據流通政策發展現狀全球進入數字經濟時代,數據作為重要的生產要素之一,對構建新型發展格局、實現高質量發展的重要支撐作用不斷凸顯。數據關系到國家發展的未來。當下,數據隨意濫用的時代已經過去,聚合海量數據強化高質量供給、培養要素市場促進要素流通交易、探索數據要素開發利
72、用機制成為當下各國各界的戰略重點。世界各國紛紛出臺法案政策,在前沿技術研發、數據交易流通、數據安全治理、數據人才培養等方面做出戰略性布局,力爭打造競爭新優勢,在數字經濟、數據要素治理方面搶占先機。3.1.1 美國美國國內擁有發達的信息產業和龐大的數字經濟體量,依托先天條件優勢,直接促進數據要素的流通和交易市場的發展。數據跨境保護方面,美國早在二十世紀初與歐洲簽署個人信息跨國流通安全港協議,該協議后因 Facebook 隱私保護訴訟案后宣布無效,重新制定了數據傳輸協議 隱私盾協議,但在 2020 年被裁定無效。2018 年美國國會發布 CLOUD法案,對國外機構調取美國國內數據和美國國內機構調取
73、國外數據提供了合法性依據。加州、華盛頓州、弗吉尼亞州、科羅拉多州等陸續發布地方性隱私法案,賦予消費者對其個人信息的控制權,規范了企業收集、使用、轉讓消費者個人信息的行為。政務數據方面,美國政府在 2009 年發布開放政府指令,建立了政府數據服務平臺。平臺將美國各界的數據整合發布,技術開發商可對平臺中數據進行加工。通過該平臺不僅建立了統一的政務數據開放機制,也為發展多元數據交易模式、探索數據安全與產業利益平衡點提供了渠道。數字戰略方面,自 2019 年起,美國先后發布聯邦數據戰略與 2020 年行動計劃和數字合作戰略(2020-2024)。前者確立了數據共享、數據安全、數據使用三類四十余項具體的
74、數據管理實踐;后者宣稱對外援助發展中國家數字21發展,實際強調要滲透美國數字思維和數字發展理念影響其他國家的數字發展規劃布局。對華政策方面,2020 年與民主黨有著密切聯系的布魯金斯學會發布的美國對華政策的未來對拜登政府的建議,在數據安全領域報告中提到“中美間的技術競爭將是下屆政府面臨的首要外交政策挑戰之一,中美數據領域相互依賴的現狀給跨境數據流、數據隱私和數據安全帶來一系列挑戰”。美國一直致力于數據跨境流動政策,當前美國數據要素交易模式多種多樣,數據要素市場政策相對開放。3.1.2 歐洲(一)歐盟受歷史和文化傳統的影響,歐洲是世界上對隱私保護最為嚴格的地區。一直以來,歐盟重視數據安全體系化工
75、作部署,并最先進行了各類舉措和布局。2019年歐盟通過的開放數據指令旨在推進歐洲地區可重用數據的跨境使用。2020年 6 月 30 日,歐洲數據保護監管局(EDPS)發布歐洲數據保護監管局戰略計劃(2020-2024):塑造更安全的數字未來(EDPS Strategy 2020-2024:Shapinga Safer Digital Future),旨在塑造一個更安全,更公平,更可持續的數字歐洲。戰略指出,歐盟將積極關注數據處理實踐和技術發展,提出數據保護措施,整合數據保護網絡。2022 年 2 月歐盟公布關于公平獲取和使用數據的統一規則(草案),確保在數據經濟的行為者之間能夠公平分配數據的價
76、值,并促進對數據的訪問和使用,該草案的公布意味著歐盟在促進數據要素的公平化發展方面走在前列。歐盟通過立法先行,通過制定領先的數據要素治理規則推動數據要素市場的建立和發展。在探索數據要素流通模式方面,歐盟沿用了工業經濟時代的知識產權保護的做法,但目前看來,這種做法無法應對數字經濟時代數據要素流通中出現的很多問題。(二)英國2020 年 3 月,英國政府成立數據標準管理局和政府數據質量中心,并開發政府跨部門數據綜合平臺4。9 月,英國政府發布國家數據戰略,戰略闡述了數據有效利用的核心支柱以及政府的優先行動領域,通過搭建國家層面的數據安全治理方案,為建設促進增長和可信賴的數據機制提供指導方向,保障國
77、家安全。223.1.3 亞洲(一)日本日本通過數據交易平臺和數據銀行連接起政府、數據流通運營商、國內外企業等共同構建數據要素流通市場。2016 年日本政府就提出要促進數據流通,實現構建超智能社會5.0的目標。日本的數據安全治理實踐主要圍繞安全人才培養、尋求國際安全合作5。2017 年日本發布網絡安全人力資源開發計劃,培養網絡安全高技術人才。此外,日本一直在積極謀求國際層面的網絡安全合作,與美國、歐盟、英國、法國以及東盟國家開展對話合作,簽署網絡安全領域的項目。2019 年日本與歐盟達成歐盟日本數據共享協議,使得日本和歐洲的很多企業能夠采集到更多數據資源,促進數據跨境流動。2021 年日本成立了
78、日本數字廳,從國家層面對數據交易進行管理,全面推進日本的數字化改革。(二)新加坡新加坡通過實施“智慧國家”(Smart Nation)戰略,推動其國內信息基礎設施的現代化發展,擴大電信業的投資與推動數據中心的建設。建立完善的個人信息保護制度和相應的監管框架,監管體系重點包括設置主管部門、劃分責任邊界、設定跨境流動條件、開展國際協調、明確基礎設施要求等方面。構建完善、系統的數據跨境流動管理規則,有助于實現全球數據向新加坡匯聚和流動,打造成為數據融合的重要中心節點城市。(三)印度印度電子商務框架草案明確一系列的數據本地化存儲的豁免情況,如初創企業的數據流動、跨國企業內部數據流動、基于合同進行的數據
79、流動等方面不會要求數據本地化存儲。印度并不想實施嚴格的數據保護措施,但是又做不到放任數據自由流動。一方面想要融入全球數字經濟發展格局,另一方面又想保護個人信息安全和國家安全,印度正在探索適應本國國情的中間化道路。3.1.4 中國我國數據交易政策的部署和交易模式的創新處在世界靠前的位置。2020 年 4月,中共中央、國務院發布關于構建更加完善的要素市場化配置體制機制的意見,其中強調要加快培育數據要素市場,這也為推進數據要素市場化改革指明了方向。同年 11 月,中共中央關于制定國民經濟和社會發展第十四個五年規劃和二三五年遠景目標的建議中對數據資源開發利用、要素市場培育發展提出了新的戰略要求,提出“
80、建立數據資源產權、交易流通、跨境傳輸和安全保護等基礎制度和標準規范”。各省市政府積極響應國家政策,紛紛出臺一些列政策條例;北京、上海、江23蘇、廣東等地紛紛成立大數據交易中心,積極推進數據交易,規范數據交易行為,探索數據交易新機制。2022 年 1 月,國務院印發“十四五”數字經濟發展規劃,對充分發揮數據要素作用作出重點部署,提出要強化高質量數據要素供給,加快數據要素市場化流通,創新數據要素開發利用機制。2022 年 3 月發布的關于加快建設全國統一大市場的意見中提到加快培育統一的技術和數據市場,加快培育數據要素市場,建立健全數據安全、權利保護、跨境傳輸管理、交易流通、開放共享、安全認證等基礎
81、制度和標準規范,深入開展數據資源調查,推動數據資源開發利用。由此可見,世界進入數字經濟時代以來,數據流通行業在政策制定方面不斷完善,這也側面體現出數據作為生產要素,對于推動全球經濟增長具有極高的重要性。但是當前階段,各國對基于數據要素而建立的新經濟發展模式的的探索仍處于初級階段。3.2數據流通法律法規發展現狀3.2.1 美國美國對外宣稱支持國內數據的自由流動,但對于特殊行業的敏感數據出境卻制定了嚴格的出境管控措施。隨著數據經濟的發展和經濟全球化擴張,國際貿易中數據流通越來越頻繁,美國在雙邊和多邊國際貿易協定中,一直強調促進數據的自由流動、反對數據本地化存儲,但是對于國外企業卻要求其交易數據、通
82、信數據和用戶數據存儲在美國境內,通信基礎設施也要部署在美國境內。除此之外,美國還將個人數據視為國家安全的重要組成要素,并將涉及個人數據的傳輸、交易納入外資安全審查范圍。美國各州政府對于在美國境內的數據流通均設定了相關的法律進行嚴格把控,這些法律不僅適用于美國本土的企業和政府單位,也適用于非本國企業。2017年聯邦通過電子郵件隱私法案,澄清和擴大執法的搜查令條例,以迫使服務商交付其服務器上的客戶電子郵件或其他數據;2018 年 3 月 23 日,聯邦政府通過 CLOUD 法案,對數據管轄權進行了擴張,只要被美國法院認為“與美國有足夠聯系且受美國管轄”的企業,均適用于上述規定;同年特朗普簽署201
83、8 年外國投資風險審查現代化,以應對敏感數據泄露對國家安全的威脅;2019 年 11月 18 日,美國政府提出國家安全和個人數據保護保護法案 2019(提案),以保護美國國家安全的名義阻止美國數據流入中國及相關國家,對境內數據的跨境傳輸和流通設置更多限制,尤其是被美國列為“特別關注國家”的相關企業,對其數據出境要求更為嚴格。24美國除了對境內數據出境進行嚴格限制之外,對于個人隱私數據也加大了安全保障力度,2019 年紐約州政府通過身份盜竊保護與緩解服務法,擴大了紐約數據泄露報告法所涵蓋的個人信息類型,要求企業實施具體的數據安全保障措施,并規定了相關機構對受影響的個人提供預防與補救措施;同年 1
84、2 月,美國政府提出數據保護法案(提案),第一個從聯邦政府層面解決美國隱私問題,不僅明確了個人信息的范圍,還明確了在線供應商應承擔的責任與義務;2020年 1 月 1 日加州政府通過加州消費者隱私法,對消費者隱私權利進行了更強的保護;2021 年 3 月,美國政府提出信息透明度和個人數據控制法案(提案),旨在為消費者個人信息保護設定一個統一的聯邦標準,并在國際上形成示范效應,推動全球個人信息保護制度的完善;2022 年 1 月 13 日提出服務條款標簽、設計和可讀性法案,旨在提高數據的在線透明度,確保消費者了解個人數據的收集和使用。3.2.2 歐洲(一)歐盟歐盟高度重視公民的個人隱私保護,并制
85、定了一系列的法律法規,如 GDPR。對于個人數據的出境,歐盟規定這些數據只能傳輸到歐盟認可的國家或地區。不在歐盟認可名單內的國家或地區的企業必須遵守歐盟委員會批準的“標準數據保護條款”或制定“有約束力的公司規則”,獲得認證后才能開展數據跨境傳輸。同時,歐盟的數據立法工作長期引領國際數據跨境流動的發展方向,并且歐盟不斷加強其數據法規的國際影響力,很大程度上實現了“歐盟標準”向“國際規則”的轉換。2022 年 2 月 23 日,歐盟委員會正式公布數據治理立法數據法案(DataAct)草案(以下簡稱數據法案),涉及數據共享、公共機構訪問、國際數據傳輸、云轉換和互操作性等方面規定,將確保數字環境的公平
86、性,刺激競爭激烈的數據市場,為數據創新驅動提供機會。數據法案的監管對象主要為互聯網產品的制造商、數字服務提供商和用戶等。按照歐盟立法設計,數據法案旨在為非個人數據的利用,涵蓋各種智能設備、自動化生產線、自動駕駛汽車等產生的數據,提供公平的訪問和共享框架,綜合采用歐盟數據法案“一體雙標”的各項立法舉措,有助于釋放符合歐盟數據治理規則和價值觀的數字經濟潛力,但過度監管和合規成本快速增長也會造成壓制科技公司的創新意愿和業務成長的風險。(二)英國英國在脫離歐盟之前適用于 GDPR,但是2018 數據保護法案已在國會25內通過,被用于替代1988 數據保護法案并對 GDPR 做出具有英國特色的細節補充。
87、英國脫歐過渡期于 2020 年底結束,GDPR 不再適用于英國,英國信息專員辦公室最近發布新的標準化條款工具包,一是國際數據傳輸協議(IDTA),可以作為一個獨立的協議來執行,以配合主要的商業合同,確保數據傳輸符合英國的數據保護法;二是歐盟 2021 年標準合同條款的附錄(英國附錄)。2022 年3 月 21 日起,上述 IDTA 和歐盟 2021 年標準合同條款的附錄(英國附錄)正式生效。英國脫歐后,不斷指定新的有關數據保護的政策與法律,2021 年 1 月 1 日通過的英國通用數據保護條例(UK GDPR)將成為新的保護公民個人數據權利的法規,該法規適用于以下場景:在進行數據處理的有關活動
88、時,無論數據處理是否發生在非歐盟成員國家或地區;數據處理的個人數據與在英國的數據主體有關;數據處理活動與在英國提供的商品或服務有關。除此之外,英國通用數據保護條例與原來的 GDPR 相比有以下幾點變化:數據處理通知需要數據控制者付費;對第三方轉移個人數據增加了限制;與信息社會服務相關的許可年齡從 16 歲變為 13 歲;禁止處理特殊類別的個人數據,除非該數據處理在本法列出的例外范圍外。2022 年 1 月 25 日,英國政府發布國家網絡安全戰略,對英國政府如何確保公共部門有效應對網絡威脅進行了闡釋,并描繪了戰略遠景。3.2.3 亞洲(一)日本日本對于個人信息的跨境流動十分嚴格,不僅制定了相關法
89、律,還設置了相關機構進行監管;同時為了促進貿易合作伙伴之間的數據自由流動,與其他國家簽訂了相關的協定。對于發展過程中產生的新數據和新問題,日本會對相關的法律法規進行修訂,以確保相關數據保護制度的完備性。2015 年,日本修訂個人信息保護法,強化了關于數據跨境流動的細則條款,其中包括要求設立個人信息保護委員會作為數據跨境流通的監管機構,負責制定數據出境的規則和指南;當個人將境內數據向外傳輸時,需要得到數據主體的授權方可進行。與此同時,日本在全面與進步跨太平洋伙伴關系協定(CPTPP)、日歐經濟伙伴關系協定(EPA)、以及正在談判中的區域全面經濟伙伴關系協定(RCEP)、中日韓 FTA、日英 FT
90、A 等多邊和雙邊國際貿易協定中增加關于跨境數據流動的規則,推動與其他國家和地區的數據自由流動。2020 年,日本再次修訂個人信息保護法,在各方權利義務問題上進行26了全面修訂,當個人權益或正當權益可能受到侵害時,個人擁有主張停用、刪除等請求權。同時也加強個人信息處理者的責任與義務,增加了違規處理個人信息的成本。除此之外,該修正案細化了信息處理方式,區分了“匿名加工信息”和“去標識化信息”,前者具有無法識別特定個人且無法復原的特點,而后者可以通過與其他信息相對照,可以識別特定個人。2021 年日本對該法再次進行修訂,核心內容是將個人信息保護法、行政機關保有的個人信息保護法和獨立行政法人等保有的個
91、人信息保護法整合在一部法律中,為了實現個人信息保護法在公法和私法之間的統一。這一規定在醫療和學術領域將和私法適用相同的規則。(二)新加坡新加坡建立了完善的個人信息保護制度和相應的監管框架,監管體系重點包括設置主管部門、劃分責任邊界、設定跨境流動條件、開展國際協調、明確基礎設施要求等方面。構建完善、系統的數據跨境流動管理規則,有助于實現全球數據向新加坡匯聚和流動,將新加坡打造成為數據融合的重要中心節點城市。對于個人數據的保護,新加坡則通過建立個人數據保護制度和完善相應的監管體系,建立起數據跨境流動管理的制度框架,實現對數據跨境流動的管理。2012 年 10 月 15 日,新加坡國會通過個人數據保
92、護法(PDPA),并于2014 年起全面實施。PDPA 通過加強對機構的問責來增強用戶的信任,并且新增了基于通知的推定同意規則,在對數據進行處理時可將數據使用目的通知個人并給予個人拒絕的權利。為了確保該法的有效執行,PDPA 建立了一套糾紛解決機制來處理個人的投訴。最后,為了達到更好的懲戒作用,PDPA 加大了對機構的處罰力度。2013 年 1 月 2 日,新加坡頒布 PDPA 的附屬條例個人數據保護條例(PDPR)及其實施細則,該條例與 PDPA 共同構成了新加坡數據管理體系的法律框架,在該法律體系下,個人數據的內涵和邊界的界定、個人數據保護的責任設置都有了明確的規定。除了對個人信息的保護之
93、外,新加坡還建立了完善的數據跨境流動監管體系,主要包括主管部門的設置、責任邊界的劃分、跨境流動條件的設定、國際協調的參與以及基礎設施的設置。監管主要包括事前監管和事后監管兩個階段,事前監管主要通過指定規則來實現,事后監管主要根據投訴和訴訟進行監管和執法。(三)印度印度對于數據保護持中間態度。一方面想要融入全球數字經濟發展格局,故不想實施過于嚴格的數據保護措施;另一方面又想保護個人信息安全和國家安全,故也不允許數據不受監管地任意流動。因此,印度正在探索適應本國國情的中間化道路。對于個人數據,印度也出臺了相關的保護法案,并且對于其中的項目條27款做了明確的規定,只要符合相關規定,數據流通的限制不再
94、限于境內,這較于其他國家的規定更為寬松。2018 年 7 月 27 日,印度高級別專門委員會正式發布了2018 年個人數據保護法案(草案)(PDPB),并于 2019 年 12 月 11 日對該草案進行了修訂,發布了2019 年個人數據保護法案(送審稿),并提交國會進行審議。該法內容主要包括適用范圍、排除適用規則、重點術語定義、與個人信息安全保障相關的數據控制者的義務、數據主體的權利、數據安全使用保障措施、數據跨境輸出、數據保護監管機關、救濟與罰則等。該規定不僅適用于在印度境內收集、披露、分享或以其他方式進行處理的數據,還適用于不在印度境內但滿足以下行為的數據:與在印度經營的業務是相關的,或者
95、與向印度境內的數據主題提供商品或者服務的活動有關;與對印度境內數據主體的畫像活動有關。最后,可以將規定中的數據受托人理解為數據控制者。3.2.4 中國中國對于數據流通的規定主要體現在兩個方面,一方面對于數據流通有嚴格的限制,制定了一系列相關的制度標準;另一方面將數據的保護和利用結合起來,促進數據價值利用,對于數據保護強調國家總體安全觀,以安全為指導原則進行管理,在這個基礎上對數據進行合理地開發與應用。2021 年 6 月 1 日頒布數據安全法,對數據采取的治理邏輯為保護加利用,一方面基于國家安全戰略方面對數據的審查、評估、管理等方面制定了嚴格的政策與措施;另一方面為數據的要素化、充分挖掘數據的
96、巨大潛能提供了重要的制度保障。這是整個數據行業的基本法,級別超過了網絡安全法,更加強調總體國家安全觀,它以數據為核心,對信息社會、數據時代起基礎性支持作用,其本質上是以安全為基礎和起點,終極目標是數據作為生產要素能夠加速流通。2021 年 11 月 1 日生效的個人信息保護法,是繼民法典將個人信息作為一項重要民事權利予以保護后的首部細化規則,具有更強的針對性和可操作性。對將告知-同意確立為個人信息保護核心規則、強調禁止大數據殺熟、對個人敏感信息采取嚴格保護措施、強化個人信息處理者的義務四個重點方面進行規定,從而做到對個人數據進行全方位保護。283.3 數據流通標準發展現狀3.3.1 國際標準(
97、一)概述經過近幾年數據要素安全流通技術的快速發展及應用需求加大,數據要素安全流通技術的相關標準相繼在國際上制定。這些國際標準主要側重于同態加密、秘密分享、多方安全計算、隱私計算等基礎技術。在 ISO/IEC JTC1 SC27 中,從 2019 年開始啟動隱私計算相關標準的制定。目前已發布同態加密、秘密分享的國際標準,多方安全計算的國際標準也即將制定完成,我國牽頭的零知識證明的國際標準剛立項。在 IEEE 中,從 2020 年開始,主要由我國主導制定隱私計算相關的國際標準。目前已發布共享學習、多方安全計算、安全計算、聯邦學習等方面的國際標準,正在制定隱私計算一體機、隱私計算互聯互通、隱私計算安
98、全要求、聯邦學習安全要求等方面的國際標準。在 ITU-T 中,從 2020 年開始,我國在 SG16、SG17 中主導制定隱私計算相關的國際標準,目前已發布共享學習、多方安全計算相關的國際標準。目前,也有一些隱私計算應用類的國際標準,在陸續立項的過程中。整體來看,從 2021 年開始,數據要素安全流通的國際標準具備面向安全層面、互聯互通層面、應用層面的發展趨勢。(二)ISO 國際標準2019 年,ISO/IEC JTC1 SC27 開始制定數據要素流通相關的國際標準,具體如表 3-1 所示:表表 3-1 數據流通相關的國際標準數據流通相關的國際標準標準編號標準編號標準名稱標準名稱標準進展標準進
99、展ISO/IEC4922Information technologySecure Multi-Party ComputationCD 階段ISO/IEC19592-1Information technologySecurity techniquesSecret sharing已發布ISO/IEC18033-6Information technologySecurity techniquesPart 6:Homomorphicencryption已發布ISO/IEC18033-8Information technologySecurity techniquesPart 8:Fullyhomomo
100、rphic encryption已立項ISO/IEC27565Guidance on privacy preservation based on zero knowledge proofs已立項(三)IEEE 國際標準IEEE 中數據要素流通相關的標準項目如表 3-2 所示:29表表 3-2 IEEE 的數據流通相關標準的數據流通相關標準項目編號項目編號項目名稱項目名稱當前狀態當前狀態P2830Standard for Technical Framework and Requirements ofTEE-based Shared Machine Learning2021 年發布P2842Rec
101、ommended Practice for Secure Multi-Party Computation2021 年發布P2952Standard for Secure Computing Based on Trusted ExecutionEnvironment2021 年發布P3652.1Guide for Architectural Framework and Application ofFederated Machine Learning2021 年發布P3156Standard for Requirements of Privacy-Preserving ComputationInt
102、egrated Platforms2022 年立項P2986Recommended Practice for Privacy and Security for FederatedMachine Learning2020 年立項P3117Standard for Interworking Framework for Privacy-PreservingComputation2021 年立項IEEEP3169Standard for Security Requirements of Privacy-preservingComputation2022 年立項(四)ITU-T 國際標準ITU-T 中數
103、據要素流通相關的標準項目如表 3-3 所示:表表 3-3 ITU-T 的數據流通相關標準的數據流通相關標準項目編號項目編號項目名稱項目名稱項目狀態項目狀態ITU-TF.748.13Technical Framework for Shared Machine Learning System已發布ITU-TX.1770Technical Guidelines for Secure Multi-Party Computation已發布3.3.2 國內標準(一)概述數據要素安全流通方面的國家標準主要側重在數據安全方面,已發布的國標包括數據管理能力評估、數據交易服務安全、數據安全能力評估、數據安全管理等
104、。目前還缺乏隱私計算相關的國家標準,目前已有關于聯邦學習、隱私保護機器學習、機密計算等方面的國家標準正在立項流程中,后續有望加速推進。在電信與互聯網領域的行業標準方面,CCSA(中國通信標準化協會)從 2020年開始立項了多項隱私計算方面的行業標準,包括聯邦學習、多方安全計算、可信執行環境、隱私計算一體機、隱私計算互聯互通等,目前已基本制定完成。后續將繼續制定隱私計算在金融領域、互聯網領域、教育領域等方面的行業標準。在金融領域的行業標準方面,全國金融標準化技術委員會(簡稱金標委)在302019 年就啟動制定多方安全計算的行業標準,2020 年發布。目前已立項聯邦學習的行業標準,標準草案正在制定
105、中??尚艌绦协h境方面,還在團體標準孵化的流程中,行業標準還有待后續推進。金融領域中隱私計算應用實施指南類的行業標準,也還缺乏,需后續加快制定。在團體標準方面,CCSATC601 大數據標準化推進委員會隱私計算聯盟是制定隱私計算團體標準的主要陣地,已發布聯邦學習、多方安全計算、可信執行環境、隱私計算一體機、隱私計算金融應用規范等多項團體標準。這些團體標準也同步在 CCSA 推進為行業標準。(二)國家標準在國家標準方面,主要為全國信息安全標準化技術委員會(簡稱信安標委)所發布,如表 3-4 所示:表表 3-4 國家標準國家標準標準組織標準組織標準名稱標準名稱當前狀態當前狀態信安標委GB/T 360
106、732018 數據管理能力成熟度評估模型已發布信安標委GB/T 37932-2019 信息安全技術 數據交易服務安全要求已發布信安標委GB/T 37988-2019 信息安全技術 數據安全能力成熟度模型已發布信安標委GB/T 37973-2019 信息安全技術 大數據安全管理指南已發布(三)CCSA 行業標準CCSA 所發布的行業標準如表 3-5 所示:表表 3-5 CCSA 行業標準行業標準標準名稱標準名稱當前狀態當前狀態大數據 數據安全服務能力分級要求在研多方數據共享服務數據安全技術實施指南在研網絡環境下應用數據流通安全要求在研隱私保護場景下多方安全計算技術指南報批稿基于可信執行環境的安全
107、計算系統技術框架報批稿互聯網廣告 隱私計算平臺技術要求征求意見稿隱私計算 跨平臺互聯互通系列標準征求意見稿隱私計算 產品安全要求和測試方法系列標準征求意見稿隱私計算 產品功能要求和測試方法系列標準征求意見稿隱私計算 產品性能要求和測試方法系列標準征求意見稿隱私計算應用一體機技術要求征求意見稿區塊鏈輔助的隱私計算技術工具 評估要求與測試方法征求意見稿隱私計算應用 面向金融場景的應用規范征求意見稿隱私計算應用 面向通信場景的應用規范征求意見稿可信數據服務 可信數據流通平臺評估要求在研面向多方數據流通的貢獻度評估的安全技術指南在研網絡環境下應用數據流通安全要求在研31(四)金標委行業標準金標委所發布
108、的行業標準如表 3-6 所示:表表 3-6 隱私計算相關的行業標準隱私計算相關的行業標準標準名稱標準名稱當前狀態當前狀態JR/T 0196-2020 多方安全計算金融應用技術規范已發布聯邦學習金融應用技術規范已立項(五)團體標準CCSATC601 大數據標準化推進委員會隱私計算聯盟中,隱私計算相關的團體標準如表 3-7 所示:表表 3-7 隱私計算相關的團體標準隱私計算相關的團體標準標準名稱標準名稱當前狀態當前狀態基于多方安全計算的數據流通產品 技術要求與測試方法已發布基于聯邦學習的數據流通產品 技術要求與測試方法已發布基于可信執行環境的數據流通產品 技術要求與測試方法已發布隱私計算 多方安全
109、計算/聯邦學習/可信執行環境 產品功能/性能/安全 要求和測試方法系列標準已發布隱私計算應用一體機技術要求已發布隱私計算 金融應用技術規范與測試方法已發布3.4 數據流通技術發展現狀數據流通技術目前并沒有統一的認知,且在數據流通過程中用到的技術具有多樣性,分析的角度不同得到的結論也不盡相同,如按照是否有中心化節點,分為去中心化數據流通和中心化數據流通,也可以按照數據生命周期進行劃分,分為采集階段、傳輸階段、存儲階段、處理階段、交換階段、銷毀階段的數據流通,或按照是否出域劃分為內部流通技術、外部流通技術。本著關注重要關鍵環節的原則,白皮書定義的數據流通技術指在數據流通過程中,包括傳輸和計算所使用
110、的技術。在原有的數據流通方式下,不管是機構內部的數據共享還是多方機構進行共享,離不開的問題是數據是否會通過傳輸和交互的方式出私域,以實現價值。從數據流通方式不同來看,分為明文、明文+脫敏、隱私計算三個階段。3.4.1 明文方式流通該階段數據合作方將自己的數據以明文的方式開放共享給需方使用,可采用物理介質傳輸、網絡傳輸等方式;多方數據合作采用的是明文匯集的方式,并在明文的基礎上進行統計分析等業務應用。32該階段在實際技術應用中,主要是通過基礎的網絡安全傳輸協議 TLS/SSL等進行明文的傳輸。圖圖 3-1 明文方式流通明文方式流通該階段的特點是合作方普遍對數據沒有安全性意識,且數據量并不大;目前
111、仍有相當規模的數據市場采用該方式進行數據流通。此外,該階段原始數據出私域,存在被緩存、復制、轉售的風險,數據安全風險非常高。3.4.2 明文+脫敏方式流通該階段數據合作方采用明文+脫敏的方式進行數據流通。隨著技術的發展,該階段一般與 API 傳輸的方式結合提供,當然,也存在少量以數據包方式提供的方式。數據提供方會將原始數據進行融合、清洗,建模等一系列加工后最后形成數據接口提供給下游,流通的關鍵信息會進行匿名化處理。該階段通過一定方法消除原始環境數據中的敏感信息,具體而言,將部分敏感的數據用脫敏的方式進行預處理,再通過物理介質或者網絡等方式進行傳輸。目前在GB/T 37964-2019 信息安全
112、技術 個人信息去標識化指南中描述了常用的去標識化技術,有主統計技術、密碼技術、抑制技術、假名化技術、泛化技術、隨機化技術、數據合成技術等,模型方面主要應用 k-匿名模型和差分隱私模型。這些技術所針對的數據范疇雖不同,但在實現時所采用的技術方案基本一致,計算性能高,適用于大數據量處理。33圖圖 3-2 明文明文+脫敏方式流通脫敏方式流通目前數據流通市場以該方式為主,但該階段的缺點同樣明顯,脫敏后,數據本身的效用會有一定降低,可追溯性變差,使多方融合結果容易出現偏差,數據價值利用效果不理想,價值挖掘不充分;數據脫敏后的去向和使用難以從技術上有效控制;在 API 查詢模式下,查詢方 ID 容易暴露于
113、數據提供方,被用于名單制作;沒有從根本上解決數據出域以及暴力破解而造成的數據泄漏風險;多家供應商 API 接口的不統一也會引發需求方的適配性問題;API 模式產品一般只會開發資產專用性低,容易以集市交易模式進入數據流通市場的數據產品,無法很好的滿足需求方的定制化需求。3.4.3 隱私計算方式流通隨著國家對數據安全要求的提高,數據合作方逐漸加深對數據安全的理解,數據流通的方式也在不斷的更新和發展。該階段數據采用密碼學或可信執行環境的方式進行,從技術層面保障數據在流通和融合的過程中“可用不可見”,解決前兩個階段的問題。圖圖 3-3 一種密文方式流通方案一種密文方式流通方案該階段下,即使在多方協作場
114、景下,數據也可做到不出私域,都在本地進行34相應計算操作,過程中通過不可逆的加密方式進行整體交互,最終獲得安全且有效的數據價值;支撐了很多不愿開放、不敢開放其數據的數據提供方參與到數據流通市場中來。隱私計算是數據流通方案的全面升級,真正實現了數據可用不可見,數據不動價值流通。3.4.4 數據流通技術四象限針對數據流通技術的傳輸和計算過程,總結技術特征,提出數據流通技術四象限模型,如圖 3-4 所示。圖圖 3-4 數據流通技術四象限模型數據流通技術四象限模型第 I 象限:明文傳輸+明文計算最傳統的數據流通方式,數據在網絡空間中以明文方式存在,安全性極低最初的聯邦學習算法為此類算法;為了確保該方式
115、的實用性和安全性,通常會結合脫敏的方式進行,如加噪音、結合密碼學等技術方式,隱私計算體系中聯邦學習可歸屬于該象限。第 II 象限:密文傳輸+明文計算傳輸過程中對數據進行加密,加密方式可采用對稱及非對稱方式,匯集到計算點后,解密進行計算;該模式存在數據權屬轉移的問題,需要在數據流通前做好數據權屬的確定;隱私計算體系中的可信執行環境,也屬于該象限。第 III 象限:密文傳輸+密文計算傳輸和計算均在密文狀態下進行,該方式是完全基于密碼學的方式進行,主要技術實現方式有同態加密、秘密共享、混淆電路等算法/協議,或基于算法/協議構成的多方安全計算協議。第 IV 象限:明文傳輸+密文計算暫不存在該種流通方式
116、。35第 4 章 數據可信確權技術4.1 數據可信確權概述數據確權是明確和保障數據活動主體的合法權益、主客體間法律關系以及數據活動的合法性。只有產權清晰的數據才能實現產權分置,順利進入要素市場,因此數據確權是構建數據要素市場的基礎和前提。從宏觀上,數據確權需從兩個層面去實現,一是從法律與制度的層面確定“權”與“屬”;二是通過技術手段解決權屬邊界模糊、真實記錄主體參與數據活動的過程。二者相輔相承缺一不可。在立法與制度層面,2015 年,國務院發布促進大數據發展行動綱要,明確指出要研究推動數據資源權益相關立法工作;2017 年,在中共中央政治局就實施國家大數據戰略進行第二次集體學習會議上,習近平書
117、記明確強調要制定數據資源確權、開放、流通、交易相關制度,完善數據產權保護制度等內容。此外,學術理論研究和實務也深入數據確權和構建數據權利制度研究,并取得了部分新穎、前沿性的成果,如初步構建了數據權譜系6;概括總結了法學界四大主流“數據權利與權屬”觀點7;大數據戰略重點實驗室 2017 年發布的數權法以規范數據關系為內容,對數據的權屬、權利、利用進行了法理闡釋等8。但由于我國民法總則物權法知識產權法反不當競爭法等上位法層面均未明確數據法律屬性。因此,數據財產屬性和權利屬性仍不明確。在缺乏上位法依據的情況下,任何一種技術方案都無法獨立認證數據主體及其具備數據的合法權益。此外,由于數據本身的特殊屬性
118、,其本質是一串符號,具備無形性特征,其價值體現在所攜帶信息的價值或者處理的價值而非其本身,且具可復制性和復制零成本特征,導致數據存在無限復制的可能,但數據所攜帶的信息和價值卻未減損。而一旦數據被復制,導致數據產權的初始主體可能無法掌控數據的產權。因此要實現數據產權被某一主體唯一擁有,必須解決因數據被復制、被公開而導致的產權排他性喪失的問題。本次討論數據可信確權技術主要圍繞如何真實記錄不同主體參與不同數據活動的事實過程作為法規和制度建立后可踐行的基礎,以及如何通過技術的手段解決數據在流轉過程中易被復制導致權屬邊界模糊的問題。364.2 數據可信確權基礎支撐技術4.2.1 區塊鏈技術區塊鏈是一個通
119、過共識技術保證了最終一致性的分布式數據庫。區塊鏈技術具有公開透明、不可篡改、可編程和去中心化等技術特性,在數據確權過程中具有支撐作用。區塊鏈作為一個多方記賬的分布式可信賬本,可以對數據的產生、收集以及使用進行全流程過程管理和留痕,實現數據溯源,降低數據確權的難度。數據確權涉及到多方共識,沒有達成共識的權利是沒有意義的,因此數據的權屬關聯需要以區塊鏈的方式來達成共識并永久記錄在區塊鏈上。此外,基于區塊鏈進行分布式多方可信的數據目錄管理,通過智能合約可以保障數據用途和用量的可控可管,為數據這種特殊的數據要素在確權時提供了權益配比的依據。但由于區塊鏈技術為實現數據上鏈多方共識而需要放棄數據私密性,變
120、相的公開數據及其信息,侵損數據主體權益。4.2.2 分布式數字身份分布式數字身份是一種以區塊鏈為基礎,2009 年萬維網聯盟(W3C)發布首個分布式數字身份標準,將分布式數字身份的結構分為分布式生成、持有和驗證身份標識 DID(Decentralized Identifier)和承載身份數據的可驗證聲明 VC(Verifiable Credential)兩大模塊。圖圖 4-1 分布式數字身份結構分布式數字身份結構其中,分布式數字身份標識由一個特定格式且全局唯一的標識符和對應一個描述對象(DDO)組成。描述對象是一個 JSON 字符串格式的文檔,主要包含了標識符對應的一些公開信息,比如與 DID
121、 驗證相關的密鑰信息和驗證方法等。37這決定了分布式數字身份不是簡單的身份標識,而是主體賬戶數據與行為數據的集合。在數據確權過程中,基于上文中說明的數據上鏈,分布式數字身份可用于簽名標識主體對數據發生的數據行為,并通過區塊鏈進行記賬??沈炞C聲明是基于一種分布式的認證體系的產物,用戶通過分布式的社會關系獲得全面的身份認證,可以在無需透露身份隱私信息的情況下,通過“多方證明”來驗證身份??沈炞C聲明一方面確保了數據流通時主體的身份隱私,另一方面引入實名認證、生物認證等認證方式,可以滿足合法合規性的要求。4.2.3 數字水印數字水印指將特定的信息嵌入數字信號中,數字信號可能是音頻、圖片或是視頻等。數字
122、水印技術和傳統的密碼學方法不同,它是依據信息隱藏的思想將重要的可認證的信息嵌入到圖像、視頻、音頻及文本文件等數字多媒體的內容中,一旦需要,則可以提取預先嵌入的信息,對產品的完整性以及進行認證和證明。這在數據確權場景下就可以將數據相應的權屬信息嵌入數據內容中,從而實現數據的確權。貴陽大數據交易所率先使用數字水印技術為大數據確權9,由數據源供應商提出確權請求,在確權請求、證據挑戰和驗證階段,引入審計中心,數據源供應商和審計中心基于隱私保護數據持有性證明和抽樣技術交互完成大數據的完整性審計,由數據源供應商將能唯一標識自己身份信息的數據發送給水印中心,請求水印生成,水印中心將生成的水印發送給數據源供應
123、商,由數據源供應商完成水印嵌入數據塊的工作,區塊鏈記錄完整的交易過程。圖圖 4-2 貴陽大數據交易所數據確權流程貴陽大數據交易所數據確權流程但無論何種數據確權的技術方案都無法獨立于立法和制度實現數據主體及其合法權益的認證?,F階段,在相關法律尚未完善的情況下,該方案是國內首個對數據確權先行探索實踐的技術方案,為后續數據確權技術路徑提供了思路:數字水印技術作為一種可驗證的信息嵌入技術,可以將主體及主體對數據行為記錄在數據內容中,需要時提取以證明數據流通過程中數據權屬轉移路徑。384.2.4 數據存儲加工階段通常情況下,原始采集的數據經進一步加工處理后才可成為要素,進而通過深度和專業的融合分析使數據
124、價值融入經濟運行。數據存儲加工階段的數據確權是明確哪些主體具備對數據加工分析的資質以及記錄參與進行數據加工分析的主體。(一)主體資質驗證數據加工分析資質應基于法規與制度由相關監管機構核發。同時體現在主體的分布式數字身份中,由相關核發機構向主體頒發可驗證聲明(VC),通過鏈上驗證主體的可驗證聲明(VC)判斷主體是否具備對數據加工分析的資質。(二)記錄參與主體在實際對數據進行加工分析時,需要記錄具體參與主體及可量化的參與事實。區塊鏈在多方協同的場景下可以通過可編程的智能合約實現對參與方及各方工作量的證明和記錄。將數據加工分析的信息以數字水印的方式嵌入數據要素內容中,永久跟隨數據要素的全生命周期。(
125、三)數據要素存儲同樣在多方協作的場景下,對與最終產生的數據要素的持有與存儲,去中心化文件存儲系統提供一種很好的解決方案,IPFS 是典型的分布式文件存儲系統。但原生的 IPFS 系統沒有權限管理功能,因此可以結合分布式數字身份,通過分布式數字身份中的權限控制能力重塑存儲空間與主體綁定的帶權限管理功能的IPFS 系統存儲數據。4.2.5 數據流轉階段(一)數據要素流轉階段的產權保護于數據本身的特殊屬性,其本質是一串符號,具備無形性特征,其價值體現在所攜帶信息的價值或者處理的價值而非其本身,且具可復制性和復制零成本特征,導致數據存在無限復制的可能,但數據所攜帶的信息和價值卻未減損。而一旦數據被復制
126、,導致數據產權的初始主體可能無法掌控數據的產權。因此要實現數據產權被某一主體唯一擁有,必須解決因數據被復制、被公開而導致的產權排他性喪失的問題。在數據流轉使用時,采用多方安全計算、聯邦計算、可信執行環境等隱私計算技術進行數據處理,僅將分析結果定向公布給數據使用者,能實現敏感信息的“可用不可見”,可以解決因數據公開而導致的生產要素排他性消失問題,從而維護數據要素的產權,實現所有權和使用權的分離。具體流程如下:基于非對稱加密技術,數據使用方生成一對公私鑰。數據使用方通過智能合39約發起一個數據使用請求,包括使用數據時的參數的哈希、目標數據的哈希、數據使用方的公鑰以及使用私鑰對前述信息的簽名。數據擁
127、有方則通過數字簽名針對該使用請求進行授權??尚诺谌将@取授權后處理數據使用請求,對數據使用結果進行加密,并將加密結果提交到區塊鏈上?;跀底趾灻炞C技術,區塊鏈通過智能合約對加密結果的有效性進行驗證,即保證請求參數、加密數據、數據處理算法以及加密結果的一致性。數據使用方獲取加密結果,并使用私鑰獲取結果原文,從而完成整個數據使用流程。在整個過程中,智能合約作為驗證工具,保證了整個數據流轉的有效性。該方案不僅可以將數據所有權、使用權分離,還可對數據的收益權進行確權及記錄。具體來說,數據擁有方可以將數據的收益權單獨剝離出來,授予多個第三方,并將授權信息發送至智能合約。當數據產生收益時,該收益將通過智
128、能合約上的收益權記錄自動進行分配,分配記錄也存在區塊鏈上,當然,目前區塊鏈上的收益分配僅作為最終收益分配的依據,實際的分配還是在鏈下進行。(二)數據權屬的轉移在數據傳輸和共享的場景下,數據確權的問題為所有權或使用權的轉移。引入代理重加密技術,原數據擁有方與新的數據擁有方通過區塊鏈完成轉換密鑰的約定,數據存儲節點通過轉換密鑰完成將加密數據轉換為使用新的數據擁有方的公鑰進行加密,該步驟完成的同時,使用數字簽名技術生成確認消息并提交到智能合約,由智能合約完成最終的數據所屬權轉移。40第 5 章 數字資產化技術5.1 數據價值評估概述隨著科技的發展和社會生產力的進步,數據信息呈現指數級增長,而這些數據
129、不僅包含大量信息,而且有巨大的利用價值。與此同時,越來越多的企業將公司生產經營活動產生的數據作為公司的重要資產,數據資產化已逐漸成為主流,而如何評合理而準確地評估數據的資產已成為一個重要議題?!皵祿Y產”一詞最開始是指政府債券、公司債券和實物債券等資產10,2018 年,數據資產的概念得到了延拓11,將其定義為擁有數據權屬、有價值、可計量、可讀取的網絡空間中的數據集。參考以上定義,可以一定程度上對數據資產進行認定。但在完成數據資產認定后,則需衡量該資產的重要性并量化其價值,此時需對數據資產的價值進行評估。數據資產的價值受多項因素的影響,從不同影響因素出發,可派生不同的評價維度和評價指標,進而形
130、成不同的評價方法。數據資產價值的不同影響因素之間彼此互相作用,形成錯綜復雜的關系,因此確定數據資產價值的影響因素十分重要。從數據自身角度看,數據資產的價值由描述數據自身特性的指標決定,包括質量、規模、準確性、時效性等。從安全合規角度看,數據資產的價值受數據的權屬和安全性的影響,由于信息技術的發展,數據的復制與傳播變得越來越容易,個人隱私、企業信息和國家安全信息的泄露風險日益增大,因此安全問題成為全社會關注的焦點。從財務角度看,數據資產的取得成本是需要考慮的重點問題,數據信息系統的建設與維護費用是數據資產管理成本的主要構成,包括收集數據、存儲數據、處理數據產生的各種費用。目前,針對數據資產的價值
131、評估主要圍繞數據資產價值評價維度、數據資產價值評價指標體系、數據資產價值評價指數、數據資產價值評估個內容逐步展開。數據資產的價值維度指數據資產價值的體現方面,包括效用價值、成本價值、戰略價值、交易價值個維度12,這些維度從不同方面描述了數據資產的價值,為接下來的評價指標體系奠定了基礎。數據資產價值評價指標體系是數據資產價值維度的具體指標體現,維度所描述的更高層次還需要進一步細分,即數據資產價值的具體評價指標需要進一步明確。關于數據資產指標體系的建立,可使用顆粒度、多維度、活性度、規模度和關聯度個維度對數據資產的價值進行衡量13。在建立起數據資產價值評價指標體系后,需根據這些指標計算出數據資產價
132、41值指數?;跀祿Y產價值評價指標體系,計算數據資產價值指數的方法主要有層次分析法、專家打分法、層次分析與模糊綜合評價結合方法。其中層次分析法是將決策問題按總目標、各層子目標、評價準則直至具體的備投方案的順序分解為不同的層次結構,然后用求解判斷矩陣特征向量的辦法,求得每一層次的各元素對上一層次某元素的優先權重,最后再加權和的方法遞階歸并各備擇方案對總目標的最終權重,此最終權重最大者即為最優方案。而專家打分法用于為具體的指標進行打分。模糊綜合評價法是基于模糊數學的綜合評價方法,它根據隸屬度將定性評價轉化為定量評價,利用模糊綜合評價得出的結果,具有清晰明了、系統性強的特點,適用于非確定性問題的解
133、決。由于價值評價指數可以反映市場相對水平,因此可以將指數與數據資產價值評估方法結合,對評估結果進行修正。目前傳統的數據資產價值評價方法主要為成本法、收益法和市場法三種基本方法。成本法的原理是從產生數據資產所需花費的成本進行評價,在此基礎上扣除各種貶值因素,并考慮數據資產的預期使用溢價,加入數據質量、數據基數、數據流通以及數據價值實現風險等數據資產價值影響因素進行修正,從而估算出標的數據資產的價值。收益法的原理是對數據資產投入使用后的預期收益能力進行評價,考慮資金的時間價值,將未來各期收益進行加總,從而估算出標的數據資產的價值。市場法的原理是基于相同或相似數據資產的可比市場交易案例進行評價,對數
134、據資產的價值密度、交易期日、容量等數據資產的性質等相關因素進行修正,從而估算出標的數據資產的價值。除了以上種方法之外,還有基于其他理論的數據資產價值評估方法。如博弈法、實物期權法、數據質量評估法、信息熵評估法、人工神經網絡系統模型和深度學習評估模型等。綜上所述,目前學界對于數據資產的評估方法已形成了一定的體系,有相關的研究和實踐。但由于數據的價值與場景緊密結合,還需因地制宜地選擇最合適的方法,才能使數據資產的價值得到合理而準確的評估。5.2 現有數據價值評估方案靜態定價策略較為經典的(無形)資產估值策略,參考中國資產評估協會在2020 年 1 月印發的資產評估專家指引第 9 號數據資產評估,其
135、建議了三種主要的度量方法:成本法、收益法和市場法。5.2.1 成本法成本法,又稱為“重置成本法”,是根據形成數據資產的成本進行評估的一種估值方式。其核心思想是將在“當前條件下重新購置或者建造一個全新狀態的42評估對象所需要的全部成本與合理利潤,減去各項貶值后的差額作為評估對象價值”的一種評估方法。盡管數據這類無形資產的成本和價值對應性較弱,且數據的成本有不完整性,但在企業內部可獲取所有信息時,是具備一定可行性的。其基本公式是:評估值=重置成本 (1 貶值率)或者:評估值=重置成本 功能性貶值 經濟性貶值數據資產的取得成本需要根據創建數據資產生命的流程特點,如在前文定義的數據全生命周期每個環節分
136、階段進行統計:數據采集、數據傳輸、數據存儲、數據分析、發布使用和刪除銷毀。但由于數據要素的特殊性,往往需要綜合考慮數據資產的成本與預期的使用溢價,對上述基本的成本法進行正:P=TC 1+R U這里 P 是評估值,TC 是數據資產總成本,R 是數據資產成本回報率,U 是數據效用。其中數據效用 U 是影響數據價值實現因素的集合,用于修正數據資產成本投資回報率 R。數據質量、數據基數、數據流通以及數據價值實現風險均會對數據效用 U 產生影響:U=1+l (1 r)這里、l、r 分別是數據質量系數、數據流通系數、數據壟斷系數、數據價值實現風險系數。即有:P=TC 1+R 1+l 1 r表表 5-1 成
137、本法計算邏輯成本法計算邏輯類別類別估算邏輯估算邏輯注釋注釋數據質量系數使用數據模塊、規則模塊和評價模塊綜合加權匯總而得。完整性、數據準確性和數據有效性約束。數據流通系數?其中代表開放數據、公開數據、共享數據和非共享數據四類數據,代表其數據量,是對應的數據傳播系數。開放數據、公開數據、共享數據和非共享數據四類的加權值。通常不用考慮非共享數據,因為其對整體流通效率影響可以忽略不計。數據壟斷系數系統數據量行業總數據量一般與行業和地域相關數據價值實現風險系數一般采用專家打分法與層次分析法獲得其風險系數。數據管理風險、數據流通 風險、增值開發風險和數據安全風險四個二級指標和設備故障、數據描述不當、系統不
138、兼容、政策影響、應用需求、數據開發水平、數據泄露、數據損壞八個三級指標。成本法具有一定局限性,主要包括不易區分、不易估算、不體現收益個方43面。不易區分:由于數據要素對應是生產經營中的衍生產物,故沒有對應的直接成本,同時在實際生產過程中,間接成本通常不易分攤;不易估算:數據要素的貶值等因素,由于場景的不同,所以影響因素也有不同,且這些因素涉及宏微觀背景、時效、準確性、體量等原因影響,通常不易估算;不體現收益:無法體現數據要素產生的收益。5.2.2 收益法收益法通過預計數據資產帶來的收益估計其價值,該方法的主要思路是通過估算待評估數據資產未來預期收益,并將預期值折現作為評估資產價值的一種方法。相
139、較于成本法,收益法注重的是數據資產能夠為企業帶來的超額收益的能力。這種方法在實際中比較容易操作,是目前對數據資產評估比較容易接受的一種方法。雖然目前使用數據資產直接取得收益的情況比較少,但根據數據交易中心提供的交易數據,還是能夠對部分企業數據資產的收益進行了解。其基本公式是:P=t=1nFt11+t?這里 P 是評估值,Ft是數據資產未來第 t 個收益期的收益額,n 是剩余經濟壽命期/收益期,是折現率,其中每一項 t 表明是未來第 t 年。表表 5-2 收益法計算邏輯收益法計算邏輯類別類別估算邏輯估算邏輯注釋注釋預期收益預期變動、收益期限、成本費用、配套資產、現金流量、風險因素等需要區分數據資
140、產和其他資產所獲得的收益。數據資產的獲利形式通常包括:對企業顧客群體細分、模擬實境、提高投入回報率、數據存儲空間出租、管理客戶關系、個性化精準推薦、數據搜索等。收益期收益期限不得超出產品或者服務的合理收益期法律保護期限、相關合同約定期限、數據資產的產生時間、數據資產的更新時間、數據資產的時效性以及數據資產的權利狀況等因素確定收益期限等。折現率折現率可以通過分析評估基準日的利率、投資回報率,以及數據資產權利實施過程中的技術、經營、市場、資金等因素確定。折現率與預期收益的口徑保持一致。收益法還有權利金節省法、多期超額收益法、增量收益法等諸多衍生估值方法。收益法也有一定的局限性,主要包括操作復雜、期
141、限不定、估算不準個方44面。操作復雜:數據要素的預期收益與傳統資產評估的度量不同,市面上無有效工具;期限不定:數據要素是動態的,導致使用期限也是動態的;估算不準:一些收益法無法作出“反事實推斷”,即在使用增量收益法等方法時,無法估算出“若沒有應用數據資產”情景下的收益,這在實際使用中需要額外注意。5.2.3 市場法市場法,又稱作“比較市場法”,是根據相同或者相似的數據資產的近期或者往期成交價格,通過對比分析,評估數據資產價值的方法。其核心思想是按照所選參照物的市場行價,通過比較待估數據資產與其差異,并加以量化、調整后,形成的資產評估方法。P=VCi=15Ci?表表 5-3 市場法計算邏輯市場法
142、計算邏輯類別類別估算邏輯估算邏輯注釋注釋可比案例數據資產的價值對于類似數據資產,可以從相近數據類型和相近數據用途兩個方面獲?。簲祿愋停河脩粜袨閿祿?、社交數據、交易數據等;數據用途:精準營銷、CRM 管理、風險控制等搜集類似數據資產交易案例相關信息,并從中選取可比案例技術修正系數1數據采集、數據傳輸、數據存儲、數據分析、發布使用和刪除銷毀等因素因技術因素帶來的數據資產價值差異價值密度修正系數2評估基準日價格指數可比案例交易日價格指數評估基準日與可比案例交易日期的不同帶來的數據資產價值差異期日修正系數3評估對象的容量可比案例的容量不同數據容量帶來的數據資產價值差異容量修正系數4有效數據和數據資產
143、總價值的單調遞增關系有效數據占總體數據比例不同帶來的數據資產價值差異其它修正系數5具體問題具體分析市場供需狀況差異、地域差異等市場法的局限性主要包括場景受限、多變性 2 個方面。場景受限:市場法假設了交易市場是“公開并活躍”的,這與當前各類交易所、交易平臺的交易規模小、評率低、收益少的發展現狀不一致,在業務實踐中,出于準確性考慮,“一般需要找到三個及以上的類似參照資產,將結果加權平均”,45在沒有好的參照物的情景中,市場法則較難啟用;多變性:隨著交易或市場不同,市場法的估算邏輯要做相應調整和分析,截止 2022 年初,國內數據交易主要涉及金融、交通通信等行業,但更多的行業、場景和市場方興未艾,
144、這將會帶了更高的復雜性和挑戰。5.2.4 經濟學視角度量方法小結上面的討論可以概括成下列表格,用于橫向對比:表表 5-4 三種主流靜態定價策略一覽表三種主流靜態定價策略一覽表類別類別簡述簡述優勢優勢劣勢劣勢成本法以資產形成的成本為基礎計量資產價值易于理解:以成本構成為基礎操作簡單:以成本加權計算為主不易區分:數據要素對應的是生產經營中的衍生產物,故沒有對應的直接成本,且間接成本的分攤不易估算;不易估算:數據要素的貶值因素在不同場景是不同的,且不易估算;不體現收益:成本法無法體現數據要素產生的收益。收益法基于預期收益評估資產價值的方法衡量實際價值:能有效衡量資產的實際價值操作復雜:數據要素的預期
145、收益與傳統資產評估的度量不同,市面上無有效工具;期限不定:數據要素是動態的,導致使用期限也是動態的;估算不準:在使用增量收益法等方法時,無法作出“不應用數據資產”情景下的收益估算。市場法在有效、活躍市場基礎上,選取可比案例進行資產評估反應市場:能客觀反應數據要素目前的市場情況真實、可靠:參數和修正系數都是客觀指標,相對真實、可靠場景受限:市場法假設交易市場是“公開并活躍”的,這與當前各類交易所、交易平臺的交易規模小、評率低、收益少的發展現狀不一致;多變性:隨著交易或市場不同,市場法的估算邏輯要做相應調整和分析。在國內外研究和實踐中,有如下方法:問卷調查法14:其有時被稱作條件價值評估法(CVM
146、 方法),一般參用對環境等公共物品進行價值評估,可參考英國倫敦交通局的做法,該研究通過對乘客、倫敦經濟、倫敦交通局 3 個目標對象展開問卷調查來估算開放數據產生的社會價值。對乘客而言,每年通過開發數據平臺的實時交通信息和路線規劃,節省了 70009000 萬英鎊的出行成本(問卷估算),對社會而言,估計為整個產業鏈貢獻 12001500 萬英鎊的增值和 700 余工作崗位。非貨幣度量估值法是一種根據特定的資產評估目的,選擇相關評估維度構建評估體系,并最終以歸一化且無量綱的形式展現評估結果的方法。其中以 Gartner提出的 IVI、BVI 和 PVI 三類評估模型更為完善,他們分別考慮的是從信息
147、的內46在價值、數據資產與業務的相關性指標和企業績效因子(KPI)來對數據價值進行評估。以騰訊游戲的大數據運營為例,其通過構建了數據資產的“三度”對數據資產的價值進行評估,明確了數據資產在企業中的作用,其思路即類似于 PVI方法。數據勢能法:普華永道在研的一種針對公共開放數據的新的數據定價方式。該方法在宏觀角度上,從國民經濟生產總值出發,剖析數據經濟總值占國民經濟之比例,通過成分分析層層推出公共開放數據可能的價值區間;在微觀角度上,從公共開發數據的特征及撬動其潛在價值的關鍵因素出發,推出“數據勢能”公式,即“公共數據資產價值”等于“公共數據開發價值”和“潛在社會價值呈現因子”與“潛在經濟價值呈
148、現因子”的乘積。通過結合專家打分法,普華永道已完成對 18 個已開放的省級公共數據開放平臺的實證評估。5.3 數據價值評估技術對比在數據挖掘視角下,通??梢酝ㄟ^評估數據對數據分析模型的貢獻來計算其在模型中的內部價值,同時可交叉使用(但不限于)市場法,類比同類場景/數據來進行交易決策;或者層次分析法,請專家針對數據的各評價指標進行打分,將定性評價轉化為定量指標,利用模糊數學方法或者別的數據驅動分析手段,最終得到數據資產價值。評估數據對數據分析模型的貢獻有以下主流方法:貢獻度度量方法:一種基于統計分析中對特征/數據重要性的衡量方法;沙普利值方法(SHAPLEY):一種基于博弈論的衡量參與方邊際貢獻
149、和剩余貢獻的方法。5.3.1 貢獻度度量方法貢獻度的概念,主要來源于數據挖掘中的幾個重要概念:特征重要性(Importance):進行預測時,每個特征的相對重要性/顯著性;數據杠桿點(Leverage points):數據的預測值偏離較大;影響點(Influence points):去掉某數據后,預測發生的變化較大。其中,“重要性”一個是相對的概念,也就是說,需要一個基線(Baseline)才能計算相對重要性,這個值越大則表明該特征越“重要”。這個值同時要保證“無量綱”性,否則比較就會失去意義,如“米”和“秒”并不可比?!帮@著性”是一個統計學意義下的專用術語,不是一個通常語言下的一般概念。其衡
150、量的是假設該特征/數據無效果(量化地說,即效果為 0)時,出現比觀測數據更極端情形的概率,即 p-值(p-value)。這個值越小,則表明該特征越“顯47著”,也就越“重要”。影響點和杠桿點沒有必然的聯系。在衡量某一參與方數據(假設特征都相同,不考慮引入的特征的話)的重要性時,通常的做法是考慮“影響點”,但很多業務實踐中,會誤用“杠桿點”甚至是“離群點”(Outliers)做“影響點”:需要明確的是,“杠桿點”的使用場景是對數據質量進行評估,而非數據對模型價值的評估。值得注意的是,在實際工作中,可以細致區分“數據貢獻度”和“特征貢獻度”,并加以綜合考慮。這樣做的一大好處,是可以將不同的貢獻度衡
151、量標準直接和隱私計算的不同場景一一對應起來:在類似橫向聯邦的場景,即數據分析模型的特征相同,不同參與方只是增加觀測時,可以使用數據貢獻度做主要度量。典型的場景如同一集團同一業務在跨國、跨洲業務中的數據分析,在做事后數據價值評估時就能使用該方法。在類似縱向聯邦的場景,即用戶相同,但參與方的特征擴充時,就可以使用特征貢獻度做為主要度量。典型的場景如聯合清算機構和傳統零售行業做聯合營銷,B2B 地推業務和其它渠道商做聯合新客推薦時的數據(特征)價值評估等。(一)數據貢獻度度量方法數據貢獻度的度量方法,源于一個直觀的問題:去掉某數據后,模型的預測會發生多大變化?在這里我們需要假定模型是固定的,否則衡量
152、結果不一定相同。在 1977 年,Cook 就研究了這個問題的簡化版,即刪除某一個數據點,會對模型(的預測)有多大影響。嚴格的敘述,假設觀測值是 Xi,Yi i=1N,其中Xi Rp是 p 維的特征向量,Yi是響應變量,n 為總樣本量;假設建模是|Y f(X)|2?求能達到最小的映射 f :f?=argminf|Yi f Xi|Norm?這里|Norm是某種范數。比如我們熟悉的最小二乘線性回歸,其可能的f x=+x,而范數取 L2 范數,此時我們需求的就是最優的,組合。為了衡量“刪除某一個數據點 j,會對模型的預測有多大影響”,可以這么做:(j)=1Ni=1n|f?xi f?jxi|?這里f?
153、j=argminfI i j|Yi f Xi|Norm?,即去掉數據點 j 后的預測結果。這個值越大,說明該數據點的影響也越大。統計學中,我們把(j)稱做數據點 j 的影響點。類似的,由于計算過程對單點(granular check)做還是批量做(holistic check),48計算過程是一致的,給定數據集 D 1,N,不妨定義:f?D=argminfI i D|Yi f Xi|Norm?以及數據集合 D 的影響值:(D)=1Ni=1N|f?xi f?Dxi|?于是在實際有 k 個參與方時,假設其數據集合分別為Dj,其中 j=1,k。令f?ALL=argminfiD1Dk|Yi f Xi|
154、Norm?那么第 k 個參與方的(數據)貢獻(Di)就是:(Di)=1#D1 DkiD1Dk|f?ALLxi f?Dxi|?這里#D1 Dk是合樣本量。舉例而言,某企業要將下屬兩個分支機構的數據合并分析,其數據分析模型為廣義線性模型(Generalized Linear Model),包含了四個特征X1,X2,X3,X4和響應變量 Y。具體數據分布和模型如圖所示。從上到下分別是在兩個分支機構的合數據,以及分支機構 A,分支機構 B 分別的的數據和模型情況??梢钥闯觯悍种C構 B 的數據分布方差表現合數據表現比較類似,線性模型趨勢也和合數據趨勢(都是向下)一致;分支機構 A 的數據分布方差表現合
155、數據小近一半,線性模型趨勢也和合數據趨勢相反(一個向上一個向下);需要注意的是,數據貢獻度(D)計算的是“刪除某一個數集 D,會對模型的預測有多大影響”,于是分支機構 A 的貢獻度對應的是右下圖 vs.右上圖,而分支機構 B 的貢獻度對應的是右中圖 vs.右上圖。這與 A、B 位于中、下的位置是反的。于是由于考慮刪除后的偏離度,直觀可以猜測分支機構 B 的數據貢獻度更大。實際計算也是如此:(DA)=0.10,(DB)=0.34。分支機構 B 的貢獻度更大。49圖圖 5-1 數據貢獻度實例,上中下分別代表合數據、分支機構數據貢獻度實例,上中下分別代表合數據、分支機構 A 數據、分支機構數據、分支
156、機構 B 數據數據事實上,基于上述分析,在隱私計算過程中,尤其是聯邦學習場景中,如果不需要精確計算(),則可以在協調方使用模型的中間結果做一些近似逼近,從而極大降低在整個流程中對價值估計的額外計算和信息傳輸開銷以及流程設計。(二)特征貢獻度度量方法特征貢獻度的度量方法,則有兩個源起:源于統計學習中的特征選擇方法:如前文所述,這個時候有基于統計的假設檢驗方法和基于統計學習的特征重要性計算,此類方法實際是一種類型,和數據挖掘中的通常方法基本保持一致;源于博弈論和可解釋機器學習的 SHAPLEY 方法:相較于第一種來源的方法,此方法具有更強的穩健性與可解釋性,也正是由于來源于博弈論,其可以在分配方式
157、上做更多拓展。對于特征貢獻度的方法,方法論上和數據貢獻度(D)的計算幾乎如出一轍:計算合數據的估計;假設去掉某參與方數據,得到新的估計,并做預測;使用新舊預測值的某種“差距”來評估特征貢獻度。造成有基于統計的假設檢驗方法和基于統計學習的特征重要性計算兩種方法的主要差別在于統計方法對模型有(隱藏的)分布假定(參數模型),而諸如50集成模型、可加模型等模型中的特征重要性,實際是將參數模型替換成經驗分布(如 XGboost 中用到的直方圖估計)或者就是使用 Bootstrap(神經網絡中的 BN層)或者蒙特卡洛抽樣方法(非參數 Bayes)的某種等價。即兩者的本質都是相同的。表 5-5 給出了一些常
158、見的特征貢獻度指標。表表 5-5 常見特征貢獻度指標常見特征貢獻度指標指標指標含義含義算法舉例算法舉例相 關 性 指標考察特征與相應變量(目標)的相關性:(?)(?)?2?2?需要聯合統計的技術如 DP/OT 進行處理。貢獻度判別標準:越靠近 1,指標正向(線性)相關性越強;越靠近 0,指標(線性)相關性越弱;越靠近 1,指標負向(線性)相關性越強。顯 著 性 指標構造特征的統計量(如 t-統計量、對數似然檢驗統計量、秩統計量),對如下假設檢驗進行顯著性和置信區間計算:0:=0其中表示待考察特征的效應(可以是多個參數同時檢驗),比如回歸模型中的系數、中位數等。針對聯邦學習中的統計推斷問題需要聯
159、合統計的技術如 DP/OT。如對數似然檢驗:2 0 無約束 2可以使用 OT/DP 技術計算合樣本的 MLE來做檢驗。貢獻度判別標準:p-value 越小越特征越顯著。樹 模 型 方法使用樹模型,對特征進行選擇和重要性量化。使用 CART/OCT/XGBoost 計算重要性,比如聯邦學習中的 SecureBoost 算法等。貢獻度判別標準:指標越大特征越重要。特 征 選 擇方案使用特征選擇和模型選擇手段量化特征和模型貢獻度。聯合 AIC/BIC;隱私計算中加入 LASSO、Dantzig 等懲罰的有監督模型;隱私計算中加入約束的無監督模型。貢獻度判別標準:指標越大特征越重要。5.3.2 SHA
160、PLEY 方法SHAPLEY 方法15(或叫 SHAP 方法:Shapley Addictive exPlanations)源起于博弈論,是一種在“可解釋”領域被廣泛采用的方法16。其處理的是多參與方情形下,對各參與方的份額的分配方法。SHAPLEY 主要思想是通過遍歷所有參與方可能的邊際貢獻組合,通過求平均來估計參與方的剩余貢獻??梢宰⒁獾竭@與之前基于決策論那種在原假設下(去掉數據或者特征)或對立假設(不去掉數據或者特征)下,求解損失的做法是不同的。具體而言,假設有 k 個參與方,每個參與者的數據集合定義為Dk,D=D1 Dk是合數據,或者稱為所有參與者組成的“聯盟”數據。假設對博弈的收益函
161、數為 V,其可以把數據集合映射成一個實數收益(空集的收益定為 0)。那么51在博弈(V,D)中第 i 1,k 參與方的貢獻,也稱為 SHAPLEY 值i(V)是:iV=1#D!Perm(D)V Si Di V Si?這里是D1,Dk的某種全排列,比如 k=3 時候,可以取 D1,D2,D3,D1,D3,D2,D2,D1,D3,D2,D3,D1,(D3,D1,D2),(D3,D2,D1)中的任意一個;Si是指序號小于 i 的集合。于是 SHAPLEY 值i(V)是一個所有可能的貢獻的加權平均。由于此方法是一個可加模型,所以實際上,既可以對數據維度(如橫向聯邦學習)也可對特征維度(如縱向聯邦)計算
162、 SHAP 貢獻度指標。這種組合平均實際是一種置換檢驗(Permutation Test),由于遍歷了所有組合,所以計算復雜度非常高。但也正因為此,我們可以衡量 SHAPLEY 度量的置信區間,也能進行快速逼近17-18。實際操作中,SHAPLEY 度量有使用的先決條件,概括起來需要滿足如下條件:不考慮額參與方有“負的貢獻”;若某參與方所有邊際貢獻為零,那么分配其收益為 0;聯盟收益等于參與方收益的代數和;若參與方在聯盟中地位相同(可置換而不影響結果),則分配到的收益相同;參與方收益可加,如果聯盟中有兩個博弈,參與者在兩個博弈總分配的收益值的和等于在合成博弈中的收益??梢钥闯銎溆休^多的改進空間
163、,比如在經濟學視角中,我們羅列了多種對收益可能造成影響的直接、間接因素,其中即有和利潤相關的客觀指標,也有社會、產業、人為決策等無法直接和利潤直接掛鉤的因素;對“理性人”和參與方地位平等的假設,也在一定程度上與當前的數據要素市場供需關系不符。有相當的研究在處理此類問題,如使用加權、引入圖計算等手段,不一而足。以下用一個例子來具象化 SHAPLEY 值的計算。假設有 A、B、C 三家公司,擁有三份數據集,當前需要輸入到業務模型中衡量三者的貢獻。首先要羅列的是,在不同組合下各公司的邊際貢獻表:表表 5-6 各公司的邊際貢獻表各公司的邊際貢獻表組合組合邊際貢獻邊際貢獻總和總和公司公司 A公司公司 B
164、公司公司 CA,B,C232438A,C,B434038B,A,C232438B,C,A0281038C,A,B23603852C,B,A0281038均值232438可以驗證該貢獻表符合 SHAPLEY 的使用準則,此時邊際貢獻可以這么看:比如 C 的邊際貢獻應該看(A,B,C)和(B,A,C)組合,其中(A,B)或者(B,A)的貢獻的和為 34,那么 C 的邊際貢獻就是 4;同理 B 的邊際貢獻應該看(A,C,B)和(C,A,B)組合,其中(A,C)或者(C,A)的貢獻的和為 38,那么 B 的邊際貢獻就是 0。而對于 SHAPLEY 貢獻度,我們考慮的是所有可能組合的加權平均,也就是,最
165、后一行的均值,就是對應的 SHAPLEY 值,即 2,32 和 4。由此,可以由總和收益 38,和 A、B、C 公司分別的 SHAPLEY 貢獻度 2,32,4 計算其贏得的收益或者對數據進行估值。53第 6 章 數據安全保障技術6.1 數據安全風險評估技術6.1.1 技術概述風險評估能夠幫助組織發現自身數據安全問題和短板,明確數據安全保護需求,為建設數據安全管理和技術手段指明方向,給出解決方案。風險評估是數據安全風險管理的起點,基于風險控制的思想建立自我持續改進和發展的數據安全管理體系,用合理的成本投入,達到可接受的數據安全目標,對內保護數據資產,將安全事件的損失和影響降到可接受程度,對外使
166、各利益相關方對組織充滿信心。6.1.2 數據安全風險評估技術路線數據安全風險評估的基本要素包括組織數據全生存周期的資產、威脅、脆弱性和安全措施,在開展數據安全風險評估時,基于以上基本要素通過現場訪談、文件調閱、技術檢測等方式進行。在進行數據調研時,會確定數據資產清單,從國家安全與社會公共利益影響、企業利益影響、個人權益影響等維度分析進行賦值,在上述數據調研結果基礎上,根據關鍵數據原則選擇重要程度較高的數據資產作為評估的重點;在安全管理方面,將按照國家、行業及組織數據安全政策和標準規范要求,核查組織是否建立健全數據安全管理規章制度,是否全面落實數據安全職責和安全責任;在數據應用場景識別方面,包括
167、識別業務流程或使用流程、相關數據活動、參與主體,形成數據應用場景分析報告;在資產梳理方面,將從業務和系統入手,系統梳理數據資產和數據流轉情況,調研數據全生存周期的安全防護現狀,核查數據安全是否合規;風險識別主要以人、管理為基礎,配合主機掃描、Web 應用掃描、安全基線核查和滲透測試等技術手段,從業務和系統方面進行資產識別、并對資產的 CIA進行等級賦值;基于資產識別及資產重要程度識別資產可能存在的威脅,威脅的來源、主體、種類、動機、時機和頻率,基于威脅的行為能力和頻率,結合威脅發生的時機,綜合計算威脅的等級;脆弱性識別應以資產為核心,識別可能被威脅利用的脆弱性,從技術和管理方面對脆弱性的嚴重程
168、度進行評估,并分別對脆弱性被利用難易程度和影響程度賦值。在識別脆弱性的同時,確認已采取的安全措施是否真正地降低了系統的脆弱性,抵御了威脅。結合資產 CIA 的重要程度、威脅和脆弱性等級,對數據安全風險進行賦值,評估數據安全風險等級。在對系54統進行風險評價時,分別從系統資產和業務兩方面進行風險評價。對于系統資產風險評價,可根據風險評價準則對系統資產風險計算結果進行等級處理。在進行業務風險評價時,可從社會影響和組織影響兩個層面進行分析。社會影響涵蓋國家安全,社會秩序,公共利益,公民、法人和其他組織的合法權益等方面;組織影響涵蓋職能履行、業務開展、觸犯國家法律法規、財產損失等方面。圖圖 6-1 數
169、據安全風險評估技術路線數據安全風險評估技術路線6.1.3 數據安全風險評估過程數據安全風險評估在原有信息安全風險評估理論基礎上,更多關注于數據資產本身的安全性,呈現出圍繞數據資產、強調數據應用場景的特點,數據資產所處環節相對復雜變化。根據數據安全風險評估結構,針對每一個數據安全風險,結合被影響的數據資產重要程度,選擇恰當的數據安全控制措施,實現數據分級分類管理與保護。傳統的信息安全風險評估主要是面向網絡環節下的數據安全載體資產,基于某個標準作為基準來設置評估項,展開相對靜態、固化的風險評估,無法順應數據流動過程中不同緩解、不同目標下的安全評估要求。數據安全風險評估以信息安全風險評估的框架為基礎
170、,面向數據本身及其數據處理活動,圍繞資產的重要程度、面臨的安全威脅、脆弱性及安全措施等評估維度,在數據資產識別、法律法規遵從、數據處理活動、數據跨境流動、數據支撐環節等方面建設針對特定數據應用場景的安全風險評估機制,數據資產所處環節相對復雜變化。55圖圖 6-2 數據安全風險評估流程圖數據安全風險評估流程圖(一)評估準備在啟動準備階段,對于數據安全風險評估的準備和項目需求溝通,是實施風險評估的前提。為了保證評估過程的可控性以及評估結果的客觀性,在數據安全風險評估實施前應進行充分的準備和計劃,數據安全風險評估的啟動準備階段包括:確定數據安全風險評估對象;確定數據安全風險評估范圍;組件適當的評估管
171、理與實施團隊;編制項目實施方案;召開項目啟動會。(二)數據資產識別數據安全風險評估在原有信息安全風險評估理論基礎上,更多關注于數據資產本身的安全性,數據資產清單主要包括數據類型、數據級別、數據量和數據所在位置、數據載體、數據責任與部門人。數據資產識別是一個“摸清家底”的過程,建立數據資產清單,掌握數據重要程度,是風險評估的基礎,也是數據分級分類管理的基礎。結合GB/T20984-2022 信息安全風險評估方法中,數據資產按照層次可劃分為業務資產、系統資產、系統組件和單元資產。數據資產識別主要從三個層次進行識別。業務識別可通過訪談、文檔查閱、資料查閱等方式對業務的屬性、定位、完56整性和關聯性進
172、行識別,主要識別業務的功能、對象、流程和范圍等。業務的定位主要識別業務在發展規劃中的地位;業務的完整性主要識別其為獨立業務或非獨立業務;業務的關聯性識別主要識別與其他業務之間的關系。在業務識別階段還應根據業務的重要程度進行等級劃分并進行賦值。系統資產識別包括資產分裂和業務承載性識別兩個方面。系統資產分類包括信息系統、數據資源和通信網絡,業務承載性包括承載類別和關聯程度。系統資產價值賦值主要依據資產的保密性、完整性和可用性,結合業務承載性、業務重要性進行綜合計算,設定響應的評級方法進行價值等級劃分。系統組件和單元資產應進行分類識別,包括系統組件、系統單元、人力資源和其他資產。在賦值過程中應依據其
173、保密性、完整性、可用性賦值進行綜合計算,設定相應的評級方法進行價值等級劃分。數據的重要程度主要取決于數據對企業利益層面影響、對國家安全公共利益層面影響和對用戶個人權益層面影響。通過分析為數據的重要程度進行賦值,在上述數據調研結果基礎上,根據關鍵數據原則選擇重要程度較高的數據資產作為評估的重點。(三)數據應用場景識別數據應用場景識別包括識別業務流程或使用流程、相關數據活動、參與主體。數據應用場景包括主業務調用數據的場景、數據被其他業務系統調取的場景、對組織外部提供數據的場景(合作業務)、員工訪問數據的場景、第三方服務人員訪問數據的場景等。數據活動包括但不限于數據提取、數據獲取、數據整合、數據分析
174、、結果存儲、數據下載、數據外發、結果展示等;數據使用流程各環節參與主體包括人員、內外部系統、內外部接口等。綜合以上各因素對數據應用場景進行識別,輸出數據應用場景分析報告。(四)數據威脅識別威脅識別的內容包括威脅的來源、主體、種類、動機、時機和頻率。數據威脅識別主要分析數據在應用場景流轉過程可能影響數據機密性、完整性、可用性及可控性的威脅類型,并進一步分析其屬性,包括攻擊動機、攻擊能力、威脅發生頻率,并對其屬性進行賦值,等級越高表示威脅利用脆弱性的可能性越大。數據威脅主要圍繞數據生存周期中數據采集、傳輸、存儲等階段進行數據威脅分類。數據采集階段威脅包括:惡意代碼注入、數據無效寫入、數據污染和數據
175、分類分級或標記錯誤;數據傳輸階段威脅包括:數據竊取、網絡監聽和數據篡改;57數據存儲階段威脅包括數據破壞、數據篡改、數據分類或標記錯誤、數據竊取、惡意代碼執行和數據不可控。威脅出現的頻率應進行等級化處理,不同等級分別代表威脅出現頻率的高低。等級數值越大,威脅出現的頻率越高。威脅的頻率應參考組織、行業和區域有關的統計數據進行判斷。(五)脆弱性識別脆弱性包括技術脆弱性和管理脆弱性。其中,技術脆弱性包括物理環境、網絡結構、系統軟件、應用中間件和應用系統。管理脆弱性包括技術管理和組織管理。通過分析脆弱性對數據機密性、完整性、可用性、可控性影響,判斷對數據影響的嚴重程度。脆弱性識別所采用的方法主要為問卷
176、調查、工具監測、人工核查、文檔查閱、滲透性測試等。如果脆弱性沒有對應的威脅,則無需實施控制措施,但應注意并監視他們是否發生變化。相反,如果威脅沒有對應的脆弱性,也不會導致風險。應注意,控制措施的不合理實施、控制措施故障或控制措施的誤用本身也是脆弱性??刂拼胧┮蚱溥\行的環節,可能有效或無效。(六)已有安全措施識別預防性安全措施可以降低數據威脅利用脆弱性導致安全事件發生的可能性,如威脅情報系統、入侵檢測系統;保護性安全措施可以減少因安全事件發生后對數據、業務或組織造成的影響。在識別脆弱性的同時,評估人員應對已采取的安全措施的有效性進行確認。安全措施確認應評估其有效性,即是否真正地降低了系統的脆弱性
177、,抵御了威脅。(七)風險分析風險分析的各項活動在識別出的具體數據應用場景中展開,需從評估后果、評估事件可能性和估算風險級別三個方面進行評估。1、評估后果輸入:應用場景內已識別的相關事件情景,包括威脅、脆弱點、數據資產、已有和計劃的控制措施;活動:應用場景中脆弱性與具體安全措施關聯分析后,判斷脆弱性可利用程度和脆弱性對數據資產影響的嚴重程度;根據脆弱性對數據影響嚴重程度及數據重要程度計算安全事件后果。2、評估事件可能性:輸入:應用場景內已識別的相關情景,包括威脅、暴露的脆弱點、現有和計劃的控制措施數據;58活動:根據應用場景中數據威脅與脆弱性利用關系,結合數據威脅發生可能性與脆弱性可利用性判斷安
178、全事件發生的可能性。3、估算風險等級活動:根據應用場景中安全事件發生的可能性以及安全事件的后果,判斷風險值。(八)風險處置風險處置包括風險處置措施和風險處置方式兩個方面。1、風險處置措施根據風險分析結果,數據安全風險評估項目組經過討論研究,綜合風險級別、風險描述、風險值、風險處置措施、風險處置步驟、相關責任人和預計時間等多種因素的考慮,從技術手段和管理手段雙管齊下的方式提出風險處置建議,該處置建議必須符合當前的網絡現狀以及業務流程要求,并且通過技術整改和管理制度整改,能夠初步建立起針對該系統的數據安全防護體系;2、風險處置方式針對不同類型的安全風險可以采取差異化的風險緩解方式,一般可以分為控制
179、風險、轉嫁風險、避免風險和接受風險四種方式。最終輸出風險評估報告,對風險評估過程和結果進行總結,詳細說明評估對象、風險評估方法、資產、威脅、脆弱性和已有安全措施的識別結果、風險分析、風險統計和結論等內容。(九)殘余風險評估殘余風險評估指被評估組織按照風險安全整改建議全部或部分實施整改工作后,對仍然存在的安全風險進行識別、控制和管理的活動。依據組織的風險評估準則進行殘余風險評估,判斷是否已經降至可接受水平,為風險管理提供輸入;殘余風險仍處于不可接受的風險范圍內,則應由管理層依據風險接受原則考慮是否接受此類風險或增加更多的風險控制措施;應定期開展殘余風險評估,評估結果應作為風險管理重要輸入。6.2
180、 數據治理技術6.2.1 技術概述數據治理的目標是通過有效的數據資源控制手段,進行數據的控制,以提高數據質量,在降低企業風險的同時,實現數據資產價值的最大化。數據治理可以解決數據質量參差不齊、保護數據安全、數據交換和共享困難等現實問題。數據59治理(Data Governance)定義為“在組織范圍內,對流程、政策、標準、技術和人員進行職能協調和定義來將數據作為公司資產管理,從而實現對準確、一致、安全且及時的數據的可用性管理和可控增長,以此制定更好的業務決策,降低風險并改善業務流程”。工欲善其事,必先利其器。一套好的數據治理系統,能讓機構的數據治理工作事半功倍。一般來說,數據治理系統包括以下職
181、能:數據模型管理、元數據管理、數據質量管理、數據標準管理、主數據管理、數據安全管理、數據服務管理。在數據標準管理職能中,很重要的一個內容是進行數據的分類分級。需根據國家法律法規、行業主管部門規定以及業務需求等對數據進行分類,再結合自身的實際情況對數據風險進行分級。根據數據的類別和級別制定配套的安全保護措施,保障數據全生命周期的安全合規;還可以充分發現、識別 IT 系統中數據資源的類型、分布,支持多種數據源,盤點數據資產,打破數據孤島,對數據進行統一分析和管控,構建數據資產目錄,加強數據資產化能力。在數據安全管理職能中,目的是確保數據的隱私、保密性和適當的訪問權限。身份認證與訪問控制、數據脫敏、
182、數據加密等技術常用于直接或間接地保護隱私信息不被泄漏,特別是數據脫敏通常用于公共數據開放等數據流通環節。數據脫敏技術可以以直接的方式隱去敏感信息,雖然可能對數據質量有些影響,但具有效率高、計算成本低的優勢。在數據安全管理職能中,數據的安全審計是保障數據安全的最后一道防護墻。數據安全審計通過記錄用戶對數據的所有訪問和操作記錄日志,并通過日志的分類統計和分析,提供數據訪問報表,支持對數據的檢索和分析,支持對用戶的違規訪問和危險操作進行告警。6.2.2 數據分類分級(一)概述在圍繞數據資產的全生命周期安全防護中,數據分類分級是前置基礎工作。數據分類強調的是根據數據種類的不同,按照屬性、特征而進行的安
183、全類別劃分,而分級是按照劃定的某種標準,對同一類別數據進行高低等級的安全級別劃分。數據安全防護主要關注的是數據分級后的安全防護要求。以金融數據安全數據安全分級指南為例,根據影響對象和影響程度,數據資產的安全等級可被劃分為 5 級,如表 6-1 所示。而數據資產在完成分類分級后,將在其生命周期的收集、存儲、使用、傳輸、提供和公開等各階段實施必要的和符合安全法規和規范要求的安全防護。60表表 6-1 金融行業數據資產的安全分級金融行業數據資產的安全分級最 低 安最 低 安全 級 別全 級 別參考參考數據定級要素數據定級要素數據一般特征數據一般特征影響對象影響對象影響程度影響程度5國家安全嚴重損害/
184、一般損害/輕微損害重要數據,通常主要用于金融業大型或特大型機構、金融交易過程中重要核心節點類機構的關鍵業務使用,一般針對特定人員公開,且僅為必須知悉的對象訪問或使用。數據安全性遭到破壞后,對國家安全造成影響,或對公眾權益造成嚴重影響。5公眾權益嚴重損害4公眾權益一般損害數據通常主要用于金融業大型或特大型機構、金融交易過程中重要核心節點類機構的重要業務使用,一般針對特定人員公開,且僅為必須知悉的對象訪問或使用。個人金融信息中的 C3 類信息。數據安全性遭到破壞后,對公眾權益造成一般影響,或對個人隱私或企業合法權益造成嚴重影響,但不影響國家安全。4個人隱私嚴重損害4企業合法權益嚴重損害3公眾權益輕
185、微損害數據用于金融業機構關鍵或重要業務使用,一般針對特定人員公開,且僅為必須知悉的對象訪問或使用。個人金融信息中的 C2 類信息。數據的安全性遭到破壞后,對公眾權益造成輕微影響,或對個人隱私或企業合法權益造成一般影響,但不影響國家安全。3個人隱私一般損害3企業合法權益一般損害2個人隱私輕微損害數據用于金融業機構一般業務使用,一般針對受限對象公開,通常為內部管理且不宜廣泛公開的數據。個人金融信息中的 C1 類信息。數據的安全性遭到破壞后,對個人隱私或企業合法權益造成輕 微影響,但不影響國家安全、公眾權益。2企業合法權益輕微損害1國家安全無損害數據一般可被公開或可被公眾獲知、使用。個人金融信息主體
186、主動公開的信息。數據的安全性遭到破壞后,可能對個人隱私或企業合法權益不造成影響,或僅造成微弱影響但不影響國家安全、公眾權益。1公眾權益無損害1個人隱私無損害1企業合法權益無損害(二)組織方式數據分類分級工作流程根據企業組織方式,可以大致分為分類分級準備、分類分級判定、分類分級人工復核以及分類分級批準 4 個步驟。數據分類分級準備:對數據進行盤點、梳理與分類,形成統一的數據資產清單;確定企業采用的分類分級標準,參照國家法律法規、地方和行業的標準規范,61以及企業內部的管理要求;數據分類分級初步判定:按照分類分級標準,對數據資產清單中的庫、表和字段,進行人工或工具化的識別,完成對數據資產的初步分類
187、分級;數據分類分級人工復核:綜合考慮數據規模、數據時效性、數據形態(如是否經匯總、加工、統計、脫敏或匿名化處理等)等因素,對數據分類分級進行人工復核,調整數據資產的分類分級;數據分類分級批準:最終由數據安全管理最高決策組織對數據安全分級結果進行審議批準。在企業的分類分級管理工作的實踐中,人工的分類分級難以支撐分類分級基礎業務的開展。首先,人工分類分級的工作效率無法匹配企業海量數據資產的產生、加工與流轉過程,且容易發生人工錯誤;其次,在數據產品進入流通市場前,低效率的人工的數據合規檢查,無法實現數據產品安全高效地進入交易市場,也無法在安全合規業務中快速完成對敏感資產的識別。因此,企業需要通過分類
188、分級技術工具實現程序化的準確高效識別,并與人工審核相結合,以實現分類分級業務的可管理性。(三)能力要求一般來說,分類分級技術工具需具備如圖 6-3 所示能力,以幫助企業實現完整可靠的分類分級基礎管理。圖圖 6-3 數據分類分級工具的參考架構數據分類分級工具的參考架構提供基于識別規則管理的分類分級數據識別能力。一般來說,分類分級工具將依據各個行業的分類分級規范,如金融行業的分類分級指南,根據各個數據分類的數據特征創建程序化的識別規則,從而實現數據分類的自動化識別;提供并發掃描任務的運行管理能力。在海量數據時,可以按需按時進行快速地識別掃描,從而滿足分類分級的時效和性能要求;通過數據血緣抓取能力的
189、支撐,實現對分類分級數據的衍生管理。在大數據場景中,分類分級原始數據在加工、使用的過程中會持續產生衍生數據,通過對衍生數據的追蹤,可有效提升分類分級結果數據的完整性,防止因數據衍生而發62生安全逃逸;提供分類分級結果的相關管理,包括人工復核功能、人工標識標識功能,以及分類分級結果數據的整體可視化能力。數據分類分級是數據安全治理的前置和基礎工作,借助于技術工具的支撐,可以有效保障數據分類分級管理的開展,并進一步幫助企業實施全生命周期的數據安全策略管理。6.2.3 數據脫敏技術(一)概述數據脫敏(去隱私化)技術是對數據處理的技術,通過技術手段對數據進行仿真、隨機、亂序、遮蔽的方式處理,避免敏感、重
190、要的數據流出造成數據泄露風險。數據脫敏從使用場景上分為數據靜態脫敏和數據動脫脫敏兩種。數據靜態脫敏是數據異步延遲的一種脫敏方式,通過技術手段對生產中的數據進行脫敏處理后放置測試中對外開放使用,常見使用場景為開發測試、三方測試、數據分析等場景。數據動態脫敏是數據在使用過程中實時脫敏的處理方式,通過技術手段在數據被實時訪問的過程中將需要脫敏的數據進行處理,處理后的結果返回前端進行展示,場景為生產數據實時訪問過程中按照不同用戶、角色權限設置相關脫敏策略。(二)技術分析數據脫敏技術中關于靜態脫敏的資產類型兼容、資產內對象支持范圍、規則算法的豐富度等,動態脫敏的協議解析技術、SQL(Structured
191、 Query Language)改寫的全兼容、結果集脫敏的特征覆蓋范圍等都是數據脫敏關鍵核心所在,直接反映數據脫敏在不同場景下否可用。在數據靜態脫敏場景中,不同行業內容的數據特征存在很大差異,如何能夠兼容各行業的數據特征,即要實現基于數據特征的自動識別,又要針對相關特征數據進行脫敏處理保證數據的關聯性、完整性、真實性是數據靜態脫敏技術需要解決和面臨的問題?;谛袠I內特有特征數據的發現傳統的基于正則的方式已經無法滿足發現的需求,基于正則基礎上的邏輯判斷、函數、機器學習等方式的發現需要結合人工智能的技術,此外對于特征數據的脫敏是對脫敏技術中內置字典的豐富性和高度的可擴展性考驗。串聯或邏輯串聯是動態
192、脫敏技術的部署應用場景,目的在于防止對于生產數據的隨意查看,避免數據泄露事件發生。建立完善的分權體系、良好的兼容性、穩定性、高擴展性等是動脫脫敏技術必須要解決的問題。完善的分權體系要求動63態脫敏技術在發展中不僅僅準確解析來自傳統運維方式中的來源信息并能實現分權脫敏,還需要考慮與應用賬戶、堡壘機及其他方式下數據交互場景下關聯用戶、角色技術;SQL 改寫中協議解析、語義語法、復雜 SQL 的覆蓋等,結果集改寫中的基于返回結果特征的支持范圍等都是需要解決的產品兼容性問題;作為串聯或邏輯串聯的動態脫敏技術需要充分考慮單點故障、高壓下的橫向擴展等高端能力的支持。表表 6-2 對比對比分析分析序號序號脫
193、敏技術脫敏技術性能問題性能問題安全性安全性經濟成本經濟成本其他問題其他問題1應用改造性能影響較小應用本身安全問題較高應用接口統一無法做到分權脫敏2數據動態脫敏-SQL性能影響較小脫敏技術、所在環境安全問題適中應用關聯兼容、協議解析準確度、SQL 改寫全面度等問題3數據動態脫敏-結果集性能影響較大脫敏技術、所在環境安全問題適中基于特征的全面支持問題4數據靜態脫敏不涉及(數據處理)脫敏技術、所在環境再去問題;生產環境與測試環境的網絡連通安全問題較小使用場景固定,資產連接兼容、數據識別技術、數據脫敏技術、數據關聯等問題數據脫敏技術產品形態為一體機、軟件部署、虛擬化部署等方式均可以實現。數據靜態脫敏屬
194、于旁路工具類產品,工作過程中保證網絡可達即可,數據靜脫脫敏技術目前被廣泛應用于數據處理場景,完成滿足數據庫遷移和數據脫敏的需求;數據動態脫敏技術無論是應用實現、SQL 改寫、或結果集改寫都屬于串聯類的方式,需要保證請求及結果流量經過脫敏所在環境進行處理。應用層實現主要為新應用開發提供相關功能需求或應用的二開功能需求;SQL 改寫技術主要應用于關系型數據庫,前端與數據庫間的交互方式為 SQL 語言的場景,應用于運維場景、SQL 交互應用等場景;結果集改寫技術主要應用于 nosql 場景的交互,如大數據交互、數據庫預置模塊調用、API 方式等數據的交互場景下的基于數據特征的動態脫敏。646.3 數
195、據安全防護技術6.3.1 數據采集安全(一)概述數據采集(Data acquisition),又稱數據獲取,是利用一種程序或裝置從系統外部采集數據,經過數據清洗,最終輸入到存儲系統中。早期的數據采集指從傳感器和其它待測設備等模擬和數字被測單元中自動采集信息的過程。而隨著大數據的發展,如何從大數據中采集出有用的信息已經是大數據發展的關鍵因素之一。大數據背景下,數據采集則是通過網絡、日志以及其它數據采集的方式,來達到獲取數據的目的。從來源來看,采集的數據主要來源包含企業、機關內部的信息系統,互聯網中的各種 web 信息系統,物理對象和物理過程的信息系統以及用于學術研究的科學實驗系統。數據采集時數據
196、類型的不同決定了數據采集的方式,數據采集中獲取的數據類型可分為結構化數據、半結構化數據、非結構化數據。作為大數據產業的基石,數據采集的重點不在于數據本身,而在于如何能解決數據運營中的實際商業問題。通過對數據采集技術獲取的高質量數據的分析和挖掘,得到的結果對決策行為具有較高的指導性作用。(二)技術分析根據面向場景,數據采集可分為“硬感知”和“軟感知”?!坝哺兄敝饕迷O備或裝置進行數據的收集,收集對象為物理世界中的物理實體,或者是以物理實體為載體的信息、事件、流程等。而“軟感知”使用軟件或者各種技術進行數據收集,收集的對象存在于數字世界,通常不依賴物理設備進行收集。1、硬感知采集技術基于物理世
197、界的“硬感知”依靠的就是數據采集,是將物理對象鏡像到數字世界中的主要通道,是構建數據感知的關鍵,是實現人工智能的基礎,采集技術包含:條形碼,按照一定的編碼規則,對字母、數字及其它 ASCII 字符進行整合,常用來標識一個貨品的唯一性;二維碼,擁有龐大的信息攜帶量,能夠把使用一維條碼時存儲于后臺數據庫中的信息包含在條碼中,可以直接閱讀條碼得到相應的信息,并且二維碼還有錯誤修正及防偽功能,增加了數據的安全性;圖像數據采集指利用計算機對圖像進行采集、處理、分析和理解,以識別不同模式的目標和對象的技術,是深度學習算法的一種實踐應用;65音頻數據采集也被稱為自動語音識別(Automatic Speech
198、 Recognition,ASR),可將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如二進制編碼、字符序列或者文本文件;傳感器數據采集,傳感器是一種檢測裝置,能感受到被檢測的信息,并能將檢測到的信息按一定規律變換成信號或其他所需形式的信息輸出,以滿足信息的采集、傳輸、處理、存儲、顯示、記錄等要求。信號類型包括 IEPE 信號、電流信號、電壓信號、脈沖信號、I/O 信號、電阻變化信號等;工業設備數據采集,工業設備數據是對工業機器設備產生數據的統稱。在機器中有很多特定功能的元器件(閥門、開關、壓力計、攝像頭等),這些元器件接受工業設備和系統的命令開、關或上報數據。工業設備和系統能夠采集、存儲、
199、加工、傳輸數據。工業設備目前應用在很多行業,有聯網設備,也有未聯網設備。2、軟感知采集技術基于數字世界的“軟感知”能力比較成熟,并隨著數字原生企業的崛起而得到了廣泛的應用,采集技術包含數據庫采集和日志數據采集。數據庫采集,通過在采集端部署大量數據庫,并在這些數據庫之間進行負載均衡和分片,來完成大數據采集工作。目前絕大部分業務相關的數據都采用這種結構化的方式保存在后端的數據庫系統中,主要有直接數據源同步、生成數據文件同步和數據庫日志同步三種實現數據采集的方式;日志數據采集,日志數據收集是實時收集服務器、應用程序、網絡設備等生成的日志記錄,此過程的目的是識別運行錯誤、配置錯誤、入侵嘗試、策略違反或
200、安全問題。在企業業務管理中,基于 IT 系統建設和運作產生的日志內容,可以將日志分為操作日志、運行日志和安全日志三類;網絡數據采集,以網絡爬蟲或網站公開 API 等方式從網站上獲取數據信息。(三)產品形態及應用現狀分析隨著數據采集的逐漸興起,對于數據采集的應用范圍也在逐漸增加,常見的應用包括可視化分析、數據挖掘、預測性分析、語義引擎和數據質量管理。1、可視化分析大數據快速發展的今天,龐大的數據量使不少人都在尋求可用、高效、簡潔大方的分析工具,數據的分析結果如果仍然是文字,那將不利于用戶進行觀看、閱讀、分析,而通過圖表將數據可視化,這就是所謂的有圖有真相,用動態的圖表就可以有效地將數據所隱藏的信
201、息更加直觀地呈現給客戶,從而極大地方便用戶進行觀看與分析,并且根據結果能夠迅速做出分析和帶來直觀上的感受。2、數據挖掘通過創建數據挖掘模型,而對數據進行試探和計算的數據分析手段。數據挖66掘是大數據分析的理論核心。數據挖掘算法多種多樣,且不同算法因基于不同的數據類型和格式,會呈現出不同的數據特點。但一般來講,創建模型的過程卻是相似的,即首先分析用戶提供的數據,然后針對特定類型的模式和趨勢進行查找,并用分析結果定義創建挖掘模型的最佳參數,并將這些參數應用于整個數據集,以提取可行模式和詳細統計信息。3、預測性分析大數據分析最重要的應用領域之一,通過結合多種高級分析功能達到預測不確定事件的目的。幫助
202、分用戶析結構化和非結構化數據中的趨勢、模式和關系,并運用這些指標來預測將來事件,為采取措施提供依據。4、語義引擎通過對網絡中的資源對象進行語義上的標注,以及對用戶的查詢表達進行語義處理,使得自然語言具備語義上的邏輯關系,能夠在網絡環境下進行廣泛有效的語義推理,從而更加準確、全面的實現用戶的檢索。5、數據質量管理指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。6.3.2 數據傳輸安全(一)概述DAMM 中將數據傳輸安全描述為根據組織機構內部和外部
203、的數據傳輸要求,采用適當的加密保護措施,保證傳輸通道、傳輸節點和傳輸數據的安全,防止傳輸過程中數據被截取所引發的數據泄漏,適用于不同應用系統、服務器、終端之間的數據傳輸,以及面向外部網絡的傳輸。本白皮書將數據傳輸安全界定為對數據在網絡傳輸的安全,重點解決傳輸中的數據被泄露、非授權用戶竊取、數據被篡改等問題,保證數據的保密性、完整性、可用性。67圖圖 6-4 數據傳輸安全框架數據傳輸安全框架(二)技術分析典型的數據傳輸安全技術有:數據加密、數字簽名、數字證書、網絡可用性、數據訪問控制等。1、數據加密數據加密是對數據的機密性與完整性的保護,應使用可靠的密碼基礎設施對密鑰進行安全托管,保證密鑰安全。
204、加密是保證數據安全的常用手段,基于成熟的加密算法為數據加上一層保護罩衣,即使被截獲,亦很難破解其加密算法,獲得原始數據。常用加密的算法有對稱加密和非對稱加密。2、數字簽名數字簽名算法首先為要簽名的數據生成一個 Hash 字串 hash1,然后用所有者私鑰加密得到 encrypted(hash1),這就是數據的數字簽名。當別人需要驗證數據完整性時,用所有者的公鑰解密后的 Hash 值與數據的哈希值對比,若一致即為正確。數字簽名主要是保證數據來源的完整性和不可偽造性,所用的技術是散列函數和非對稱加密。與數據加密相比,加密通信是用公鑰進行加密,而用私鑰進行解密,而數字簽名剛好相反,是采用私鑰加密簽名
205、,公鑰認證。數字簽名的私鑰簽名過程是通過簽名算法來生成數字簽名的過程。3、數字證書為了方便傳遞公鑰密鑰,一般把它存儲在數字證書中,為了保證證書的可信性,一般由專業證書機構頒發。CA 就是證書的簽發機構,負責簽發證書、認證證書、管理已頒發證書,制定具體步驟來驗證、識別用戶身份,并對用戶證書進行簽名,以確保證書持有者的身份和公鑰的擁有權。要申請證書,應先向 CA 提68出申請,在 CA 確認申請者的身份后,會分配一個公鑰,然后將該公鑰與申請者的身份信息綁在一起,使用 CA 的私鑰進行簽名,便形成證書發給申請者。4、網絡可用性通過網絡基礎鏈路、關鍵網絡設備的備份、冗余、彈性擴容能力的建設,實現網絡的
206、高可用性,從而保證數據傳輸過程的穩定性。數據在網絡傳輸過程中依賴網絡的可用性,一旦發生網絡故障或者癱瘓,數據傳輸也會受到影響甚至中斷。DSMM 標準在充分定義級要求:在關鍵的業務網絡架構應考慮網絡的可用性建設需求,對關鍵的網絡傳輸鏈路、網絡設備節點實行冗余建設。常用技術手段有部署負載均衡、防入侵攻擊等設備進一步強化對網絡可用性風險的防范。6.3.3 數據存儲安全(一)概述數據存儲安全是通過應用物理、技術和管理控制來保護存儲系統和基礎設施以及存儲在其中的數據。存儲安全專注于保護數據及其存儲基礎設施,防止未經授權的泄露、修改或破壞,同時確保授權用戶的可用性。確保數據存儲安全性主要涵蓋機密性(con
207、fidentiality)、完整性(integrity)和可用性(availability)。數據管理人員必須使敏感數據不受未授權用戶的影響,必須確保系統中的數據是可靠的,同時還要確保組織中需要訪問數據的每個人都可以使用這些數據。威脅數據存儲安全的因素有很多,如硬件設施損壞、人為錯誤、黑客攻擊、病毒、信息竊取和磁干擾等。為了確保數據存儲安全,避免數據泄露、損失造成的經濟損失和其他后果,需要制定靈活而有效的數據存儲安全策略。數據存儲安全應考慮數據分級分類、數據加密、數據訪問控制和安全審計、備份和恢復四個方面,如圖 6-5 所示。圖圖 6-5 數據存儲安全架構圖數據存儲安全架構圖69(二)技術分析
208、從數據分級分類、數據加密、數據訪問控制和安全審計、備份和恢復四個方面來分析數據存儲安全。1、數據分類分級實施數據存儲安全策略的第一步是了解數據存儲安全的法律法規,數據安全法第二十一條規定,“國家建立數據分類分級保護制度,根據數據在經濟社會發展中的重要程度,以及一旦遭到篡改、破壞、泄露或者非法獲取、非法利用,對國家安全、公共利益或者個人、組織合法權益造成的危害程度,對數據實行分類分級保護”。按照敏感程度劃分,數據應分為公開數據、內部數據、秘密數據、機密數據(絕密數據)。表表 6-3 數據敏感程度劃分數據敏感程度劃分級別級別敏感程度敏感程度判斷標準判斷標準1 級公開數據可以免費獲得和訪問的信息,沒
209、有任何限制或不利后果,例如上市公司財報數據等。2 級內部數據安全要求較低但不打算公開的數據,例如系統使用手冊和組織結構圖等。3 級秘密數據敏感數據,如果泄露可能會對運營產生負面影響,包括損害公司、客戶、合作伙伴或員工。例如包括供應商信息、客戶信息、合同信息和薪水信息等。4 級機密數據高度敏感的公司數據,如果泄露可能會使組織面臨財務、法律、監管和聲譽風險。例如包括客戶身份信息、個人身份和信用卡信息。對于組織、企業而言,需要確定所擁有的數據哪些是公開級別、內部級別、秘密級別和機密級別,確定不同級別的數據遭到篡改、破壞、泄露或非法利用后造成的的風險,根據不通級別的數據制定相對應的策略和安全措施。數據
210、存儲安全策略可幫助管理人員識別敏感數據、監視和保護每個級別的數據分類,從而在最大程度上提高數據安全性。2、數據加密數據防護是否能夠成功實施,企業需要在關鍵數據的安全性、保持應用系統的功能可用性和系統可維護性方面綜合考慮,來確定適合企業需要的加密保護的技術方案,企業常用加密技術如磁盤加密、文件加密、數據庫加密和應用層加密。磁盤加密:磁盤采用的塊級別加密技術,這種加密最大的好處在于,它對操作系統是透明的。AWS 的 EBS、阿里云的 ECS 等都支持磁盤加密。文件加密:通過堆疊在其它文件系統之上,為應用程序提供透明、動態、高效和安全的加密功能。典型的是用于加密指定的目錄。需要關注的是這種加密方式可
211、能會產生較大的性能損失。數據庫加密:TDE 和三方加固是數據庫提供的加密技術,TDE 即對數據文70件執行實時 I/O 加密和解密。數據在寫入磁盤之前進行加密,從磁盤讀入內存時進行解密,對應密鑰管理也是由數據庫提供的 API 或組件實現,應用透明。三方加固是將第三方專業數據庫加密廠商的產品內置在數據庫之中,提供透明數據加密能力。應用層加密:在數據到達數據庫之前做數據加密,可實時保護用戶敏感數據。這里關鍵需要提供應用透明性、保證應用無需改造或僅需少量改造。這種方式完全由用戶自己控制,無需信任任何三方廠商提供的數據安全保障,得到充分的自由度和靈活性。3、數據訪問控制和安全審計基于角色的訪問控制是安
212、全數據存儲系統的必備條件。在某些情況下,多因素認證可能是合適的,并且需要強制用戶使用強密碼,同時系統要做好 DDos 防護、WAF 防護等。監視數據訪問控制是通過提供對授權用戶的安全訪問,維護用戶特權,以確保用戶僅訪問他們需要完成其工作的數據。同時建立定義特權用戶合法行為的策略,并實時驗證用戶操作以確保它們符合策略,驗證他們是否被授權,并在發生可疑活動的情況下,發送警報或阻止帳戶,直到提供進一步的身份驗證為止。審計數據訪問行為也是增強數據安全性的一種方法。對重要數據的訪問行為采取持續、及時地監控和審計,形成有效的風險報告,新的風險及時報告給管理人員,幫助管理人員更好地進行數據保護。同時還要做到
213、用戶訪問數據后生成訪問日志,并無法對其進行修改,在一定時間周期內(例如一年)不能刪除訪問日志。4、數據備份和恢復數據備份和恢復是保證數據存儲安全的最后一道屏障。一些惡意軟件、勒索軟件攻擊破壞企業網絡、系統,唯一的恢復方法是從備份恢復。數據備份應遵循3-2-1 原則,即應在兩個不同的存儲介質上至少存儲三個數據副本,其中一份在異地設施中存儲。存儲管理人員需要確保他們的備份數據在系統故障后迅速恢復,另外,管理人員需要確保備份數據與主數據具有相同的數據安全級別。6.3.4 數據處理安全(一)概述數據處理系統安全(data processing system security)是建立技術性的和管理性的防
214、護設施,用于數據處理系統中數據免于偶然的或惡性的修改、破壞或泄露。(二)技術分析在數據處理系統或平臺主要有如圖6-6所示的環節和場景涉及數據安全性問題。71圖圖 6-6 數據處理主要環節數據處理主要環節如圖 6-7 所示,技術實施數據處理基于公共數據平臺為底座,上層由多個不同技術團隊或人員需要對數據處理或使用。圖圖 6-7 技術實施技術實施數據處理數據處理如圖 6-8 所示,業務合作數據處理基于業務合作為基礎,需要將多方、多個平臺的數據按共同約定的方式對數據處理或使用。圖圖 6-8 業務合作業務合作數據處理數據處理如圖 6-9 所示,在數據脫敏處理過程中,前期須將敏感數據進行替換或防偽處理。7
215、2圖圖 6-9 數據脫敏處理數據脫敏處理如圖 6-10 所示,數據稽核處理過程中可能會穿插多個同步或異步環節,在此過程中無法避免異常情況?;嗽紨祿哪康闹饕ㄟ^最終計算結果逆向核查數據精確性的安全問題。圖圖 6-10 數據稽核處理數據稽核處理數據審計處理過程中允許接受第三方審查,是有效避免數據非法流失的安全手段之一。6.3.5 數據共享安全(一)概述數據共享流通可以分為數據不出域、出域兩類場景。數據共享安全需要以數據傳輸安全為基礎,通過數據傳輸安全技術,如校驗技術或密碼技術來確保數據的完整性、機密性,防止數據被篡改、竊取。而數據共享安全技術重點關注傳輸層之上,數據在不同數據提供方、使用方之
216、間共享流通及使用活動中的安全及控制。主要關注點包括接口安全、訪問控制(如身份認證及授權)、使用控制、行為審計、事件溯源等。(二)技術分析數據共享安全關鍵核心技術包括 API 技術、隱私計算技術、可信數據空間技術。API 技術為當前國內主流技術,隱私計算、可信數據空間屬于新興技術,其中可信數據空間技術主要對 API 技術、隱私計算提供有益補充。1、隱私計算技術主要用于解決數據不出域下實現數據價值共享流通的場景需求,常用技術包括聯邦學習、多方安全計算、可信執行環境、同態加密等。732、API 技術API 技術已被大量應用于各種復雜環境,為企業帶來了商機與便利,但仍然在對包含敏感信息、重要數據在內的
217、數據共享流通中面臨難題,如易遭受各類網絡攻擊、合作第三方有意非法留存接口數據,導致用戶信息泄露以及 API 請求參數易被非法篡改,從而導致數據被竊取等。其次,從 API 安全技術本身來看,也存在一些瓶頸,主要包括:身份認證機制,單因素認證、無口令強度要求、密碼明文傳輸等;訪問授權機制,授權策略選擇不恰當、授權有效期過長、未及時收回權限等;數據脫敏策略,脫敏策略不統一導致可通過拼接方式獲取原始數據;異常行為檢測,非工作時間訪問、訪問頻次超出需要、大量敏感信息數據下載等非正常訪問行為;第三方管理,第三方違規將數據篡改、泄露,甚至非法售賣。國內外近年發生多起由于 API 漏洞被惡意攻擊或安全管理疏漏
218、導致的數據安全事件,對相關企業和用戶權益造成嚴重損害。API 接口技術目前已經在多個方面進行安全優化,具體包括:完善 API 身份認證和授權管理機制,強化接口接入安全審核,建立健全訪問授權機制,嚴格遵循最小必要權限原則;部署 API 網關統一接口管理,利用 VPN 等加密通道傳輸數據,部署應用防護系統保護 Web 應用,建立 API 訪問白名單機制,部署抗 DDoS 工具等技術優化 API 安全防護體系,提升抵御外部威脅能力;針對短時間內大量獲取敏感數據、訪問頻次異常、非工作時間獲取敏感數據、敏感數據外發等異常調用、異常訪問行為進行實時監測分析,建立正常行為基線,防范內部違規獲取數據、外部攻擊
219、或網絡爬蟲等數據安全風險;結合數據分類分級管控措施,針對 API 涉及的敏感數據按照統一策略進行后端脫敏處理,并結合數據加密、傳輸通道加密等方式保護 API 數據傳輸安全;對接口訪問、數據調用等操作進行完整日志記錄,并定期開展安全審計,對API 安全進行回顧,結合旁路 API 流量捕獲等技術手段,對傳輸協議等安全要點進行分析還原,識別 API 漏洞、異常調用、外部攻擊等安全風險。妥善保存日志信息等,為安全事件追溯提供依據??傮w而言,既有部分企業在積極采取措施,改進 API 安全技術,也開始有部分企業開始考慮其它替代方案技術。如隱私計算、可信數據空間等。3、可信數據空間技術可信數據空間技術源于歐
220、洲國際數據空間(International Data Space,簡稱IDS),IDS 定位于支撐跨企業、跨行業、跨領域實現數據自主權、安全可信流74通、互操作性的數據共享流通基礎設施。通過國際數據空間協會(IDSA),IDS 提出的基于開放標準的完整參考體系模型(IDS-RAM)及技術體系已在全球 20 多個國家進行了廣泛的基準測試和需求分析。主要科研和開發工作由德國弗勞恩霍夫應用研究促進協會的研究所承擔并負責商業轉化,來自不同行業的企業已實施數百個案例,產生了大量產品與解決方案。目前日本工業數據空間也在逐步實踐推廣 IDS 體系。國內工業互聯網創新發展行動計劃(2021-2023 年)中也
221、提到支持企事業單位、產業組織等在重點行業建立工業數據空間。到 2023 年,推進工業互聯網數據共享行動,在不少于 3 個重點行業探索建立工業數據空間。2021 年 5 月,由工業和信息化部信息技術發展司支持,中國信通院聯合 30 多家企業、院校正式發布“工業數據空間生態鏈”合作伙伴計劃。以 IDS 可建立合約化、結構化、安全可信數據流通使用環境作為突破數據共享流通難題的全新思路,正式啟動相關前沿研究及標準制定工作。2022 年初,工業互聯網產業聯盟聯合中國信息通信研究院正式提出建立面向工業數據可信、安全共享和流通的新型基礎設施及技術解決方案,即可信工業數據空間(Trusted Industri
222、al Data Matrix),為工業數據要素市場化提供了實現路徑。同年 4 月,中國信通院牽頭,正式啟動可信數據空間標準編寫??尚艛祿臻g技術可以用于補充國內現有 API 技術、隱私計算技術對數據共享流通支撐存在的不足,如基于數據主權策略的數據訪問及使用控制技術。數據訪問控制技術僅僅是在某個指令執行前發揮作用,一旦操作完該指令,訪問控制便再也不會對數據有任何作用。而數據使用控制技術是將數據控制權限始終保持在數據提供方這里。數據使用控制基于訪問控制對身份的確認,并將數據使用控制延伸到數據使用方,如控制數據在使用方使用一定時長或一定次數后自動執行刪除。數據使用控制技術在執行共享交換關鍵和敏感數據
223、中,強制執行數據提供方加載的數據限制規則,數據提供方具備數據使用對象、范圍、方式的完整控制能力,從而打消數據共享流通的顧慮。結合數據訪問及使用控制技術的可信數據空間技術架構如圖 6-11 所示。75圖圖 6-11 可信數據空間技術架構可信數據空間技術架構通過數據提供方構建數據提供引擎-DPE,數據使用方構建數據使用引擎-DCE,在數據傳輸層之上,構建設備互信、設備授權、應用授權、應用會話、使用控制、數據推拉在內六層數據共享流通信令層協議棧,實現跨網絡,可信、可控數據共享流通的同時,具備全鏈路數據訪問、數據使用控制能力。完整實現對 IDS 21 條控制策略的支撐。典型控制策略包括限制在某些系統或
224、應用中使用、限制某些用戶使用、限制用于特定目的使用、限制允許或禁止使用原始數據、限制特定的起止時間、限制特定的使用時長、限制使用次數、限制使用后刪除、限制訪問原始字段和限制數據轉發第三方等。國內目前還未有同類型技術實現以上細粒度數據使用控制策略。另外,參考IDS 跟進研究并做國產化產品的團隊不是很多,暫時還沒有成熟產品和商業應用??尚艛祿臻g技術與隱私計算技術、API 技術可以實現有機融合,形成覆蓋全場景、高效、低成本、可信、可控、可追溯的新型數據共享流通方案,將有助于推動國內數據要素市場的發展。6.4 數據安全計算技術6.4.1 概述數據安全計算,一般指隱私計算,是在保證數據提供方不泄露原始
225、數據的前提下,對數據進行分析計算,有效提取數據要素價值為目標的一類信息技術,保障數據在產生、存儲、計算、應用、銷毀等數據全生命周期的各個環節中“可用不可見”。766.4.2 多方安全計算(一)概述多方安全計算(Secure Multi-Party Computation,簡稱 MPC 或 SMPC)指在無可信第三方的情況下,各方共同參與計算任意約定的函數,同時在計算過程中各個參與方的數據都不會發生泄漏。多方安全計算作用于數據交換過程中,在保證了數據保密的同時實現了數據共享,實現了數據可用而不可見,有利于解決“數據孤島”現象。多方安全計算是密碼學的一個分支,涉及到很多密碼學知識,同時也反作用于密
226、碼學。多方安全計算包括多個技術分支,主要用到的技術是秘密共享、不經意傳輸、混淆電路、同態加密、零知識證明等。1、多方安全計算的發展回顧多方安全計算自 1986 年被提出之后,在比較長的時間里,針對其研究都集中在理論層面,而針對于多方安全計算的應用少之又少,之后于 2004 年 Malkhi等學者提出了多方安全計算平臺 Fair play,但仍存在嚴重的性能瓶頸。近年來,由于各國更加重視對數據資源的保護,出臺了大量法律法規,并且隨著多方安全計算協議的不斷優化和性能的提升,多個領域都開始嘗試使用多方安全計算技術解決領域內的問題,多方安全計算進入到規?;l展階段。2、多方安全計算的發展趨勢目前的多方
227、安全計算仍存在著一些安全性問題,如大多無法抵御現實使用場景中的惡意攻擊和共謀攻擊,僅支持抵御半誠實攻擊。另外,多方安全計算在理論角度保證了計算安全性。隨著隱私計算中新興技術如聯邦學習、TEE 的發展,單靠一種技術無法處理復雜且多變的現實場景,所以將多方安全計算技術于聯邦學習、TEE 等技術相結合也是未來發展的趨勢。多方安全計算技術作為隱私計算的主流技術之一,雖然仍有提升的空間,但是目前已經經過了實踐檢驗,在金融、醫療等領域有實際落地的應用。(二)技術分析混淆電路是一種在電路層面進行兩方安全計算的密碼學協議,也是一種計算代價比較小的多方安全計算協議。它能夠通過對電路進行加密來掩蓋電路的輸入和結構
228、,實現在不泄漏參與方的原始數據及中間數據的條件下,計算某一能夠被邏輯電路所表示的函數。秘密共享將秘密以適當的方式拆分,拆分之后將每個部分秘密交給不同的參與者進行管理,單個參與者無法恢復秘密消息,只有多個參與者協作才能恢復秘密消息。秘密共享可以防止秘密過于集中,可以防止系統外敵方的攻擊及系統內用戶的背叛。同態加密可以對明文進行加密,利用同態加密技術可以對多個密文進行運算77之后再進行解密,而不需要將每個密文解密之后再運算。零知識證明或零知識協議是一種密碼學的方法,能夠在證明者不向驗證者提供任何有用信息的情況下,使驗證者認為某個論斷是正確的。允許證明者、驗證者證明某項提議的真實性,而不需要泄露除了
229、“該論斷是真實的”之外的任何信息。多方安全計算基于密碼學的理論,其安全性有嚴格密碼理論證明,無需可信第三方,各個參與方對于己方數據有絕對的控制權,可以保證在計算過程中,數據不會泄露,同時計算精度高。但多方安全計算的可行性雖然在數學上已被證明,但工程落地方面仍存在問題。由于工程上的主要難點在于要同時滿足高吞吐量和低延遲,既要滿足大數據量下的查詢、統計、訓練,又要滿足一些實時性的應用,多方安全計算中由于包含復雜的密碼學操作無法滿足高吞吐量和低延遲。6.4.3 聯邦計算(一)概述聯邦學習(Federated Learning,FL),又名聯邦機器學習,聯邦計算。聯邦學習是在原始數據不出本地的前提下,
230、通過模型的流通與處理來完成多方聯合的機器學習,得到聚合的訓練結果。聯邦學習的參與方一般包括數據方、算法方、協調方、計算方、結果方、任務發起者等角色。(二)技術分析1、技術框架聯邦學習的硬件層采用通用硬件,算子層融合了多方安全安全計算、同態加密和差分隱私的算子,以加強安全性,算法層需支持多種機器學習算法,從而達到高兼容性,聯邦學習的應用面向聯合建模、聯合預測等場景。聯邦學習的通用技術框架如圖 6-12 所示。圖圖 6-12 聯邦學習的通用技術框架聯邦學習的通用技術框架782、技術架構當存在中心的協調方和計算方時,聯邦學習的技術架構如圖 6-13 所示。圖圖 6-13 存在中心節點的聯邦學習技術架
231、構存在中心節點的聯邦學習技術架構完全去中心化的點對點網絡聯邦學習技術架構如圖 6-14 所示。圖圖 6-14 去中心化的聯邦學習技術架構去中心化的聯邦學習技術架構聯邦學習的架構通常支持通用硬件。而隱私計算的其它分支可行執行環境是需要特定硬件的。在多方參與的復雜場景下,聯邦學習這種硬件無關的特性減少了多方間達成一致的溝通成本。當前有部分行業的用戶執行嚴格的數據不出域要求,不僅原始數據不能出域,加密后的密態數據也不能出域。在這種情況下,聯邦學習“數據不動模型動”的特點能夠契合用戶的要求,化解數據孤島難題。由于聯邦學習的在數據安全流通中79的顯著作用,已被廣泛應用于醫療領域、金融領域、智能手機、智能
232、汽車等諸多領域,在保證用戶隱私的前提下用于聯合數據挖掘和建模。6.4.4 可信執行環境(一)概述可信執行環境是計算平臺上由軟硬件方法構建的一個安全區域,可保證在安全區域內部加載的代碼和數據在機密性和完整性方面得到保護。其目標是確保一個任務按照預期執行,保證初始狀態的機密性、完整性,以及運行時狀態的機密性、完整性。1、TEE 相關標準組織1999 年,康柏、HP、IBM、Intel、微軟等企業發起成立了可信計算平臺聯盟(Trusted Computing Platform Alliance,TCPA),該組織于 2003 年改組為可信計算組織 TCG,并制定了關于可信計算平臺、可信存儲和可信網絡
233、連接等一些列技術規范。2011 年 Global Platform(全球最主要的智能卡多應用管理規范的組織,簡稱 GP)從 2011 年起開始起草制定相關的 TEE 規范標準,并聯合一些公司共同開發基于 GP TEE 標準的可信操作系統。因此,如今大多數基于 TEE 技術的 Trust OS 都遵循了 GP 的標準規范。2、TEE 的實現2009 年開放移動終端平臺(Open Mobile Terminal Platform,OMTP)工作組智能終端的安全率先提出了一種雙系統解決方案,即在同一個智能終端下,除了多媒體操作系統外再提供一個隔離的安全操作系統,這一運行在隔離的硬件之上的隔離安全操作
234、系統用來專門處理敏感信息以保證信息的安全。3、TEE 相關的廠商在國外 ARM 公司、Intel 和 AMD 公司分別于 2006、2015 和 2016 年各自提出了硬件虛擬化技術 TrustZone、Intel SGX 和 AMD SEV 技術及其相關實現方案,在國內中由關村可信計算產業聯盟 2016 年發布 TPCM 可信平臺控制模塊,為國產化 TEE 技術的發展起到了指導作用,國內芯片廠商兆芯、海光分別在 2017 年和2020年推出了支持TEE技術ZX-TCT、海光CSV(China Security Virtualization)。(二)技術分析2009年 OMTP(Open Mo
235、bile Terminal Platform)組織在 omtp advanced trustedenvironment omtp tr1 v11中明確定義 TEE 的相關概念和規范,定義 TEE 為“一組軟硬件組件,可以為應用程序提供必要的設施”,相關實現需要支持兩種安全級別中的一種:安全界別(Profile 1)目標要求可以抵御軟件級別的攻擊;80安全界別(Profile 2)目標要求可以同時抵御軟件和硬件攻擊。針對 TEE 的相關概念及規范定義,各家軟、硬件廠商結合自己的基礎架構形態具體實現各不相同。雖然在技術實現上存在差異性,但是仍可抽象出 TEE的共同技術特點。具體而言,TEE 存在隔
236、離性、軟硬協同性和富表達性等技術特點。1、隔離性X86 架構的隔離機制從 Intel 80286 處理器開始,Intel 提出了 CPU 的兩種運行模式,并且逐步衍生出后來的不同的特權界別,再后來提出了安全區域更小的SGX 機制實現可信執行環境。同樣的,ARM 架構通過 Trustzone 技術實現了相關軟硬件的隔離性,實現安全世界與非安全世界的隔離。TEE 通過隔離的執行環境,提供一個執行空間,該空間有更強的安全性,比安全芯片功能更豐富,提供其代碼和數據的機密性和完整性保護。2、軟硬協同性雖然標準定義可以通過軟件方式或硬件方式實現 TEE,但實際生產場景下,行業內更多通過軟硬結合的方式進行安
237、全性的保障與支持。3、富表達性TEE 與單純的安全芯片或純軟件的密碼學隱私保護方案相比支持的上層業務表達性更強,由于只需要定義好業務層面隱私區域和非隱私區域的邏輯劃分,而不會對定義隱私區域內的算法邏輯的語言有可計算性方面的限制(圖靈完備的)。同時由于 TEE 已經提供了”安全黑盒“,安全區域內數據無需進行密態運算,從而支持更多的算子及復雜算法。TEE 目前較為成熟的技術主要包括 Intel SGX、ARM TrustZone、AMD SEV和 Intel TXT。以 Intel SGX 為例,Intel Software Guard Extensions(英特爾 SGX)是一組用于增強應用程序
238、代碼和數據安全性的指令,開發者使用 SGX 技術可以把應用程序的安全操作封裝在一個被稱之為 Enclave 的容器內,保障用戶關鍵代碼和數據的機密性和完整性。Intel SGX 最關鍵的優勢在于將應用程序以外的軟件棧如 OS 和 BIOS 都排除在了 TCB(Trusted Computing Base)以外,一旦軟件和數據位于 Enclave 中,即便是操作系統和 VMM(Hypervisor)也無法影響 Enclave里面的代碼和數據,Enclave 的安全邊界只包含 CPU 和它本身。6.4.5 同態加密(一)概述同態加密(Homomorphic Encryption,HE)指能夠直接使
239、用密文進行特定運算的加密技術。在同態加密計算過程中,無需密鑰即可實現操作,而結果仍需密鑰81解密從而變為明文,在解密后,得到與明文計算相同的結果。同態加密素有隱私計算的“圣杯”之稱。作為面向數據應用側的密碼算法,可實現在數據加密的狀態下,密文數據與原始數據仍具備完全一致的計算能力,即密文數據無需解密便可以進行計算使用。同態加密既有效保障了數據在使用過程中的隱私安全,同時降低了外流數據價值稀釋的風險。(二)技術分析同態加密作為支撐性安全算法,可以為多方安全計算、聯邦學習等隱私計算應用技術提供底層密碼能力支撐,共同打造高性能、高安全的多方計算計算和聯邦學習。傳統的數據共享模式與基于同態加密的共享模
240、式如圖 6-15 所示。圖圖 6-15 數據共享應用模式:傳統數據共享應用模式:傳統 VS 同態同態在傳統的數據共享模式中,數據供應方需要將原始數據共享至數據需求方,該過程由于數據的復制成本低、業務系統僅能使用明文數據的特性,數據在需求方進行使用時難免存在數據價值稀釋及數據泄露的風險。在基于同態加密的數據共享應用模式中,對于數據供應方而言,僅需在原本的數據傳輸環節之前,將原始數據先進行同態加密,在保障數據安全的同時,有效完成數據所有權和使用權的分離。經過同態加密的密文數據可以保有數據的計算能力與可復用性,在數據源的數據共享業務規模擴大后,即可借助其可復用性,將同樣一份數據資產的使用權分發到多個
241、需求方。并且,基于同態加密的數學性質,密文數據的計算無需經過解密步驟,可以極大程度上減少需求方的通信開銷,達到降本增效的目的。同態加密可直接對密文進行分析、檢索。因此在達成保護隱私的前提下,還能實現某些數據操作。同態加密實現了數據使用過程(Data in use)中的加密,適用于部分誠信和惡意環境中,以保護數據安全與隱私。目前適用場景有醫療數據加密、顧客數據分析、多個機構間客戶的交叉分析等。為達到提高效率、降低成本的目的,中小型企業往往會將數據托管至云服務器,但近年來云上數據泄露問題愈發嚴重,企業對其安全性產生了信任危機。同82態加密云服務模式提供一套面向云環境中隱私數據的存儲、應用解決方案。
242、實現云上數據的可管、可控、可用,保證數據在云環境中的全流程安全與合規,增強用戶對云環境的信任。采用同態加密技術的云服務模式如圖 6-16 所示:圖圖 6-16 同態加密云服務模式同態加密云服務模式該模式中,同態加密為用戶提供隱私數據在云環境中的密態安全存儲、密態安全應用、密態安全共享能力。數據所有者將數據在本地進行同態加密,隨后將密文數據發送至云服務器進行存儲。這種情況下,可確保云服務商或其他第三方廠商在進行外包計算的時候,僅對同態密文數據進行應用,而無法獲取到原始的數據信息。云服務器將仍為加密狀態的操作結果(例如,查詢、檢索、統計后得到的密文運算結果)發送至結果需求方,需求方得到數據持有者授
243、權后能夠通過解密得到自己需要的信息。整個過程中,云端無法獲取任何原始數據信息,即數據源可以保留數據的所有權,僅對云上數據的使用權進行分發與監管,大幅降低了原始數據在云端的泄露風險。6.5 數據安全溯源與確權技術6.5.1 技術概述數據安全溯源指針對數據要素流通過程中的狀態和事件等,以不可篡改、可驗證的方式記錄和追溯。數據要素流通涉及到數據權屬的變化和數據的使用,由于數據具有可復制性,無法追溯的數據流通會帶來數據權屬和責任的混亂,對市場秩序造成不良影響。數據安全流通溯源的追溯對象,包括但不限于數據權屬、數據內容、數據使用、數據交易。其中數據權屬包括擁有權、使用權、收益權等,數據權屬可以被創建和確
244、認、流通、銷毀。數據內容可能是數據原文、加密后的數據、密鑰、數據摘要等。數據使用可能是對數據或其要素的傳輸,參與計算等。數據交易包括數據資產化及相關交易過程等。83數據要素流通是多方參與的過程,需要多方對上述追溯對象達成共識。溯源是對共識內容的記錄和追溯,需要做到完整、不可篡改、可驗證。區塊鏈技術基于密碼學和共識算法,可以讓多個參與方對數據和邏輯達成共識,且擁有不可篡改的特性,可用于數據要素流通溯源;數據水印可以在基本不改變數據原始價值的情況下,在數據中嵌入不易察覺且難以去除的標記信息,用于版權保護、數據防偽追溯等場景。6.5.2 數字水?。ㄒ唬└攀鰯底炙∠嚓P技術最早起源于 20 世紀 50
245、 年代一篇技術專利,該專利描述了一種將不可感知的標識碼嵌入到音樂中實現證明音樂所有權的目的。直到 1993年,Andrew Tirkel 等人發表的文章中首次提出“Electronic Watermark”(電子水?。┑母拍?,隨后在 1994 年發表的文章中使用“Digital Watermark”(數字水?。┑母拍?,此后,數字水印技術進入了飛速發展時期。早期的數字水印技術關注于圖像領域,在圖像領域水印技術的發展過程中,音頻、文本、視頻水印技術也得到了逐步的發展。近年來,隨著相應數據安全的需求驅動,數據庫水印技術作為數字水印技術的一種分類場景,得到了廣泛的關注。目前數據要素流通場景中涉及的主要
246、是結構化數據,因此本文主要關注于數據庫水印技術的介紹。(二)技術分析數據庫水印指通過相應的處理方法,在基本不改變數據庫原始數據價值的情況下,在數據中嵌入不易察覺且難以去除的標記信息,用于數據版權保護、數據泄露溯源、數據完整性校驗等場景。通常情況下,一個完整的數據庫水印方案主要包括水印嵌入端和水印提取端兩部分,其中水印嵌入端包括水印生成、水印嵌入子流程;水印提取端包括水印探測、水印提取、水印恢復、水印校驗子流程。整體方案如圖 6-17 所示。圖圖 6-17 數據庫水印方案框架數據庫水印方案框架圖 6-17 所示的數據庫水印方案流程中,各個子流程功能如下所述:1、水印生成、水印嵌入84在水印生成階
247、段,使用水印密鑰及相應的水印生成算法,依據待嵌入的水印信息生成相應的水印信息。根據實際場景與算法的不同,待嵌入的水印信息種類與數據量也不同。如對于版權校驗場景,待嵌入的水印可能為版權方、時間戳等信息;對于數據泄露追溯場景,待嵌入的水印可能為數據導出人、時間戳、數據接收方等信息;對于數據源校驗場景,待嵌入的水印信息為原始數據庫自身信息等。在水印嵌入階段,根據實際場景的具體需求,結合水印密鑰,使用相應的水印嵌入算法將水印信息嵌入到原始數據中。目前,按照應用場景、數據保真性以及數據可逆性的不同,可將相應的數據庫水印技術劃分為不同的種類。(1)按照應用場景劃分可劃分為魯棒水印和脆弱水印。魯棒水印指添加
248、了水印的數據,在遭受惡意或者無意的修改后,依然能夠保證水印的提取、恢復和校驗,主要運用于數據版權確認及數據泄露溯源場景。脆弱水印指添加了水印的數據,在數據被惡意或無意的修改后,水印信息也會被破壞、發生變化,主要運用于數據完整性校驗場景。(2)按照數據保真性劃分可劃分為有失真水印和無失真水印。有失真水印指在嵌入水印時,需要對原始數據庫相關數據進行修改,主要適用于數值或者分類型數據庫。無失真水印指嵌入水印時,不需要對原始數據庫相關數據進行修改,對數據類型的支持比較廣泛。(3)按照數據可逆性劃分可劃分為可逆水印和不可逆水印??赡嫠≈冈谒√崛?、校驗時,除了提取、檢驗水印本身以外,還可以將加了水印的
249、數據庫還原為原始數據,主要運用于數據完整性校驗場景。不可逆水印指水印提取、校驗時,僅能對水印信息本身進行提取、校驗,無法對加了水印的數據庫進行恢復。2、水印探測、水印提取、水印恢復在水印探測、提取、恢復階段,使用相應的水印密鑰和水印算法,針對相應的待檢測水印數據庫,首先判斷其中是否存在水印信息,對于存在水印信息的場景,進行后續的水印提取、水印恢復流程。根據應用場景及使用算法的不同,經過本流程提取出來的水印信息可能包括bool 值、字符串、bit 流等。此外,在某些場景和算法情況下,除了恢復相應的水印信息外,還可以對原始加了水印的數據庫進行恢復。3、水印校驗在水印校驗階段,針對前一步流程提取的水
250、印信息,根據不同的場景,進行相應的水印校驗,滿足相應的數據版權校驗、數據泄露溯源以及數據完整性校驗85等需求。數據水印通常具有高隱秘性、高安全性、可檢測性、高魯棒性、高仿真性的特點。通常來說,不同于傳統型非結構類文件,數據水印對水印不可見性以及水印質量要求更高。數據水印在數據文件(數據庫、文本文件、表格等)中嵌入的水印,需帶有數據接收方等標識信息、隱形標記,且不易被發現也不易被破壞。如果發生了數據泄漏,可以第一時間從泄漏的數據中提取水印標識,并通過數據水印追溯還原整個泄漏的數據流轉全流程,精準溯源到操作數據用戶身份、作業及泄露范圍和渠道。但其所有權的證明問題還沒有完全解決,就目前已經出現的很多
251、算法而言,攻擊者完全可以破壞掉圖像中的水印,或復制出一個理論上存在的“原始圖像”,這導致文件所有者不能令人信服地提供版權歸屬的有效證據。因此一個好的水印算法應該能夠提供完全沒有爭議的版權證明,在這方面還需要做很多工作。目前將水印作為版權保護的法律證據還不可能。86第 7 章 數據流通機制7.1 過往數據流通方式7.1.1 概述數據流通指數據的擁有控制者授權允許其他個人或組織使用的行為,數據流通的主要形式概括為交換或交易。數據流通目的在于實現數據價值,數據只有通過不斷的分析、挖掘、流通、匯聚周而復始的數據操作使用活動才能體現出數據更大的價值,數據的操作使用活動可以表現為查詢、數據分析等方式獲取數
252、據帶來的價值。數據流通發展是數據在國家、個人、生產活動中越來越重要的價值體現,數據流通發展包括需求、數據存儲、安全、技術等方面共同促進數據流通的發展。7.1.2 數據流通 1.0數據流通活動依賴計算機網絡技術的發展,自 20 世紀 60 年代以來計算機網絡技術越來越多的被用于各類企業的生產活動中,20 世紀 70 年代出現了關系型數據庫技術及文件存儲技術,企業、組織生產活動中的數據開始以電子、非電子形式進行存儲。數據的價值在流動,企業、組織為了能夠通過生產中產生的數據挖掘出更大的價值,出現了數據的交換需求,1.0 時代的數據流通范圍主要為本企業、組織內部跨部門、上下級以及存在關聯關系的企業之間
253、的數據流通,為企業、組織決策提供數據支持,樹立企業、組織行業優勢。數據流通 1.0 時代,流通形式主要為數據庫之間、文件之間、文件和數據庫之相互交換流通,數據格式不統一、存儲位置不同,通過一些靜態的技術手段進行數據流通,如 ETL(Extract-Transform-Load)、kettle(KDE Extraction,Transportation,Transformation and Loading Environment)、dataX 等技術手段進行數據流通交換。數據流通 1.0 時代,數據流通主要在網絡層進行鏈路和路由,以組或數據包的方式進行傳輸,同時 1.0 時代也有很多紙質方式的數
254、據流通方式,為了確保數據流通的安全,在終端、文件、網絡等方向出現了一下安全防護措施和產品。數據流通 1.0 時代,安全數據流通的需求比較有限,流通方式比較單一。7.1.3 數據流通 2.0企業、組織對于數據價值的需求日益增長,渴望從數據能夠更及時、準確、有效的從數據中獲取相關的信息,1.0 時代的數據流通方式和技術手段已經無法87完全滿足時效性的要求,而數據的存儲方式也由原來的結構化關系存儲、文件存儲等基礎上出現菲關系數據存儲、圖像音頻、文件系統、分布式、大數據等等,同時數據的存儲量也增加了很多。數據流通的范圍在數據經濟的推動下由企業內部轉向外部市場,開始形成以數據為要素的市場發展,數據中臺、
255、數據交易平臺等新型數據流通方式建立,加速了數據流通行業的發展,更高程度滿足企業、組織、個人對于數據方面的價值需求。數據流通 2.0 時代在 1.0 時代流通形式的基礎上開始引入數據動態流通的技術。開發技術、大數據等技術領域的快速發展使得數據高效、完整的動態流通成為可能,應用之間、外部接口、數據倉庫之間等之間的數據流通交互成為主流趨勢,如 API 技術、大數據、混合應用、流式計算、ELK 等。數據流通2.0時代數據流通開始擴展到應用層,以數據的方式進行之間交互,極大提升了數據傳輸的效率、可用性等問題,同時伴隨著新的數據安全問題出現,數據確權、數據泄露、數據明文傳輸、協議統一性等方面的安全問題。安
256、全是數據流通環節需要重點關注的問題,在數據流通 2.0 時代的脫敏技術、加密技術、數據防護技術、溯源技術等。數據流通 2.0 階段開始注重數據最大限度的開放、流通使數據能夠體現出更大的價值,同時帶來了很多流通環節的安全問題,是3.0 時代需要重點處理解決的安全問題。7.1.4 數據流通 3.0我國“十四五”數字經濟發展規劃中首次將數據納入生產要素中來,標志著數據流通新時代的開啟,數據必將作為生產重點要素促進數據時代的新發展。數據的快速、高質量的開發利用數據,最大化的數據共享實現規劃中的智慧共享、和睦共治的新型數字生活,讓每人都能享受數據帶來的價值,數據流通的范圍、作用也將已經進一步擴大。數據流
257、通3.0時代要以數據促發展,要著重關注數據流通中的數據安全問題,同時也要確保數據的及時、有效、完整、高質量的流通。數據流通 3.0 時代是數據互聯、共享的時代,無論是數據的質量、共享、開放程度都將是史無前例的。新時代的數據安全流通需要從監管、法律法規等方面指引,同時也需要使用相關技術進行保障,如沙箱技術、密碼技術、隱私計算、數據可視化等等方面保證數據的互聯互通。88表表 7-1 數據流通各階段區別與聯系數據流通各階段區別與聯系對比對比階段階段數據流通數據流通 1.0 階段階段數據流通數據流通 2.0 階段階段數據流通數據流通 3.0 階段階段存 儲 方式關系數據庫、紙質文件、文件等關系型數據庫
258、、非關系型數據庫庫、紙質文件、文件、圖像音頻、文件系統、分布式、大數據文件等關系型數據庫、非關系型數據庫庫、紙質文件、文件、圖像音頻、文件系統、分布式、大數據文件等流 通 范圍企業、組織內部或關聯組織內部企業、組織內部或關聯組織內部、數據中臺、數據交易平臺企業、組織內部或關聯組織內部、數據中臺、數據交易平臺、開放、共享數 據 價值企業、組織發展需要企業、組織發展、商業等企業、組織發展、商業、個人流 通 形式靜態交換處理靜態交換處理、動態流轉要求靜態交換處理、動態流轉要求、互通互聯安 全 保障技術終端、文件、網絡等終端、文件、網絡、脫敏技術、加密技術、數據防護技術、溯源技術等終端、文件、網絡、脫
259、敏技術、加密技術、數據防護技術、溯源技術、沙箱技術、密碼技術、隱私計算、數據可視化等流 通 方式網絡層網絡層、應用層網絡層、應用層、數據層等階 段 間聯系數據作為流通關鍵要素;數據流通各階段實現的目標是體現數據的價值;數據流通各個階段都存在流通的需要解決的安全問題7.2 數據流通機制近年來,信息系統、數據庫、互聯網技術的發展使人類社會活動中的越來越多的內容被數字化記錄下來。同時,云計算、大數據技術的發展提高了對數據資源的加工效率,降低了處理成本。數據的外部性,同一組數據可以在不同的維度上產生不同的價值和效用,對不同的用戶也會發揮不同的效用,導致隨著使用維度增加,數據的能量和價值就將層層放大。同
260、時,數據可以被邊際成本很低地復制。在此背景下,存儲于某個系統中完成某個業務目標的存量數據可能成為其他系統所需的數據資源,數據資源在流通過后產生更多的應用價值。數據流通使數據脫離了原有使用場景,變更了使用目的,優化了資源配置,從數據產生端轉移到其他數據應用端,是數據釋放應用價值的重要環節。此過程就是流通成為數據資源價值傳遞的途徑。因此,數據流通可以被定義為某些信息系統中存儲的數據作為流通對象,按照一定的規則從供應方傳遞到需求方的過程。數據流通使得數據可以跨越時間和空間進行更大程度的復用,形成更大的社會價值。89(一)業務視圖下的數據流通機制基于各參與方之間的業務關系形成的數據流通機制,主要分為點
261、對點模式、星狀網絡模式以及融合模式。點對點模式,該模式是數據流通場景中最為常見。以房地產業中的房屋建筑為例,企業甲房屋設計公司將房屋圖紙及戶型設計數據交付建筑公司乙建造房屋。在此過程中,數據提供方(企業甲)提供圖紙數據,數據使用方(建筑公司乙)需要圖紙數據進行建造生產,兩家企業內部的存證部門作為存證方對數據的使用進行監督。圖圖 7-1 點對點模式點對點模式星狀網絡模式,隨著數據提供方和使用方數量增多,以及雙方對數據的使用形式和深度提出了不同需求,點對點的數據共享流通方式難以滿足用戶需求,星狀網絡結構因此逐漸出現。數據匯聚、數據沙盒、多方安全計算和聯邦學習是星狀網絡模式中四種常見的數據共享流通方
262、式。星狀網絡結構使得數據的共享與流通在連接性、可信度以及應用深度上均有提高。圖圖 7-2 星型模式星型模式融合模式,主要基于模式一和模式二中各利益相關方對數據使用范圍、深度和可信的不同要求,在模式三中,定義了五種主要參與方,包括數據提供方、數據使用方、存證方、中間服務方和 IT 基礎設施提供方,如圖 7-3 所示。該類模式覆蓋的角色和業務流程相對完整。90圖圖 7-3 融合模式融合模式7.3 數據流通模式在產業數字化和數字產業化的應場景下,數據流通是“常態”,數據靜止存儲是“非常態”。數據流通是數據價值實現的前提和基礎,有數據開放、數據共享、數據交易等形態,涵蓋一對一、一對多、多對多數據流通許
263、可模式三種方式。我國數據交易市場仍處在發展的初級階段,需要發揮市場和政府的雙重力量,構建激勵相容的數據交易制度,支持數據交易技術研發和創新數據交易模式,拓寬數據交易渠道,促進數據高效流通。7.3.1 數據流通基本模式數據流通的模式按照不同的區分邏輯有不同的歸類方式。按照流通參與方主體可以分為內部數據流通和外部數據流通;前者是同一主體之間的流通,如跨部門之間的數據流通;后者是不同主體之間的流通,如跨企業、跨政府之間的數據流通。按照流通目的可以分為盈利性質的流通和非盈利性質的流通;前者流通的目標是為了企業的盈利,后者更多的是公共服務或者公共利益。按照流通數據的主權可以分為跨境流通和非跨境流通;前者
264、是指不同主權國家之間的數據流通,后者指的是同一主權國家體系內部的數據流通。按照數據流通參與方的個數進行區分,可分為一對一數據流通許可,一對多數據流通許可,多對多數據流通許可模式。(一)一對一數據流通許可該數據流通模式是常見的數據流通方式。它可能內含于企業之間的業務合作中,數據的提供方授權數據的使用在一定條件下使用某一特定范圍內的數據;也可以是與外部企業進行進行單獨的授權數據使用合同,如開放 API 接口、多存在于企業自營的數據交易平臺。91(二)一對多數據流通許可該模式下數據擁有者對非特定主體進行的授權數據合法使用,其根本特征在于數據使用方具有大眾性,是面向社會需求者的一種數據流通許可模式。一
265、對多模式可以再細分為自由數據流通許可和有條件的數據流通許可。自由數據流通許可即將特定數據明確為“無限制隨取隨用”,即不設任何條件且由不特定社會主體自由取。相對地,有條件的數據流通許可是數據擁有者向不特定數據需求方授權使用數據,但是限制了數據的使用自由,包括使用目的、使用場景、使用期限、使用定價等。有條件的數據流通許可本質上是數據交易的一種模式,它通過市場化機制將數據資源配置給數據需求者,實現數據的社會化利用。(三)多對多數據流通許可該模式指多個參與方(兩個以上的數據擁有者)相互進行數據的取用模式,這是共同開發各自控制的數據的一種數據流通方式,這種數據流通模式本質上是相互之間許可的方式,因此也屬
266、于數據共享;該模式的基本特征,一是參與方必須是多方之間的,且數據流通是相互的;二是參與主體有自己所有或者控制的合法數據源。7.4 流通的監管與保護自數據被定義為生產要素以來,對于數據合法合規使用的推進工作層層遞進,尤其在法律法規方面逐步推進,各項法律與監管來保障數據流通的安全性。完善的數據安全基礎制度是開展數據安全治理的前提條件,目前,我國的數據安全制度體系框架已經形成,配置細則正加緊制定出臺,為數據安全協同治理提供了良好的制度保障。數據要素具有非競爭性,并且可以無限復制、重復使用等特點,需要通過高質量供給、市場化流通、創新開發利用等市場化建設來充分發揮數據要素價值,迫切需要強化政府監管職能、
267、壓實企業主體責任和發揮社會監督作用,落實各方責任,共同守護數據安全底線。7.4.1 法律層面(一)網絡安全法網絡安全法 是我國第一部全面規范網絡空間安全管理方面問題的基礎性法律,安全與發展并重、共同治理是網絡安全法秉承的基本原則。網絡安全法將現行有效的網絡安全監管體制法制化,明確了網信部門與其他相關網絡監管部門的職責分工。第八條規定,國家網信部門負責統籌協調網絡安全工作和相關監督管理工作,國務院電信主管部門、公安部門和其他有關機92關依法在各自職責范圍內負責網絡安全保護和監督管理工作。這種“1+X”的監管體制,符合當前互聯網與現實社會全面融合的特點和我國監管需要。(二)數據安全法數據安全法明確
268、數據安全主管機構的監管職責,建立健全數據安全協同治理體系,提高數據安全保障能力,促進數據出境安全和自由流動,促進數據開發利用,保護個人、組織的合法權益,維護國家主權、安全和發展利益,讓數據安全有法可依、有章可循,為數字化經濟的安全健康發展提供了有力支撐。數據安全法 在數據安全監管、安全評估與防護要求方面做出了明確規定,明確了數據管理者和運營者的數據保護責任,指明了數據保護的工作方向,對整個信息安全產業都帶來了積極的影響,全面消除數據管理者和運營者在數據安全建設中的盲區,數據安全建設有法可依,數據安全事故造成的損失有法可懲,這對促進經濟社會信息化健康發展,保護公民、組織的合法權益具有非常大的價值
269、;以人為本,鼓勵對違法行為的投訴舉報,對投訴、舉報人的相關信息予以保密,并充分考慮老年人、殘疾人的需求,維護每一個公民的合法利益;特別指出“關系國家安全、國民經濟命脈、重要民生、重大公共利益等數據屬于國家核心數據,實行更加嚴格的管理制度?!焙诵臄祿踩O督與管理、評估與防護建設刻不容緩;提出對數據全生命周期各環節的安全保護義務,加強風險監測與身份核驗,結合業務需求,從數據分級分類到風險評估、身份鑒權到訪問控制、行為預測到追蹤溯源、應急響應到事件處置,全面建設有效防護機制,保障數字產業蓬勃健康發展。(三)個人信息保護法個人信息保護法 從自然人個人信息的角度出發,給個人信息上了一把“法律安全鎖”,
270、成為中國第一部專門規范個人信息保護的法律,對我國公民的個人信息權益保護以及各組織的數據隱私合規實都將產生直接和深遠的影響。個人信息保護法 第六十條定義履行個人信息保護職責的部門包括國家網信部門負責統籌協調個人信息保護工作和相關監督管理工作。國務院有關部門依照本法和有關法律、行政法規的規定,在各自職責范圍內負責個人信息保護和監督管理工作??h級以上地方人民政府有關部門的個人信息保護和監督管理職責,按照國家有關規定確定。7.4.2 安全管理(一)網絡數據安全管理網絡數據安全管理條例(征求意見稿)第五十五條規定國家網信部門負93責統籌協調數據安全和相關監督管理工作。公安機關、國家安全機關等在各自職責范
271、圍內承擔數據安全監管職責。工業、電信、交通、金融、自然資源、衛生健康、教育、科技等主管部門承擔本業、本領域數據安全監管職責。主管部門應當明確本行業、本領域數據安全保護工作機構和員,編制并組織實施本行業、本領域的數據安全規劃和數據安全事件應急預案。主管部門應當定期組織開展本行業、本領域的數據安全風險評估,對數據處理者履行數據安全保護義務情況進行監督檢查,指導督促數據處理者及時對存在的風險隱患進行整改。(二)金融數據安全管理1、證券期貨業網絡安全管理證券期貨業網絡安全管理辦法(征求意見稿)第六條指出中國證監會建立集中管理、分級負責的證券期貨業網絡安全監督管理體制。中國證監會科技監管部門統一對證券期
272、貨業網絡安全實施監督管理。中國證監會其他部門配合開展相關工作。中國證監會派出機構對本轄區經營機構和信息技術服務機構網絡安全實施監督管理。中證信息技術服務有限責任公司在中國證監會指導下,為證券期貨業網絡安全監督管理提供專業協助和支撐。2、征信業務管理征信業務管理辦法第四十四條規定中國人民銀行及其省會(首府)城市中心支行以上分支機構對征信機構的下列事項進行監督檢查:征信內控制度建設,包括各項制度和相關規程的齊備性、合規性和可操作性等;征信業務合規經營情況,包括采集信用信息、對外提供和使用信用信息、異議與投訴處理、用戶管理、其他事項合規性等;征信系統安全情況,包括信息技術制度、安全管理、系統開發等;
273、與征信業務活動相關的其他事項。(三)汽車數據安全管理汽車數據安全管理若干規定(試行)第十五條定義國家網信部門和國務院發展改革、工業和信息化、公安、交通運輸等有關部門依據職責,根據處理數據情況對汽車數據處理者進行數據安全評估,汽車數據處理者應當予以配合。(四)工業和信息化領域數據安全管理工業和信息化領域數據安全管理辦法(試行)第四條定義監管機構,工業和信息化部及地方工業和信息化主管部門、通信管理局、無線電管理機構統稱為行業(領域)監管部門。行業(領域)監管部門依照有關法律、行政法規的規定,依法配合有關部門開展的數據安全監管相關工作。在國家數據安全工作協調機制統籌協調下,工業和信息化部負責督促指導
274、各省、自治區、直轄市及計劃單列市、新疆生產建設兵團工業和信息化主管部門(以下統稱地方工業和信息化主管部門),各省、自治區、直轄市通信管理局(以下94統稱地方通信管理局)和各省、自治區、直轄市無線電管理機構(以下統稱地方無線電管理機構)開展數據安全監管,對工業和信息化領域數據處理者的數據處理活動和安全保護進行監督管理。地方工業和信息化主管部門負責對本地區工業數據處理者的數據處理活動和)安全保護進行監督管理;地方通信管理局負責對本地區電信數據處理者的數據處理活動和安全保護進行監督管理;地方無線電管理機構負責對本地區無線電數據處理者的數據處理活動和安全保護進行監督管理。7.5 數據流通合規7.5.1
275、 數據處理合規(一)GB/T 35274-2017-大數據服務安全能力要求本標準針對我國大數據產品發展需求和大數據服務面臨的安全問題,結合國內主要互聯網企業和測評機構在大數據服務安全方面的實踐基礎,提出了有組織、有數據和有大數據系統的大數據服務提供商的大數據服務安全能力要求。落實了網絡安全法中關于大數據安全保護的相關要求,為其落地實施提供了標準化支撐。(二)GB/T 36073-2018 數據管理能力成熟度評估模型(DCMM)將組織內部數據能力劃分為數據戰略,數據治理,數據架構,數據標準,數據質量,數據安全,數據應用,以及數據生存周期八個重要組成部分,描述了每個組成部分的定義、功能、目標和標準
276、。適用于信息系統的建設單位,應用單位等進行數據管理時的規劃,設計和評估,也可以作為針對信息系統建設狀況的指導、監督和檢查的依據。旨在幫助企業利用先進的數據管理理念和方法,建立和評價自身數據管理能力,持續完善數據管理組織、程序和制度,充分發揮數據在促進企業向信息化、數字化、智能化發展方面的價值。GB/T 36073-2018 數據管理能力成熟度評估模型(簡稱 DCMM)是一個數據管理能力現狀評估標準,用于對企業數據管理能力的全面診斷,提出企業在數據管理方面存在的差距、改進方向及提升建議;也可以作為針對企業信息系統建設狀況的指導、監督和檢查的依據。DCMM 分為 8 個能力域,可以理解為1 個戰略
277、引領(數據戰略)、1 個保障機制(數據治理)、4 項應用環境建設(數據架構、數據標準、數據生存周期、數據應用)、2 項日常運營(數據質量、數據安全)共 4 個方面。在數據安全流通的全生命周期中,由于生產要素的重要性和安全性要求,更95需要數據的提供方和需求方有一定水平數據管理能力,才能保障數據流通的安全性不會在終端節點失效。(三)GB/T 37932-2019 信息安全技術 數據交易服務安全要求本標準提出了數據交易服務的參考框架和安全原則,將交易參與方分為數據供方、數據需方及數據交易服務機構,規定了各交易參與方的安全要求;從禁止交易數據、數據質量要求、個人信息安全保護及重要數據安全保護四個方面
278、提出了交易對象的安全要求;將交易過程定義為交易申請、交易磋商、交易實施、交易結束四個階段,并規定了數據交易過程各階段的安全要求。(四)GB/T 37973-2019 信息安全技術 大數據安全管理指南本標準首先提出了大數據安全管理基本概念,明確了大數據安全管理的基本原則(包括職責明確、合規、質量保障、數據最小化、責任不隨數據轉移、最小授權、確保安全和可審計,這些原則是組織實施大數據安全管理的基本原則),提出了大數據安全需求(包括保密性、完整性、可用性及其他需求);其次介紹了數據分類分級的原則、流程及方法,從組織開展大數據安全管理活動的角度定義了數據采集、數據存儲、數據處理、數據分發、數據刪除等活
279、動,描述了每個活動的基本概念以及常見的子活動,并針對每個子活動提出了安全要求;最后給出了指導組織評估大數據安全風險的方法。(五)GB/T 37988-2019 信息安全技術 數據安全能力成熟度模型本標準給出了組織機構數據安全能力的成熟度模型架構。該模型分為數據安全過程、安全能力及能力成熟度等級三個維度,重點強調對組織機構的數據安全能力成熟度的評判。模型側重以數據為中心,在數據安全過程維度,將數據生命周期分為數據采集、數據傳輸、數據處理、數據交換、數據銷毀六個階段,每個階段劃分為若干個不同的安全過程域。同時,與各階段都相關的過程以通用安全過程域表示。對于每一個過程域,從安全能力維度(即組織建設、
280、制度流程、技術工具、人員能力)分別提出各成熟度等級要求,同時給出了組織數據安全能力成熟度等級的評估方法。(六)GB_T 39477-2020 信息安全技術 政務信息共享數據安全技術要求本標準的制定和發布,為政務數據在應用方面的安全保護提供借鑒,也為政務數據治理體系建設和政務大數據安全應用提供指導,對動態流轉場景下的政務數據應用具有普適性和指引性。本標準通過充分調研和梳理政務信息共享的數據流程,抽取共性,分析政務信息數據流轉的過程及面臨的數據安全風險,梳理安全控制點等,總結現有各種數據安全技術應對政務信息共享過程中面臨數據風險的能力,提出政務信息共享數據安全技術要求框架,規定了政務信息共享過程中
281、共享數據準備、共享數據交96換、共享數據使用階段的數據安全技術要求以及相關基礎設施的安全技術要求。(七)GB/T 39725-2020 信息安全技術 健康醫療數據安全指南健康醫療數據不同于其他個人數據,其行業特征明顯、敏感度高、質量要求高、互聯互通需求較大且目前來看治理能力偏低,所以安全指南的出臺對醫療行業內開展合規治理建設敲響了一記警鐘??v觀安全指南,其對數據使用和披露過程中的合法合規問題提出了若干的管理和技術保障措施,可見其對保護健康醫療數據、保護個人信息安全、公共利益和國家安全等都起到了一定的積極作用,有著不可否認的現實意義。(八)JR/T 0197-2020 金融數據安全 數據安全分級
282、指南標準給出了金融數據安全分級的目標、原則和范圍,明確了數據安全定級的要素、規則和定級過程,并給出了金融業機構典型數據定級規則供實踐參考,適用于金融業機構開展數據安全分級工作,以及第三方評估機構等參考開展數據安全檢查與評估工作。此外,還規定金融行業的數據 CIA 特性遭到破壞后,影響程度從低到高分為四種:無損害、輕微損害、一般損害、嚴重損害。具體如圖 7-4 所示:圖圖 7-4 影響程度說明影響程度說明嚴重損害的影響程度最明顯的特點就是可能會危及國家安全,對國家利益造成重大損失,對社會秩序,公共利益造成嚴重損失,造成重大安全事件,或遭受嚴重破壞,重大處罰。(九)JR/T 0218-2021 金
283、融業數據能力建設指引明確了金融業數據工作的基本原則,從數據戰略、數據治理、數據架構、數據規范、數據保護、數據質量、數據應用、數據生存周期管理等方面劃分了 8個能力域和 29 個對應能力項,提出了每個能力項的建設目標和思路,為金融機構開展金融數據工作提供全面指導。97明確金融業數據能力建設遵循用戶授權、安全合規、分類施策、最小夠用、可用不可見 5 大基本原則。用戶授權要求明確告知用戶數據采集和使用的目的、方式以及范圍,確保用戶充分知情,獲取用戶自愿授權后方可采集使用,嚴格保障用戶知情權和自主選擇權。在數據采集使用方面要求確保數據專事專用、最小夠用,杜絕過度采集、誤用、濫用數據,切實保障數據主體的
284、數據所有權和使用權。要遵循國家法律法規、管理制度,符合國家及金融行業標準規范,建立健全數據安全管理長效機制和放護措施,嚴控訪問權限,嚴防數據泄露、篡改、損毀與不當使用,依法依規保護數據主體隱私權不受侵害。在數據共享方面,要求建立數據規范共享機制,在保障原始數據可用不可見的前提下,規范開展數據共享與融合應用,保證跨行業、跨機構的數據使用合規、范圍可控,達到可用不可見,有效保護數據隱私安全,確保數據所有權不因共享應用而發生讓渡。7.5.2 技術方案合規數據流通過程中,服務方提供隱私計算技術方案需要獲得數據安全管理認證,其中包含技術驗證+現場審核+獲證后監督。技術服務方需要提交認證委托資料,技術驗證
285、機構需要按照實施技術進行驗證。其中可包含驗證流通交易業務一致性、可還原性核驗、自動化決策完善性核驗、化合風險評估核驗。(一)驗證流通交易業務一致性驗證流通交易業務一致性主要是指通過采用實驗環境,將使用“樣本數據+流通隱私計算平臺”結合計算結果,并于先前預制的理論公式計算結果進行比對,驗證其技術方案在流通交易業務中保持的一致性。(二)可還原性核驗通過理論計算公式、實驗計算結果反推等方式進行 AI 訓練,查詢數據流通過程中隱私計算技術方案是否存在數據可還原的風險,從而進行合規判定。(三)自動化決策完善性核驗核驗算法自動化決策中是否違法法律、道德等情況,在實驗環境下通過對準備的多組實驗樣本進行帶入,
286、檢驗輸出的結果是否存在“信息繭房”、惡意歧視、隱私泄露等風險,進行合規化檢驗。(四)化合風險評估核驗分析樣本和實驗結果的敏感性,并與設定的敏感信息庫進行對比,分析是否存在化合結果敏感性更高的風險評估。技術驗證機構完成技術驗證后需向認證機98構和認證委托人出具技術驗證報告。7.5.3 產出結果合規數據流通的結果安全性與技術實現緊密相關,部分數據流通方法存在根據產出結果反推原始敏感數據的風險。(一)最終結果反推以數據脫敏為例,對某些敏感信息通過脫敏算法進行數據的遮蔽、變形,將敏感級別降低后對外發放,或供訪問使用,實現敏感隱私數據的可靠保護。按照實現原理的差異可分為靜態脫敏和動態脫敏。對于一些簡單變
287、換規則的靜態脫敏算法,積累一定數量的脫敏數據(如手機號碼)后,經過分析可能破解脫敏方案,導致敏感用戶信息泄露。(二)中間結果反推聯邦模型訓練,即聯邦各方加密交互中間計算結果,完成模型的學習和收斂,過程保證梯度不可被反推,原始數據不出域,原始樣本數據不可被反推。在實現過程中,由于梯度的本質是基于原始輸入數據的函數處理,雖然原始數據沒有出庫,但梯度幾乎包含原始數據信息,在一定程度上可以反推其他參與方的原始數據。無論是簡單的邏輯回歸或復雜的 CNN,學術界已發布的一些安全性分析的論文指出梯度泄露可能存在原始數據泄露的風險。(三)邏輯結果反推部分數據流通環節從邏輯上無法保護流通雙方的敏感信息。以隱私計
288、算為例,兩個參與方執行多方安全計算,其中一方獲得計算結果。如計算函數存在逆函數,則任何隱私計算方案都無法保護原始數據的安全,因為根據己方的計算數據和計算結果,結果方很容易反推另外一方參與計算的原始數據。7.5.4 審計監督合規個人信息保護法 是首次在法律層面規定個人信息處理者應該對其遵守法律、行政法規的情況進行審計。個人信息保護法項下的審計分為個人信息處理者的自主審計和強制外部審計兩種類型。第五十四條要求個人信息處理者應當定期對其處理個人信息遵守法律、行政法規的情況進行合規審計。自主審計雖然構成個人信息保護法項下個人信息處理者的強制性義務,但從立法目的來看,重在強調企業對自身的個人信息處理活動
289、通過審計進行定期自查。因此,審計的頻次、以及是否采用外部審計資源,企業可以基于風險導向原則來加以確定。第六十四條規定,履行個人信息保護職責的部門在履行職責中,發現個人信息處理活動存在較大風險或者發生個人信息安全事件的,可以要求個人信息處理99者委托專業機構對其個人信息處理活動進行合規審計。強制外部審計一方面可以利用外部獨立機構的專業知識和能力,幫助個人信息處理者更客觀、全面地發現、識別合規問題,明確合規差距;另一方面,外部審計機構的審計結果也可以為監管機構開展進一步的執法活動提供依據。100第 8 章 全國數據流通產業生態鏈數據要素是數字經濟深化發展的核心引擎。據國家工業信息安全發展研究中心最
290、新測算,預計到 2025 年,中國數據要素市場規模將突破 1749 億元,整體進入高速發展階段,數據要素流通正迎來加速期。隨著數據流通的發展和相關產業政策法規的發布,在新型數據交易流通框架下,數據流通產業面向更大范圍,更深層次的數據交易流通,更加重視數據的安全合規、場景化交易、數據要素融合、數據新價值的發現,同時已逐漸成為系統性、生態性的市場活動,涵蓋了數據流通主體的協同發展體系。在支撐技術層面,更關注數據的隱私保護,其中特別強調利用隱私計算、區塊鏈等技術,打造“數據可用不可見,用途用量可計量”的新型交易范式,保證數據的提供方和數據需求方等各方數據的權益。8.1 數據數據要素流通核心產業202
291、2 年 6 月 22 日,中央全面深化改革委員會第二十六次會議審議通過關于構建數據基礎制度更好發揮數據要素作用的意見,并提出“要建立合規高效的數據要素流通和交易制度,完善數據全流監管體系,建設規范的數據交易市場?!睌祿厥袌龌暮诵氖菙祿灰琢魍?,涵蓋了數據資產化、數據確權、數據定價和收益分配、數據交易流通、數據服務商等產業。(一)數據確權數據確權是數據交易和流通的前提,民法典雖將數據納入了保護范圍,但只是原則性地規定了應對數據權利進行保護,并沒有明確規定如何進行保護。要明晰數據權益的所屬關系,關鍵在于做好數據權力分割、數據分類和數據的分級,并根據數據的類型、數據的特性,分級、有區別地精準化
292、管理,對于重要的、安全要求高的國家數據或者企業數據,可以不公開不共享。對于較重要的,安全要求較高的數據,可以有條件地共享和開放,采用隱私計算或區塊鏈技術,實現數據“可用不可見”“可算不可識”,而對于那些具有公用特性的數據可以采用數據集或者 API 的形式開放共享。(二)數據資產化數據的資產化就是讓數據在市場上發現價值。企業通過自己日常的經營活動積累了大量的數據,可以通過數據反饋回路為自己增值,這是數據的“一次價值”,即數據的一次價值在企業內部產生;而數據的“二次價值”則在企業外部實現,即數據通過流通,讓外部的企業也同樣能夠獲得一個數據反饋回路,以此增加該企業的使用價值。數據流通起來才有可能真正
293、釋放價值。數據流通的環節即為數101據的“流通價值”。不同的業務模式都是數據資產化的趨勢之下衍生的模式,彼此之間的差別巨大,收入結構和成本結構各不相同,眾多的方向匯成了數據流通產業發展的洪流。(三)數據定價及收益分配目前,國內外數據交易機構和理論界都在探索數據要素定價的方法、模型和策略。在實踐中,數據資產價值評估主要采用市場法、收益法及成本法等傳統方法,或者基于統一費用、溢價和線性定價等簡單的定價方法。數據要素定價方法和模型,對數據要素定價機制的研究尚處于起步階段。數據作為生產要素必須基于場景考慮數據要素定價,比土地、勞動力、資本、技術等傳統生產要素的定價機制更為復雜。此外,數字技術也對數據要
294、素定價產生影響。數據要素市場的數據權益分配建議跳出傳統的產權思維范式,對數據生產關系中的多方主體的利益訴求做出平衡,根據數據性質建立精細化的數據權益分配體系,配置與企業正當盈利模式符合的數據經營權、收益權、處分權、受償權等權益。由于掌握數據內容、數據采集、數據分析等各環節的參與者并不相同,因此在分配時需要兼顧多方的利益,特別是數據采集者、加工者與內容所有者的產權確認。在加強數據共享利用的同時,注重數據權益的保護。數據作為企業的資產應該按其在生產活動中的貢獻向企業所有者進行分配。數據分析師等相關數據從業人員是數據價值得以體現的關鍵因素,數字人才是按數據要素進行分配的主要受益者。數據收益分配的額度
295、應該與數據要素在生產價值創造過程中的貢獻率相符合。(四)數據交易流通隨著加快培育數據要素市場,各地也迎來了一輪新的數據交易市場的建設熱潮。傳統交易所只是一個供需撮合,但數據交易所要做的并不單純是撮合雙方買賣,而是要建立一套從技術、規則、機制、流程都健全的一個基于數據流通的信任機制。北京國際大數據交易所作為“國內首家新型數據交易所”,“新”體現在創新交易模式、創新交易技術、創新交易規則、創新交易生態和創新應用場景上。核心定位是國內領先的數據流通基礎設施,以及國際重要的數據跨境服務流動樞紐。上海數據交易所則首提“數商”新業態,即涵蓋數據交易主體、數據合規咨詢、質量評估、資產評估、交付等多領域,培育
296、和規范新主體。定位于一個國家級的交易所,配套有準公共服務機構的職能,要構建全鏈生態,打造一個全數字化的交易系統以及創新制度規則。102繼京滬之后,廣東省也在推進數交所的建設。依托現有交易場所建設省級數據交易所,搭建數據交易平臺,推動數據經紀人、“數據海關”試點,支持深圳市探索開展數據交易。對于交易所來說,交易量最能體現市場活躍度。但盈利并非數據交易所當下的目標,創新業務模式,賦能市場,推動數字經濟發展才是重點。數交所的成立,將催生一批以往沒有的新業態,涵蓋數據估值、評級、審計、托管等在內的中介服務商,作為數據交易催生而來的新產業、新業態、新模式,才是數據交易生態中的重要一環。(五)數商數商是以
297、數據資源為基礎,利用大數據、隱私計算等技術,圍繞數據存儲、采集、清洗、建模、分析、流轉、可視化等流程而提供單一或者綜合的專業服務機構,其產品或者服務的輸出即為數據交易。數據交易所可為數商與相關方搭建快捷的交易平臺,基于海量多維數據助力其數據產品、服務變現。深圳數據交易所于 2022 年初發起“2022 數據要素生態圈”計劃,該生態圈匯集了數據需求方、數據提供方、數據承銷方、數據監管方、技術服務方、以及法律/咨詢/學術專家等數據要素流通參與主體,其中數商占比九成以上。生態圈的共建將加速引導各參與主體積極參與數據要素市場、探索開展數據交易、保障數據要素安全有序規?;鲃?、持續完善數據交易規則標準,
298、加快構建可信數據交易環境、構建完善數據要素市場生態體系。數商和數據市場的發展將直接驅動數字經濟與實體經濟的深度融合,倒逼傳統企業的信息化加速補課,推動企業數字化轉型、智能化加速落地,加速各類新業態的涌現,并引領全社會邁向新的商業文明時代。8.2 數據要素流通基礎設施產業在數據要素流通和交易中,需要數據基礎能力的支撐,有助于更好地對數據資源進行開發和利用,將數據資源安全、合規的轉變為數據資產。積極推送數據安全治理、數據存儲備份、隱私計算、數據脫敏、數據泄露防護、數據安全運營、數據審計、數據安全應急處置等產業發展,著力提升數據“采存算管用”全生命周期的基礎支撐能力,打造數據交易流通的重要基礎設施及
299、安全體系。(一)數據安全治理數據安全治理是以數據為中心、以組織為單位、由合規驅動的滿足數據安全保護需求的管理、技術、運營體系。數據安全治理圍繞數據全生命周期展開,涵蓋數據的采集安全、存儲安全、計算安全、管理安全、調用安全和流轉安全。在實踐中以數據分類分級、角色授權、安全評估和場景化安全為基礎,依托以能力103成熟度評估模型 DSMM 為代表的方法體系,保護數據機密性、完整性和可用性。依據法律法規開展數據安全治理,符合監管合規要求,減少數據泄漏風險。數據安全治理貫穿于數據安全流通過程的始終。圖圖 8-1 數據安全治理技術架構數據安全治理技術架構數據安全治理技術架構以數據安全標識技術為基礎,以數據
300、資產管理與數據安全標準規范為基準,依托安全標識的生成、編碼、綁定、保護等技術手段,圍繞數據采集、傳輸、存儲、使用、共享、銷毀等全生命周期處理流程,從數據資產綜合管理與分級分類、數據全生命周期安全管控、數據安全審計與稽核三方面展開數據的安全防護與治理,實現數據資產安全態勢可展現、數據安全風險可感知、數據細粒度安全策略可運維、數據安全保密防護可協同、數據防護水平可評估、數據安全事件可追溯,為加快數據資源層形成和應用創新能力形成提供技術保障。中國數據治理市場經過幾十年的發展,市場需求已經發生了重大轉變。數據治理已經從政府行業、金融行業、能源行業延伸到制造、交通、建筑等行業,其價值和必要性逐漸被認可,
301、應用前景越來越廣泛,整體市場迎來高速增長期。IDC將中國數據治理市場分為數據治理平臺市場以及數據治理解決方案市場,其中,數據治理平臺市場 2021 年規模達 23.9 億元,數據治理解決方案市場 2021 年規模達 26.6 億元。從市場增長角度看,預計 2022 年的市場規模增長將遠高于 2021年的年度增長。(二)數據安全存儲“數據安全能力成熟度模型 DSMM”將數據存儲安全定義為數據以任何數字格式進行存儲的階段,該階段涉及數據完整性、保密性和可用性(即 CIA)這3 個方面,包含了 3 個過程域,分別為存儲介質安全、邏輯存儲安全、數據備份和恢復。存儲介質安全定義為針對組織內需要對數據存儲
302、介質進行訪問和使用的場景,提供有效的技術和管理手段,防范出現由于對介質的不當使用而可能引發的104數據泄露風險。伴隨著大數據帶來的超高容量需求,存儲系統已從硬件發展到軟硬件分離、軟件定義存儲,實現高效、安全的海量數據儲存。邏輯存儲安全定義為基于組織內部的業務特性和數據存儲安全要求,建立針對數據邏輯存儲及存儲容器等的有效安全控制機制。數據備份和恢復定義為通過定期執行的數據備份和恢復,實現對存儲數據的冗余管理,保護數據的可用性。數據備份主要通過冗余方式解決數據的完整性和可靠性。數據備份對于防止數據丟失、損毀、篡改能夠發揮重要作用。在勒索軟件頻發的背景下,數據備份能夠確保數據資源快速恢復、保障業務的
303、連續性。(三)隱私計算隱私計算是數據安全流通環節革命性的技術,主流技術路徑包括多方安全計算、聯邦學習、可信執行環境等。在引入隱私計算技術之前,數據的流通只能采用將原始數據交付給特定對象的方式。盡管接收數據的對象可以有所限定,也可以通過合同協議等法律手段增強保障,但由于數據可無限復制的特性,原始數據的流動實際改變了數據的所有權結構,使得數據源的供應方邊際價值持續降低,從長遠來看不利于數據要素的流通。而隱私計算技術通過將原始數據進行加密實現運算,將計算的結果給到需求方,從而實現了“數據可用不可見”的數據安全流通模式。原始數據牢牢掌握在數據源方手中,不必擔心數據泄漏的風險。作為數據需求方,能夠根據特
304、定的算法和運算邏輯得到可信的數據運算結果,滿足了業務的需要。隱私計算將數據流通的模式從過去的不可控的數據所有權讓渡轉變為了可控的數據使用權授予,可以有效的支撐數據使用權按次付費的新商業模式。當前,政府多部門發文鼓勵隱私計算的落地應用,隱私計算在金融、醫療、能源、政務、互聯網等多個產業中蓬勃發展。利用隱私計算保障數據安全流通,已成為數據流通環節的普遍趨勢。在 2021 年中國隱私計算基礎產品服務的技術采購中,金融、政務、運營商占據 75%80%的市場份額,醫療領域占比約為 10%。另外,金融、政務、運營商的核心投入期集中在 20222024 年,預計 2025 年將取得收官成果。以銀行為例,預計
305、至 2025 年,國有商業銀行、股份制銀行、40%50%的城市商業銀行均將完成隱私計算的平臺建設。醫療領域將在衛健委政策和行業用戶需求的推動下,預計在 20232025 年,在基礎產品服務的投入上也會產生一定增速。(四)數據脫敏數據脫敏是一種保護敏感信息的技術手段,可以分為靜態脫敏和動態脫敏。靜態脫敏是指對敏感數據進行變形、替換、或屏蔽處理后,將數據從生產環境導入到其他非生產環境進行使用,例如需要將生產數據導出發送至開發、測試等環境。動態脫敏會對數據進行多次脫敏,例如在用戶訪問生產環境敏感數據時,通105過匹配用戶 IP 或 MAC 地址等脫敏條件,根據用戶權限采用改寫查詢 SQL 語句等方式
306、返回脫敏后的數據。例如運維人員在運維工作中直連生產數據庫,業務人員需要通過生產環境查詢客戶信息等。(五)數據泄露防護隨著數據安全法以及個人信息保護法的正式施行,各行各業對數據安全的關注程度更進一步。想做好數據安全就必須先做數據安全治理,而數據防泄露是數據安全治理的重要目標導向,也是整個數據安全生命周期的一個重要命題。數據泄露防護指使用先進的內容分析技術,在統一的管理控制臺內對靜止的、流轉的、使用的敏感數據進行保護的系統。其主要核心是通過識別文檔等數據資產內容,根據策略執行相關動作,以此來保護數據資產。其內容識別方法包括關鍵字、正則表達式、文檔指紋、向量學習等;其策略包括攔截、提醒、記錄等;其目
307、的為根據業務場景保護數據資產,從發現到加密,再到管控、審計的智能化數據防護方案。數據泄露防護主要用于解決故意泄露、無意泄露、合規性和外部威脅等數據安全問題。根據數據泄露途徑不同,分為網絡數據防泄漏(網絡 DLP)、終端數據防泄漏(終端 DLP)、存儲數據防泄漏(存儲 DLP)、云數據防泄漏(云 DLP)。網絡 DLP 也叫無代理 DLP,提供網絡流量的可見性并可以對流量進行控制。通常是專用硬件設備或軟件形式以旁路監聽的方式部署在網絡邊界,當然也可以串聯或代理的部署方式,并同時支持多個網絡 DLP 設備進行集群化部署。終端 DLP,主要依賴于運行于桌面、筆記本電腦、服務器、及 Windows、L
308、inux、Apple OS 的設備上的軟件客戶端。該客戶端提供可見性,并且在有需要的時候,對數據進行精準控制。存儲 DLP,也叫發現 DLP,主動掃描您網絡上的筆記本電腦、服務器、文件共享和數據庫,提供一個駐留在所有這些設備上的敏感信息的分析。執行數據發現的一些解決方案,也需要在被掃描的機器上安裝一個代理。數字化產生了大量有價值的數據,但也帶來了更高的風險。無論這些數據存儲在哪里或傳輸到哪里,都需要受到保護。當前 DLP 系統面臨的主要挑戰是與業務流程的深度集成和智能自動化。(六)數據安全運營數據安全運營服務是利用安全服務人員的專業技能,從數據安全摸底、數據安全策略的制定及升級、數據安全風險管
309、理以及數據安全優化等方面對數據安全提供全方位安全服務。數據安全運營的基礎工作包括數據分類分級、數據標簽;建立資產庫和資產106大盤,掌握數據資產在業務的分布、風險狀態;權限管理、關鍵業務日志等;如數據在收集階段的涉敏資產發現服務;數據在存儲中的掃描服務、加密存儲服務;數據在使用過程中的文件分發平臺等,這些基礎能力的建設堅持對標業界,避免走彎路的同時提升效率。數據安全運營日益成為行業熱點,主要有兩個維度的原因。第一層是面臨的大環境也就是國內外的網絡安全形勢,迫使我們需要不斷推進安全工作的進一步迭代。第二層是政策法規推動下的合規管控要求的增強,“等保 2.0”(網絡安全等級保護)把包括傳統網絡安全
310、、云計算、物聯網、移動互聯、工業控制、大數據等在內新技術納入,比“等保 1.0”(信息系統安全等級保護)拓展了一個維度,并且著重強調了數據安全相關事宜。(七)數據安全審計數據安全是數字經濟時代生產力要素的必要屬性,持續性開展數據安全審計已成為信息系統審計的重要內容。2021 年 11 月 14 日,國家互聯網信息辦公室就網絡數據安全管理條例(征求意見稿)征求意見,對于數據安全、數據分級分類、數據處理者境外上市、數據出境等方面提出詳細和有針對性的監管措施,并對數據處理者在數據安全方面的義務,提出了明確的要求。數據安全審計制度包含兩大方面,第一類是由獨立第三方專業數據審計機構,對數據處理者進行數據
311、安全等方面的審計;第二類是來自有關監管部門的審計。對于后者而言,是專門針對重要數據處理活動的審計,其重點在于審計法律履行情況,行政法規所涉義務的履行情況等。對于由專業第三方機構進行的數據安全審計,可以讓第三方機構出具的數據安全審計報告承擔法定責任,由此,建立起一整套社會資源對數據處理者進行例行外部監督的機制,從而實現數據安全監督的日?;?、常態化。(八)數據安全應急處置網絡數據安全管理條例(征求意見稿)提出,數據處理者應當建立數據安全應急處置機制,發生數據安全事件時及時啟動應急響應機制,采取措施防止危害擴大,消除安全隱患。安全事件對個人、組織造成危害的,數據處理者應當在三個工作日內將安全事件和風
312、險情況、危害后果、已經采取的補救措施等以電話、短信、即時通信工具、電子郵件等方式通知利害關系人,無法通知的可采取公告方式告知,法律、行政法規規定可以不通知的從其規定。安全事件涉嫌犯罪的,數據處理者應當按規定向公安機關報案。數據安全應急處置體系主要包括:數據泄漏事件預警監測、動態應對、高效處置能力建設;數據泄漏事件發生后,控制事態、降低影響、防止擴散、追蹤溯源、復位的107技術和手段;建立整體應對機制和能力,建立和完善行業內部、政府機構、安全廠商、專業人員之間的聯動機制。8.3 數據要素流通咨詢服務產業數據要素流通過程中,需要專業化的數據資產評估、數據資產擔保、數據交易合規評估、數據安全風險評估
313、等咨詢及服務的支撐,以推動數據要素市場化的快速健康發展。(一)數據資產評估資產評估行業要在研究數據權屬、數據資產定義、數據價值標準、數據評估指導意見等規范制定過程中提供專業支持與建議,積極推動數據資產交易的規范化、專業化及市場化發展。在數據交易過程中進行獨立公允的第三方數據資產價值評估服務,為交易雙方提供數據產品價值的參考依據,促進流轉,達成交易。為更好地在數據資產交易、出資、融資等應用場景中為市場相關各方提供專業優質的服務,中國資產評估協會于 2022 年 6 月下發了數據資產評估指導意見(征求意見稿),以規范資產評估機構及其資產評估專業人員在數據資產評估業務中的實務操作,更好服務新時代經濟
314、發展和新時代生產要素市場。數據資產評估指導意見(征求意見稿)為資產評估行業進一步服務我國數據資產市場,深化資本市場優化資源配置功能,為數據資產的財務管理提供相應的理論支持和價值標準,為數據資產確認、計量、核算、交易貢獻資產評估專業力量。同時,還可以為日益增長的數據資產評估相關業務需求做好技術支持,為資產評估行業在探索高難度創新型業務執業過程中提供專業支持。(二)數據資產擔保業界普遍認為,不同于傳統資產,數據資產兼具無形資產與有形資產特點,又因其權屬界定困難、資產難以分割、可復制性強等屬性,會給傳統金融風控體系帶來挑戰,因而基于數據資產的長期大額擔保融資存在困難。數據資產和知識產權存在可類比性,
315、可借鑒知識產權成熟的質押融資模式,即權屬明晰的“類知識產權”數據資產可作為質押物進行融資,這將使數據要素獲得金融屬性,數據的潛在價值也可以以金融的方式得以轉移和流通。如數據質押通過對接銀行、擔保機構、數據公司等多方主體,利用大數據、區塊鏈、隱私計算等技術手段,采集企業生產、經營鏈上的各類數據,由基于區塊鏈的存證平臺發放存證證書,將數據轉變成可量化的數字資產。108圖圖 8-2 區塊鏈在數據質押場景的應用區塊鏈在數據質押場景的應用以圖 8-2 為例,企業將自身核心數據資產質押貸款,數據加密質押在可信數據流通平臺上,平臺計算數據哈希值并記錄在區塊鏈中,作為憑證:一旦企業無償還能力,擔保公司按數據的
316、協議定價價格賠付銀行,減少銀行壞賬率;企業還款結束時,可信數據流通平臺重新計算數據的哈希值,由擔保公司對比最初區塊鏈上的記錄,如相符,則證明數據保存無誤,數據將被及時銷毀,企業拿回數據所有權。不過,數據資產質押融資模式能否廣泛應用,依然需要回到原點克服一系列初始難題:融資需求主體能否打消疑慮,真正愿意質押核心數據資產;相關企業數據數據資產由什么機構、以何種標準來評估認定價值;當前可信數據流通相關的技術仍不夠成熟,數據如何確保真實可信;金融機構如何完備風控體系,接受仍存在諸多不確定性的數據質押品等。(三)數據交易合規評估數據,作為國家基礎性戰略資源,是數字經濟的核心和命脈。為了規范數據的生成、采
317、集、存儲、加工、分析、服務等處理,我國出臺了多項法律法規及政策性文件,其中有關數據交易的法規體系可以概括為“1+3+N”的格局?!?”指民法典。民法典是數據交易法規體系的基石,第一百二十七條規定“法律對數據、網絡虛擬財產的保護有規定的,依照其規定;”第四編人格權編第六章隱私權和個人信息保護,對個人信息收集、存儲、使用、加工、傳輸、提供、公開等做了原則性規定?!?”指網絡安全法、數據安全法和個人信息保護法,這三部法律共同構建了我國數據治理的立法框架,是數據交易在網絡安全、數據安全和個人信息保護方面的進一步延伸。數據安全法第十九條規定“國家建立健全數據交易管理制度,規范數據交易行為,培育數據交易市
318、場?!钡谌龡l規定109“從事數據交易中介服務的機構提供服務,應當要求數據提供方說明數據來源,審核交易雙方的身份,并留存審核、交易記錄”?!癗”指一系列國家標準、部門規章和地方性法規,是數據交易合規體系的詳細補充以及實操指引。2022 年深圳和上海分別頒布了深圳經濟特區數據條例和上海數據條例,這兩部法規是我國在數據領域綜合性地方立法的“先行者”。上海市數據條例明確提出“本市支持數據交易服務機構有序發展,為數據交易提供數據資產、數據合規性、數據質量等第三方評估以及交易撮合、交易代理、專業咨詢、數據經紀、數據交付等專業服務”?!皵祿灰姿鶓斨朴啍祿灰滓巹t和其他有關業務規則,探索建立分類分層的
319、新型數據綜合交易機制,組織對數據交易進行合規性審查、登記清算、信息披露,確保數據交易公平有序、安全可控、全程可追溯”。數據要素商品化形成的數據生產要素市場,需要構建完善的數據要素交易合規體系,應重點應考慮數據交易標的合規、數據交易場所合規、數據交易平臺合規、數據交易行為合規以及數據交易安全合規五大合規要素。一是數據交易標的合規。數據交易所涉及數據標的,不僅僅是數據產品本身,還應包括與數據產品相關的數據服務。數據產品主要包括用于交易的原始數據和加工處理后的數據衍生產品;數據服務主要是數據供方對數據進行一系列計算、分析、可視化等處理后,為數據需方提供處理結果及基于結果的個性化服務。二是數據交易場所
320、合規。數據要素具有分散性、多樣性、易復制性、時效性、再創性等特性,這就要求數據要素的交易不僅要具有合規性,還應當具有安全、可信、可控、可追溯性。因此,數據應當在依法設立的數據交易機構進行交易。鑒于數據交易行為的特殊性,從事數據交易機構的準入,應當依據 行政許可法第 12 條的規定設立行政許可制度。三是數據交易平臺合規。為了保障數據交易的公信力,數據交易應當通過依法設立的數據交易平臺進行,建議數據交易平臺由政府牽頭設立。比如深圳經濟特區數據條例要求深圳市政府應當推動建立數據交易平臺,引導市場主體通過數據交易平臺進行數據交易。四是數據交易行為合規。具體而言,首先,在申請環節,數據供方應明確說明交易
321、數據的來源、內容、權屬情況和使用范圍,提供對交易數據的描述信息和樣本數據,數據需方應披露數據需求內容、數據用途。數據交易服務機構應對數據供需雙方披露信息進行審核,督促雙方依法及時、準確地披露信息。其次,在交易磋商環節,數據供需雙方應對交易數據的用途、使用范圍、交易方式和使用期限等進行協商和約定,形成交易訂單。數據交易服務機構應對交易訂單進行審核,確保符合相關法律、法規、規章和標準等要求。110再次,在交易實施環節,數據交易服務機構應與數據供方和數據需方簽訂三方合同,明確數據內容、數據用途、數據質量、交易方式、交易金額、交易參與方安全責任、保密條款等內容。如發現數據交易存在違法違規情形,數據交易
322、服務機構應當依法采取必要的處置措施,并向有關主管部門報告。五是數據交易安全合規。重點是對數據交易機構的合規要求。數據交易機構應當設立數據安全負責人和管理機構,落實數據安全保護責任,依照網絡安全法、數據安全法、個人信息保護法等法律法規和國家標準的強制性要求,建立全流程數據交易安全管理制度,定期組織開展數據安全教育培訓,采取相應的技術措施和其他必要措施,確保數據交易安全。數據交易機構應當對擬交易的數據建立分類制度,落實有關部門對不同類別數據提出的安全要求,對擬交易數據建立分級保護機制,根據數據的不同級別,為數據供需雙方提供不同強度的安全保護技術支持措施。如果交易數據需向境外提供的,應當依法按照國家
323、網信辦制定的數據出境安全評估辦法進行安全評估。(四)數據安全風險評估在新時代背景下,數據安全風險評估也應具備時代特性。數據安全風險評估的發展一定是以數據安全法為根本出發點,以網絡安全風險評估的理論框架為準繩,且風險評估的內容和指標將圍繞數據為核心對象,以發現數據安全風險為主要目的。數據安全風險評估不應該以某個標準作為基準來設置評估項,也無法固化出一個固定模式去開展,主要是由于數據是一類特殊的評估對象,是具備動態性的,隨著數據在不同環境下的流動,其面臨的安全風險也是不同的。應當圍繞被評估的特定數據對象數據資產、數據所面臨的威脅和脆弱性,綜合開展風險評估找出其在特定威脅環境下所面臨的風險。其風險評
324、估方法理論和模式應該是多樣性的,適用于不同環境和目標。數據安全風險評估主要以發現數據安全方面的大風險、大隱患為主要目的,在數據識別、法律遵從、數據處理、支撐環境和特殊場景數據跨境流動安等方面開展風險評估。其主要思路為:首先對業務進行梳理、理清數據資產、確認數據資產范圍及重要程度,這是風險評估的基礎,因此數據識別安全重點是進行數據資產的識別摸底工作。1、數據識別安全評估數據識別是數據安全評估的基礎。通過對數據的識別,可以確定數據在業務系統的內部分布、確定數據是如何被訪問的、當前的數據訪問賬號和授權狀況。數據識別能夠有效解決運營者對數據安全狀況的摸底管理工作?;趪?、行業的法律法規及標準要求,數
325、據識別通常包括業務流識別、數據流識別、數據安全責任識別和數據分類分級識別。1112、數據安全法律遵從性評估數據安全法律遵從性評估核心在于依據國家、行業的法律法規及標準要求,重點評估運營者及其他數據處理者關于數據安全在相關法律法規中的落實情況,包括個人信息保護情況、重要數據出境安全情況、網絡安全審查情況、密碼技術落實情況、機構人員的落實情況、制度建設情況、分類分級情況、數據安全保障措施落實情況,以及其他法律法規、政策文件和標準規范落實情況等。法律遵從性評估的目的不僅在于應對風險,更多的是在于找出差距,驅動數據安全建設合法化,完善數據安全治理體系。3、數據處理安全評估數據處理安全的評估是圍繞數據處
326、理活動的收集、存儲、使用、加工、傳輸、提供、公開等環節開展。主要針對數據處理過程中收集的規范性、存儲機制安全性、傳輸安全性、加工和提供的安全性、公開的規范性等開展評估。4、數據環境安全評估數據環境安全是指數據全生命周期安全的環境支撐,可以在多個生命周期環節內復用,主要包括主機、網絡、操作系統、數據庫、存儲介質等環境基礎設施。針對數據支撐環境的安全評估主要包括通信環境安全、存儲環境安全、計算環境安全、供應鏈安全和平臺安全等方面。5、重要數據出境安全評估重要數據出境是數據安全風險評估所重點關注的風險場景,如果被評估對象中包括數據出境的業務,需要按此部分開展專項評估,重點評估出境數據發送方的數據出境
327、約束力、監管情況、救濟途徑,以及出境數據接收方的主體資格和承諾履約情況等。112113114115圖圖 8-3 2022 年中國數據要素市場全景圖年中國數據要素市場全景圖116第 9 章 數據安全流通場景及案例9.1 電信領域9.1.1 案例一:中國電信“數信鏈網”實踐案例(一)案例簡介2021 年 9 月,中國電信研究院聯合隱私計算和可控硬件領域的領先企業沖量在線、中科可控聯合研發的最新成果:“數信鏈網”基于數算云網的區塊鏈可信數據共享平臺落地實踐?!皵敌沛溇W”對于數據要素產業相關技術進行了持續關注和深入研究,專注于解決數據要素流通鏈條中的一系列核心問題,包括數據資產確權、數據隱私和安全、數
328、據定價和交易、數據價值深度挖掘、基礎設施自主可控等。三方以電信“數算云網”一體化框架為基礎,共同推進數據確權流通和隱私計算平臺的建設。(二)針對痛點隨著國家數據宏觀政策的推動,數據資產流通和共享交換已經成為必然趨勢,區域化、產業化的數據要素交易市場正在逐步興起。電信集團作為數據密集型的電信基礎設施服務商和運營商,擁有大量的企業、用戶和市場數據,這些數據在集團內部不同省分公司和子公司之間的共享和交換,將極大促進數據生產要素價值激活,同時也可以幫助集團實現數據資產的對外運營和價值變現。然而因為數據本身存在容易復制、可修改、權屬不清晰等特征,數據共享交換需要一套與通用資產交易不同的全新技術方案予以支
329、撐。數據共享交換方案主要是為了解決在數據交換過程中數據供需方之間的不同訴求。數據需求方的主要訴求包括:在不同的業務場景中,通過統一的數據目錄和線上接口獲取不同機構的數據源;保護算法、用戶標簽等核心知識產權和商業秘密對數據源和第三方不可見;數據的使用全流程記錄,數據源對計算結果的貢獻度清晰可查,確保各方公平可信。數據提供方的主要訴求包括:通過數據脫敏、可信執行環境、聯邦學習等多種技術手段保障隱私數據使用安全合規;數據可用不可見,平臺和需求方無法沉淀任何源數據,確保數據所有權不會發生變更;幫助數據源統一管理自身的數據資產,并通過數據資產血緣幫助管理和獲取數據資產價值。(三)解決方案“數信鏈網”融合
330、了區塊鏈與隱私計算兩大新興技術,創新性地實現了區塊鏈的分布式互信特性與隱私計算的機密性協作能力融合互補,充分滿足了數據要素流通中可信、安全的需求。在交付模式方面,“數信鏈網”采用了業界領先的一117體機架構,解決了區塊鏈和隱私計算技術實施難度大的問題,可在各類場景中快速交付、無縫擴展,真正在生產場景中實現大規模應用。此外,“數信鏈網”還實現了從芯片、到操作系統、到加密算法、到應用軟件的全面國產化,是業內首個具備端到端自主可控性的同類型解決方案。平臺在芯片層面深度優化了隱私算法的性能,極大程度解決了安全性與性能不可兼得的難題。圖圖 9-1 運營商數據交易流通系統架構運營商數據交易流通系統架構數據
331、信鏈網主要面向電信外部的數據交易以及內部的共享交換需求,同時提供外部接口和外部行業數據做數據交換。整個系統的功能包含以下 5 個功能模塊:1、數據確權數據資產登記&所有方登記:唯一標識擁有數據所有權的參與方,參與方可以是機構或人。但應該以交易對象為主。所以本系統直接假設數據所有方是機構。具體機構內不同人的數據確權可以假設機構本身是一個內部的數據網絡空間。數據確權:數據確權指確定出某份數據的權屬所有方、數據生命周期和數據沿襲。系統將對所有新增數據進行確權并將信息上鏈存證。2、數據定價價值分析:在數據沿襲過程中,系統將分析上游多個數據源對于下游數據的價值貢獻。從而為數據供需方的數據定價提供量化輸入
332、。定價模型:對于不同類型、場景的數據,需要使用不同的模型進行定價。系統提供數據定價模型配置功能,根據數據價值分析結果,使用數據定價模型確定上游數據對下游產生的商業價值。3、數據交易數據行為追蹤:影響數據生命周期的操作,包括創建、拷貝、刪除、更改、ETL 數據等被定義為數據行為。所有發生在數據網絡空間中的數據行為均會作為數據交易行為被系統追蹤記錄。交易行為管理:系統將提供接口給各個邊緣節點的數據供需方,用于管理所有的交易行為,包括交易行為的發起、審批、中止等。1184、數據隱私計算數據接入計算:外部數據通過可信執行環境節點,安全合規的接入系統,所有的建模、計算、查詢等任務均在可信計算節點中進行,
333、計算過程由物理環境保證不可見,過程數據及原始數據在任務結束后銷毀,保證數據不落盤,最終只向任務發起方提供計算結果。5、合規監管日志審計&權限管理:系統提供嚴格的權限管理,通過角色劃分不同使用者,對數據資產登記、交易管理、信息審計等操作進行隔離,并持久化存儲用戶操作、行為、時間等日志。(四)取得成效1、技術層面融合了豐富的數據需求方資源,協助省分公司快速實現數據變現;構建了包含硬件、云平臺、中間件、業務平臺在內的完整合作伙伴生態,全面賦能運營商建設“國家一體化大數據中心”;具備了業界領先的區塊鏈結合隱私計算能力,無縫集成運營商區塊鏈基礎設施;落地了業界領先的數據確權、存證、定價技術,支撐數據資產運營;2、業務層面建立集團內部各分公司之間的數據共享平臺,已經在多個電信省分公司落地實踐;解決了分公司之間的的信息共享和協作,將數據共享模式從原本的一事一議且存在泄露風險,優化成數據任務審批制,并通過