《工業互聯網產業聯盟:2022可信工業數據流通關鍵技術研究報告(92頁).pdf》由會員分享,可在線閱讀,更多相關《工業互聯網產業聯盟:2022可信工業數據流通關鍵技術研究報告(92頁).pdf(92頁珍藏版)》請在三個皮匠報告上搜索。
1、 聲 明Statement 本報告所載的材料和信息,包括但不限于文本、圖片、數據、觀點、建議,不構成法律建議,也不應替代律師意見。本報告所有材料或內容的知識產權歸工業互聯網產業 聯盟所有(注明是引自其他方的內容除外),并受法律保護。如需轉載,需聯系本聯盟并獲得授權許可。未經授權許可,任何人不得將報告的全部或部分內容以發布、轉載、匯編、轉讓、出售等方式使用,不得將報告的全部或部分內容通過網絡方式傳播,不得在任何公開場合使用報告內相關描述及相關數據圖表。違反上述聲明者,本聯盟將追究其相關法律責任。中國科學院信息工程研究所北京交通大學南京理工大學北京航空航天大學天津大學中國電信集團有限公司華為技術有
2、限公司中控集團信聯科技(南京)有限公司深圳數鑫科技有限公司華控清交信息科技(北京)有限公司一知安全科技有限公司廣域銘島數字科技有限公司中企云鏈(北京)金融信息服務有限公司北京沖量在線科技有限公司北京航天云路有限公司可信工業數據空間生態鏈中國信息通信研究院工業互聯網產業聯盟3前隨著新一代信息技術與制造業的深度融合發展,全球工業數據應用已經進入縱深發展的新階段,數據作為新型生產要素和重要戰略資源,正在制造業數字化轉型過程中發揮出更大的作用。在這一進程中,工業數據的流通共享受到廣泛關注。順應新發展形勢,我國積極營造多方主體參與的數據共享流通生態,國務院先后發布關于構建更加完善的要素市場化配置體制機制
3、的意見要素市場化配置綜合改革試點總體方案關于構建數據基礎制度更好發揮數據要素作用的意見,明確提出在確保數據安全的前提下,分級分類、分步有序推動部分領域數據流通以及合規使用。在此背景下,中國信息通信研究院提出可信數據空間的概念,并將其作為實現工業數據開放共享和可信流通的新型基礎設施,發揮數據要素稟賦。本技術報告將會闡明滿足可信工業數據空間功能要求的系列技術,為業界共同建設可信工業數據空間提供技術參考。言第一章背背景景介介紹紹可信工業數據空間的概念 /2 /2 /3 /5 /工業數據流通場景工業數據流通面臨的問題可信工業數據空間的作用可信工業數據空間 系統架構6 關關鍵鍵技技術術 10/數據資產控
4、制相關技術 23/數據資產管理相關技術 33/可信環境 39/可信傳輸 45/供需對接相關技術56/身份認證相關技術77/日志存證和清算審計相關技術81/數據增值類服務C Ch ha ap pt te er r 1 1目 錄第二章C Ch ha ap pt te er r 2 2第一章第一章C h a p t e r 1背景介紹背景介紹(二)工業數據流通場景工業數據流通的場景,有眾多的場景因子。從目前眾多工業企業的實踐來看,通常包括如下場景因子:數據的類型、數據的采集方式、數據的交換模式、數據的使用主體、數據處理的軟件能力類型以及數據流通基礎設施環境等。以上因子的組合,在企業內、企業間、生態系
5、統內等場景形成數據價值閉環。復雜組織內部通常分工側重點明顯,不同部門之間對應不同的業務流程和業務作業領域,如研發部門負責產品研究及設計、采購部門負責各個部門的部件采購、營銷對口CRM等,不同業務部門所管理業務產生的核心數據構成了企業核心競爭力,業務域之間的有效協同通常也會涉及高密高價值數據,依賴數據可信交換流通。通常是基于結構化數據集,通過系統集成/人工上傳方式,使用通用的數據加工軟件進行簡單的分析計算提取有價值信息。從企業內擴展到企業間,同樣存在高密高價值的數據交換,通常是通過數據的價值再造(探索新的商業模式、業務創新、產品改進等),由消費方主導,提供方協同,雙方是協作關系,如采購與供應商之
6、間的報價信息交換、企業間的技術合作材料交換、審計領域的審計原始材料管控等??缃M織高密數據傳輸,通常包含了一些專業數據處理軟件或者AI提取技術以獲取有價值信息。(一)可信工業數據空間的概念可信工業數據空間是在現有信息網絡上搭建數據集聚、共享、流通和應用的分布式關鍵數據基礎設施,通過體系化的技術安排確保數據流通協議的確認、履行和維護,解決數據要素提供方、使用方、服務方等主體間的安全與信任問題,進而實現數據驅動的數字化轉型。2大型企業或者產業領頭者越來越多的將平臺模式及其周圍的生態系統構建作為戰略重心。在此場景下,生態鏈鏈主與成員之間,既有生態圈內業務協作場景下數據流通,又有對各生態成員之間的數據泄
7、漏擔憂。因此,也亟需一套可控數據交換系統來支持生態的安全和持續發展。生態內的場景差異更多的體現在數據的交換模式和基礎設施環境。隨著互聯網、IOT等產業的興起,大量企業擁有某產業獨特的海量數據但自身缺乏強大的算力,也不具備數據價值挖掘和增值的解決方案設計能力。同時,也有一些深耕該產業的產品和服務提供商,雖擁有強大算力和解決方案,但缺乏真實的現網數據進行算法和解決方案驗證。雙方無法形成有效握手也是因為數據擁有者缺乏有效的數據安全流通方案,數據處理者通常也缺乏具有公信力的可信流通平臺。產業數據流通中場景因子更多是通過傳感器采集大量的物聯網數據,使用強大的軟件平臺和專業設備等進行計算和提取。3 (三)
8、可信工業數據空間的作用(1)數據流通共享模型在傳統網絡/信息訪問控制模型基礎上,增加新的控制要素,需要建立新的數據流通共享模型。該模型需要刻畫數據流通要素、數據流通控制機制、數據流動控制策略,是可信工業數據流通和信息安全服務的根基。(2)工業數據流通技術架構在傳統工業互聯網單向中心化匯聚的基礎上,增加分布式交換模式,需要提出新的工業數據受控流通技術架構。該架構需要支持設備動態擴展、多匯聚中心數據受控交換,是工業互聯網扁平化數據安全交換的靈魂。(3)信息互通協議與標準在已有單廠商的封閉控制協議基礎之上,需要制定新的不同設備類型間不同廠商間的工業設備信息互通協議與標準。該互通協議與標準包括統一數據
9、交換設備接口、數據交換格式、統一工業通信規程,解決數據兼容存在問題,是實現工業數據流通的核心。(1)數據可控性保障能力弱在法律法規等非技術方式的基礎上,需要提出有效的數據流動交換控制機制,以此精準控制交換出管理域后數據按照數據擁有者意圖流通和使用。該機制包括大規模數據自動標記、數據跨域流動監測、違規流動處置等技術。支撐法律法規等管理手段的落地,解決控制粒度粗、安全隱患大、安全風險高等問題。(2)數據可信性驗證能力弱在現有基于單認證中心的端對端數據認證的基礎上,需要提出有效的數據交叉認證方法,以此驗證數據交換出管理域后數據的真實性。該方法包括數據源與傳播路徑交叉認證、高效可聚合簽名與驗簽、信任動
10、態度量與信任鏈構建等關鍵技術,是多源異構數據在流通過程中全生命周期可信的有效途徑。(1)隱私信息全生命周期保護當前工業數據多模海量、泛在交換頻繁、體系保護能力差,難以實現全流程可管可控。為了實現工業數據中隱私信息的全生命周期保護,需要從體系化保護角度出發,構建隱私保護技術體系。4(2)隱私信息跨系統迭代延伸控制當前工業數據頻繁跨終端、跨系統、跨生態圈交換流通已成為常態,隱私泄露事件層出不窮。為了解決交換流轉過程中的隱私泄露問題,需要構建面向工業數據流通的隱私信息跨系統迭代延伸控制機制。(3)面向信息流動的隱私保護系統穩定性當前工業數據的產業應用多樣、隱私需求各異,對隱私保護系統的穩定性要求高。
11、為了提高工業數據隱私保護系統的普適性和代碼穩定性,需要提出隱私保護的算法設計準則和通用算法框架,支撐隱私信息保護系統的代碼穩定性和算法可擴展性。(四)可信工業數據空間的作用針對以上問題,可信工業數據空間實現了數據的開放共享和可信流動,數據所有者可對共享數據的使用對象、范圍、方式進行控制,全程記錄數據使用方對數據的使用、處理過程,實現數據的有效管理??山鉀Q流通不暢、信息泄露、過度利用等風險,極大促進了數據要素資源的網絡化共享、集約化整合、協作化開發、高效化利用??臻g為數據提供方提供數據使用對象、范圍、方式的控制能力,高效融合工業跨域異構數據,統一工業數據質量管理標準,消除流通顧慮,釋放數據供給。
12、空間為數據使用方提供工業數據流通處理的日志存證,提供內外部合規記錄,明確數據主權邊界,實現工業數據資源有效管理??臻g為數據供需雙方提供數據要素流通中間服務,便利供需對接,加強隱私保護,促進應用場景創新和數據價值化配置。5(五)可信工業數據空間系統架構業務視角可信工業數據流通系統共有三種不同利益相關方,分別為數據提供方、數據使用方和中間服務方,每個利益相關方在可信工業數據流通系統的兩種不同模式中開展不同的活動,如圖1、圖2所示。圖1 分布式模式下業務視角分布式模式下,數據提供方通過向中間服務方的數據合規服務方發送身份信息完成用戶身份登錄與授權,而后提供數據目錄,處理數據使用方發送的數據請求,提供
13、數據共享的合約或接受數據使用方發起的合約商討請求并達成共識建立智能合約,數據提供方將共享數據傳輸至數據使用方。整個過程中每個活動發生時數據提供方進行內部日志記錄,并周期性進行清算審計材料準備,將審計信息提供給中間服務方的共享服務方進行審計。6分布式模式下,數據使用方通過向中間服務方的數據合規服務方發送身份信息完成用戶身份登錄與授權,而后從數據提供方進行數據目錄檢索,向數據提供方發送共享數據使用請求。數據使用方可接收數據提供方預設好的共享數據使用合約或發起與數據提供方商討共享數據使用合約的請求。數據使用方與數據提供方建立智能合約后,數據使用方接收數據提供方發送的共享數據并存儲、使用、用后銷毀,共
14、享數據在數據使用方接收、存儲、使用、銷毀的過程中接受數據控制。整個過程中每個活動發生時數據提供方進行內部日志記錄,并周期性進行清算審計材料準備,將審計信息提供給中間服務方的共享服務方進行審計。分布式模式下,中間服務方僅提供基礎的數據合規類服務以及數據交易中的審計服務。圖2 中間服務模式下業務視角中間服務模式下,數據提供方通過向中間服務方的數據合規服務方發送身份信息完成用戶身份登錄與授權,而后向中間服務方提供元數據并加入由中間服務方的數據共享服務方提供的數據目錄服務。數據提供方從中間服務方獲得數據共享請求,處理數據請求,通過中間服務方的數據共享服務提供數據共享合約或接受數據使用方發起的合約商討請
15、求并達成共識建立智能合約。數據提供方將共享7數據傳輸至數據使用方。整個過程中每個活動發生時,數據提供方進行內部日志記錄,并周期性進行清算審計材料準備,將審計信息提供給中間服務方的共享服務方進行審計。中間服務模式下,數據使用方通過向中間服務方的數據合規服務方發送身份信息完成用戶身份登錄與授權,而后從中間服務方的數據共享服務方進行數據目錄檢索,向中間服務方中的數據共享服務發送共享數據使用請求。數據使用方可通過中間服務方的數據共享服務方接受數據提供方預設好的共享數據使用合約或通過中間服務方的數據共享服務方發起與數據提供方商討共享數據使用合約的請求。數據使用方與數據提供方建立智能合約后,數據使用方接收
16、數據提供方發送的共享數據并存儲、使用、銷毀,共享數據在數據使用方接收、存儲、使用、銷毀的過程中接受數據控制,數據使用方也可通過中間服務方的IT基礎設施服務方對數據進行存儲,通過中間服務方的數據價值服務方對數據進行使用。整個過程中每個活動發生時數據提供方進行內部日志記錄,并周期性進行清算審計材料準備,將審計信息提供給中間服務方的共享服務方進行審計。中間服務模式下,中間服務方提供數據合規類服務、數據使用。功能視角業務視角規定了可信工業數據流通中的各利益相關方、各利益相關方的業務活動和各利益相關方之間的關系。功能視角規定了可信工業數據流通中各利益相關方所使用的系統功能,包括:數據資產控制、數據資產管
17、理、可信環境、可信傳輸、供需對接、身份認證、日志存證、清算審計與數據增值類服務。技術視角技術視角規定了可信工業數據流通中實現各功能所需的關鍵技術。本報告將從功能視角展開,詳細闡述每類功能所需的技術。8第二章C h a p t e r 2關鍵技術關鍵技術(1)定義數據控制是指在數據的傳輸、存儲、使用和銷毀環節,通過機器可讀的電子合約,實現對數據資產使用的時間、地點、主體、行為和客體等因素的控制。數據控制是傳統訪問控制技術、使用控制技術在作用范圍、作用周期和控制的細粒度等因素上豐富與革新。(2)作用機理數據控制技術的實現,可以拆解為以下三個步驟。合約建立:數據提供方與數據使用方簽訂應能夠被機器讀取
18、并執行的電子合約。一份電子合約由控制要求和控制策略構成??刂埔竺枋隽藬祿峁┓綄祿褂梅教岢龅臄祿褂梅绞降南拗?,控制要求主要分為以下五類。時間要求:如要求數據使用方10天后銷毀數據等。地點要求:如限定數據使用方訪問數據時的IP等。主體要求:如限定允許使用數據的用戶,限定允許訪問數據的應用程序等。行為要求:如數據使用方不允許編輯、轉發數據等??腕w要求:如要求數據在存儲時保持加密狀態??刂撇呗允怯煽刂埔笏傻?,計算機可執行的代碼。當數據提供方和數據使用方協定完成控制要求時,將自動生成計算機可執行的代碼,控制策略從技術上保證了電子合約中控制要求可以被準確無誤地執行。相較于接近自然語言的控制
19、要求,控制策略更側重于機器可讀可執行,每一條控制策略都由對應控制要求一對一映射而來。(一)數據資產控制相關技術10控制要求通常為形式化的自然語言。一條明確的控制要求通常由一個判定條件和該判定條件觸發后應執行的操作構成。例如,數據提供方要求數據不能在數據使用方處永久留存,只能留存14天。那么形式化后的控制要求為:該數據存放時間大于14天時,結束已開啟的相關進程,銷毀全部數據副本。在用戶可讀的形式化控制要求(低代碼形式可視化編輯)確定后,會自動生成機器可讀的對應控制策略(代碼)。部分控制要求如表1-1所示??刂埔笸ǔ樾问交淖匀徽Z言。一條明確的控制要求通常由一個判定條件和該判定條件觸發后應執行
20、的操作構成。例如,數據提供方要求數據不能在數據使用方處永久留存,只能留存14天。那么形式化后的控制要求為:該數據存放時間大于14天時,結束已開啟的相關進程,銷毀全部數據副本。在用戶可讀的形式化控制要求(低代碼形式可視化編輯)確定后,會自動生成機器可讀的對應控制策略(代碼)。部分控制要求如表1-1所示。動態監控:依據電子合約規定的控制要求,動態的監測和控制數據使用方對數據的使用過程。當數據使用過程與控制要求不符時,將按照合約的規定,執行對應的控制策略,對數據或進程進行相應的處理。(3)所解決的問題數據控制技術主要解決了數據傳輸、存儲、使用和銷毀環節中的部分的安全可信問題。著重于實現數據和參與方的
21、可控、可審計??煽兀航鉀Q了以往由于數據低成本可復制性,無形體性,難以控制數據資產不受控復制傳播的問題。數據控制技術通過技術手段促使數據使用方履行電子合約中規定的內容,限制數據使用方二次轉發數據資產給授權外第三方的無意或有意行為,確保數據提供方對外發送的數據資產及其全部副本在完成使用后被徹底銷毀??蓪徲嫞航鉀Q了以往對數據流通的過程難以監控的問題。電子合約中的控制策略在監測與執行時,會將用戶的操作行為、數據的狀態等信息作為副產物記錄下來,從而形成可供審計的日志。11分類控制要求判定條件觸發后執行的操作時間該數據存放時間tT時(t是當前存放時間,T是合約規定的存放時間)結束已開啟的相關進程,銷毀全部
22、數據副本該數據使用時間tT時(t是當前使用時間,T是合約規定的使用時間)該數據使用次數nN時(n是當前使用次數,N是合約規定的使用次數)該數據在規定的時間段外被訪問時拒絕該操作地點該數據被白名單外的IP/地區訪問時該數據被白名單外的設備/mac地址訪問時該數據在白名單外的空間內被訪問時該數據在安全等級較低的運行環境/網絡環境下被訪問時主體該數據被白名單外的用戶賬戶/法人實體訪問時該數據被白名單外的應用程序/進程訪問時該數據被白名單外API或服務調用時行為該數據被復制時該數據被刪除時該數據被轉發/下載時該數據被另存為新副本時該數據的內容被編輯/加工/修改時該數據被讀取/寫入/調用的頻率fF時(f
23、是當前頻率,F是合約規定的頻率)該數據的內容被截屏時該數據的內容被拍照時識別并留存日志客體該數據的新副本產生時(新副本包括由復制產生文件、另存為的新文件、輸入算法/模型產生的新數據)新副本文件繼承相同的控制要求和策略該數據未被應用程序/進程/API調用時保持加密狀態該數據被應用程序/進程/API調用時進行機密計算該數據被數據提供方申請撤回時結束已開啟的相關進程,銷毀全部數據副本表1-1 控制要求示例12(4)適配性本小節將從適用的數據類型、軟硬件要求、云端兼容性、中心化/去中心化模式等方面分析該技術在可信工業數據空間中的適配性。適用的數據類型以結構化/半結構化/非結構化為分類標準:數據控制技術
24、 a)支持結構化數據,如db等結構化數據庫中的數據;b)支持半結構化數據,如json、xml、html等;c)支持非結構化數據,如doc/docx/txt等文檔格式、pdf、ppt/pptx、xls/xlsx/csv等表格格式、dwg等圖紙格式、jpg/bmp等圖片格式、mp3/wav等聲音格式以及avi/mp4等視頻格式。以文件類/流數據分類:數據控制技術支持對文件類和流數據的控制。軟硬件要求數據控制技術是相對輕量級的技術,其基本功能不需要硬件基礎設施的支持,數據控制技術可以以應用程序/插件/控件的方式安裝在數據提供方和數據使用方的設備系統。部分進階數據控制策略需搭配可信存儲環境以及可信執行
25、環境,如對處于計算中的數據進行控制。云端兼容性數據控制技術適用于云端部署的系統。相較于運行環境各異的用戶終端,統一的云端環境更易管理與配置。云端在本質上是物理機或物理機的集合,作用于系統層的數據控制技術依然可以生效。中心化/部分去中心化/去中心化模式數據控制技術適用于 a)數據匯集的中心化模式,如數據湖、數據中臺、大數據中心;b)數據分布在用戶但服務集中的部分去中心化模式,如數據交易所,數據中介商;c)去中心化模式,即沒有中間服務方的點對點模式。在各類模式之中,數據控制技術將會作用于數據資產所在位置,即中心化模式的數據中心/存儲服務器一側、部分去中心化和去中心化的用戶一側。13(5)同類技術對
26、比本小節將把可用于數據控制的主流相關技術進行對比,包括基于角色的訪問控制模型(Role-BasedAccessControl,RBAC)、基于屬性的訪問控制模型(Attribute-BasedAccessControl,ABAC)、基于使用控制的訪問控制模型(UsageControl)、基于行 為 的 訪 問 控 制 模 型、面 向 網 絡 空 間 的 訪 問 控 制 模 型(C y b e r s p a c e-OrientedAccessControl,CoAC)。表1-2 可用于數據控制技術的對比14(1)定義隱私計算是面向隱私信息全生命周期保護的計算理論和方法,是隱私信息的所有權、管
27、理權和使用權分離時隱私度量、隱私泄露代價、隱私保護與隱私分析復雜性的可計算模型與公理化系統。具體是指在處理視頻、音頻、圖像、圖形、文字、數值、泛在網絡行為信息流等信息時,對所涉及的隱私信息進行描述、度量、評價和融合等操作,形成一套符號化、公式化且具有量化評價標準的隱私計算理論、算法及應用技術,支持多系統融合的隱私信息保護。隱私計算涵蓋了信息搜集者、發布者和使用者在信息產生、感知、發布、傳播、存儲、處理、使用、銷毀等全生命周期過程的所有計算操作,并包含支持海量用戶、高并發、高效能隱私保護的系統設計理論與架構。隱私計算是泛在互聯環境下隱私信息保護的重要理論基礎。(2)作用機理隱私計算是面向泛在共享
28、(如圖1-1所示)全生命周期保護(如圖1-2所示)的理論與方法。隱私計算從“計算”的角度確立隱私信息產生、感知、發布、傳播、存儲、處理、使用、銷毀等全生命周期的隱私計算架構(如圖1-3所示)、延伸控制(包括按需脫敏、使用、刪除等控制)、形式化描述方法、量化評估標準,以及脫敏算法的數學基礎;基于延伸控制思想,抽象全生命周期各個環節對多模態隱私數據的操作,包括:隱私智能感知、分量保護要求量化、跨系統保護要求的量化映射、場景適配的隱私動態度量、按需迭代脫敏、多副本完備刪除,以及根據保護效果自動迭代修正脫敏等;基于隱私計算語言支撐跨平臺隱私保護的一致性;基于延伸控制和自存證實現泛在隨遇的侵權判定,實時
29、發現違規行為并取證溯源;基于隱私計算的算法設計準則和通用算法框架,支撐隱私信息保護系統的代碼穩定性和算法可擴展性,并支撐高效能和高并發。15圖1-1 隱私信息泛在共享的場景圖1-2 隱私信息全生命周期保護示意圖16隱私計算架構面向任意格式的明文信息M,具體包括以下5個步驟。隱私信息抽?。焊鶕魑男畔的格式、語義等,抽取隱私信息并得到隱私信息向量I。場景抽象:根據I中各隱私信息分量的類型、語義等,對應用場景進行定義與抽象。隱私控制:選取各隱私信息分量所支持的隱私操作,并生成隱私控制策略。隱私操作:根據隱私信息的控制策略集合選擇合適的隱私操作集合,構建隱私脫敏方案。隱私保護效果評估:根據相關評價
30、準則,使用基于熵或基于失真的隱私度量來評估所選擇的隱私保護方案的隱私保護效果?;陔[私計算的隱私信息保護系統應包括語義提取、場景抽象、隱私信息變換、隱私信息融合、隱私操作選取、隱私保護方案設計/選取、隱私保護效果評估等環節。圖1-3 基于隱私計算的隱私信息保護系統架構17(3)在可信工業數據空間中所解決的問題可信工業數據空間隱私信息的體系化保護:在隱私計算理論指導下,對工業數據空間中的隱私信息、約束條件、流轉管控、審計監管、追蹤溯源、確權鑒權等進行統一描述,支撐可信工業數據空間中隱私信息全生命周期過程的體系化保護。隱私信息的迭代延伸控制:根據工業數據應用場景中的控制意圖和接收者保護能力等因素生
31、成隱私標簽,并與隱私信息進行綁定,在流轉過程中,后續節點持續根據下級節點的保護能力調整隱私標簽,實現跨系統傳播過程中場景適應的差異化訪問權限控制和按需迭代脫敏,支撐工業數據泛在共享場景下隱私信息受控共享。隱私侵權行為溯源取證方法:對工業數據空間中的隱私信息、溯源記錄信息和侵權行為判定結果,以及隱私信息全生命周期各環節的操作行為進行自存證,結合保護約束條件、傳播控制,判定泛在共享環境下隱私操作行為的合規性,支撐工業數據全生命周期的隱私信息有序合規利用工業數據隱私保護系統的穩定性:根據隱私保護效果與可用性的應用需求,對工業數據空間中不同場景下差異化算法進行歸一化描述,抽象算法通用框架;根據用戶的主
32、觀需求和客觀環境,結合工業數據空間中涉及的用戶終端狀態,動態選擇算法和確定算法參數,從而支撐隱私信息保護系統的代碼穩定性和算法可擴展性,并支撐高效能和高并發。(4)在可信工業數據空間中的適配性隱私計算作為普適性理論與關鍵技術體系,適應各種軟硬件要求、云/端部署、去中心化、數據類型等,對軟硬件、網絡架構、數據類型等無特殊要求。18保護技術對比項隱私計算傳統方法(k-匿名、差分等)計算(使用)計算開銷低中通信開銷低低需要專用硬件交換隱私防護脫敏迭代脫敏有界系統(不出域)無界系統(出域)全生命周期延伸控制(5)與同類技術的關系按照泛在共享環境下隱私全生命周期保護的需要,隱私計算與其他隱私保護技術進行
33、綜合比較如表1-3所示。表1-3 隱私計算與其他隱私保護方案的對比差異保護量化與映射評估取證用戶數海量海量計算粒度對象級單等級19(6)成熟度分析2015年,中國科學院信息工程研究所李鳳華、西安電子科技大學李暉等學者在國際上率先提出并首次精準定義了隱私計算(PrivacyComputing)的概念、定義和研究范疇。2021年出版了首部隱私計算學術專著隱私計算理論與技術。相關學者組織了七屆隱私計算國際學術研討會(2015-2021);中國中文信息學會在2018年成立了“大數據安全與隱私計算”專委會,舉辦了五屆“大數據安全與隱私計算”學術會議(2018-2022),并舉辦了首屆“2022隱私計算與
34、數據安全挑戰賽”,持續推動隱私計算在國際和國內的學術研究與交流。本小節側重于描述利用TEE等技術進行可信計算的過程。(1)定義機密計算面向云計算應用,在數據處理過程中將敏感數據隔離在受保護的CPU區域中,該區域稱為飛地(enclave),當前更為通常的是將受保護的區域稱為可信執行環境TEE(TrustedExecutiveEnvironment)。在TEE中處理的數據以及處理方法只有授權的代碼才能訪問,包括云服務提供商在內的任何其他程序、設備或者人都無法知道。(2)作用機理隨著企業越來越多的使用公共云和混合云服務,云中的數據安全成為最受關注的問題。機密計算的主要目標是向云計算的使用者提供更大的
35、數據安全保證,確保數據所有者在云中的數據受到保護和保密。與存儲加密和傳輸加密不同的是,機密計算通過保護正在處理或運行時的數據,消除了許多系統層面的數據安全漏洞。目前TEE的主要實現技術包括IntelSGX和ARM的TrustZone技術。20IntelSGXIntel公司發布了基于其公司處理器架構的可信執行環境IntelSGX(如圖2-11),是一組增強應用程序代碼和數據安全性的指令,為它們提供更強的保護以防泄漏或修改。SGX將應用程序分為了可信區域和非可信區域,其中可信區域被稱為enclave。調用可信區域中的程序時,需要定義ecall借口,聲明傳遞的數據的結構和大小。英特爾提供了包括本地證
36、明、遠程證明。數據密封等多個基礎組件,并提供了豐富的軟件開發包供開發者使用。SGX允許用戶態及內核態代碼定義將特定內存區域,設置為私有區域,此區域也被稱為飛地(Enclave)。其內容受到保護,不能被本身以外的任何進程存取,包括高權限級別運行的進程(例如操作系統內核進程)。圖1-4 IntelSGX系統架構IntelSGX實現過程中應用程序分為安全部分和非安全部分:應用程序啟動enclave,它被放置在受保護的內存中。當enclave函數被調用時,只有enclave內的代碼可以看到它的數據,外部訪問總是被拒絕;當它返回時,enclave數據保留在受保護的內存中。21ARMTrustZoneAR
37、M公司提出的TrustZone技術實現硬件隔離機制,主要針對嵌入式移動終端處理器。TrustZone在概念上將SoC的硬件和軟件資源劃分為安全(SecureWorld)和非安全(NormalWorld)兩個世界。所有需要保密的操作在安全世界執行(如指紋識別、密碼處理、數據加解密、安全認證等),其余操作在非安全世界執行(如用戶操作系統、各種應用程序等),安全世界和非安全世界通過一個名為MonitorMode的模式進行轉換,如圖2-5:圖2-5 Trustzone架構處理器架構上,TrustZone將每個物理核虛擬為兩個核,一個非安全核(Non-secureCore,NSCore),運行非安全世界
38、的代碼;另一個安全核(SecureCore),運行安全世界的代碼。兩個虛擬核以基于時間片的方式運行,根據需要實時占用物理核,并通過MonitorMode在安全世界和非安全世界之間切換,類似同一CPU下的多應用程序環境,不同的是多應用程序環境下操作系統實現的是進程間切換,而Trustzone下的MonitorMode實現同一CPU上兩個操作系統間的切換。22(二)數據資產管理相關技術(1)定義元數據是對信息資源進行描述、解釋、定位或使信息資源更易于被檢索、利用及管理的結構化信息。元數據也被稱作數據的數據(dataaboutdata)或信息的信息(informationaboutinformati
39、on)。元數據管理是對數據的組織、數據域以及其關系信息的管理,貫穿整個數據價值流,覆蓋從數據產生、匯聚、加工到消費的全生命周期。通過元數據管理,可以提升共享、重新獲取數據和理解企業信息資產的水平。(2)作用機理元數據管理實現了業務數據中實體和數據字段元素的定義、語義、業務規則和算法以及數據特征,便于完成業務數據的收集、組織和管理。元數據管理技術包括對元數據的采集、元數據的存儲以及元數據的管理,如圖2-1所示。圖2-1 元數據管理技術23元數據采集在采集數據的時候,面對的大問題就是多種類數據源解析適配,以及數據調度任務的抽象,必須開發對應的工具來實現各種場景的元數據解析,對元數據采集的能力有兩方
40、面要求:數據解析:適配解析各種數據源特點,文件格式,SQL腳本,抽象任務等,完成標準元數據的轉換沉淀;類型識別:十分復雜的一個節點,類型在描述數據的時候至關重要,結構化存儲可以直接讀取,文件類結構通常需要類型轉換標識,任務流程會直接統一管理,依次保證數據在不同環境中的合理存儲;元數據的常見來源如下表:表2-1 元數據來源元數據存儲包括存儲元數據以及元模型。元數據包含數據庫信息、數據表信息、表的字段信息等元信息,元模型是描述元數據的元數據。這些信息梳理存儲在關系型數據庫中。24元數據管理對收集到的元數據進行管理包含如下3個方面:元模型管理:即基于元數據平臺構建符合CWM規范的元數據倉庫,實現元模
41、型統一、集中化管理,提供元模型的查詢、增加、修改、刪除、元數據關系管理、權限設置等功能,支持概念模型、邏輯模型、物理模型的采集和管理,讓用戶直觀地了解已有元模型的分類、統計、使用情況、變更追溯,以及每個元模型的生命周期管理。同時,支持應用開發的模型管理。元數據審核:主要是審核采集到元數據倉庫但還未正式發布到數據資源目錄中的元數據。審核過程中支持對數據進行有效性驗證并修復一些問題,例如缺乏語義描述、缺少字段、類型錯誤、編碼缺失或不可識別的字符編碼等。元數據維護:對信息對象的基本信息、屬性、被依賴關系、依賴關系、組合關系等元數據的新增、修改、刪除、查詢、發布等操作,支持根據元數據字典創建數據目錄,
42、打印目錄結構,根據目錄發現、查找元數據,查看元數據的內容。元數據維護是最基本的元數據管理功能之一,技術人員和業務人員都會使用這個功能查看元數據的基本信息。元數據通常分為業務、技術和操作三類:業務元數據:描述業務領域的相關概念、關系和規則的數據,包括業務術語、信息分類、業務指標、業務規則、資產目錄、Owner、數據密集等。技術元數據:實施人員開發系統時使用的數據,包括模型的表與字段、ETL規則、集成關系等信息。管理元數據:描述運營管理領域的相關概念,包括人員角色、崗位職責和管理流程、調度評率、訪問日志等。25(3)所解決的問題元數據管理作用于數據管理的全生命周期,能夠有效促進數據資產的管理、交換
43、、共享和開發利用,其在工業數據空間中可解決如下問題:促進工業數據共享,元數據管理通過搭建標準統一的工業領域元數據體系,從業務、技術、操作3個方面,進行分類和定義,賦予數據意義,可幫助使業務人員快速獲取可信數據。提高工業數據的整合和溯源能力,元數據管理通過對所有的關鍵數據進行系統整合和處理,用戶可以對數據處理流程追本溯源,了解業務處理規則,數據流通情況等。激活工業數據活性:通過元數據管理,可以實現暗數據的透明化,增強數據活性,幫助解決工業數據資產盤點的問題。支持工業數據增值變現:元數據管理通過分析表模型可敏捷響應海量增長的數據分析需求,支持工業數據增值和數據變現。建立工業數據質量稽核體系,元數據
44、管理通過建立篩選、核實、管理、報警、監控的機制,支撐業務管理規則有效落地,保障數據內容的合格、合規。非關系型數據庫:支持來自MongoDB、Redis、Neo4j、HBase等非關系型數據庫中的元數據(4)適配性關系型數據庫:能適用來自Oracle、DB2、SQLServer、MySQL等關系型數據庫的庫表結構、視圖、存儲過程等元數據。數據倉庫:對于主流的數據倉庫,可以基于其內在的查詢腳本,定制開發相應的適配器對其元數據進行管理。其他元類型元數據:ER/Studio等建模工具、Kettle等ETL工具、PowerBI等前端工具、Excel格式文件的元數據。26(5)同類技術對比本小節將把元數據
45、管理技術與主流相關技術進行對比,包括主數據管理(MDMMasterDataManagement)和產品數據管(ProductDataManagement),主要從時效性、成本、對數據的控制、管理范圍、管理方法等幾個方面進行對比,如表2-2所示。管理方法使用MDM應用程序法和MDM平臺法建符合CWM規范的元數據倉庫進行管理協調組織整個產品生命周期內的過程事件主數據管理(MDM)元數據管理產品數據管理(PDM)概述自動、準確、及時地分發和分析企業中數據,并對數據進行驗證對描述數據的數據進行管理,即對數據及信息資源的描述性信息進行管理管理所有與產品相關信息和所有與產品相關過程的技術時效性低高中成本需
46、要管理主要的數據,實施成本低需要管理數據的描述性信息,成本高需要管理所有與產品相關的信息,成本高對數據的控制低高高管理范圍業務對象的、具有持續性、非交易類的數據描述數據的相關信息而存在的數據產品生命周期內生產的所有數據表2-2 元數據管理技術與主流相關技術對比 (6)技術成熟度分析元數據管理技術目前有著較高的技術成熟度,能夠支持多種數據格式,包括結構化數據類型,半結構化數據類型,能夠適應不同場景下元數據的采集。例如ApacheFlink是一個流式的數據流執行引擎,其針對數據流的分布式計算提供了數據分布、數據通信以及容錯機制等功能,ApacheFlink提供了數據倉庫的元數據管理工具,使用了一種
47、能獲取元數據資產的算法,通過該算法能夠得到SQL中的表、字段之間的依賴關系。實現了字段級血緣依賴,全面、細粒度的元數據資產將會極大地減少后期數倉的維護成本,可以最大限度地減少數據本身造成的問題。在元數據的管理策略中,目前有集中式元數據管理策略、分布式元數據管理策略和無元數據管理策略,這三種不同的元數據管理策略能滿足不同場景的需求,能在多種實際應用場景中發揮用途。27 數據安全態勢感知,一般分為三個層次的處理,要素感知、態勢理解、態勢預測。要素感知是感知數據存儲和服務環境中涉及數據安全的相關要素,包括數據屬性、使用狀態等信息。態勢理解是對一定范圍內數據的使用狀態進行綜合判定。態勢預測是在態勢理解
48、的基礎上對數據安全未來演變趨勢進行評估(1)定義數據安全態勢感知是對數據全生命周期各個環節的操作狀態、合規狀態、異常狀態進行采集、融合分析,在此基礎上對數據安全風險進行評估,并預測未來數據安全走勢以及可能產生的影響范圍和程度。數據安全態勢感知如圖2-2所示,機理包括輕量級全網覆蓋的數據使用狀態采集、分層分級動態匯集、數據安全區域態勢分析、數據安全全網態勢分析、態勢全景折疊可視化展示等部分(2)作用機理。圖2-2 數據安全態勢感知體系28 由于存在海量、多源、流轉關系復雜的數據使用場景,并且數據本身又具有多樣性、敏感程度不一、關聯關系復雜等特征,數據安全態勢感知的實現存在投入大、設計復雜的挑戰,
49、促進其推廣和發展需要解決以下兩點問題沒有人精確定義數據安全態勢感知,在本報告中給出了一種定義。數據安全態勢感知是新興的安全技術,與發展多年的網絡安全態勢感知相比,數據安全態勢感知存在幾個特點:(1)在數據安全信息采集、匯聚、分析評判方面未形成標準建議,各個安全產品廠家根據自己的理解進行數據的采集、組織管理和算法研發,在不同數據場合形成不同的采集格式和數據清洗方法,整合不同廠家數據接口和服務的數據安全態勢感知實現不易,且工作量大。(2)數據安全態勢感知涉及的數據環節多,需要感知采集的數據量更大,數據分析的算力整合和分解調度面臨巨大挑戰。(3)數據安全態勢感知需要理解數據的語義,與數據的業務流程、
50、信息系統形成緊耦合,需要較多的投入完成所需的安全分析。(4)數據安全態勢感需要在邊界節點對數據的跨域進出、授權流通細微狀態進行掌控,面臨不同廠家多類設備上的數據存儲和處理進行使用狀態采集的需求,需要與多個廠家的多款設備、多種流程、多個數據保護方案對接,涉及廠家不愿配合、采集程序按需開發、采集接口難以規范化等問題。:明確數據安全的戰略地位:需要明確數據安全對于可信數據數據流通的重要意義,從戰略高度明確數據安全態勢感知的重要價值,對數據使用和安全管理進行清晰規劃與指導,在管理層面達成一致共識,推進數據語義、數據采集、數據授權等數據安全多個方面的標準化,為數據安全態勢感知工作提供資源保障。規范掌控全
51、局數據使用狀態:數據使用的復雜性和多樣性給數據安全態勢感知提出了較大挑戰,掌握掌控全局數據使用狀態是數據安全態勢感知的重要前提,需要提出可信數據數據流通中各類數據的存儲、使用、流通等環節的狀態監管要求,并規范狀態采集接口。29(3)成熟度分析(1)概念標識解析體系通過賦予每一個實體物品(產品、零部件、機器設備等)和虛擬資產(模型、算法、工藝等)唯一的“身份證”,實現全網資源的靈活區分和信息管理,是實現企業數據流通、信息交互的關鍵樞紐。(2)作用機理標識解析體系的核心包括:標識編碼,標識解析系統,標識數據服務等三個部分。標識編碼,是能夠唯一識別機器、產品等物理資源和模型、算法、工藝等虛擬資源的身
52、份符號,類似于“身份證”。標識解析系統,能夠根據標識編碼查詢目標對象網絡位置或相關信息的系統,對機器和物品進行唯一性的定位和信息查詢。標識數據服務,能夠借助標識編碼資源和標識解析系統開展標識數據管理和跨企業、跨行業、跨地區、跨國家的數據流通及基于數據的其他增值服務。(3)在可信工業數據空間中所解決的問題通過標識實現數據資產管理及安全可信高效的數據共享流通,促進數據產業鏈共享、流通模式。具體可實現數據資產主動感知、自動化理解與靈活獲取三個方面:基于主動標識等技術,可以實現第三方數據資產服務的分布式發布,形成數據資產服務目錄,從而支撐用戶對工業數據空間中的數據與服務進行自動化快速感知?;跇俗R賦予
53、每一個物理實體和虛擬數據唯一身份信息,并對實體進行結構化、標準化表征,從而支撐用戶對第三方數據資產服務的自動化準確理解?;诮馕黾夹g,結合標識編碼方案,實現第三方數據資產服務的高效尋址與靈活獲取。30(4)在可信工業數據空間中的適配性本小節將從適用的軟硬件要求、云端兼容性、中心化/去中心化模式等方面分析該技術在可信工業數據空間中的適配性。軟硬件要求標識解析系統可以在通用設備上運行。此外,標識解析技術不依托DNS服務,因此,無需額外部署DNS服務。對比傳統的基于DNS的改良路徑標識方案,如EPC、OID等均需要對現有DNS架構進行擴充,通過將編碼樹映射為DNS樹的一部分提供服務,即將編碼解析服務
54、覆蓋在DNS服務之上,解析服務依賴DNS資源記錄,安全防護依托于DNS安全保障措施。因此,傳統的編碼解析方案需要依托DNS系統進行建設。云端兼容性標識解析系統適用于云端部署。相較于運行環境各異的用戶終端,統一的云端環境更易管理與配置。云端在本質上是物理機或物理機的集合,因此作用于系統層的標識解析技術依然可以生效。目前標識解析技術有企業自建與云托管兩種模式,企業可以選擇在本地部署企業節點,提供標識解析服務,也可以選擇托管到二級節點。而用戶則可以使用瀏覽器進行訪問。中心化/去中心化模式目前標識解析技術存在多種技術路徑,包括中心化方式與去中心化方式、并且彼此之間的兼容互通方案也在建設之中。根據數字資
55、產提供者與數字資產消費者的關系,標識解析技術可以提供多種服務模式。在中心化標識解析技術中,標識由管理節點集中分配,該種方案適用于支撐一個邏輯主體內部的多個節點間的工業數據共享,如一個企業內部的多個部門;在去中心化標識解析技術中,標識由參與方分布式自主生成,該種方案適用于支撐多個邏輯主體間的工業數據共享,如多個企業。而正在建設中的中心化/去中心化系統兼容互通方案可以支撐工業全產業、全鏈條的數據共享。31(5)與同類技術的關系標識解析技術是傳統編碼尋址方案在系統架構、標識對象和輸入輸出、解析方式等因素上豐富與革新。本小節將把標識解析技術與主流相關技術進行對比,包括基產品電子代碼(EPC,elect
56、ronicproductcode)、對象標識符(OID,objectidentifier),物聯網統一標識(Ecode,entitycodeforIoT)、句柄(Handle)、泛在識別技術(UID,ubiquitousID)等。技術名稱系統架構標識對象輸入輸出解析方式是否需要依托DNS系統建設標識解析技術混合結構物理或數字資產標識映射為資產信息遞歸否DNS樹狀結構主機域名映射為IP遞歸,迭代/EPC樹狀結構物理對象標識映射為URL迭代是OID樹狀結構物理對象或邏輯對象標識映射為URL或IP遞歸是Handle樹狀結構數字對象標識映射為一組值的集合迭代否UID樹狀結構物理對象或邏輯對象,以及他們
57、之間的關系標識映射為背景描述遞歸否GNS圖狀結構用戶、物品和組織標識映射為公鑰或IP迭代否BNS樹狀結構主機標識映射為IP否表2-4 同類技術對比32(三)可信環境(1)定義可信執行環境(TrustedExecutionEnvironment,簡稱為TEE)是計算平臺上由軟、硬件方法構建的一個安全區域,可保證在安全區域內部加載的代碼和數據在機密性和完整性方面得到保護。在數據運算過程時通過該安全區域中執行加解密等保證安全。計算結束后,在安全區域內銷毀原始數據,確保原始數據不被泄露。(2)作用機理隔離性X86架構的隔離機制從Intel80286處理器開始,Intel提出了CPU的兩種運行模式,并且
58、逐步衍生出后來的不同的特權界別,再后來提出了安全區域更小的SGX機制實現可信執行環境TEE。同樣的,ARM架構通過Trustzone技術實現了相關軟硬件的隔離性,實現安全世界與非安全世界的隔離。TEE通過隔離的執行環境,提供一個執行空間,該空間有更強的安全性,比安全芯片功能更豐富,提供其代碼和數據的機密性和完整性保護。軟硬協同性雖然標準定義可以通過軟件方式或硬件方式實現TEE,但實際生產場景下,行業內更多通過軟硬結合的方式進行安全性的保障與支持。富表達性TEE與單純的安全芯片或純軟件的密碼學數據保護方案相比支持的上層業務表達性更強,由于只需要定義好業務層面可信區域和非可信區域的邏輯劃分,而不會
59、對定義可信區域內的算法邏輯的語言有可計算性方面的限制(圖靈完備的)。同時由于TEE已經提供了“安全黑盒”,安全區域內數據無需進行密態運算,所以其運算效率高。33(3)所解決的問題其目標主要是確保共享數據或使用共享數據的程序按照預期執行,在可信執行環境下保證初始狀態的機密性、完整性,以及運行時狀態的機密性、完整性。計算時的數據保護不同計算參與方將各自加密后的數據通過安全鏈路傳至TEE計算環境中,在TEE中進行數據解密并進行聯合計算,如聯合用戶畫像、金融風控預測、社會風險識別等。計算結束后將計算結果通過安全鏈路返回給各個參與方,原始數據則在TEE環境中進行銷毀。密鑰保護密鑰安全是數據安全、系統安全
60、的關鍵要素。為了增強密鑰的安全性,通常將密鑰進行加密存儲或引入專用的密鑰設備。使用TEE計算環境技術,在硬隔離的TEE環境中進行密鑰存儲,可以簡化傳統密鑰管理的復雜性,又保證密鑰使用過程中的安全可靠。密鑰保護應用場景在TEE計算環境中實現密鑰生成、管理等功能,同時支持通用加密算法。一方面收到用戶密鑰請求時使用密鑰生成功能生成隨機密鑰、證書等安全憑證,并通過安全鏈路傳遞給用戶;另一方面也支持在TEE中使用生成的密鑰結合通用加密算法對原始數據、預測結果等進行加密計算。當密鑰過期、失效時,在TEE環境中對密鑰進行銷毀,增強密鑰生命周期整體安全性。計算模型保護多個企業利用在生產過程中積累的數據進行聯合
61、建模分析,為了得到更精確的結果,這些企業可以引入具有成熟算法模型的合作伙伴。在這種場景需求下,采用TEE計算環境保證算法模型安全。34數據加密存儲數據作為企業資產管理的一部分,關鍵性數據比如經營分析數據、財務數據、生產數據等更是具有極高的價值。政企客戶通常極為重視這類關鍵數據的機密性保護,為防止數據泄露需要對數據進行加密存儲。使用TEE計算技術可以為客戶提供數據加密存儲能力。該場景使用TEE計算環境作為數據加密模塊,用戶通過遠程證明對TEE環境進行驗證,并在TEE環境中生成密鑰??蛻絷P鍵數據在TEE環境內進行加密,加密后的數據可儲存在TEE環境中,也可以存儲在外部介質中。(4)適配性適用于 a
62、)數據匯集的中心化模式,如數據湖、數據中臺、大數據中心;b)數據分布在用戶但服務集中的部分去中心化模式,如數據交易所,數據中介商;c)去中心化模式,即沒有中間服務方的點對點模式。在各類模式之中,可信執行環境將會作用于數據資產所在位置,即中心化模式的數據中心/存儲服務器一側、部分去中心化和去中心化的用戶一側隱私查詢在金融、電商、社區治理等領域需具備針對用戶身份進行隱私查詢能力,如通過指紋,人臉等信息對人員身份進行比對認證。在醫療領域同樣存在對患者疾病病歷、基因測序等數據的隱私查詢。這些隱私數據往往來自多個政府部門或企業?;赥EE計算環境技術是實現這類具有隱私查詢需求場景下數據可用不可見的有效方
63、法之一。在該類隱私查詢場景中,在TEE計算環境環境中構建數據匯交、統計、查詢能力。數據提供方將各自的原始數據經加密安全鏈路傳遞至TEE 計算環境環境中進行數據匯交與統計分析。數據查詢方調用查詢接口對其所需的內容發送隱私查詢請求,TEE環境中的查詢模塊根據數據查詢方的身份權限向數據查詢方返回查詢結果。同時也可以結合區塊鏈等技術對數據查詢方的查詢操作進行存證。采用TEE計算環境進行隱私查詢,數據提供方的原始數據與查詢的整個過程置于硬件隔離的TEE計算環境環境中,可以實現多方數據的聯合匯交,豐富數據庫的同時有效降低敏感信息泄露的風險。35(5)同類技術對比TEE需要基于預置集成了可信執行控制單元的C
64、PU計算芯片來實現,這便需要確保芯片廠商的安全可信。雖然國外的芯片廠商相比中國廠商擁有更為成熟的產品和技術方案,但是國產芯片廠商擁有更強的自主可控性。在國產化自主可控的需求驅動下,國內芯片廠商將通過持續的研發投入來不斷提升國產化可信硬件技術能力。目前國內的兆芯、海光、飛騰等芯片廠商相繼推出了TEE技術方案。技術國外國內IntelSGXTrustZoneAMDSEV海光CSV飛騰TrustZone兆芯TCT發布時間201520052016202020192017指令集架構X86_64ARMX86_64X86_64ARMX86_64是否支持任意代碼運行是是是是是是硬件安全密鑰有無有有無有完整性認證
65、與封存支持不支持支持支持不支持支持內存加密是否是是否否內存完整性保證支持不支持不支持支持不支持支持TEE安全I/O不支持支持支持支持支持支持可用內存空間1T系統內存系統內存系統內存系統內存系統內存TCB硬件:CPUPackage軟件:Enclave內的代碼實現硬件:安全虛擬核軟件:安全世界OS和TA硬件:AMDsecure processor軟件:虛擬機鏡像硬件:海光SME軟件:虛擬機鏡像硬件:安全虛擬核軟件:安全世界OS和TA硬件:CPU&TPCM表3-1 國內外的可信執行環境(TEE)技術對比36 可信系統環境是指將受保護App放入虛擬系統隔離,主系統APP無法輕易訪問隔離系統內App,但
66、是hypervisor被攻破,所有隔離系統均會被淪陷。常見技術選型有虛擬化以及半虛擬化技術兩種(1)定義可信軟件環境是指在軟件層面,將App運行時隔離,防止其他App調取數據,缺點無法防范主系統攻擊。(2)已有技術選型容器化技術容器化技術通常分為容器化運行技術以及容器化編排技術。這里重點研究容器化運行技術,最為常見的技術就是docker,docker是一種容器化運行技術或平臺,基于Linux內核的cgroup和Namespace對進程進行了封裝隔離,通過隔離apps的bin/lib,以容器的形式將應用程序及所有依賴軟硬協同性打包在一起,做到App運行時隔離。在對比虛擬化以及半虛擬化技術之前,這
67、里先來補充下CPU如何通過Ring級別進行訪問控制的。CPU通過Ring級別進行訪問控制,Ring0是最高級別,Ring1,Ring2,Ring3依次降低。以LinuxX86為例,操作系統(內核)的代碼運行在Ring0上,可以使用特權指令,可以使用特權指令,控制中斷,修改頁表,訪問控制等。應用程序的代碼運行在最低級別Ring3上,不能做受控操作。如果需要訪問磁盤、寫文件,需要通過執行系統調用(函數),執行系統調用時,CPU的運行級別從Ring3到Ring0依次切換,并跳轉到系統調用的內核代碼位置執行,由內核完成設備訪問,之后再從Ring0返回Ring3,實現用戶態和內核態的切換。37因為宿主機
68、系統工作在Ring0,客戶操作系統不能運行在Ring0,當客戶操作系統執行特權指令時,就會發生錯誤。虛擬機管理管理程序(VMM)就是負責客戶操作系統和內核交互的驅動程序,運行在Ring0上,以運動程序的形式體現(驅動程序工作在Ring0,否則不能驅動設備)。當客戶操作系統執行特權指令時,會觸發異常(cpu機制,沒權限的指令,觸發異常),VMM捕獲這個異常,在異常處做翻譯、模擬,返回處理結構到客戶操作系統內??蛻舨僮飨到y認為自己的特權指令工作正常,繼續運行。該處理過程復雜,性能損耗比較大虛擬化技術基于二進制的全虛擬化技術和容器化技術不同的是在HostOS 主系統上加載了Hypervisor,這里
69、我們常用的有vmware,virtualbox等,通過對內存運行的隔離,實現不同guestos間的隔離。這里區分“主機雙系統形式”,雖然兩者都是在內存上做了隔離,但是雙系統是無論在運行時和非運行時都對主機內存進行了劃分與占用,這本身是對計算機資源的一種浪費。而虛擬化技術在guestos非運行狀態下,會對占用內存進行釋放。半虛擬化技術通過修改客戶操作系統代碼,將原來在物理機上執行的一些特權指令,修改成可以和VMM直接交互的方式,實現操作系統的定制化。半虛擬化技術XEN,就是通過為客戶操作系統定制一個專門的內核版本,和X86、MIPS、ARM這些內核版本等價。這樣,就不會有捕獲異常、翻譯和模擬的過
70、程,性能損耗比較少。這也是XEN這種半虛擬化架構的優勢,也是為什么XEN只支持Linux的虛擬化,不能虛擬化Windows的原因。38(1)定義信源加密,對信源采取保護措施及對信源發送的信息明文或代表明文的電信號進行加密,使消息不被非法截獲或破譯的保密方式。信道加密是采用使竊密者不易截收到信息的通信信道,如采用專用的線路、瞬間通信和無線電擴頻通信等。(2)作用機理因篇幅原因且技術較為成熟,本小節略。(3)所解決的問題信源加密是解決數據存儲安全和流通時傳輸安全:信源加密可以在工業信息數據產生的同時完成對數據的加密,即對數據進行機密性保護,以便于數據信息在數據生成設備臨時存儲時以及發送給數據接收設
71、備的傳輸過程中,始終保持數據的機密性,防止數據合法接收者以外的非法竊聽、截獲或破譯。信道加密是解決數據流通時的傳輸安全:信道加密是從通信傳輸信道的起點開始就對傳輸的各類指令和數據進行加密,直到通信傳輸信道的終點才解密使用,確保在數據在通信傳輸信道中流通過程中,始終得到機密性保護,防止通信傳輸信道路由上非法竊聽者的監聽、理解和侵入。(四)可信傳輸39(4)適配性信源加密主要分為2種,軟件加密和硬件加密。其中軟件加密指的是通過軟件加解密模塊對數據進行機密性和完整性保護,數據加解密的整個過程都是軟件來完成。軟件加密,其基本功能不需要硬件基礎設施的支持,可以以應用程序、動態庫、軟件包的方式安裝在數據提
72、供方和數據使用方的設備系統。硬件加密指的是通過專用的加密芯片或獨立的處理芯片,如密碼機、密碼卡、智能密碼鑰匙等,實現密碼算法運算。因此如果采用硬件加密方式,需要硬件基礎設施提供支撐,還需要解決應用系統與硬件密碼模塊之間的硬件和軟件接口適配性等問題。信道加密,無論是有線信道加密還是無線信道加密,均需要硬件基礎設施的特點進行調整,此外還需要在軟件層面進行進一步地優化。(5)同類技術對比信源加密即在信息傳播的源頭進行加密,可采用的方法有對稱加密和非對稱加密兩大類。安全設計人員可以根據數據業務和場景需求,采用SM4、AES等對稱分組加密算法,也可采用RC4、ZUC等對稱流密碼算法,或者采用SM2、SM
73、9和RSA等非對稱密碼算法。信道加密即在信道的兩端采取加解密措施保護整個信道內傳輸數據的機密性,常見的方式有:(1)根據網絡鏈路的特點,在鏈路兩端各部署加密機,在鏈路的發送端加密在鏈路的接收端解密,例如SDH加密機、ATM加密機和IP網絡加密機等解決方案;(2)采用信道加密的協議來實現,例如IPSec、SSL和TLS等。IPSec協議為IP層設計的通信保護協議,主要通過認證頭(Authentication Header,AH)為IP數據報提供無連接數據完整性、消息認證以及防重放攻擊保護,或者通過封裝安全載荷(Encapsulating Security Payload,ESP)提供機密性、數據
74、源認證、無連接完整性、防重放和機密性,使用IPSec協議可以保護基于TCP和UDP協議的數據通信。SSL是Netscape公司所提出的安全保密協議,在套接字客戶端和服務器之間構造安全通道來進行數據傳輸,SSL運行在TCP層之上、應用層之下,為應用程序提供加密數據通道。SSL通過互相認證、使用數字簽名確保完整性、40使用加密確保私密性,以實現套接字客戶端和服務器之間的通信安全,該協議只能保護基于TCP協議的數據通信,不能提供針對UDP協議數據的保護。TLS是SSL的標準化后的產物,它建立在SSL3.0協議規范之上,是SSL3.0的后續版本。(6)技術成熟度分析信源加密技術較為成熟,因篇幅原因,其
75、成熟度分析略。信道加密技術存在兩大主流協議IPSec和TLS,這兩類協議設計逐漸完善,目前正在得到廣泛應用和推廣。IPSec協議在1986年開始由美國國家安全局贊助下進行研發,在1995年形成標準RFC1825,后來在2011年曾經一度被IPv6標準RFC6434定義為強制要求支持的標準,在2019年在新的IPv6標準RFC8504改為非強制要求的標準。由于IPSec協議支持保護UDP協議數據,因此有不少支持IPSec的產品和通信網關。TLS以及其前身SSL協議,由于其不改變IP層的結構且有便利的開發工具,一直得到廣泛應用支持,在1996年形成了SSL3.0規范,在2008年TLS1.2成為互
76、聯網安全通信標準RFC5246,在2018年TLS1.3成為互聯網安全通信標準RFC8446。41(1)定義虛擬專用網絡(Virtual Private Network,VPN)是使用密碼技術在公用網絡上建立專用網絡的技術。通過對網絡數據的封包和加密傳輸,在一個公用網絡建立一個臨時的、安全的連接,從而實現在公網上傳輸私有數據,達到私有網絡的安全級別。(2)作用機理虛擬專用網絡大致分兩種:一種是企業內部虛擬網,另一種是客戶端遠程訪問虛擬網。企業內部虛擬網通過公用網絡進行企業總部和各個分部之間互聯,是傳統的專線網或其他企業網的擴展或替代形式,其實質是在企業總部和各個分部配備VPN設備(或含VPN功
77、能的設備如路由器、安全網關、服務器等),通過公用網絡在各個VPN設備之間建立VPN安全隧道來傳輸企業的私有網絡數據,用于構建這種VPN連接的隧道技術有IPSec、GRE等。大致示意如下圖所示。圖4-1企業內部虛擬網42客戶端遠程訪問虛擬網是指,企業在公共網絡搭建VPN服務接入點,企業的內部人員如出差人員使用網絡隧道協議(一般的通用VPN客戶端軟件可提供)通過公共網絡與企業VPN服務接入點建立一條的隧道連接從而訪問企業內部網資源。大致示意如下圖所示。出差公共網絡VPN客戶端軟件(例如互聯網)企業內部數據企業內部數據VPN客戶端軟件企業總部內部網VPN安全通道VPN安全通道VPN設備人員企業員工居
78、家辦公(3)所解決的問題VPN技術確保了數據流通時的傳輸安全:綜合采用了非對稱簽名驗簽算法、非對稱加解密算法和對稱加解密算法,其中非對稱簽名驗簽算法確保了通信數據來源的認證性,防止非法人員接入并實施假冒通信;非對稱加解密算法和對稱加解密算法確保了通信數據的機密性,防止非法人員進行數據的竊聽和理解??傊?,VPN技術相當于給VPN通信的源點到終點之間建立了一條認證和機密的傳輸通道,確保了數據流通時的傳輸安全。VPN加密隧道方式確保了內網地址保護:通過隧道協議對內網地址進行統一的接口地址轉化,在加密隧道路由上的任何人只能看到隧道的起點接口地址和終點接口地址,無法知道內網中哪個地址進行了加密通信,防止
79、非法竊聽者對VPN通信中的內網地址進行分析。圖4-2客戶端遠程訪問虛擬網43協議名稱主要特點L2F由CISCO公司開發的點對點隧道協議。L2F協議本身并不提供加密,而是依賴于傳輸內容結構中的安全協議以提供數據機密性保護。L2TP第二層隧道協議,支持在IP、ATM、幀中繼、X.25等多種網絡中建立隧道??梢栽谶\營商的鏈路層網絡(例如ATM、幀中繼等)單獨使用,也可以在IP網絡(例如互聯網)中結合PPP協議使用,自身不提供加密與可靠性驗證的功能,可以和傳輸內容結構中的安全協議搭配使用,從而實現數據的加密傳輸,常與IPSec搭配。PPTP點對點隧道協議,利用改進的通用路由封裝協議(GRE)來實現點對
80、點的數據封裝和響應控制,以此形成一個點對點的數據傳輸隧道,但PPTP協議本身不提供加密或身份驗證,依賴于PPP協議完成認證,完成認證后的隧道同樣沒有安全防護,因此需要結合其他安全協議來保護傳輸數據。IPSecIPSec是一個協議框架,通過對IP協議的分組進行加密和認證來保護基于IP協議的網絡數據。TLS/SSLTLS/SSL協議主要由握手協議和記錄協議組成,它們共同為應用訪問連接提供認證、加密和防篡改功能。TLS/SSLVPN是解決遠程用戶訪問企業內網最簡單安全的解決方案。表4-1 VPN技術協議對比(4)適配性搭建企業內部虛擬網,需要在企業總部和各個分部配備VPN設備(或含VPN功能的設備如
81、路由器、安全網關、服務器等),其中至少一個VPN設備部署在公用網絡上具有公網IP地址,然后在各個VPN設備配置VPN安全隧道,通過密鑰協商等方式建立安全隧道來傳輸企業的私有網絡數據??蛻舳诉h程訪問虛擬網,需要企業在公共網絡搭建VPN服務接入點(VPN設備或VPN服務器),遠程用戶配備VPN客戶端軟件,通過公共網絡與企業VPN服務接入點建立一條的隧道連接從而訪問企業內部網資源。(5)同類技術對比44(6)技術成熟度分析隨著IP技術和因特網的快速發展,國內外在基于IP網絡的VPN技術的探索也得到廣泛的開展?;贗P網絡的VPN技術研究,是在因特網事實的標準化組織-互聯網工程任務組織(IETF)的架
82、構下,由來自世界各地、各公司和組織的研究人員組成工作組聯合完成的,并由IETF推動較成熟技術的標準化工作。目前VPN框架已基本成熟,在VPN體系下發展了 IPSecVPN、SSLVPN等技術,且均已成型為國際標準。國內,針對 IPSecVPN 和 SSLVPN 也出臺了相關的密碼標準,IPSecVPN 技術規范 IPSecVPN 網關產品規范 SSLVPN 技術規范 SSLVPN 網關產品規范。今后VPN發展趨勢主要是繼續豐富和擴展VPN框架內允許的密碼算法。45(五)供需對接相關技術(1)定義數據確權是指確定工業數據在流通過程中的所有權和權益權,保護數據所有權人對數據財產直接控制和支配的權利
83、,支撐數據要素市場的有效運行。(2)作用機理數據準確確權可引導數據資源被合理高效地利用,確保公平有序競爭環境。數據確權包括:數據內容確認與屬性標識、權利登記與權屬轉移、權屬仲裁等環節,其作用機理如5-1所示。權屬仲裁權利登記與權屬轉移數據內容確認與標識圖5-1 數據確權核心環節數據內容確認與屬性標識:首先確認工業數據的數據內容,對數據進行唯一標識,并規劃化描述數據屬性,其中數據屬性包括數據主體、數據類別、數據大小、數據產生時間等。權利登記與權屬轉移:在確保數據合規、真實、準確的基礎上,評估數據價值,定價數據資產,在權威第三方進行權利登記,必要時權屬轉移。權屬仲裁:數據在流通過程中爭議發生時,采
84、用證據交叉認證、審計等方式仲裁數據所有權、使用權和收益權。(1)定義數據目錄(datacatalog)是企業中所有數據資產的詳細目錄,是元數據的集合,與數據管理和搜索工具相結合。同時數據目錄作為可用數據的清單,提供數據資產的預期用途,幫助數據專業人員快速找到適合分析達到業務目的的最合適的數據。(2)作用機理數據目錄依賴于數據編目的核心能力收集識別和描述可共享數據庫的元數據。數據專業人員使用機器學習等人工智能方法進行元數據收集、語義推斷和標記,能從自動化中獲得最大的價值并最大限度地減少人工努力。數據目錄以元數據為核心,能夠實現許多特征和功能,最基本的功能包括以下三個方面。(a)數據集搜索:數據目
85、錄具備靈活的搜索和過濾選項,從而賦能用戶快速找到相關數據集,以實施數據科學、分析或數據工程。數據目錄的搜索能力,包括通過面、關鍵詞和商業術語進行搜索。(b)數據集評估:重要性的數據集評估包括預覽數據集、查看所有相關元數據、查看用戶評級、閱讀用戶評論和館長注釋以及查看數據質量信息。46(c)數據訪問:從搜索到評估,再到數據訪問的路徑應該是一個完整的服務,數據訪問功能包括對敏感數據的機密性、隱私性和合規性的控制。除此之外,數據目錄也提供許多其他功能,包括支持數據策劃和協作數據管理、數據使用跟蹤、智能數據集推薦和各種數據治理功能。(3)在工業數據空間解決的問題數據目錄可以應用在數據治理的以下場景:(
86、a)提高數據理解能力:分析師可以通過數據目錄找到數據的詳細描述,包括數據用戶的評論,幫助其更好地了解數據與業務的相關性。(b)提高運營效率:數據目錄對用戶和IT數據提供不同類型的功能,用戶可以更快地訪問和分析數據,IT員工可以將更多時間集中在高優先級任務上。(c)降低數據泄露風險:數據目錄幫助根據行業和數據隱私法規使用授權用于特定目的的數據,還可以快速查看注釋和元數據,以發現可能影響分析的空字段或錯誤值。(d)高效制訂數據管理計劃:降低數據分析中發現、訪問、準備和信任數據的難度,從而提高商業智能計劃和大數據項目成功的可能性。(e)提高數據分析的效果和速度:數據專業人員可以根據上下文數據,分析和
87、回答快速應對問題、挑戰和機遇。47(4)同類技術對比(數據目錄與數據字典的區別)(a)數據字典(DataDictionary)是對數據庫、數據模型或數據源中數據結構的規范和描述。它由實體、表、數據集及其字段、列、數據元素的列表組成。數據字典可以包含各種范圍的信息,具體取決于用例。其中一些是數據類型、描述、關系、別名、約束、源等。數據字典常見形式如下圖所示:圖5-2 數據字典的常見形式(b)二者的關系數據目錄通常包括數據資產的數據字典。因此,可以將數據字典視為數據目錄的構建基塊,兩者都是元數據管理策略的重要組成部分。(C)二者區別數據字典記錄特定數據庫的技術元數據,而數據目錄是跨域數據資產的所有
88、元數據(技術、治理、操作、協作、質量和使用)統一訪問、控制和協作層。數據字典有助于更好地理解和信任數據庫中的數據,而數據目錄有助于查找、理解、信任和協作處理數據。48數據字典數據目錄定義數據集和元素的定義企業范圍數據資產清單類型元數據(信息)軟件或帶有實際數據庫的軟件服務范圍數據源或數據模型企業數據管理元數據數據集、字段、關系、定義等數據資產、業務術語表、分類、數據沿襲目的描述數據庫中的數據編目企業數據以進行分析表5-1數據字典和數據目錄的區別數據字典和數據目錄的區別如下表所示:(5)數據目錄的技術成熟度分析數據目錄的原始驅動力是“政務數據資源共享”,最早由政府提出,并在2007年正式發布國標
89、:GB/T21063-2007政務信息資源目錄體系。Okera的研究人員揭示了2021年將出現的五個關鍵數據行業趨勢和預測,其中明確表示“企業在數據目錄和元數據管理上的投資將會帶來回報”。到2023年,越來越多的企業將利用元數據創建通用而靈活的業務規則和請求處理。當前,數據目錄技術正處于高速發展,今后數據目錄的發展將呈現以下趨勢:1.隨時隨地接入高速網絡,具備實現超級連接的能力;2.數據目錄系統向云端遷移,工作負載與位置相匹配;3.通過機器學習增強元數據目錄,提高數據的適應性。49(1)定義數據血緣(Datalineage),又稱數據血統、數據起源、數據譜系,是指數據的全生命周期中,數據從產生
90、、處理、加工、融合、流轉到最終消亡,數據之間自然形成一種關系,展現了數據產生的鏈路關系。數據血緣追蹤也是元數據管理的重要應用之一,其梳理系統、表、視圖、存儲過程、ETL、程序代碼、字段等之間的關系,并采用圖數據庫進行可視化展示。根據集成的數據庫或視圖,通過數據血緣,獲得結果數據的來源信息;更新數據時能夠反映原始數據庫的變化,查看數據在數據流中變化過程。(2)作用機理數據血緣追蹤,即對各資源涉及的數據流經路徑進行跟蹤,類似于追蹤數據的“血緣關系”。其可針對數據向下做影響分析或向上做溯源分析,有助于用戶管理資源和排查問題。具體為:影響分析:了解資源(如數據源、數據表、API、數據模型、SQL、模型
91、等)被下游的使用情況,便于在更改資源時評估影響。溯源分析:對資源(如圖表、數據模型)的錯誤、疑問進行溯源,查明根因。主要特征數據血緣關系主要包含4個特征:歸屬性:數據是被特定組織或個人擁有所有權的,擁有數據的組織或個人具備數據的使用權,實現營銷、風險控制等目的??勺匪荩簲祿难夑P系體現了數據的全生命周期,從數據生成到廢棄的整個過程,均可追溯多源性:同一個數據可以有多個來源,數據是由多個數據加工生成的,或者由多種加工方式或加工步驟生成的。層次性:數據的血緣關系是具備層級關系的,一個用戶擁有多個數據庫,一個數據庫中存儲著多張表,而一張表中有多個字段。他們有機結合在一起,形成完整的數據血緣關系。5
92、0(3)在工業數據空間解決的問題數據血緣追蹤可以應用在數據治理的以下場景:數據溯源用戶分析處理的數據,可能來源很廣泛,不同來源的數據,其數據質量參差不齊,對分析處理的結果影響也不盡相同。當數據發生異常,用戶能追蹤到異常發生的原因,把風險控制在適當的水平。依托于數據血緣的可塑性特點,根據血緣中的數據鏈路關系,可實現指定數據的來源、去向的追溯,可幫助用戶理解數據含義、在全流程上定位數據問題、進行數據關聯影響分析等,解決多層復雜邏輯處理后的數據難以理解、難以應用、出現問題難以定位的問題。數據價值評估傳統的數據價值評估,往往完全依靠相關法規要求和業務經驗,缺少在具體應用場景中的評估依據,數據價值評估脫
93、離了數據的應用場景和真實的業務價值。而數據血緣則提供了一種基于數據實際應用的價值評估方法:使用者越多(需求方)、使用量級越大、更新越頻繁的數據往往更有價值。數據受眾:在血緣關系圖上,數據流出節點表示受眾,亦即數據需求方,數據需求方越多表示數據價值越大;數據更新量級:數據血緣關系圖中,數據流轉線路的線條越粗,表示數據更新的量級越大,從一定程度上反映了數據價值的大??;數據更新頻次:數據更新越頻繁,表示數據越鮮活,價值越高。在血緣關系圖上,數據流轉線路的線段越短,更新越頻繁。數據質量評估數據血緣清晰地記錄了數據來源以及數據流轉過程中的處理方式和處理規則,能實現對各個數據節點的分析和數據質量評估。數據
94、歸檔參考數據血緣中記錄了數據的去向,可清晰地掌握數據被消費的情況,一旦數據沒有消費者,那也就意味著數據已經失去價值。此時,可以對數據進行進一步評估,考慮進行歸檔或銷毀處理。51(4)同類技術對比(數據血緣與影響分析的區別)(a)影響分析(ImpactAnalysis)的起點是當前分析對象,終點是受其影響的最末端子代,按照影響關系逐層擴展。影響分析反映了當前對象在統一數據集成平臺中,參與了哪些數據的形成。用戶可以借助影響分析觀察該對象的影響能力,即對于當前數據修改,會對哪些后代數據造成影響。(b)二者的關系數據血緣追蹤和影響分析兩個關鍵特性為用戶重建了整個數據管理的構建過程,刻畫了家族成員彼此連
95、接的脈絡和途徑。當數據出現錯誤或者異常時,用戶可通過數據血緣向上分析鎖定問題產生的源頭,當對某些數據進行修改時,可通過影響關系向下分析,發現哪些數據實體中的數據會受到影響。充分理解并運用這兩種數據分析方式,將幫助用戶在對海量數據進行分析時,降低排查錯誤的難度,預測并控制即將造成的影響,最終達到提升數據質量的效果。(C)二者區別數據血緣追蹤是分析數據的上游數據信息,用于追溯數據的來源和加工過程。影響分析是分析數據的下游數據信息,用于掌握數據變更可能造成的影響。(5)技術成熟度分析隨著數據的爆發式增長,數據之間的關系也變得越發復雜。在這樣的背景下,具備可塑性、歸屬性等特征的數據血緣最終將數據治理過
96、程中發揮越來越大的作用。數據的血緣對于分析數據、跟蹤數據的動態演化、衡量數據的可信度、保證數據的質量具有重要的意義。2022年,目前的數據血緣大多是基于技術的梳理,一般服務技術人員的需求。2020年,隨著數據服務走向前臺,服務業務分析和CDO的業務數據血緣,目前已經有相關產品,通過數據的語義分析,將技術元數據映射到業務元數據上,將數據血緣以業務流程方式發布共享出來,輔助商務決策,這是未來的發展方向之一。52(1)概念區塊鏈是一種按時間順序將不斷產生的信息區塊以順序相連方式組合而成的一種可追溯的鏈式數據結構,是一種以密碼學方式保證數據不可篡改、不可偽造的分布式賬本,是一個分布式存儲數據庫。區塊鏈
97、技術包含分布式數據存儲、共識機制、P2P點對點傳輸及加密算法等,是計算機技術的新型應用模式。智能合約:是一套以數字形式定義的承諾,是區塊鏈上的所有節點共同接受的可編輯自動執行的通用協議,是由事件驅動的、具有狀態的、運行在可復制的共享區塊鏈數據賬本上的一段計算機代碼程序。區塊鏈所有參與者接受編寫好的智能合約,在符合執行條件的情況下自動執行條約,并更新數據庫記錄合約的執行情況。(2)作用機理共識機制、智能合約和Token機制是區塊鏈技術體系的核心特征。(a)共識機制區塊鏈中的每一個新增區塊要經過記賬者確認,其他參與者對新確認區塊進行共識驗證,確定新區塊合法性。典型解決方案通過工作量證明(PoW)、
98、權益證明(PoS)和實用拜占庭容錯(PBFT)來實現。其中PoW中參與者依賴運算能力來獲取記賬權,PoS中持有權益越高的參與者獲得記賬權的難度越低,PBFT則是在區塊鏈上不同參與者兩兩進行信息交換和形成共識。(b)智能合約區塊鏈上的所有節點共同接受的可編輯自動執行通用協議,典型方案為區塊鏈所有參與者接受編寫好的智能合約,在符合執行條件的情況下自動執行條約,并更新數據庫記錄合約的執行情況。53(c)Token機制加密算法和分布式賬本使Token成為可流通的加密數字權益證明,通常以一定預設機制生成并分發給部分或全部區塊鏈參與者,通過設置數量上限控制Token的貶值速度。(3)在可信工業數據空間中所
99、解決的問題區塊鏈技術主要解決了工業數據空間中的身份認證、自動化交易與可信存證問題。(a)身份認證區塊鏈結合證書技術可支撐構建可信工業數據空間中的身份認證商,并替換傳統集中式身份認證方案。通過鏈上存儲證書驗證方式與本地持有證書相結合的方式,解決大量身份數據需存儲在集中式節點的挑戰;并且用戶不必依賴可信第三方身份認證商來訪問不同域的服務,從而解決傳統方案中,身份提供商可以看到用戶和服務提供商之間的所有交易從而帶來的信息泄露問題,保證用戶身份屬于用戶;同時,區塊鏈因其不可篡改特性,保證身份驗證的可信性。(b)自動化交易與可信存證區塊鏈技術可以實現工業數據空間中的高效交易清算與可信存證,在數據使用之前
100、,數據的使用者與數據的提供者通過協商,形成智能合約;在數據使用階段,當供需關系、用戶意圖與使用要求等符合執行條件時自動執行智能合約,并更新數據庫記錄合約的執行情況,完成工業數據空間中自動交易,實現多個節點分布式互通與高效協同,保證交易存證與可追溯。(4)在可信工業數據空間中的適配性(a)軟硬件要求在硬件方面,傳統的區塊鏈可以在通用設備上運行。以到目前為止運行時間最長的比特幣為例。在硬盤需求方面,比特幣從08年開始運行,區塊鏈內容大小達210G,因此要求硬盤至少500G的空間;在內存方面,一般要求4G,但如果需要查詢歷史記錄,則需要加載完整的交易索引表-tindex,這導致需要8G+的內54存,
101、所以一般16G的內存較為適宜;在CPU方面,4核即可;在帶寬方面,要求至少8M/s的下載帶寬,推薦配置25+M/s的下載帶寬。以太坊和超級賬本由于運行時間尚短,對硬盤的要求甚至比比特幣的要求更低,其余配置要求相似。由此可見當前區塊鏈技術對通用計算機的適配良好。目前也有多個區塊鏈平臺已經投入對嵌入式平臺和輕量化設備市場,如嵌入式區塊鏈平臺tendermint和輕量級區塊鏈Mina。其中Tendermint實現了拜占庭容錯,任何正常工作的機器都會收到相同的交易日志,并分別推導出相同的狀態,可以在不超過1/3的機器失效時依然正常工作。Mina是一個輕量級的區塊鏈,區塊鏈大小可維持在22KB左右,這允
102、許節點以低門檻的硬件條件參與,哪怕是運算能力相對較弱的移動端,類似手機、平板電腦等,也可以同步驗證Mina網絡。(5)與同類技術的關系/對比分析(a)與中心化系統對比中心化系統是指中央控制器通過直接命令或使用權力等級制度來對系統的底層構成進行控制的一種系統。此類系統往往采用單根樹狀結構,該種方案部署簡單,但帶來服務節點權限不對等問題,可能導致服務被非法控制,并且面臨海量數據時存在單點負載過重、服務擁塞等問題在軟件方面,現有區塊鏈技術對軟件的要求比較容易實現。以比特幣為例,部署所必需的依賴庫只有libssl、libboost、libevent三項,其中libssl用于加密及隨機數生成,橢圓曲線加
103、密算法。libboost為工具庫、線程庫,用于數據結構等。libevent為網絡庫,用于獨立于OS的異步網絡。其余區塊鏈技術的部署要求也類似。(b)與分布式哈希技術對比分布式哈希技術(DHT)是一種不需要中心服務器的分布式存儲方法,通過某種協議將數據分散地存儲在多個節點上,可有效解決集中式架構單一故障帶來的服務癱瘓,同時通過散列運算進行存儲查詢。DHT技術擁有對等、無中心等特點,但不具備區塊鏈防篡改、安全等優勢,因此,目前該技術常與區塊鏈技術相結合使用,通過DHT技術構建區塊鏈的鏈下存儲系統,從而提升系統的整體運行效率。55(1)定義非對稱密碼算法或公鑰密碼算法是指運用陷門單向函數原理編制的加
104、密密鑰公開、解密密鑰保密的密碼算法。RSA是一種國際商用公鑰密碼算法,被廣泛用于安全數據的傳輸,算法安全性由大整數分解的困難性來保證。SM2是國密局發布的橢圓曲線公鑰密碼算法,算法安全性由離散對數困難問題來保證。其在我國商用密碼體系中被用來替換RSA算法。SM9標識密碼算法是國密局發布的一種基于身份標識的密碼算法(Identity-BasedCryptography,IBC),IBC算法以用戶的身份標識作為公鑰。(2)作用機理因篇幅原因且技術較為成熟,本小節略。(3)所解決的問題公鑰加解密算法確保了存儲和交換時數據的機密性:采用RSA、SM2、SM9等公鑰加解密算法,可以加密數據,防止數據在存
105、儲時以及傳輸過程中被非法竊聽和理解,解決數據的機密性問題。公鑰加解密算法加密對稱密鑰,用對稱加解密算法對數據進行加密,同樣能防止數據在存儲時以及傳輸過程中被非法竊聽和理解,解決數據的機密性問題,運用得當時加解密效率更高。公鑰簽名驗簽算法確保了存儲和交換時數據的完整性:采用RSA、SM2、SM9等公鑰簽名算法,可以對數據進行簽名,由數據接收者或其他人對數據及簽名進行公鑰驗簽測試,解決存儲時及交換過程中數據的完整性問題,解決了攻擊者對消息進行篡改的問題,確保收到的消息與發出的消息保持一致,保證消息未被復制、插入、修改、更改順序或重放。采用公鑰簽名驗簽算法與哈(六)工業數據流通面臨的問題56希算法相
106、結合的方式,可以給存儲和傳輸過程中的不定長數據生成數據摘要,由公鑰簽名算法對數據摘要進行簽名,使得其他人可以使用公鑰驗證算法進行數據、數據摘要和簽名的驗簽,數據完整性驗證的效率更高。公鑰簽名驗簽算法確保了存儲和交換時數據的不可否認性:RSA、SM2、SM9等公鑰簽名驗簽算法,使用數據發送者的私鑰對數據進行簽名,其他人可以用其公鑰進行驗簽,確認是否來自于預期的發送者以及確認數據的來源是否可信。在可能涉及法律責任認定的應用中,公鑰簽名技術提供數據原發證據,實現數據原發行為的不可否認性公鑰簽名驗簽算法確保了存儲和交換時數據的不可否認性:RSA、SM2、SM9等公鑰簽名驗簽算法,使用數據發送者的私鑰對
107、數據進行簽名,其他人可以用其公鑰進行驗簽,確認是否來自預期的發送者以及確認數據的來源是否可信。在可能涉及法律責任認定的應用中,公鑰簽名技術提供數據原發證據,實現數據原發行為的不可否認性。消息進行篡改的問題,確保收到的消息與發出的消息保持一致,保證消息未被復制、插入、修改、更改順序或重放。采用公鑰簽名驗簽名驗簽算法與哈希算法相結合的方式,可以給存儲和傳輸過程中的不定長數據生成數據摘要,由公鑰簽名算法對數據摘要進行簽名,使得其他人可以使用公鑰驗證算法進行數據、數據摘要和簽名的驗簽,數據完整性驗證的效率更高。(4)同類技術對比RSA是目前最有影響力和最常用的公鑰加密算法,它能夠抵抗到目前為止已知的絕
108、大多數密碼攻擊,已被ISO推薦為公鑰數據加密標準。隨著密碼技術和計算機技術的發展,目前1024位RSA算法已經被證實存在被攻擊的風險,美國國家標準技術研究院在2010年要求全面禁用1024位RSA算法,升級到2048位RSA算法。SM2算法,由國家密碼管理局于2010年12月發布,是我國自主設計的公鑰密碼算法。SM2基于更加安全先進的橢圓曲線密碼機制,在國際標準的ECC橢圓曲線密碼理論基礎上進行改進而來,其加密強度更高,在安全性能、速度性能等方面都優于RSA算法,在我國商用密碼體系中被用來替換RSA算法。57為了降低公開密鑰系統中密鑰和證書管理的復雜性,1984年提出了標識密碼(Identit
109、y-BasedCryptography)的理念。標識密碼將用戶的標識(如郵件地址、手機號碼、QQ號碼等)作為公鑰,省略了交換數字證書和公鑰過程,使得安全系統變得易于部署和管理,非常適合端對端離線安全通訊、云端數據加密、基于屬性加密、基于策略加密的各種場合。2008年標識密碼算法正式獲得國家密碼管理局頒發的商密算法型號:SM9(商密九號算法),為我國標識密碼技術的應用奠定了堅實的基礎。本小節將三種公鑰密碼技術與另一主流相關技術ElGamal算法進行對比。對比細節如下表所示。表6-1 公鑰密碼技術對比分析58(1)定義對稱密碼技術是指,信息發送方將明文在一個密鑰的作用下經過特殊對稱密碼編碼技術處理
110、后,使其變成隨機復雜的加密密文,而信息接收方收到密文后在同一個密鑰的作用下經過特殊對稱密碼解密技術處理,得到明文的過程。對稱密碼技術的特點是加密和解密使用相同的密鑰。-SM4:SM4算法是2006年我國國家密碼管理局公布的國內第一個商用密碼算法。SM4算法是一種分組密碼算法,其數據分組長度為128位(即16字節,4字),密鑰長度也為128位(即16字節,4字)。其加解密過程采用了32輪迭代機制,每一輪需要一個輪密鑰以字節(8位)和字(32位)位單位進行數據處理。-AES:高級加密標準(Advanced Encryption Standard,AES),又稱Rijndael加密法,是美國聯邦政府
111、在2000年批準采用的一種對稱密碼算法。它是一種迭代型分組密碼算法,分組長度和密鑰長度都可變,各自可以獨立地使用128、192和256位的密鑰來加密和解密分組中的數據。(2)作用機理因篇幅原因且技術較為成熟,本小節略。(3)所解決的問題SM4和AES算法等對稱密碼算法主要解決了數據的安全傳輸和安全存儲問題,主要用于實現數據信息的機密性。無論是SM4、AES算法還是其他的分組對稱密碼算法,他們從以下幾個方面解決了數據的機密性問題:明確了數據分組問題。明文的長度是不固定的,需要設計如何分組適合當前軟硬件的移位、置換、異或操作。當明文長度不是分組長度的整數倍時,是否需要填充且如何填充等問題。這些都是
112、確保明文加密后能解密出一模一樣的明文,需要解決設計的問題。59設計了數據分組的銜接問題。分組之后的各個塊以何種形式組織起來實現整體的加解密,這里蘊含著安全性和加解密效率的設計。數據機密性保護問題。這些算法設計了如何通過移位、置換、異或等操作實現基于對稱密鑰針對每個塊的加解密處理,這個是不同的分組加密算法的核心部分。(4)同類技術對比SM4和AES是分組算法,都屬于對稱密碼體制,其加密與解密密鑰相同,主要用于大量數據的保密傳輸。1977年,DES成為美國政府的商用加密標準,并授權在非密級政府通信中使用,隨后該算法在國際上得到廣泛使用。但該算法的56bit密鑰太短,已不適合用于當今分布式開放網絡對
113、數據加密安全性的要求。AES算法在此階段應運而生,并最終成為取代DES的新一代數據加密標準。在DES向AES過渡的過程中,NIST將3DES指定為過渡的加密標準,3DES是DES的一個安全變形,通過執行3次DES達到增加密鑰長度和安全性的目的。2012年3月21日,我國國家密碼管理局發布了SM4算法。SM4、AES與3DES算法整體特性如下表所示。SM4的安全強度和計算效率介于AES與3DES之間??紤]3DES算法安全性較低,且現有的應用系統正逐步用AES替代3DES。在計算量方面,SM4與AES-128算法的計算量差別較大。在安全性方面,SM4的安全強度等同于AES-128,但是近年來一些密
114、碼分析表明,SM4的安全性略弱于AES-128。由于SM4的密鑰長度固定為128bit,沒有提供更長的可選密鑰長度,在安全等級要求越來越高的情況下,SM4可能面臨應用范圍受限的問題。表6-2 SM4、AES、3DES間的比較60(1)定義密碼散列函數,是用于將一個長度不定的數字消息映射對應到固定長度的字符串(又稱消息摘要)的算法,應具備的特點是,如果輸入的消息不同,那么應該映射對應到不同字符串。SM3是中華人民共和國政府采用的一種密碼散列函數標準,能計算出一個數字消息所對應到的,長度固定的字符串(又稱消息摘要)的算法。由國家密碼管理局于2010年12月17日發布。相關標準為“GM/T0004-
115、2012SM3密碼雜湊算法”。SHA即安全散列算法(SecureHashAlgorithm,SHA),是一個密碼散列函數家族,是由美國國家安全局(NSA)所設計,并由美國國家標準與技術研究院(NIST)發布的安全散列算法。SHA算法包括多個不同長度的算法,分別是SHA-1、SHA-224、SHA-256、SHA-384和SHA-512。(2)作用機理因篇幅原因且技術較為成熟,本小節略。(3)所解決的問題密碼散列函數通過將不定長的數據映射為定長的摘要,能解決和支撐解決以下問題:密碼散列函數可實現數據的完整性校驗。通過結合對稱密鑰、或者結合非對稱簽名算法,對數據進行密碼散列函數計算,形成完整性驗證
116、碼或完整性簽名,可檢測數據中的細微的篡改,接收者可以確認自己所收到的數據與發送者所提供的數據是否一致。61密碼散列函數可實現口令的快速驗證。將用戶名口令等數據進行散列函數計算后,與系統預留的散列值對比,可完成用戶名口令的快速驗證。將口令和偽隨機數生成器產生的隨機值混合后計算其散列值,然后將這個散列值用作口令的校驗,通過此方法能夠從某種程度抵御針對口令的字典攻擊。單向散列函數可以構造偽隨機數生成器。由于輸入數據的細微變化就能引起摘要的大幅度變化,讓單向散列函數的輸出具有不可預測性,可以利用單向散列函數生成偽隨機數。(4)同類技術對比這里簡要對比雜湊輸出長度相同的國內算法SM3與國外算法SHA-2
117、56。SM3與SHA-256的布爾函數結構相同,各種輸出長度的迭代壓縮處理類似,各步結構相同,SM3采用雙字介入的并行壓縮結構,運算只有模232算術加法、異或、循環左移和邏輯與、或、非等基本運算,適于ASIC實現,構成的四級加法鏈流水線有利于硬件的優化實現。據測試,在智能卡中實現SM3算法,算法程序占用RAM共112Bytes,占用ROM共828Bytes。執行27567個機器周期。同等條件下資源占用遠遠少于SHA-256,運算速度大大高于SHA-256。62(1)定義(2)作用機身份認證是指在信息交互過程中,參與者的其中一方對另一方或多方的身份進行判定及確認的過程。證明或驗證實體身份的數據元
118、素稱為認證因素,為增強認證安全強度,同時采用兩種/多種認證因素的身份認證方案則稱為雙/多因素認證。理在身份認證中,需證實自己身份的一方稱為示證者(Prover),另一方為驗證者(Verifier)。驗證身份的一般方法為:在接收到來自示證者的含認證因素的認證消息后,驗證者將經公式和算法運算所得到的結果與從存儲中讀取的信息經公式和算法運算所得結果進行比較,根據比較結果得出身份判定結論。身份證明主要依靠以下三類認證因素之一或組合實現:1)所知(Knowledge):該身份所掌握的知識或信息,如口令字、私鑰等。2)所有(Possesses):該身份所具有的實體,如身份證、Smartcard等。3)個人
119、特征(Characteristics):該身份所具有的特性,如人的生物特征或行為特征、設備指紋等。根據系統的安全需求、安全水平、用戶可接受性、成本等因素,可以選擇適當的組合設計實現雙/多因素認證方案。以FIDO(FastIdentityOnline)聯盟提出的通用身份認證框架(UniversalAuthenticationFramework,UAF)為例(如圖2-37所示)。FIDO在注冊時為用戶產生密鑰對,私鑰通過用戶PIN碼或生物特征數據加密存儲在FIDO認證器中(如手機、手提電腦等),對應的公鑰傳輸到認證服務器保存。認證過程如圖6-1所示,用戶端通過輸入生物特征或PIN碼驗證后解密獲得私
120、鑰,用私鑰對認證服務器發來的隨機挑戰進行簽名并返回給服務器,服務器通過驗證簽名的正確性完成對用戶的認證。在該認證協議中,結合使用了用戶口令字(PIN碼)/生物特征與私鑰兩種認證因素,且兩種因素在使用上是具有關聯性的,并非簡單地依次疊加。一般情況下,先后完成多種獨立的單因素認證方案不被認為是多因素認證,必須要多種認證因素信息有所關聯地驗證才能有效地提升認證方案的安全性。63(3)所解決的問題從用戶安全性角度分析,非法用戶通常采用以下手段進行攻擊:竊取口令:非法用戶獲得合法用戶身份的口令,可能在未授權下直接訪問系統數據或資源;流量分析:非法用戶對公開信道上傳輸的消息進行分析,試圖獲取或還原有用數據
121、;重傳/修改/偽造合法用戶消息;阻斷服務:破壞系統資源的合法管理和使用。雙/多因素認證可針對上述問題為工業信息系統提供以下安全功能:數據/消息源的可信性,即信息的來源是可信的,系統所獲得的信息是不是由冒充者發出。不可抵賴性,即可以確認信息來源是系統中已注冊的某唯一用戶,該用戶不可否認他在系統內的操作,同樣,系統也不能否認已收到消息。訪問控制,即非法用戶不能訪問系統資源,合法用戶只能訪問系統授權的指定資源??箙f議攻擊,在多因子認證方案中,即使用戶某認證因素泄露,如口令字被竊取,但因認證需要多重因素才能成功,極大地提高了安全強度。此外,通過隨機挑戰、一次性口令字、短信驗證碼認證等認證方法的加入,可
122、以有效防止消息的重傳、篡改等情況。圖6-1FIDOUAF雙因素認證流程64通過對用戶的認證及身份管理,可對用戶進行監管,以減少惡意用戶行為。單一因素認證方案在細粒度管理的工業數據系統中在安全性及靈活性上遠低于雙/多因素認證方案,因此在實際應用中,多對用戶采用多因素認證方案。(4)同類技術對比主流的單因素認證主要為靜態口令字、智能卡、UKey、生物(行為)特征、動態口令認證等,各方案認證原理如下:1)靜態口令字??诹钭?一般稱作密碼)是由用戶自己設定的一串靜態數據,系統通過哈希等算法比對口令字的運算值判定是否為合法用戶??诹钭蛛m然使用及部署簡單,但容易遭受容易字典攻擊、竊取、監聽、重放攻擊、木馬
123、攻擊等。2)智能卡。智能卡芯片具有很高的集成度,其私鑰不可讀且在卡內進行簽名及驗證操作,可以有效防止硬件克隆,而且能使解密者對軟件端代碼的跟蹤、調試、偵聽數據的手段失效,其支持基于數字簽名的認證方案,但只有已通過國際安全機構檢測和認證(EAL4+)的專業安全芯片制造商才能提供智能卡芯片。653)UKey。UKey是集智能卡與讀卡器于一體的USB設備,支持熱插熱拔和即插即用,作為密鑰存儲器,自身硬件結構決定了用戶只能通過廠商編程接口訪問數據,這就保證了保存在UKey中的數字證書無法被復制,其基于挑戰-應答的認證并且每一個USBKey都帶有PIN碼保護,因此其為一種雙因素認證方案。4)生物特征。生
124、物特征認證是指通過自動化技術利用人體的生理特征和(或)行為特征進行身份鑒定。目前利用生理特征進行生物識別的主要方法有:指紋識別、虹膜識別、手掌識別、視網膜識別和臉相識別;利用行為特征進行識別的主要方法有:聲音識別、筆跡識別和擊鍵識別等。一個典型的生物特征識別系統包括生物特征識別傳感器、特征提取、匹配其和系統數據庫四個模塊,以及采集生物特征樣本、預處理、特征提取和特征匹配四個處理過程。5)動態口令認證。又稱一次性口令認證,主要針對口令竊取/竊聽攻擊。這類方案的主要設計思路為在口令字中添加不確定因素,通過某種運算(通常Hash函數等單向函數)使每次登錄時口令字都不相同,以此增強系統認證的安全性。根
125、據不確定因素,即動態因素的不同,主要有三種動態口令認證機制:挑戰/響應機制;時間同步機制;事件同步機制。動態因素由兩部分構成,一部分是用戶信息、終端信息及共享密鑰等固定信息,另一部分為時間、計數器及Hash鏈等動態信息。各項技術對比分析如表6-3所示。表6-3單因素認證對比66(1)定義數字證書是網絡中標識實體身份信息的電子化文件,由權威公正的第三方機構,即CA(CertificateAuthority)中心簽發,基于數字證書的認證方案稱為數字證書認證技術。(2)作用機理數字證書的結構在Satyam標準中定義。國際電信聯盟(ITU)于1999年推出X.509標準,是國際數字證書的管理標準,其對
126、應的ISO標準是ISO/IEC9594-8。X.509標準的公鑰證書共有V1、V2和V3三個版本。V3格式在V2的基礎上添加了一些擴展字段,特殊的擴展字段類型可以由任何組織或者社區定義和注冊。X.509V3是目前最廣泛采用的證書格式。X.509描述了兩個級別的認證:簡單認證和強認證。簡單認證也稱為弱認證,是指基于使用用戶名和口令的方式來驗證用戶身份,目前很多應用中仍使用這種簡單鑒別。所謂強認證就是利用公鑰密碼體制實現的認證,它是基于PKI/CA對其用戶簽發證書證明用戶的身份,用戶在驗證過程中使用私鑰對特定信息簽名,任何人可通過證書獲取用戶公鑰,利用公鑰驗證用戶簽名,從而達到確認身份的目的。X.
127、509又將強認證分為單向認證、雙向認證和三向認證三種認證形式,以適應不同的應用環境。這三種認證過程都使用公鑰簽名技術,并假定參與各方都可從目錄服務器獲取對方的公鑰證書,或對方最初發來的消息中包括公鑰證書,即假定參與方都知道對方的公鑰。三種認證過程如6-2所示。671)單向認證單向認證指用戶A將消息發往用戶B,以向用戶B表明A的身份,消息是由A產生的。這個鑒別過程需要驗證信息的發送方A的身份。消息的接收者是B,B的身份不需要進行驗證,同時,必須要保證消息的完整性。為實現單向認證,A發往B的消息應是由A的秘密密鑰簽署的若干數據項組成。數據項中應至少包括時間戳tA、一次性隨機數rA、B的身份,其中時
128、間戳又有消息的產生時間(可選項)和截止時間,以處理消息傳送過程中可能出現的延遲,一次性隨機數用以防止重放攻擊。rA在該消息到截止時間以前應該是這一消息唯一所有的,因此B可在這一消息的截止時間以前,一直存有rA,以拒絕具有相同rA的其他消息。如果僅單純為了認證,則A發往B的上述消息就可作為A提交給B的憑證。如果不只是為了認證,則A用自己的秘密密鑰簽署的數據項還可包括其他附加信息sgnData,對信息進行簽名時也會把該信息包含在內,以保證該信息的真實性和完整性。此外,數據項中還可包括一個雙方意欲建立的會話密鑰KAB(這個會話密鑰需圖6-2 X.509的認證過程(a)單向認證;(b)雙向認證;(c)
129、三向認證68要使用B的公開密鑰加密保護)。圖2-3中A表示以A的私鑰對中的數據計算數字簽名。2)雙向認證雙向認證是指通信雙方A、B需要相互鑒別對方身份。為了完成雙向認證,在上述單向認證的基礎上,B需要對A發送的消息作出應答,以證明B的身份。應答消息是由B產生的,應答的接收者是A,應答消息必須保證完整性。應答消息中包括由A發來的一次性隨機rA(以使應答消息有效)、由B產生的時間戳tB和一次性隨機數rB,與單向認證類似,應答消息中也可包括其他附加信息和由A的公開密鑰加密的會話密鑰。B表示以B的私鑰對中的數據計算數字簽名。3)三向認證在完成上述的雙向認證之后,A再對B發來的一次性隨機數簽名后發往B,
130、即構成第三向認證。三向認證的目的是雙方將收到的對方發來的一次性隨機數又都返回給對方,因此雙方不需檢查時間戳,只需檢查對方的一次性隨機數即可檢查出是否有重放攻擊。在通信雙方無法建立時鐘同步時,就需使用這種方法。(3)所解決的問題數字證書為公鑰基礎設施(PublicKeyInfrastructure,PKI)提供可信的數字身份,是PKI的主要部分。公鑰基礎設施的目的是從技術上解決網上身份認證、電子信息的完整性和不可抵賴性等安全問題,為信息應用提供可靠的安全服務。PKI是標準化的密鑰管理平臺,能為所有網絡應用透明地提供采用加密和數字簽名等密碼服務所需要的密鑰和證書管理,因此在實際應用中,使用基于PK
131、I的數字證書所產生的可信身份包含身份標識及結合密碼機制(如簽名、加密算法等),可以提供認證、授權或數字簽名驗證等服務,實現安全、易用、靈活的統一認證及資源可控管理,PKI體系所包含的證書機構、注冊機構、策略管理、密鑰與證書管理、密碼備份與恢復、撤銷系統等功能模塊的有機結合,可以提高系統的互操作性和可擴展性。此外,安全應用程序的開發者不必再關心復雜的數學模型和運算,只需直接按照標準使用API接口即可實現相應的安全服務。69通過對用戶的認證及身份管理,可對用戶進行監管,以減少惡意用戶行為。單一因素認證方案在細粒度管理的工業數據系統中在安全性及靈活性上遠低于雙/多因素認證方案,因此在實際應用中,多對
132、用戶采用多因素認證方案。(4)適配性(5)同類技術對目前,我國PKI產品被廣泛應用于電子政務、電子商務、電子銀行等相關領域,通過實現身份認證與訪問控制等功能,工業控制系統在發展中,各管理域之間的數據互聯互通、身份互認需求的增多、至上而下的安全建設策略,都對以PKI為核心的基礎設施建設及應用的普及提供支撐。工業4.0帶來了基于物聯網的工業模式,其中對于智能設備的遠程控制攻擊極大地增高了工控系統的風險,在這些環境中構建的產品在制造過程以及使用和使用過程中均要求具有強身份,PKI的核心是根密鑰,它充當設備和服務的安全錨:使用根密鑰,可以驗證證書鏈,以檢查誰可以訪問系統數據。根密鑰對代表設備身份的證書
133、鏈進行簽名它控制對網絡的訪問,防止偽造并確??蛻魯祿陌踩?。由PKI生成和保護的身份可以較好的適用于該場景,基于數字證書的認證是工控系統中常用的認證方式。比為了簡化系統中的證書管理問題,提高公鑰密碼系統的效率,Shamir1984年在美洲的密碼學會上首次提出了基于身份的密碼技術(Identity-basedCryptography,IBC)。在IBC中,用戶的公鑰可以根據某個公開的算法由用戶的身份如姓名、身份證號碼、電話號碼、Email地址等直接計算出來,用戶與其身份相匹配的私鑰dID由私鑰生成器(PrivateKeyGenerator,PKG)按照某種公開的算法產生。IBC使得任意兩個用戶
134、可以直接通信,不需要交換公鑰證書,不必保存公鑰證書列表,也不必使用在線的第三方,只需要PKG為每個首次加入系統的用戶發行一個與其身份相匹配的私鑰即可。二者的不同之處主要表現在以下幾個方面:(1)用戶密鑰生成過程不同。在IBC系統中,用戶的公鑰就是其被公開的身份信息,或者由身份信息演化得到,用戶的私鑰可以在用戶需要時由PKG使用主密鑰計算生成。70(2)私鑰傳輸方式不同。在IBC系統中,用戶的私鑰由PKG產生,為保證私鑰的秘密性,PKG必須通過安全的通信信道把生成的私鑰傳送給對應的用戶;PKI中的私鑰由用戶個人生成且個人獨有,不在任何場所中傳輸。(3)用戶公鑰確認方式不同。在基于證書的PKI系統
135、中,用戶和其對應的公鑰由CA頒發的證書綁定,公鑰的表現形式是看似隨機的字符串,需要在驗證了CA的簽名才能被其他用戶接受;在IBC系統中,用戶公鑰就是公開的身份信息,或者由身份演化得到,無需一個權威機構簽名。(4)公鑰撤銷方式不同。在PKI系統中,公鑰的撤銷通常由CA維持的CRL實現;在IBC系統中,目前采用的方式一般是在用戶身份字符串后串聯一個表示公鑰生命周期的字符串,該方式給PKG帶來了負擔。(5)公鑰存儲不同。在基于證書PKI系統中,需要一個公開目錄來存放用戶的證書(公鑰)。在IBC中,由于公鑰由用戶的身份得到,無需證書支持,可節省資源。(6)密鑰對的生命周期不同。在基于證書的PKI系統中
136、,密鑰對的生命周期長;在IBC系統中,密鑰對的生命周期較短。(7)系統參數發布形式不同。在基于證書PKI系統中,所有參數作為公鑰的一部分;在IBC系統中,公開參數由公開參數服務方發布。(8)可信第三方工作狀態不同。在基于證書的PKI系統中,CA必須時刻在線以便能夠響應第三方的查詢;在IBC系統中,每個PKG只是在系統的建立階段提供服務。IBC相應于PKI存在的一個主要問題是當用戶私鑰泄露后,作為公鑰的用戶身份無法撤銷。因此簡單地以用戶身份作為公鑰在實際應用中存在問題,一般會在身份之后再增加有效期、序號等數據,以支持公鑰的更新。這一方式使得IBC本身方便獲取公鑰的優點被弱化了。71(6)技術成熟
137、度分析美國是最早提出PKI概念的國家,與PKI相關的絕大部分標準都由美國制定,其PKI技術在世界上處于領先地位,已建成的政府PKI體系為聯邦政府、工作機構與商業機構等景下電子數據交換提供信息安全保障。歐洲在PKI建設中強調技術中立、隱私保護等原則。較有影響力的PKI產品Entrust/PKI5.0已能較好的曼珠商業、企業的實際需求。VeriSign提供的PKI服務為Internet的很多軟極提供簽名認證。我國的PKI技術從1998年開始起步,2001年PKI技術被列為“十五”863計劃信息安全主題重大項目,目前,我國已全面推動PKI技術的研究與應用,以及將CA證書應用到真武系統及個人安全郵件等
138、多個方面,目前PKI基于證書的認證標準完善,認證技術較為成熟。72(1)定義使用公鑰密碼算法對認證因素數據進行簽名以實現實體身份認證的方案稱為數字簽名認證技術。(2)作用機理基于非對稱密碼技術的挑戰-應答機制是一種典型的數字簽名認證技術,上節中所述證書認證也為數字簽名認證。ISO/IEC將以下協議挑戰-應答機制標準化為數字簽名認證機制的基本結構,簽名算法可以根據實際安全需求進行替換,如替換為聚合簽名算法,則可實現實體身份的批量認證。使用公鑰的ISO兩次傳輸單方認證協議:B A:RB Text1;A B:CertA TokenAB。其中TokenAB=RARBIDBText3ignAR_AR_B
139、ID_BText2,Cert是被認證者的公鑰證書。在收到該消息后,B驗證簽名,若簽名正確,則B認可A的身份。一種典型的證書認證流程如下:客戶端發送登錄請求至服務器。服務器端查詢用戶的有效性,若該用戶有效則生成隨機挑戰R發送至客戶端??蛻舳艘话阋仍诒緳C通過口令字(PIN碼)認證獲取證書中的私鑰文件,并用私鑰對R的Hash值簽名,因為通過Hash函數可以將R規范為固定長度。隨后用戶將簽名值發送至服務器端。服務器端接收到簽名文件后,在數據庫中查詢該用戶的公鑰,檢驗簽名的合法性。若簽名合法,則將認證成功消息返回至客戶端。整體認證流程如圖6-3所示。73(3)所解決的問題數字簽名機制作為保障網絡信息安
140、全手段之一,可以解決偽造(冒充)、抵賴和篡改問題,其能夠抵御的網絡攻擊如下:3)防重放:在數字簽名中,若在簽名報文中添加流水號、時戳等技術,可以防止重放攻擊1)防冒充(偽造):其他人不能偽造對消息的簽名,因為私鑰僅由簽名者保有,能夠找出正確的簽名結果數據。進而,接受方利用簽名驗證可鑒別發送發宣稱的身份,接受方使用返送方的公開密鑰對簽名進行驗簽運算,若簽名有效,則證明對方身份是真實的。2)防篡改(保護信息的完整性):若所簽名或被簽名的消息在傳輸過程中遭到篡改(或破壞),則驗簽無法得到正確結果,從而在公鑰正確地前提下可以確認簽名或消息在傳輸中已經被篡改。4)防抵賴:被通過驗簽的簽名報文可以確認來自
141、于簽名者,可作為追溯證據防止抵賴。此外,數字簽名有大量的不同種類的方案,如聚合簽名、盲簽名、環簽名、組簽名等等,基于不同的數字簽名方案可以實現安全功能多樣的認證協議,如聚合簽圖6-3 證書認證流程74名可以實現群組認證,組簽名可實現組認證但成員匿名等功能。(4)適配性公鑰密碼體制可以很好的解決1對多的問題,在工控系統中可以對大量設備進行統一的身份管理,使用代理簽名等技術還可實現一對多的工業數據安全共享工業控制系統與政務信息系統相同,也是通過網絡技術來實現與外界的互聯互通,在通信建立前或者某外部設備接入到內部網絡時,可根據工業控制系統的安全等級要求,考慮采用基于消息鑒別碼機制,或基于公鑰密碼算法
142、的數字簽名機制進行單向或雙向身份鑒別,并將證書信息存儲于安全介質中,對證書的申請、發放、使用、吊銷等過程通過技術手段嚴格控制,并建立相關制度保障。智能卡也是一種典型的數字簽名認證方案,將用戶密鑰對、CA公鑰、數字證書等存儲在智能卡上能為用戶提供更高級別的安全保障。在認證的同時,復用數字簽名機制等密碼技術對訪問控制信息進行完整性保護,可保證訪問控制信息不被惡意篡改,因此在系統部署方面,基于數字簽名的認證方案是較為方便的。(5)同類技術對比在上節中所述基于PKI及IBC的認證機制均為有證書的數字簽名認證協議。經對比分析,PKI證書的管理過程復雜,對離線應用的支持也不好,而IBC具有特點2的無需分發
143、公鑰的優勢,在用戶的標識符管理上就簡便很多;IBC的應用場景需要對中心無條件的信任,也就是無條件地相信中心不會濫用私鑰,比如組織內部的電子郵件加密系統。PKI在應用中私鑰可以由用戶端產生,中心也無法獲知,因此,互聯網上的電子郵件系統更適合選用PKI;IBC無法在保留原身份標識符的前提下實現用戶密鑰對的撤銷或更新,也就是說換密鑰就需要換用戶標識符。當用戶是物品時,一般只需要知道真偽即可,很少有更換密鑰的需求;但當用戶是人員時,更換人員的身份標識符(比如手機號)是非常不方便的,有時(比如身份證號)甚至是不可行的。因此,IBC更適合物聯網場景下對物品身份真偽的鑒別。同時,為了克服私鑰托管問題,密碼學
144、家2003年首次提出了“無證書(Certficateless)”公鑰密鑰的概念,同樣不需要證書,但也克服了私鑰托管的弊端。無證書公鑰中,實體的公鑰由兩部分組成,除了實體標識符之外,還需要密管中心分75發的一個可公開的個性化參數。其私鑰也是兩部分組成,一部分必須由密管中心產生,另一部分可以由實體自己產生并保存,密管中心無法獲得實體的完整私鑰,可以在密鑰管理中心是半信任時使用。但其基于雙線性對等密碼算法,帶來了額外的計算開銷,在簽密方案中,基于PKI及IBC的簽名方案仍然為主流。但是隨著物聯網技術引入工業控制系統,無證書公鑰密碼的應用日益擴大,成為物聯網密碼應用的潛在解決方案。(6)技術成熟度分析
145、目前基于數字簽名的認證技術擁有標準的協議設計模式,但仍需針對數字簽名算法的功能進行創新設計,有許多具有特殊用途的數字簽名算法被相繼提出,如盲簽名、群簽名、不可否認簽名、代理簽名、門限簽名、失敗-停止簽名及環簽名等,但目前公鑰密碼體制普遍存在計算消耗大等弱點,在橢圓曲線密碼體制提出后有所改善,但提高公鑰密碼算法的計算效率仍是重點研究方向。替換數字簽名算法可以增強認證協議的安全強度及功能性,也賦予了基于數字簽名算法的認證協議更大的發展空間。76(1)定義:數據安全審計是基于用戶在平臺上簽署的合約,對用戶在可信空間管理終端上操作的存證記錄進行審計和核驗,以備用戶違反合約約定的事件發生后,有效地追查責
146、任。(2)作用機理:B.數據審數據安全審計技術的實現,可以拆解為以下四個步驟。A.信息收集信息收集功能實現對指定用戶相關業務的合約信息和日志存證數據的采集匯聚,為數據安全審計提供審計依據。為了更好地支持審計工作,要求數據具有良好的數據結構,數據庫管理系統具有高可靠性和高完整性,數據庫管理系統要為審計的需要設置相應的特性。計數據審計支持人工審計和半自動審計和全自動審計等多種審計方式。數據安全審計人員會定期審計用戶數據操作,確保用戶數據操作都是合法合理合規的。C.審計報告數據安全審計的結果填報到審計管理系統中,并支持輸出審計報告,審計報告根據審計類型的不同分為手動編寫報告、自動生成報告、自動生成+
147、人工改寫等多種方式。審計報告中應明確指出審計中發現的問題,包括審計異常事件類型、安全級別、引發事件的原因、操作的用戶、操作時間、操作類型、操作結果、違反的合同條款等。(七)日志存證和清算審計相關技術77D.異常處置數據安全的審計結果需要進行及時的處置,以確保簽訂合約的有效履行。平臺應根據平臺管理制度和合約簽訂的違約條款在規定時間內進行有效處置。處置方式包括在線自動處置和線下人工處置。線上自動處置:當平臺審計有違規行為發生時,按照合約的規定可以自動執行如:自動關閉進程、自動刪除文件、彈出告警信息、發送告警短信、通知數據提供方、通知平臺管理方等處置措施。線下人工處置:當平臺審計到或接到線上自動發送
148、的告警消息時,需人工介入進行事件調查、責任劃分、違約處罰等處置。(3)所解決的問題:數據安全審計技術主要解決了數據使用過程中異常行為的發現、調查、分析及事后追查處置的全流程管控,為平臺的穩定、合規、可持續運行提供技術保障。78存證至少發生在類似這種環節:數據發送方發送數據時,以及數據接收方接收數據時。其目的顯而易見:為了證明數據傳送行為是真實有效的,防止后期抵賴。因此,存證應具有不可偽造、不可篡改、可回溯等特征,配合審計等手段可為后期糾紛提供有力的法律依據。具體實現時需要結合其他技術(如密碼技術、可信執行環境、區塊鏈等)。具體要求如下:(1)數據提供方在數據加密后發送的時候,存證數據的生成和數
149、據的加密是原子操作,保證不可能用真實數據生成存證數據而將假數據加密后發送出去;(2)數據接收方解密數據的時候,存證數據的生成和結果的解密同樣需要是原子操作,保證不可能解密得到真實數據而用假數據存證;(3)存證信息需要是公開的,但是存證對應的數據是加密的,而且無法利用存證信息反推原始結果;(4)存證信息的校驗需要通過公開可用的工具進行,使得存證校驗的過程具有透明性??梢圆捎帽镜卮孀C和外部存證兩種方式。本地存證由可信計算環境加密后保存在本地,外部存證(輸出數據和計算結果的哈希值)可以存儲在區塊鏈。外部存證可被用于快速解決爭議,最終通過本地存證可完成數據溯源。79存證貫穿數據流通合約的執行全過程:(
150、1)在合約生成階段,合約一旦簽署則意味著正式生效,因此合約生效時一般需要進行存證,起到后期防抵賴、可追溯的作用任務開始時,部署在數據提供方上的可信計算環境與接收方之間建立連接??尚艌绦协h境處理原始數據從而得到一份混淆后的密文信息,用于后續的驗證。接收方收到的只有來自于可信執行環境的信息,因此無法偽造出與發送方不同的輸入數據。最后得到的存證信息又可分兩部分:經過混淆后的數據信息,以及原始數據的密文?;煜蟮臄祿畔⑹枪_的,而且支持公開驗證,而原始數據的密文只有當存在爭議時才需要解密。使用可信計算以及區塊鏈技術(同時借助了對稱密鑰和哈希算法)可以實現前述的四點要求。;(2)在合約計算階段,由于涉
151、及大量數據傳輸,存在多個存證流程節點:數據提供方發送的數據,中間第三方對接收到的數據,中間第三方對傳送的結果數據,以及數據使用方接收到結果數據;(3)在合約結算階段,需要對結算結果進行存證?;诖孀C信息能夠回溯整個合約執行過程,因此在發生糾紛時可對區存證信息進行審計,為法律判決提供依據。80(1)定義多方安全計算技術是一種密碼技術,其源于我國姚期智院士在1982年提出的“百萬富翁問題”,并在1986年被姚院士首次證明,其后由Goldreich、Micali和Widgerson等擴展至多方。多方安全計算技術通常采用秘密分享(SecretSharing)、混淆電路(GarbledCircuit)、
152、同態加密(HomomorphicEncryption)等密碼算法實現,支撐聯合統計、聯合建模、隱私集合求交和隱匿查詢等功能的實現。(2)作用機理數據安全審計技術的實現,可以拆解為以下四個步驟。多方安全計算的安全性和準確性可進行嚴格的密碼學證明,在多個互不信任的參與方之間進行“密文”形式的協同計算,求通用函數F(x1,x2,xn)的結果,其中xi為參與方i私有的輸入數據,F為公開函數。執行時可確保:-對輸入數據的機密性:多方安全計算協議執行過程中,攻擊者無法推斷出任何有關私有輸入數據的信息。-對輸出計算結果的正確性:誠實參與方不會得到錯誤的計算結果。(3)所解決的問題可信工業數據空間的建設,其主
153、要目的是保證來自多個數據源的數據,在空間中安全的共享及融合應用。多方安全計算可解決其中安全和應用的問題:一是多方安全計算具備信息論上的安全性以及完備的理論依據,常被用于個人信息等敏感數據的保護,可滿足空間對數據安全的要求;二是與傳統加密技術相比,多方安全計算技術可對計算過程中的“動態”數據進行保護,有利于空間內數據安全流通;三是多方安全計算可支持多方的信息交換和聯合計算,但是當參與方數量增加時,計算量呈(八)數據增值類服務81爆炸式增長;四是多方安全計算技術可執行各種通用運算,從基本的加法、乘法和比較,到復雜的機器學習算法,可支撐各種工業數據應用。(4)適配性一般認為,多方安全計算第一次的成功
154、實踐是2009年的“丹麥甜菜拍賣”,已有十余年的工程化落地基礎,在金融、醫療等領域,國內外均已有豐富的應用。各技術廠商在私有化部署或云部署,中心化及去中心化部署,專用密碼芯片或一體機等,已在項目落地和產品化上開展了多樣的嘗試,可適配不同的工業數據應用場景。但由于該技術在工業領域的應用還處于初步探索,還需要結合具體場景拓展,并且在算力資源的需求較高。(5)與同類技術的關系/對比分析與原有的明文大數據處理相比,由于多方安全計算是基于密碼學技術,雖然保障了安全性,但其計算效率相較于明文有較大差距。近年來圍繞數據安全共享需求,圍繞密碼學基礎理論、底層協議、分布式計算、系統、算法、編譯、芯片以及軟硬件結
155、合等方面,科研與技術開發人員進行大量的研究,使得多方安全計算技術的性能耗費已低到明文的10到100倍。82(1)定義聯邦學習是一種訓練數據去中心化的機器學習解決方案,2016年由谷歌公司提出,目的在于通過對分布式數據開展訓練學習形成一個高質量的機器學習模型,解決集中算力的需求和數據不出域的問題。聯邦學習的流程為:在符合條件的計算節點集合中挑選出部分節點,分別從服務器端下載當前的模型;被選擇的節點用各自的數據訓練模型;各個節點將訓練好的模型傳輸給服務器;服務器將接收到的各個節點的模型聚合成一個新的模型。不斷循環以上步驟,直至訓練出最終模型。聯邦學習的實質是多節點利用自身擁有數據完成機器學習模型訓
156、練的一種分布式架構,合作節點之間交換訓練中間結果和模型參數,而不交換數據本身,自然而然減少了數據泄露,聯邦學習的中間結果也會泄露數據的部分信息。因此,聯邦學習是人工智能領域模型訓練的一種計算模式,在可信工業數據流通中僅解決模型訓練需要數據匯集的問題,不能解決其他任何數據安全和隱私保護問題。(2)作用機理聯邦學習按照聯合建模的場景需求可分為三類:橫向聯邦主要用于業態相同或相似的雙方間進行樣本聯合;縱向聯邦主要用于業態不同但用戶相同或相似的雙方進行特征聯合;聯邦遷移是遷移學習(TransferLearning)在聯邦學習框架中的應用,主要用于業態和用戶均交集較少的雙方間的遷移學習。由于采用分布式建
157、模的方式,聯邦學習訓練得到的模型與傳統數據集中建模得到的模型相比可能會有一定的性能損失??紤]到實際應用的需求,聯邦學習應該保證與傳統建模相比模型性能的損失足夠小。(3)所解決的問題隨著人工智能技術的發展,機器學習建模和預測等越來越普遍,在建設可信工業數據空間時,可通過聯邦學習相關技術的應用,在保證原始數據不出工業數據供給方本地的前提下,實現共同的機器學習模型訓練,支撐邏輯回歸、決策樹、神經網絡等機器學習算法。83(4)適配性Google采用的橫向聯邦學習一般基于客戶端-服務器(CS)模式,在服務器端融合多個客戶端上傳的梯度數據。而國內通常采用縱向聯邦學習,以直連模式建立兩個機構間的點對點連接,
158、共同進行模型訓練。并且由于聯邦學習主要基于本地的機器學習,因此要求參與聯邦學習的機構應該在其本地具備機器學習相關的數據、算法、計算資源,以及部署相應的聯邦學習平臺。(5)同類技術對比聯邦學習的安全性建立在幾方交換的梯度系信息(或中間計算結果)中,不會暴露原始數據的信任基礎之上。相比于傳統機器學習算法,聯邦學習中各合作節點之間僅交換訓練中間結果和模型參數,而不交換數據本身,自然而然減少了數據泄露。然而已有研究證明,可通過聯邦學習交換的中間計算結果反推或恢復參與方的原始數據,因此在實際應用中,一般會結合如差分隱私、多方安全計算、可信執行環境等技術,對中間計算結果的融合進行保護。84(1)數據模型數
159、據的加工處理方式體現了數據的組織方式以及數據上的相關操作。抽象的說,每一種算法邏輯(或者一段計算機程序)都定義了一個明確的數據加工處理方式。數據模型是基于一些行業或領域經驗并經過一段時間積淀下來的相對成型的數據組織方式或處理方式,而APP就更加成熟和固化,主要針對特定應用。在可信數據空間中,這些算法、數據模型、APP通常涉及開發、認證、上架等活動。在開發環節,基于用戶需求,通過用戶提供的試用數據甚至集成開發環境(IDE)進行開發,保證成品的有效性。開發后一般需要經過專家或檢測認證機構的評測、認證,通過后會有證書。最后是申請上架(如在應用商店APPStore上架),供用戶選擇使用。(2)數據計算
160、無論是哪一種數據加工處理方式,都應該在數據提供方充分授權并與數據使用方達成合約的情況下才能被用于數據計算。按照數據加工處理活動在哪一個參與方上發生,存在以下幾種數據計算模式:(a)數據提供方進行數據計算。計算后將結果發送給數據使用方。(b)數據使用方進行數據計算。數據提供方將數據發送給數據使用方,數據使用方按照合約規定的數據加工處理方式進行數據計算并獲得結果。計算結束后刪除原始數據。(c)數據提供方和數據使用方同時參與計算。(d)委托第三方進行代理計算。一般發生在數據提供方、數據使用方沒有算力基礎、計算效率過低,或者多方數據融合計算的場景(如云計算場景)。在整個數據空間中每時每刻都可能存在大量
161、數據流通,數據計算存在并行現象。因此需要對所有計算任務進行統一調度管理。每次計算完成代表數據流通通過了關鍵環節,相應合約中的數據可用次數等內容應被更新。85(3)數據標識服務數據標識服務主要包括標識分配和標識解析兩大服務類型,一般涉及標識服務方、數據提供方、最終用戶三類角色。標識分配是為數據提供方的數據資產分配唯一標記的過程。一般存在兩種方式:(a)數據提供方向標識服務方提供數據資產描述信息,標識服務方為此數據資產分配一個唯一ID,確定綁定關系并返回給數據提供方;(b)標識服務方為數據提供方預先生成一系列標識集合,數據提供方為自己的批量數據資產逐一分配標識號,并報標識服務方審核確認。標識解析過
162、程由用戶端發起。用戶通過某終端設備(一般配置APP)獲得現場某產品標識(如通過掃碼),并將解析需求發送給標識服務方。標識服務方直接返回標識對應的數據資產信息,或者向數據提供方請求詳細信息后再返回給最終用戶。86結 語雖然鑒于安全性、必要性、回報率和技術成熟度等各方面的因素,目前工業數據流通的場景和實際案例仍然不多,但“數據已經成為繼土地、勞動力、資本、技術之外的第五大生產要素”,數據要素將成為數字經濟時代的核心生產要素,數據要素市場化配置已上升為國家戰略,推動工業數據流通是一種可以預測的歷史趨勢。我國未來數據流通模式將為多主體、多種流通模式共存的模式。首先,數據交易所、數據經紀商、大數據平臺等不同服務主體可靈活接入空間,獲得技術架構一致、面向數據全生命周期管理和控制的標準化服務;其次,不同行業和地區可以根據業務和數據敏感性需求,在空間內構建行業數據空間,從而形成地方樞紐、行業樞紐、龍頭企業樞紐??尚艛祿臻g或將成為未來數據要素市場的核心組成和數字經濟的關鍵數據基礎設施。87