《北京金融科技產業聯盟:數字銀行場景安全技術解決方案研究報告(2023年)(43頁).pdf》由會員分享,可在線閱讀,更多相關《北京金融科技產業聯盟:數字銀行場景安全技術解決方案研究報告(2023年)(43頁).pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、 數字銀行場景安全技術解決方案 研究報告(2023 年)北京金融科技產業聯盟 2024 年 9 月 版權聲明 本報告版權屬于北京金融科技產業聯盟,并受法律保護。轉載、編摘或利用其他方式使用本白皮書文字或觀點的,應注明來源。違反上述聲明者,將被追究相關法律責任。編制委員會 編委會成員:聶麗琴 傅宜生 祖立軍 編寫組成員:張 弛 薛文哲 門小驊 陳思文 趙曉夏 方宇倫 宋鑫晶 張明虎 盧 凱 李勇攀 杜 彪 卞 凱 董 濤 夏雯君 張 游 施生燊 張 宏 勾志營 王炳輝 陳 興 吳小平 王銀燕 黃海燕 李樹尉 彭俊宏 陳 波 官小波 謝世杰 龔孟旭 王李彧 董楊瑞 孫 樂 廖敏飛 吳孟晴 解 敏
2、李裕鵬 施妍萍 郭俊剛 廖靜雅 崔正瑋 嚴青偉 陸紹益 丁偉強 李 浩 鄒長龍 戰 揚 張 藝 李 東 竺鐵生 袁 捷 白 慧 方紹全 曾明華 李金銀 盧科兵 肖 昊 周 丹 秦旭果 焦偉哲 牟健君 薛 濤 張嘉偉 楊增宇 張憲鐸 沈 超 陳 俊 杜錦文 吳 杰 吳承榮 葉家煒 張 亮 謝于明 包德偉 魏啟坤 曹雅琳 岐文鈺 周 楠 楊學治 馮國強 編審:黃本濤 劉昌娟 統稿:薛文哲 參編單位:北京金融科技產業聯盟秘書處 中國銀聯股份有限公司 中國工商銀行股份有限公司 中國農業銀行股份有限公司 中國銀行股份有限公司 中國建設銀行股份有限公司 中國郵政儲蓄銀行股份有限公司 中國民生銀行股份有限公
3、司 上海浦東發展銀行股份有限公司 興業銀行股份有限公司 華夏銀行股份有限公司 中國光大銀行股份有限公司 渤海銀行股份有限公司 廣東省農村信用社聯合社 復旦大學 華為技術有限公司 深圳市聯軟科技股份有限公司 目 錄 一、研究背景.1二、總體研究框架.2三、API 異常行為檢測.3(一)研究背景.3(二)技術實現方案.3(三)測試結果.5 四、場景安全前哨.7(一)研究背景.7(二)技術解決方案.8 五、智能化數據分類分級算法.14(一)研究背景.15(二)技術實現方案.15(三)測試結果.19 六、數據脫敏效果綜合評估體系.21(一)研究背景.21(二)技術實現方案.22(三)測試結果.28 七
4、、基于語義分析的開放文檔格式隱式水印算法.29(一)研究背景.29(二)技術實現方案.31(三)測試結果.33 八、總結和建議.34(一)繼續深入數據安全相關技術及標準研究.34(二)數字銀行場景安全需要加強管理.36(三)加強自律管理完善標準體系.37 附錄:數據安全法律規范.38 1 一、研究背景 中央金融工作會議指出做好科技金融、綠色金融、普惠金融、養老金融、數字金融五篇大文章,強調優化金融服務,防范化解風險,堅定不移走中國特色金融發展之路,推動我國金融高質量發展。數字銀行是基于數字技術的金融創新發展模式,通過數據和服務的共享促進跨界協作與場景互聯,已成為數字金融發展的重要支撐。在拓寬金
5、融服務渠道、豐富金融服務場景、加速數據要素流動等方面具有得天獨厚的優勢。既能通過更全面的“數字足跡”為科創企業、綠色企業、小微企業等降低融資門檻、提升融資效率,也能借助無處不在的“全渠道”服務能力將金融服務延伸到老年人、殘障人士、農村居民等普惠群體身邊,有望在數字經濟時代助力金融服務更廣泛、更深入地融入經濟社會的方方面面。但數字銀行在廣泛連接服務提供主體、場景建設主體、交易發起主體等,客觀上增加了網絡攻擊、數據泄露風險點,擴大了風險傳導范圍,鏈條上任何一方保護存在薄弱環節都可能危及金融資金安全、信息安全。風險主要體現在以下兩個方面。一是一是銀行側銀行側 APIAPI 安全安全風險。風險。API
6、 是目前數字銀行各方互聯的主要形式,隨著銀行對外開放的 API 數量增多、傳輸的數據價值越來越高,銀行 API 已成為攻擊者的重點關注對象。如何準確識別 API 攻擊、有效開展 API 安全防護以規避以上風險,已經成為數字銀行安全合規發展亟待研究的課題。二是二是應用側應用側數據安全風險。數據安全風險。在數字銀行業務中,銀行需在用戶授權下與應用方進行敏感數據交互,但通常情況下應用方并不 2 是持牌金融機構,不具備金融級的數據安全防護、合規處理能力,無法確保數據處理過程符合監管要求。少數情況下,部分應用方甚至將數據分享給其他第三方而造成銀行數據泄露,為數字銀行業務開展帶來挑戰、為銀行聲譽帶來負面影
7、響。二、總體研究框架 面對上述問題,亟需凝聚行業合力共同構建數字銀行安全“防火墻”,護航數字銀行發展行穩致遠。本研究課題旨在研究一系列創新技術能力,保障數字銀行的 API 安全、數據安全,主要包含銀行側的 API 異常行為檢測等安全技術,應用側的數據分類分級、數據脫敏、數字水印、安全前哨等數據保護技術(如圖 1所示)。截至發稿,本研究報告涉及的 API 異常行為檢測(內容異常、序列異常)、數據分類分級、數據脫敏、數字水印均已完成原型實現和驗證,安全前哨完成技術方案。配合技術研究成果,目前課題組正同步開展相關技術的標準規范研制(截止本研究報告發稿,已完成金融 API 安全防護體系評估指南初稿)。
8、以標準為基礎,銀聯既可以為相關技術提供檢測認證服務,也可以作為數字銀行業務的轉接方,為行業各方提供可靠的安全技術能力,保證整個交易鏈路的安全性。3 圖 1 總體研究框架 三、應用程序接口異常行為檢測(一)研究背景(一)研究背景 從全球銀行業數字化轉型發展來看,應用程序接口(API)是商業銀行探索新金融服務模式的主要方式,第三方通過銀行開放的 API 實現數據共享,基于銀行的基礎設施、產品和服務,在自身應用和場景中嵌入金融服務,以更好地滿足客戶需求。然而,銀行現有的 WAF 和 API 網關等傳統安全控制手段由于不了解 API上下文并且不以正常的 API 使用為基準,通常難以對未知的、不可預測的
9、攻擊模式提供安全防護。針對上述挑戰,本章節提出基于自動編碼器模型的 API 異常內容檢測方法,以及基于注意力機制的雙層長短期記憶(Long Short-Term Memory LSTM)網絡模型對 API 的調用序列進行異常檢測方法,商業銀行可從原始的用戶訪問日志中提取用戶會話內容與 API 調用序列,利用下述技術方案訓練可靠的異常檢測模型,檢測用戶會話行為是否存在異常,以提升銀行開放網關的安全能力。(二)技術實現方案(二)技術實現方案 1 1APAPI I 異常內容檢測異常內容檢測模型模型 使用深度學習模型可以更好地處理復雜的、非線性的數據模式,并能夠自動地、自適應地學習數據中的特征,不需要
10、人工預設規則或特征。因此,課題組提出了一種基于自動編碼器的 API異常內容檢測方法。方法利用數據重構的思想設計模型,能自動學習日志參數的壓縮表征,并通過正負樣本的驗證進行分界點的 4 動態劃分,最后根據分界值進行異常日志參數的識別。此外,對于半結構化的日志,本方案采用基于 Drain1的日志分析算法生成結構化的日志數據文件和模板文件。方案能有效解決包括但不限于以下異常事件:影子參數、請求方法異常、過度數據暴露等,從多維度保證了系統的穩定性、安全性,幫助提高性能降低風險。模型構建要點如下:一是基于 Drain 的日志模板抽?。和ㄟ^日志切分、分詞、序列化、頻繁項集挖掘算法、模板合并、日志映射,從大
11、量的原始日志事件中識別出共同的結構,將半結構化日志文件轉換為結構化的模板文件。二是類型粒度的多模態數據表征策略:按照數據的種類對字段進行劃分,將連續數值型、離散數值型、文本型的異構字段值統一轉換為向量形式。三是基于自動編碼器的自動化壓縮表征學習:通過編碼器(Encoder)和解碼器(Decoder)將樣本數據先映射到低維空間再還原到高維空間,最小化重構誤差使模型學習到準確的壓縮表征以便更好地捕捉數據的特征和結構。四是動態分界點劃分:構建正負樣本驗證集,進行模型校驗,并根據正負樣本的重構誤差中間值動態生成誤差分界值,從而實現對不同日志定制化的閾值學習。五是支持流水線自動運行,方案可復用性高:流程
12、全自動化,無需配置,輸入日志即可生成模型。支持對流數據的準實時判斷,1 Drain 指的是一種日志解析算法。Drain 算法是一種用于日志分析的技術,它可以將大量的日志數據聚合在一起,并通過歸類和過濾來發現錯誤和異常事件。Drain 算法主要分為三個階段:消息模板提取、消息聚類和消息推斷。這個算法能夠從原始日志中提取出結構化的模板,并將變化的部分用通配符代替,從而有效地識別和提取日志中的模式和異常 5 可以在不同行業不同業務的日志中遷移復用。2 2APIAPI 異常序列檢測模型異常序列檢測模型 課題組提出了一種基于自注意力機制的雙層 LSTM 序列異常檢測方法。通過對歷史日志中 API 接口調
13、用順序的學習,模型可以實時檢測出日志流中的異常序列調用,有效規避了開發過程中可能存在的未授權訪問漏洞危害,讓攻擊者無法不遵循業務邏輯的調用順序訪問應用,從而降低了調用路徑異常的業務邏輯風險。模型構建要點如下:一是滑動窗口式序列生成策略:將序列按設定的時間窗口劃分形成多個子序列,依次輸入包含門結構和記憶單元的網絡,對序列的長短期信息進行自適應學習。二是高維表征生成策略,長短期依賴信息動態平衡:將序列按時間步劃分,映射到高維空間,通過包含門結構和記憶單元的網絡雙層疊加效果,高度抽象序列中的深層次特征信息。三是重點信息自動聚焦:對序列的高維表示采用自注意力機制,即每個接口都需要計算與前后接口的關聯度
14、,在一定時間只關注與當前接口更相關的接口,大大增加了捕捉長距離依賴信息的能力。四是支持手動配置異常容忍度,方案可復用性高:通過配置預測候選集大小可以手動調節異常的容忍度,以上流程程序化,支持不同業務日志的遷移復用。(三)測試結果(三)測試結果 課題組根據以上技術方案開發了原型程序,并在銀聯沙箱環境中測試驗證。首先,選取 100028 條網關應用系統上正常的用 6 戶訪問日志,經過特征提取和會話匯聚后共得到 17609 個有效的會話記錄進行評估,作為正常樣本。為了進一步開發和驗證模型,使用 Postman2對 API 進行手動攻擊測試,模擬包括爬蟲、鑒權、SQL 注入、API Ddos 攻擊等
15、API 攻擊檢測場景,將網關上記錄到的日志作為異常樣本。在這些樣本中隨機挑選 80%的正常樣本數據作為訓練集,各 10%的正常樣本和 50%異常樣本作為驗證集、測試集。根據實際場景需求,基于自動編碼器的 API 異常內容檢測模型對單 API 進行模板挖掘和關鍵參數閾值學習,從 http 方法(get、post)、主機域名(Host)、訪問路徑(path)、訪問參數(url parameters、post body)等維度自動學習日志參數,能成功檢測未知參數異常、請求方法異常、訪問路徑異常等內容異常,測試準確率3為 99.52%,召回率4為 99.28%,F1-score5為99.40%?;谧?/p>
16、意力機制的雙層 LSTM 網絡模型基于會話的 API 序列基線,對一次完整的 API 會話行為的時間、序列、交互信息進行異常檢測,測試準確率為 91.045%,召回率為 88.4%,F1-score為 89.706%。測試結果顯示,課題組研制出的 API 異常行為檢測算法,實現了在 API 內容數據與調用序列層面識別異常風險,解決傳統方式中規則庫需要不斷更新維護的問題,降低了誤報漏報率,能夠保障數字銀行開放 API 的安全。2 Postman 是一個功能強大的工具,它不僅可以用于 API 的開發和測試,還可以用于 API 的安全性測試和驗證。3 準確率表示的是所有預測異常中真實異常的百分比,用
17、于衡量模型的查準能力;4 召回率測量的是所有異常中真實異常的百分比,用于衡量模型的查全能力;5 F1-score 為查準率與召回率兩者的諧波平均值,用于衡量模型的查全查準能力。7 四、場景安全前哨(一)研究背(一)研究背景景 在數字銀行業務中,銀行將數據通過開放 API 的方式傳輸給應用方。根據商業銀行應用程序接口安全管理規范應用安全責任章節要求“應用方不應將通過商業銀行應用程序接口獲得的金融服務能力與數據以任何方式轉移、共享或分包給其他第三方”。為保證數字銀行業務合規,商業銀行在與應用方開展業務時,應確保應用方有意識和能力履行數字銀行數據防泄漏及其他數據安全和隱私保護的要求。目前各商業銀行大
18、多通過協議約定的方式,要求應用方執行數據安全的相關要求,但是銀行對應用方的實際執行情況缺少有效審查。少部分銀行會安排分行對應用方進行定期巡檢,但是一方面,分行本身就是業務拓展方,又要做安全審計,無法平衡各方利益;另一方面,定期巡檢也不是常態化的監控手段,且對巡檢人員的專業性要求極高,分行員工往往難以執行到位。為了有效解決商業銀行在開展數字銀行業務中面臨的數據安全困境,課題組提出數字銀行場景安全前哨的概念,希望通過技術手段配合管理制度,降低銀行在開展數字銀行業務的數據安全合規風險。數字銀行安全前哨是部署在應用方的數據安全系統。為保障數據在應用方的安全性與合規性,安全前哨監控并記錄應用方對銀行數據
19、的訪問、存儲、使用、傳輸的全過程。借助應用方在風險第一觸點的優勢,安全前哨可以建立起數字銀行數據安全的關鍵防線。安全前哨兼具了傳統企業 DLP 解決方案的基礎功能,在以下 8 方面更加精準地適配了數字銀行的合規要求:一是安全前哨是銀行對應用方數據合規的監控設備,它的安全控制策略需要經過銀行審核和檢查,應用方的風險事件自動向銀行報告;二是安全前哨基于金融數據分類分級技術底座,針對不同數據類別、敏感等級配置精細化的管控策略;三是安全前哨實現對數字銀行共享數據在接收、存儲、處理多環節、多系統交互過程的數據防泄漏,可封禁或監控的泄露點范圍更加全面。商業銀行可向相關廠商采購符合技術標準要求的安全前哨解決
20、方案產品,并部署于與其開展業務合作的應用方。對于一些自身有較強數據安全技術能力的應用方,商業銀行也可要求其依據技術標準升級自身安全策略,以滿足數字銀行業務的數據安全要求。(二)技術解決方案(二)技術解決方案 1.1.整體技術框架整體技術框架 應用方對數字銀行數據的處理架構可以抽象為數據接收、數據存儲、數據處理三個環節,各處理環節間明文傳輸數據,安全前哨整體技術框架見圖 2所示:9 圖 2 場景安全前哨技術方案 數據接收端:通常是應用方的 API 客戶端,可以從銀行開放API 接收數據,并發送到數據存儲端保存,或發送到數據處理終端做數據分析。數據接收端需要關閉數據接收端主機除網絡之外的其他物理外
21、發通道,如 USB、串口等,且接收數據和發送數據需要記錄操作日志并上傳日志審計模塊。數據存儲端:通常是應用方的數據庫系統。數據存儲端需要記錄具體的數據操作日志(如:XX 時間 XX 賬號對 XX 數據進行了增/刪/改/查的操作)并上傳日志審計模塊。根據數據敏感級別和業務訴求,在一些業務中應用方可能不存儲數據,此時數據接收端直接將數據發送至數據處理端做業務處理(如向用戶展示)。數據處理端:通常是應用方的業務系統或個人電腦,能夠訪問和操作(增刪改查)數據庫中的數字銀行數據。數據處理終端需要針對處理的數據敏感等級進行分級管理,需要關閉主機上除網絡之外的其他物理外發通道,如 USB、串口等,需要對數據
22、處理過程記錄操作日志(如:XX 時間對 XX 類型數據做了 XX 處理 10 并發送給 XX 對象,數據量 XXM)并上傳日志審計模塊。終端分級管理要求如表 1所示:表 1 終端分級管理及安全措施 終端安全等級 可處理的數據等級6 安全措施 一級 1 級 確保終端滿足最基本的安全保護要求。確保終端滿足最基本的安全保護要求。安全基線:補丁更新檢測、防病毒安裝與更新檢測、木馬查殺軟件安裝與更新檢測、弱口令、共享目錄、Guest 賬號。二級 1-3 級 監控所有外發數據行為。監控所有外發數據行為。安全基線:補丁更新檢測、防病毒安裝與更新檢測、木馬查殺軟件安裝與更新檢測、弱口令、共享目錄、Guest
23、賬號。文件操作監控:支持對文件的讀取、寫入、復制、剪切、刪除、另存為、新建、重命名的動作進行記錄;即時通訊外發文件監控:支持 QQ、企業 QQ、微信、企業微信、釘釘,飛書、skype 等外發文件的行為記錄。Email 發送文件監控:支持記錄 email 外發文件行為(文件路徑、發件人、收件人、抄送人)。阻斷外部連接:禁止光驅、優盤、藍牙、紅外、FTP 等網絡共享、網盤上傳等。泄露溯源:截屏水印、打印水印、屏幕暗水印。剪切板監控:復制粘貼模式下,可記錄源文件的設備類型、文件類型、路徑、文件名、文件大小和目的文件的設備類型、路徑。三級 1-5 級 使用文件沙箱隔離數字銀行敏感數據。使用文件沙箱隔離
24、數字銀行敏感數據。具備文件沙箱功能:文件沙箱具備落地文件加密、內外網絡隔離、剪切板隔離、進程保護、屏幕水印等安全保護等能力。數字銀行數據文件下載到終端后即被加密,只可在沙箱里被讀取、編輯或者其他處理。沙箱保護的數據外發需要經過嚴格審批。場景安全前哨由如下功能模塊組成:數據分類分級:數據分類分級管理是數據安全的基礎,此功能模塊將數字銀行數據依據 金融數據安全 數據安全分級指南(JR/T 0197-2022)進行標準化的分類分級,幫助應用方實現數據的精細化管控,如更準確的安全級別防護。6 根據行標金融數據安全 數據安全分級指南 11 數據脫敏:安全前哨可以根據配置的安全管理策略,對數據進行智能脫敏
25、,幫助應用方在滿足業務訴求的前提下進行適度脫敏的要求。數字水?。喊踩吧谥С譃殂y行數據添加數字水印,可以在發生數據泄露后進行溯源追責。流量分析:由于安全前哨需要支持多系統數據防泄漏的能力,因此確定網絡關系并能清晰洞察系統運行過程中的網絡變化至關重要。流量分析支持檢測網絡通道、對端系統是否符合業務預先設定的配置。日志審計:日志審計通過全面收集數據接收、存儲、處理各系統的操作日志(包括運行、告警、操作、消息、狀態等)并進行存儲、審計、分析,能記錄并顯示數字銀行數據的每一步操作和流動狀況,并發現潛在安全事件與安全風險。同時,日志審計模塊會將日志的哈希值實時上傳至銀行并保存最近 180 天的哈希值,以
26、確保應用方日志的完整性和真實性。行為檢測:基于用戶長期行為進行畫像,通過偏離畫像的異常行為發現數據處理人對數據的異常訪問。文件沙箱/防泄露插件:二級終端需要安裝防泄漏插件,插件監控所有外數據行為。三級數據處理終端需要安裝文件沙箱,下載數據強制保存在沙箱。沙箱與本地環境隔離,加密存儲,杜絕拆卸硬盤、PE 啟動系統惡意拿走數據。應用網關:安全前哨通過應用網關實現數據庫的訪問控制。應用網關會校驗終端用戶身份和環境,符合要求的終端才能通過應用網關代理訪問數據庫,達到“讀取數據先裝插件,不裝插件 12 數據庫隱身”的效果??刂婆_:由銀行指導應用方配置安全前哨各功能模塊的執行策略。2 2.應用方數據處理流
27、程應用方數據處理流程 1 1)數據接收端:數據接收端:一是流量分析模塊配置數據接收端合法連接(如數字銀行、應用方數據庫等業務系統)的 IP 段和 port7信息作為白名單。二是 API 客戶端插件持續監控主機上物理通道使用情況,并上傳日志信息給日志審計模塊。日志審計模塊判斷是否有被禁物理通道向外部傳輸數據,如有,則記錄告警日志。三是流量分析模塊通過交換機鏡像流量采集報文信息,如時間、報文數、字節數、目的 IP、Port 等,并對報文負荷做敏感數據識別,獲取數據類型、數據安全級別等信息上報給日志審計模塊。四是日志審計模塊對報文信息和安全信息進行檢測,判斷報文目的 IP 和 port 是否在白名單
28、范圍內,如否,則記錄告警日志。五是日志審計模塊分析接收流量的業務系統是否接收了超過本系統安全等級的數據,如是,則記錄告警信息。2 2)數據存儲端:數據存儲端:一是日志審計模塊收集各終端插件上報的終端 IP 及授權安全等級。二是流量分析模塊通過交換機鏡像流量采集報文信息,如時間、報文數、字節數、目的 IP、Port 等,并對報文負荷做敏感 7 port 指的是計算機網絡通信中的端口號 13 數據識別,獲取數據類型、數據安全級別等信息上報給日志審計模塊。三是日志審計模塊對報文信息和安全信息進行檢測,判斷報文目的 IP 和 port 是否在白名單范圍內,如否,則記錄告警日志。四是日志審計模塊分析接收
29、流量的業務系統是否接收了超過本系統安全等級的數據,如是,則記錄告警信息。3 3)數據處理端:數據處理端:一是數據處理終端通過應用網關接入數據庫獲取數字銀行數據,數據出庫時根據數據處理終端的用戶身份添加對應水印。對于三級管控終端,獲得的數據需要保存在文件沙箱。二是數據處理終端插件持續監控主機上物理通道使用情況,如發現被禁物理通道向外部傳輸數據,則作為告警日志上報給日志審計模塊。三是數據處理終端插件持續監控終端對數字銀行數據的操作,如郵件外發、即時通訊、文件改名、進程訪問及進程使用的IP/Port 等,并上報終端行為日志給日志審計模塊。四是流量分析模塊通過交換機鏡像流量采集報文信息,如時間、報文數
30、、字節數、目的 IP、Port 等。五是對非加密流量,流量分析模塊對報文負荷做敏感數據識別,獲取數據類型、數據安全級別等信息上報給日志審計模塊;對于加密流量,根據源 port 確定是哪個進程,把本次進程外發信息上報給日志審計模塊。六是日志審計模塊分析數字銀行密級數據報文是否發送給 14 了合法接收人(外網,無權限內網終端),如否,則記錄告警日志。七是日志審計模塊分析目的終端接收了超過本終端安全等級允許接收的數據,如是,則記錄告警日志。八是日志審計模塊長期收集數據操作行為進行數據泄露行為建模。如終端行為日志偏離模型基線,則記錄告警日志。3.3.自身安全措施自身安全措施 為了保證安全前哨的正常運行
31、,安全前哨需要連接數字銀行服務方的 IT 系統定時通報運行情況。連接需要通過 https 雙向SSL 證書認證,上報數據執行兩個原則:一是監督安全前哨在應用方的正常運行情況并上報一些嚴重的異常事件。二是上報異常事件不應泄露應用方敏感信息,比如只上報發生時間、事件類型,不上報具體數據、人員、設備等信息,包括但不限如下內容:定時心跳,每隔 1 小時上報一次。日志 hash 數據。安全前哨和銀行的網絡連接被中斷。安全前哨的運行被中斷,比如斷電等。終端插件的運行被中斷,比如被卸載、進程被殺死等。嚴重數據泄露行為事件。違禁端口被打開,如 API 客戶端所在服務器或者終端上的 USB、串口被打開。五、智能
32、化數據分類分級算法 15 (一)研究背景(一)研究背景 數據分類分級管理是數據安全的基礎。只有在準確識別數據類別及其安全級別的前提下,才能進一步明確數據保護對象,有的放矢地處理數據,避免數據保護資源的浪費?,F有數據分類分級方法主要存在如下三方面局限:一是采用傳統人工定級的方法,通常參與人員多,耗時周期長;二是基于預置規則的自動化分類分級方法,受專家知識和歷史數據的限制,分類規則較少,覆蓋度和識別準確率不高;三是現有數據分類分級方法的拓展性不高,處理多源數據的能力較差。例如,不同機構的數據字典往往各不相同,造成同一數據在不同機構和不同業務系統中命名不同的普遍現象。由于各機構數據字典一般不對外公開
33、,預置一個全面整合所有機構的數據規則是不現實的。如何構建一個相對完整、合規的分類分級規則庫,并且能夠在處理多源數據中自動拓展規則庫,從而持續提升數據分類分級的性能和準確率,是現有數據分類分級方法迫切需要解決的技術難題。課題組提出了相較于主流水平更加完善的敏感數據分級分類規則庫,其優勢是聯合行業各方共享共建,規則庫更全、準確率更高。數字銀行的參與方如商業銀行、應用方,可在數據傳輸、存儲、處理等全生命周期實施統一的數據分類分級管理,更好地落實數據安全監管要求。(二)技術實現方案(二)技術實現方案 算法主要包括三大模塊:分類分級規則庫的構建模塊、數據識別模塊以及自動增廣模塊。16 1 1數據分類分級
34、規則庫構建模塊數據分類分級規則庫構建模塊 為保證規則庫在金融行業的合規性和普適性,依托人民銀行制定的行業標準金融數據安全 數據安全分級指南(JR/T 0197-2022)構建規則庫。該標準根據金融業機構數據安全性遭受破壞后的影響對象和所造成的影響程度,將數據安全級別劃分為 5 級。重要數據以及一旦安全性遭受破壞將直接影響到國家安全、社會秩序、公眾利益與金融市場穩定的金融數據,其安全等級應不低于 5 級。該標準中的附錄 B 給出了“金融業機構典型數據的定級規則參考表”,包括 4 個一級子類、13 個二級子類、71 個三級子類和 279 個四級子類。我們利用文本挖掘技術從四級子類的內容描述中提取規
35、則庫的規則名稱。例如,四級子類“個人基本概況信息”的安全級別為 3,從其內容描述“指個人基本情況數據,如個人姓名、性別、國籍.”中提取出姓名、性別、國籍三個規則,三個規則對應的分類設置為個人基本概況信息、安全級別設置為 3 級。將文本挖掘的所有規則組合在一起就構成了數據分類分級規則庫,結構如表 2所示。表 2 數據分級分類規則庫示意 規則編號 規則名稱 數據分類 安全等級 特征項 敏感詞 關鍵詞 除了“規則名稱”“數據分類”“安全等級”三個參數外,為提高數據識別的效率,規則庫還設計了三個參數:(1)“特征項”即規則的特征,比如規則“入學日期”“畢業日期”“證件生效日期”擁有共同的特征項“日期”
36、;(2)“關鍵詞”用于匹配結構化數據中的字段名,命名相對規范;(3)“敏感詞”用于定位非結構化數據中的敏感信息。17 對于數據形式具有明顯規律的特征項,進一步構建了特征項庫,結構如表 3所示。其中,“正則項”是用于匹配該特征項的正則表達式;“字典”是用于匹配該特征項的詞典的名稱,如機構名稱詞典、銀行名稱詞典等;“校驗和”是一個布爾值,用于說明該特征項是否有公開的校驗函數,例如身份證的校驗。表 3 特征項庫示意 特征編號 特征項名稱 正則表達式 特征詞典 校驗和 2 2敏感數據識別模塊敏感數據識別模塊 敏感數據識別模塊在規則庫、特征項庫的基礎上,借助命名實體識別(Named Entity Rec
37、ognition,NER)模型識別敏感數據,最終輸出敏感詞、敏感類別和敏感等級。金融敏感數據分類分級的流程如圖 3所示。圖 3 分類分級規則庫處理流程 當待識別的數據字段與規則庫的中的關鍵詞不直接匹配時,18 參考文獻 Shen et al.(2019)8和何文竹(2009)9通過構建分類器計算待識別數據字段隸屬不同規則的概率(公式 1)和離散信息量(公式 2),綜合判斷其對應的規則類別。公式中:關鍵詞集為Si,候選詞為tij,q()是集合的量化函數,()是 sigmoid 函數。0 P(x)1,P(x)=1xA,P(x)是每個離散信息發生的概率 算法中的 NER 模型包括三步:特征表示、特征
38、編碼和標簽解碼。其中,特征表示采用的是 word embedding(Word2Vec),特征編碼采用的是雙向長短期記憶網絡(Bi-LSTM),標簽解碼是采用的是條件隨機場(CRF)。3 3利用利用 NLPNLP 技術的增廣模塊技術的增廣模塊 為解決同一數據命名不同(比如薪水可以被命名為薪資、薪酬、工資等多種方式)、存在縮略詞以及特征詞典覆蓋面不全等造成的規則匹配困難的問題,提出了基于同義詞庫、基于上下文語義和基于模式的規則庫自動增廣技術(如圖 4所示)。綜合三種方法來實現規則庫在面對多源數據時規則的自動增廣,極大節省人工拓展規則的成本。8 Shen,J.,Lyu,R.,Ren,X.,Vann
39、i,M.,Sadler,B.,&Han,J.(2019,July).Mining entity synonyms with efficient neural set generation.In Proceedings of the AAAI Conference on Artificial Intelligence(Vol.33,No.01,pp.249-256).9 何文竹.敏感數據的智能識別算法及自適應保護模型研究.2020.(碩士論文,貴州大學).(公式 1)(公式 2)19 (a)基于同義詞庫基于同義詞庫 (b)基于上下文語義基于上下文語義 (c)基于模式基于模式 圖 4 規則庫自動增
40、廣方法 算法設計中用到的同義詞庫包括:公開的金融數據集,如監管機構提供的統計數據中的字段名、銀行公開的接口信息,哈工大詞林擴展版和 HowNet10。同義詞增廣簡單便捷,但是忽略了詞匯所在語料的上下文信息,基于語義相似度的詞向量法可以彌補這一不足。詞向量是將文本特征映射為數值向量的函數映射關系,從而將詞匯之間的相似性通過詞向量間的距離體現。算法設計中主要用到的是 word2vec11實現對規則的增廣。另外,對于專業詞匯,算法設計了基于模式的增廣方式,即構建種子詞集挖掘本名和別名在百科語料庫中出現的模式,生成模式集,再通過模式集去語料庫中挖掘新的本名別名詞對,如此反復迭代達到增廣的目的。(三)測
41、試結果(三)測試結果 課題組根據以上技術方案開發了原型程序,并聯合工行(涉及技術部、軟件開發中心兩個部門)、農行、建行、中行、郵儲、民生、廣東農信進行了測試驗證,測試數據類別廣泛覆蓋銀行存 10 HowNet 是指一個大規模的中英文雙語語義知識庫。11 word2vec 是一種用于生成詞向量的技術。它通過在大規模文本數據上訓練神經網絡模型,將單詞轉換為高維空間中的向量表示,這些向量能夠捕捉單詞之間的語義和語法關系。20 款、貸款、外匯的業務數據、經營數據、監管數據以及用戶敏感信息等多種數據類別,測試情況具體如表 4 所示:表 4 部分銀行測試結果 銀行 測試場景 數據量 測試結果 中國工商銀行
42、(一輪)個人征信平臺:客戶數據、貸款等業務數據、經營管理數據、監管數據 總字段 192 準確率91.67%召回率92.31%中國工商銀行(二輪)銀企數據、繳費數據、銀證數據、客戶數據,票據數據、國庫數據、ALTAS 支付數據 總字段 894 準確率90.9%召回率95.5%中國銀行 外匯數據、存款數據、卡數據、進口數據 總字段 248 準確率88.9%召回率=100%郵儲銀行 用戶訂單交易數據、合作方數據等 總字段 108 準確率95%召回率95%廣東農信 客戶數據 總字段 389 準確率=100%召回率98.73%中國建設銀行 客戶認證數據 總字段 98 準確率=100%召回率=100%中國
43、民生銀行 貸記來賬表、客戶金融資產信息表,投保人信息表 銀行測試,未反 饋 具體 測試數據信息 準確率90%召回率90%中國農業銀行 貸款申請人信息,繳費記錄、交易記錄 銀行測試,未反 饋 具體 測試數據信息 準確率90%召回率90%測試結果顯示,課題組研制的敏感數據識別算法(目前支持1000 個以上的字段類別)能廣泛識別銀行各種數據類型,且測試準確率(除中行外均在 90%以上)、回調率(均在 90%以上)基本能達到 90%以上的理想水平,屬于行業領先水平。從性能上來看,識別具有 150 個數據字段、20000 條記錄的數據集,耗時約為 500 秒,性能高低主要是受數據集中數據字段規模大小的影
44、響,如圖 5 所示。21 圖 5 數據分類分級識別性能 六、數據脫敏效果綜合評估體系(一)研究背景(一)研究背景 數字銀行的業務和產品中產生了大量包含個人敏感信息的數據,根據GB/T 35273-2020 信息安全技術 個人信息安全規范JR/T 0197-2020 金融數據安全 數據安全分級指南等標準對數據安全的要求,在對數據進行使用時需要對個人信息進行去標識化處理,通過脫敏等算法或規則進行數據的變形,保護隱私數據的安全。然而上述規范僅要求在特定場景下做數據脫敏,但沒有對脫敏的程度進行明確要求。從行業調研來看,銀行內對數據脫敏算法已有了較充分的工作投入與技術儲備,但還缺少多維度的評價方法來對脫
45、敏的效果進行評估。不同使用場景和不同用戶對數據使用的業務需求與安全需求也不盡相同。使用數據的業務方期望在滿足合規要求下只經過低程度的脫敏處理,不希望復雜的脫敏導致數據不可用;管理數據的技術方期望確保數據安全,最好能徹底脫敏,完全不能識別出個人。這是數據可用性和數據安全性之間的權衡,也是業務方與技術方之間的權衡。由于目前業界主要是對匿名化數據的重識別風險進行研究,缺少能夠對去標識化 22 信息進行差異化評價的、多維度的綜合評價脫敏效果的量化的方法體系。針對上述挑戰,本課題提出一種數據脫敏效果評估的方法,從有效性、安全性、可用性與合規性四個維度定量評估,結合了量化距離計算、重識別風險模型與數據集信
46、息論模型等,幫助數字銀行業務的參與方如商業銀行及應用方實現對數據脫敏效果進行定量評估,在平衡業務需求和安全需求下選擇合適的脫敏算法對數據脫敏。(二)技術實現方案(二)技術實現方案 本方案綜合考慮對數據脫敏的目的與可能的數據挖掘使用目的,設計了包含有效性、安全性、可用性與合規性四個維度定量評估體系。從有效性維度評估脫敏效果可以衡量脫敏算法對數據集的處理程度,從安全性維度評估脫敏效果可以衡量數據集的個人身份信息泄露風險,從可用性維度評估脫敏效果可以衡量經過脫敏后的數據集可使用價值,從安全性維度評估脫敏效果保障滿足相關法律法規要求。以上四個維度的評估指標能更好地幫助企業在不同的業務場景下與合規要求下
47、選擇適合的脫敏算法,對數據進行監控與管理。1 1數據脫敏有效性評估指標數據脫敏有效性評估指標 數據脫敏是對敏感數據進行變形處理,其目的是保護隱私數據等信息的安全,因此定義數據脫敏的有效性為數據敏感性的去除程度。通過量化評估字段數據項差異進行評估,計算得到的距離越大,代表脫敏程度越大。例如同樣對手機號使用掩碼算法進行脫敏,掩蓋后四位和后八位所得到的數據涵蓋的敏感性并不相 23 同。為了量化脫敏前后數據字段間的距離,針對不同脫敏算法及字段類型本方法提出了基于萊文斯坦距離的脫敏程度量化、基于漢明距離的脫敏程度量化、基于泛化樹的脫敏程度量化、基于差值的脫敏程度量化與基于公共子序列的脫敏程度量化,有效性
48、指標的計算流程如圖 6所示。圖 6 有效性指標計算流程 本方法中針對字段的差異性評估方法如表表 5 5所示,對于每個字段的計算結果均進行了歸一化以提高可比性,計算結果越接近1,代表字段的脫敏程度越大,反之越小。表表 5 5 脫敏效果有效性評估方法脫敏效果有效性評估方法 脫敏算法脫敏算法 字段類型字段類型 Y Y 有效性評估方法有效性評估方法 掩碼 結構化字符串/非結構化字符串:姓名,號碼,郵箱,地址 Dis=漢 明 距 離(x,y)/len(x)取值范圍 01 局部混淆/隨機替換 結構化字符串/非結構化字符串:姓名,號碼,郵箱,地址 Dis=漢 明 距 離(x,y)/len(x)取值范圍 01
49、 替換/重寫/加密 標簽類數據:證件類型 Dis=萊文斯坦距離(x,y)/len(x)取值范圍 01 泛化 數值類型:重量,數量,金額 Dis=泛化后(right-left)/原數據集(max-min)非結構化字符串:職位,街道 脫敏時定義好泛化規則和距離計算規則(利用泛化樹)偏移 數值類型:重量,數量,金額 Dis=|num1-num2|/num1 取值范圍 01 日期類型:日期,期限 Dis=1-最 長 公 共 子 序 列/len(x)取值范圍 01 取整 數值類型:重量,數量,金額 Dis=|num1-num2|/num1 24 一是基于漢明距離的脫敏程度量化 針對脫敏前后數據長度未改變
50、的結構化或者非結構化數據類型,通過遮蓋或者改變替換原信息的脫敏情況設計了基于漢明距離的脫敏有效性評估。漢明距離(Hamming distance)為兩個等長字符串之間的漢明距離是兩個字符串對應位置的不同字符的個數??梢栽u估字符串類型數據的脫敏程度,計算公式如(公式 3)所示:(,)=()(公式 3)其中 x 為 i 位脫敏前的字段,y 為 i 位脫敏后的字段,length為計算字符的長度,代表異或計算。二是基于萊溫斯坦距離的脫敏程度量化 針對脫敏前后數據長度改變的結構化或者非結構化數據類型,通過替換等方法改變原信息的脫敏情況設計了基于萊文斯坦距離的脫敏有效性評估。萊文斯坦距離(Levensht
51、ein Distance)為兩個字符串之間萊文斯坦距離指的是將一個字符串變為另一個字符串需要進行編輯操作最少的次數。其中,允許的編輯操作有替換、插入和刪除??梢栽u估字符串類型數據的脫敏程度,計算公式如(公式 4)和(公式 5)所示:(,)=,(,)()(公式 4)取值范圍 01 日期類型:日期,期限 Dis=1-最 長 公 共 子 序 列/len(x)取值范圍 01 規整 數值類型:重量,數量,金額 Dis=泛化后(right-left)/原數據集(max-min)25 ,(,)=max(,)min(,)=0,(1,)+1,(,1)+1,(1,1)+1()(公式 5)其中 x 為 i 位脫敏前
52、的字段,y 為 j 位脫敏后的字段,length為計算字符的長度。三是基于泛化樹的脫敏程度量化 對于使用泛化進行脫敏的數值類型字段設計了計算其泛化后區間占比的方法進行有效性評估。對于使用泛化進行脫敏的非結構化類型字符字段設計了基于泛化規則構建泛化樹的有效性評估方法,計算公式如(公式 6):(,)=(,)(公式 6)其中 x 為泛化前字段,y 為泛化后字段,i 和 j 對應 x 和 y在泛化樹中的節點位置,h(i,j)為以 i 和 j 結點為最小公共祖先為根的子樹高度,H 為泛化樹高度,以地區泛化為例的泛化樹結構如圖 7所示。圖 7 地區泛化樹實例 四是基于公共子序列的脫敏程度量化 針對經過偏移
53、或者取整的日期類型字段,設計了基于最長公共子序列的有效性評估方法,在結合語意信息的基礎上進行脫敏 26 程度的計算。最長公共子序列(Longest-Common-Subsequence)是兩個字符串中共同的最長子序列長度。五是基于差值的脫敏程度量化 對于經過泛化、偏移或取整等脫敏算法的數值類型字段,設計了基于計算改變的差值比例評估脫敏程度。在對各字段計算脫敏程度有效性后,企業可根據數據集實際使用場景或者數據集特征選擇輸出特定字段組合的平均有效性。2.2.數據脫敏安全性評估指標數據脫敏安全性評估指標 安全性指標計算首先確定準標識符的等價類集合,結合使用場景計算 K 匿名重識別風險。風險值越小代表
54、安全性越高,反之越低。使用 K 匿名隱私保護模型,具有相同準標識符的記錄構成一個等價類,確定等價類集合 J,以及每個子集的大小 fj,則每個子集的重識別風險為:=1(公式 7)其中每個子集內記錄的準標識符相同。計算數據集的重識別風險,可用總體風險、最大值或者平均值來代表。=1|()(公式 8)=max()(公式 9)=1|(公式 10)針對數據集可能面臨的不同風險攻擊情形,可以選擇使用不同的重識別風險指標計算方式。27 3 3數據脫敏可用性評估指標數據脫敏可用性評估指標 金融行業內數據集通常用于數據挖掘、建模分析或特征提取等用途,經過數據脫敏后的數據集相比原數據集會損失一定的信息量和可用性。當
55、數據集的脫敏程度很大改變了原數據集的分布特征時數據集的可用價值就變小了,本方法基于優化信息熵理論來評估數據集脫敏后的可用價值,信息熵可以識別單字段包含的信息量,但脫敏的數據集各字段間通常還包含關聯關系,因此設計了基于聯合條件熵的方法對數據集的可用性進行評估。數據脫敏過程中信息的變化如圖 8所示。圖 8 數據脫敏信息變化 信息量度量數據集攜帶的信息,熵是可能攜帶的信息量的期望,通過計算信息熵可用評估數據集的信息使用價值,事件的信息熵計算公式如(公式 11),pi為事件 i 的概率。=0(公式 11)對于評估包含多個字段(例如:準標識符)的數據集信息熵首先計算其聯合熵,數據集的聯合熵計算公式如(公
56、式 12,其中A、B 為數據集中的字段,p(ai,bj)為 A 與 B 分別取值為ai,bj的概率,聯合熵能表示出不同字段數據項間的可用關聯信息。(,)=(,)(,)=0=0(公式 12)28 評估數據脫敏效果的可用性需要排除數據集本身的影響,企業可根據實際使用場景或數據集特征選擇條件熵,熵變比來評估脫敏效果,令 X 代表脫敏前數據集,Y 代表脫敏后數據集,條件熵為 H(X|Y),熵變比為 H(Y)/H(X)。其中條件熵是在已知信息或數據集分布的基礎上獲取另外一個信息或數據集時所獲得的信息量,條件熵的計算公式如(公式 13。(|)=()(|=)(公式 13)本方案針對脫敏數據集包含多個字段,字
57、段間可能存在關聯關系的特點設計了聯合條件熵來對脫敏后數據集的可用性進行評估。4 4數據脫敏合規性評估指標數據脫敏合規性評估指標 對于金融行業去標識化場景,相關法規要求在不借助外部信息的情況下不能識別出特定的自然人,因此需要對脫敏后的數據集進行二次評估,判斷直接標識符和準標識符是否全部完成脫敏。利用金融行業敏感數據識別工具和標識符識別工具判斷脫敏后的數據集是否合法合規。(三)測試結果(三)測試結果 測試方法為課題組提供測試程序,渤海銀行、建設銀行自主進行測試。渤海銀行使用加密算法脫敏后的數據進行測試,測試結果見表 6,結果顯示在加密算法進行脫敏時,脫敏評估體系中的有效性指標能夠較好體現出脫敏前后
58、數據的差異性改變,可用性指標由于加密算法從而計算指標均為 1,符合評估算法的設計邏輯。表 6 渤海銀行測試結果 29 有效性(直接標識符)安全性(重標識風險)可用性(準標識符)1 0.01 1 建設銀行使用測試環境的訂單數據進行測試,測試結果見表 7,分別在輕度脫敏、中度脫敏和重度脫敏場景下進行結果評估,總體評估結果符合預設評估算法的邏輯。表 7 建設銀行測試結果 脫敏程度 有效性(直接標識符)安全性(重標識風險)可用性(準標識符)輕度 0.1 1 1 中度 0.52 1 1 重度 0.95 1 1 評估指標中的有效性能較好的反映出脫敏算法對數據的改變程度,改變程度越大則計算出的有效性指標越大
59、??捎眯灾笜伺c原始數據集數據分布程度關聯較大,可以在原始數據集維度上評估不同脫敏算法或者參數下對數據集的熵分布的改變,但無法建立通用的普適性的基線。安全性與數據集的關聯程度較大,脫敏后只要準標識符存在一個唯一值,則風險為 1。七、基于語義分析的開放文檔格式隱式水印算法(一)研究背景(一)研究背景 與國外辦公軟件的發展次序類似,我國在 20 世紀 90 年代之前主要是流式軟件。2010 年前后,國家軟件版權保護政策連續落地,開始自主版式文檔標準的編制工作。2016 年開放文檔格式(Open Fixed Document Format OFD)自主版式文件的國家標準正式發布 電子文件存儲與交換格式
60、版式文檔(GB/T 33190-2016),OFD 在的應用由此開始加速發展(見表)。2021 年,財政部會同國電聯辦起草電子憑證-銀行回單標準,明確電子回單版式文件應使用 OFD 存儲;2022 年,財政部聯合多部委開 30 展了電子憑證會計數據標準試點工作,其中銀行電子憑證技術規范(征求意見稿)中鼓勵將 OFD 作為銀行電子憑證文件的格式,并提出了相關技術安全要求防止數據篡改和泄露,我國 OFD標準格式推進過程如表 8所示。表 8 我國 OFD 標準格式推進過程 時間時間 內容內容 2011.08 形成電子文件存儲與交換格式 文書類版式文檔(OFD 標準)草案并在全國試點試用 2016.1
61、0 OFD 作為國家標準正式發布 2016.12 黨政機關電子公文格式規范中明確要求“電子公文的承載格式為 OFD”2018.11 電子證照系列國家標準中明確規定“電子證照使用 OFD 格式”2020.01 關于增值稅發票綜合服務平臺等事項的公告中,明確指出“增值稅電子普通發票版式文件格式為 OFD 格式”2022.02 關于加快推進電子證照擴大應用領域和全國互通互認的意見 2022.09 銀行電子憑證技術規范金融行業標準(征求意見稿)中鼓勵將OFD 作為銀行電子憑證文件的格式。從行業調研來看,目前 OFD 主要通過電子簽名技術防止數據被篡改,在防止數據泄露方面則依賴信息環境的安全。數字水印技
62、術研究能有效提升 OFD 版權保護與數據泄漏后溯源追責能力,具有較高的創新性和前瞻性。數字水印是指將特定的信息嵌入文本、音頻、圖片或是視頻等載體中,當拷貝分發帶有數字水印的數據時,嵌入的水印信息也會被拷貝,以起到版權保護、秘密通信、數據文件的真偽鑒別和產品標志等作用。數字水印可分為顯式和隱式兩種。顯式水印可以起到直觀告知數據使用者數據所有權、使用范圍等信息,但也容易被識別和去除。隱式水印利用特定算法將水印信息通過不可見的方式隱藏于數字載體中,不容易被人察覺,也不會破壞原 31 數據使用價值與視覺效果。本課題研究的是隱式水印。在 OFD 中添加數字水印信息包括數據發送者和接收者信息、分發目的、數
63、據用途、版權歸屬等信息。與電子簽名不同的是,電子簽名關注發送者的身份認證,用于保證信息傳輸的真實性、完整性,防止偽造、抵賴、冒充、篡改;數字水印更關注接收者身份及數據用途,解決數據泄露后溯源而非數據完整性問題,水印還可以在接收方轉發數據的過程持續疊加新的水印信息,記錄傳輸鏈中所有數據接收方。在數字銀行中,銀行數據在多個第三方合作機構之間共享使用,一旦發生數據泄露,銀行可以通過解析水印及時確定泄露途徑、泄密機構,有效解決了目前只能依靠合同協議約束應用方保護數據,出現安全事件難以取證追責的困難。(二)技術實現方案(二)技術實現方案 OFD 標 準 基 于 可 擴 展 標 記 語 言(Extensi
64、ble Markup Language,XML)對版式進行描述。OFD 采用“容器+文檔”的方式描述和存儲數據,文檔的內容由 zip 包內的多個文件共同決定。一個 OFD 文件的內部基礎構成如圖 9所示。圖 9 OFD 文件結構 本算法首先需要解析待添加水印的 OFD 文件,提取所有文件 32 夾名、文件名;解析 OFD 結構中 xml 文件字段,提取結構體及屬性名。然后,利用詞向量模型中的連續詞袋模型訓練上述文件夾名、文件名、結構體及屬性名,得到語料高位空間分布,根據距離輸出與輸入特征相近的語料詞,作為仿真語料。接著,根據 OFD 結構文件中原本的語句特征,生成偽文件夾、偽文件(包含仿真語句
65、的結構體,如圖 10所示)。水印信息經過轉換后將寫入仿真語句中。圖 10 生成 OFD 的偽造結構體 圖展示了基于偽結構體的 OFD 隱式水印算法嵌入與提取流程,如圖 11所示。圖 11 基于偽結構體的 OFD 隱式水印算法流程 此外,還可以將水印信息依照零寬字符12規則表,轉換為零寬 12 零寬度字符是一種字節寬度為 0 的不可打印的 Unicode 字符,在瀏覽器和一般的文本編輯器中是不可見。33 字符水印編碼,嵌入水印位。圖展示了基于零寬字符的 OFD 隱式水印算法嵌入與提取流程,如圖 12所示。圖 12 基于零寬字符的 OFD 隱式水印算法流程(三)測試結果(三)測試結果 課題組在銀聯
66、數字銀行網絡平臺上線了“OFD文件添加水印”和“OFD 文件驗證水印”接口,并使用數字銀行業務中傳輸的 OFD格式電子憑證文件進行了測試。測試過程中,通過調用接口在文件中添加了隱式水印“中國銀聯授權-測試”,添加水印之后的文件能正常打開、驗簽。調用水印驗證接口能正常讀取“中國銀聯授權-測試”的水印信息。測試結果如圖 13所示:34 圖 13 OFD 水印測試結果 八、總結和建議(一)繼續深入數據安全相關技術及標準研究(一)繼續深入數據安全相關技術及標準研究 本研究報告涉及的技術研究課題均是數據安全基礎性的技術課題,能充分反應行業的迫切訴求。目前,雖然幾項技術均已有相關成果,部分成果還在銀行的聯
67、合測試中取得了非常優秀的測試結果,但是本課題組的研究工作并未就此結束,僅目前的幾個研究方向就仍有不少需要深耕的技術難題:1.1.半結構化、非結構化數據識別算法研究半結構化、非結構化數據識別算法研究 為了補齊數據分類分級的能力,后續研究工作將繼續深入半 35 結構化數據、非結構化數據的識別技術研究。半結構化數據指單一數據字段的內容是包含了各種數據類型的文本,如交易查詢流程需要提交的表單有“需求內容”字段,其內容本身是一段需求內容的文本信息,但內容會包含“姓名”“卡號”“聯系方式”等敏感信息。非結構化數據指一些敏感數據在企業內不是以數據表的形式存在,比如已經簽署的合同,其上可能會包含賬戶信息。2.
68、2.智能脫敏技術研究智能脫敏技術研究 目前行業有“根據業務使用訴求對數據進行適當脫敏”要求,但是針對此要求行業沒有形成統一認識,因此脫敏在行業中是一項對工作經驗要求頗高的工作。本研究報告涉及的脫敏效果評估體系研究,是為了解決脫敏結果的度量問題,為了在自動化、智能化、標準化方面繼續優化脫敏工作現狀,需要進一步探索論證基于業務特征智能推薦脫敏算法及配置的可行性。3.3.結構化數據水印研究結構化數據水印研究 數據水印是數據發生泄露后,追溯責任方、亡羊補牢的最終手段,目前無論是針對顯式水印或是隱式水印,行業中針對圖片、PDF 等文件類型均有較多研究,但是數字銀行存在很多在報文中直接傳輸、數據表中存儲的
69、結構化數據,這類結構化數據如何添加水印用于溯源,需要進一步探討。4.4.完善數據安全規范體系完善數據安全規范體系 目前數字銀行產業的相關方特別是中小銀行和應用方尚未完善地應用相關數據安全技術能力,下一步需要通過完善數據安全技術規范體系加速相關技術的應用推廣:36 一是完善技術規范,行業需要通過優秀的技術成果編制示范性規范,以提升行業的整體研究能力。同時,諸如智能脫敏等技術只有通過了行業公認的標準認證才具備推廣應用的基礎。二是完善技術評價規范,諸如 API 異常行為檢測等技術,由于使用了基于人工智能的分析技術,人工智能的描述性、穩定性問題導致不同廠商的技術能力難以被橫向比較,因此有必要編制諸如金
70、融 API 安全防護體系評估指南的評價規范幫助產業相關方遴選符合要求的技術能力。(二二)數字銀行場景安全需要加強管理)數字銀行場景安全需要加強管理 雖然,國家已經頒布了中華人民共和國數據安全法商業銀行應用程序接口安全管理規范金融數據安全 數據生命周期安全規范金融數據安全 數據安全分級指南等制度規范,但是行業對于相關制度規范的執行情況仍處于摸索、難以完全執行到位的狀態,需要金融管理部門加強政策引導:一是建議出臺與數字銀行直接相關的或是針對現行相關要求更細致的指導文件,進一步明確各方的權責義務,指導行業相關機構對相關要求形成統一認識。二是數據安全相關制度規范需要更強的執行力度來支持相關技術解決方案
71、的落地應用,如安全前哨等應用于數字銀行應用方的安全技術。三是在數字銀行業務中,中小銀行作為數據安全能力的弱勢群體,難以依靠自身能力構建完善的數據安全能力體系,建議在制度規范制定中應更加關注中小銀行的數據安全訴求,如支持有資質背書的轉接清算機構在為中小銀行提供接口轉接服務的同 37 時配套提供數據安全能力。(三)加強自律管理完(三)加強自律管理完善標準體系善標準體系 本研究課題旨在從技術角度提出解決方案,以解決數字銀行的數據安全問題。技術是行業生態開展安全管理的基礎,然而,金融行業自律體系有待健全,可能導致其他行業利用行業風險敞口不斷向金融行業滲透。因此,需要完善自律體系加強自律管理:一是通過行
72、業自律型機構定期開展檢測認證和安全審計,以排除技術監控手段被旁路的風險。二是單一行業相關機構的技術能力和風險信源有限,通過行業自律性管理機構實現技術能力互通和風險信源共享,將有助于行業相關機構以更小的成本投入獲得更有效的安全技術能力成果。三是數字銀行的應用方通常是業務導向的,有必要通過有效的管理體系來規避安全方面存在的“劣幣驅逐良幣”的現象。38 附錄:數據安全法律規范 本文參考的數據安全法律規范清單 法律/規范名稱 頒發機構/狀態 生效時間 對數字銀行實踐的影響 中華人民共和國數據安全法 國家/已生效 2021-06-10 該法律是我國第一部有關數據安全的專門法律。是數據領域的基礎法律,不僅
73、有助于維護我國的數據安全,更為促進數字經濟的健康發展,提供了核心法制依據。金融數據 安 全 數據安全分 級 指南 中國人民銀行、國內眾多銀行/已生效 2020-09-23 指南 給出了金融數據安全分級的目標、原則和范圍,以及數據安全定級的要素、規則和定級過程。因此可以更清晰地指導金融業機構開展電子數據安全分級工作,也可以指導第三方評估機構等單位開展數據安全檢查與評估工作。金融數據 安 全 數據生命周期安全規范 中國人民銀行/已生效 2021-04-08 規范 首次明確定義了數據安全的原則,包括合法正當原則、目的明確原則、選擇同意原則、最小夠用原則、全程可控原則、動態控制原則、權責一致原則,為金
74、融機構安全建設提供參考。商業銀行應用程序接口安全管理規范 中國人民銀行/已生效 2020-02-13 規范是監管部門發布的首份數字銀行監管政策和行業標準,能夠為金融行業在數字化經濟轉型中提供更多參照與指導。為從事或參與商業銀行應用程序接口服務的銀行業金融機構、集成接口服務的應用方開展相關工作以及第三方安全評估機構等單位開展安全檢查與評估工作提供了重要的參考。信息安全技術個人信息安 全 規范 全國信息安全標準化技術委員會/已生效 2020-10-01 規范 對個人信息控制者在收集、存儲、使用、共享、轉讓、公開披露等信息處理環節中的相關行為做出了規范,對遏制個人信息非法收集、濫用、泄漏等亂象提供了依據,最大程度地保障了個人的合法權益和社會公共利益。