《北京金融科技產業聯盟:2025金融業智能數據脫敏技術研究報告(55頁).pdf》由會員分享,可在線閱讀,更多相關《北京金融科技產業聯盟:2025金融業智能數據脫敏技術研究報告(55頁).pdf(55頁珍藏版)》請在三個皮匠報告上搜索。
1、金融業智能數據脫敏技術研究報告北京金融科技產業聯盟2025 年 4 月版權聲明本報告版權屬于北京金融科技產業聯盟,并受法律保護。轉載、編摘或利用其他方式使用本報告文字或觀點的,應注明來源。違反上述聲明者,將被追究相關法律責任。編制委員會編委會成員:何軍聶麗琴童蕙編寫組成員:曹嘉欣王仰東周曉陽陳永康單姜一白梅焦航王志遠趙天蔚韓韶欣譚貴強閆瑾溫國梁韓明宵豐瑾張曉玉許江峰林宇彭晉白曉媛杜曉黎姜志輝杜嘯爭李娜張邦軍喬文匯編審:黃本濤國鈺魏中宣參編單位:交通銀行股份有限公司華為技術有限公司中國郵政儲蓄銀行股份有限公司螞蟻科技集團股份有限公司中電金信軟件有限公司目錄一、總體概述.1(一)研究背景.1(二)
2、數據脫敏的重要性.2二、應用現狀.6(一)應用場景.6(二)建設進展.8三、安全要求.10(一)數據服務安全要求.10(二)數據流通安全要求.12(三)數據管理安全要求.14四、關鍵技術.17(一)敏感數據識別.17(二)數據脫敏規則配置.23(三)數據脫敏可算不可見引擎.26(四)數據脫敏核心算法.30五、展望建議.36(一)持續探索研究,加強數據識別和脫敏技術性能優化.36(二)堅持守正創新,提升數據脫敏更加安全高效.37(三)強化標準指導,完善數據脫敏技術機制建設.38(四)完善基礎設施,推進數據脫敏體系化應用.38附錄:金融業智能數據脫敏應用實踐.40案例一:郵儲銀行數據脫敏應用實踐.
3、40案例二:螞蟻集團數據脫敏應用實踐.45摘要摘要:金融業在數字化轉型進程中面臨著數據安全和隱私保護的嚴峻挑戰,亟需對敏感數據進行精細化管控,實現實時性、多樣性的數據脫敏處理。本課題圍繞金融業智能數據脫敏技術的發展現狀和行業實踐,深入探索并剖析數據脫敏技術在金融行業的具體要求,歸納總結智能數據脫敏的關鍵技術,推進智能數據脫敏在金融行業數據安全領域的深入研究和場景應用,為金融機構在數字化轉型道路上筑牢數據安全防線提供參考與支撐。1一、總體概述(一)一)研究背景研究背景在 21 世紀的信息化浪潮中,金融行業與大數據的結合日益緊密,數字化轉型成為推動金融創新的核心動力。金融行業積累了海量用戶數據,這
4、些數據不僅包括金融產品信息、客戶服務記錄,還涵蓋了個人身份信息、消費習慣等敏感數據。這些數據的積累,一方面為金融行業提供了精準營銷、風險控制、客戶服務等場景的決策支持,另一方面也帶來了嚴峻的數據安全和隱私保護挑戰。金融行業較其他行業其特殊性在于數據具有更高的敏感性。個人賬戶信息、交易記錄等數據一旦泄露,不僅會侵犯到用戶隱私,還可能導致金融詐騙、資產損失等嚴重后果。因此,在利用數據推動業務發展的同時,確保數據安全和用戶隱私,成為金融行業亟需解決的問題。隨著全球范圍內對數據保護意識的增強,各國政府紛紛出臺了相關的法律法規,如歐盟的通用數據保護條例(GDPR1)、美國的加州消費者隱私法案(CCPA2
5、)等,中國也相繼頒布了中華人民共和國網絡安全法 中華人民共和國數據安全法 和 中華人民共和國個人信息保護法,對個人信息的收集、處理和使用提出了嚴格的要求。這些法規的實施,對金融機構的數據管理1GDPR,全稱通用數據保護條例(General Data Protection Regulation),由歐盟委員會創立,是目前為止在歐洲乃至全球最嚴格的個人數據隱私保護法規之一。2CCPA,全稱加利福尼亞消費者隱私法(California Consumer Privacy Act),是美國加利福尼亞州的一部數據隱私法,適用于所有收集、處理或出售加州消費者個人數據的企業。2提出了更高的標準,金融機構必須采
6、取有效的技術手段,確保在遵守法律法規的同時,保護數據的安全和隱私。在金融行業內部,數據的共享和交換是常態,數據在多個部門間流動,如安全部門、測試部門、業務部門、數據部門等。內部的數據流動雖然有助于提高工作效率,但也增加了數據泄露的風險。因此,金融行業需要在數據的傳輸、存儲和共享過程中,采取有效的數據脫敏措施,以降低數據泄露的風險。金融業的數據脫敏需求也體現在開發與測試場景中。在開發測試過程中,為了高度模擬生產環境,需要導入大量用戶真實數據分析處理。為保護用戶敏感信息,如姓名、身份證號等,避免在此過程中發生數據泄漏,需要對生產環境中的用戶敏感數據進行替換、匿名等脫敏操作。綜上所述,在遵守法律法規
7、的同時,有效保護數據安全和用戶隱私,是金融行業亟需研究和解決的問題。數據脫敏技術作為解決這一問題的有效手段,其研究和應用成為了金融行業數據安全管理的重要組成部分。(二)二)數據脫敏的重要性數據脫敏的重要性在數字化時代,金融行業將數據視為核心資產,并不斷探索其價值與潛力,但大數據的廣泛應用也帶來了數據安全和隱私保護的挑戰。數據脫敏技術之所以重要,是因為它在保護個人隱私和企業數據安全的同時,確保了數據的可用性和業務的連續性。1.1.遵守遵守合規要求合規要求3數據脫敏是遵守法律法規的基本要求。隨著全球數據保護法規的出臺和完善,企業必須采取有效措施來保護個人數據。違反這些規定可能導致重大的法律風險和經
8、濟損失。數據脫敏技術能夠幫助企業在處理個人數據時,避免直接處理敏感信息,從而降低違法風險。例如,通過掩碼處理身份證號碼和銀行賬號等敏感信息,企業可以確保在遵守法律法規的同時,保護客戶數據不被泄露。2.2.維護企業維護企業權益權益數據泄露事件不僅損害客戶利益,還嚴重影響企業的公眾形象和市場信譽。通過實施數據脫敏,企業能夠在內部管理和外部交互中保護客戶數據,增強客戶對企業的信任,從而在激烈的市場競爭中保持優勢。例如,企業在進行客戶服務時,使用脫敏數據可以確保即使數據被泄露,也不會暴露客戶的敏感信息,從而保護客戶權益和企業聲譽。3.3.保護保護數據安全數據安全金融行業數據量大,具有高價值,是網絡攻擊
9、的主要目標。數據脫敏能夠降低敏感數據在存儲、處理和傳輸過程中的風險,減少數據泄露的可能性。這對于防范內部威脅和外部攻擊,保護企業免受數據泄露的影響至關重要。例如,在金融行業的運維管理中,系統運維人員由于具有較高權限成為數據泄露的主要風險源,因此需要對核心敏感數據進行脫敏,預防數據泄露。4.4.提升數據可用性提升數據可用性4脫敏后的數據可用于數據分析、機器學習等業務場景,支持企業決策和業務創新。這使得企業能夠在保護隱私的同時,充分利用數據資源,實現數據價值的最大化。例如,在金融風控場景中,通過對支付信息進行脫敏處理,可以在不泄露用戶敏感信息的前提下,識別用戶賬戶是否存在盜冒用的操作風險,提升風控
10、的精確性和有效性。5.5.支撐支撐數字化轉型數字化轉型隨著金融服務日益依賴數據驅動的解決方案,數據脫敏技術成為保障數據安全與隱私的關鍵支撐,為金融行業的可持續發展奠定了堅實基礎。以金融授信場景為例,通過對賬戶信息、轉賬記錄及交易支付數據進行數據脫敏降級處理,不僅能夠精準分析用戶的還款能力,還能有效保護用戶的敏感信息免遭泄露,在提升業務效率的同時,充分滿足合規與隱私保護的雙重要求。6.6.推動技術應用推動技術應用金融業的數據脫敏需求貫穿于開發測試、運維管理等核心環節,旨在對敏感數據進行全方位保護。面對數據安全和隱私保護的嚴峻挑戰,數據脫敏技術作為一項關鍵解決方案,已成為金融行業數據安全管理體系的
11、重要組成部分。例如,在金融營銷場景中,通過對賬戶信息、交易支付信息等敏感數據進行脫敏,金融機構能夠在保護用戶隱私的前提下,精準評估用戶的資產能力及風險意識,從而為用戶推薦適配的金融產品與服務。這種脫敏技術的應用,不僅提升了數據使用的合規性與安全性,還在業務創5新與隱私保護之間實現了有效平衡,為金融業的可持續發展提供了堅實保障。綜上所述,數據脫敏技術在金融行業中不僅是應對合規挑戰的必要手段,更是保護企業資產、維護客戶關系、釋放數據價值的關鍵措施。隨著數據安全形勢的日益嚴峻以及隱私監管要求的不斷強化,數據脫敏的重要性將進一步凸顯,成為金融行業不可或缺的技術保障。通過持續優化脫敏技術,金融機構能夠在
12、確保數據安全的同時,充分挖掘數據潛力,為業務創新與客戶服務提供強有力的支持,推動行業在合規與效率中實現高質量發展。6二、應用現狀(一)一)應用場景應用場景數據脫敏應用場景分為技術場景和業務場景,技術場景主要包括開發測試、數據分析、數據交換、數據共享、生產應用、運維應用等,業務場景包括營銷獲客、風險防控、業務經營等。1 1.技術場景技術場景(1)開發測試在金融業務系統開發與功能升級中,涉及客戶基本信息、社會關系、財產信息等敏感數據需被嚴格保密。開發測試階段,必須確保測試數據在保持真實數據特征的同時,不泄露任何真實客戶信息,這就需要運用脫敏技術來處理這些數據。(2)數據分析數據分析目的在于深入挖掘
13、數據價值。在此過程中,關鍵的用戶特征如年齡、性別、地區和行為記錄等信息需被保留,而用戶的敏感身份信息和非必要的敏感字段則需被脫敏,以確保研究數據準確性、有效性和安全性。(3)數據交換數據交換場景主要通過 API 接口方式,向金融業機構內部特定平臺提供數據,數據請求時會附帶用戶信息,需要對部分用戶信息進行脫敏。7(4)數據共享面對特定的業務合作和聯合營銷需求,通過數據流轉提升數據價值,數據共享變得不可避免。在這一過程中,根據業務目標的不同,對敏感數據采取相應的脫敏技術,如數據抑制和擾亂等,以確保數據在共享過程中的安全。(5)生產應用在生產系統中使用數據時,應根據業務需求確定用戶對敏感信息的最小訪
14、問權限。在必須訪問敏感信息的情況下,應通過掩碼屏蔽等脫敏手段保護數據,以降低數據泄露風險。(6)運維應用運維人員雖擁有信息系統的高權限賬號,但其主要職責是對數據庫進行監控和審計,而非深入了解系統內部的具體數據。2.2.業務場景業務場景(1)營銷獲客在大數據時代,銀行通過深度挖掘數據價值來增強競爭力,促進消費增長和用戶活躍度。在利用第三方流量和觸客優勢營銷時,需整合金融業務數據與外部數據,構建客戶畫像,實現精準營銷和高效轉化,提升客戶消費體驗。此過程中,保護客戶個人信息至關重要,必須采用智能脫敏技術以防止敏感信息泄露。(2)風險防控金融行業建立跨機構風險信息共享機制,如銀行卡風險信息共享和涉電信
15、網絡詐騙風險信息共享,以及信貸業務和征信報告8評分模型。這些措施基于內外部交易和歷史數據,結合智能規則引擎,實時預測和分析欺詐等非法行為。在模型建設中,對敏感數據進行脫敏,確保數據“可用不可見”。(3)業務經營金融業務經營中,如交易賬單處理、信用卡權益合作和快捷支付等場景,除向個人或組織展示數據或履行法定職責外,應優先對敏感數據進行脫敏處理,以保護客戶隱私。(二)二)建設進展建設進展當前,金融行業在數據脫敏技術應用上取得顯著進展。多數機構已建立起適應多場景需求的數據脫敏體系,通過標準化平臺整合現有數據基礎設施,并逐步覆蓋開發測試、生產運維、數據共享等核心場景。其中,靜態脫敏與動態脫敏技術作為保
16、護數據隱私的關鍵措施,已被廣泛采用并趨于成熟。靜態脫敏通過 ETL(Extract-Transform-Load)工具批量處理非實時的數據,能夠在保護隱私的同時,為數據分析和挖掘保留關鍵信息。這種方式常被業內用于搭建測試環境中,通過靜態脫敏技術,在數據被導入測試環境之前,對其中敏感信息進行替換、加密等處理,能達到保留業務特征又符合隱私保護要求的效果。動態數據脫敏則是通過中間件或數據庫內核內置規則等方式實現。通過在生產系統對外查詢時部署動態數據脫敏,能夠在保護數據隱私的同時,確保數據請求的實時性和效率,有效降低9運維過程中高權限賬戶泄露的風險。完善的實時數據脫敏和監控系統,還能及時發現潛在的數據
17、泄露風險,確保數據在其整個生命周期中得到全面的保護。行業層面對于數據脫敏策略的標準化管理已呈現兩個重要趨勢:一是建立可編排的規則引擎,通過多層次策略體系(如機構級基礎規則、系統級定制規則、接口級動態規則)實現字段級精準控制。二是自動化脫敏平臺深度并集成多模態數據接口,通過自適應解析技術打通 Oracle、MySQL 等關系型數據庫與 Hive、HBase 等大數據組件間的技術鴻溝,并通過 CSV、Excel 等結構化文件的智能解析,覆蓋主流文件格式的批量脫敏需求。在跨機構協作場景中,通過整合多方安全計算與聯邦學習框架,各參與方能夠在不暴露各自原始數據的情況下,共同完成數據分析任務,既滿足了業務
18、需求,又保障了數據的安全性。對于金融行業來說,數據脫敏不僅要考慮如何有效地隱藏敏感信息,還需要保證脫敏后的數據依然保有其原有價值,以便后續分析和決策使用,其安全性、準確性和實用性成為了衡量其優劣的關鍵標準。10三、安全要求本章從金融業保護敏感數據的重要性出發,基于國家及業內關于數據安全保護的規章制度,從數據服務、數據流通、數據管理三個角度,探討了金融業對智能數據脫敏的要求,以確保敏感數據在使用、傳遞、留存時的安全性。(一)一)數據服務安全要求數據服務安全要求在數據服務層面,金融機構通過數據脫敏技術,構建了多層次的用戶隱私與數據安全保障體系。在提供數據服務的過程中,數據脫敏能夠顯著降低數據泄露風
19、險,確保敏感信息的安全性。數據服務主要涵蓋業務數據查詢、客戶數據分析、投資風險管理等場景。1.1.合規合法性合規合法性從“個人金融信息”3的概念提出,到金融業數據工作的五大基本原則4的確立,及至今年銀行保險機構數據安全管理辦法的征集5,不斷完善和嚴格的法律規章制度體現出監管機構對金融敏感數據的愈發重視。這要求金融機構在使用數據提供服務前,如客戶的身份信息、財務數據等敏感數據需要根據中華人民共和國個人信息保護法 中華人民共和國數據安全法等法規在數據的原有形態上進行脫敏,以確保所見數據的合法、正3關于銀行業金融機構做好個人金融信息保護工作的通知,由中國人民銀行于 2011 年發布,是我國最早的官方
20、對金融業敏感數據提出要求的文件。其中首次使用了“個人金融信息”這一概念,其法律依據是中國人民銀行法商業銀行法反洗錢法個人存款賬戶實名制規定等法律法規。4金融業數據能力建設指引,由中國人民銀行于 2021 年發布,提出金融業數據工作的五大基本原則,包括用戶授權、安全合規、分類施策、最小夠用、可用不可見。5銀行保險機構數據安全管理辦法,由國家金融監督管理總局于 2024 年征集,旨在規范銀行業保險業數據處理活動,保障數據安全和金融安全。11當。例如對身份證號碼、銀行賬號等數據進行掩碼處理,以降低泄露風險。2.2.精細化數據控制精細化數據控制客戶金融信息在完成數據分析后,可被應用于個性化推薦或金融數
21、字產品的投資風險管理中。在此過程中,智能數據脫敏技術需嚴格遵循“最小必要原則”,實施精細化脫敏處理,僅提供完成業務目標所需的基本信息,并對非必要展示的敏感數據進行脫敏。例如,在對可疑交易進行反洗錢監控和審查時,系統傳遞給審查人員的交易數據需對客戶的敏感信息(如住址、身份證號等)進行脫敏處理,確保僅必要的賬戶交易信息可被查看,從而在滿足業務需求的同時,最大程度保護用戶隱私。此外,脫敏后的數據需保持統計代表性和分析有效性。這對智能數據脫敏技術提出了更高的要求:在確保數據業務特點得以保留的同時,還需對隱私信息進行有效保護。3.3.實時性和多樣性需求實時性和多樣性需求在金融科技領域,快速和簡便的操作是
22、用戶選擇金融產品的標準,而“低用戶感知”是確保用戶體驗和滿意度的關鍵。為此在實時數據服務(如在線支付、跨行轉賬、反欺詐服務等)中,需要做到實時脫敏處理。智能數據脫敏技術應具備低延遲性,確保不影響服務的實時響應。此外,隨著可被采集的用戶信息日益多樣化,金融信息的數據結構也趨向復雜化。這就要求脫敏技術12具備一定的柔性,在快速處理結構化數據的基礎上,能夠靈活處理半結構化和非結構化的數據。(二)二)數據流通安全要求數據流通安全要求數據流通的安全強調在數據共享、交易和傳輸過程中保護數據的安全性和隱私性。涉及金融數據在不同環境、系統甚至機構之間的傳遞。1.1.跨環境、系統數據共享的跨環境、系統數據共享的
23、“分級分級信任信任”策略策略金融系統常存在生產、開發和測試等多套環境。生產環境直接服務客戶,進行實際業務操作。開發、測試環境用于新功能開發以及單元、集成測試,以防止功能上線時出現問題產生實際影響。數據驗證環境高度模擬生產的環境,用于監管報送等重要金融場景,使用仿真數據以確保測試結果準確性。此時應遵守跨環境的“分級信任”策略,根據請求環境、用戶的重要性等級,對不同訪問申請進行多層審批和多次身份驗證和權限校驗,確保數據在不同環境間傳遞時的安全,防止數據未經授權的訪問。由于金融機構業務范圍廣泛,客戶數據通常被多維度地存儲在不同的系統中。為構建準確的用戶畫像,數據要在多個系統和部門之間流動,甚至涉及到
24、對外合作伙伴之間的數據共享。敏感數據在流通時,可能因安全漏洞等問題發生數據泄密??梢詫祿鎯υ谝粋€集中管理的數據平臺,傳遞時遵循“分級信任”策略,根據請求系統的重要性提供差異化的信息展示。例如,給核心業務系統提供的業務數據保留更高的精度,而在外部系統中,13僅展示脫敏后的結果。另外,可根據數據的重要程度,通過流量限制控制大規模敏感數據的傳輸,以保證數據安全。對于跨組織的數據流通,脫敏處理的方式要更加嚴格,如采用不可逆加密方式,保證數據即使被截獲也無法被利用。另外,為了防止由于外部調用導致的敏感數據外泄,基于 API 進行數據交換的場景中可加入對數據接口的管控。2.2.跨地區、跨境數據傳輸的合
25、規性跨地區、跨境數據傳輸的合規性跨境數據流動在金融機構全球化發展的今天變得更加普遍。這要求數據在跨境傳輸過程中能夠滿足不同國家和地區的數據保護法規(例如 GDPR、CCPA、PIPEDA6)。為降低違反不同地區法規的風險,智能脫敏技術應使脫敏后的數據不具備個人可識別性。如客戶交易數據在跨地區、跨境傳輸前,剔除其中能夠直接識別個人身份的信息,如姓名、身份號碼等,并加密其他隱私信息,以減少因侵害客戶隱私而導致違反當地法律法規的風險。3.3.動態脫敏與數據可跟蹤性動態脫敏與數據可跟蹤性客戶數據在流通過程中,信息被頻繁地訪問、傳輸和修改,要求數據脫敏時應有動態加工的能力。脫敏策略需要根據具體的業務場景
26、,在數據從一個部門流向另一個部門的過程中調整。不同的數據用戶,根據其權限和需求,獲取的敏感信息應有所區別。比如客戶數據、交易數據是為客戶經理展示的非脫敏信息,而與信貸風險相關的信息則是風控部門訪問的非脫敏信息。為此,智6PIPEDA,全稱個人信息保護和電子文件法(Personal Information Protection and Electronic DocumentsAct),主要管理加拿大涉及商業活動的組織,特別是涉及跨省邊界或國際的個人數據的傳輸。14能數據脫敏技術應具備根據不同訪問用戶對數據進行實時脫敏的能力。同時,數據流通過程中的可追蹤性也很重要,為確保數據在各個節點上的運行都可
27、以被追溯,數據的傳輸路徑應是可記錄的。此外,數據跟蹤能夠提高數據的可信度和質量,在問題發生時能夠清晰責任歸屬,優化業務流程。(三)三)數據管理安全要求數據管理安全要求數據存儲劃分為在線區、近線區和離線區數據7,以達到兼顧不同數據服務場景訪問效率和經濟化數據使用成本的目標。本節主要聚焦于近線區和離線區數據在存儲、歸檔和銷毀時的管理要求。1.1.數據存儲中的去標識化處理數據存儲中的去標識化處理數據存儲中的去標識化處理主要應用于數據庫中的近線區數據,該部分數據通常趨于靜態存儲,不再頻繁更新或訪問,這部分數據也是數據管理過程中最容易造成大規模數據外泄的風險點。智能數據脫敏技術需對存儲的敏感數據進行去識
28、別化或加密處理,以防止敏感信息在存儲過程中泄露。例如,將客戶的身份信息與交易數據加密后分開存儲,確保不能直接識別客戶的完整信息,即使單個數據集泄露,也無法識別客戶的完整信息。另外,大型金融機構通常會建立雙活環境、災備環境以保障發生故障時系統的穩定運行。但備份數據存儲的安全級別通常相7交通銀行數據中臺根據數據的保留時長將數據劃分為在線區、近線區和離線區數據,分別對應保留 2 年內歷史數據、保留 2-7 年內的歷史數據、超過 7 年的歷史數據。15對較低,因此可以對災備環境的數據進行智能數據脫敏處理,以進一步降低數據泄露的風險。2.2.數據歸檔、銷毀前的分級管理數據歸檔、銷毀前的分級管理為存儲不斷
29、增加的客戶數據,數據集群需要不斷花費成本擴容節點,而擴容后的數據重分布、批量暫停也對服務的穩定提供造成壓力。對于超出常規存儲時間范圍的離線區數據,可根據2024 金融數據安全治理白皮書8建議將金融數據分為核心數據、重要數據和一般數據三大級別,以確定數據是否應歸檔保存。而智能數據脫敏技術應能根據數據的不同級別,提供靈活且有效的脫敏策略。而對于需要歸檔的核心級敏感數據,可在歸檔前進行多重脫敏(如數據遮蓋、字符替換、哈希處理等),即使歸檔數據的某一層保護措施被攻破,剩余的脫敏方式仍然可以有效地保護數據安全。保證攻擊者即便獲取到部分已歸檔數據,也難以復原原始數據。對于確認不再使用的離線區數據,應通過不
30、可逆的脫敏處理,使數據變得沒有意義,從而確??蛻綦[私及金融安全不受威脅,防止已銷毀數據被惡意恢復。3.3.管理過程中的風險評估與合規審核管理過程中的風險評估與合規審核在數據管理過程中,金融機構常要面對持續不斷的行業風險評估和合規性審計。為此,在進行數據脫敏后,應保留詳細的脫82024 金融數據安全治理白皮書由中電金信發布,涵蓋了金融數據安全治理的多方面內容。16敏日志、對應數據的加載策略以及生命周期轉儲策略的記錄,以確保脫敏數據能達到國內外最新數據保護條例的要求。最后,智能數據脫敏技術應具備支持合規審核的功能,幫助金融機構及時發現數據管理中違反最新數據保護條例的潛在風險,以及進行調整脫敏策略后
31、的安全風險評估。17四、關鍵技術(一)一)敏感數據識別敏感數據識別在金融行業,隨著數據泄露、數據濫用事件的頻發,如何有效識別和保護敏感數據已成為金融機構面臨的一項重大挑戰。本節主要討論敏感數據識別的關鍵技術,涉及數據分類、模式識別、機器學習在金融行業的應用。1.1.數據分類數據分類敏感數據識別前需進行數據分類,通常包含以下幾個階段:(1)數據篩選對組織的數據資產進行全面梳理,包括以物理或電子形式記錄的結構化和非結構化數據,通過篩選、審核,識別其中的敏感信息,明確數據資產。具體可通過大數據平臺的數據倉庫、數據湖內登記的元數據進行全面掃描,初步篩選、生成數據使用情況報告。(2)數據標記可在根據數據
32、敏感程度分類后,依托數據治理平臺的標簽系統對數據進行標識,該過程利用工具進行歷史相同信息的自動化標記。其他可疑項可與安全部門、業務部門、數據部門等部門一起,在平臺上對數據資產分類結果進行評審和完善,形成新的資產分類清單,并更新自動化標記工具,周期性迭代維護。18(3)數據分類按照國家、行業、金融客戶的數據分類保護要求,提取涉及核心數據、重要數據、個人信息的敏感數據范圍,并調整數據資產的分類標記結果。同時,針對該部分敏感數據建立數據收集、存儲、傳輸、使用、加工、導出、清除等全流程數據處理活動的分類保護措施。2.2.模式識別模式識別模式識別技術能有效從大量數據中自動鑒別敏感信息要素。常用的模式識別
33、方法包括:(1)入庫識別正則表達式常用于識別特定格式數據,如信用卡號、身份證、手機號、電子郵件等。處理中文等多字節復雜數據時,需結合Unicode 和高階正則表達式。對于姓名、地址等數據,則需利用特征庫和自定義函數進行規則匹配,以識別數據分類。(2)庫內挖掘對數據集內部存儲的記錄進行敏感信息的發現、提取。數據挖掘涉及數據清洗、數據轉換、數據矯正、數據集成、數據挖掘算法的選擇和開發、數據挖掘模型的構建和評估等多個環節。數據挖掘的主要目標是發現數據中隱藏模式、關系和規律,從而識別數據流轉過程中產生新的敏感數據,并將其標識出來。19(3)出庫兜底數據在離開相關數據平臺時,通過模式匹配算法,針對未標識
34、敏感的數據列進行實時監控,避免中途鏈路加工過程中產生或遺漏的敏感數據被暴露到外部,在出庫那一刻實時復核,該步驟技術作為檢測數據泄露事件最后一環兜底。常規可利用數據定義類型及長度,快速縮小實時檢測范圍。3.3.機器學習機器學習引入機器學習技術,可以顯著提升敏感數據識別的智能化水平。通過機器學習技術與數據分類分級規則、實際脫敏策略及規則的深度融合,能夠實現自動化實時敏感數據發現、智能規則匹配等高效數據脫敏能力。這一技術不僅能夠精準識別復雜場景中的敏感信息,還能根據數據特征自動優化脫敏策略,進一步提升處理效率與準確性。同時,系統支持分布式等多種部署方式,并具備自動化調優能力,能夠靈活適應不同業務場景
35、的需求,為金融機構提供更加安全、高效、智能的數據脫敏解決方案,助力其在數據安全與業務創新之間實現更好的平衡。(1)自然語言處理在處理文字或非結構化文本時,自然語言處理(NaturalLanguage Processing,NLP)技術能夠識別并標記文本中的敏感詞匯。通過文本分析和分詞,NLP 能夠提取文本中的關鍵詞并識別敏感信息,例如在轉賬備注中自動識別涉及金額、個人信息如身份證號和電話號碼等敏感內容。NLP 中的命名實體識別(NER)20技術在此過程中尤為重要,它能有效識別文檔中的人名、地點等實體信息,對于金融交易記錄中的敏感信息識別尤為關鍵。對于 NLP,除了能夠提取敏感信息之外,通過語義
36、分析的能力提升敏感數據的識別率也至關重要。比如基于理解的分詞方法,通過讓計算機模擬人類對語句的理解,達到識別詞的效果,基于詞向量的特征提取模型,通過向量的相似度來表示語義和語法相似度,另外基于情感詞典的方法,挖掘正面、負面的情感分類。利用上述技術,NLP 處理技術能夠讓計算機更好地理解和分析人類語言的復雜性和多義性,從而提高人機交互的智能性和對敏感數據識別的識別率。(2)監督學習通過訓練標注過的數據集,構建模型來自動識別敏感數據,常用的算法包括支持向量機(SVM)、決策樹和隨機森林等。(3)無監督學習針對沒有標注數據的情況下,可以通過聚類分析等方法,識別出可能的敏感數據。該技術主要在處理新數據
37、時,用于發現潛在的敏感信息。(4)深度學習深度學習利用具有自動特征提取能力的多層神經網絡對圖像、語音等數據進行分類和識別,具有強大的影像資源和復雜文本處理能力。21在敏感數據識別的實際應用中,除了識別的準確性,還需要考慮敏感信息識別的效率和精度。效率是指數據識別的速度和資源消耗,精度是指數據識別的準確率。為了提高效率,可以采用分布式計算、高效的脫敏算法、負載均衡等技術對算法進行優化;為了提高精度,可以通過大量數據標記和訓練,以適應各種新數據和變種的敏感數據,采用集成學習等技術對多個模型的預測結果進行融合。相比傳統的模式識別方案,機器學習相關技術可使得識別過程更加高效、智能化、精準化。4.4.典
38、型應用典型應用針對金融行業的大數據平臺建設,可通過元數據初篩、數據內容逐層復核,并結合上下游鏈路分析快速識別敏感信息,同時評估選擇常用的識別方式。(1)確定敏感數據范圍在大數據平臺中,敏感數據通常指個人隱私信息,不包括國家安全層面的核心機密。直接標識個人的數據包括姓名、身份證號、郵箱、手機號、銀行卡號等,而性別、生日、地址等則為間接標識。敏感數據特指那些一旦泄露或被非法使用,可能威脅個人安全的數據。因此,實踐中重點關注姓名、身份證號、郵箱、手機號和地址等信息的保護,其他信息則不作為脫敏的重點。(2)標注識別元數據信息在識別敏感數據時,可以排除非整型數值、時間、日期、二進制等數據類型。整型數值中
39、,小于電話號碼位數的也可以排除。22對于字符型字段,一位字符類型可以快速排除。對于已確定的敏感數據(姓名、證件、電子郵件、電話號碼、地址),可以通過數據治理平臺或企業級數據資產平臺快速篩選。不確定或潛在的敏感數據,則需依賴內容掃描技術。(3)掃描敏感字段內容利用元數據標識初篩后待掃描的數據字段,使用模式識別、機器學習等相關技術掃描實際內容,根據敏感特征發現對應字段的敏感屬性。若內容掃描代價過高,可通過隨機提取一定比例數據進行判別,用于劃分敏感數據類型;若掃描代價可接受,建議全字段內容掃描,以獲得最佳識別效果。字段內容識別,僅限平臺數據錄入側的鑒別,不建議全平臺全量掃描,即元數據標注、字段內容掃
40、描適用約束在少量數據集判斷。對于二次加工后產生的數據,即依賴加工鏈路的追蹤,從敏感數據傳遞過來的數據保持其敏感性。(4)追蹤依賴鏈路根據血緣分析能力或數據加工鏈路實時判定,提取字段鏈路的上下游關系,再依托源頭已經標識敏感屬性,推導下游依賴字段的敏感屬性。從嚴而言,由敏感信息加工而來的數據均為敏感數據,特別是考慮現實場景,用戶將敏感信息拆解成多個字段同時存儲于一張表,喪失已有敏感特征,但其確定存在脫敏泄露風險,即嚴格意義上敏感數據加工需進行脫敏。當然現實生活中,23聚類、截選已大幅破壞數據的敏感屬性,為了數據可流通性,可適當根據實現場景,標識特定場景下敏感屬性的阻斷??傊?,敏感數據識別是金融行業
41、保障數據安全的重要環節。通過數據分類、模式識別、機器學習等關鍵技術的應用,金融機構能夠有效識別和管理敏感數據。面對日新月異的技術迭代,特別是 AI 新興技術發展,金融機構需持續更新其數據管理策略和技術手段,以確保數據安全與合規性。(二)二)數據脫敏規則配置數據脫敏規則配置1.1.脫敏策略選擇脫敏策略選擇數據脫敏策略決定了如何處理和保護敏感數據。常見的脫敏策略包括字符掩碼、數據加密、隨機化和置換等。不同類型的數據適用不同的脫敏方法。例如,對客戶的身份證號,可以使用部分掩碼策略(如顯示前六位和后四位,中間部分用*替代);對交易金額,可以使用固定值替換策略,使其統一為固定值等。2.2.配置方式選擇配
42、置方式選擇選擇數據脫敏規則的配置方式需要明確以下幾個方面的內容:需要脫敏的數據字段、選擇的脫敏方法、脫敏級別和適用范圍。數據脫敏規則的配置方式多種多樣,可以根據不同的業務需求和數據特性進行靈活配置。以下是幾種常見的配置方式:(1)基于列的配置方式基于列的配置方式是指對數據庫中的特定列進行脫敏處理。例如,金融機構可以對客戶表中的身份證號進行掩碼處理,將其24替換為部分隱藏的形式(如“1234*5678”)。這種方式簡單直接,易于實現,適用于需要對具體字段進行精確控制的場景。(2)基于標簽的配置方式基于標簽的配置方式是指根據數據的標簽或元數據進行脫敏處理。例如,可以為敏感數據打上“機密”標簽,然后
43、對所有標記為“機密”的數據進行統一脫敏處理。這種方式具有較高的靈活性,能夠動態調整和管理不同類別的數據脫敏規則,適用于大型復雜數據集的管理。(3)基于角色的配置方式基于角色的配置方式是指根據用戶的角色和權限配置不同的脫敏規則。例如,普通用戶只能看到脫敏后的數據,而具有高級權限的用戶則可以訪問原始數據。這種方式通過嚴格的權限管理確保數據的安全性和合規性,適用于需要區分數據訪問權限的場景。(4)基于條件的配置方式基于條件的配置方式是指根據特定的條件對數據進行脫敏處理。例如,可以根據數據值的特定范圍進行脫敏,或者只對滿足某些條件的記錄進行脫敏。這樣的配置方式更具靈活性,能夠根據具體業務需求進行調整,
44、適用于需要精細化控制的場景。(5)基于模板的配置方式基于模板的配置方式是指使用預定義的脫敏模板對數據進行統一脫敏處理。例如,可以創建一個模板,對所有信用卡號統25一進行中間八位替換為星號的處理。這種方式能夠簡化脫敏規則的管理和維護,適用于需要批量處理的場景。這些配置方式各有優缺點,選擇時應根據具體的應用場景和數據保護需求進行綜合考慮。通過合理配置數據脫敏規則,數據庫管理員能夠有效保護敏感信息,確保數據安全和隱私。3.3.規則實施規則實施將配置好的脫敏規則應用到數據庫中是數據脫敏的重要步驟。通過 SQL 腳本或配置文件,將脫敏規則加載到數據庫中,并自動對相關數據進行脫敏處理。例如,可以編寫 SQ
45、L 腳本,將客戶表中的身份證號字段進行部分掩碼處理。這樣,無論是數據查詢還是導出,用戶看到的都是經過脫敏處理后的數據。4.4.規則驗證與測試規則驗證與測試在實際應用前,數據脫敏規則需要經過充分的驗證與測試。測試的目的是確保脫敏后的數據在滿足隱私保護要求的同時,仍然保持其業務可用性。這包括檢查脫敏數據是否能夠支持正常的業務操作和數據分析?;跍y試環境,模擬各種業務場景,驗證數據脫敏規則的有效性和可靠性。測試過程中,可以對比脫敏前后的查詢數據,確保脫敏規則的正確實施。5.5.審計與監控審計與監控(1)脫敏規則的長期有效性為了確保數據脫敏規則的長期有效性,需要建立完善的審計與監控機制。通過支持詳細的
46、日志記錄和審計功能,可以幫助金26融機構定期檢查和評估數據脫敏規則的執行情況。通過監控數據訪問和處理過程,及時發現和解決潛在問題。例如,可以定期生成審計報告,檢查是否有未脫敏的數據泄露,確保數據脫敏的安全性和合規性。(2)脫敏過程的可追溯性基于安全性維度的考量,脫敏過程應當具有可追溯性,即需要記錄和跟蹤每一個脫敏操作以便在需要時進行審計??勺匪菪詫τ诮鹑跈C構尤為重要,因為它不僅能夠幫助確認是否正確執行了脫敏操作,還能查找可能出現的問題。通過在數據脫敏過程中提供詳細的日志記錄功能,從而記錄每次數據脫敏的具體時間、操作人員和具體操作內容。這些記錄能夠在后續審計中提供關鍵證據,確保脫敏操作的透明度和
47、脫敏過程的可追溯性。(三)三)數據脫敏可算不可見引擎數據脫敏可算不可見引擎數據脫敏可算不可見引擎是數據脫敏技術的核心組件,旨在實現數據的隱私保護和可計算性。它不僅要保證數據在使用過程中不暴露敏感信息,還要確保數據的計算和分析能力不受影響。引擎通過隱私保護計算、動態數據脫敏和數據虛擬化技術,實現數據的安全和高效處理??梢栽趯χ付〝祿凑找巹t進行脫敏處理的基礎上,保留數據的關聯關系。具體來說,可算不可見引擎在數據庫內核中采用脫敏前的原始數據進行關聯運算,而在將數據發往庫外時將數據做脫敏處理,確保了敏感數據在數據庫內可以參與運算而在數據庫外不可查看原始數據的目的。以身份27證號為例,在數據庫內,引擎
48、可以通過未脫敏的身份證號過濾數據,關聯用戶信息表和交易流水表得到準確結果。針對待出庫的身份證號,引擎會將其劃分為地址碼(前 6 位),出生日期碼(中間 8 位),順序碼(3 位)和校驗碼(最后 1 位)。行政區劃代碼根據真實的行政區劃生成權重值,并到系統內置行政區劃庫中進行脫敏計算,形成新的代碼。出生年月部分,系統會根據指定偏移值進行偏移值計算,生成新的出生年月。三位系統順序碼按照純數字脫敏方式脫敏,并根據上述計算結果生成校驗位。最終組合成脫敏后的數據出庫。達到庫內數據正常運算,出庫數據不可見的效果??伤悴豢梢娨嬷饕婕叭缦录夹g。1.1.隱私保護計算隱私保護計算隱私保護計算技術在可算不可見中
49、起到了重要作用,通過對隱私數據先運算再加密,達到在不泄露敏感數據的情況下,對數據進行處理和分析。借助隱私保護計算技術,原始敏感數據可以在數據庫內參與運算,僅在出庫時刻(返回結果時)才會做脫敏處理,確保了金融敏感數據的可用性。2.2.動態數據脫敏動態數據脫敏動態數據脫敏是數據脫敏可算不可見引擎的另一項重要技術,通過在數據訪問和處理的過程中,實時進行脫敏處理,可以為不同角色、不同權限、不同數據類型執行不同的脫敏方案,從而確保返回的數據可用而安全。摒棄業務應用層脫敏依賴性高、代價大等痛點,將數據脫敏功能內置到數據庫產品自身的安全能28力中,使數據脫敏解決方案具備完整、安全、靈活、透明、友好的特點。如
50、下圖所示,動態數據脫敏引擎是基于原有數倉底座的新引擎,在用戶交互界面下,與 SQL 引擎和存儲引擎直接交互。在 SQL 語句執行過程中,隨著查詢解析、重寫操作實時觸發的脫敏行為,SQL 引擎根據重新構建的 Query Tree 生成最優的執行計劃,使得對象變化時表、視圖、存儲過程均可實時脫敏,充分利用分布式框架、SQL 引擎保證動態脫敏性能,易用性、擴展性、維護性更好。這樣,用戶在查詢和分析數據時,看到的始終是經過脫敏處理后的數據,從而降低了數據泄露的風險。圖 1 動態數據脫敏引擎執行流程圖動態數據脫敏引擎提供了靈活的動態脫敏配置功能,可以根據業務需求,實時調整脫敏策略和規則。動態數據脫敏不僅
51、提升29了數據安全性,還增強了數據的實時性和可用性。與傳統脫敏技術相比,動態數據脫敏存在以下技術優勢:(1)良好的底座協同性動態脫敏引擎貫穿于數倉底座的諸多環節,基于預先配置好的脫敏策略,參與 SQL 引擎每條語句的解析、重寫、優化與執行。得益于原廠優勢,動態脫敏引擎更貼近底座 SQL 引擎本身,基于策略的重寫邏輯直接作用于內核優化器關鍵信息載體QueryTree而非原始 SQL 語句,同時,表對象所關聯的脫敏策略信息是直接與集群元數據實時獲取的,從而使得視圖、含有動態 SQL 的存儲過程、UDF 函數、多層嵌套、多源數據、多次 INSERT 臨時表等復雜業務場景也可以在解析執行過程實時動態地
52、屏蔽敏感數據。(2)脫敏過程用戶無感知動態脫敏功能形成了一套完備、友好、易用的使用框架,提供靈活可配置的脫敏策略語法,允許用戶指定數據脫敏的觸發條件、脫敏字段及脫敏效果函數集合,策略也允許適時關閉或開啟。當查詢語句執行過程中滿足觸發條件(通過當前用戶角色界定)時,會自動生效預置的脫敏效果,在查詢真正對外暴露執行結果的那一刻予以展示,從而做到脫敏過程無感知。(3)靈活可擴展的脫敏策略為了既達到脫敏的目的又達到保留數據特征的目的,通常對于不同類型的文本數據,期望展示不一樣的脫敏效果。以姓名和郵箱為例,姓名通常期望脫敏成“張*”,而郵箱通常期望脫敏30成“*”,從而使得脫敏效果依然具有原始數據本身的
53、可分辨性。動態脫敏引擎支持定制化脫敏效果,客戶可結合自身業務場景識別敏感數據并對業務表的指定列靈活預置脫敏策略。3.3.數據虛擬化數據虛擬化數據脫敏可算不可見引擎利用數據虛擬化技術,將脫敏數據與原始數據分離,并通過訪問控制策略,確保只有經過授權的用戶才能訪問脫敏前的原始敏感數據。通過支持多種數據虛擬化方案,數據脫敏技術可以根據金融機構的需求,靈活配置和管理數據訪問和脫敏策略。數據虛擬化技術不僅提高了數據安全性,還簡化了數據管理和訪問控制的復雜性。(四)四)數據脫敏核心算法數據脫敏核心算法數據脫敏核心算法是數據脫敏技術的基石,直接影響到數據脫敏的效果和安全性。通過集成多種數據脫敏核心算法,數據脫
54、敏技術為金融機構提供了靈活、可靠的數據脫敏方案,確保數據在保護隱私的同時,仍具備業務可用性。常見的脫敏算法包括哈希脫敏算法、遮蓋脫敏算法、替換脫敏算法、變換脫敏算法和洗牌脫敏算法等,表 1 展示了這幾種常見脫敏算法的脫敏效果。表 1 常見數據脫敏核心算法的脫敏效果算法名稱敏感數據(以手機號碼為例)脫敏處理后的敏感數據哈希脫敏123456789018da28dd7ed4357331a0d05202acb5b6bc7be4b7530e24e1cadb1086d4deb7ce5遮蓋脫敏12345678901123*01替換脫敏123456789011237129030131變換脫敏123456789
55、0112000000000,13000000000洗牌脫敏12345678901234156789011.1.哈希脫敏算法哈希脫敏算法哈希脫敏算法是一種常用的數據脫敏技術,通過將敏感數據使用哈希函數轉換為固定長度的字符串,使得原始數據無法被直接識別或逆向還原。哈希函數是一種單向函數,即數據一旦經過哈希處理,就無法輕易逆向解密還原到原始數據。因此,哈希脫敏算法在保護數據隱私方面具有較高的安全性。在實際應用中,哈希脫敏算法可以用于保存各種敏感信息,如信用卡號、社保號碼、電子郵件地址等。例如,將客戶的身份證號碼通過 SHA-256 哈希函數進行處理,生成的哈希值可以用作替代標識符,從而隱藏原始身份證
56、號碼的真實信息。哈希脫敏算法的優勢在于其計算效率高、易于實現且能夠提供較強的隱私保護。然而,由于哈希函數是確定性的,即相同的輸入總是會產生相同的輸出,因此可能會遭遇字典攻擊或暴力破解。在實際應用中,常常結合使用 Salt 技術,即在輸入數據前附加隨機數,以進一步增強哈希脫敏的安全性??偟膩碚f,哈希脫敏算法在數據脫敏中具有重要作用,能夠有效保護敏感數據的隱私和安全。2.2.遮蓋脫敏算法遮蓋脫敏算法遮蓋脫敏算法是一種常見的數據脫敏技術,通過替換或隱藏敏感數據中的部分或全部字符,使其在數據處理中不暴露原始信32息。遮蓋脫敏的基本原理是將敏感數據用特定的符號(如星號“*”或問號“?”)替換。例如,將信
57、用卡號“1234-5678-9012-3456”掩碼為“1234-*-*-3456”,或將身份證號碼“123456789012345678”掩碼為“1234*5678”。這樣,脫敏后的數據仍然保持了原始數據的格式和長度,但敏感信息部分被遮蓋。遮蓋脫敏算法可以應用于多種場景,在軟件開發和測試過程中,使用遮蓋脫敏技術可以生成與生產環境一致但不包含真實敏感信息的數據,用于測試和調試,避免數據泄露風險。在數據分析和報表生成過程中,使用遮蓋脫敏技術可以保護個人隱私,同時保留數據的統計和分析價值。在與客戶交互過程中,使用遮蓋脫敏技術可以在客戶信息展示時隱藏部分敏感數據,提高數據安全性。遮蓋脫敏通過隱藏敏感
58、數據,能夠有效保護個人隱私和敏感信息,防止未經授權的訪問和泄露。此外,遮蓋脫敏技術能夠保持數據的原始格式和長度,使得脫敏后的數據在系統和應用中仍然可以正常使用,而不需要對現有系統進行大規模修改。遮蓋脫敏算法實現相對簡單,易于在數據庫層面或應用程序層面實現和部署,對現有系統的影響較小。通過對敏感數據進行遮蓋處理,能夠有效降低數據泄露的風險。即使在數據泄露事件中,攻擊者也無法獲取完整的敏感信息,從而提高了數據的安全性。但在需33要對原始數據進行復雜分析時,遮蓋脫敏算法可能會影響數據的部分準確性,需要配合可算不可見功能使用。3.3.替換脫敏算法替換脫敏算法替換脫敏算法通過將原始敏感數據替換為偽造數據
59、,使處理后的數據無法被識別到原始信息。這種方法確保數據結構和格式不變,但不包含任何真實的敏感信息。替換脫敏適用于測試、數據分析等場景,能夠保護個人隱私和敏感信息。具體來說,替換脫敏可以通過靜態替換、動態替換和部分替換等方式實現。例如,將客戶姓名替換為隨機生成的名字,或將手機號替換為符合格式的隨機號碼。替換后的數據保留了與原始數據相同的結構和格式,但不包含真實的敏感信息。替換脫敏的優點在于保護隱私,保持數據格式和結構,易于實現和部署。替換后的數據可以用于開發和測試環境,避免泄露真實數據。然而,生成的偽造數據可能缺乏真實性,因此在實際應用中需注意選擇適當的替換數據。4.4.變換脫敏算法變換脫敏算法
60、變換脫敏算法通過對數據進行變換處理,使原始數據無法被識別。例如,將具體年齡變換為年齡段(如 20-30 歲),或將精確的地址模糊化為城市級別。變換脫敏在不影響數據分析的前提下保護隱私,適用于統計分析和數據挖掘。具體來說,變換脫敏可以通過泛化、加噪等方式實現。例如,將詳細的出生日期轉換為年份或年齡段,或在數據中加入隨機噪34聲,使得原始數據難以被推斷。變換后的數據在保護隱私的同時,仍然保留了數據的統計特性。變換脫敏的優點在于靈活性強,能夠保留數據的統計特性和分析價值,適用于大數據分析和挖掘。通過合理設置變換規則,可以在保護隱私的同時,保證數據分析的準確性。然而,變換脫敏的效果依賴于變換規則的選擇
61、和實現,需要結合具體業務需求進行合理設置。5.5.洗牌脫敏算法洗牌脫敏算法洗牌脫敏算法是一種有效的數據脫敏技術,通過隨機打亂數據中的記錄順序或字段順序,使其在數據處理中無法直接關聯到原始信息。這種方法在保護敏感數據隱私的同時,保留了數據的統計特性。洗牌脫敏算法的基本原理是利用隨機化技術對數據進行重新排列。例如,將客戶列表中的記錄順序隨機打亂,使得原始記錄無法與打亂后的記錄一一對應;或者對數據表中的某些字段進行重新排列,使得脫敏后的數據無法恢復到原始狀態。通過這種方式,洗牌脫敏能夠有效隱藏數據之間的關聯性,防止未經授權的訪問和濫用。在需要共享數據但又不能暴露敏感信息的場景中,使用洗牌脫敏技術可以
62、確保數據在傳輸和交換過程中的安全性。洗牌脫敏通過隨機打亂數據的順序或字段,能夠有效保護個人隱私和敏感信息,防止未經授權的訪問和泄露。而在保護隱私的同時,洗牌脫敏保留了數據的整體統計特性和分析價值,使得35脫敏后的數據仍然可用于統計分析和研究。通過對敏感數據進行隨機化處理,洗牌脫敏能夠有效降低數據泄露的風險。即使在數據泄露事件中,攻擊者也難以通過打亂后的數據恢復到原始數據,從而提高了數據的安全性。而且洗牌脫敏技術可以根據業務需求靈活配置打亂規則,適用于各種不同的數據類型和應用場景。綜上所述,哈希脫敏、遮蓋脫敏、替換脫敏、變換脫敏和洗牌脫敏算法各有特點和適用場景。哈希脫敏通過哈希函數保護數據隱私,
63、適用于需要唯一標識的場景;遮蓋脫敏通過隱藏部分字符保護數據,適用于開發和測試環境;替換脫敏通過偽造數據替換原始信息,適用于數據分析和處理;變換脫敏通過變換數據保護隱私,適用于統計分析和數據挖掘;洗牌脫敏通過隨機打亂數據順序保護隱私,適用于數據分析和數據共享。在實際應用中需要結合具體業務需求和數據保護要求選擇合適的脫敏算法。36五、展望建議(一(一)持續探索研究,加強數據識別和脫敏技術性能優化持續探索研究,加強數據識別和脫敏技術性能優化由于數據類型多樣、算法數量線性化增長等突出問題,實時動態場景下的數據識別面臨的主要技術難點是對識別算法的性能要求極高。如何在不影響業務應用的前提下,實現快速準確的
64、資產識別與實時動態脫敏是亟需解決的問題。首先,需要對業務的具體需求和數據資產特征進行充分調研,比如有的數據資產識別具有較強的規則性,有的數據資產識別需要多種模式結合才能表達出資產的正確組成結構;其次,根據不同的業務需求和數據資產特征,選擇合適的識別算法,均衡業務性能與數據識別的需求。針對非結構化數據脫敏,需要通過研究敏感文本識別、敏感圖像識別的算法,提升算法類型覆蓋、算法召回率,提升脫敏效果。比如針對文本數據識別需要盡可能恢復文本結構信息以增強對使用場景的感知能力,進而提升識別的準確率和運營能力。針對圖像數據,需要在對圖片進行預處理的基礎上,使用目標檢測算法與圖片分類算法進行初步劃分,并識別出
65、圖片的風格、渠道和拍攝環境等背景信息;對識別出類型的圖片調用 OCR 算法提取文本信息;結合目標檢測、圖片分類、文本匹配和校驗結果進行精細化的敏感圖片數據分類分級。然后需要根據業務需求,靈活搭配,使針對敏感數據的脫敏能夠滿足數據原始屬性、關聯性、可追蹤性以及準確性等要求。37(二)堅持守正創新,提升數據脫敏更加安全高效(二)堅持守正創新,提升數據脫敏更加安全高效隨著人工智能技術廣泛應用,如何使數據脫敏技術有效滿足多模態數據交互流量的不斷增長和復雜多變的安全處理業務場景急需解決。因此,需要將數據脫敏技術與人工智能的自主學習和強大的數據分析能力有機結合,通過定義敏感數據基本特征,利用樣本進行訓練學
66、習,數據脫敏方法也可通過人工智能進行靈活選擇,防止同樣的數據進行同樣的脫敏處理后可能帶來的可鏈接攻擊;人工智能通過對脫敏后數據進行實施監控,及時發現并糾正潛在的安全問題,實現數據脫敏技術在人工智能時代的靈活安全使用。此外,人工智能能夠根據數據的使用場景和用戶需求動態調整脫敏策略。這種自適應能力使脫敏過程更加靈活,以應對不斷變化的安全需求。人工智能通過學習用戶的行為模式,可以優化脫敏規則,減少人工干預,提升數據脫敏的準確性和效率的同時,兼顧數據安全和業務分析目標。圖計算作為一種高效的數據處理與分析工具,近年來在眾多領域展現了顯著的應用潛力。通過深度融合圖計算技術,數據脫敏的效率與安全性得以進一步
67、提升。首先,通過圖結構,數據脫敏可以更好地理解和處理數據之間的關聯性。例如,在金融領域,圖計算可以幫助識別和分析不同賬戶之間的復雜交易關系,從而在脫敏過程中保持這些關系的完整性和安全性。其次,圖計算可以用于分析數據特征,生成更智能的脫敏規則。例如,通過圖算法分析數據節點之間的關系,可以自動識別哪些數據需要更嚴格38的脫敏措施,從而優化脫敏策略。在動態數據脫敏中,圖計算可以實時分析數據流,動態調整脫敏策略。這種動態調整能力使得脫敏過程更加靈活,能夠應對不斷變化的數據訪問需求和安全威脅。另外,圖計算可以用于檢測數據中的異常行為,例如異常的數據訪問模式。通過分析圖結構中的節點和邊的變化,可以及時發現
68、潛在的安全威脅,并采取相應的防護措施。(三)強化標準指導,完善數據脫敏技術機制建設(三)強化標準指導,完善數據脫敏技術機制建設數據脫敏技術在金融業數據治理和流通方面發揮著重要作用,通過數據脫敏,可以有效實現數據降級,使原本不能流通的高敏感數據轉化為可以流通的低敏感數據,助力平衡數據安全與數據流通需求。但是目前針對不同等級和類型的數據如何有效應用數據脫敏技術,尚缺乏行業統一的標準指導。因此,一方面實現統籌規劃,建立和完善數據識別、數據脫敏相關標準體系,以標準化手段指導數據脫敏技術應用工作的體系化建設和業務推進;二是制定數據識別、數據脫敏相關技術標準,推動數據脫敏關鍵技術、算法、指標的研究和應用,
69、不斷提升數據脫敏技術的改進,以標準促進技術創新;三是制定數據脫敏技術相關測評方法和應用指南,制定科學評估體系和應用建議,建立健全評估與監督機制,嚴格落實政策要求。(四)完善基礎設施,推進數據脫敏體系化應用(四)完善基礎設施,推進數據脫敏體系化應用在業務快速增長、數據規模和復雜程度激增的背景下,數據安全治理面臨風險感知后置、場景覆蓋較為被動、網狀數據鏈路39改造成本高等挑戰。與此同時,數據脫敏等安全能力也需通過統一能力下發機制,實現整體安全防護水平的快速提升。為此,需完善網絡安全基礎設施建設。一方面,構建深入業務場景的數據采集體系,為安全策略制定、事件處置及數據流轉鏈路刻畫提供全面的場景化數據支
70、持;另一方面,建立統一高效的安全組件注入與更新平臺,使業務應用能夠以極低成本快速接入數據脫敏等安全能力,同時支持安全能力的獨立配置與動態升級,實現安全防護與業務發展的深度融合。40附錄:金融業智能數據脫敏應用實踐案例一:案例一:郵儲銀行數據脫敏應用實踐郵儲銀行數據脫敏應用實踐1.1.案例背景案例背景金融行業的業務生產系統積累了大量包括賬戶和客戶隱私等敏感信息的數據。如果這些數據產生外泄,帶來經濟損失的同時,會給銀行的聲譽及社會效應帶來負面影響。隨著未來監管的要求越來越高及金融機構內部對業務測試數據的質量的提高,金融機構數據調用的頻率增加,用途逐漸多樣化,其內部審計也提出了數據安全的相關要求。依
71、據本行測試數據管理需求,防止金融機構重要數據資產泄露風險,依托數據脫敏系統的建設,建立金融機構數據安全保護體系。2.2.建設目標建設目標數據脫敏系統項目建設目標是建設適用場景廣泛、內置豐富脫敏算法、敏感字段自動發現、支持多種數據庫及文件結構脫敏、高效安全的脫敏平臺。搭建數據脫敏常態化機制,增強數據脫敏自動化、流程化水平,對接數據提取外發流程并提供文件脫敏入口,對外發數據文件進行脫敏,降低敏感數據泄密風險。3 3.業務需求分析業務需求分析通過數據脫敏系統,實現隱私數據脫敏(變形和保護)的自動化及可視化,保障數據安全,加強調用管理,提升操作效率,41滿足審計及監管部門要求,有效防止生產數據中敏感信
72、息的泄漏,保障數據安全,規避數據風險。數據脫敏系統能完全保證隱私數據脫敏時的應用邏輯:例如,姓名使用隨機但有效、唯一的姓名來替換,而不是使用無意義的文本字符串;證件類使用隨機、有效、原始的證件類型(身份證對應身份證,軍官證對應軍官證等);在使用技術屏蔽一些數據的同時,其他諸如銀行代碼和賬號之類的數據也必須是虛擬的而且保持其在上下文中有效。數據脫敏系統支持靈活的配置方式(包括字段信息匹配、數據信息匹配)來自動探測數據庫敏感信息字段。既能輕松找到敏感數據,又能防止純人工操作引起的疏漏。4 4.數據脫敏功能詳細介紹數據脫敏功能詳細介紹(1)脫敏方式數據脫敏系統提供數據源的統一管理,可支持各種不同類型
73、的數據源,以統一方式進行配置并獲取訪問。提供從多個同構、異構數據庫中定制關聯關系,以實現跨數據源的聯邦關聯抽取能力。數據庫類型包括:支持關系型數據庫脫敏,如Oracle、Sql Server、Informix、Mysql、DB2、Postgre sql、達夢、人大金倉;支持大數據脫敏,如Teradata、Impala、Hive;支持txt,csv,dmp,Excel等文件類型作為脫敏源和目標,且支持遠程42ftp和sftp發現;(2)數據源與目標配置數據脫敏系統支持從生產數據庫通過系統生成導出文件裝載至非生產數據庫,數據導出格式非常靈活和廣泛,對間接脫敏(從生產數據庫或文件通過脫敏系統生成脫敏
74、后數據的導出文件,用于裝載至非生產數據庫及文件)、直接脫敏(將生產數據庫及文件不落地直接脫敏至非生產環境數據庫及文件)兩種脫敏方式均支持。(3)數據脫敏流程數據脫敏系統能自動將數據庫中的可能敏感信息掃描并展示,同時提供敏感字段的樣本數據,供管理員參考分析。圖 2 新建數據分析任務數據處理任務即:數據脫敏,指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。43圖 3 查看數據處理任務(4)脫敏算法數據脫敏系統提供了預定義的數據變形策略,默認支持常用中文、英文、電話號碼、證件號碼、中英文地址等屏蔽規則,內置了一些常用的算法,包括確定隨機化、模糊化、置空、亂序排列、重復值屏蔽、
75、隨機替換、特定規則替換等算法。數據脫敏系統除了上述內置的屏蔽規則之外,還支持添加基于DB和JAVA的自定義屏蔽規則,可以滿足用戶所有的屏蔽需求。(5)數據處理預覽數據脫敏系統在數據脫敏處理之前,可通過數據處理預覽,快速查看數據脫敏后的效果,可以真實地了解脫敏后的結果,方便用戶使用前預判是否按照此算法進行脫敏,可降低因脫敏結果不合格造成脫敏反復的時間。44圖 4 數據處理預覽(6)自動化脫敏數據脫敏系統實現全自動化數據脫敏,通過狀態返回值判斷不同節點的執行情況,脫敏系統自動識別文件格式和文件路徑遍歷,實現自動任務創建及執行,完成脫敏流程自動化操作。脫敏引擎采用spark/livy 組合,支持多主
76、機多節點大規模并行,處理性能主要受脫敏運算節點物理計算能力,網絡存儲能力影響,大幅提高原有脫敏運行效率。同時,通過引入Livy避免將大數據集群直接暴露給脫敏服務器,避免由于脫敏服務器直連導致的網絡配置,無權限驗證等問題。并且脫敏服務可靈活支持多套大數據集群。45案例二:螞蟻集團數據脫敏應用實踐案例二:螞蟻集團數據脫敏應用實踐1.1.案例背景案例背景數據保護傘是螞蟻集團多年的數據安全沉淀,為客戶提供大數據安全管理能力,基于數據資產嗅探、圖計算、語言模型、行為關聯分析等技術實現數據源管理、分類分級、數據資產、識別發現、脫敏水印、數據操作審計、風險管控、數據溯源分析等功能,保障數據從采集傳輸、儲存處
77、理、到交換共享的全生命周期的安全防護。產品整體架構如圖5所示。圖5 數據保護傘整體架構2.2.建設目標建設目標數據保護傘致力于提供動態脫敏能力和標準脫敏服務能力,根據保護傘對敏感信息的定義和脫敏策略的制定,智能識別系統展示內容中存在的敏感信息并進行脫敏,達到防止敏感信息泄露的目標,并能夠將企業內部的脫敏水位進行統一管理,在保障安全水位的同時極大地提升了安全管理效率。463.3.功能介紹功能介紹針對數據脫敏,數據保護傘具備以下能力:支持多種脫敏場景根據不同項目、用戶組進行自定義脫敏,并為每個脫敏場景制定不同敏感數據的脫敏規則;支持應用動態脫敏和運維動態脫敏兩種脫敏形式對應的多種脫敏場景選擇;脫敏
78、能力開放支持第三方系統或數據查詢使用入口通過API方式調用脫敏服務,以供各類業務系統實現敏感數據脫敏,在數據脫敏管理頁面配置脫敏場景和場景碼信息,對接的業務系統在有用戶查詢敏感數據時調用脫敏服務,數據保護傘根據用戶配置信息返回脫敏后的數據。脫敏規則定義支持針對不同的場景、不同的敏感數據制定脫敏規則,脫敏方式包括有保留格式加密、HASH加密、掩蓋、字符替換、區間變換、取整、置空等;支持針對每個脫敏規則設置白名單,白名單用戶在進行相應場景數據訪問時,不進行脫敏處理。4.4.應用實例一應用實例一以下是數據保護傘在某銀行的應用案例,如圖6所示。47圖6 螞蟻數據保護傘在某銀行的應用案例(1)應用數據保
79、護傘前在應用數據保護傘之前,某銀行存在如下問題:DBA等運維人員在運維過程中,可查看敏感數據,有數據泄露的風險;應用系統無法改造,無法對數據進行脫敏后展示;高權限賬號共用、濫用;數據獲取入口多且復雜,無法進行統一管控。(2)應用數據保護傘后在應用數據保護傘之后,達到如下效果:多種生產場景下的脫敏要求,保障用戶的敏感數據不被泄漏的同時不影響正常業務;業務系統老舊,升級困難,改造周期長成本高等問題得48到了很好地解決;多類數據獲取入口可統一管控;根據用戶權限細粒度管控脫敏數據。5.5.應用實例二應用實例二以下是數據保護傘在某金融機構的應用案例,如圖 7 所示。圖7 螞蟻數據保護傘在某金融機構的應用
80、案例(1)應用數據保護傘前在應用數據保護傘之前,某金融機構存在如下問題:內部人員違規訪問內部系統存在數據泄露、濫用風險;運維人員違規訪問數據庫、服務器,存在數據泄露風險;第三方通過接口違規提取截留敏感數據;日志分散,難以集中分析,人工分析成本大;安全部門對業務部門使用敏感數據情況不了解,難以制定安全策略。49(2)應用數據保護傘后在應用數據保護傘之后,達到如下效果:多場景多類數據訪問統一管控;日志集中管控分析,多維關聯分析引擎,分析條件豐富、靈活,適用于客戶復雜的業務場景,事件分析定位更精準;多種生產場景下的脫敏要求,保障敏感數據不被泄漏同時不影響正常業務;可視化了解敏感數據使用、流轉情況,幫助企業用戶制定合理安全策略。