1、荊 繼 武商業脫敏系統方案基于加密的數據脫敏基于失真的數據脫敏數據脫敏指標數據脫敏的有效性從可逆性體現,數據方法可通過變換參數和變換偏移值體現數據屬性可逆性部分知識可逆不可逆變換參數絕對值相對值偏移值常量隨機值數據脫敏的有效性從可逆性體現,數據方法可通過變換參數和變換偏移值體現數據屬性可逆性部分知識可逆不可逆變換參數絕對值相對值偏移值常量隨機值得知部分初始數據、或可逆的脫敏方法、或脫敏使用的偽隨機數生成器及種子,可推演出原始數據例:yi=xi+constantyi=f(xi)yi=xi+random_number數據脫敏的有效性從可逆性體現,數據方法可通過變換參數和變換偏移值體現數據屬性可逆性
2、部分知識可逆不可逆變換參數絕對值相對值偏移值常量隨機值參與變換的數值與原始數值相關,比如為原始數據的百分比參與變換的數值與原始數據無關數據脫敏的有效性從可逆性體現,數據方法可通過變換參數和變換偏移值體現數據屬性可逆性部分知識可逆不可逆變換參數絕對值相對值偏移值常量隨機值 最終用戶關注數據的聚合結果,不關注個體數據 聚合結果:患某種疾病的人數 個體數據:某個病人患該疾病 問題:提取聚合結果的時候可能披露個體數據 患某種疾病的人數為N 病人名字不為A,患某種疾病的病人的人數為M 基于失真的數據脫敏技術:在破壞個體隱私數據的基礎上,不影響數據的聚合結果 阻塞 隨機化 對原始數據不引入虛假噪聲,僅泛化
3、處理對原始數據不引入虛假噪聲,僅泛化處理 典型方法典型方法1 1:離散化:離散化 屬性值被離散化到各個區間 區間大小不能等長 使用區間作為屬性來參與運算 如:張三的年齡為25歲,使用區間20,30表征張三的年齡 典型方法典型方法2 2:使用“:使用“?”替代數據中的某些屬性”替代數據中的某些屬性 同一區間內的值表征形式一致,脫敏后聚合準確率低 不同應用需要設計特定算法對處理后的數據進行處理 隨機化隨機化 實際數據:實際數據:x xi i 使用使用x xi i+r+r,r r是符合某個分布的隨機值是符合某個分布的隨機值 均勻分布均勻分布r 均勻分布于-,+,平均值為0 高斯分布高斯分布r 符合高
4、斯分布 均值(r)為0 標準方差為高斯分布均勻分布概率x定義:原始數據值:x1,x2,xn 隨機失真變量:y1,y2,yn 失真樣本:x1+y1,x2+y2,xn+ynFY:隨機失真變量yi的累計分布函數CDFFX:原始數據值xi的累計分布函數CDF重構問題:給定失真樣本(x1+y1,xn+yn),FY 估算FX 使用貝葉斯定律運算FX:1.初始化f(x,0):均勻分布2.自j=0到終止條件3.根據f(x,j)和 FY計算f(x,j+1)4.滿足條件終止,得到 FX終止條件:1.計算f(x,j).2.當f(x,j+1)與f(x,j)之間的差值非常小時實驗結果表明:重構后的數據分布與原始數據分布
5、基本一致,即使隨機數據樣本分布與原始數據相差甚遠 通過添加隨機噪聲擾亂失真敏感數據 隨機數必須隨機!分布必須準確!原始值未知,以保護數據敏感信息 數據脫敏后,能夠準確獲得聚合分類結果(支持決策樹等)有實驗認為:在高置信度的情況下,高斯分布的隨機噪聲比均勻分布效果好 其他相關研究 期望最大化(Expectation Maximization)算法 同態加密算法:A way to delegate processing of your data,without giving away access to it.(Craig Gentry)他人可對加密數據進行處理,但處理過程中不會泄露原始數據 基于
6、同態加密的數據脫敏技術:用戶將數據進行同態加密后,提交給數據中心存儲 數據中心需要對數據進行分析處理時,可在不知道用戶數據的前提下正確處理數據 同態加密算法:A way to delegate processing of your data,without giving away access to it.(Craig Gentry)他人可對加密數據進行處理,但處理過程中不會泄露原始數據 基于同態加密的數據脫敏技術:用戶將數據進行同態加密后,提交給數據中心存儲 數據中心需要對數據進行分析處理時,可在不知道用戶數據的前提下正確處理數據 密鑰生成:key 加密函數:加密用戶數據,生成密文 評估函數
7、:在給定數據處理函數f下,對密文進行操作,使得結果相當于用戶用密鑰key對f(data)進行加密 解密函數:用于獲取處理結果f(data)C=Encrypt(key,data)Function f()C=f(C)=Encrypt(key,f(data)f(data)=Decrypt(key,C)全同態加密:支持任意給定的數據處理函數f,脫敏后的數據可滿足任意數據處理需求 開銷大,難以滿足實際應用 部分同態加密:支持特定的數據處理函數f,即脫敏后的數據只能滿足特定的數據處理需求 開銷小,易實現,已可在實際應用中使用 全同態加密:支持任意給定的數據處理函數f,脫敏后的數據可滿足任意數據處理需求 開
8、銷大,難以滿足實際應用 部分同態加密:支持特定的數據處理函數f,即脫敏后的數據只能滿足特定的數據處理需求 開銷小,易實現,已可在實際應用中使用 IBM IBM InfoSphereInfoSphere OptimOptim數據脫敏數據脫敏 OracleOracle數據脫敏數據脫敏 InformaticaInformatica數據脫敏數據脫敏 蘋果的差分隱私保護蘋果的差分隱私保護多種掩碼技術混合掩碼、基于條件的掩碼、可重復掩碼、打亂、加密、隨機化等 多種脫敏技術 打亂編碼ID、替換名稱、常量替換、信用卡掩碼技術差分隱私,通過 laplace 和指數兩種機制添加噪聲,目標是做數據挖掘前先進行處理。蘋果的方案,是在手機本地加入噪聲后再上傳,一般統計的是輸入法的新詞匯,表情包的使用狀況,運動相關數據等。THANK YOU謝謝觀看