1、字節跳動大數據平臺安全與權限治理實踐許從余 火山引擎數據平臺產品經理|01字節大數據安全體系現狀和難點02細粒度權限管控和治理03資產保護能力04數據刪除能力目錄 CONTENT|字節大數據安全體系現狀和難點01|治理原則|外部內部安全合規的風險壓力業務線的效率壓力面對政府監管合規要求,暴露出不少問題,例如不能靈活篩選,保留和刪除數據等,當沒有被很好完成時,核心業務會處于巨大風險中面對外部壓力,不可避免的會出現一些偏臨時,偏剛性的要求和機制,在完成合規要求的同時,必須兼顧內部業務運轉的效率治理原則保證合規,兼顧效率字節跳動大數據安全產品體系|安全原則法律法規制度國家安全法數據安全法個人信息保護
2、法個人數據使用規范數據權限審批流程PIA管理流程數據安全保護基線Tagging-數據分類分級數據自動識別確認落標數據分類分級標準管理外部內部Access-權限管理權限申請授權數據權限有效期庫、表權限管控行、列權限管控數據權限交還Audit-風控審計數據加密存儲數據解密使用Asset Protection-資產保護風險用戶識別高危行為識別人員異動處置數據訪問審計數據授權審計冗余權限回收職責明確隱私合規事中保護事后審計范圍最小化Deletion-數據銷毀數據刪除產品操作審計數據脫敏|細粒度權限管控和治理02細粒度權限模型|idnamegendercountryagerace(敏感列)1Alicef
3、uk25black2Bobmuk30white3Jackfus22yellow4Lucymus23yellow5Jamesmca35black6Lilyfca43white新權限模型特性A:DBB:tableC:table+race(敏感列)D:id+name+genderE:table where gender=m and country in(us,ca)F:country+age+race where country in(uk,us)A BCDEF列級權限控制表/列權限附帶行限制敏感表/列單獨管控靈活的權限授予機制|數據資源與授權主體靈活組合審批流靈活定義自動審批 30+%智能風險判斷
4、輔助審批智能審批|申請工單傳入數據風險結果返回(評分&標簽)智能審批模型人員風險模型人事狀態訪問行為歷史權限資源風險模型分類分級層級&熱度歷史權限人員資源關聯模型人員資源關聯度資源聚類人員聚類離線數據訓練實時上游數據讀取權限審批權限申請攔截自動審批風險標簽透出智能審批通過自動審批/人工審批提交鑒權引擎賦權審批完結,結果返回審批未通過人工審批智能審批功能體系低風險:自動通過高風險:攔截自動審批,透出風險,人工審批低風險:節約審批時長10萬小時高風險:輔助識別,駁回率高7%冗余權限治理回收|治理效果冗余權限治理流程訪問、鑒權雙重判斷白名單、保留豁免機制50+%3%|資產保護能力03資產保護應用場景
5、|加密方案介紹|大數據挑戰數據鏈路長數據量大用戶多機制層級靈活性強度兼容性效率操作難度技術難度數據內容加密應用級高強低低高低文件格式透明加密文件格式高中低高低中HDFS加密文件系統低-中中中中低高磁盤加密磁盤級低中高中低高需滿足高數據一致性高數據可用性高效率數據重寫密文具備可識別性性能優化用戶鑒權交由權限引擎DataKey緩存|數據刪除能力04數據刪除介紹|刪除需求場景賬號刪除滾動刪除其他大數據刪除技術挑戰傳統HDFS數據刪除只能通過覆寫文件的方式達成,刪除一個用戶數據就需要覆寫該表所有hdfs文件,對系統I/O消耗巨大。數倉存儲在HDFS之上,主要格式:列存儲,而對于用戶數據遺忘權的滿足需要對行級別數據的刪除,刪除效率低,開銷大。離線表的數量龐大。對HDFS的存儲資源、磁盤IO、網絡吞吐、計算資源、ETL調度系統都會有極大挑戰。對業務資源的搶占。ETL任務臟讀、幻讀和不可讀的問題性能的提升基于Bytelake降低覆寫總量15倍Bytelake格式轉換速度提升10倍提升覆寫速度80%調度和系統的優化系統能力計算能力存儲能力數據庫能力非常感謝您的觀看|