《專場14.4-快手大數據安全平臺建設與實踐-馬玲玲.pdf》由會員分享,可在線閱讀,更多相關《專場14.4-快手大數據安全平臺建設與實踐-馬玲玲.pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、快手大數據安全平臺建設與實踐馬玲玲 快手 大數據安全負責人自我介紹馬玲玲快手大數據安全負責人主要關注大數據平臺架構和大數據安全技術領域主要負責大數據安全平臺的體系化建設工作關于快手致力于成為全球最癡迷于為客戶創造價值的公司我們的使命是幫助人們發現所需、發揮所長,持續提升每個人獨特的幸福感愿景以商品交易總額計全民短視頻社區日活用戶 3.63億月活用戶 6.26億日均使用時長 129.3分鐘關于快手大數據平臺提升數據決策效率,利用數據助力業績提升萬級EB級PB級十萬級集群規??倲祿咳諆粼鰯祿咳兆鳂I量通過大數據技術,對公司數據統一采集、存儲、加工和挖掘形成高質量全域數據資產,以分析決策產品和服務
2、的方式對外提供數據解決方案使命職責目 錄3.最佳實踐2.平臺建設4.總結與規劃1.背景介紹01快手大數據安全建設思路快手大數據安全面臨的挑戰背景介紹快手大數據安全平臺定位快手大數據安全平臺定位LogServerbinlog服務服務BI平臺平臺App分分析析AB系統系統 數據上報階段數據上報階段 數據采集階段數據采集階段 數據同步階段數據同步階段 數據加工階段數據加工階段 數據分發階段數據分發階段 數據服務階段數據服務階段數據上報數據上報數據收集數據收集數據同步數據同步離線離線/實時實時ETL數據分發數據分發API數據質量檢測平臺數據質量檢測平臺數據安全平臺數據安全平臺元數據平臺元數據平臺數據安
3、全平臺數據安全平臺大數據同步中臺大數據同步中臺實時實時/離線開發平臺離線開發平臺OneService平臺平臺數據同步中臺數據同步中臺實時實時/離線開發平臺離線開發平臺OneService平臺平臺職責:為大數據全鏈路、全生命周期保駕護航,保障數據安全快手大數據安全面臨的挑戰通用性精細化高可用擴展性系統覆蓋度廣大數據計算和存儲引擎數據生產類平臺數據分析類平臺數據精細化管控支持報表、數據集、指標、維度、庫、表、行、列、文件等多種資源的權限控制對數據的讀、寫等操作進行細粒度權限控制滿足多租戶體系的數據隔離和權限管控業務靈活多變滿足多種業務線的權限管控需求滿足數據分析類平臺靈活多變的業務需求性能要求高需
4、要支撐千級用戶、百萬級資源的億級權限關系,滿足幾十毫秒級鑒權延時支持OLAP每天億級查詢,HDFS百萬級QPS快手大數據安全建設思路大數據安全組織治理工具規范安全效率建設原則保證安全兼顧效率安全原則安全合規職責明確最小權限數據授權分類分級權限不轉移建設思路02解決方案平臺建設發展歷程系統架構關鍵技術發展歷程V2.0 精細化V3.0數據合規V1.0 一站式權限模型RBAC:資源和角色PRBAC:資源、資源包、動作、用戶組PRBAC(行級權限):行級權限、租戶數據隔離PRBAC(行列級權限+多模式):列級權限、精細的管控模式安全能力2A能力:提供鑒權、申請、主動授權的能力(2A安全能力)2A能力:
5、申請、審批、授權、清查等一站式權限管理能力4A能力:大數據統一認證、全鏈路審計5A能力:加解密、脫敏、安全隔離倉系統覆蓋分析類:報表平臺分析類:報表/分析工具/實驗等引擎類:HIVE分析類:報表/分析工具/實驗等開發類:ETL開發/同步/API服務引擎類:HIVE分析類:報表/分析工具/實驗等開發類:ETL開發/同步/API服務引擎類:HIVE/DRUID/CK/KAFKA/HDFS201820192020快手大數據安全原始階段解決方案認證授權訪問控制資產保護審計5A安全能力數據識別加密及脫敏權限管理合規檢查事前安全事前安全訪問控制實時告警事件響應權限回收事中安全事中安全訪問審計下載審計安全態
6、勢風險發現事后安全事后安全大數據安全大數據計算及存儲引擎數據生產平臺數據分析平臺全域全能力全周期系統架構統一化和插件化統一服務:統一服務:提供通用的認證、鑒權、查詢、審計等服務統一計算:統一計算:鑒權和規則計算統一接入:統一接入:資源通過元數據總線統一接入統一存儲:統一存儲:提供緩存管理、緩存數據加載及版本管理等引擎組件插件:引擎組件插件:滿足各個引擎自身特點,比如高QPS、低延時等系統保障高可用保障:高可用保障:提供監控告警、降級容錯、預案演練、限流等一些列措施,保障系統的高可用高性能保障:高性能保障:多級緩存等數據同步實時開發調度系統HiveOLAPHdfsKafka統一大數據安全Plug
7、inOpen API+RPC認證服務統一服務層鑒權服務授權服務審計服務查詢服務加解密服務規則引擎統一計算層鑒權引擎數據拉取服務統一存儲層緩存管理服務資源接入服務統一接入層賬號同步服務數據分析數據開發數據架構監控告警系統保障降級限流故障預案數據備份MySQLRedisHbaseHive元數據流程中心組織架構秘鑰管理中心生產組織管理應用層插件層接口層服務層引擎層依賴層BI系統APP分析AB分析關鍵技術 認證體系DSC KDCClientDSC SDKHadoop ServerMySQLHiveServer2HdfsNamenode.Worker NodesVERIFYTOKENAS_REQAS_R
8、EPTOKENACCESSAuthentication Server(AS)Token Granting Server(TGS)TGS_REQTGS_REP挑戰 輕量級:輕量級:對現有接入系統入侵最小,對性能和穩定性影響小,原理簡單具有良好的可解釋性 本地化:本地化:能夠很好的與快手特有的生產組織管理體系相結合,相輔相成 易衍化:易衍化:能夠很好的滿足快手發展需求,尤其是大集群、國際化等方案 賬號類型賬號類型 類型:類型:個人、項目組、代理賬號 表示:表示:使用principal表示 格式:格式:principal_name/typerealm 令牌類型:令牌類型:支持AccessToken、
9、DelegateToken、DegradeToken關鍵技術 權限模型ACL模型模型RBAC模型模型PBAC/ABAC模型模型快手權限模型:組合RBAC和PBAC的自研的PRBAC權限模型資源表示全局唯一標識URN三段式,由公司域、資源域和唯一ID構成常見的權限模型關鍵技術 統一鑒權鑒權模式鑒權模式1:本地鑒權:本地鑒權鑒權模式鑒權模式2:遠程鑒權:遠程鑒權DSCPluginDataEngineDSCServerDSCPluginDataEngineDSCServerauthorizeauthorizepoll policy鑒權核心架構 Auth Engine:鑒權引擎,負責鑒權模型的計算和策
10、略規則的計算 Policy Refresher:負責策略的增量和全量的拉取 Cache Manager:負責鑒權服務本地緩存的管理,包括緩存的讀寫以及定時持久化到本地磁盤 Data Loader:負責從數據庫加載策略相關的數據,并且根據路由策略查詢不同的一組從庫,做到存儲的隔離鑒權全景圖關鍵技術 全鏈路審計數據源數據引擎HiveOlapKafkaHdfs數據生產離線開發實時開發離線同步實時同步數據分析指標模型BI分析AB平臺數據服務實時上報大數據安全審計平臺采集轉換接入資產操作日志資產訪問日志資產下載日志豐富血緣信息豐富安全元信息存儲計算CHES離線計算實時計算應用策略管理審計策略配置審計策略
11、計算風險管理異常行為告警異常行為溯源特征支持日志標準化累計服務函數服務全鏈路覆蓋融合血緣信息統一審計標準特點風險識別告警03數據引擎安全最佳實踐數據分類分級敏感數據保護數據分類分級 背景介紹C1C2C3C4P1P2P3P4公開級內部級機密級絕密級公共傳播數據非公共傳播數據通用數據隱私數據數據分級數據分類數據升級原則數據降級原則數據衍生原則快手數據分類分級標準快手數據分類分級原則數據分類分級 解決方案字段血緣鏈路傳播字段血緣鏈路傳播檢測算法檢測算法規則模板規則模板216543987c0.c0c0c0transformerS蘇1234softmax收容類元數據管理分類分級管理資產管理管理控制臺資產
12、大盤分析資產大盤分析自動數據識別自動數據識別元數據采集元數據采集數據收集服務數據索引服務數據源mysql存儲元數據采集索引庫創建/存儲索引讀取元數據數據識別引擎讀取文件內容分類法匹配存儲分類結果mysql存儲資產信息分類信息訪問情況元數據采集 統一采集:統一采集:全鏈路資產的元信息統一上報到元數據 統一存儲:統一存儲:元數據及血緣信息統一存儲至圖數據庫中自動數據識別 血緣鏈路傳播:血緣鏈路傳播:表/字段血緣繼承 檢測算法:檢測算法:改進BERT模型、機器學習算法k-means、校驗算法Luhn等 規則模板:規則模板:正則/關鍵字,內置50+個人敏感信息的識別規則模板資產大盤分析資產信息:資產信
13、息:可以從個人、組織、部門三個視角查看不同級別資產的分布分類信息:分類信息:展示資產各個分類的數量訪問情況:訪問情況:高頻訪問資產的分類分級分布數據引擎安全 問題及挑戰管理規范1.組織管理體系不清晰,賬號體系未建設2.資產歸屬不清晰,無法定義資產的安全管理角色3.沒有多租戶的權限管理規范運營治理1.引擎的查詢無法定位到真實訪問用戶,導致推動用戶改造困難2.各使用方平臺領域知識復雜,導致溝通協作困難3.用戶需求多樣,需要支持靈活多樣的灰度和降級策略安全能力1.身份認證能力缺失,沒有安全審計及溯源能力2.沒有權限控制,用戶可查詢任意數據,安全風險巨大3.數據引擎鑒權對平臺的性能和穩定性要求高安全平
14、臺CKHDFSKAFKADRUIDHIVE接入五大引擎挑戰數據引擎安全 解決方案MetastoreHiveServer2JDBC/BeelineDSC PluginMR(Hive On MR)Spark(Hive On Spark)Presto(Hive On Presto)HDFS ClientRouterDSC PluginNamenodeDatanodeDatanodeDatanodeDSC PluginauthcauthzauthcauthzHIVEHDFSAPI/ShellResourceCollectorServerResourceMappingServerAdmin Server
15、DSC規范 賬號體系:賬號體系:提供個人賬號、生產賬號和代理賬號三種類型 管理角色:管理角色:安全接口人、租戶管理員、項目組管理員和權限負責人四種角色 權限隔離:權限隔離:租戶之間權限隔離;租戶的權限由歸屬和申請兩種獲權方式工具 產品能力:產品能力:SQL類引擎行列級權限;租戶體系的多種管控模式 鑒權模型:鑒權模型:HDFS及之上的其它引擎分層獨立進行訪問控制;大賬號機制 安全元信息:安全元信息:具有血緣關系的資產,安全元信息聯動 鑒權鑒權pluginplugin:通用的鑒權插件,提升鑒權計算性能治理 頭部平臺:頭部平臺:頭部平臺用戶進行重點溝通 長尾運營:長尾運營:采用多種運營渠道觸達用戶
16、灰度封禁:灰度封禁:豐富靈活的封禁策略敏感數據保護 問題及挑戰法律合規挑戰滿足不同國家的法律法規要求,需要分國家進行敏感數據的治理成本效率敏感數據治理需要上下游鏈路進行改造,需要考慮改造的成本和效率集中管控需要對敏感數據進行集中管控,便于安全管理和風險預警及響應敏感數據保護 解決方案數據源數據入倉數據倉庫數據出倉數據管理MySQLKafka其它規范 國內外高敏感信息:國內外高敏感信息:根據國內外法律法規梳理高敏感個人信息 國內外脫敏規范:國內外脫敏規范:定義各類敏感數據的脫敏方式和要求工具 數據識別:數據識別:高敏感數據識別、文件/字段級加密、脫敏 數據保護:數據保護:字段級權限控制、嚴格的審
17、批流程、安全隔離倉、精細管控模式 數據檢測:數據檢測:代碼檢測、數據內容掃描、下載監控 數據響應:數據響應:數據泄露應急預案、全鏈路異常監控告警及溯源治理 存量治理:存量治理:上下游鏈路生產任務改造優化、存量及增量數據重刷 增量治理:增量治理:日常敏感數據識別、治理跟進、工具沉淀離線同步實時同步安全隔離倉數據查詢API服務BI分析下載導出數據分發元數據管理安全中心打標中臺ODSDWDDWSTOPICAPP普通倉ODSDWDDWSTOPICAPP04總結與規劃未來規劃成果總結成果總結30+千萬級百萬級千級BI系統APP分析AB系統報表系統.(20+系統)數據同步服務化平臺數據開發平臺數據地圖指標
18、管理HIVEDRUIDCKKAFKAHDFS數據應用數據開發數據架構接入系統數資源數授權數日均申請量未來規劃覆蓋度態勢感知新技術智能化 通過機器學習算法實現數據的智能分類分級 持續提升數據分類分級的準確性 推動底層引擎的使用方100%接入認證和鑒權 對數據資產分布、敏感數據訪問行為進行多維度全方位分析,對異常行為進行檢測 探索前沿的隱私保護技術,比如聯邦學習、安全多方計算等,增強隱私數據保護,真正做到“數據的可用不可見”歡迎交流歡迎溝通交流以虛擬禮物打賞流水和直播月均付費用戶計以商品交易總額計快手數據中臺公眾號快手數據中臺公眾號快手大數據公眾號快手大數據公眾號快手技術團隊公眾號快手技術團隊公眾號