1、騰訊數據治理技術實踐趙磊 騰訊 騰訊元數據系統負責人|01數據治理簡介02數據治理管理體系03數據治理技術實踐目錄CONTENT|01背景介紹初步認識什么是數據治理,為什么要做數據治理,以及如何做數據治理什么是數據治理|DAMA數據管理知識體系指南l 數據治理是對數據資產管理數據資產管理行使權力和控制的活動集合活動集合(規劃、監控和執行)。l 數據治理職能指導其他數據管理職能如何執行,數據治理是數據治理是在高層次上執行數據數據管理管理。數據治理的目的|數據可用性數據質量數據安全數據治理的困難|01 數據多樣化,缺少統一標準02 多種類型異構數據源并存03 計算邏輯理解不一致,結果統計有偏差04
2、 數據鏈路較長,層次復雜,問題定位困難05 生命周期管理難度高,數據成本壓力大06 數據分散,沒有形成完整的管理體系07 數據安全與合規保障的問題越發突出08 數據價值的評估較為困難,ROI無法度量數據治理的方法|發現治理的對象執行治理的過程優化數據管理流程知治管通過技術手段將組織內各類存儲介質中的數據資產元數據進行統一的采集存儲按照統一的標準結合技術手段對數據資產進行規范化處理優化數據使用流程,約束數據使用方法,提升增量數據的質量。數據治理的過程|1.現狀盤點2.數倉建設3.質量檢測4.持續改進l 成立治理組織l 梳理內容鏈條l 確定治理目標l 評審關鍵指標l 數據上報治理l 重構數據模型l
3、 數據測試驗收l 提煉數據質量規則l 定制評價標準l 質量檢測和告警配置l 輸出質量報告l 建立數據地圖l 分析血緣關系l 持續監測數據質量l 優化數據使用流程|02騰訊數據治理體系簡介介紹騰訊內部數據治理體系建設思路和策略騰訊數據治理-組織管理體系|數據治理OTeam標準規范協同平臺協同社區運營建立企業級的數據治理標淮和測評體系開箱即用的一站式數據治理工具平臺營造活躍、開放的數據治理社區生態組建公司級的數據治理協同共建組織通用解決方案。統籌大數據領域開源協同工作騰訊數據治理業務框架|數據治理平臺全域元數據服務元數據采集元數據存儲元數據倉庫數據血緣生命周期底層存儲數據治理標準數據治理測評資產創
4、建數倉建模數據開發數據發布數據運維資產評估分類分級資產評分資產質量成本賬單資產運營數據地圖血緣分析資產市場責任歸屬資產管控權限管控流程管控審計流水大數據RDBMSNOSQLKV技術元數據業務元數據數據分類分級安全管理要求數據安全管理要求數據共享管理規范數據價值管理規范數據標準管理規發元數據管理規范數據安全管理能力成熟度評測元數據管理成熟度評測加密脫敏騰訊數據治理體系-元數據管理|如何采怎么存引導治騰訊數據治理體系-數據資產管理|生命周期數據清理價值分析確定歸屬區分優質資產,減少垃圾數據通過業務屬性和數據訪問行為兩個維度04影響分析判斷自動化數據清理數據恢復保護03智能化生命周期推薦人工調整審批
5、02元數據記錄歸屬信息、數據文件最近數據訪問賬號01騰訊數據治理測評體系-元數據管理成熟度|元數據管理成熟度五級評測標準定義騰訊數據治理-數據安全治理|數據分類分級1數據使用管控2安全審計3數據資產梳理分類、分級定義安全等級識別識別結果標記權限、賬號隔離申請流程管控靜態動態加密數據使用控制安全事件告警訪問記錄下載記錄安全報告騰訊數據治理測評體系-安全管理能力成熟度|騰訊數據安全管理能力成熟度評估五級模型數據分類分級數據訪問控制數據資產保護用戶身份管理和認證數據權限管理數據操作審計數據采集安全數據傳輸安全數據存儲安全數據使用安全數據共享安全數據銷毀安全安全管理能力成熟度評測覆蓋數據全生命周期,包
6、含12個管理能力域,86個控制項。騰訊數據治理測評體系-安全管理能力成熟度|完整的制度、流程。工具、方法4級(標桿級)3級(穩健級)2級(基礎級)1級(初始級)5級(卓越級)具備動態改進體系和智能化設備設施,積極輸出能力并在業界有較大影響力。數據安全治理工作可度量、可驗證,第三方認可度高。系統化,規范化的制度、流程、工具、方法簡單的制度、流程騰訊數據安全管理能力成熟度評估五級模型|03數據治理技術實踐介紹元數據管理、數據數據血緣相關技術實踐統一元數據技術架構|統一元數據-微服務劃分|統一元數據-數據采集|dispatcher實時采集consumerlineageDDLAuditloghbase
7、eshermesGraphdb增量過濾pulsar元數據刪除判斷Guid generatorData bus定時采集storage重復判斷定時增量、全量實時 Jdbc query Jdbc metaApi 自定義 拉取 Hook Listener coprocessor binloghive元數據采集有多少種方式?統一元數據-血緣采集分析|視圖/物化視圖 TEMPORARY臨時表 WITH AS子查詢 CACHE AS子查詢 JOIN中間結果 UNION中間表 LATERAL VIEWSql解析能力統一元數據-血緣數據存儲|tblAtblBtblCtblDtaskAtblAtblBtblCtb
8、lDtaskAId:taskAtaskAId:taskAcreate table db.tblBtblBas select a.id,a.name from db.tblAtblAas a;taskAcreate table db.tbltblD Das select a.id,a.name from db.tblblC Cas b;tblAtblBcreate table db.tblB as select a.id,a.name from db.tblA as a;taskBtaskAtaskB任務信息保存一份,血緣關系錯亂表作為點,任務作為邊,任務信息覆蓋表、任務均作為點GraphDB表作為點、任務做邊非常感謝您的觀看|