《字節跳動一站式數據治理架構與實踐_王慧祥.pdf》由會員分享,可在線閱讀,更多相關《字節跳動一站式數據治理架構與實踐_王慧祥.pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、字節跳動一站式數據治理架構實踐基于數據驅動的分布式治理王慧祥 字節跳動全域數據治理負責人目錄機遇與挑戰字節數據治理理念分布式數據治理架構及實踐數據驅動治理智能化治理探索總結&未來展望01 機遇與挑戰治理效益與業務影治理效益與業務影響的矛盾響的矛盾 業務系統、生產流程改造影響業務 需求難統一,全局策略難落 保障治理大目標,無法顧及業務個性需求 ROI評估:治理收益、時間周期、業務影響01治理涉及的組織和治理涉及的組織和管理難度大管理難度大 角色多、范圍廣、鏈路長 治理目標對齊、管理、跟進難度大 組織越復雜,數據治理難度越大02規范規范“人人”的動的動作難度大作難度大 人員能力參差不齊,對齊目標和
2、優先級困難 治理操作依靠人,規范對人的偏差操作容忍度低 組織文化差異,數據治理落地的方法、挑戰、成效各異03缺乏適配性強的缺乏適配性強的產品工具產品工具 現狀、問題客觀工具缺失 無全局視角工具,直接跳入治理細節 跨部門、跨系統治理目標對齊、協商缺乏治理全流程工具 平臺工具不夠靈活,只能解決通用治理問題04數據治理挑戰數據治理挑戰字節治理挑戰字節治理挑戰文化與效率、業務第一文化與效率、業務第一業務要求業務要求多業務齊發展業務快速發展 快速響應業務需求 敏捷迭代OKROKR文化文化每個人都可參與規劃與策略制定分解主動尋找實現路徑互相對齊組織快速前進高效治理高效治理沒有集團層面的數據治理委員會各部門
3、采取自決策自治的數據治理模式決策與執行效率很高規模大規模大業務場景豐富 互娛 電商 商業化海量數據數據驅動數據驅動資產數據盤點,體系建設 資產元數據,特征、標簽 資源使用,存儲、計算 工具,操作及收益 經驗數據反哺,算法推薦影響大影響大業務影響 數據延遲 質量問題 數據生命周期02 字節治理理念分布式數據自治分布式數據自治傳統式治理傳統式治理分布式治理分布式治理組織與制度職權與管理成果抽查 梳理業務與數據部門,設立公司級別數據治理委員會/部門 定期梳理公司數據資產,確保資產歸屬與治理權責明確 組織定期檢查業務治理過程是否符合制度,定期檢查治理結果業務影響小周期短,見效快效率高,省人力 業務自決
4、策,各級業務/個人都可自驅治理 工具靈活,業務根據自身發展按需,治理助力業務發展 以業務為目標對齊優先級 確認核心數據問題,聚焦投入,非“一刀切”業務內治理目標對齊 實施、追蹤、核算工具化 低門檻與算法推薦:業務自驅分析與診斷,自驅優化治理 產品橫向沉淀業務治理經驗,治理規則、策略共享目標一刀切、自上而下、運動式目標多元化、靈活自治、常態化分布式數據治理平臺分布式數據治理平臺 治理是不同業務與階段的實踐,在規范與組織上應足夠靈活,業務可自身發展階段制定治理內容,自行對齊與制定部分治理標準,互相對齊形成自驅組織“一個業務單元內的數據有效性提升為數據治理的范圍和目標”業務影響小業務影響小-靈活的自
5、治模式靈活的自治模式 產品輔助業務自驅,沉淀業務經驗規則化、策略化、自動化進行持續的數據治理 低門檻與算法推薦:業務自驅進行分析與診斷能力,算法賦能治理提效 提供自上而下的規劃式治理和自下而上的響應式治理沉淀各業務治理經驗,提升治理效率沉淀各業務治理經驗,提升治理效率從治理規劃到執行診斷與復盤全流程進行治理把控。集成多種治理場景-穩定性、質量、安全、成本、報警各模塊可獨立使用,按需組合,滿足不同業務場景下的數據治理需求產品提供完整的開放能力,業務根據自身特性和發展階段進行接入適配性強適配性強-產品建設覆蓋治理全鏈路產品建設覆蓋治理全鏈路業務影響小、治理效率高、適配性強業務影響小、治理效率高、適
6、配性強分布式數據治理平臺分布式數據治理平臺-邏輯架構邏輯架構MetadataMetadata倉庫倉庫表/任務/報警治理規則引擎治理規則引擎統計規則/算法規則優化工具集優化工具集TTL/溫存/申報SLA收益核算收益核算存儲量/任務量/vcore基礎能力層基礎能力層流程框架層流程框架層健康分扣分分析問題定位實施治理治理方案層治理方案層健康分更新確定范圍設定目標選取規則執行診斷消息觸達實施治理進展更新報警訂閱問題處置根因登記復盤總結大盤分析健康分驅動健康分驅動規劃驅動規劃驅動響應驅動響應驅動治理評估層治理評估層治理用戶層治理用戶層范圍域范圍域部門/項目/數據團隊/個人資源組/隊列/庫數倉層級/優先級
7、/成本Top目標域目標域提升健康分降低存儲/計算資源優化資產數量規則域規則域存儲/計算治理規則質量治理規則安全治理規則消息域消息域SLA報警任務運行報警質量規則報警健康分體系健康分體系存儲/計算/質量SLASLA大盤大盤就緒情況/延遲趨勢資產大盤資產大盤數量/資源用量/成本報警大盤報警大盤趨勢/起夜率/根因管理角色管理角色治理推動角色治理推動角色治理執行角色治理執行角色分布式數據治理平臺分布式數據治理平臺-核心能力核心能力數據治理的基礎對全域數據進行維度劃分、打標及相關指標計算根據資產特征生成根據資產指標生成根據治理手段生成管理者視角推動者視角實施者視角評估體系達標成本縮減優化性能資產清晰規則
8、豐富動線完整收益準確數 據 驅 動數 據 驅 動規 劃 治 理規 劃 治 理智 能 推 薦智 能 推 薦開 放 能 力開 放 能 力03 分布式數據治理架構及實踐分布式數據治理分布式數據治理-體系建設體系建設業務單元(劃分資產)業務方向(劃分人員)治理分析資源大盤SLA大盤報警大盤治理評估計算/存儲健康分質量健康分實時健康分自定義健康分治理大盤治理看板/排行榜業務看板嵌入規則管理日常掃描治理方案專項治理業務單元內跨業務單元(平臺級)無效資產低ROI資產低效資產自定義規則系統規則池迭代沉淀常態化規則消息推送工作臺專家知識沉淀自動治理方案原子操作能力 操作pipeline(自動化)刪表溫存TTL通
9、知回收權限刪表/任務溫存等待7天通知物理刪除合并小文件參數優化關閉任務治理效果跟蹤連續7天靈活配置推進治理的業務單元,自下而上人人參與數據治理業務單元內制定目標,配合使用常態化及規劃式診斷,構建業務自治體系沉淀專家知識及智能化工具,執行經驗的傳承與協同,不斷提高自動化水平最小的業務打擾高效的組織形式最高的執行效率分布式數據治理分布式數據治理-治理動線治理動線通過治理全景、業務目標、數據運營資產推送信息,發現資產問題制定診斷方案制定診斷方案推動方案資產干系人治理推動方案資產干系人治理1 12 23 3使用規劃診斷能力,根據資產維度、標簽、相關指標等信息圈選數據資產,預設目標,完成時間創建方案使用
10、平臺工具,如TTL調整、刪表、轉溫存、參數優化、任務下線等手段,實施治理操作通過治理操作明細,在治理過程中管控治理進度,并根據階段性目標校準治理策略(激進OR穩妥)4 45 5方案完結后,核對收益是否符合預期,評估治理工作,并復盤治理問題自定義治理、常態化治理自定義治理、常態化治理推動者推動者/執行者視角執行者視角實施者實施者視角視角分布式數據治理分布式數據治理-推動者動線推動者動線N制定策略圈選資產設定周期跟蹤治理效果調整規則常態化治理跟蹤日常觀測資產大盤治理全景業務目標治理新方向分析診斷Y規則/元數據管理診斷方案規則沉淀YN分布式數據治理分布式數據治理-實施者動線實施者動線個人健康分數據運
11、營推送治理操作入口治理操作入口個人工作臺診斷明細成本優化SLA治理查看操作明細治理效果跟蹤資產狀態Review治 理 手 段治 理 手 段治 理 工 具治 理 工 具 設置表TTL 刪表 補充元信息 下線任務 手動調整參數 低熱度表轉溫存 降副本 小文件合并 引擎工具任務參數優化分布式數據治理分布式數據治理-創建方案創建方案&目標目標命中操作1:預計收益a命中操作2:預計收益b命中操作1:預計收益c命中操作2:預計收益d資產A預計收益a a資產B預計收益d dmax(a,b)max(c,d)規則總收益sum(a,b)資產A資產B命中規則x,y操作1:預計收益a命中規則x的操作2:預計收益b命中
12、規則z的操作3:預計收益c命中規則y的操作1:預計收益e命中規則z的操作3:預計收益f命中規則x的操作1:預計收益g命中規則y,z的操作4:預計收益h預計收益cmax(a,b,c)預計收益emax(e,f)預計收益gmax(g,h)規則總收益sum(c,e,g)資產A資產B資產C目標配置提效目標配置提效預估收益有多少?治理ROI如何?目標如何設置?分布式數據治理分布式數據治理-治理實施治理實施&操作操作80+80+存儲、計算、質量、安全存儲、計算、質量、安全自定義元數據、規則邏輯自定義元數據、規則邏輯自助接入方法、靈活定義參數自助接入方法、靈活定義參數默認規則默認規則治理場景治理場景個性化需求
13、個性化需求精細化治理精細化治理集中式:平臺集中建設規則數據及治理手段集中式:平臺集中建設規則數據及治理手段研 發 人 力 投 入 成 本 高很 難 匹 配 所 有 業 務 的 需 求分布式:數據開放、規則開放、治理操作開放分布式:數據開放、規則開放、治理操作開放滿 足 個 性 化 診 斷 治 理 需 求規 則 迭 代 穩 定 后 沉 淀 到 平 臺,實 現 共 贏操 作 開 放,業 務 自 定 義 組 合 p i p e l i n e,滿 足 精 細 化 治 理開放能力建設分布式數據治理分布式數據治理-治理實施治理實施&操作(開放性建設)操作(開放性建設)離線實時業務自定義元數據治理主數據管
14、理元數據接入元數據管理系統數倉事前檢測規則事中監控規則規則庫事后治理規則工作臺規劃診斷治理產品模塊治理全景健康分體系治理數據(健康分、治理收益、診斷明細)開放接口/數據方案配置(增刪改)治理操作規則配置(增刪改)元數據配置(增刪改)開放插件集成系統規則、自定義規則分布式數據治理分布式數據治理-收益統計收益統計&結果驗收結果驗收思路:操作實時同步、收益離線更新、埋點旁路打標Topic數據平臺治理刪表生命周期操作事件任務關閉操作實時同步模塊操作實時同步模塊明細埋點API Server參數優化生命周期小文件合并數倉離線APP層存儲資產域計算資產域操作明細收益明細事件中心操作來源治理場景旁路打標來源明
15、細埋點模塊來源明細埋點模塊前端上報關聯操作擴展元數據計算收益元數據收益離線更新模塊收益離線更新模塊存儲收益元數據格式轉換(統一化表達)基礎元數據收益數據自動化收集收益數據自動化收集結果(評估/收益)標準化:計算計算內存節約量/利用率CPU節約量/利用率產出小文件數量存儲存儲節約物理存儲量質量質量&安全:安全:質量監控治理數安全風險處置數分布式數據治理分布式數據治理-平臺架構平臺架構HDFS|HMS|YARN|離線調度系統|SPARK|FLINKAnalyze EngineDQL ParserSource AdaptorHiveAdaptorMysqlAdaptorCHAdaptor數據查詢服務
16、數據查詢服務MysqlHIVEClickHouseMessage Queue存儲介質操作收集收益收集ETL事件中心事件中心離線同步旁路打標Task Executor提交結果返回心跳狀態上報資產大盤治理評估治理方案診斷明細收益進展結果衡量治理工具元數據注冊規則配置規則解析規則管理服務規則管理服務規則調度開放規則業務單元配置目標管理Task Generator資產診斷服務資產診斷服務結果匯總收益同步狀態管理參數優化生命周期配置小文件合并治理工具箱治理工具箱刪表業務數據操作操作上報結果04 數據驅動治理數據驅動治理數據驅動治理0101030304040202資產資產體系體系評估評估體系體系規則規則體
17、系體系經驗經驗復用復用數據驅動閉環數據驅動閉環如何高效定位資產問題如何高效定位資產問題盤點資產數據,構建完備的元數據組織方式,通過特征、標簽描述元數據,根據不同場景設計治理策略(存儲、計算等)如何高優治理業務資產數據如何高優治理業務資產數據構建全公司的治理評估體系,提煉核心資產問題項通過對資產打標,可快速定位高優待治理資產如何快速完成資產治理如何快速完成資產治理挖掘、沉淀并復用治理經驗通過往期治理經驗,并對行為埋點數據分析,智能推薦治理目標整體數據架構整體數據架構 分布式治理平臺數據地圖平臺治理POCCNVASG私有化公有云數據運營SLA保障權限控制模型設計質量保障Oncall答疑任務運維特征
18、標簽治理規則健康分目標推薦APPDMDWMDWDODSDIM報警域任務域權限域流量域質量域成本域資產域治理域查詢域離線調度系統數據管理系統HMSHDFSYarn/Spark分層體系數據域數據驅動數據驅動-資產體系建設資產體系建設01.01.數據分析與展示能力,解釋性強,功能豐富02.02.根據數據特征劃分不同主題域,提供穩定可靠的維度、指標等03.03.全鏈路保障數據采集,做到數據無丟失、可監控、質量穩定04.04.從源頭對資產數據打標,血緣脈絡清晰,可追蹤、可優化治理全景治理全景元 數 據 倉 庫元 數 據 倉 庫維度劃分維度劃分數據采集數據采集組件與平臺組件與平臺大盤、趨勢、明細9大數據主
19、題域團隊、項目、資源組業務DB、消息隊列、數據推送、數據拉取存儲(HDFS|HIVE)、調度(YARN|SPARK|FLINK)、平臺(質量監控|研發)數據驅動數據驅動-評估體系建設評估體系建設資產評估體系存儲計算質量無效存儲異常存儲TTL不合理數據無查詢小文件數過多存儲格式不合理連續失敗無效計算異常計算產出表為空產出表無熱度資源申請不合理數據傾斜低優任務調度在高優隊列數據及時性數據內容質量監控告警任務穩定性元信息完整性SLA buffer不足核心任務缺失質量監控質量監控不達標核心任務缺失告警配置非核心任務配置夜間值班計劃高優任務運行在低優隊列層級信息缺失描述或中文名缺失全局視角團隊視角個人視
20、角單指標分數資產問題數同環比值治理成效成本收益整體評估趨勢曲線多維分析成員排名資源消耗催辦診斷從完備的數據域建立資產評估體系,將資產問題具像化,并提煉高優問題項根據資產類型進行分數加權計算,形成健康分,在公司層面達成共識,進行推廣運行數據驅動數據驅動-規則體系建設規則體系建設1 12 23 3數據模型數據模型數據建設分析挖掘規則建模規則體系規則體系存儲規則計算規則質量規則報警規則資產圈選資產圈選資產維度特征細節指標范圍完備的治理規則能力存儲、計算、質量、報警4大維度(80+)全局規則&自定義規則 生命周期永久/近7天產出為空/暴力掃描任務 生命周期xxx天/近xxx天產出為空統計類規則&挖掘類
21、規則 近90天無訪問表/數據傾斜任務 相似庫表/相似任務根據規則圈選資產范圍用戶自定義規則數據驅動數據驅動-智能提效智能提效精細化推進精細化推進資產資產治理治理治理目標推薦減少存儲層壓力減少存儲層壓力溫存推薦通過打分機制推薦 訪問得分 訪問周期 訪問次數 總文件大小得分 目錄總大小 文件平均大小 元數據平臺目錄得分 基礎庫,核心目錄減少進入溫存得分 跨機房訪問狀況,越頻繁使用,越不應導入溫存合理設置表生命周期合理設置表生命周期TTL推薦階梯分層推薦TTL 訪問熱度 表分層 ODS DWD 表類型 全量表 增量表根據治理經驗數據預測治理收益 單資產多操作收益預估 Max(O1,O2)多規則的目標
22、計算 Max(R1,R2,R3)考慮治理整體完成度,初步將總目標值計算最后*40%05 智能化治理探索思考:數據治理智能化思考:數據治理智能化助力降本增效助力降本增效強化治理能力強化治理能力解決解決業務痛點業務痛點規則庫、經驗分析、自主糾錯算法引擎算法引擎集成化、結果可度量、效果好操作簡易操作簡易多服務、多引擎、海量數據數據支撐數據支撐智能化治理實踐智能化治理實踐-基于血緣和熱度的推薦基于血緣和熱度的推薦熱度數據作為判斷數據訪問情況的有效輸入,其數據的精細化可以為更為細致、激進的治理提供數據支撐。HDFS audit logYarnApplication離線任務離線任務執行實例終端服務join
23、 by app idjoin by task idjoin by instance idjoin by service tokenQueryServiceEngine logcombine logjoin by query idcombine logaggagg by tableHDFS audit log aggagg by tableuniq query statjoin by tablespark/hive、presto數據維度廣,完善度高,來源可覆蓋全公司處理流程統一,可明確訪問次數概念最終結果可衡量,有效提升業務治理效率血緣數據查詢埋點數據存儲埋點數據智能化治理實踐智能化治理實踐-任
24、務參數自動優化任務參數自動優化ApplicationAggregatonAppStateApplicationAggregatonAppState作業優化設置作業元信息設置規則引擎報警信息報警信息推薦參數預覽調參設置告警管理作業指標收益統計健康分pysparkspark jarspark sql數據源引擎規則引擎API層治理平臺根據作業的特點,自動推薦根據作業的特點,自動推薦最合適的參數最合適的參數RuleRule EngineEngine:資源優化規則Shuffle優化規則任務讀寫優化規則SparkSpark EngineEngine:shuffle 溢寫分裂 shuffle 分級限流 oo
25、m 自適應 blacklist 功能優化智能化治理實踐智能化治理實踐-其他算法探索其他算法探索06 總結總結總結分布式治理低業務影響高度靈活治理高效治理資產清晰規則豐富動線完成收益明確治理全景數據挖掘數據資產體系建設健康分治理方案治理收益治理實施治理推動者治理實施者治理目標治理分析治理大盤絕對值分數值目標推薦規劃診斷治理周期通知催辦進度跟進操作動作數據收集收益歸屬收益計算模型建設特征構建元數據采集治理規則體系建設治理評估體系建設智能化策略沉淀閉環鏈路平臺功能數據賦能07 未來展望未來展望未來展望行業模版沉淀行業模版沉淀開放生態打造開放生態打造大模型能力賦能大模型能力賦能 行業模版 電商、互娛治理模版 治理流程 治理駕駛艙、治理運營、治理策略 治理能力原子化 行業治理規則、治理操作行業模版流程原子能力APIUIData 接入 -元數據 -規則 -收益 配置 -數據團隊 -資產范圍 -運營流程 接出 -治理方案 -治理收益 -治理操作豐富準確元數據沉淀總結&推斷SFT模型能力建設治理建議一鍵治理自動治理關于我們關于我們進入官方交流群官方交流群獲取更多技術干貨、活動信息進入火山引擎火山引擎DataLeapDataLeap官網官網了解更多產品信息