《2-5 祝佳俊-網易嚴選全鏈路數據治理的實踐與總結.pdf》由會員分享,可在線閱讀,更多相關《2-5 祝佳俊-網易嚴選全鏈路數據治理的實踐與總結.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、網易嚴選全鏈路數據治理的實踐與總結演講人:祝佳俊目錄目錄CONTENTS面臨的問題總結&未來規劃治理平臺的建設&實踐142數據開發治理301面臨的困難面臨的問題計算資源存儲資源數據集成數據處理數據服務數據研發數據源ETL數據倉庫數據應用AI Serving特征訓練數據流向清洗驗證標準化ODSDWDM基礎設施與服務面臨的問題數據穩定性差任務數逐漸增多,集群計算資源不足導致任務經常失敗無法正常產出數據,當大流量時無法保證基線數據完成率。數據鏈路長數據從集成到被使用鏈路長,依賴服務和組件多,數據問題定位很困難數據成本壓力大數據日積月累,存儲成本日益增加,無法準確定位無用數據,數據不敢輕易刪除。數據使
2、用效率低表數量隨著業務的發展越來越多,需求的頻繁變更,用數時常常面臨著不知道數據在哪,開發隨意無規范02全鏈路數據治理平臺全鏈路數據治理平臺Meta Data CollectorLineage CollectorMetric Collector表生命周期模型任務健康模型任務優先級模型任務資源模型數據產出模型任務調度模型統一元數據服務全鏈路血緣服務全鏈路監控服務治理應用治理模型治理服務表治理生命周期管理冷/熱數據管理小文件合并任務治理低效任務優化數據傾斜資源配置系統治理引擎優化調度優化統一元數據服務數據源元信息包括了嚴選業務域中使用到的所有數據源,如日志、mysql、ddb、kafka、hive
3、、hbase 等,例 如mysql數據源就記錄了相關的ip、端口、所屬服務、數據庫名等信息數據表元信息包括表名、schema、訪問情況、存儲位置等相關信息任務元信息包括任務的類型、依賴、資源配置、計算引擎、調度周期等信息數據服務元信息即數據產品服務,包含服務所屬的部門、負責人、產品類型等信息全鏈路血緣服務DatahubMammutHooks有數報表Lineage AgentLineage CoreLineage ManageLineage StoreMetadata ManageIndex StoreLineage StorageAtomHiveSpark統一元數據服務abcods.abcfo
4、o.bar血緣校驗全鏈路監控服務數據收集數據流處理數據批處理對外服務全鏈路監控服務任務監控任務資源使用情況流任務消息處理延遲批任務執行時間IO/shuffle Data服務監控YarnHDFSAzkaban.數據治理模型數據處理模型對所以離線調度批任務進行分析,識別生產鏈路中的關鍵節點、資源瓶頸、調度信息等,并給出相應的治理策略來使整個調度系統達到最優。表生命周期模型表的生命周期管理模型,針對表的訪問次數、優先級來對表進行冷熱分類任務健康模型從任務的:產出數據的使用率、任務依賴配置、報警配置、運行時長、資源使用等多個維度來評估一個任務的健康程度數據成本治理存儲格式文件數文件大小訪問時間訪問次數
5、表分級表生命周期模型小文件合并基于血緣錯峰合并數據備份&比對&恢復緩存預熱對于熱數據提前緩存加速查詢冷數據處理數據冷備無用數據下線過期數據刪除表元數據數據成本治理執行引擎執行歷史依賴信息產出信息資源使用冷任務下線產出冷表的數據為冷任務,自動將其下線,節省存儲/計算資源引擎自動升級自動化將使用hive計算引擎的任務升級成Spark計算引擎配置優化去除無效依賴補全缺失依賴資源配置優化低效任務處理發生數據傾斜、運行時間1小時、資源消耗(CPU/Memory)的低效任務進行通知報警人工調優任務元數據數倉基線穩定性治理智能分級調度檢查依賴檢查資源檢查執行歷史比對運行趨勢預測基線期望產出時間調度時間設置任
6、務降級調度資源調整基線正常產出全鏈路任務智能調度沙盤模擬調度模擬器計算資源治理策略任務集合任務完成時間資源使用數倉基線穩定性治理效果治理后治理前數倉基線穩定性治理03數據開發治理數據開發治理ABCD數據從集成到應用,架構設計不合理,數倉分層設計混亂架構不合理模型設計不規范,數據含義不統一,導致模型開發效率低開發效率低對相同的指標存在不同的口徑,數據準確率低計算口徑不統一缺少指標的管理,相同指標可能被重復開發指標構建混亂指標管理系統Polaris產品框架功能模塊1.錄入舊指標管理系統隨意起名感性地描述指標含義只登記原子指標,不登記派生指標2.登記在Wiki、離線文檔等處3.寫在模型物理表字段注釋
7、中4.不設計、直接寫數據開發代碼不規范的定義習慣規范后的定義流程1.切分業務域2.設計維度、生成派生詞3.設計業務過程確定所含業務流程設計業務維度矩陣設計度量4.設計原子指標、衍生原子指標關聯度量明確數據類型、匯總方式描述衍生計算公式5.設計派生指標、派生計算指標自動關聯依賴的指標確定派生詞集合和時間周期中、英文標識自動生成規范指標定義流程規范模型構建流程1.完全人工編寫實際邏輯與定義不符煙囪式開發2.為了快速交付而跨層依賴直接從DWD產出DM3.反向依賴DWS依賴DM(當維表)4.相同指標被重復計算邏輯不一致導致結果不一致不規范的模型開發習慣規范后的模型開發流程1.DWD模型基于設計進行人工
8、開發限定業務含義、所含度量2.DWS底層模型基于設計進行人工開發限定模型標識、內容、更新方式自動掃描模型依賴情況3.DWS匯總模型自動構建完全基于指標定義和模型設計自動發現依賴、生成匯總代碼自動完成任務發布、調度和運維4.DM集市層模型自動構建面向應用的數據訪問需求只取數不計算自動發現依賴、生成構建代碼自動生成和綁定數據服務0102030405數據域定義業務過程定義指標定義模型定義自動構建&發布基于Polaris平臺的模型構建流程數據開發治理成果100%100%10倍倍定義和設計規范化指標規范定義300+個各類模型規范設計200+個模型自動化構建所有在指標平臺設計的模型都100%自動化構建開發
9、效率提升模型開發效率提升10倍+需求交付時間由周縮短至天04總結&未來計劃Iceberg總結數倉規劃指標定義維度建模自動構建分庫分表離線同步實時同步數據湖任務開發任務運維數據質量統一調度可視化OLAP自主分析文件合并緩存預熱冷表下線TTL任務分級引擎升級任務下線配置優化依賴補全資源優化基線保障智能分級權限控制API管理流量控制請求重放引擎決策有數報表風控攔截CRM用戶畫像特征訓練FlinkSparkHBasePrestoKafkaRedisDoris規范設計數據集成數據開發數據分析表治理任務治理系統治理基礎服務數據開發數據治理數據網關數據應用血緣圖譜搜索展示數據采集元數據元數據&血緣更自動的治理更智能的調度推廣治理理念未來規劃THANK YOU!