《8-3 貨拉拉數據治理平臺建設實踐.pdf》由會員分享,可在線閱讀,更多相關《8-3 貨拉拉數據治理平臺建設實踐.pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、貨拉拉數據治理平臺建設貨拉拉數據治理平臺建設實踐實踐陳元 貨拉拉 資深大數據工程師張放 貨拉拉 高級大數據工程師|010102020303目錄目錄 CONTENTCONTENT|貨拉拉數據治理體系貨拉拉數據治理體系數據質量平臺建設實踐數據質量平臺建設實踐元數據平臺建設實踐元數據平臺建設實踐|0101貨拉拉數據治理體系貨拉拉數據治理體系|背景與現狀成本問題上游數據變更引發故障模型重構數據字典不規范大量全量抽數實時流沒壓縮不合理的分區策略數據表沒有生命周期無效任務空跑任務發布流程不規范缺乏全局的模型規范實時數倉缺乏公共層應用數據沒有生命周期管理鏈路長不穩定,產出不及時缺少監控規范,數據問題不能及時
2、發現數據質量問題鏈路穩定性問題數據服務數據處理數據接入數據生成|數據治理關鍵環節 組織保障平臺支撐制度建設項目落地數據治理組織保障:明確職責分工制度建設:制定標準流程,保障落實執行項目落地:貼合業務,追蹤成效平臺支撐:研發支撐系統,提質增效|貨拉拉數據治理產品體系 大數據大數據基礎平基礎平臺臺基礎層基礎層離線計算實時計算資源管理大數據存儲基礎元數據(Hivemeta)在線數據存儲HBase實時數據接入埋點數據接入數據對賬數據鏈路監控離線數據接入數據數據接入接入平臺平臺接入層接入層數據數據門戶門戶權限權限中心中心個人個人中心中心內容內容管理管理知識庫知識庫建議建議反饋反饋數據門戶數據門戶權限中心
3、個人中心內容管理知識庫建議反饋門戶首頁平臺層平臺層&數倉數倉數據研發平臺數據研發平臺飛流實時開發BQ數據查詢IDP數據集成開發數據倉庫數據倉庫DWDWB B基礎整合層基礎整合層DWDWT T明細數據層明細數據層數據湖接入(數據湖接入(T+1T+1、近實時、實時)、近實時、實時)DWSDWS公共匯總服務層公共匯總服務層用戶集市用戶集市司機集市司機集市主數據庫主數據庫數據倉庫數據倉庫數據工具箱數據工具箱自助分析自助分析可視化大屏可視化大屏數據服務工具數據服務工具快捷分析快速報表數據智能支撐工具數據智能支撐工具服務層服務層預警/告警監控多維分析固定報表AB Test特征平臺大數據分析平臺大數據分析平
4、臺數據應用支撐服務工具數據應用支撐服務工具數據工具箱自助分析可視化指標庫管理數據上報固定報表用戶畫像數據云服務大數據分析平臺應用層應用層智能營銷智能廣告投放實時報表鷹眼監控經營分析用戶分析數據治理平臺數據治理平臺ODS貼源數據層DWS公共匯總服務層DIMDIMDWD明細數據層DWB明細數據整合層用戶集市用戶集市司機集市司機集市集市1集市2指標庫AI平臺輔助決策類應用輔助決策類應用賦能業務類應用賦能業務類應用數據目錄管理數據標準管理數據資產評估數據資產管理數據模型規范數據庫管理數據建表管理數據模型管理數據地圖數據血緣分析數據源探活元數據管理成本度量與展示輔助治理成本運營機制成本管控質量規則配置數
5、據質量監控數據質量報告質量問題處理數據質量管理數據安全管理庫表權限管理數據審計數據分級分類數據加密數據脫敏報表權限管理下載權限管理|0202數據質量平臺建設實踐數據質量平臺建設實踐|面臨的數據質量問題有哪些?表未按時產出 上游表數據錯誤污染下游 埋點數據丟失 報表指標數據異常.影響影響報表延遲鏈路異常數據丟失決策錯誤|產生數據質量問題的原因 技術端管理端基礎設施業務源系統變更業務端數據輸入不規范數據開發 SQL bug任務流程、參數、配置錯誤計算資源不足機器硬件問題缺乏質量意識缺乏有效質量問題處理機制數據生成數據接入數據處理數據服務業務端技術端基礎設施管理端|數據質量保障思路 制定質量管理機制
6、制定數據質量標準制定質量檢測規則監控原始數據質量監控數據中心質量反饋數據質量問題修復數據質量問題收集數據質量需求完善質量管理制度完善數據質量標準考核數據質量水平事中監控事前預防事后完善|貨拉拉數據質量平臺“零”代碼一站式質量檢測全鏈路監控全方位質檢報告|貨拉拉數據質量平臺-系統架構 高穩定高效率熔斷阻塞StandbySchedulerHiveServer2PrestoExecutortasktasktaskActive SchedulerZookeeperZookeeperZookeeper任務管理規則配置中心質量報告日志服務網關服務1網關服務2APIAPILeader Election元數據
7、管理平臺庫表權限系統ActiveMasterWorker.WorkerStandbyMaster混合引擎任務調度平臺MySQLWeb UI|數據質量分析效率 使用混合引擎(Presto)提升分析效率:P80質量檢測任務5秒內完成P98質量檢測任務提速79%(915s-192s)|數據質量平臺-規則體系 完整一致準確及時規則模板表實例規則模板規則模板表實例表實例表實例元數據管理平臺數據標準空值檢查波動檢測數據量檢測唯一性檢測長度檢測值域檢測正則匹配自定義SQL質量檢測規則(字段約束、值域檢測)(數據長度、碼表、值域)|數據質量平臺-熔斷機制 任務節點輸出表1輸出表2輸出表3表1規則表2規則表3規
8、則123強規則強規則優先執行1.周期性任務執行2.觸發質量規則校驗4.強規則不通過5.周期性任務熔斷阻塞下游任務節點4質量問題級別:一般、重要、嚴重強規則:強規則不通過,并且是嚴重質量問題,告警+阻塞下游任務節點弱規則:弱規則不通過,只警告|數據質量平臺-質量報告全方位質檢報告:多維度質量分析報表多角度質量績效評分支持用戶自定義評分依據和權重|數據質量平臺-監控告警監控告警:及時發現數據質量問題告警級別與告警方式:一般一般-郵件重要重要-郵件+飛書嚴重嚴重-郵件+飛書+電話|數據質量平臺 1500+張接入的表數量100%核心鏈路表覆蓋300+次/月檢測到的數據質量問題數14次2022年累計熔斷
9、阻塞現狀現狀有效保障了數據質量和鏈路穩定性|數據質量平臺未來規劃 1.治理體系構建質量治理體系,支持部門/人級別數據質量度量、展示和運營能力2.OLAP場景支持OLAP場景(Doris表等)數據質量檢測3.實時場景支持實時場景數據質量檢測未來規劃0303 元數據管理平臺實踐元數據管理平臺實踐張放 貨拉拉 高級大數據工程師|0101平臺平臺介紹介紹0202成本治理體系成本治理體系0303數據血緣數據血緣0404未來規劃未來規劃目錄目錄 CONTENTCONTENT|平臺介紹平臺介紹-系統系統架構架構定規范建能力做運營做治理 制定公司級數據模型規范 并逐步推廣到所有部門 數據生命周期治理 離線存儲
10、治理 成本度量數據模型管理數據地圖、數據血緣、數據資產管理、成本治理體系.模型管理宣講推廣、生命周期覆蓋、成本運營|平臺介紹平臺介紹-對標業界對標業界公司/產品元數據基建元數據應用元模型血緣建設數據地圖數據管理數據血緣其他快手統一元模型 10+元數據類型 10W+任務、幾十萬Hive表 實時全鏈路血緣 自定義查詢 分類檢索 案例分享 生命周期 安全等級 血緣查詢優先級推導 下線檢測元數據服務:離線元數據倉庫B站 統一元模型 10+元數據實體類型 10種元數據關系類型 6W+Hive表和11W+任務數全鏈路血緣字段級血緣 類SQL查 關聯查詢 分類查詢 熱度推薦 生命周期 安全等級 血緣地圖 影
11、響分析元數據質量:自動化的采集質量問題解決數據畫像:樣例數據和數據探查網易6+元數據實體類型字段級血緣多維度檢索數據預覽字段級溯源血緣的生命周期管理元數據畫像:元數據標簽(技術標簽、業務標簽)aly DLF&DataWorks10+表格式支持API類型支持數據湖格式 字段級血緣DataWorks(數據地圖)元數據分析和管理、成本分析與優化、冷熱分析、有效性分析、安全度分析、性能優化、數據生命周期管理 血緣地圖 影響分析元數據服務:兼容HMS協議、支持多引擎訪問數據開發提效:元數據驅動的數據建模、驅動ETL元初Hive元模型表級血緣數據資產目錄元數據檢索生命周期冷熱分層血緣查詢影響分析成本治理體
12、系數據資產管理|存儲治理存儲治理-面對的問題面對的問題無數據生命周期表數量大 17W+Hive17W+Hive表表增速快4PB/4PB/月自然增長月自然增長冷數據量大約約33%33%數據數據9090天內無訪問天內無訪問無冷熱分層管理無成本度量體系|成本治理體系成本治理體系預算申請預算使用跟蹤預算預警和限制數據壓縮數據歸檔數據生命周期離線存儲計算任務任務下線資源優化懲罰措施禁止新建任務禁止生產操作降低預算申請激勵措施治理收益榜單徽章展示優秀治理個人評選資產健康分紅黑榜成本目標成本目標資源池離線計算資源離線存儲資源離線計算離線存儲任務計算健康分成本(個人/部門)健康分(個人/部門)資源預算數據資產
13、度量輔助治理持續運營健康度提升預算控制技術優化實時計算資源在線存儲資源實時計算在線存儲存儲健康分|成本治理體系成本治理體系-成本度量和展示成本度量和展示基礎設施存儲計算計算引擎運維監控.數據資產離線任務報表實時任務指標標簽.計算引擎Metrics表離線任務信息表實時任務信息表YARN App信息表報表信息表離線存儲明細在線存儲明細分區熱度統計表文件熱度統計表租戶資源匯總表租戶成本匯總表.成本明細成本賬單任務健康分存儲健康分資源使用明細.任務優化存儲治理冷熱分層資源優化成本運營數據源層數據源層平臺平臺數倉層數倉層服務層服務層場景|成本治理體系成本治理體系-冷熱分層和歸檔冷熱分層和歸檔|成本治理體
14、系成本治理體系-冷熱分層和歸檔冷熱分層和歸檔|成本治理體系成本治理體系-數據生命周期管理數據生命周期管理正式表臨時表Hive表Hive表strategy1生命周期分析strategy2回收站物理刪除180180天生命周期天生命周期9090天歸檔周期天歸檔周期標準存儲標準存儲已歸檔已歸檔已刪除已刪除當前180天前90天前時間線冷熱|成本治理體系成本治理體系-存儲治理收益存儲治理收益優化前優化前優化后優化后存儲優化明顯:優化前:存儲線性快速增長優化后:存儲8個月零增長零增長并持續下降并持續下降累計節省了54%54%的存儲成本|數據血緣數據血緣-應用場景應用場景應用場景數據資產數據資產熱度計算理解數據上下文0101數據開發數據開發影響分析問題數據溯源02數據治理數據治理鏈路狀態追蹤數倉治理03數據安全數據安全安全合規檢查字段安全級別傳播04|數據血緣數據血緣-架構圖架構圖|未來規劃未來規劃找數找數成本成本血緣血緣規范規范更高效的找數服務更高效的找數服務構建全域數據資產地圖增強成本治理能力增強成本治理能力加強成本度量手段提升輔助治理分析能力推進成本運營機制更細粒度血緣更細粒度血緣構建廣義全鏈路字段級血緣統一統一模型和模型和數據標準數據標準落地公司級模型規范制定統一數據標準非常感謝您的觀看非常感謝您的觀看|