《京東零售基于主動元數據治理實踐與探索.pdf》由會員分享,可在線閱讀,更多相關《京東零售基于主動元數據治理實踐與探索.pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummitDataFunSummit#20242024京東零售基于主動元數據治理實踐與探索京東零售基于主動元數據治理實踐與探索呂代軍-京東-數據架構師數據管理挑戰數據管理挑戰數據治理體系建設數據治理體系建設主動元數據治理實踐主動元數據治理實踐總結與未來展望總結與未來展望目錄目錄 CONTENTCONTENTDataFunSummitDataFunSummit#202420240101數據管理挑戰數據管理挑戰數據管理挑戰資產感知弱 找資產難幾十萬張數據模型大量臨時表、無效表大量重復/相識模型 不敢用口徑黑盒質量參差不齊,業務難分辨數據架構不敏捷 架構耦合口徑、維度擴展耦合預計算耦
2、合 不夠敏捷大量刷崗預計算任務調整工作量大,交付周期長大量物化寬表存算資源消耗多開發質量、安全問題 表風險表結構新增、刪除缺乏管控表結構修改缺乏管控 運營風險參數、依賴錯配開發任務搶占線上資源開發數據寫入線上表IT資源成本不斷攀升 數據規模持續增長表數量持續增長存儲、計算資源消耗不斷增長分析場景增多 資源利用低無效表、無效任務占比高冷僵數據占比高重復、相似模型占用大量資源成本、效率、體驗0101020203030404DataFunSummitDataFunSummit#202420240202數據治理體系建設數據治理體系建設數據治理思路數據標準數據成本數據架構數據開發數據成本技術牽引數據全鏈
3、路降本增效 制定數據標準、標準系統化、數據認證 敏捷高效數據架構升級快速靈活支持業務戰略目標 開發生產隔離數據安全生產 存算治理體系建設,降低業務/企業運營成本成本、效率、體驗數據治理體系建設營銷活動資源包資源包資源位樓層分析數據熱力圖用戶畫像灰度實驗活動進度活動對比活動沉淀資源治理資源治理架構治理架構治理開發治理開發治理賬號隔離賬號隔離模型隔離模型隔離隊列資源隔離隊列資源隔離標準治理標準治理統一數據語言標準要素標準要素業務體系業務域主題業務過程主體主體屬性更新周期/頻率更新方式粒度數據資產數據資產系統化加速系統化加速資產認證相似模型關停并轉標準要素系統化,提升維度、指標注冊效率邏輯建模、維度
4、建模,智能詢表與生產邏輯建模邏輯建模維度1維度2維度指標1指標2 指標邏輯虛擬寬表:維度+指標維度1維度2指標2維度1維度3維度2維度3指標2指標1智能物化與編排智能物化與編排湖倉一體湖倉一體增量狀態更新:快照存儲轉增量存儲、計算流批一體化:近實時數據服務在線查詢更高效,索引、CK等在線查詢指標1指標3指標3任務隔離任務隔離開發生產隔離開發生產隔離元數據能力建設元數據能力建設存儲成本計算成本模型分區訪問執行時長CPU利用率內存利用率模型認證/精選模型分層任務等級應用場景數據生產血緣數據消費血緣無效表、任務識別模型模型識重治理手段治理手段治理可視治理可視存儲治理存儲治理無效表識別與下線表生命周期
5、存儲格式與壓縮優化相似表識別與下線降副本/轉EC數據重分布計算治理計算治理無效任務識別與下線低資源利用率任務治理暴力掃描、高頻失敗任務治理計算算子優化、刷崗批次優化計算引擎優化資源潮汐錯峰數據湖更新資源分布資源分布增長歸因增長歸因治理量治理量重點問題與健康分重點問題與健康分智能生命周期推薦紅黑榜紅黑榜治理模型建設治理模型建設模型、任務歸屬識別維度3成本、效率、體驗DataFunSummitDataFunSummit#202420240303主動元數據治理實踐主動元數據治理實踐主動元數據什么是主動元數據?Gartner“一組能夠持續訪問和處理并支持持續分析的元數據的功能”主動元數據平臺不僅停留在
6、智能上,還可以與系統連接與智能決策最終形成行動導向特點:自動生成與更新、持續訪問、智能分析、以行動為向主動元數據管理工具核心能力預測診斷行動聚類資源自動分配告警推薦建議分析主動元數據治理實踐-存儲治理的挑戰盲治1、缺乏數據支撐,無法準確掌握表分區消費情況以及分區存儲、計算代價。2、缺乏評估體系,20萬+模型,數據研發自行評估生命周期值成本高、效率低、主觀性強不敢治,不愿治1、數據回填效率低占用開發人員大量工作時間2、擔心引發線上問題不能治部門作為零售數倉主要建設方,大量歷史數據必須全部保留挑戰與能力訴求挑戰與能力訴求有支撐省時省力客觀有推薦持續極致安全高效自助主動元數據治理實踐-智能生命周期評
7、估體系建設自助分析看板量化代價:近90天單分區存儲,計算(CPU,內存)金額占用,以及分區訪問數據。非量化代價:模型所屬分層、是否精選、認證,以及加工任務等級、任務執行時長等?;诖鷥r的智能生命周期評估體系生命周期評估模型可視化拆解建設面向治理管理者、推動者、執行者的可視看板,實現數據研發自助式分析。主動元數據治理實踐-智能生命周期消費模式識別提升0246810120246810121416近近1515天天訪次訪次02468101205101520253035近近3131天天訪次訪次傳統統計方法受觀察周期影響基于N天各偏移天數統計訪次VS1234010020030040050060070080
8、09001000012訪次訪次主動元數據治理實踐-智能生命周期產品化業務策略與平臺共建業務沉淀的策略模型、治理方法與大數據平臺治理工具化能力復用共建,提升治理效率,進一步賦能集團數據治理看得清、看得全看得清、看得全幫助管理者、推動者、治理者看清看全治理空間、治理進展、治理收益一鍵式治理一鍵式治理一鍵式發起治理行動與實施治理、方便快捷自主挖掘治理模型自主挖掘治理模型業務方根據自身業務特點、自主探尋治理模型、策略。滿足個性化治理。主動元數據治理實踐-智能生命周期建設效果數據驅動、智能推薦,從分散到集約、從被動到主動、從經驗到智能智能推薦智能推薦幾十萬張模型自動推薦生命周期,自動識別數百PB治理空間
9、開放賦能開放賦能集成大數據平臺、賦能集團存儲治理效果顯著效果顯著推薦值接受度大于70%試點模型完成100+PB治理數據驅動智能推薦依據清晰開放能力治理安全治理高效基于主動元數據代價均衡治理更極致智能生命周期推薦數據客觀推薦模型可視化自助分析分區級訪問明細精準模式識別安全回滾機制策略模型集成平臺一鍵治理自動催辦、執行主動元數據治理實踐-數據回填挑戰挑戰與能力訴求挑戰與能力訴求資源更省僅關注結果不關注過程在離線數據開發運營中,新需求、新迭代、崗位變更、線上BUG都需要數據回填。頻率高系統功能不完善,需要大量手工確認工作,大量系統外協調、溝通、確認工作回溯質量問題時有發生效率低日均占總計算資源消耗的
10、18%,大促期間占用更多結果等待時間長資源消耗多、耗時長更快、更準自動化主動元數據治理實踐-智能回填方案架構質量檢查&結果通知數據資產血緣定義生產血緣回填感知采集分區缺失 版本變更崗位變更 消費預測分區檢查器版本感知器回填編排 解析生成執行拓撲并發協調器拓撲編排器 策略庫優化&執行 最佳執行批次 動態提交依賴解析器 表、任務 參數解析多分區合并器 執行批次拆分智能回填成產&消費元數據執行元數據基于主動元數據的系統能力建設數據回填架構回填感知回填感知通過查詢、訂閱信息、新版本發布觸發自動感知分區缺失、版本變更消息?;靥罹幣呕靥罹幣艠嫿〝祿a血緣,解析表分區回填依賴,編排回填拓撲優化執行優化執行
11、系統化創建回填批次實例,分批優化執行DataFunSummitDataFunSummit#202420240404總結與未來展望總結與未來展望總結核心技術:數據虛擬化、語義知識圖譜、主動元數據基于主動元數據的智能生命周期推薦使用數據生產、消費、場景主動元數據構建分析能力生命周期值推薦,提升治理效率邏輯建模、智能物化與生產基于認證數據資產,構建資產圖譜元數據,結合數據使用場景、消費場景構建HBO,CBO,RBO模型,實現智能物化與生產基于數據血緣的智能回填依賴指標生產、數據生產等血緣數據構建智能高效重算能力依據執行元數據動態分批優化執行基于主動元數據的Data Fabric治理能力建設01010202成本、效率、體驗未來展望成本、效率、體驗更自動更智能更安全更高效更敏捷、更智能數據生產更極致、更高效數據重算智能診斷與智能調優智能資產圖譜生成開發治理一體實現開發即治理模型策略更可視更自動回滾感謝觀看感謝觀看謝謝觀看