數據生產智能:元數據驅動的全鏈路數據治理最佳實踐-全鏈路數據治理峰會(23頁).pdf

編號:84490 PDF 23頁 30.43MB 下載積分:VIP專享
下載報告請您先登錄!

數據生產智能:元數據驅動的全鏈路數據治理最佳實踐-全鏈路數據治理峰會(23頁).pdf

1、數據生產智能王磊(汐衍)GTS-交付技術部-技術中臺-大數據交付與架構阿里云高級交付專家元數據驅動的全鏈路數據治理最佳實踐Contents目錄01基于DataWorks的數據治理全流程02元數據驅動的數據生產智能03客戶案例最佳實踐基于DataWorks的數據治理流程01平臺建設架構、模型建設數據開發實施數據治理運營數據服務運營大數據產品架構設計數據鏈路設計及優化維度建模輔助設計工具數據&任務批量上云大數據研發提效工具包大數據開發實施大數據知識庫、答疑大數據實操培訓SQL掃描工具/調優任務診斷工具/調優全鏈路監測產品數據門戶產品統一數據服務層產品統一運營工作臺大數據通用數據治理咨詢行業加持深度

2、定制貼身服務知識轉移數據生產過程工具&服務分析層建設維度建模數據集成/ETL開發實施設計/規劃/咨詢客戶自開發阿里樣板間代碼優化成本優化數據服務化數據運營數據展示行業資產沉淀開發提效中臺開發落地開發規范數據-應用開發質量用起來客戶價值整體架構設計批量數據任務上云基礎能力建設數據生產與服務關系全流程計算平臺引擎(MaxCompute、Hologres、EMR等存儲計算引擎)模型庫/FML遷移助手/發布中心元數據服務調度服務OPENAPI服務質量監測OPENDATA(產品元倉)DataWorks(開放API&元數據&元倉)主打行業:工業制造能源電力中央部委金融保險數倉建模數據資產管理/交換共享數據

3、研發向治理輕量化數據分析工作臺場景1:0-1搭建數倉框架客戶畫像:無模型體系,自己動手,希望工具門檻低易上手,對業務數據庫有控制力場景2:已有模型資產管理客戶畫像:已形成模型設計,有存量業務系統包袱,團隊多需要落標對標指標建模編輯器可視化指標樹行業指標庫指標聯想與發現分層建模藍圖模型自動生成數倉建模-基于指標分析的自動建模數倉建模-數據中臺維度建模:維度表 事實表數據指標:原子指標 派生指標 時間周期修飾詞 計算邏輯數倉規劃設計:業務過程 數據分層 數據域數倉標準:數據標準 標準代碼 度量單位DataWorksX BDAS定制化交付服務數倉模型咨詢設計數據資產門戶定制數據治理咨詢數據分析工作臺

4、定制基于DataWorks的數據治理大圖數據資產門戶數據集市多級數據交換跨域任務調度數據標準和主數據SQL代碼優化全鏈路監測兩級任務監控源端數據一致性存儲、調度優化智能SQL開發數據沙箱權限橫向資產拆分查詢下載脫敏數據查詢加速元數據驅動的數據生產智能02數據生產過程業務元數據方法論&AI數據標準元數據復雜計算驅動持續迭代進化治理存儲元數據統一元數據引擎技術元數據數倉規劃元數據任務元數據組件運行元數據數據血緣業務過程元數據調度元數據數據權限產品底座安全元數據數倉規劃設計數據模型設計數據探查上云數據探查監控治理運營優化元數據驅動的數據治理 業務、技術元數據煙囪式存儲在不同產品的數據庫 數據治理持續

5、產生新的元數據,時間維度分散無法形成合力 元數據應用時空分散元數據隔離分散 混合多源元數據多重組合分析 持續迭代,持續優化,形成持續生長的元數據大圖 避免重復配置一站式運營,提高運營效率元數據應用價值 基于規則跨時空分析 基于圖算法體現數據價值分析和質量問題影響分析 基于機器學習算法自動優化、釋放調度和存儲壓力 智能持續迭代回寫,生成新智能元數據智能元數據應用升級智能建模Convergence of IT Infrastructure智能監控Online Presence of Core Technologies智能優化Data and Intelligence Capabilities of

6、 Business Applications元數據驅動的數據生產智能從三個主要數據生產角度解釋基于元數據的驅動和智能智能指標建模自動指標建模平臺自動指標建模平臺能力涵蓋指標需求階段的溯源和定義指標建模階段的指標自動發現、指標推薦、自動分層設計等業務視角的模型探查可視化展示、指標管理、輔助企業經營管理等業務能力數據源溯源指標溯源客戶需求需求輸入維度模型自動生成指標邏輯設計指標需求設計指標運營工具分層設計智能指標發現引擎Features auto discovery engine指標搜索引擎指標編輯器F-ADE(Features auto discovery engine)指標發現引擎是在指標設計

7、中,通過深度學習/機器學習模型幫助用戶梳理指標的工具。其中包含的智能化能力如下:語義統一基于NLP的指標統一化映射語義統一行業字典映射語義統一指標相似性聚類工具及其語義空間內的互動探索語義統一基于生成對抗網絡的指標語義化/口語化指標描述生成工具指標推薦基于深度學習的特征推薦算法指標生成基于特征發現工具集的衍生指標生成指標生成行業指標模型庫指標生成指標的算法蒸餾監控、探查大規模指標異常自動檢測以及阿里云在交付工作中積累的海量模型資源行業指標模型庫指標邏輯自動分析指標邏輯手動輸入指標字表字典指標邏輯字典指標字典統一元數據引擎數據溯源元數據業務過程元數據歷史指標設計庫DW智能建模工具維度實體模型事實

8、實體模型反向建模任務節點開發自動同步任務、表、指標血緣鏈路全景總覽血緣、拓撲異常告警預警任務、表監控數據一致性校驗資源、成本報表優化管理事件中心規則中心監控中心權限中心鏈路聚合、血緣分析調度服務任務、組件監測服務數據質量管控一致性比對統一管理服務任務、調度診斷服務全鏈路監測核心能力統一元數據服務多源異構數據接入標準節點關系Type System元數據存儲計算引擎調度元數據表、字段血緣資源、成本消耗元數據代碼靜態元數據表、字段元數據調度元數據動態、組件元數據歷史記錄建模結果數據組件負載磁盤占用歷史運行時間歷史CU消耗業務域分層結構鏈路元數據歷史成本數據智能全鏈路監測診斷模式:關注異常點、影響面分

9、析全景模式:關注數據治理流程DAG、關注全局建設狀態DataWorks產品底座節點任務/job鏈路、狀態NodeNodeNodeNodeNodeCode代碼掃描TableTableTableTableTable組件(DataWorks、DataHub、Flink、MaxCompute、OSS、RDS等)運行狀態監測表血緣鏈路、狀態Composite metrics(tree)metricsmetricsmetricsmetricsmetrics=+指標血緣、邏輯,指標樹節點任務代碼掃描Atomic metricsDerivative metrics=Cycle time+Modifier+Co

10、mputational logic+Statistical dimension+事件中心告警中心規則中心4A中心統一元數據服務引擎NodeInstanceResourceMetricsCodeTable統一溯源、聯通分析、故障監測任務鏈路聚合元數據、數據一致性監測核心服務全鏈路核心應用節點作業監測組件運行監測cluster代碼掃描、成本優化多region貫通監控中心Dashboard智能全鏈路監測異常任務定位異常數據表定位失效對象治理僵尸表優化計算資源優化存儲成本優化案例中心智能運營優化智能探查數據服務API復雜計算普適計算代碼掃描優化基于元數據、語法、歷史運行記錄的代碼掃描智能優化代碼靜態元

11、數據表元數據調度元數據動態、組件元數據歷史記錄持續生長的全鏈路數據治理過程元數據組件負載磁盤IO歷史運行時間歷史CU消耗掃描規則引擎靜態規則動態規則智能規則統一元數據引擎多源異構數據接入標準元數據Type System大數據平臺存儲計算引擎元數據分析服務工作空間配置事前資源規劃規則分級配置批量掃描實時調試事后優化跟蹤統計分析&總覽事前、事中、事后多階段處理:40+靜態規則、元數據規則,基于RBO、HBO的優化分析1.基于歷史運行數據+元數據時序分析2.基于聚類算法自動聚合慢查詢分析3.基于神經網絡算法4.基于指標建模引擎指標樹關系元數據對指標計算資源消耗、價值進行度量5.基于多用戶和角色視角的

12、數據治理優化處理流程、資源規劃和統計分析Top任務節點標注失效任務標注指標邏輯數據智能成本優化代碼優化檢測任務優化檢測代碼規范檢測代碼質量檢測性能優化檢測傾斜任務檢測暴力掃描檢測代碼優化建議資源優化建議參數優化建議傾斜優化建議Shuffle remove 代碼類:針對ODPS SQL,參考中臺代碼開發規約統計分析健康分任務治理情況,優化前后對比慢任務分布慢SQL監測告警基于中臺全鏈路元數據任務狀態監測等結果,預警慢任務代碼規范代碼性能代碼復雜度代碼重復率 任務類:針對任務執行時長,分析原因并反饋到ODPS SQL任務狀態監測組件監測資源監測 感知大數據所有異常、問題優化不只是檢測,同時給出相關

13、的建議通過優化實踐,持續完善規則庫事前檢測事中監測事后治理治理效果查看失效任務調度優化、失效表存儲優化基于任務血緣、表血緣的影響分析元數據驅動全景圖數據開發源端業務系統數據探查數倉建模&開發鏈路監測代碼質量分析成本優化服務構建服務目錄運營優化源端物理模型產品底座TableTableColumnColumnColumn業務指標邏輯模型BusinessLabel/fieldBusinessLabel/fieldFeatureFeatureAutomicFeatureFeature維度模型&數據開發鏈路NodeNodeCodeTableTableColumnColumnInstance統一服務模型企

14、業運營優化EntityRelationshipRDSAPIPrivilegeUserBusinessProcessTableWorkFlow業務、技術元數據ERlogicalPhysical 元數據流入任務鏈路、血緣、資源消耗等元數據數據建模、生產過程中元數據不斷生長 擴展 驅動各環節能力形成元數據分析引擎一站式數據生產智能工具全貌工具優化反饋至DataWorks(未來)DataWorks輕量級數據分析工作臺數據集市 跨域任務調度 SQL快速開發 代碼優化 權限管理 沙箱管理 查詢下載脫敏 查詢加速數據遷移數據探查架構設計多region 流批一體任務、調度遷移數倉智能建模建模編輯器數倉規劃分層

15、分域指標樹 模型智能生成指標聯想 行業指標庫代碼質量分析元數據驅動引擎存儲元數據 數據標準/命名規范元數據 業務過程元數據 組件運行元數據 任務元數據 表元數據 代碼元數據 調度元數據 資源消耗元數據數據研發治理全鏈路監測 全景視圖Node Table Column Feature Code Instance任務診斷代碼優化建議運營優化遺留系統反向建模一站式數據生產智能工具門戶logicalPhysical失效對象、僵尸表優化資源、調度優化Source Meta架構輸入業務元數據技術、任務、表、調度元數據任務、表、資源消耗、調度等元數據4A中心事件、告警中心數據校驗知識、案例庫問答引擎智能調度

16、平臺建設、數據生產過程&結果的“數字孿生”表達源端物理模型反寫元數據成本運算、Dashboard順序流式用戶引導探索未來L0-L1人工階段L2-L3智能輔助階段L4全自動駕駛階段全人工架構設計手動輸入調研結果進行建模全景鏈路監控智能架構設計智能維度建模代碼診斷智能任務診斷、告警全景鏈路監控+診斷輔助成本優化全自動建模代碼、調度、成本優化自動發現事件驅動的大數據治理輕量化數據分析、AI運營客戶案例最佳實踐03指標設計規則校驗指標維度矩陣指標層級關系建模參考材料重量倉庫庫容準發量材料渠道入庫時間材料出廠碼單時間材料卸貨完成時間事實明細表指標:廠內產成品庫存量維度:基地、渠道公司、銷售組織、最終用戶

17、、合同號指標:出廠在途庫存量維度:基地、渠道公司、銷售組織、最終用戶、合同號指標:渠道在庫庫存量維度:基地、渠道公司、銷售組織、最終用戶、合同號指標:用戶在庫庫存量維度:基地、渠道公司、銷售組織、最終用戶、合同號指標:渠道在途庫存量維度:基地、渠道公司、銷售組織、最終用戶、合同號指標:用戶在途庫存量維度:基地、渠道公司、銷售組織、最終用戶、合同號指標:渠道庫存量維度:基地指標:倉庫庫存量維度:倉庫代碼、倉庫類型指標:倉庫剩余庫容維度:倉庫代碼、倉庫類型指標:當天準發量維度:無指標:當天庫存量維度:無指標:庫存周轉天數維度:無指標名:材料出廠在途周期維度:無指標:出廠在途周期維度:基地、最終用戶

18、、總部合同指標:當天廠內產成品庫存量維度:無匯總事實表源業務系統表ct_first_tracect_second_tracect_first_vehicle_tracect_first_historyct_first_red來自維表依據元數據溯源探查、指標邏輯設計結合維度建模規則,自動生成總線矩陣、指標層級關系輸出建模參考dwd_adwd_bdwd_cdws_bdws_adws_cdws_ddws_edws_fdws_g需要人工調整實際2張表業務上有關聯含義智能指標建模助手全鏈路運營優化展示慢sql任務情況、已經治理情況、消耗成本、計算資源、健康分、產生價值(節省資源CU*節約時間)、慢SQL榜單、治理效果榜單、資源/成本消耗榜單等,一站式跨引擎數據權限分配和數據分析、AI建模輕量化代碼掃描&數據分析輕量化THANKS

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(數據生產智能:元數據驅動的全鏈路數據治理最佳實踐-全鏈路數據治理峰會(23頁).pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站