Aloudata+BIG|主動元數據DataOps+建設新支點-趙尉淋.pdf

編號:172939 PDF 26頁 3.81MB 下載積分:VIP專享
下載報告請您先登錄!

Aloudata+BIG|主動元數據DataOps+建設新支點-趙尉淋.pdf

1、Aloudata主動元數據,DataOps 建設新點應科技/趙尉淋2024/8/17關于我 20年數據領域經驗,應科技聯合創始,現任席數據架構師和客戶成功官,對融業務數智化有深刻理解和豐富實戰經驗 原螞蟻集團、菜集團數據平臺部數據架構師。菜物流數據體系主要設計者和建設者。曾主導螞蟻集團2020年全域數據架構升級和治理作錄 CONTENTDataOps 體系的背景與建設標主動元數據平臺是 DataOps 體系的新點什么是主動元數據平臺什么是算級緣DataOps 體系的背景與建設標現代數據程架構弊端顯現,協同難、管理難、交付難數據協同難企業數據應場景增加,參與數據管道構建團隊增多,數據管道持續增,

2、下游團隊持續增多,數據管道“煙囪化”越來越嚴重,形成益復雜的作流和數據流數據管理難數據量成倍增加,ETL 任務成倍增,ETL 程師均維護數據流中的表和數據管道的數量成倍增加,依靠 ETL 程師很難在度復雜數據流中找到優化案數據交付難越來越多的業務場景要求需求響應效率從/周到天/時,數據分析更靈活性,持多維度明細下探,強調數據分析致性,以及技術上成本、險的平衡具態和鏈路復雜性劇烈膨脹的現代數據程架構加劇數據協同與管理、交付困境按時按質數據交付How?DataOps架構理念:數據旅程各環節緊密銜接,快速響應需求 旅程緊密銜接 流程動流轉 需求快速響應DataOps 突破現代數據程架構困境,實現“數

3、據優先”n DataOps 價值主張:通過“端到端”打通數據流線,打破“點對點”的低效數據協作流程,實現“遞”的數據價值釋放。n 通過引 DataOps,實現“數據優先程架構”:定位:向數據管理做優化標:追求數據的可性(不遲、不錯、不重、不漏)機制:核產出數據資產,數據運維式隱式,盡量動化站式、體化建設動化、智能化發展DataOps 體系建設的“個標、兩個實現”從“盯”升級成“事盯”實現敏捷數據協同從“治”升級成“機治”實現主動數據管理數據優先即業務優先效交付質量數據流程優化技術升級敏捷、可靠、動主動元數據平臺是 DataOps 體系的新點主動元數據:動態、智能化的元數據管理技術n變傳統元數據

4、的被動等待為實時在線、主動觸發,為數據的管理和開發決策提供動化持n推動數據探查、開發、測試、部署、運維和監控等 DataOps 作流效運轉全 包括數據表的元數據,涵蓋了腳本、模型、指標、報表以及數據使為等與數據相關的所有元數據精 準通過動化采集、動態更新、多種解析法和智能挖掘,構建全、準確且實時更新的算級數據緣圖譜智 能能夠實時監控數據變更,預測數據質量問題和合規險,并提供智能化的建議從被動到主動,實現數據管理的“動駕駛”被動元數據主動元數據元數據管理范圍元數據采集式元數據更新式元數據解析式元數據智能挖掘元數據服務式元數據應場景以表為主錄為主偏靜態,觸發單法,法保證解析準確率被動等待數據理解、

5、調度依賴配置等少數場景元數據管理范圍元數據采集式元數據更新式元數據解析式元數據智能挖掘元數據服務式元數據應場景表、腳本、模型、指標、報表、任務運狀態等切與數據相關的元數據動采集為主動化,動態更新多種式,確保解析準確率精準標簽擴散、動徑提取、相似資產識別、代碼動產與改寫等實時在線,主動觸發增強數據發現&理解、溯源盤點、影響分析、資產判重、動分類分級、質量監控等全部 DataOps 活動數據流(有“治”):實現主動數據管理DataOps 體系建設分層及主動元數據的必要性探查開發測試運維監控屬性產出物SLA交付標準稽核規則數據責任崗位職責作活動數據合約對數據湖倉數據加數據流轉數據出湖倉業務應數據物理

6、搬運解耦數據語義定義指標平臺數據編排智能物化數據鏈路數據虛擬化結合模型的 ETL Copilot 能作流(有“序”):實現敏捷數據協同控制流實時采集實時解析實時分析驅動作流、數據流敏捷流轉和持續迭代感知決策主動元數據平臺什么是主動元數據平臺主動元數據平臺為 DataOps 體系建設提供基座持算級緣解析元數據語義挖掘主動元數據服務反向元數據集成基于語義分析技術實現對 SQL 腳本的算級動解析和算級緣圖譜構建,實現了對全域字段計算語義的精準刻畫動抽取字段算級加徑,結合上下游元數據信息挖掘業務語義,動成業務描述;對元數據進分類、關聯分析等,實現全域數據分類和盤點報告基于對元數據的深分析和挖掘,可提供

7、置信的數據治理案;通過分析鏈路冗余依賴,輔助提升時效優化、資源優化等作效果可配置化提供各類服務 API,與客戶的數據資產管理平臺、數據集成開發平臺或其他數據具縫集成,需改變使習慣,與 DataOps 作流、數據流打通智能數據助ETL Copilot元數據知識圖譜Connect All MetadataAloudata BIG算級緣High Accuracy主動元數據平臺能圖譜數據理解、數據推薦、數據協同HiveGaussOraclePostgresADBGreenplumMySQLGBaseTiDBPrestoSparkImpala報表看板指標業務系統算法模型結構化實體緣集成釘釘/企業IM集成

8、服務 API 調實時消息推送數據庫計算平臺定義資產增強元數據智能反向元數據輸出數據開發運維助DataOps Copilot數據治理運營助DataMgt CopilotDataOps 數據研發平臺數據資產平臺數據質量管控平臺全、精細、準確、實時的算級緣圖譜全鏈路端到端連通精準刻畫血緣關系1精確理解字段口徑23精準刻畫字段加徑,動理解計算語義高精細 算子級 計算語義理解全連通一張圖全鏈路可視極準確 99%SQL語法持堪 數據專家 的 SQL 任務腳本理解能定義資產可按規范接緣,打通從源端到應端全鏈路“四”顯著特性,解決數據管理中的多項“頑疾”精細準確全實時5 分鐘看清復雜字段徑精細化溯源和影響分析

9、全鏈路可觀測性數據模型主動治理Aloudata BIG主動元數據平臺復雜 SQL 代碼精度解析,字段計算徑的動提取和準確裁剪解決緣泛化問題,實現精準溯源和影響分析,根治了表/列緣發散過快引發量噪的問題,10 倍提升數據盤點效率全集成調度或數據異常消息,輔助精準定位上游“時空異?!?,快速評估下游影響量化評估字段級(指標)相似度,主動識別全域重復資產,促進持續且主動的重復模型治理,動識別鏈路冗余依賴,成模型優化建議案例分享:招商銀基于列算緣的模型優化和變更協同應實踐全鏈路算子血緣圖譜模型優化助手全鏈路變更協同助手DataOps數據研發運維平臺升級現有緣圖譜到精準的算級緣圖譜基于算緣構建的智能數據助

10、應于全鏈路變更協同基于算緣構建的智能數據助應于數倉持續優化實現字段加徑解析和鏈路深度分析能,實現 99.9%緣解析準確度輔助開發員主動發現模型優化機會,幅提升模型重構效率實時捕獲變更信號,動評估精準到字段的端到端影響以主動元數據為基,圍繞著DataOps理念構建站式智能數據研發平臺案例分享:杭州銀基于主動元數據平臺實現重點鏈路主動保障主動感知123持續分析全鏈路變更及質量異常,輔助異常根因定位主動評估下游影響,通知受影響的下游應,險預警不漏不錯不遲。全鏈路精準打標,動跟蹤鏈路緣變更。主動分析主動預警全鏈路精準打標險監測&異常歸因全鏈路精準觸達元數據變更事件任務調度事件質量檢測事件Aloudat

11、aBIG變更分析影響分析根因分析Schema變更腳本變更資產下線依賴變更變更異常質量異常任務阻斷精度變化徑變化任務異常時效破線鏈路險報告什么是算級緣算級緣是主動元數據的核技術第代:表級緣看不清字段影響第三代:算級緣看清切細節第代:列級緣看不清加邏輯輸表 A字段 A1字段 A2字段 A3字段 A4輸表 B字段 B1字段 B2字段 B3輸表 C字段 C1輸出表字段 T作業腳本內部盒化臨時表 D字段 D1字段 D2字段 D3A2+B2過濾條件C2 100輸表 A字段 A2字段 A3字段 A4輸表 B輸表 C輸出表字段 T內部字段不可作業腳本內部盒輸表 A字段 A1字段 A2字段 A3字段 A4輸表

12、B字段 B1字段 B2字段 B3輸表 C字段 C1輸出表字段 T作業腳本內部盒100%精準的表緣,業務應也有限絕部分商不敢承諾準確率精細、準確、全、實時字段 C2inner Join字段 C2基于開源緣軟件基于開源緣軟件像數據庫引擎樣去解析代碼細節算級緣技術定義及“四”特性n 算級緣技術提供了對數據流動和轉換路徑的詳細跟蹤n 通過解析全鏈路 SQL 操作語句中的各類算,提供真正精細、準確和實時的數據緣信息n 是主動元數據平臺將元數據從被動收集、靜態管理轉變為動采集、動態更新和智能化挖掘的基礎極細致能夠為每個數據操作提供細粒度跟蹤,精細管控數據質量和流動實時保鮮能夠實時解析數據緣,及時反映數據最

13、新狀態和應程序變更精準能夠精確描述和記錄數據的每次處理和轉換,哪怕最微的數據變化全連通能夠清晰展現數據流向,使數據前因后果之間形成邏輯上的連通基于算級緣,實現真正的“敏捷協同和主動管理”看得清管得住治得動做得快Clear LineageFirm ControlEffective GovernanceSeamless ExecutionCFES清晰理解數據的來源和去向確保數據的質量和合規性在數據命周期的任何環節中動態管理和優化數據實現敏捷的數據協同做到真正的”敏捷數據協同”和“主動智能的數據管理”算級緣“KPI”指標解析準確率01元數據解析準確率要達到99%以上,實現這指標的前提是元數據和代碼解析要全、準確只有準確才敢“”分析召回率02數據緣影響分析的召回率要于99%,這就要求元數據緣圖譜完整:沒有實體缺失,沒有緣路徑斷裂,在溯源分析和影響分析時搜索返回結果數據漏失只有不漏才可“”分析打擾率03數據緣影響分析的打擾率要低于5%,即在分析召回率 99%的基礎上,盡可能降低數據噪,減少謂打擾,讓戶認真對待每次元數據分析結果的通知和預警只有不錯才愛“”掃碼咨詢

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(Aloudata+BIG|主動元數據DataOps+建設新支點-趙尉淋.pdf)為本站 (張5G) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站