《Aloudata:2025主動元數據DataOps 建設新支點白皮書(34頁).pdf》由會員分享,可在線閱讀,更多相關《Aloudata:2025主動元數據DataOps 建設新支點白皮書(34頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、Active Metadata:A New Pillar for DataOps主動元數據DataOps 建設新支點CONTENTS2024Data Always Ready引言01DataOps 體系建設的背景01DataOps 體系建設的目標05元數據從被動到主動,成為 DataOps 建設新支點11主動元數據的關鍵技術突破與關鍵衡量指標15Aloudata BIG 主動元數據平臺介紹18Aloudata BIG 主動元數據平臺客戶案例介紹23總結與展望31Aloudata 202401DataOps 作為一個數據技術概念,自 2014 年首次提出至今已有 10 年的時間,同期數據中臺作為
2、一種企業數據戰略和組織設計,自 2015 年由阿里巴巴首次提出至今也有近 10 年的時間。而在過往的這個 10 年的周期里,企業的數據量、數據需求和用數人群都爆炸式增長,這也直接推動了數據技術日新月異的蓬勃發展,DataOps 也在國內外以不同的形式完成了從技術概念導入到具體應用實踐的孕育過程。本白皮書將站在面向未來 10 年的視角,重點探討 DataOps 的未來發展方向,介紹當下企業建設 DataOps 體系的背景,分享我們對 DataOps 體系在工程架構上的理解,并介紹主動元數據在DataOps 體系中的定位和作用,以及相應的產品方案與客戶案例。希望本文能夠有助于 DataOps 更好
3、的發展,有助于企業加快數據價值的釋放。1970 年,Edgar Frank Codd 在Communication of the ACM上發表題為“A Relational Model of Data for Large Shared Data Banks(大型共享數據庫的關系模型)”的論文,打開了企業信息化的大門。此后 10 年誕生了不少數據庫產品(比如 Oracle、DB2 等)和基于數據庫的應用(比如 OA、MIS、HR、CRM、ERP 等),在提升企業信息化水平的同時,也將企業經營各個環節進行了數據化,企業數據分析和數據決策需求自然涌現,因此 Bill Inmon 在 1990 年提出
4、數據倉庫(Data Warehouse)的理念,并將其體系化,很好地回應了企業在商業智能領域管理決策場景的需求,形成了企業數字化建設的第一波浪潮。引言01DataOps 體系建設的背景Aloudata 2024021990 年,Tim Berners Lee 和 Robert Cailliau 合作開發了萬維網的第一個網頁,打開了互聯網的大門;2007 年,蘋果公司發布了第一代 iPhone,重新定義了手機,標志著移動互聯網時代的開啟。從此人們的吃喝玩樂、衣食住行、談婚論嫁乃至生老病死都被在線化數據化,至此人類進入大數據時代。為了更好地存儲、計算與分析海量數據,谷歌在 2003 年到 2006
5、 年期間發表了三篇重要論文:The Google File System(2003 年)、MapReduce:Simplified Data Processing on Large Clusters(2004 年)和 Bigtable:A Distributed Storage System for Structured Data(2006),對整個工業界數據技術的發展產生了深遠的影響。2005 年,Doug Cutting 受到 Google 論文的啟發,開始開發 Hadoop,2006 年Hadoop 項目成為 Apache 軟件基金會的一部分,受 到 廣 泛 的 社 區 貢 獻。2010
6、 年之后基于開源 Hadoop 生態構建數據平臺成為企業數字化 建設的第二波浪潮。2012 年,來自 Oracle 的 Benoit Dageville、Thierry Cruanes 和另一位數據庫專家 Marcin Zukowski 一起創立云數據倉庫公司 Snowflake。隨著云計算的普及,他們認識到傳統數據倉庫系統存在技術架構和商業模式的創新機會,提出了基于云原生的存算分離架構和按需付費商業模式,自 2015 年正式上線以來獲得了大量客戶的使用。圍繞 Snowflake、Databricks 這類新興數據倉庫和數據湖倉廠商,大量的數據技術領域的創業公司,比如 Fivetran、dbt
7、、Atlan 等,重新解構傳統數據集成與數據管理方案,逐步構建起現代數據堆棧(Modern Data Stack)生態體系。圖1:2012 年 Big Data 全景圖Aloudata 202403圖2:2024 年 MAD 全景圖https:/ 網站每年會定期持續更新 MAD(Machine Learning,AI and Data)全景圖,2024 MAD 全景圖中共有 2011 個 Logo,2023 年是 1416 個 Logo,而最早的 2012 年的版本只有 139 個 Logo。12 年間 Logo 數量增加了 14.5 倍,這直接說明數據工程與數據管理的復雜度有了指數級的提升。
8、MAD 全景圖提供了一個從時間和空間兩個維度縱覽數據技術體系發展變化的工具,是否這樣的工具呈現出來的“數據技術多樣化、破碎化”這一現象只在海外發生,國內并非這樣呢?我們認為不是的,因為推動這一現象產生的根本原因是數據分析需求用例的變化(從數據化管理到數據化運營),以及基于云計算技術引發的 IaaS 層 IT 架構變革(容器化、彈性調度等),而這兩點在中國同樣發生,在中國行業數智化領先的企業內部一樣可以看到類似 MAD 全景圖描述的這一現象。正是因為過往 10 年數據技術領域翻天覆地的變化,打碎了以 Teredata、Informatica 為代表的傳統數據倉庫的技術生態,DataOps 這一概
9、念開始被提出。042014 年 6 月 19日,信息周刊特約編輯 Lenny Liebmann 在 IBM Big Data&Analytics Hub 上發表一篇題為“DataOps 對大數據成功至關重要的 3 個原因”(3 Reasons Why DataOps Is Essential For Big Data Success)的文章,在文章中首次介紹了 DataOps。2018 年 Gartner 將 DataOps 納入到數據管理技術成熟度曲線中,標志著 DataOps 正式被業界所接納并推廣起來。Gartner 認為 DataOps 是“一種協作式數據管理實踐,專注于改善整個組織內
10、數據管理者和數據使用者之間數據流的溝通、集成和自動化”,其目標是“通過對數據、數據模型和相關工序創建可預測的 交 付 和 變 更 管 理,更 快 地 交 付 價 值“。(Definition of DataOps-Gartner Information Technology Glossary:DataOps is a collaborative data management practice focused on improving the communication,integration and automationof data flows between data managers
11、and data consumers across an organization.The goal of DataOps is to deliver value faster by creating predictable delivery and change management of data,data models and related artifacts.)2024 年中國信通院發布 2.0 版本的DataOps 實踐指南,將 DataOps 定義為“數據研發運營一體化”,是一種數據開發的新范式,將敏捷、精益等理念融入數據開發過程,通過對數據相關人員、工具和流程的重新組織,打破協
12、作壁壘,構建集開發、治理、運營于一體的自動化數據流水線,不斷提高數據產品交付效率與質量,實現高質量數字化發展。從上述定義中不難發現,無論是 Gartner,還是信通院,都認為 DataOps 的價值主張在于通過“端到端”打通數據流水線,打破“點對點”的低效數據協作流程,實現“手遞手”的數據價值釋放。01“端到端”指實現數據集成、開發、部署、運維、治理等數據流水線的一體化。02“點對點”指數據人員、數據團隊各自成“點”成“段”,形 成“孤點”和“迷 宮”,無 法 跨 崗位、跨團隊高效協同。03“手遞手”指數據需求從產生到交付環環 相 扣,既“按 時”又“按質”,數據需求交付可預測可預期。Alou
13、data 2024Aloudata 202405圖3:“傳統數據工程架構”與“現代數據工程架構”要實現“端到端”、“手遞手”的 DataOps 價值主張,需要有與之匹配的可以履約上述價值主張的數據工程架構。從上文介紹的 DataOps 背景可以知道,企業的數據工程架構在 2010 年前后產生了明顯的變革,我們可以稱之前為“傳統數據工程架構”,稱之后為“現代數據工程架構”,用海外的業內術語也可以稱之為“傳統數據堆?!保═raditional Data Stack)和“現代數據堆?!?Modern Data Stack)。這兩種架構的對比示意可以結合上文 MAD 全景圖的變化,參考下圖理解。02D
14、ataOps 體系建設的目標Aloudata 202406從“傳統數據工程架構”向“現代數據工程架構”遷移的進程,國內與海外略有差異,遷移的核心動力主要有以下三點:以 Teredata 為代表的傳統數據倉庫過于昂貴,且支持的數據量有上限,疊加國內自主 可 控 和 海 外 IT 上云的影響,產生了數據倉庫引擎切換的熱潮,比如國內的華為 Gauss,海外的 Snowflake。全新的數據倉庫引擎需要與之匹配的新的數據集成、開發、運維和管理工具,“現代數據工程架構”隨之興起。01作為一種企業戰略行為,數據分析需求從管理層往業務一線人員蔓移,并越來越與業務經營行為相結合,對數據時效性、數據可用性、數據
15、準確性等都提出了差異化需求。這些新產生的用數人群和需求用例,催生了“傳統數據工程架構”往“現代數據工程架構”的演化。02在中國的大型企業,比如金融頭部企業、大型國央企等或成立科技公司或擴大自研能力,不再依靠單一供應商的產品解決方案,往往采用“現代數據堆?!钡拈_源產品或第三方廠商的產品,客觀上加速了“現代數據工程架構”在企業內的形成。03隨著“現代數據工程架構”的引入和普及,企業也開始意識到該架構帶來的新問題,比如“現代數據工程架構”通常由多個系統組成,系統割裂導致用戶需要跨多系統工作,且每個系統都只解決一部分問題,沒有一個面向最終交付的平臺;又比如多系統之間的運維操作風險等。隨著數據工程體系的
16、復雜度進入億級、十億級、百億級,“現代數據工程架構”面臨的更大挑戰有:Aloudata 202407數據協同難Collaboration隨著企業數據應用場景的增加,越來越多的團隊參與數據管道構建,導致數據管道持續增長,下游團隊持續增多,很容易導致數據管道煙囪化越來越嚴重,從而形成日益復雜的工作流和數據流。因為工作流從組織分工的角度,天生是分團隊分角色,“鐵路警察各管一段”;又因為數據流從技術的角度,天生帶有全局性,數據流上任意節點的變更和異常都會對周邊產生影響,觸發工作流的協同,因此跨團隊跨角色的數據協同就異常困難。比如數據模型重構,往往需要上下游協同,而這種協同的參與人越來越多,節奏很難統一
17、,協同難度越來越大。數據管理難Data Management顯而易見的趨勢變化是“數據海嘯”導致數據倉庫里的數據量在成倍增加,ETL 任務也在成倍增長,ETL 工程師人均要維護的數據流中的表和數據管道的數量更是在成倍增加,純粹依靠 ETL 工程師的經驗和能力很難在一個高度復雜的數據流里找到優化方案,比如如何在一個有上萬個 ETL 任務的數據流里評估數據鏈路,并找到數據鏈路優化的最優方案。數據交付難Data Delivery從數據分析的業務場景要求出發,越來越多的場景既要求需求響應的效率從月/周到天/時,又要求數據分析的靈活性,支持多維度的明細下探,還強調數據分析的一致性,不能口徑不一,如何在滿
18、足上述業務要求的情況下,再要在技術上考慮成本、風險的平衡,按時按質交付數據的難度越來越大。為此我們需要引入一種全新的 DataOps 數據工程架構的思維方式,以“數據優先(Data First)”的視角來思考和定義 DataOps 的分層結構,該結構跳出現有“現代數據工程架構”的數據集成方式和具體技術約束,以更本質的方式,即從平臺交付物 數據產品的視角來劃分分層結構,這一分層結構為企業現有的數據基礎設施投資重新做了架構定位,指明現有各個工具或功能協同迭代的升級演化方向,從而實現“數據優先即業務優先”的 DataOps 體系。Aloudata 202408“數據優先工程架構”跟“現代數據工程架構
19、”在設計思維上最主要的區別有以下三點:01定位不同“數據優先工程架構”面向數據管理做優化,而“現代數據工程架構”面向開發效率做優化?!皵祿炏裙こ碳軜嫛弊非髷祿母呖捎眯裕ú贿t、不錯、不重、不漏),而“現代數據工程架構”追求功能的高可用性(高效、穩定、強大、好用)。02目標不同“數據優先工程架構”的核心產出物是數據資產,數據運維方式是隱式的,盡量自動化的,而“現代數據工程架構”的核心產出物是 ETL 任務,數據運維方式是顯式的,需要人工干預。03機制不同圖4:三種不同的數據工程架構設計Aloudata 202409圖5:“現代數據工程架構”和“數據優先工程架構”之間的對比綜 上,DataOps
20、 體 系 建 設 要 解 決“數 據 協 同難、數據管理難、數據交付難”的挑戰,不能停留在“現代數據工程架構”里,只是豐富“工具箱”和“兵器庫”,追求單個“工具”和“兵器”的性能指標,而是應該站在數據交付的視角,思考如何賦能 ETL 工程師、數據架構師、數據管理員和相關上下游角色快速高效完成工作,提升整體數據交付效率和數據交付質量。DataOps 體系不僅需要考慮現有各個數據開發、運維和管理平臺如何實現一站式、一體化建設,提升平臺體驗和研發效能,還需要找到 DataOps 體系往自動化、智能化方向發展的方法和路徑,保障整個數據平臺的高可用性和可連續性,達成“效率”與“管理”的兼顧與平衡。Alo
21、udata 202410圖6:DataOps 體系的建設總結:“一個目標,兩個實現”結合我們對 DataOps 價值主張的理解,以終為始,可以將 DataOps 體系的建設總結為:一個目標,兩個實現?一個目標?“數據優先即業務優先”,高效交付高質量數據?兩個實現?數據協同要從“人盯人”升級成“事盯人”,實現敏捷數據協同?數據管理要從“人找數”升級成“數找人”,實現主動數據管理。11Aloudata 202403元數據從被動到主動,成為 DataOps 建設新支點落地 DataOps 體系“一個目標、二個實現”,要對“數據優先”的 DataOps 體系進行分層設計,可以將 DataOps 體系分
22、成三層,每層各司其職,分別負責“工作流”、“數據流”和“控制流”。工作流涵蓋數據探查、開發、測試、部署、運維和監控等活動,可以在該層引入“數據合約”的概念定義關鍵活動的屬性、產出物、SLA、交付標準和稽核規則等,依據“數據合約”的內容定義不同崗位的職責邊界,將數據責任與崗位職責對齊,通過統一的控制平臺(控制流)來觸發各個活動的流轉和派發,從“人盯人”升級成“事盯人”,實現敏捷數據協同。01數據流涵蓋數據從入湖倉、湖倉內加工、湖倉內流轉到數據出倉湖進入各個應用場景的完整鏈路。該鏈路包含了兩部分內容:數據語義定義和數據物理搬運,數據語義的連續多次定義既反映數據分析口徑的構建過程,也基本決定數據的物
23、理搬運過程。數據語義的定義可以是 SQL 代碼,也可以是 Python 代碼,還可以是某一種 DSL,比如指標語義的定義可能是某一種 DSL,會比 SQL 更好更高效地表達業務口徑。調整數據語義的結構與定義過程,自然也會調整數據的物理搬運大小與次序。02Aloudata 202412這兩者的耦合關系,一方面導致任何的微小數據語義變更,都需要 ETL 工程師的人工支持,ETL 工程師成為單點瓶頸,另一方面數據語義(數據口徑)隱藏在數據表中,基于表的數據管理很容易導致數據口徑定義與數據口徑開發是“兩張皮”,無法統一,“同名不同義”、“同義不同名”成為必然現象。因此能否將數據語義的定義與數據的物理搬
24、運解耦,以數據語義為先,這是做好數據管理的關鍵,這也是“數據優先”思維在架構上的體現。因此可以在該層引入數據語義層和數據虛擬化的技術,將數據語義定義與物理數據搬運解耦,一方面改變傳統的物理表的 ETL 開發模式,通過多樣化的數據語義定義工具,比如指標平臺,結合數據編排、智能物化等 ETL 自動化技術,實現 ETL 效能的 10 倍提升,另一方面從單純依靠 ETL 工程師的專家經驗設計數據模型和物理鏈路,升級成結合大模型的 ETL Copilot 能力從數據語義(數據口徑)識別出發,主動評估和尋找數據模型與物理鏈路的構建和優化機會,從“人找數”升級成“數找人”,實現主動數據管理。03控制流要讓工
25、作流有“序”,數據流有“治”,離不開對工作流和數據流的感知和決策能力,這個能力便是 DataOps 體系的感知決策中心,可以稱之為控制流。通過實時采集、解析 和 分 析 DataOps 體 系 中 各 項 元 數 據 信 息,生 成 DataOps 控制流,驅動 DataOps 工作流、數據流的敏捷流轉和持續迭代?!坝脭祿卫頂祿?,這也是“數據優先”思維在架構上的另一體現。Aloudata 202413圖7:DataOps 體系的三層架構:“工作流”、“數據流”和“控制流”要基于元數據構建 DataOps 控制流,讓工程流和數據流“看得清”、“管得住”和“治得動”,需要將元數據從被動模式切換
26、到主動模式,二者的主要區別如下:14圖8:被動元數據與主動元數據的區別企業 DataOps 體系建設要解決“數據協同難、數據管理難、數據交付難”的挑戰,走向場景化、自動化和智能化是必然選擇,元數據從被動到主動,是 DataOps 體系從“現代數據工程架構”升級到“數據優 先 工 程 架 構”的關鍵點,主動元數據成為建設 DataOps 的新支點,主動元數據平臺是企業建設DataOps 體系的基礎能力和必備平臺。Aloudata 2024Aloudata 202415元數據要從被動到主動,需要有重大技術突破,其中最關鍵的技術突破是元數據血緣解析技術從表級血緣、列級血緣突破到算子級血緣。算子級血緣
27、是指通過采集解析數據在集成、處理、轉換、服務各個過程中的各類 SQL 操作語句中的各類算子(如算術運算、邏輯運算、比較運算、聚合函數、關聯等),詳細追蹤數據流動和轉換路徑的一種技術。算子級血緣解析的粒度細化到每個 SQL 操作符層面,而不僅僅停留在表級或列級,從而提供更加精確和深入的數據血緣信息??梢园阉阕蛹壯壨ㄋ椎乩斫獬梢环N自動化閱讀 ETL 代碼和分析 ETL 代碼的能力,其效果跟 ETL 工程師人工分析和理解 ETL 代碼一致,但效率有本質的不同,算子級血緣解析可以在幾十分鐘內完成數十萬個表與代碼的全部解析和構建,形成全局數據血緣圖譜。04主動元數據的關鍵技術突破與關鍵衡量指標精細構建
28、是算子級血緣技術突破的第一步。由于企業內有不同的 DataOps 工具、流程和規范,元數據構建的本質是對 DataOps 的“數字孿生”,真實還原客觀事實,其中有很多的場景需要精細的歸一化處理,比如 ETL 腳本中常見的動態日期表問題,即固定表名后面加上動態日期命名的表,需要進行歸一化處理;再比如 ETL 腳本中臨時表的問題,需要能夠自動識別和標注臨時表,以免在血緣分析時不受臨時表干擾,讓數據鏈路刻畫更簡潔更直觀。精準分析是算子級血緣技術突破的第二步。在血緣分析領域影響血緣應用的最大障礙是血緣泛化問題,舉例來說,在數據倉庫分層設計中經常遇到核心公共模型或常用主題模型,比如會員表、訂單表等,有多
29、個上游和多個下游,通常這樣的上下游多達幾十、幾百個,而上下游也會有各自的上下游,從而形成一個復雜的血緣關系網絡,這直接導致表級血緣無法得到實際使用,因為表級血緣無法過濾和裁剪依賴,查找路由時返回結果表過多,導致用戶需要精細化的影響分析時,不得不手工深入到代碼層面,逐一審查邏輯,并理解為何某張表的變化會影響另一張表,這種低效的分析方式讓表級血緣聊勝于無。Aloudata 202416圖9:行級血緣穿透與列級血緣穿透對比精確探查是算子級血緣技術突破的第三步。元數據服務引擎需要支持不同場景的元數據查詢服務,有些場景只獲取少量數據,比如某一指標或字段的口徑,有些場景需要查詢大量數據,比如某一變更事件對
30、下游的影響,元數據服務引擎需要提供 API、SDK、graphQL 等多種方式,支持超 10 億以上的點邊關系的元數據圖譜進行實時查詢,秒級返回動態過濾、裁剪后的精確結果。這種情況在列級血緣有好轉,但在很多場景下依然無法使用,比如常見的聚合表或者指標表,會讓列級血緣的路由過濾和裁剪能力失效,再加上列級血緣的解析準確度通常在 8090%左右,兩者相加,列級血緣只能作為輔助工具,無法用于生產環境的自動化決策。算子級血緣在血緣分析上要實現生產環境下的精準分析和各項策略的自動執行,比如提供變更影響預警通知,在血緣準確度達到 99%的基礎之上,還需要有行級裁剪能力,其在聚合表場景下的效果參見下圖。Alo
31、udata 202417解析準確率高于 99%&分析召回率高于 99%&分析打擾率低于 5%,做到三者才是企業級生產級可用的主動元數據平臺。元數據從被動到主動的關鍵技術突破是算子級血緣,這是元數據能用起來的前提,衡量算子級血緣技術的關鍵指標主要有三個,分別是:解析準確率元數據解析準確率要高于 99%,實現這一指標的前提是元數據解析的成功率要達到 100%。只有準確才敢用。分析召回率數據血緣影響分析的召回率要高于 99%,實現這一指標要求元數據血緣圖譜的完整性,沒有數據缺失,沒有血緣路徑斷聯,在溯源分析和影響分析時搜索返回結果不漏失數據。只有不漏才好用,才會安心用。分析打擾率數據血緣影響分析的打
32、擾率要低于 5%,即在分析召回率 99%的基礎上,盡可能降低誤判的數量,減少對用戶的無謂打擾,這樣用戶才能認真對待每一次元數據分析結果的通知和預警。只有不錯才愛用。Aloudata 202418Aloudata認為企業數智化帶來數據管理復雜度指數上升,核心是數據鏈路看不清、管不住、治不動,導致數據管理難落地、數據協同難開展、數據交付難及時,成本、風險、效率難兼顧。企業寄希望通過 DataOps 體系建設改變上述問題,這需要有新的數據架構思想和新的數據工程架構設計的牽引。Aloudata 認同和積極踐行 Data Fabric 這一數據架構思想,并首倡 NoETL 理念,在數據工程架構上引入“數
33、據優先”的設計方法,定義出全新的數據分層界面:工作流、數據流和控制流(參考上文對“三流”的介紹)。為此Aloudata 推出完全自研的主動元數據平臺產品 Aloudata BIG,作為企業內統一的元數據中心和 DataOps 體系的控制中心,通過實時采集、解析和分析 DataOps 體系中各項元數據信息,生成 DataOps 控制流,驅動 DataOps 工作流、數據流的敏捷流轉和持續迭代,實現敏捷數據協同和主動數據管理。圖10:主動元數據,DataOps 建設新支點05Aloudata BIG 主動元數據平臺介紹19“精細”可以實現對列進行算子級的高精度血緣解析,即便是最復雜的數據鏈路,也可
34、輕松打開鏈路加工“黑盒”,抽取字段計算口徑,清晰展示每一個字段的加工細節,而不僅僅是數據列間的依賴關系,數據人員可快速獲知列與列之間是通過何種加工過濾或維度匯總得到的,而不需要費時費力去人工扒代碼?!熬殹钡牧硗庖粋€體現在于其能夠實現行級別的條件裁剪。在數倉建模過程中,IT 經常建立各種 Hub 型表或主題型表,比如將全域的線上、線下客戶數據集中在一張全域客戶表中,并通過類型字段進行區分,這類表在血緣分析過程中往往會帶來災難一旦下游出現數據故障,想要向上游追溯時,數據血緣追溯會迅速擴散,導致需要評估大量無關的上游數據。算子級血緣的核心突破在于它可以裁剪掉所有無關的上游,降低評估所需數據表的規模
35、達幾個數量級。這對于開展影響變更評估及異常根因定位的溯源工作能夠帶來巨大的效率提升?!皽蚀_”首先,Aloudata BIG 的解析能力對 SQL 寫法沒有約束,它支持幾乎所有數據處理相關 SQL 語法(包括存儲過程),現有的數據處理腳本無需改造,只要數據庫能夠執行,Aloudata BIG 都能準確解析。其次,它不受任何函數限制或子查詢的嵌套限制,并且能夠穿透臨時表。這使得 Aloudata BIG 能夠迅速解析出物理表間的依賴關系,并自動進行口徑合并,從而清晰地展示整條數據鏈路。此外,Aloudata BIG 的方言解析能力覆蓋了市場上主流的數據倉庫和計算平臺產品,如 Hadoop、Gaus
36、sDB、PostgreSQL、Spark、Impala、Oracle 等。為了確保解析的準確性,Aloudata BIG 在出廠前會進行兩套實現進行交叉比對,確保無誤后才會發布。這種嚴謹的檢驗流程確保了解析結果的高準確度和高可靠性。Aloudata BIG 主動元數據平臺,全球獨創算子級血緣技術,自動構建精細、準確、全面、實時的數據血緣圖譜,徹底改變過往元數據不準確、不連通、不精細、不保鮮的頑疾,“讓元數據能用起來”。Aloudata BIG 算子級血緣技術有四大特性:Aloudata 2024Aloudata 202420“全面”表現在 Aloudata BIG 能夠統一收集和解析整個數據鏈
37、路的元數據,無論是位于數據鏈路起點的業務數據庫,或是 ETL 工具,還是位于終端的 BI 工具,Aloudata BIG 都能夠全面連接、自動解析并清晰展現整個數據鏈路,確保從數據的來源到最終消費,每一個環節都能被精確捕捉和分析。這種全鏈路的解析能力對于任何依賴數據的企業而言都至關重要,它不僅提升了數據管理的透明度,還加強了對數據流動和使用的控制,從而為企業帶來更高的數據管理效率和更強的決策支持能力?!皩崟r”在“全面”這一特性的基礎之上,Aloudata BIG 還具備實時采集與接收全域元數據的能力,無論是 DataOps 開發態中的 DDL 和 DML 腳本變更,或者運行態中的 ETL 任務
38、執行狀態,還是運維態中的監控預警信息,每一個事件都可以實時接入,從而讓 DataOps 具備了實時信號燈?!皩崟r”是主動元數據平臺作為 DataOps 體系控制中心的必要條件,從 T+1 到 T+0,從事后到事中,實現“手眼腦”協調一致。Aloudata BIG 主動元數據平臺作為 DataOps 體系的控制中心,其關鍵特性包括:基于語義分析技術實現對 SQL 腳本的算子級自動解析和算子級血緣圖譜構建,實現了對全域字段計算語義的精準刻畫,無論是數據的輸入、輸出、轉換、計算還是存儲,每一個環節都能被精準地追溯和刻畫,讓數據在整個生命周期中的流向和處理過程一目了然。通過元數據服務中心可以配置化提供
39、各類元數據服務 API,可與客戶的數據資產管理平臺、數據集成開發平臺及其他各類數據工具無縫集成,無 需 改 變 用 戶 現 有 使 用 習 慣,即 可 與DataOps 工作流、數據流打通,實現敏捷數據協同和主動數據管理。算子級血緣解析反向元數據集成Aloudata 202421自抽取字段算子級加工口徑,并能結合上下游元數據信息挖掘出數據背后的業務語義,自動生成數據的業務描述,而無需數據專家手工維護。同時,該技術還能夠對元數據進行聚類、分類和關聯分析,實現對全域數據的自動判重和自動編目,從而形成一張語義化的元數據圖譜,促進組織內的數據知識流動、共享與沉淀?;趯υ獢祿纳钊敕治龊屯诰?,還可為用
40、戶提供高置信的建議或設計方案,如在金融監管報送一表通場景下,可以通過精準血緣,將數據質量稽核規則前置,實現事中上游預警;通過分析全鏈路歷史變更提供異常根因診斷輔助等等,幫助用戶更好地管理和使用數據資產;通過挖掘行為元數據為用戶提供數據使用建議;通過分析鏈路冗余依賴提供鏈路時效優化建議。元數據語義挖掘主動元數據服務Aloudata BIG 主動元數據平臺解決了數據管理中的多項“頑疾”:5 分鐘看清復雜字段口徑基于算子級數據血緣,可穿透臨時表對任務腳本內多段 SQL 代碼進行高精度解析,實現字段計算口徑的自動提取和相關性裁剪,用戶只需分析所關心字段相關的 SQL,即可快速看清字段口徑;5 分鐘全鏈
41、路異常根因定位收集全鏈路變更事件,并自動分析版本差異,當應用端數據異常發生時,系統可輔助精準定位由上游變更導致的根因,并精準評估下游影響面,而無需跨團隊協同逐層排查,助力實現端到端數據可靠性保障和上下游高效協同;22行級穿透溯源及影響評估攻克了行級血緣裁剪難題,實現了針對 KV 指標表和主題模型表的精準溯源和影響面分析,根治了血緣發散過快引發大量噪音的問題,讓監管鏈路溯源、十大主題模型優化等工作 10 倍提效;端到端報表盤點通過 Aloudata BIG 的元數據實體的擴展能力,可以打通數據鏈路與報表鏈路,實現數據源到報表的端到端打通,支持從報表側查看數據集背后數據表的責任人、字段口徑、數據更
42、新狀態等信息,也支持從數據生產側從任一數據鏈路或節點查看報表的使用消費情況,降低跨團隊的協作溝通成本,并及時清理過期報表,降低存算成本;主動模型治理借助字段口徑歸一化算法,Aloudata BIG 可基于全鏈路計算口徑量化評估字段級(指標)的相似度,主動識別全域重復資產,促進持續且主動的重復模型治理;與此同時,Aloudata BIG 還可自動識別鏈路冗余依賴,并自動生成模型優化建議,助力數倉模型架構持續高效演進。Aloudata 2024Aloudata 202423圖11:通過AloudataBIG實現DataFabric主動元數據最佳實踐06Aloudata BIG 主動元數據平臺客戶案
43、例介紹目前,Aloudata BIG 主動元數據平臺產品和解決方案已在多家行業頭部企業落地,以下是部分客戶案例的簡要介紹,了解更多客戶案例詳情,可以訪問 Aloudata 官網()。24招商銀行基于精準算子血緣分析技術的模型優化和變更協同應用實踐通過 Aloudata BIG 主動元數據平臺,構建了從源端到消費端的全鏈路算子血緣圖譜,并將算子血緣分析技術整合到大數據研發運維平臺、實現了 ETL Copilot 功能,應用到模型優化和變更協同等場景,服務全行數據開發人員:在數倉重構項目中,輔助開發人員主動發現模型優化機會,大幅提升模型重構效率,推動數倉快速實現資產數量下降 40%、平均鏈路縮短
44、50%;在日常鏈路保障場景中,自動監測上游變更,自動評估精準到字段的端到端影響,幫助運維人員預防或快速定位數據風險,讓上下游協同絲滑銜接。該實踐為同行業解決類似數據管理“老大難”問題提供了思路和方法,利用精準的算子血緣分析能力,創新性地解決了以往依賴大量專家和經驗才能實現效果的模型優化和鏈路保障難題。通過與研發平臺等工具產品的集成,可以推廣輔助更廣泛的人群進行研發提效、質量保障和數據智能應用。Aloudata 2024Aloudata 202425通過 Aloudata BIG 主動元數據平臺,杭州銀行數據治理團隊實現了貫穿企業生產到應用端的“全鏈路算子血緣圖譜”,基于主動元數據分析技術,讓數
45、據落標和資產盤點等方案從“手動”到“自動”,從依賴人工保障數據變更風險到重點鏈路變更自動化協同,豐富了數據治理手段,提升了治理方案落地效果和效率。本案例創新性體現在:杭州銀行基于精準算子血緣分析技術在數據資產管理平臺中的應用全域元數據資產采集和主動保鮮配置化采集企業多類型數據庫元數據及相關數據資產腳本,包括報表、看板及指標類資產類型及資產擴展屬性信息。元數據變更自動感知并更新到資產看板和血緣結果中;01Aloudata 202426跨平臺血緣連通、精準溯源和影響面分析數據資產管理平臺對全域元數據進行統一采集和管理,支持跨平臺血緣連通,配合智能裁剪血緣分析能力,實現精準的溯源和影響面分析;02高
46、精準血緣解析和長效保持處理復雜 SQL 腳本血緣解析,血緣準確率 99%。白盒化血緣解析問題,錯誤自動歸因,構建長效改進和運營能力;03創新智能數據資產管理方案在算子血緣圖譜基礎上,支持靈活可擴展的數據標準和安全標簽打標擴散能力,實現業務數據知識的沉淀和元數據語義知識補充;用戶可以自助完成數倉鏈路盤點和加工口徑的分析,表級、字段級和任務內血緣鏈路絲滑探索,減少找數據過程中對數據開發人員的咨詢量,提升數據理解和信任效率;04重點鏈路風險主動防控基于鏈路精準打標擴散能力形成重點場景基線,對基線上的資產變更主動保鮮,數據質量風險自動通知預警;05反向元數據輸出,賦能多平臺元數據智能提供統一的數據血緣
47、圖譜分析能力,提供多種血緣分析服務輸出,支持靈活的數據管理應用場景創新和現有平臺能力升級。06Aloudata 202427某股份制銀行基于 Aloudata BIG 主動元數據平臺構建 DataOps 體系基礎設施某股份銀行該股份制銀行總行存在多個數據平臺,包括數倉MPP 數據庫、數據湖 Hadoop 平臺以及同步平臺等基礎設施。各平臺內部缺乏一份精細、準確的數據血緣,也缺乏一份跨平臺連通的完整血緣,無法提供全鏈路精準溯源分析和影響面分析能力,導致數據治理和開發人員無法“看清、看全、看懂”數據現狀,重點鏈路的數據資產變更保鮮和運維應急主要依靠人工上報和“人盯人式”保障。行內現有數據資產管理平
48、臺納管的主要是技術元數據,如表、字段等,缺乏完整、準確的血緣關系幫助用戶理解數據“來龍去脈”,監管報送等場景對數據鏈路溯源盤點等需求仍極度依賴人工梳理和保鮮,人力成本消耗很大;在推進數據標準落標時,主要依靠各團隊配合打標和上報,進展緩慢。Aloudata 202428構建一份連通總行各數據平臺的端到端精細化血緣,彌補數據治理工作的技術短板數據平臺分散,存在多種 SQL 方言的腳本,看板、報表等自定義實體無法與數倉鏈路貫通。希望可以在“一張圖”上看清企業全部數據,通過 Aloudata BIG 構建統一、端到端、算子級血緣圖譜,為后續數據治理和管理工作提供元數據基礎,為監管數據團隊提供精準溯源盤
49、點的自動化能力;01提升全鏈路變更協同效率,建設事前事中的研發風險預防機制數據的加工及處理鏈路目前是黑盒,依賴人工去盤點,全鏈路的變更協同主要依賴人工上報風險,同時缺乏精細化影響面分析能力,容易造成“漏報、晚報、濫報”,影響質量保障的效果和效率。通過 Aloudata BIG 主動元數據能力,希望建設“事前事中變更協作機制”:用戶在變更前,可以通過算子級血緣自助生成精準全面的影響面分析報告,主動與受影響下游進行高效的協同;在研發過程中,可以對開發態代碼進行血緣解析和影響面評估,避免變更風險延遲到上線后才發現,主動減少生產故障的發生概率;02實現重要數據鏈路主動保鮮,元數據自動更新客戶希望改變依
50、賴人工確認數據核心鏈路的“滯后性”,以 Aloudata BIG 標簽擴散的輕量級方案來解決核心鏈路數據資產的打標保鮮問題,在鏈路上的表變更(新上線或者下線)時,自動更新鏈路資產保障范圍。元數據每日采集更新后,存量的打標擴散結果也會自動更新,徹底改變人工上報模式;03借助主動元數據平臺,推進 DataOps 體系的產品能力建設DataOps 體系的產品也需要借助主動元數據平臺提升“自動、智能化”研發的能力,Aloudata BIG 的反向元數據輸出能力,可以將血緣頁面、API 接口與行內各 DataOps 體系的產品融合起來,將主動元數據輸出到廣泛的數據用戶工作流程中,提升數據研發和運營效率和
51、效果。04在引入 Aloudata BIG 產品后,希望能夠“彎道超車”,快速滿足數據治理和 DataOps 體系建設需求。Aloudata 202429某頭部證券公司利用 Aloudata BIG 產品能力全面提升數據研發效能某頭部證券該證券公司數據中臺管理了多種數據平臺和數據庫產品,數據研發人員在日常工作中,非常依賴血緣圖譜來分析開發工作的上下游依賴和查詢元數據。但由于業務的復雜性和歷史原因,數據研發使用的 SQL 方言多達 6 種以上,還包括了存儲過程、Python 腳手架等擴展 SQL 代碼,現有的表級血緣無法支持復雜代碼的解析,精度上也達不到業務要求,導致數據研發人員仍然需要自己看代
52、碼來分析數據加工鏈路。數據質量的保障也因為血緣“連不通、看不清”,變成“被問題推動”的應急響應和防控辦法;數據遷移、上線變更等場景,都需要拉通上下游所有團隊一起評估,如果鏈路太過于復雜,整體的研發風險就非常不可控。在引入 Aloudata BIG 主動元數據平臺產品后,數據中臺研發團隊的上述痛點得到了有效解決:Aloudata 202430升級到實時算子級血緣,實現元數據一致性保障Aloudata BIG 主動元數據平臺可以支持實時 DDL 和 DML 采集解析,考慮到實時采集方案不同導致數據有快有慢,針對元數據一致性也提供了有效解決方案,可以滿足實時血緣構建時的完整性和準確性要求;01構建高
53、精準的血緣圖譜,解決多方言、多數據庫平臺的血緣連通問題,支持端到端影響分析和鏈路盤點Aloudata BIG 支持對多方言的復雜 SQL 代碼和擴展 SQL 代碼的解析,借助血緣正確性驗證案例集和 Aloudata BIG 產品的白盒化解析運維能力,可以在日常維持高準確性的算子級血緣圖譜。Aloudata BIG 提供的精細化溯源和影響分析報告,也可以“開箱即用”,完全滿足數據中臺用戶的日常工作需求;02“以數據治理數據”,實現以元數據驅動的變更協同和風險聯動保障機制Aloudata BIG 的引入改變了“變更靠喊、全員應急”的低效工作模式,不僅體現在變更協同的人員更少更精準,也大幅度提升了應
54、急響應效率,研發問題排查借助 Aloudata BIG 的能力可以實現 10 倍提升;03構建數據治理基礎設施,具備二開能力支持更多數據應用場景Aloudata BIG 是企業元數據基礎設施。在全連通血緣圖譜基礎上,數據資產管理平臺和數據研發工具平臺都能從中受益。數據資產管理平臺可以直接升級到算子級血緣圖譜,利用口徑提取和分析能力,幫助業務分析師、數據開發人員快速理解和甄別數據資產,減少咨詢摩擦成本。數據研發工具平臺可以借助 Aloudata BIG 的 API 開放服務,改進各環節開發效率,增強自動化數據管理能力,實現更好的數據價值輸出。04Aloudata 202431本文回顧了最近 10
55、20 年數據需求用例和數據技術變革的過程,討論了“現代數據工程架構”背景下 DataOps 產生的原因,認為 DataOps 的價值主張在于通過“端到端”打通數據流水線,打破“點對點”的低效數據協作流程,實現“手遞手”的數據價值釋放,可以將 DataOps 體系的建設總結為:一個目標,兩個實現。一個目標:“數據優先即業務優先”,高效交付高質量數據。兩個實現:數據協同要從“人盯人”升級成“事盯人”,實現敏捷數據協同;數據管理要從“人找數”升級成“數找人”,實現主動數據管理。為了要解決“數據協同難”、“數據管理難”和“數據交付難”這三個難題,落地 DataOps 體系“一個目標、二個實現”,要對
56、DataOps 體系進行“數據優先”的分層設計,可以將 DataOps 體系分成三層:“工作流”、“數據流”和“控制流”,而“控制流”就是主動元數據平臺,其關鍵技術突破是算子級血緣技術。Aloudata 作為業內首家實現算子級血緣技術的廠家,推出完全自研的 Aloudata BIG 主動元數據平臺產品,幫助企業實現敏捷數據協同和主動數據管理,在多個行業客戶獲得了成功應用?;仡欉^去,展望未來,元數據從被動到主動,是 DataOps 體系從“現代數據工程架構”升級到“數據優先工程架構”的關鍵點,也是履約 DataOps 體系建設目標的關鍵突破口。主動元數據將成為建設 DataOps 的新支點,主動
57、元數據平臺將是企業建設 DataOps 體系的基礎能力和必備平臺,期待能夠有更多的企業參與到這次未來 10 年的數據工程技術的變革浪潮中來,一起實現“數據優先即業務優先”的美好愿景。07總結與展望32關于 AloudataAloudata(大應科技)是一家自動化數據管理軟件提供商,國內 Data Fabric 架構理念與實踐引領者,以“讓數據隨時就緒”為使命,致力于消除數據管理技術瓶頸,提升 ETL 工程自動化水平,助力企業平滑升級至下一代大數據基礎設施。Aloudata 自主研發的國內首個邏輯數據編織平臺 Aloudata AIR 支持異構數據的邏輯集成、整合與查詢,通過自適應物化加速和自動
58、回收技術,實現秒級跨源查詢響應并節省 50%以上的存算成本;Aloudata BIG 主動元數據平臺,基于全球獨創的算子級血緣解析技術,讓復雜數據鏈路看得清、管得住、治得動,實現更精細更智能的數據管理;Aloudata CAN 自動化指標平臺,改變“業務提需求 IT 開發”的傳統模式,實現指標“定義即開發、定義即服務、定義即治理”,支持業務人員從任意顆粒度、任何維度靈活分析指標。目前,Aloudata 各產品已在金融、消費零售、能源、制造等行業多家頭部企業的復雜數據環境中落地,成功交付了多個 Data Fabric 最佳實踐。Aloudata 多次在科技賽道評選中脫穎而出,獲評 Gartner
59、 創新洞察:數據基礎設施成為中國數據與分析生態系統的基石報告中國具有代表性數據基礎設施供應商、入選 2024 IDC PeerScape:金融領域數據管理分析服務最佳實踐案例和 2023 中國信通院2023 大數據“星河案例”雙標桿案例,并斬獲大量行業獎項。憑借 Aloudata 在大數據領域的領先技術實力和頭部客戶服務能力,公司創始人周衛林獲評2022 大數據產業年度趨勢人物。聲明本報告為 Aloudata 制作,報告中所有的數據、文字、圖片、表格均受有關商標和著作權的法律保護,部分文字和數據采集于公開信息,所有權為原著者所有。本報告為首次發布版本,Aloudata 隨時可能進行內容更新,且本報告內的信息均依據現狀提供,僅供市場和客戶交流參考之用,并不視為針對企業提供的專業建議,Aloudata 對本報告的數據和觀點不承擔法律責任。電話 0571-85106688郵箱 簡歷 微信服務號Aloudata 2024