《Aloudata:2024年NoETL開啟自動化數據管理新時代白皮書(24頁).pdf》由會員分享,可在線閱讀,更多相關《Aloudata:2024年NoETL開啟自動化數據管理新時代白皮書(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、開啟自動化數據管理新時代Opening a new era of automated data managementCONTENTS2024Data Always Ready引言01企業數據管理復雜度指數級提升01數據管理的三大主要挑戰與應對方案04數據管理挑戰的歸因分析12NoETL開啟自動化數據管理新時代14Aloudata推出NoETL產品解決方案16結論與展望20Aloudata 202401一、引言隨著企業信息化建設的不斷投入,疊加互聯網、移動互聯網和物聯網相關理念和技術在千行百業中的不斷普及,國內企業數字化轉型升級先后經歷21世紀初的數據倉庫體系建設和2015年前后的大數據體系建設
2、,不少企業至今已有10年、20年以上的數字化建設投入期,這類企業現在無不面臨“數據量不斷增長、看數用數人群不斷泛化、數據需求爆炸性增長”與“數據風險敞口越來越大、數據成本越來越高、數據效率越來越低”的挑戰,這對企業數據管理領域帶來前所未有的挑戰與機遇。本白皮書將重點探討企業從數字化管理躍遷到數智化運營的過程中,企業在數據管理上面臨的關鍵挑戰,介紹當前的傳統應對思路、方案和不足,并介紹如何通過AloudataNoETL數據管理理念,落地NoETL數據管理架構,系統性解決數據管理的根本問題,開啟自動化數據管理新時代,加快釋放企業數據價值。隨著企業數字化轉型的日漸深入,越來越多的企業從數字化管理躍遷
3、進入到數智化運營階段。我們從業務和組織兩個視角剖析這一躍遷帶來的數據管理上的變化和挑戰。從業務視角看,每家企業都有自己的年度經營目標,需要監控和跟蹤經營目標的達成情況,比如通過設定年度收入目標等業績KPI來進行經營管理。為了呈現這些KPI指標背后的公司運營情況,不僅要監控當前KPI進展,還需與同期值和目標值進行比較,并分拆細化至不同部門,例如通常會區分線上銷售部門和線下銷售部門,進行目標的渠道拆解。當指標下發到部門的時候,部門總經理會進一步拆解為更具體的團隊指標,并與不同團隊如渠道運營團隊、商家運營團隊、產品運營團隊和會員運營團隊的工作綁定,形成團隊目標。團隊成員收到團隊目標之后,會利用BI平
4、臺、AB實驗平臺等數據分析工具識別業務問題和優化機會,通過運營工作臺、營銷投放平臺等工具將這些機會應用于業務系統,推動業務的閉環發展,從而實現公司經營目標。二、企業數據管理復雜度指數級提升02圖1:從數字化管理到數智化運營,企業數據價值化之路我們可以從業務角度對企業數智化進行一個總結:Aloudata 2024企業通過數智化手段實現管理能力落地至一線,并推動流程優化和組織協同。比如通過跟蹤商品成交數據和跟蹤商品的業務全流程,可以圍繞商品成交這一業務目標,指導多個團隊完成商家招募、商品采購、商品推廣、庫存管理、售后服務等多個環節的打通和優化。01要實現上述業務場景,指標分析要“能上能下、能左能右
5、”,即一個指標要有下鉆和上卷的能力,和跨多業務主體進行多維度分析的能力,并可以將分析建議和分析對象跟業務運營動作對接打通,實現業務的數智化運營。02Aloudata 202403圖2:從數字化管理到數智化運營,企業組織能力躍遷之路從組織角度看,企業數智化推動組織能力演化可分為三個大的階段,參見下圖。第一個階段是“信息化建設”階段。這張圖里呈現的組織能力是在信息化建設的成熟期,這個時期的IT技術部通常分為兩層:一層是面向業務場景的業務技術團隊,如商家事業部的商家技術部;另一層是面向技術基礎設施的平臺技術團隊,負責數據中心規劃、硬件設備采購和平臺運維監控等。第二個階段是“數字化管理”的早期階段。通
6、常組織結構中會增加一條專門負責BI的團隊,該團隊主要服務公司管理層,主要工作內容就是管理駕駛艙和業務分析報告。這個階段的數據技術團隊一般很小,可以獨立在IT部門之外,也可以在IT部門內部,甚至可以沒有,大部分的技術工作可以外包給數據技術(DT)供應商。第三個階段是“數智化運營”的成熟期。隨著企業進入數智化運營的成熟期,數智化場景廣泛存在,數據作為一種能力與意識與業務融合,這個時期業務團隊內部也會包含業務分析師、數據科學家等角色,技術部內部也會建設專門的數據技術團隊,甚至對口業務的技術團隊也會設立數據工程師、算法工程師等職位,形成面向業務場景的數據技術特種部隊。這種組織體系結構成為許多行業頭部公
7、司和互聯網公司的常態。從組織視角看企業數智化的演進過程,可以用一句話來總結:企業數智化轉型升級的本質是企業業務能力的升級,這意味著數據需求無處不在,每一個員工都是數字公民,這對企業的數據架構和數據管理能力提出了極大的挑戰。Aloudata 202404從上述對“業務”和“組織”這二個視角的演進歸納中,我們可以發現,數智化必然帶來企業數據管理復雜度的指數級上升。主要體現在隨著數據應用場景的增加,數據鏈路持續增長,數據管道的復雜性指數級上升;隨著越來越多的團隊參與數據鏈路構造,容易導致數據管道的煙囪化,形成更為復雜的數據體系結構,進而進一步帶來企業數據管理復雜度的指數級上升。具體來說,數據管理有三
8、大方面的主要挑戰。挑戰之一是數據可用性的風險挑戰,能否按時按質提供數據?!鞍磿r”是指數據的時效性、可靠性,“按質”是指數據的準確性、完整性、一致性。其中數據時效性、可靠性是最基礎的數據可用性要求,意味著能否每天準時看到用到數據。圖3:數智化帶來企業數據管理復雜度指數級上升三、數據管理的三大主要挑戰與應對方案Aloudata 202405在數據時效性的運維保障中有一個關鍵概念是“任務基線”運維保障。隨著數據處理鏈路的依賴不斷加深,數據鏈路不斷延長,一方面負責數據更新的任務很容易出現超時或中斷;另一方面定位和解決問題的難度不斷增加,牽扯面越來越廣,基線治理效果越來越弱。如下圖所示,這很容易造成惡性
9、循環。數據是否按時更新,更新頻率是否滿足需求;數據時效性Timeliness系統是否能夠持續穩定提供數據;數據可靠性Reliability數據是否正確無誤,能夠真實反映現實世界的情況;數據準確性Accuracy數據統計結果是否包含所有必要的信息,是否丟失或冗余了部分數據;數據完整性Completeness數據在不同時間點或不同來源是否保持一致,是否存在矛盾或沖突。數據一致性Consistency圖4:挑戰一:風險,數據可用性越來越難保障Aloudata 202406圖5:風險挑戰應對:任務基線可用性保障方案為了解決這一問題,我們需要構建任務基線可用性保障方案,如下圖:該方案將任務分為兩個階段:
10、開發態和運行態。在從開發態轉變到運行態的過程中,將基線管控納入發布管控,成為非常重要的卡口和抓手。在事前階段,需要確?;€設置的合理性,例如,無經驗的開發人員可能會設定不切實際的任務基線完成時間(如8:00必須完成),由于未經客觀評估其可行性,導致任務一旦上線可能導致延遲故障并觸發報警。在事中階段,開發人員可能會漏設預警和告警規則,或在需要告警時聯系不上相關責任人,這種情況是典型的基線運營巡檢需要處理的問題。在事后階段,一旦問題發生,需要進行復盤,找出問題的根本原因。完整的任務基線保障工作可以參考圖中方案。Aloudata 202407延遲產出。而控制數據質量問題減少對數據可用性的影響,涉及到
11、數據質量控制(DQC)、數據任務調度配置、數據鏈路異?;謴秃蛿祿绊懨嬖u估等復雜問題。為此,需要建立一個更強大更完整的數據可用性保障體系。如下圖。上述這種機制能夠幫助解決大部分任務基線運維保障問題,但數據質量問題也可能導致數據時效性問題。例如上游任務產出的數據出現質量問題,可能導致上游任務中斷執行,導致下游任務無法正常起調;也可能檢測程序沒有發現上游數據質量問題,導致下游任務正常起調之后更新產出的數據不對,這時需要回溯上游數據,從而導致上下游數據圖6:風險挑戰應對:數據可用性保障功能規劃全景圖這種體系的橫軸是從DataOps的角度出發,涵蓋數據研發各個階段,如開發、設計、測試、發布和運維等;縱
12、軸是從數據管理和數據架構的角度出發,被分成不同的等級、維度和方面,包括研發規范、數據質量、數據架構和安全合規等,從而形成一個全面的視角來規劃各種功能。我們寄希望通過這些功能和平臺能力,可以確保數據的高可用性。數據可用性保障功能規劃全景圖這一需求,一方面是由數據運維遇到的各類問題倒逼出來的(例如故障復盤會引入事前事中事后的各類舉措);另一方面是由于企業進入數智化運營階段,數據已經直接參與到業務鏈路中(例如在銀行業,數據用于風控做授信準入;在營銷場景中,數據用于影響廣告投放和推廣),數據的準確性將直接影響業務效果,甚至可能導致業務無法正常開展,比如用戶是否具備產品使用或購買權限就受營銷名單的數據更
13、新影響。在這種情況下,數據技術體系與業務技術體系是融合的,是相互聯動的。從開發運維一體化的角度看,DataOps體系也需要與DevOps體系對接打通,才能端到端看到完整的工程鏈路。因 此,DataOps體 系 的 發 展 可 以 從 邏 輯 上 學習 DevOps的 體 系 結 構,借 鑒、引 用、完善DataOps體系,從另一個方面形成數據可用性保障功能規劃全景圖。Aloudata 202408以上我們分析的是數據管理的第一項挑戰風險,以及業內常見的應對方案。第二項挑戰是成本。隨著企業數據量和表的數量不斷增多,這意味著需要更多的計算和存儲資源。隨著表和任務的增加,人力成本和技術要求也在不斷提
14、高。一個運行五年以上的數據平臺,表數量和存儲的增長曲線會越來越陡峭,數據倉庫各分層的存儲占用也會隨之增加,尤其是應用層,隨著企業內部對數據的使用越來越廣泛,業務技術部門和數據分析團隊參與到數據分析鏈路中,使得表的數量持續增加,應用層的增長速度會明顯快于中間層,形成數據倉庫“頭大腳輕”的現象。圖7:挑戰二:成本,數據成本越來越高(存儲、計算、人力)面對這種情況,成本管理成為一個挑戰。傳統的做法是采用運動式治理,例如每兩年一次的數據倉庫模型重構。但是,對于運行了五年或更長時間的數據倉庫系統,由于表和任務的數量龐大,進行重構的難度也非常大,甚至不可能實現,比如在十萬張表的數據量級下,靠ETL架構師的
15、個人能力已經無法看全整條數據鏈路了。我們知道大數據和AI技術被廣泛應用于解決復雜的業務問題,例如會員運營和商品交叉銷售等場景。那么為什么不使用大數據和AI技術來解決數據平臺內部的復雜數據治理問題呢?因此,我們可以有一種新的思路:用數據治理數據,用行為改變行為。Aloudata 202409圖8:成本挑戰應對:用數據治理數據,用行為改變行為圖9:成本挑戰應對:數據資產健康度紅黑榜“用數據治理數據”的具體方法包括對數據資產進行刻畫并給其打上標簽,類似于業務場景中對用戶進行打標簽以形成用戶畫像。標簽的設定可以從多個角度出發,例如通過數據的穿透率、覆蓋率、復用率和重復率等指標來評估數據的健康度,并建立
16、健康度儀表盤?!坝脭祿卫頂祿狈椒軌蚵涞氐那疤崾切枰袦蚀_、全面、精細的元數據底座能力的支持?!坝眯袨橛绊懶袨椤笔侵缚梢越⒁粋€數據資產的治理和運營體系,進行數據資產的生命周期管理,并影響數據人的行為,就像業務運營團隊會建立會員運營體系管理會員的生命周期一樣。通過數據資產運營體系的操作,例如組織“下存儲送計算”活動,可以獎勵那些在數據存儲治理表現優秀的團隊更多的 計 算 資 源;也 可 以 通 過 打 造 數 據 KOL,將KOL的使用行為與數據資產關聯,形成KOL為數據資產代言的效果,從而影響上下游更多人群的數據使用行為;還可以建立數據資產健康度的紅黑榜,通過這種方式進行效果的量化和展示
17、,有效促進各個數據團隊實施和優化長效治理機制。以上我們分析的是數據管理的第二項挑戰成本,以及業內常見的應對方案。Aloudata 202410數據管理面臨的第三大挑戰是效率問題。與“風險”和“成本”挑戰不同,效率問題在多個層面都有反映。分析“效率”挑戰背后的原因非常復雜。圖10:挑戰三:效率,數據研發效率越來越低首先,數據需求響應效率在逐漸降低。這主要是因為企業數據需求在數智化運營階段變得更加靈活,而數據開發卻變得越來越復雜。從數據需求的響應角度看,相同的需求滿足的周期正在變長。01其次,數據研發協同的效率也在下降。以數據模型重構為例,當數據中間層重構完成后,需要讓下游數據切換到新的中間層,這
18、個過程耗時很長。例如,可能在四個月內,新的中間層的表數量從560張增加到1280張,而舊的中間層的2200張表卻只遷移下降了60張。這是因為下游的末端節點可能不屬于同一個團隊,這個團隊有自己的業務需求需要優先滿足,無法與重構節奏同步。這導致了一個進退兩難的局面:下游數據尚未切換,舊的中間層無法廢棄,中間層團隊需要同時維護兩套數據鏈路。02第三,隨著需求和ETL工作量的指數型增長,運維和答疑的工作量也在同步增加,這意味著在數據工程量增加的同時,數據運維成本也在增加,從而導致數據研發投入相對減少,效率進一步降低。有數據統計發現,ETL工程師平均50%以上的時間花在數據運維、數據答疑和平臺治理上。0
19、3Aloudata 202411首先是架構問題。數據工程師與其他技術工程師存在顯著差異,例如負責會員系統或交易系統的Java工程師,系統調用次數的增加可以直接證明其技術能力和技術價值,從而有助于職場的晉升與發展。然而,對于數據倉庫的架構師和ETL工程師而言,即使他們的工作被下游頻繁依賴,也難以直接體現技術深度。這主要是因為數據倉庫本質上是一個Serverless平臺,其計算能力和系統穩定性主要由計算存儲引擎團隊負責,尤其是在大數據分布式計算架構普及的背景下,系統的彈性擴容變得較為簡單成熟,ETL工程師的主要任務是負責模型設計、代碼編寫和任務正確執行。因此,更多的下游依賴并不能體現技術深度,反而
20、增加了運維工作量和責任,甚至不恰當的依賴反過來會證明自己的專業能力不足,導致數據技術體系從“我為人人,人人為我”的模式轉變為“人人為我,我為自己”,每個團隊和個人只負責自己的“一畝三分地”,不再承擔整體責任。在這種純業務驅動、各自為戰、在架構上無法協同的情況下,很難持續建設、穩定迭代、不斷優化數據模型和數據鏈路。圖 11:挑戰三:效率背后是協同問題,是架構、組織和文化其次是組織問題。從上文的介紹可以知道,當企業數智化到了一定的階段,數據團隊的去中心化趨勢是不可逆的。隨著業務數智化程度的加深,和業務與數據的融合加劇,業務團隊內部自然而然地會培養數據意識,提出更多業務需求,此時業務需求也是數據需求
21、,二者通常不可分割,這要求業務技術團隊需要具備數據處理能力,此時數據需求的開發協作就會涉及多個不同團隊,而協同問題的解決往往非常棘手。舉例來說,負責風控或營銷業務的團隊需要為其業務數據的質量和完整性負責,如果上游數據提供者不承擔相應責任,下游團隊難以放心使用其數據,在這種情況下,業務數據團隊可能會選擇構建自己的數據鏈路,以確保全鏈路質量,這樣數據研發就退回到農耕時代的“自產自銷”模式,不僅效率存在問題,成本也會成為問題。最后是文化問題。在架構問題和組織問題存在的情況下,數據治理的意識和文化很難建立,一方面數據生產側,數據只上不下,存在“盡情吃、隨便拉、不管擦”的情況,另一方面數據消費側,數據不
22、好找,不敢用,用不對,導致重復建設多,形成新的數據孤島。Aloudata 202412圖 12:總結:“風險、成本、效率”難兼顧,數據管理亟待變革此時企業陷入艱難局面,這些問題似乎無解,因為架構、組織和文化問題屬于CTO或CEO層面的問題,很 難 從 技 術 的 視 角 切 入 解 決。即 便從CTO和CEO的視角來看,要解決上述難題,業內也缺乏成熟的實踐可供借鑒。而數智化升級是企業的必然選擇,解決上述挑戰也因此是未來數據管理領域的必然課題??偨Y來看,數智化背景下,數據管理面臨的挑戰是:在風險、成本和效率之間難以達到平衡,甚至在兩者之間的平衡都難以實現。要解決數據管理的挑戰,首先需要分析和明確
23、其產生的根因。技術服務于業務,業務變化催生技術進步。我們認為隨著互聯網和移動互聯網的興起,數據需求從穩態需求轉變為敏態需求,從而導致ETL工程量的指數級增長是造成數據管理挑戰的根本原因。更多詳細分析可以參看Aloudata白皮書NoETL驅動數據工程新變革。這正是Aloudata創立的初衷通過技術創新解決數據管理的困境。四、數據管理挑戰的歸因分析Aloudata 202413圖 13:數據管理挑戰歸因分析:數據需求發生范式躍遷圖 14:ETL工程師驅動的數據管理范式不可持續我們上文提到企業為了應對數據挑戰而實施的諸多策略與機制都是不斷把功能做得更多更全面,把制度和規范制定得更細更嚴謹,但卻無法
24、從根本上解決數據管理的困境。這是因為數據管道的增長和復雜度沒有上限,而ETL工程師在數量和能力上都存在上限,所以傳統依賴ETL工程師驅動的數據管理范式不可持續。因此為了突破傳統的數據管理范式,需要探索全新的思路。Aloudata 202414我們認為,數據管理的目標是追求一份統一的數據資產。若能實現“一份數據資產”的干凈狀態,數據的可用性問題、成本問題和效率問題都將得到全面解決。為此Aloudata提出NoETL理念,其關鍵點有三個:看得清、管得住和變得動。五、NoETL開啟自動化數據管理新時代圖 15:關于NoETL驅動的自動化數據管理的思考“看得清”“管得住”需要元數據。通過元數據我們可以
25、創建一份對數據的畫像,通過血緣分析看清楚數據資產,類似于業務側通過構建商家畫像和用戶畫像實現智能運營。關鍵在于管理數據的業務含義。數據管理的關鍵不在于管理數據存儲和表本身,而是管理數據的業務含義,即數據口徑,也就是業務語義,因為真正的資產價值是數據口徑與業務語義,代表的是業務知識的沉淀。數據倉庫中的數據只不過是業務語義的計算結果的固化,是應對數據分析性能和成本要求的一個預計算結果。Aloudata 202415“變得動”是最具挑戰性的目標,因為只有“變得動”,“管得住”才有意義,否則“管”和“研”還是兩張表,數據協同的挑戰仍將存在,最終依然會陷入傳統數據管理的挑戰里而不能自拔。我們認為,要實現
26、“變得動”,數據虛擬化是一個比較可行的解決方案。我們可以通過一個類比來理解數據虛擬化技術。傳統ETL要靠多層的數據搬運來滿足業務需求,類似于商業世界中的線下零售,通過多級批發商到零售商的物理分銷體系來滿足客戶需求,存在多次的商品搬運。為了滿足消費者的個性化需求,門店必須備足不同款式的商品,而這些商品不可能全部被消費者購買,因此總會有庫存,從而導致整體經濟性的下降。相比之下,線上零售的邏輯是,商家發布商品,形成商品庫,消費者通過搜索商品庫找到商品,加入購物車,下單,商品隨后被配送。在這個過程中,庫存問題會得到極大的緩解。而商品送達的及時性問題,則可以通過物流端的優化來解決,例如通過設置中央倉或前
27、置倉來提高物流效率。我們提出的NoETL理念,類似于線上零售,是基于數據虛擬化的自動化ETL編排,旨在通過從物理搬運轉向虛擬化邏輯構建來實現這一目標。正如電商世界中的三種模式從線下到線上、只做線上和從線上到線下。我們的理解是,虛擬化與傳統數倉的方式需要結合起來,根據企業的特點來實施,這看起來是一種比較穩妥且可持續迭代的方法。當前我們已經有許多客戶采用這樣的方法來應用和實施數據虛擬化技術。如上所述,從數據存儲與計算的視角來看“一份數據資產”是難以達成的,因為在不同的數據量和場景下,不同的計算引擎有著差異化的表現,很難有一個“AllInOne的引擎可以實現性能、成本、時延等多個維度上的最優,因此數
28、據在不同引擎的搬運難以避免。我們判斷一種合理的實現“一份數據資產”的架構方案是在存儲與計算引擎層實現“統一存儲、開放計算”的湖倉一體架構,在數據資產架構上實現“統一語義、自動編排”的NoETL數據架構。當然在實施湖倉一體架構和NoETL數據架構時,企業可以分場景分階段地推進上述架構的落地,比如在NoETL數據架構的落地上,可以先從數據集市層切入,實現某條業務線或數據應用層的統一語義化、數據虛擬化和數據編排自動化。我們認為Aloudata的NoETL理念與國際上比較前沿的DataFabric不謀而合。DataFabric的核心在于引入了一個切片,這個切片位于業務場景與數據之間,通過語義化的交付方
29、式,旨在快速滿足業務需求并隔離背后的復雜性。在當前的數據管理和分析領域,虛擬化技術的應用日益重要。這種技術允許我們在沒有物理移動數據的情況下進行信息流的管理,類似于電商平臺在處理商品信息流時的方式。這種方法不僅提高了效率,還簡化了數據處理流程。Aloudata 202416圖 16:NoETL與前沿的DataFabric理念不謀而合六、Aloudata推出NoETL產品解決方案在NoETL的整體思路下,Aloudata推出了三款產品:這三款產品旨在幫助數據團隊不再進行復雜重復和不經濟的層層人工數據處理,而是首先明確業務的數據口徑,然后通過語義引擎構建相應的數據集和指標,最后通過數據虛擬化引擎完
30、成數據集和指標的查詢和加速,從而實現更加智能的數據管理。AAloudataAIR邏輯數據平臺基于列算子血緣解析的主動元數據平臺BAloudataBIG自動化指標平臺CAloudataCANAloudata 202417圖 17:AloudataNoETL架構示意圖圖 18:AloudataAIR:國內首個邏輯數據平臺AloudataAIR是一款邏輯數據平臺。一個典型的應用場景是企業的數據可能存儲在多個云平臺或多個區域的數據中心里,特別是在跨境場景下,需要能夠支持多云環境下的數據集成與查詢的解決方案。AloudataAIR的另一個典型的應用場景是大型集團公司,這些公司下屬有多個不同的業務實體。在
31、這種組織架構中,各分子公司可能各自擁有獨立的數據倉庫。集團層面如何有效訪問和管理這些分散的數據成為一個挑戰。通過數據虛擬化,可以無需物理遷移所有數據,實現集團與分子公司之間數據的直接訪問與分析,極大地簡化了數據管理和分析過程。數據虛擬化在現代企業中表現出了在處理復雜數據結構和多源異構環境中的強大應用潛力,提供了一種高效、靈活的解決方案。Aloudata 202418AloudataCAN是 一 個 NoETL的 自 動 化 指 標 平臺,其應用覆蓋了管理層看板、部門看板、運營活動和業務閉環運營的全過程。這種基于指標的管理方式能夠有效支持企業的決策和運營。傳統的指標開發依賴于ETL工程師在數倉中
32、間層和應用層大量的建模和開發作業,這種模式決定了指標的口徑被定義在每一條開發作業中,口徑管理成本極高。隨著需求的數量和緊迫性的不斷增長,中間表數量快速膨脹,指標口徑混亂的問題愈發突出,而業務側的體感是用數效率和質量不斷下降。前文對此有過詳細分析。傳統人工ETL開發模式導致指標口徑管理、開發效率和成本等問題伴生出現,針對任何表象問題進行優化的方案都只是治標不治本。比如,通過指標口徑登記和管理工具來進行口徑管理,本質還是通過制度來管理人,無形中帶來了更大的工作負擔,因此難以落實到位,且強制管理還會同指標的開發效率構成矛盾。我們從NoETL的角度出發,通過自動化的思路來優化指標的生產、消費和統一管理
33、。這種方法的核心在于通過定義清晰的語義,對數倉中間層和應用層進行建模,然后通過自動化構建和物化加速實現指標的定義、開發、管理、消費的一體化,我們稱之為“管研用一體化”。從人工到自動化是唯一從根源上徹底解決指標開發和消費的效率、質量和成本三者兼顧的一種“根治”思路。而其得以實現的兩項核心能力在于強大的指標定義能力和自動化的指標開發與查詢加速能力。圖 19:AloudataCAN:定義即生產的自動化指標平臺Aloudata 202419圖 20:AloudataBIG:全球首個具有列算子級血緣解析能力的主動元數據平臺AloudataBIG是一個基于全球領先的列算子血緣解析能力的主動元數據平臺。如前
34、所述,在處理大規模數據時,如何有效管理和利用這些數據成為了一個挑戰,需要一個強大的DataOps體系來支持,該體系包含了數百個功能項,但在真實場景下,并非所有數據需求都需要完整走過這些功能流程。因此,基于具體的業務場景進行數據需求的分類和分級,選擇合適的流程至關重要。這種流程的設計和實施最終都依賴元數據的支持。沒有元數據的驅動,平臺僅是一個簡單的工具箱,無法有效支持研發過程和數據管理。數據管理的理念、思想和控制能力必須體現在研發流程中,需要利用元數據來引導研發流程并實現其智能化。缺乏這樣的能力,再多的工具也只是堆砌,無法形成真正的 數 據 管 理 解 決 方 案。例 如,在 實施 DataOp
35、s體 系 時,數 據 模 型的Review是一個關鍵環節,需要判斷模型是否符合要求以及是否存在重復或需要優化的地方,這需要一套基于元數據的算法來實現。AloudataBIG以“精細、全面、準確”的血緣解析能力為基礎,自動構建端到端、跨平臺、可擴展的血緣圖譜,支持復雜SQL代碼的自動解析,獨創行級裁剪能力,并通過提 供 反 向 元 數 據 的 各 類 API與 企業 DataOps平 臺 集 成,讓 DataOps實現“場景化、自動化、智能化”,幫助企業構建更加智能的數據治理能力,以更低成本顯著提升事前防控、事中監控、事后應急、鏈路梳理等全鏈路數據保障的效率與效果。Aloudata 202420
36、上 述 三 款 產 品 的 更 多 詳 細 介 紹,可 以 訪問Aloudata官網()。如果對這三款產品的關鍵技術和技術原理感興趣,可以官網下載閱讀白皮書DataFabric,面向未來的數據管理架構,里面有相關介紹。如果想進一步了解NoETL數據管理的實踐案例和應用場景,可以通過官網聯系我們,安排專家進行一對一的溝通和交流。此外,上述三款產品均已在頭部金融企業的生產場景中得到驗證,并獲選為中國信通院大數據“星河”標桿案例,入選IDCPeerScape:金融領域數據管理分析服務最佳實踐案例報告。圖 21:權威機構認可七、結論與展望最后,我們來總結一下NoETL的本質。傳統數據管理體系是通過ET
37、L工程師來驅動的。隨著數據需求的大幅增長,數據鏈路的日益復雜,ETL工程師在數量和能力上都存在上限。在這種情況下,我們 只 能 通 過 NoETL思 路 來 重 塑 數 據 管 理。NoETL的 本 質 是 自 動 化,而 ETL智 能 體(Agent)是這種自動化的終極實現,成為推動新一代自動化數據管理的關鍵。Aloudata 202421圖 22:NoETL的實質我們認為,ETLAgent的背后是對ETL專家的知識和技能的沉淀,并以在線化和自動化的形式呈現?,F實中的ETL專家有數量和能力的上限,而ETLAgent沒有數量上限和能力上限,相當于為每個企業提供一批7x24小時持續在線的ETL專
38、家,以實現ETL任務的“自動駕駛”和數據管理的“自治理”。我們認為,NoETL就是數據管理在AI時代的最易解讀和最佳解讀,更是指引我們前進的方向。22關于 AloudataAloudata(大應科技)是一家自動化數據管理軟件提供商,國內 Data Fabric 架構理念引領者,以“讓數據隨時就緒”為使命,致力于消除數據管理技術瓶頸,提升 ETL 工程自動化水平,助力企業平滑升級至下一代大數據基礎設施。Aloudata 自主研發的 Aloudata AIR 邏輯數據平臺支持異構數據的邏輯集成、整合與查詢,通過自適應物化加速和自動回收技術,實現秒級查詢響應并節省 50%以上的存算成本;Alouda
39、ta BIG 主動元數據平臺,基于全球獨創的算子級血緣解析技術,讓復雜數據鏈路看得清、管得住、治得動,實現更精細更智能的數據管理;Aloudata CAN 自動化指標平臺,改變“業務提需求 IT 開發”的傳統模式,支持業務人員從任意顆粒度、任何維度靈活分析指標,實現指標“定義即開發、定義即服務”。目前,Aloudata 各產品已在多家頭部企業的復雜數據環境中落地,成功交付了多個 Data Fabric 最佳實踐。聲明本報告為 Aloudata 制作,報告中所有的數據、文字、圖片、表格均受有關商標和著作權的法律保護,部分文字和數據采集于公開信息,所有權為原著者所有。本報告為首次發布版本,Aloudata 隨時可能進行內容更新,且本報告內的信息均依據現狀提供,僅供市場和客戶交流參考之用,并不視為針對企業提供的專業建議,Aloudata 對本報告的數據和觀點不承擔法律責任。電話 0571-85106688郵箱 簡歷 微信服務號Aloudata 2024