《滴普科技&Gartner:用好你的數據白皮書(45頁).pdf》由會員分享,可在線閱讀,更多相關《滴普科技&Gartner:用好你的數據白皮書(45頁).pdf(45頁珍藏版)》請在三個皮匠報告上搜索。
1、用好你的數據 滴普科技云原生數據智能平臺 2022年4月本期內容前言 2滴普科技云原生數據智能平臺 3第一章:數據智能平臺助力企業用好數據 3第二章:用好數據完全指南 8第三章:客戶案例 24第四章:未來展望 31第五章:結語 35Gartner的調研報告 中國DBMS市場指南 36關于滴普科技 452前言第一章 數據智能平臺助力企業用好數據1.1 在當今數字化優先環境下,企業面臨著數據管理及應用的挑戰1.2 FastData數據智能平臺助力企業實現數字化核心基礎設施建設第二章 用好數據完全指南2.1 以數據驅動業務價值,讓數據用起來2.2 云原生數據智能平臺,夯實數據底座第三章 客戶案例3.
2、1 先進制造:九洲電器3.2 數字政務:深圳智慧城市3.3 能源出行:長安新能源3.4 智慧雙碳:港華能源3.5 數智健康:遠盟康健第四章 未來展望4.1 向全云時代邁進:云原生成為主流探索方向4.2 湖倉一體再升溫:數據智能實踐“未來式”4.3 擁抱開源:未來數據庫廠商的破局之刃第五章 結語 滴普科技云原生數據智能平臺第一章:數據智能平臺助力企業用好數據1.1 在當今數字化優先環境下,企業面臨著數據管理及應用的挑戰隨著企業數字化轉型逐漸走向深入,從2020年的數字化適應,到2021的數字化加速,今年已發展到了數字化優先的階段。整個行業都希望智能的用好數據,為自己的企業服務。全球企業的業務和I
3、T負責人普遍認為必須要在數字化優先的世界中保持運營。數據已經在國家政策層面被增列為生產要素。數字化創新、政府政策加持、疫情影響、供應鏈緊張、地緣政治等因素,引起了產業界、企業對數據的足夠重視,各企業加快了對數字化的投資。未來五年是企業數字化發展的黃金時期。未來企業是堅定走數字化道路的組織,數字化運營將實現規?;?,其創新速度將比傳統企業高出一個數量級。在企業數字化優先的進程里,企業數據管理和應用的核心思想更加明確且具體,其核心有三:一是數據的管理統一化,建立一致的數據口徑與標準,支持數據共享與數字運營模式;二是數據運營集中化,以數據沉淀業務經驗與知識,在企業內部形成智慧大腦;三是數據應用扁平化,
4、以聚集的知識4賦能個體,在各個業務一線發揮價值。企業數據平臺正是這一核心思想的最佳實踐,是實現企業數據分析及數據應用,支撐企業數字化轉型的底層基礎設施。伴隨著數據規模越來越大,數據平臺需要支持海量數據處理需求;數據應用場景持續擴展,需要一個在敏捷性、易用性、實時性方面都能較好滿足的平臺來實現。近年,政府、企業加快了數據基礎設施的建設,數據應用的廣度和深度也隨之擴展。中國企業數字化轉型已進入深水區,給數據管理及應用帶來的挑戰也是前所未有。1.1.1 數據規模越來越大,數據資產管理越來越重要隨著企業的發展,內部的數據系統和業務系統越來越多,需要處理的結構化數據、非結構化數據、半結構化數據的規模隨之
5、變得越來越大。給企業的數據資產管理帶來了很多問題。主要體現在以下三個問題:一是不能共享數據。企業沒有統一的數據管理標準,各部門之間很難實現數據共享和應用;二是獲取數據難。企業缺乏有效的數據開發工具,獲取數據過程較長,且復雜,導致獲取和使用數據存在困難;三是數據價值不清晰??蛻魞炔康能浖ぞ吲c業務之間的深度融合欠缺,沉淀的數據基本等同于“無效的固定資產”,不能有效盤活,導致企業的數據應用無法及時響應管理層和運營人員的使用需求?,F階段,數據資產管理逐步進入深化落地時期,良好的數據資產管理是釋放數據要素價值的基礎。數據資產管理包含數據資源化、數據資產化兩個過程,通過數據資源化構建全面有效的、切合實際
6、的數據資產管理體系,提升數據質量,保障數據安全;通過數據資產化,豐富數據資產應用場景,建立數據資產生態,持續運營數據資產,發揮數據資產的業務價值、經濟價值和社會價值。1.1.2 數據實時性要求越來越高隨著數據成為生產要素,數據將比以往更快、更頻繁地變化。每月一次、每周一次、甚至每天一次分析海量靜態數據將不再是可接受的。傳統離線數倉的數據時效性是T+1,調度頻率以天為單位,無法支撐實時場景的數據需求。即使能將調度頻率設置成小時,也只能解決部分時效性要求不高的場景,對于時效性要求很高的場景仍然無法有效支撐。企業在運營和生產過程中,會存在越來越多的實時決策場景,快速查找并分析數據至關重要。需要從平臺
7、的架構設計、存儲和計算引擎、業務流程優化上滿足數據分析的實時性需求。企業將需要實時從流數據中收集見解,以發現新模式并采取行動。隨著數據量的不斷增長和對實時事務的需求的增加,這些趨勢將遍及所有對擴展至關重要的行業。例如,隨著平臺迅速尋求以PB規模向目標受眾投放廣告,廣告技術正在經歷復興。實時分析的普及必將帶來大量內存數據庫和緩存的應用。5數據需實時流式傳輸,從而實現更快的可擴展性和出色的敏捷性。處理這種數據存儲的龐大數量和復雜性極具挑戰性。1.1.3 企業現有平臺不滿足數據應用場景持續擴展數據驅動的業務應用和決策應用逐漸滲透到企業的各個業務線和部門,從而充分發揮數據的價值。在數據應該場景持續擴展
8、的情況下,對底層數據平臺的敏捷性、智能化、易用性提出了更高的能力和技術要求。企業對傳統豎井式建設的信息系統修改困難,且集成比較混亂。當企業新增創新性的數據分析和應用需求時,企業缺乏自有的技術開發能力,往往無法快速響應業務需求。根據業務需求變化快速拓展平臺能力和數據分析維護等敏捷能力,變得至關重要。數據平臺的服務對象,逐漸由數據部門向業務部門轉變。企業相關的人力配備往往不能滿足業務需求,要求平臺智能化。平臺自動化進行數據分析,減少人工操作,可有效降低人力成本。通過平臺的智能預測能力,提高業務決策效率和能力?;谠圃夹g的中立性數據智能平臺可大幅度提升企業一線部門的數據應用效能。1.2 Fast
9、Data數據智能平臺助力企業實現數字化核心基礎設施建設所有企業都應該優先選擇數字化策略,變革傳統,實現轉型升級。企業的狀況千差萬別,企業可以根據自己的實際需求,做出當前最適合、最緊迫的數字化優先選擇。數據智能平臺是支撐企業數字化轉型的核心基礎設施。數據智能平臺的建設能夠使數據驅動業務增長,是平衡前方業務靈活性與后方平臺規范性的藝術。企業通過數據智能平臺可以及時感知市場趨勢、準確洞察用戶需求和畫像、設計和生產出更符合用戶需求的產品、更快迭代產品、降低管理和生產成本。數據智能平臺支撐了企業數字化轉型的各項需求,助力企業實現精細化運營。企業數據智能平臺的建設將成為數據價值呈現的關鍵因素。1.2.1
10、數據智能平臺架構演進數據平臺是企業進行數據分析和數據應用,從而實現數字化轉型的核心基礎設施。通常情況下,數據平臺包含數據采集與接入、數據存儲與計算、數據管理、數據分析與挖掘、數據服務等功能。數據平臺架構發展至今,已經經歷了三個階段的技術演進:從最早的數倉,到數據湖+數倉的架構,再到最近兩年的湖倉一體架構(下文簡稱:Lakehouse)。最早的數倉架構的底層是數據庫技術,因此能夠提供比較好的數據管理能力,解決的是結構化數據問題。企業對數據的使用需求主要是面向管理層從宏觀層面對公司的經營狀況做描述性分析。但是數倉架構支持的場景基本局限于常用的分析場景。隨著業務發展,企業逐漸產生了一些高級的分析場景
11、需求,比如數據6科學類或者機器學習類的場景,數據倉庫對此類需求難以支持。數據倉庫也無法支持半結構化以及非結構化的數據。這時候就出現了Hadoop,它以數據湖為基礎,能夠支持對結構化、非結構化以及半結構化數據的存儲。與數據倉庫相比,數據能夠比較高效地存入數據湖,但是會給下游的分析提供較高的負擔。數據湖里的數據會變得越來越混亂,數據治理的復雜度非常高。同時缺少像數倉一樣的數據管理特性,無法用于生產環境。大數據平臺架構Lakehouse應運而生。它在數據湖之上抽象出了事務管理層,能夠提供傳統數倉的一些數據管理特性,還可以針對云對象存儲中的數據做一些數據的性能優化。從而能夠針對大數據時代各種復雜的分析
12、場景提供支持,且對于流批兩種場景也能夠提供統一的處理方式。從業務角度看,企業對數據應用的范圍從之前的管理層和部分業務人員拓展到了跨部門、跨企業的數據共享,需要進行大量面向業務、實時決策的探索式和自助式分析,并且需要處理大規模多源異構和實時數據。傳統的數據平臺已經不能滿足這些需求。我們把能夠滿足這種需求的新一代數據平臺叫數據智能平臺。數據智能平臺能夠對數據資產按統一標準進行管理以方便數據可用,并滿足企業對數據應用的敏捷開發、實時響應、簡單易用、智能分析等。以下是數據智能平臺的典型架構:圖1.未來企業IT架構(資料來源:滴普科技)71.2.2 FastData數據智能平臺的四大核心能力數據智能平臺
13、需要具備實時數據處理、敏捷開發與應用、增強性分析、云原生四大核心能力。1.2.2.1 實時數據處理由于提高決策速度、準確性和有效性的壓力,企業正在更多流程中使用實時分析,尤其是在數字業務加速、持續智能和物聯網(IoT)方面。實時分析幾乎可以應用于企業運營的各個方面。未來10年之內人均實時消費數據將達到PB級(PetaByte),是目前數據消費TB級(Terabyte)的1000倍。如此大的數據處理需求將給現有的傳統數據中心帶來一系列巨大挑戰,包括實時數據處理,按需動態資源分配及調整,大規模系統運行的能效等。實時數據處理的需求要求數據智能平臺具備這四大能力:數據實時采集、實時分析、復雜計算、分析
14、結果持久化;可處理多種多樣的數據,包含主機性能監控指標、應用日志、調用鏈路圖;高可靠性,系統不出問題且數據不能丟;高性能,低延時,支持每秒千萬級的數據處理。1.2.2.2 敏捷開發與應用在數據和數據應用的規模越來大,復雜度越來越高的情況下,數字化核心目標之一是能夠支撐企業的商業創新。隨著企業業務發展,會產生很多新的數據應用需求,需要數據智能平臺具備滿足場景的敏捷開發能力。敏捷開發是以用戶的價值和投入市場的效果為軟件開發的功能和價值導向進行設計和開發,可確保軟件開發項目的最佳效率、簡化流程,以及較低的開發成本,可預測的輸出以及驗證開發團隊的最佳生產力。數據智能平臺的敏捷性包含工具集成的敏捷性、數
15、據開發的敏捷性、數據分析和應用的敏捷性。當企業用到新的分析框架,數據平臺工具集成的敏捷性可使云原生架構能為企業提供快速接入和部署新工具的能力。數據智能平臺具備一站式的數據集成和開發能力,為企業提供數據的匯集、加工、服務、資產管理等,降低企業使用門檻。數據分析和應用的敏捷性體現在數據智能平臺底層具有數據管理和數據分析工具相應的功能設計,通過建立標簽體系將數據快速應用于業務,并通過可視化分析工具滿足用戶分析需求,通過AI增強能力自動識別有價值數據并推給用戶。1.2.2.3 增強性分析數據和分析領導者越來越多地發現AI增強分析功能是增加業務價值的關鍵推動力,從而來推動改善客戶體驗和業務價值,同時是支
16、持數字化轉型目標的關鍵。從供應(事物)和需求(客戶)的實時調整到提供個性化的數字體驗,數字業務的復雜性需要技術杠桿和創新。在數據分析方面,這種技術杠桿和創新越來越多地包含增強分析。業務用戶和客戶還希望通過更多地使用機器學習和人工智能來提高效率并改善與數據準備、洞察力生成和洞察力解釋相關的客戶體驗。通過自動化數據科學和機器學習(ML)模型開發、管理和部署的許多方面來提高效率,從而為專家和數據科學家提供支持。數據智能平臺的探索性分析8環節通常包含:數據清洗與準備、數據分析與可視化、機器學習。1.2.2.4 云原生云原生是基于分布部署和統一運管的分布式云,是一種構建和運行應用程序的方法。它包括微服務
17、、容器化、DevOps、持續交付特征?;谠圃夹g帶給企業的應用開發的技術價值,可以大幅降低企業IT開發和運維的成本,以及提升企業業務的創新效率和產業價值?;谠圃軜?,數據智能平臺組件可以以容器化形式部署,支持快速開發、測試、迭代、應用,可快速影響企業的業務需求,同時支持企業數據共享。大部分開源軟件都提供了容器化部署,當企業有新的功能組建需求,數據智能平臺可支持快速集成。云原生架構中的Kubernetes等工具可實現統一資源管理和調度,降低系統復雜性和運維成本,提供運行效率。云原生架構可實現計算和存儲資源分離,支持彈性伸縮,降低使用成本。第二章:用好數據完全指南2.1 以數據驅動業務價值
18、,讓數據用起來“有之以為利,無之以為用“出自中國古典文化中老子的 道德經,其中智慧,放在當今商業社會中依舊受用,這句話的意思是,一切事物的實體,為我們提供可憑借的基礎條件,而其中所隱藏的空間和變化的無限可能,才是被我們真正使用并創造價值的所在。當下,大數據在企業經營管理中的廣度和深度不斷拓展,全球企業都在積極探索數據背后的價值,然而,當企業擁有數據資源時,并不等于掌握數據資產,數據資產就像企業內部的固定資產一樣,可以盤點、可以調度使用、可以產出價值。以往大家認為的數據資產就是企業自己的數據資源,但是能夠明確業務價值的數據才是數據資產。滴普越來越多的客戶已經深諳此道,先人一步積極投建數據資產管理
19、體系,借助滴普強大的科技與服務,用數據還原生意邏輯,刻畫了業務現象與場景;編織業務知識,沉淀業務經驗;在與企業一起探索的過程里,我們和企業一起面對且正在解決這些問題:企業意識問題效益瓶頸,戰略缺乏數字化承接企業面臨增長瓶頸或有長遠數字化轉型計劃,在具體的戰略落地過程中,對數字化可以提升企業效益的實現路徑上不清晰,以及看不到企業數字化更長遠的價值體現。標準的問題數字化口號,運營靠個人經驗驅動客戶工具體系和數據體系不完善,無法支持的新的業務運營場景,而內部還在以傳統應用軟件方式去進行工具構建,運營仍憑個人經驗,運營工具與業務之間的深度融合欠缺,雖然沉淀了大量的數據,但不知道如何使用數據為業務運營賦
20、能。9資源的問題數據平臺構建勢在必行,但不知道從何下手企業的數據應用仍是傳統的工具在支撐,算力遇瓶頸及應用單一,無法及時響應管理層和運營人員的使用需求。行業在部署各種數據平臺,對于自己的企業,無法判斷什么樣的數據平臺合適、且不知如何構建是合理的。模式的問題數據=“無效固定資產”,不能有效盤活各業務系統數據未進行統一、真實、可信的信源管理,形成“數據孤島”無規范統一的數據標準,系統間的數據壁壘,造成相互間數據交換/共享不便沒有按照業務域進行數據分類和結構化管理,數據零散、數據間沒有從屬關系,未形成數據資產管理體系,并對上層數字應用賦能。2.1.1 滴普FastData DXP,釋放數據價值DXP
21、驅動業務價值五部曲Data X Platform是滴普科技提供的數據資產管理與運營平臺,致力于幫助更多企業構建可量化、可跟蹤、可持續的數據資產體系,實現高質量數字化運營?;跒闃I務價值服務的核心目標,通過數據資產生產、編織和運營的三大核心能力,幫助企業在意識,標準、資源、模式中支持運營商業、制造業、政務、金融四大領域的業務場景。從企業數據共享、流程提效、業務增長、業務創新、數據交易五個方面實現數據資產業務價值。三大核心力DAP數據資產生產對數據資產進行可視化管理,加工及服務,通過指標,標簽,模型等要素實現對企業主體業務場景的數據化表達。DAW數據資產編織為企業提供可視化的數據資產編織能力,基于
22、對數據資產要素的邏輯組合,以可視化形態實現數圖2.實現數據資產業務價值五部曲(資料來源:滴普科技)10據資產的場景化呈現。DAC數據資產生命周期運營為企業提供數據資產量化評估標準,和價值分析運營能力,建立數據資產全鏈路監測、分析和評估體系,輔助業務洞察。產品價值業務數據化將業務中涉及的數據資源轉化為數據資產,用數據化表達還原業務過程,使數據資產可見、可盤點,基于數據在企業內部建立業務與技術統一的語言認知體系,解決組織經營管理過程中業務、管理經驗/知識的沉淀、共享、演進問題,從根本上打破組織內數據流通壁壘。數據業務化解決數據資產如何被業務應用、實現業務價值轉化的問題。促進數據資產融合,并催生業務
23、場景,實現數據資產的業務化表達,降低數據資產探索路徑和應用門檻,實現企業數據資產管理與業務發展緊密耦合。數據資產價值最大化助力企業實現數據資產價值量化,完成數據資產的生命周期全鏈路運營,保障數據資產可評估、可追蹤,持續迭代。為企業提升數據質量,提高數據決策的準確性、以及數據資產的長期、持續運營提供有力保障。服務場景商業綜合領域,提升商品運營能力聚焦品牌時尚、連鎖零售、新式消費企業,針對不同的銷售渠道,助力商家構建圍繞商品、用戶、渠道、門店等主體的指標、標簽體系;搭建經營分析、店貨匹配、人貨匹配、銷售預測等數據資產模型能力,支撐前端商品試銷與補貨、門店評估的業務場景,提升企業商品運營能力和市場競
24、爭力、賦能業務增長與創新。精益制造領域,產品生產流程提效聚焦裝備制造、生物醫藥行業,推進企業信息技術與科研生產、經營管理的深度融合。構建圍繞物料、設備、員工等主體的指標、標簽體系;搭建經營分析、產能預測、質量追溯、故障診斷等數據資產模型,支持前端齊套分析、排產優化、質量追溯、設備預測性維護的業務場景,從核心控制點上提升產品生產過程中的效率和輔助升級。智慧政務領域,智慧政務創新治理 面向政府單位、園區與能源企業,對跨部門、跨層級、跨業務的資源進行融合治理和共享開放。構建圍繞政府單位、企業、自然人、園區等主體的指標、標簽體系;搭建經濟分析、數據賬戶、能耗趨勢、資源治理、減排潛力評價、應急分析等數據
25、資產模型,支撐前端經濟運行分析、數字雙碳體系搭建、城市應急服務的業務場景,實現政務數據精細化治理與智能化應用的創新。11金融領域,運營與風險控制針對銀行、證券、保險、基金等金融機構,構建圍繞客戶、賬戶、網點、產品等主體的指標、標簽體系;針對運營與風控兩大核心痛點,搭建客戶管理、反欺詐、流失預警、貸款預測等數據資產模型,支撐前端精準運營分析、風險評估、監管集市的業務場景。有效助力金融機構打破數據孤島,實現高精準數據治理。2.1.2 DIC數據智能專業服務企業的數字化平臺構建,是一個需要從全局進行規劃和建設,并在后續運行中,能夠持續迭代的系統化工程,需要一套完善的方法論指導這一過程。其核心環節包括
26、需要企業從頂層進行戰略規劃,場景的規劃、基礎架構設計、數據規范與數據架構設計,組織和人員的規劃等。滴普科技DIC數據智能專業服務,綜合過往企業服務上的知識沉淀及對數字化的深度探索,以業務全局為視野,以重點領域為突破,以數據智能為核心,以實踐方法為路徑,為企業提供全鏈路的數字化咨詢服務。滴普DIC提供的輕咨詢服務,旨在持續為客戶提供全面的業務創新咨詢和解決方案設計,持續幫助客戶實現業務價值最大化。團隊匯聚來自華為、阿里巴巴、IBM、安永、中大等100+業界精英,由數據咨詢專家、解決方案專家、高級架構師、數據科學家、算法專家和資深產品組成,成為一支由數據戰略到戰術的數據智能咨詢&解決方案團隊。在多
27、年的客戶實踐中,DIC積累了豐富的行業經驗和知識矩陣,提出以“人、知識、方法、產品”相結合的體系化服務模式,為企業構建構建可量化、可追蹤、可持續的“主體-標簽-指標-模型-場景”的數據資產體系。幫助客戶深度發掘,實現數據給業務帶來的價值提升。DIC服務能力業務分析錨定業務價值的增長核心任何數字化能力的建設,都是為企業的業務運轉、經營管理,提供有效的支持。因此,必須清晰業務價值、明確產出目標,以終為始,明確業務價值邏輯,錨定每個階段的業務范圍與價值邊界。數據規劃編織“黃金”數據一方面數據來源渠道多樣,此外數據某種程度是無盡的,在業務各個過程中持續的生產。作為咨詢的核心環節,需要充分進行業務數據的
28、數據資產梳理、數據治理、數據資產持續性管理、數據資產運營等基本面的規劃,以便更好地洞察業務、促進技術實現、印證實施建議。技術實現架起前瞻性技術橋梁承接業務分析和數據規劃,以技術架構視角思考怎么支撐業務的變化,以及數據治理體系。同時,需考慮企業的數據現狀,例如數據量大小、任務并發數等因素,給出最適配企業需求的最佳實踐,打造穩定可靠的數據底座,實現可重用,可靈活擴展。12實施建議全鏈路場景模擬勘測結合業務分析中確定的場景以及數據規劃、技術規劃中的建議方案,確定實施過程中的工作事項、優先級、實施計劃、資源計劃,并識別在實施過程中的相關風險以及相應的應對策略。2.2 云原生數據智能平臺,夯實數據底座F
29、astData,即滴普科技云原生的流批一體、湖倉一體數據智能平臺。其核心愿景是打造一個低成本,易使用,可持續演進的新一代云原生數據平臺,從BI到AI,為支持企業完成數據驅動業務的數字化轉型提供必備的一站式數據平臺底座。FastData通過一站式的數據服務能力將幫助企業消除傳統數據架構中固有的成本問題和復雜性問題,提升技術團隊在處理數據問題的協作性、創新性和效率。FastData有如下關鍵特性:統一流式處理相比傳統的lambda架構,FastData采用的kappa plus架構實現一套架構滿足流和批的處理應用,尤其面向未來,大多數BI或數據分析都是需要實時性的,因此,統一的架構一方面簡化了企業
30、的數據基(資料來源:滴普科技)圖3.DIC服務場景13礎設施,從而更有效的統一資源的使用;從另一方面講,統一架構也消除了原來lambda架構下對企業人員技能要求過多的問題。支持從非結構化數據到結構化數據的多種數據類型FastData可用于存儲,優化,分析和訪問多種新數據應用所需的數據類型,對企業來說,未來更多智能業務將基于計算機視覺、語音和文本挖掘的ML/AI,FastData提供端到端的數據能力,使得包括數據科學、機器學習以及SQL分析在內的多種差距很大的應用采用統一的數據存儲和調度執行方案,FastData SQL對多維度數據的支持性,更進一步屏蔽了許多繁瑣的非結構化數據處理過程,極大提升
31、數據處理的體驗。云原生的部署形式面對企業上云的需求,FastData實踐云中立的思想理念,對于不同公有云廠商和私有云環境,提供無差別的PaaS服務,保證企業投資的有效性和延續性。事務支持企業內許多數據處理過程通常會并發讀寫數據,對ACID事務的支持確保了多方并發讀寫數據的一致性問題。數據治理和執行的工具箱FastData提供一站式的數據采集、加工、開發、管理服務,支持完整數據治理和演進模式,支持DW模式架構,同時能對數據完整性,血緣等進行推理分析,并執行安全穩健的審計機制。存儲計算分離在實際部署中,FastData采用單獨的存儲和計算的集群,他們都能獨立擴展支持更大的用戶并發和數據量,同時也進
32、一步降低資源的成本。開放性FastData支持的存儲格式是開放式和標準化的,并提供一類API,能讓各種工具和上層計算引擎有效的直接使用數據,包括機器學習的Python庫。ABI支持 FastData支持直接在源數據上對接各種ABI工具,降低傳統的數倉場景下多個數據副本的成本。2.2.1 滴普FastData DLink在企業的基礎數據平臺中,常見的底層數據架構有數倉(Data Warehouse),數據湖(Data Lake)等,也有數倉與數據湖搭配使用的情況。隨著數據應用的發展和變化,上述數據架構都受到了不同程度的挑戰。在數倉架構下,無法存儲大量的非結構化數據(視頻,音頻等);無法在數倉之上
33、構建機器學習,數據科學和人工智能應用,從而無法為業務決策提供有效的預測;無法打通不同業務間的“數據孤島”,隨著業務增多,企業需要為每一個業務分別建立一個數倉。同時還要負擔高昂的維護成本。14數據湖架構雖然從一定程度上解決了上述問題,但同時也引入了新的問題。消費端直接從數據湖讀取數據時,無法保證數據一致性(ACID);對數據細粒度的更新和刪除系統開銷極大,導致操作延遲高;不支持業務對數據的實時操作;無法在數據湖之上直接構建BI應用;儲存和維護不同版本數據的成本高昂;元數據的管理和操作隨著數據增長而越來越困難;上述問題直接影響到了數據質量。目前大部分企業結合使用上述兩種架構,以滿足不同的數據應用。
34、使用數據湖統一存儲所有數據,為數據科學家,數據分析師,數據工程師等消費者直接提供機器學習,人工智能等服務;同時將數據湖中部分數據ETL處理后存入數倉,為前端業務分析人員提供BI,決策輔助等服務;兩套數據系統不僅維護成本高昂,而且互相之間的一致性也存在著巨大隱患,時刻威脅著數據質量。針對上述問題,滴普為企業提供FastData DLink流批一體,湖倉一體數據引擎。面向企業數據全生命周期,從本質上根治企業數據應用頑疾。為企業打造了一個具備統一數據存儲,實時海量計算,高彈性擴所容,開放兼容等能力的堅實數據底座。我們看到Gartner對湖倉一體架構有這樣的描述:“Lakehouse的想法是將數據存儲
35、和處理融合并整合到一個支持不同工作負載的平臺中,例如數據工程、數據科學、人工智能/機器學習(AI/ML)工程和商業智能(BI)?!保ㄙY料來源:Gartner,Inc.湖倉一體架構探索與用例:湖倉一體架構特點,2022年,2022年1月11日,G00751615)圖 4.Lakehouse Architecture15其湖倉一體的架構原理在于,將結構化,半結構化及非結構化數據統一導入數據湖中,中間層不再經過數倉做數據處理。直接通過元數據管理層為前端業務提供數據服務,湖倉一體的技術架構分為三層:元數據管理層(Metadata Store)、數據湖引擎(Data Lake Engine)、開放表格式
36、(Open Table Format)。DLink是滴普提供的流批一體、湖倉一體的PB級實時數據引擎。旨為幫助您更輕松的獲得一站式數據探索與數據開發能力。您可以通過DLink,實現多類數據的統一存儲、流批一體數據處理、分析、數據科學等多類任務。DLink采用出色的存算分離架構,實現彈性擴展、高并發、低延時,且支持PB級多模數據存儲與處理,幫助您夯實企業數據底座,打破數據孤島,重新定義業務邊界。DLink流批一體技術架構統一技術棧DLink整體技術方案的核心理念就是“統一”。從底層Data Stack的角度看,包括5個部分:數據存儲:首先是數據存儲格式的統一。利用Iceberg基于快照的讀寫分離
37、和回溯(backfill)、流批統一的寫入和讀取、不強綁定計算存儲引擎、ACID語義及數據多版本、表schema和partition evolution等能力。Catalog Manager:統一Data Catalog,兼容Hive Meta Store接口,可實現Flink、Trino、Hive等常用大數據分析、計算引擎的無縫接入和良好的互操作性。(資料來源:滴普科技)圖 5.DLink統一技術棧16計算引擎:Unified DataStream,Flink引擎在DataStream和Table API中均支持batch和streaming兩種執行模式。調度引擎:流批一體調度器,同時支持流
38、批調度模式。在調度器內部通過DAG的合并和拆解、資源的細粒度配置等規則,對物理執行計劃進行自適應調優。SQL引擎:統一了流式計算SQL與分析、點查等Serving類SQL語義(兼容ANSI SQL標準)。所有的SQL類操作使用統一的SQL引擎。實時數倉ETL場景下圖是DLink流批一體數據平臺在實時數倉場景(典型的ETL場景)的一個數據流圖:比如,有的客戶之前完全使用Oracle搭建他們的數倉系統,在數據量達到一定規模之后,ETL和數據分析的效率越來越低,亟需進行架構升級。對此我們需要滿足如下需求,一,實時抽取和寫入:實時將Oracle的增量數據抽取并寫入Iceberg中,業務數據的并發量在3
39、000行/秒,端到端時延要求在1至5分鐘內;二,OLAP統計分析:支持DM層數據的查詢分析??傊?,對數據處理的實時性和數據的分析提出了要求。實時數倉數據流程結合客戶的具體需求和DLink的產品特性,我們設計了圖6的流批一體實時數倉架構,從數據生命周期的角度,數據流程可以分為以下三個部分:圖 6.DLink流批一體實時數倉(資料來源:滴普科技)17數據采集消費(Extract&Transform)FastData DCT組件(類似Debezium)負責Oracle binlog的抓取并轉換成dct-json格式存儲在Kafka,實現增量數據入到Iceberg實時數倉。數據統一存儲(Unified
40、 Storage)統一采用iceberg表格式存儲全量數據,包括數倉的ODS、DWD、DWS和DM層數據,并實現各層之間增量數據的流轉和處理。數據實時處理(Transform&Load)Flink實際上在實時數倉ETL的以下階段發揮了作用:實時數據入湖:使用Flink Kafka Source Connector從Kafka拉取數據,并使用Iceberg sink connector將數據寫入到ODS層;增量數據讀?。寒擮DS層有新增數據時,觸發iceberg source connector的增量讀取事件,經過Flink計算將增量數據通過Iceberg sink connector寫入下面的
41、DWD層,實現歷史數據的更新;更新下游數據:針對上游ODS明細數據的偶爾變更,觸發DLink計算任務對小批量數據進行準實時的重新計算,更新下游統計數據,并將變更繼續向下游傳播。接下來,從數據的采集、轉換、存儲和分析的角度繼續來看:DLink流批一體大數據平臺集成了從數據采集到最終的數據計算、分析能力。具體涉及的流程如下:數據采集采集流程中使用了FastData DCT以及Kafka組件,實現了Oracle增量數據的實時采集。數據轉換數據轉轉換環節主要涉及數倉離線鏈路的處理。類似Lambda架構,我們實際上可以通過Flink批處理讀取某個Iceberg表的快照做全局分析,得到的結果可供不同場景(
42、如Ad Hoc查詢、數據科學、機器學習)下的用戶讀取和分析。數據存儲Iceberg作為通用的表格式存儲,很好地分離了計算引擎(Flink、Spark、Hive、Presto等)和底下的存儲層,這樣就可以很好地兼容多種計算引擎和文件格式(Parquet、ORC、Avro等),正在成為數據湖上Table Format層的事實標準。Iceberg manifest和snapshot的設計,有效地隔離了不同transaction的變更,非常方便批處理和增量計算。同時,Apache Iceberg的社區資源也非常豐富,Netflix、Apple、LinkedIn、Adobe等公司都有PB級別的生產數據,
43、運行在Apache Iceberg之上。數據分析由于底層Iceberg存儲格式的打通,Trino可實時讀取Flink寫入的Iceberg快照,從而實現了端到18端近實時(1分鐘之內)的分析。DLink技術亮點在構建DLink流批一體大數據平臺的過程中,基于Iceberg、Flink和Trino技術棧,結合客戶的實際場景和需求,我們在元數據管理、數據存儲格式和數據分析性能上做了一些工作。統一元數據存儲(Catalog Manager)基于DLink統一的Catalog Manager(簡稱CM)和統一元數據模型,實現了Flink和Trino引擎在catalog、database、表、視圖(包括物
44、化視圖)和數據類型的統一和良好的互操作性,徹底解決大數據引擎元數據格式不同造成的各種問題,用戶無需代碼開發,真正實現Define Once,Query Anywhere。同時,DLink CM可對外提供標準的Hive Meta Store接口。通過HMS接口,我們也計劃將DLink的內部托管數據源暴露給外部第三方數據引擎(Hive、Spark等),實現DLink與大數據生態的打通。對于數據源和Catalog的管理,有三種情況:結構化元數據:可對接開源Hive Meta Store;半結構化元數據:對于以CSV、JSON等格式存儲在對象存儲和分布式文件系統上的元數據信息,可通過Crawler任務
45、自動探索和解析,從而自動生成元數據信息;JDBC:支持圖 7.統一元數據存儲(資料來源:滴普科技)19MySQL、PostgreSQL、Oracle等數據源的接入。統一數據存儲(Iceberg)Apache Iceberg作為一個開放的數據湖表格存儲,接口定義清晰,支持Flink、Spark等各種大數據引擎,兼容性比較好。雖然有不少優點,社區也比較活躍,但目前還存在點查、更新性能差的問題,DLink目前聯合Iceberg社區在索引和維表等技術之上做了增強和優化:Clustering技術通過z-order實現多維數據重新聚合排序,提升多維聚合性能,大幅提升查詢性能。二級索引增加了Bloom Fi
46、lter索引,文件級別的過濾性能大大提升,從而加速點查性能。MOR(Merge On Read)優化通過后臺自動調度的Job,合并delete file和data file。避免在讀取時,查詢完data file后,還需要臨時合并delete file的結果,從而提升了讀性能。小文件合并類似MOR Job的后臺任務?;贗ceberg的快照隔離和讀寫分離的優秀特性,我們開發了小文件自動合并功能。后臺Job自動合并小文件,持續優化讀取性能?;诙喟姹镜目煺崭綦x能力,文件合并操作不阻塞用戶正常讀寫。Lookup Table維度表在流式計算的應用很廣,通過SQL的join操作實現數據的補全。比如,s
47、ource stream是MySQL Binlog日志中的訂單信息,但日志中僅記錄了商品的ID,這樣當訂單信息入倉,我們進行日志流Join的時候,就可以通過查詢維表的方式,補全商品名稱的信息。DLink Lookup Table將熱數據高效緩存在本地,冷數據存儲在Iceberg,同時基于數據局部性原理和統計分析,我們加入了自研的緩存替換算法,緩存命中率較高。同時,查詢維表時,通過Projection與Filter push down極大降低緩存的數據量,進一步提高了緩存的命中率。我們初步測試Streaming Join維表性能較Flink原生Lookup Table性能提升2倍以上。統一SQL
48、引擎在統一元數據之后,為了進一步提升易用性,我們在Trino和Flink之上構建了統一的ANSI SQL層,提供了一致的使用體驗。數據入湖,DML、DDL等SQL操作均由一套SQL實現。在統一的SQL引擎及其優化器之上,我們做了如下優化:Dynamic Filtering技術:Dynamic Filtering技術早在2005年就在Oracle中實現。借鑒數據庫的思路,我們基于Trino引擎在Iceberg connector上實現了Dynamic Filtering技術,大大減少了tableScan算子掃描的數據量。20FastData DLink湖倉一體,來自未來的數據架構湖倉一體因其獨有
49、的架構特點,能夠同時滿足:事務支持(Transaction support):當不同的用戶在讀,寫數據時,保證數據一致性;模式實施和治理(Schema enforcement and governance):支持模式的實施和進化,支持數倉的數據模式,例如星形和雪花形。能更好的管理元數據,不讓數據變成沼澤;商業智能支持(BI support):支持BI工具直接使用數據源,提供低延遲,低成本,高性能,準確的數據服務;存算分離(Decoupled storage and compute):提升了架構的獨立可擴展性,可以按需對存儲系統或計算系統分別擴所容。開放(Openness):從原有的數據湖架構升
50、級到“湖倉一體”架構,有著開放,豐富,而且標準化的語言,框架和工具去使用。DLink產品優勢簡單而自由的數據連接DLink支持Oracle、Kafka、MySQL、PostgreSQL、Hive等20多種異構數據源接入與集成,而且支持豐富的上下游Connector,確保了大數據組建的無縫對接。圖 8.FastData DLink湖倉一體架構與Databricks和Snowflake的對比(資料來源:滴普科技)21閃電般的處理性能DLink的數據開發模塊繼承了Apache Flink強大的實時數據處理能力,支持集群部署,在PB級別的數據上實現秒級處理;DLink基于Iceberg提供ACID事務
51、能力,實現上游數據寫入即可見,不影響當前數據處理任務,同時提供upsert/merge into的能力,可以極大地縮小數據庫入庫延遲。且DLink在實時計算的索引服務、加速服務、高可用、數據安全、自主性運維、性能擴展等方面優于Apache Flink。多類型數據存儲與多級管理DLink支持結構化、半結構化、非結構化數據存儲,實現EB級的大規模存儲部署,內置包S3/OSS/HDFS/OBS的多模態的存儲引擎與分級存儲,深度整合各類云數據存儲。統一的元數據管理,全部數據快速訪問 提供統一元數據視圖,集成大規模元數據管理,用戶可通過統一的元數據進行表和分等訪問,并持久化;使用高性能表格管理,可向多計
52、算引擎添加表。提供租戶及項目空間級別的catalog管理功能,可通過sql,表單創建及管理。目前支持Flink、Trino、Iceberg等多個類別。滿足多角色多任務的應用場景數據探索:提供數據視圖功能,顯示數據源數據schema信息、字段統計信息及相關數據樣例,為用戶提供數據源探查功能。數據開發:提供可視化DLink SQL作業提交和任務管理能力。支持在流上執行類SQL任務,SQL能力至少包括:過濾、轉換、基于窗口的計算能力、提供圖 9.湖倉一體架構與分析型數據庫的不同(資料來源:滴普科技)22窗口數據的統計能力、關聯能力、流數據的拆分與合并。數據分析:支持交互式即席數據查詢功能,支持多ca
53、talog的聯邦查詢,并可以JDBC、HTTP等方式支持數據分析結果輸出。持續中立與開放兼容打通多種公有云,屏蔽各云之間的壁壘,提供一致性的使用體驗,持續保持中立性。持續為企業提供數據基礎設施的各項能力,助力實現多種大數據應用業務場景。FastData DLink賦能企業實踐,建湖、管湖、用湖三步走建湖一站式流批一體的多模數據集成DLink為企業提供標準實時數據處理流程和專業的解決方案,幫助企業快速構建實時計算業務。DLink流批一體數據處理引擎的功能,能夠在數據集成的處理過程支持DCT、Kafka等工具,實現結構化、半/非結構化的數據入湖。傳統的數據倉庫,實時和離線數倉是比較割裂的兩套鏈路,
54、比如實時鏈路通過Flume和Canal實時同步日志和數據庫數據到Kafka中,然后在Kafka中做數據清理和打寬。離線鏈路通過Flume 和Sqoop定期同步日志和數據庫數據到HDFS和Hive。然后在Hive里做數據清理和打寬。這里我們主要關注的是數倉的前半段的構建,也就是到ODS、DWD層,我們把這一塊看成是廣義的ETL數據集成的范圍。那么在這一塊,傳統的架構主要存在的問題就是這種割裂的數倉搭建會造成很多重復工作,重復的資源消耗,并且實時、離線底層數據模型不一致,會導致數據一致性和質量難以保障。同時兩個鏈路的數據是孤立的,數據沒有實現打通和共享。DLink基于Flink SQL我們現在可以
55、方便地構建流批一體的ETL數據集成,與傳統數倉架構的核心區別主要是這幾點:Flink SQL原生支持了CDC所以現在可以方便地同步數據庫數據,不管是直連數據庫,還是對接常見的CDC工具。Flink SQL在最近的版本中持續強化了維表join的能力,不僅可以實時關聯數據庫中的維表數據,現在還能關聯Hive和Kafka中的維表數據,能靈活滿足不同工作負載和時效性的需求?;贔link強大的流式ETL的能力,我們可以統一在實時層做數據接入和數據轉換,然后將明細層的數據回流到離線數倉中?,F在Flink流式寫入Hive,已經支持了自動合并小文件的功能,解決了小文件的痛苦。所以基于流批一體的架構,我們能獲
56、得的收益:統一了基礎公共數據,保障了流批結果的一致性,提升了離線數倉的時效性,減少了組件和鏈路的維護成本。管湖快速部署和高效運維,支持所有數據類型的湖倉DLink為企業提供高效便捷的數據湖管理工具,幫助企業降低數據湖維護成本和難度。23(資料來源:滴普科技)DLink支持命令行或可視化向導方式的部署,支持local、YARN、K8S容器化、Standalone部署和運行模式。具備友好的業務開通能力,支持從底層資源管理系統請求各種類型的資源,支持完全的資源隔離;支持系統服務和集群配置,配置內容包括CPU、內存、存儲等多方配置;支持存算分離架構,可按需增強或閑置釋放,提供全托管的實時計算與存儲服務
57、,開箱即用,一站式服務,客戶只需要專注于業務開發,無需關心平臺運維。DLink提供運維工具,可便捷地啟停集群,監控集群狀態,實時告警;支持通過WEB、外接消息機制對故障進行告警的能力,以及以日志記錄告警信息;支持按時間、事件、周期性任務觸發機制,可視化監控所有任務的運行,提供各類報警通知,保障運維工作高效開展。DLink提供數據版本控制、治理、安全性和ACID屬性,有效管理多模數據。用湖在線交互即席查詢當業務分析師,在探究分析具體目標問題時,通過固有的指標可能只會反應現象但不一定能深入理解原因。這時業務分析師會根據自己對業務的理解來增加不同維度的查詢條件。即席查詢與普通應用查詢最大的不同是,普
58、通的應用查詢是定制開發的,而即席查詢是由用戶自定義查詢條件的。即席查詢是用戶在使用時臨時生產的,系統無法預先優化這些查詢。應對即席查詢的需求,需要更先進的引擎架構和低代碼的數據準備的能力。DLink支持攝取數據湖中的元數據并自動對其進行分析、合規和管理。用戶在低代碼平臺可以瀏覽數據摘要、搜索、過濾和可視化分析數據??梢蕴峁┰S多數據集,用戶可以在這些數據集之間和內部進行搜索以找到他們需要的數據。此外,用戶可以上傳自己的數據,這些數據將被分析、索引、并存儲在數據湖中。他們可以選擇將其私有或與他們想要的任何人共享。圖 10.FastData DLink應用場景24第三章:客戶案例3.1 先進制造:九
59、洲電器四川九洲電器集團有限責任公司,原名國營涪江機器廠,始建于1958年,是國家“一五”期間156項重點工程之一,經過持續的創新發展,已成長為專注于電子信息產業的大型高科技企業集團,致力于為用戶提供智能、安全、可靠的軍工電子系統,主營業務包涵數字電視設備、有線電視寬帶綜合業務、信息網絡及三網融合系統、電線電纜光纜、LED、物聯網、電子政務和電子商務軟件、手機等個人消費終端、車載指揮通信系統、衛星導航系統等產品的開發、制造、經營和服務;也是國家從事二次雷達系統及設備、空管系統及設備科研、生產的大型骨干企業,自2002年以來連續11年躋身中國電子信息百強企業。需求目標面對日益復雜、競爭激烈的市場環
60、境,2020年九洲電器聚焦“創新驅動、數據驅動”,開始重視通過數據支撐企業數字化轉型,并將其視作企業重要戰略資產和商業創新的重要基礎,致力于構建數據驅動的業務新業態,不斷推進信息技術與科研生產、經營管理的深度融合,助力實現公司高質量發展。通過認真的需求梳理,九洲電器根據企業數字化進展,將轉型需求高度提煉為三大方向:實現數據集成項目啟動前,集團已建設完成數字化設計(PLM)、數字化管理(ERP)、數字化制造(MES)三大核心平臺,現迫切希望實現基于XBOM體系的“研發-制造-管理”一體化的數據鏈路。數據有效治理集團應用系統的持續運行已沉淀了大量寶貴的數據資源。涵蓋訂單、采購、設計、工藝、生產、管
61、理、質量、客戶等多個方面。未來希望對數據形成有效治理,形成集團整體的數據資產,且有效利用。數據支撐決策在過去,企業經營決策相關指標數據多采用手工核算,運營決策多靠個人經驗。未來企業希望通過數據資產對業務決策形成支撐,提高日常管理運營經驗。解決方案通過對業務痛點的深度洞察,滴普科技提出解決方案,針對三大突破口,對企業內部進行數字化變革,高效提升企業數據應用:首先,建成集團統一數據中心,實現端到端的數據處理及應用。提升結構化數據、半結構化數據、非結構化數據的高效存儲、高性能計算和海量數據的分析能力,為各種離線數據和實時數據提供整體的解決方案。其次,滴普提供標準化的數據治理體系、包涵全方位的數據資產
62、管理以及統一的數據服務,產出集團業務知識沉淀和數據資產化結合的最佳實踐。25最后,貫穿從需求、設計、制造、供應鏈、銷售及售后的全業務鏈條,沉淀行業數據資產及數據資產的運營應用。聚焦“創新驅動、數據驅動”,建設XBOM數據鏈、打造數字新軍工,讓數據發聲、用數據賦能。在具體方案實施中,滴普科技依托FastData數據智能產品體系(DataFacts、DLink、DXP)為九洲電器建成統一數據中心,制定各種離線數據和實時數據整體解決方案,并匯聚五大數據中心,實現五大業務領域的數據資產地圖,貫穿從需求、設計、制造、供應鏈、銷售到售后全業務過程,形成十一個價值業務的數據智能應用落地。應用價值通過與滴普科
63、技合作,九洲集團進一步打通了人、財、物、研、產、供、銷、服等信息化建設全價值鏈體系,并通過全場景的數據應用進一步提高技術、商業模式和管理創新能力。數據賦能業務價值形成100+產品數據模型、130+經營數據模型、70+客戶數據模型、50+采購數據模型;新品3D數字化樣機率達到90%、BOM準確率從92.3%提升至96.6%、核心指標自動化率從62.2%提升至76.9%、報表自動化率從40%提升至90%。建設XBOM數據鏈實現集團核心經濟指標的自動化統計分析和追溯,提供實時可得的經營成果數據、預測數據。30+套信息化系統統一集成,形成11個業務場景數據應用落地,建設完成客戶、方案、產品、采購、經營
64、管理五大業務領域數據資產地圖,整體貫穿從需求、設計、制造、供應鏈、銷售到售后全業務流程。優化決策、推動轉型以數據為支撐對全域業務進行多維解構和深度分析,進一步提高決策的科學性和精準性,利用數據孕育智能,創造新的業務模式和業務價值,以價值為導向推動業務智能化轉型升級。彈性擴展、綠色節能以IT資源云化重構工廠數字基礎設施,實現IT基礎資源的彈性擴展、按需分配、動態使用和集約管理?;诔诤?、余熱回收等技術精簡機房設備、降低運行能耗、實現數據中心的綠色節能。3.2 數字政務:深圳智慧城市深圳市“一網統管”建設,是由深圳市政務服務數據管理局統籌、深智城承建,其他生態合作伙伴提供技術支持,采用“1+1+
65、N”的的創新建設模式。深智城充分發揮其國資平臺樞紐聯接功能,攜手各方力量,構建生態圈全方位助力深圳智慧城市建設。26需求目標深智城經濟運行專題是深圳政府治理“一網統管”三年行動計劃中重點建設內容之一,依托全市智慧城市和數字政府統一數字底座,圍繞經濟規劃、調節、監管、服務等智能,構建橫向到邊、縱向到底、全閉環的數字化經濟治理新模式,目標實現市域經濟治理“一圖全面感知,一鍵可知全局、一體運行聯動”保障,其數字化建設需求可細分為三大方向:經濟指標全面融合將各委辦局相關的經濟要素指標、業務數據進行匯集融合。經濟場景業務賦能運用融合數據支撐經濟形式分析、沙盤指揮演練。經濟決策智能輔助基于市長視角的經濟發
66、展態勢分析與實時預警。解決方案作為專業的數據智能服務商,滴普科技在經濟運行監測、風控應急領域進行了長期的深耕。此次“一網統管”建設中,承擔經濟運行專題的產品策劃、指標梳理、功能設計等核心工作,從宏觀的數據分析策劃、中觀的應用場景設計到微觀的數據歸集應用提出了可行性方案,是一次政府數字化建設模式的成功創新。通過經濟運行監測分析平臺的搭建,助力深智城經濟運行專題建設梳理經濟要素指標體系、實現經濟指標橫向到邊,縱向到底的層層分析呈現,并支持大屏、中屏、小屏多終端呈現。在未來,滴普還將助力深智城建設構建數據資產管理平臺,實現源數據管理、指標管理、分析模型管理等目標,提升數據質量與應用價值。應用價值滴普
67、提供的解決方案通過對宏觀經濟指標、經濟專題要素融合,幫助政府實現一屏掌握城市經濟總體運行態勢,成功構建1000+數據要素/指標,并服務11+部門。搭建經濟要素指標體系打造支撐經濟運行管理的核心指標體系,提供精準、高效的數據指標服務,幫助各委辦局提升業務洞察和決策能力。經濟要素數據集成基于大數據平臺,實現各業務系統間數據打通、集中管理,統一數據標準與統計口徑。橫縱向立體融合的數據分析通過對業務場景的融合建模,為不同層級、不同角色用戶構建分析視圖、解讀數據特征,極大減少用27戶收集、理解、分析數據的時間,聚焦在核心問題解決和關鍵業務決策上。智能預警,輔助指揮決策挖掘數據價值,實現經濟發展健康度的實
68、時預警與問題診斷,輔助委辦局領導掌握經濟態勢,感知經濟趨勢,現時協調、指揮各部門業務活動,為經濟高質量發展做好規劃和引導。3.3 能源出行:長安新能源作為中國新能源汽車領域的拓荒者和先行者之一,長安新能源具備二十年以上的技術沉淀,主營新能源汽車整車及汽車零部件的研發、生產、加工、銷售和咨詢服務,汽車銷量處于全國領先地位。需求目標隨著汽車行業數字化、在線化的快速發展,以及新能源汽車戰略地位的重要性,長安新能源以“十四五”規劃為藍本,開啟向智能低碳科技出行公司的數字化轉型,亟需尋找優秀的數字創新合作伙伴,提高產業鏈數字化水平,以更高效的方式服務客戶用戶體驗,通過階段性進階改革,實現數智化運營。在此
69、行業背景下,長安敏銳地洞察到,傳統的車企通常缺乏直達用戶的有效手段,導致無法捕捉用戶多維的決策鏈路。而依托數字化運營模式,可形成“水桶式”成交結構,拓寬數據傳輸的入口,通過合理的追蹤引導,使有效成交倍增。在此基礎上,長安新能源確立了新營銷數智系統建設目標:從咨詢潛在客戶跟進,與??蛢r值挖掘兩大方面,實現汽車用戶轉化全鏈路跟蹤。解決方案滴普科技洞悉長安新能源的數字化轉型整體目標,將依托云原生數據智能平臺FastData,提供數據收集、數據資產管理、數據服務管理等核心服務,全面打通To C端到To B端業務流和數據鏈路,實現數據收集、分析、反饋、決策全閉環,提升數據質量和數據標準,最終沉淀企業核心
70、數據資產。為了以數據智能全面賦能業務價值,滴普科技還將依托數據智能咨詢服務DIC,進一步挖掘用戶需求價值,提升用戶體驗和運營效率。具體方案執行可拆分為三大階段:階段一:完成數字化營銷平臺架構設計,上線銷售訂單功能,滿足訂車和支付基本需求。階段二:實現服務、管家、充電、社區功能,集成車控系統模塊,滿足交車和用車服務需求。階段三:完成商城、用戶運營、二手車、數據分析功能上線,支持用戶運營生態,打造營銷自動化系統。未來展望目前,長安新能源項目仍在火熱開展推進中,滴普28科技將進一步挖掘用戶需求價值,提升用戶體驗和運營效率,從潛在客戶和現有客戶兩大方向入手,打造從客戶認知興趣轉化留存的全鏈路營銷系統,
71、以更高效的營銷提升獲客質量,更好地實現降本增效?;诘纹湛萍嫉募夹g和業務賦能能力,雙方將以此次合作為開端,共同開啟新能源汽車行業數字化創新服務的新篇章。滴普科技也將繼續秉持以客戶業務價值為驅動,協助長安新能源不斷提升數據智能能力,實現全鏈路的數字化布局,構建數據通路挖掘數據價值,推進汽車產業的數字化生態建設。3.4 智慧雙碳:港華能源港華能源投資有限公司是香港中華煤氣集團于內地發展智慧能源產業的平臺企業,依托港華燃氣行業地位與市場資源,在內地已開發百余區域能源項目。需求目標智慧雙碳項目是港華能源在零碳智慧能源領域探索產品與商業模式的重要嘗試,對新形勢下高碳工業園區低碳發展模式、高耗能行業低碳轉
72、型發展路徑具有重要示范意義。項目旨在以數字化為藍圖勾畫低碳區域經濟,為園區低碳轉型升級提供有力支撐。首先,通過打造面向工業園區“雙碳”數字化平臺,進一步連接工業園區和企業,為中國工業園區行業領域提供能源結構規劃設計、園區運營管理服務、節能減排增值服務等全面的工程服務。同時,為園區和企業提供碳資產管理咨詢、碳核算報告、新能源替代、低碳技術應用合作等領域,爭做中國工業園區運營管理和雙碳數字化領域的行業領頭人。解決方案針對港華能源的核心訴求,滴普經過深度業務洞察,為企業提供詳盡的雙碳數字化平臺建設咨詢服務,依托FastData完善健全從數據采集到數據應用的數據全生命周期管理,實現碳數據的采集、治理,
73、支撐碳數據的分析、應用和運營。另一方面,打造綜合能源管理平臺,實現場景包括:企業能耗數據的統一采集和管理、企業碳資產帳戶管理SaaS、碳盤查報告。園區監測終端、碳達峰趨勢預測與閾值預警。碳交易、碳金融、碳保險、碳咨詢、低碳技術等生態對接撮合服務。階段成果項目在合作雙方的高效推進下,已取得一批階段性成果:29 實現企業碳排放核算及管理平臺建成后可支持國標24個行業的GHG盤查和非標行業的碳核算管理,能夠提供給企業基礎的碳監測分析功能。園區管理和精準施政平臺提供園區碳監測分析功能,并基于園區碳畫像對園區現狀和施政成效進行定性分析;項目專題大屏的建設構建了一套成熟的指標體系,輔助園區決策和綜合分析。
74、賦能拓展園區業務平臺側通過版本迭代逐步滿足各類市場用戶和角色的需求,滴普提供港華專屬POC的環境和版本管理,輔助港華開拓市場客戶。平臺集成性和開放性平臺基于港華能源管理平臺和生態平臺接口標準進行南向接口對接,支持未來擴展數據流的集成;同時,平臺提供標準API的服務接口,支持其他應用的數據訂閱需求,并按需提供數據導出功能。3.5 數智健康:遠盟康健遠盟康健科技有限公司(簡稱“遠盟康健”)于2008年成立,是中國領先的以保險為支付方的精準健康管理解決方案平臺服務商,遠盟康健致力于提供平臺化數字健康管理解決方案服務,為支付方、使用方和服務方提供以數據為基礎,價值為核心,科技為支撐,效率為目標的平臺化
75、解決方案,打造HaaS(Healthcare as a Solution)的生態平臺。遠盟成立十余年來,已為數百家的保險公司、相關政府機構、電信運營商、手機廠商、汽車主機廠、互聯網平臺和企事業單位提供精準健康管理解決方案、智慧救援保障解決方案等專業服務。需求目標在與滴普開展正式合作之前,遠盟已經基本完成了集團信息化建設,并將企業數字化轉型做為企業的戰略目標。但在信息化建設的過程中,由于各IT系統分別進行建設,周期不同步且標準不統一,也導致了一系列問題:各業務系統間的數據未打通,“數據孤島”現象嚴重,無法有效完成數據匯聚。指標口徑不一致、存在二義性問題,數據無法真正共享。數據資產建設滯后,沒有實
76、現數據資產管理“可見、可用、可運營”。沒有實現數據驅動業務流程優化、無法為創新類業務提供數據賦能。30因此,打破數據孤島,完成數據匯聚,構建遠盟集團數據資產并持續運營,同時以數據驅動流程優化,為數據智能應用提供有效的數據支撐,成為遠盟的主要訴求。解決方案為助力遠盟實現“企業數字化轉型”的目標,滴普科技從建設數據平臺、構建并運營企業數據資產為基礎,以數據賦能業務流程優化為主要戰略,層層遞進,針對遠盟不同階段的數字化轉型難點,提出行之有效的解決方案。首先,在大數據平臺建設方面,滴普結合自身的產品FastData為遠盟規劃了符合其戰略目標和業務需求的數據平臺技術架構,包括流批一體的數據存儲分析引擎、
77、一站式數據開發和數據服務平臺、數據資產管理運營平臺、以及靈活可視的數據分析平臺。通過集成多種數據源,將多源異構的數據進行統一接入、統一建模、統一開發、統一管理、統一服務,從而為預先設定的數據智能服務場景提供技術平臺保障。另一方面,滴普科技基于對遠盟業務流程的深度洞察,構建以會員、產品、供應商等不同維度的標簽體系,覆蓋企業全業務流程節點?;跀祿脚_構建分析能力,搭建財務、營銷、項目、服務、產品、會員等數據分析模型,構建整個運營過程中對各業務關鍵節點的閾值控制以及異常預警提醒的能力。將數據沉淀為企業內部資產,并通過數據智能及數據可視化應用,實現對企業經營情況的精準同步,進而輔助決策?;跀祿脚_
78、建設與數據資產的梳理沉淀,在業務流程優化方面,滴普科技提供數據智能評價體系,針對業務全流程效率進行可視化監控與分析,評估流程節點的資源工作量,并通過智能化工具,提升流程節點的智能化程度,減少人工干預。通過增強數據的分析和應用,為企業帶來整體業務效率的大幅提升。應用價值通過數據平臺的建設,遠盟逐步整合集團全域海量、多源異構數據并實現資產化,同時通過平臺資源的集中配置、數據資源的全量整合、數據資產的梳理完善、數據處理能力的不斷沉淀等一系列規劃與實施,為數據治理成效的提升、數據到數智的能力轉化、業務流程與組織架構的升級、自動化賦能運營與決策,打下了堅實基礎。目前通過一期項目的建設,遠盟數據平臺完成核
79、心業務系統中涉及的24個數據源的對接,平臺可實現100億條數據資產的有效管理與運營,并基于業務場景,搭建了750個數據指標,服務于“數字健康”、“智慧救援”、“智慧車聯”等公司核心產品,真正實現了數據與業務的雙輪驅動。降低數據建設成本數據平臺的建設解決了企業數據孤島的問題,統31一數據標準與規范,降低數據復雜性,消除數據二義性,實現數據的全生命周期管理。通過提升數據復用性,減少因數據體系的不一致而導致的重復建設成本,進而降低了整體的數據計算與數據存儲成本。數據資產管理與持續運營通過數據平臺統一匯聚、治理,將業務數據轉化為數據資產。數據資產管理平臺將企業各類項目、各個業務領域的數據資產進行統一的
80、管理。數據地圖與資產目錄實現全局數據的發現、查找、使用、評估能力。數據安全根據資產級別、用戶權限等,保障數據能被許可的用戶訪問,同時對用戶行為進行安全審計并自動進行資產安全風險預警。數據驅動業務流程優化隨著業務的發展,依靠業務人員經驗的流程驅動模式,已經無法支撐業務的快速發展。數據平臺將整合各業務鏈條中的數據并統一納管,通過對流程效率的監控、預警,對項目、產品等多維度的收入、成本、利潤分析,實現數據智能賦能業務、優化業務流程、提升整體運營效率。激活數據商業價值通過將數據資產化,將不同系統、不同類型的數據集合到一個標準的、透明的可計算范圍內,使其在數據使用過程中更加統一、標準、易用、靈活,激活數
81、據的商業價值。第四章:未來展望4.1 向全云時代邁進:云原生成為主流探索方向2015年云原生基金會CNCF成立,標志著云原生從技術理念轉化為開源實現,也帶來了目前能夠被廣泛接受的定義:“云原生指的是各組織在公有云、私有云和混合云等新型動態環境中,構建和運行可彈性擴展的應用,代表技術有容器、服務網格、微服務、不可變基礎設施和聲明式API”?,F代企業IT建設所依賴的基礎資源,經歷了以“設備”為中心的服務器階段,以“資源”為中心的云化階段,逐漸過渡到以“應用”為中心的云原生階段。在這一階段,企業的關注點聚焦與應用,包括應用的敏捷交付、快速彈性、平滑遷移、無損容災等。越來越多的企業開始考慮如何將基礎設
82、施與業務平臺融合,將業務的通用能力下沉到平臺側,更好地幫助企業實現應用自動化。Statista發布的統計數據顯示,自2013年起云上應用在全球范圍內的市場份額逐年攀升,預計到2025年,將達到1686億美元,十年內增長了四倍。Gartner預測到2022年75%的數據庫將托管在云端。云計算技術的不斷發展也催生出將數據庫部署在云上的需求,這種云原生數據庫能夠隨時隨地從多前端訪問,提供云服務的計算節點,并且能夠靈活及時調動資源進行擴縮容,助力企業降本增效。據信通院發布的 2021年數據庫發展研究報告 預測,未來數據庫將深度結合云原生與分布式特點,幫助用戶實現最大限度資源池化、彈32性變配、超高并發
83、等能力,更加便捷、低成本實現云上數字化轉型與升級。整體來看,隨著云原生技術的發展成熟,未來企業上云將會更加低成本和高效便捷,而伴隨著云原生操作系統的持續發展和完善,在多云、混合云場景下提供一致的產品服務和體驗也將成為業界共同努力的方向,加速數字業務云上的閉環,一個“全云”的時代正在成型。4.2 湖倉一體再升溫:數據智能實踐“未來式”隨著現代企業對數據分析應用需求的不斷擴展,傳統的“湖倉分離”模式,盡管在一定程度上實現了功能的互相補充,但難以滿足企業在數據運營、價值挖掘、運維等方面的更高需求。2020年,Databricks正式提出Lakehouse(湖倉一體)的概念,這種架構結合數據倉庫和數據
84、湖各自的優點,將數據倉庫的豐富管理功能和性能優化能力與支持多種數據格式的低成本存儲的數據湖結圖 11.2013-2025(預測)年云上應用市場份額數據(資料來源:Statista,2013-2025(預測)年云上應用市場份額數據)Gartner,Inc.,”Gartner表示數據庫市場的未來是云端”,2019年7月1日新聞稿33合起來,打通兩套體系,讓數據和計算在湖與倉之間自由流動,從而構建一個完整的大數據存儲生態體系。企業數據架構經過三個階段的變化,20世紀80年代,以傳統數據倉庫為主,數據類型以關系型數據庫組織起來的結構化數據為主,數據通過轉換、整合以及清理,導入到目標表中,這種模式對實時
85、數據處理、非結構化數據處理能力較弱。2011年左右,以數據湖為主要架構的企業開始盛行,它從多個數據源獲取數據,可接受任意類型的信息,并通過各類外部異構數據源的交互集成,支持各類企業級應用。第三階段,湖倉一體開始作為現在乃至未來的主流數據架構,作為一種新興架構,湖倉一體在事務性、擴展性以及靈活度上體現出了獨有的優勢:事務支持在數據湖中,多個數據管道經??梢酝瑫r讀寫數據。Lakehouse中對ACID事務的支持可確保在多個用戶和租戶同時讀取、更新或寫入數據,并保持數據一致性。BI支持Lakehouse可以使BI工具直接用于源數據。這改善了數據訪問延遲,減少數據陳舊性,并降低了數據湖和數據倉庫中操作
86、兩個數據庫的成本。存算分離Lakehouse提倡將存儲與計算解耦,以利用單獨的集群,從而允許此類系統跨工作負載和數據量獨立拓展,大大提高了靈活性。圖 12.湖倉一體發展歷程(資料來源:https:/ 13.商業數據庫VS開源數據庫(資料來源:DB-Engines,商業數據庫VS開源數據庫)湖倉一體的出現試圖去融合數倉和數據湖二者的差異,使數據存儲更加靈活,節省成本,同時,它還能有效地提升數據質量,減少數據冗余。隨著各大廠商的推演和實踐,人們有理由相信,湖倉一體將成為數據架構演進道路上的“未來式”。4.3 擁抱開源:未來數據庫廠商的破局之刃開源模式是一種相對于專有模式的開發模式,是指將源代碼公開
87、,更好地促進軟件的快速更新。任何人可以得到軟件的源代碼,加以修改學習,甚至在許可范圍內重新發放。近年來,開源熱度持續攀升,機器學習、容器、移動端開發等熱門領域開源項目持續快速增長,開源數據庫的比例也在逐步上升,DB-Engines的統計結果顯示,截止到2021年,開源數據庫與商業數據庫的比例已經基本持平,且二者之間的差距仍在擴大。從產業發展角度來看,開源模式一方面提高了數據庫產品的開發效率,避免重復開發,同時還能更好地加速產品技術創新。在某種程度上,它匯聚了全球的資源力量,為開發者提供了交流切磋的空間。對于廠商而言,盡管從表面上看,企業部署開源并不能獲得直接的利益,但在這個過程中,他們卻可以布
88、局產品的生態建設,獲得有力的戰略地位。據中國信通院2021年發布的 開源生態白皮書中表述,未來3-5年,我國開源生態發展都將處于快速膨脹期,超過90%的企業在信息化建設中使用開源。未來,隨著開放創新的模式不斷深入發展,各行業也講逐步應用開源協作模式創造商業價值。對于數據庫廠商而言,開源模式也將成為各大云廠商、傳統廠商、新興廠商擴展市場的破局之刃。35第五章:結語當數據資產作為企業戰略的必選關鍵詞、數據成為重要的生產要素,企業處于數字化轉型的深入階段,我們更是要認真地審視和反思,我們的現在和未來真的能夠用好這些數據嗎?這引發我們更具有前瞻性地進行思考和選擇,我們需要所選的產品與服務,既能夠滿足目
89、前需求,也能夠足夠靈活地應對未來的挑戰。在20年的大數據發展中,我們看到了數據湖與數據倉庫的不斷創新與發展,也看到了湖倉一體化的技術架構為企業數據能力帶來的提升。特別是云原生+大數據的時代,湖倉一體更能發揮出數據湖的靈活性與生態豐富性,以及數據倉庫的成長性與企業級能力。滴普科技FastData流批一體、湖倉一體數據智能平臺,具備了實時數據處理、敏捷開發與應用、增強性分析、云原生,四大核心能力,協助企業快速構建低成本、高性能、易使用的大數據平臺。目前滴普已服務百余家企業,通過滴普專業服務團隊與技術能力,夯實企業數據底座,驅動業務價值實現。在未來,滴普致力于攜手更多企業,通過數據創造更多商業價值,
90、探索數據背后的無限可能。資料來源:滴普科技 Gartner的調研報告 中國DBMS市場指南 在向云計算遷移和國內ICT創新舉措的推動下,中國的DBMS(數據庫管理系統)市場正在經歷著迅速的增長和變動。數據和分析領域的領導者在中國選擇DBMS時,應該利用本研究來解讀產品性能和市場動態。概覽主要發現 盡管一些企業(如金融機構)出于合規性和安全性方面的顧慮,拒絕完全轉移至公有云,但中國的大多數企業都走上了云端之路,并期望盡快采用公有云DBMS。中國DBMS向云端遷移的勢頭將在未來四年內超過全球和美國的平均水平。受信創計劃(促進國內信息技術創新)和中國 數據安全法 影響,本地企業正在逐漸將承擔關鍵任務
91、的DBMS轉移至國內供應商,導致外國供應商的業務不斷縮水。由于中國具有獨特的商業環境,如多觸點電子商務生態系統和國家工業計劃,中國的數據和分析領導者傾向于把更多的注意力放在特定的DBMS功能上,如增強型交易、湖倉一體和分布式交易型數據庫。在政府和CSP的推動下,中國高度活躍的開源社區孕育了快速發展的開源DBMS產品,也促進了對現有產品的參與。建議在中國評估DBMS產品的數據和分析領導者應該:通過識別和解決與安全性、可靠性以及數據主權相關的問題,讓dbPaaS選項優先于傳統的內部部署方法。評估本地DBMS供應商時,不僅要評估其產品功能,還要評估其對信創生態系統的開放程度。利用Gartner評估您
92、所考慮的DBMS關鍵功能 關于云數據庫管理系統和相關RFP工具包的研究。通過評估相關開源社區的活躍度,對您所考慮的任何開源DBMS的成熟度進行評估,以便與中國國家戰略保持一致。戰略規劃設想到2025年,海外供應商將只占中國分析型DBMS市場份額的30%,以及中國交易型DBMS市場份額的50%。市場定義本文件修訂于2022年3月31日。您正在閱讀的文件為修訂版文件。如需詳細信息,請參閱的Corrections(更正)頁面。中國的DBMS市場被定義為中國的區域市場,其中供應商主要向中國境內的企業和在中國有業務的國際企業提供數據庫管理系統。DBMS(數據庫管理系統)是一種用于存儲和組織數據的產品,通
93、常具有固定的格式和結構。對DBMS進行分類時,應當以其基本結構為依據,在一定程度上也要參考其用途或部署。市場描述Gartner定義了以下細分市場來對DBMS市場進行分類 分析型和交易型:分析型DBMS是針對分析用途進行優化的管理系統,包括數據倉庫和數據湖。交易型DBMS專注于需要創建、更新和刪除數據的運營業務。部分供應商目前還提供增強交易(此前稱為混合交易/分析處理,或HTAP)功能,在交易范圍內使用復雜的機器學習,將交易和分析處理結合到單一的DBMS中。本地和云端:本地DBMS部署于客戶自己的數據中心內,并由客戶自己全權管理。云DBMS部署于公有云上,由第三方供應商管理,利用公有云提供的功能
94、。如今,DBMS也可以部署在混合環境(跨越本地和云部署的實施)、多云環境(一項服務或產品在一個以上的云服務提供商CSP基礎設施上運行)或云間環境(數據在CSP之間整合或交換)之中。Gartner 將私有云歸類為本地的一個變體,因為這兩者的特點相似。在本研究中,“云”這個詞在沒有具體說明的情況下是指“公有云”。關系型和非關系型:關系型DBMS中的數據是通過表、規則和約束條件來表達的,這些約38束條件將表綁定在一起。非關系型DBMS中的數據可以有多種不同的格式,包括文檔、圖形、鍵值對、寬列和時間序列數據。許多供應商現在還提供多模型DBMS,它可以在單一DBMS中處理關系型和非關系型數據。部分客戶可
95、能會將非關系型數據庫稱為“NoSQL”。然而,在現代DBMS領域,許多非關系型DBMS供應商提供支持SQL(或至少是類似SQL語言)的功能,如此一來,“NoSQL”便不適合用于描述非關系型DBMS。市場方向中國DBMS市場的增長是由四個因素驅動的:1.加速向公有云轉移。中國的數據和分析領導者正在促進向云端轉移,并使用云原生功能來實現彈性、業務敏捷性和成本節約。隨著阿里巴巴集團、華為、騰訊和其他公司的持續創新,DBMS的云端之路將在未來四年內成為客戶至關重要的業務優先事項。Gartner的預測顯示,到2025年,在中國的DBMS收入中,云端DBMS的收入占比將達到81.2%,超過全球占比(69%
96、)和美國占比(75.2%)(見圖1)。12.在“信創”國家戰略的加持下,DBMS本地化勢頭強勁。中國政府推出的信創計劃旨在加快國內信息技術的創新,包括DBMS。鼓勵部分地方企業從信創生態圈的供應商處進行采購(見注3)。如今,由于“技術債務”深植于遺留的軟件和硬件中,金融機構之類的企業在替換至關重要的業務中的DBMS時,仍然猶豫不決。然而,隨著本地供應商能力的成熟,以及這些企業對遷移工具和服務的圖 1:全部DBMS收入中云端收入占比預測39持續開發,這種情況將會得到改變。3.對中國DBMS需求的獨特關注。由于中國具有獨特的本地商業環境,如巨大的互聯網用戶數量、多觸點電子商務生態系統和國家工業計劃
97、,中國的數據和分析領導者更加關注增強型交易、湖倉一體、分布式交易數據庫和云原生數據庫功能。在未來的五年里,中國的DBMS技術演進路徑仍將繼續按照自己的軌跡發展。4.開源DBMS具有可觀的市場發展動力。中國政府和CSP對開源DBMS的推廣將進一步加速本地DBMS功能的發展,以及使用或協助創建開源軟件的市場滲透。同時,將開源DBMS視作長期數字戰略的一部分的中國數據和分析領導者將在選擇供應商時開始評估開源產品和社區的成熟度。市場分析加速向公有云轉移為了在快速變化的數字環境中,為世界上體量最大的活躍互聯網用戶提供服務,中國銀行、零售和快速消費品(FMCG)等領域的超大規模B2C企業不斷與性能瓶頸和巨
98、大的維護成本作斗爭,而傳統的DBMS卻遠不能令人滿意。這種情況下,遷移到云端可以充當一種解決方案。2022年Gartner圖 2:中國受訪者的技術投資變化40首席信息官和技術主管調查顯示,在中國的IT領導者看來,云平臺是增加技術投資的第3大優先事項,而傳統的數據中心則是減少投入的最常見領域(見圖2)。2私有云上的DBMS考慮到公有云在數據安全、數據主權和監管合規性方面的問題,金融、政府和公共服務等特定行業的組織通常更愿意采用私有云部署。然而,Gartner發現,部分中國企業開始考慮將承擔關鍵任務的交易型DBMS轉移到公有云上,由此可以看出,對公有云的無端恐懼近期正在緩解。私有云DBMS市場最終
99、將保有穩定的增長速度。公有云上的DBMS在此市場中有大量的選擇。中國企業正在進一步認識到在公有云上從頭部署或重新設計DBMS所帶來的好處,包括動態彈性、快速配置和成本效益。中國公有云DBMS市場將在未來五年內保持高速增長。注意:“云原生數據庫”帶來了超大規模CSP鎖定的擔憂基于計算和存儲解耦等新的架構設計,現在一些DBMS產品在云端上提供進一步增強的彈性和經改進的財務治理,并將其稱為“云原生數據庫”。然而,這些DBMS目前只有在部署于供應商自己的云平臺上時才能完全實現其宣稱的功能。這方面的一個準確術語是“CS P-native DBMS”。如果數據和分析領導者有意投入多云環境,他們也應該考慮獨
100、立于云架構的DBMS。在信創國家戰略的加持下,DBMS本地化勢頭強勁“信創”是一項促進國內信息技術創新的國家戰略,該戰略推動了供應商本地化的趨勢。Gartner發現,在過去兩年中,部分全球企業已終止在中國的部分業務。3DBMS被列入信創生態系統的主要技術領域(見注3)。企業若采用DBMS解決方案而不考慮信創生態系統中的兼容性,則將面臨潛在的風險,可能需要支付額外的IT成本來追蹤和遵守未來的監管規定。在進行DBMS投資時,中國的國有企業會特別優先考慮有資格成為信創生態系統成員的本地供應商。其他在中國的數據和分析領導者也應該考量候選DBMS供應商是否已被納入信創生態系統(或者至少應該考量這些供應商
101、是否計劃針對信創生態系統中的其他供應商提供兼容性),不論其產品功能如何。中國對DBMS能力的不同關注點基于全球視角,Gartner定義了DBMS的幾個關鍵用例。在中國,由于當地獨特的商業環境和前文介紹的國家計劃,其中一些用例對數據和分析領導者有著不同的影響。表1概述了這些情況。41表 1:從主要DBMS用例看中國數據和分析領導者受到的影響序號用例Gartner定義對中國D&A領導者的影響1數據倉庫主要通過批量和分批加載,來管理多個來源的結構化歷史數據。數據的結構化使領導者可以靈活地將數據用于各種不同的用例。中國的數據和分析領導者通常會將數據倉庫視作使用信創生態系統供應商的第一步。2邏輯數據倉庫
102、管理結構化和其他內容數據類型的數據種類和數量,充當各種數據源的邏輯層。隨著數據科學計劃進一步擴大并嵌入生產,中國企業希望其數據湖能夠提供全面的治理和快速的生產部署。這導致許多當地供應商投資湖倉一體。然而,從Gartner的角度來看,湖倉一體仍處于不夠成熟的階段。此外,許多客戶和供應商都把邏輯數據倉庫的設計當作湖倉一體,由此可以看出,當下人們對湖倉一體的認識并不清晰。(有關邏輯數據倉庫,請參閱“實用的邏輯數據倉庫”和“邏輯數據倉庫要做好的6件事”)3傳統交易集中的交易焦點,具有固定、穩定的模式。高速、高容量、并發、數據插入/更新、ACID屬性和安全性都很重要。本地硬件的限制導致供應商在分布式交易
103、數據庫管理系統(DTDBMS)上投入大量資金,以求解決中國客戶面臨的性能瓶頸問題。大多數中國企業,無論規模大小,都認為DTDBMS是性能瓶頸的唯一解決方案,也是以更優惠的價格使用商品硬件的唯一選擇。而從全球的角度來看,對DTDBMS的主要期待是用于地理上分散的數據操作。中國中小型企業(SMB)的數據和分析領導者應該確定采用更好的設計架構(成本更低)是否是解決性能問題的最佳方案,而不是轉向DTDBMS。4增強交易處理通過使用分析(包括人工智能(AI)和機器學習(ML)),借助單個數據庫中事務范圍內的多個狀態來增強事務,同時保持低延遲。隨著直播電子商務和工業物聯網(IIOT)分析的進一步采用,中國
104、的D&A和商業領袖越來越需要實時分析。這增加了供應商對增強事務處理(有些人可能稱之為“HTAP”)的巨額投資。資料來源:Gartner(2022年3月)42開源DBMS的重要市場發展動力 推動開源計劃對客戶、供應商和中國政府都有好處:對于客戶,開源DBMS的主要好處是前期成本節省、快速部署和靈活的增強操作。事實上,在過去的20年里,許多中國企業已經成為MySQL、PostgreSQL和Apache Hadoop的忠實用戶。對于供應商,人們認為加速的產品演進、快速的市場滲透和對開源產品的認可將會帶來巨大的回報,即使是以短期收入損失為代價。對于CSP,DBMS的快速市場滲透將進一步為其整個數據和分
105、析產品組合帶來“溢出效應”。在過去的兩年里,中國的CSP經常宣布針對其圖 3:2019-2021年中國知名CSP推出開源DBMS的情況DBMS產品開放源代碼(見圖3)。中國政府將開放源代碼視作加速國內信息技術創新發展的有效方法。中華人民共和國的十四五計劃中已明確提到這一點。4在開源社區迅速增加的情況下,在中國的數據和分析領導者在選擇DBMS產品時應該評估開源社區的成熟度。盡管源代碼可以共享,仍須考慮社區維護的質量和成員參與的積極性,以便確定開源社區支持供應商選擇的未來可行性。代表性供應商本市場指南并未詳盡列出所有供應商。此部分旨在加深對該市場及其產品的認識。43市場簡介表2列出了DBMS供應商
106、的名單及其在中國的產品實例。數據和分析領導者應從此名單入手,開始了解中國本地DBMS市場格局。此處產品名稱和產品類型只是樣本,并不能反映供應商的全部產品系列。表 2:中國具有代表性的DBMS供應商供應商名稱產品名稱示例產品類型示例阿里云AnalyticDB,PolarDB,TSDB,GDB關系型、非關系型亞信科技AISWare AntDB關系型百度RDS,TSDB關系型、非關系型柏睿數據Hubble關系型天云數據StarRocks關系型北京鼎石縱橫科技CDDB關系型北京谷數科技Linkoop DB關系型北京偶數科技KingbaseES關系型北京聚云位智信息技術OushuDB關系型北京人大金倉信
107、息技術UXDB關系型北京優炫軟件RapidsDB關系型東方國信CirroData關系型GBASEGBase關系型H3CseaSQL關系型熱璞熱璞服務器關系型華為云GaussDB,openGauss關系型、非關系型浪潮K-DB關系型京東云StarDB關系型金山云KingDB關系型錄信數軟LSQL關系型OceanBaseOceanBase關系型PingCAPTiDB關系型睿帆科技Snowball關系型巨杉數據庫SequoiaDB-TP,SequoiaDB-Doc關系型、非關系型上海麥杰科技openPlant關系型神通數據神通數據庫關系型騰訊云TDSQL for MySQL,TencentDB fo
108、r TcaplusDB,TencentDB for CTSDB,KonisGraph關系型、非關系型星環科技KunDB,ArgoDB,StellarDB關系型、非關系型武漢達夢數據庫DM8,GDM關系型、非關系型虛谷偉業虛谷數據庫關系型易鯨捷EsgynDB關系型中興通訊GoldenDB關系型資料來源:Gartner(2022年3月)44市場建議對于尋求在中國投資DBMS的數據和分析領導者,我們提出以下建議:在判斷是否轉移到公有云時,要核實云平臺供應商如何遵守行業法規和政府的法律要求。例如,中華人民共和國數據安全法 概述了跨境數據傳輸的要求,而 中華人民共和國個人信息保護法 則規定了敏感個人信息
109、的處理規則。確保候選供應商能夠從產品功能和售后SLA的角度為信創生態系統中的解決方案(如云、硬件、商業應用和數據安全)提供兼容性。深入評估當前中國DBMS市場上受歡迎的功能,如增強型交易處理、湖倉一體、分布式數據庫和云原生數據庫。了解各種功能的優點和缺點,并與商業利益相關者接觸,以便判斷自己是否真的需要這些功能。使用不同的指標來評估開源DBMS社區的活躍度和成熟度,而不是簡單地計算“贊”的數量。樣本指標包括代碼活動、軟件發布歷史、社區支持和文檔。依據1 預測:2019-2025年全球公有云服務,2021年第四季度更新;預測:2019-2025年全球企業基礎設施軟件,2021年第四季度更新CSP
110、云服務提供商DBMS數據庫管理系統FMCG快速消費品HTAP混合交易/分析處理ICT信息和通信技術SME中小型企業SQL結構化查詢語言2 2022年CIO和技術主管議程:中國視野:2022年的Gartner CIO和技術高管調查于2021年5月3日至2021年7月19日期間在線進行,參加人員包括Gartner高管項目成員和其他技術高管。來自各個地區和行業領域(公共和私營)的抽樣調查對象總數為2,387人,其中53人來自中國。該調查由Gartner分析師共同編寫,并經過Gartner研究數據和分析團隊的審核、測試和管理。3 路透社報道,Yahoo以環境“具有挑戰性”為由,永久退出中國市場;Chi
111、nAI報道,IBM Watson敗走中國;36氪報道,Tableau宣布終止其中國業務。4 中國新聞網報道,中華人民共和國的十四五計劃中明確提到開放源代碼。注釋 1:代表性供應商選擇這份供應商名單并不詳盡,但其中包括提供不同成熟度的DBMS產品的中國本土供應商。Gartner的二級研究團隊和Gartner客戶反饋對供應商的關注度是我們選擇指定供應商的依據。注釋 2:Gartner的初步市場范圍本市場指南提供了Gartner對市場初步范圍的介紹,重點介紹了市場定義、市場原理和市場動態。資料來源:Gartner Research,G00760677,Xingyu Gu,Julian Sun,202
112、2年3月3日主要術語縮寫詞匯用好你的數據由滴普科技發布。滴普科技提供的編輯內容獨立于Gartner分析。所有Gartner研究均是在Gartner許可下使用,最初作為Gartner聯合研究服務的一部分發布,可供所有符合要求的Gartner客戶使用。2022 Gartner,Inc.和/或其關聯公司。保留所有權利。Gartner是Gartner,Inc.及其關聯公司的注冊商標。未經Gartner事先書面許可,不得以任何形式復制或分發本出版物。本出版物包括Gartner調研企業的意見,不應被視作事實陳述。本出版物中所含信息均從據信的可靠來源獲取,但Gartner不對此類信息的準確性、完整性或適當性
113、作出任何保證。雖然Gartner調研可能會解決法律和財務問題,但Gartner并不提供法律或投資建議,不應將其調研解釋為或用作法律或投資建議。您對本出版物的訪問和使用由Gartner使用政策管理。Gartner以獨立和客觀的聲譽為傲。其調研由其調研組織獨立作出,不受任何第三方意見左右或影響。如需獲得更多信息,請參閱“獨立性和客觀性的指導原則”。聯系我們如需詳細信息,請通過以下方式聯系我們:關于滴普科技北京滴普科技有限公司()成立于2018年,是領先的數據智能服務商。滴普科技以最新的數據智能技術為基礎,以數據的業務價值為核心,為客戶提供數據智能領域的大數據基礎軟件產品與服務。滴普科技自主研發了低成本、高性能、易使用的云原生數據智能服務平臺FastData,產品采用新一代存算分離數據處理技術,幫助企業建立流批一體、湖倉一體的數據智能平臺,能夠實現PB級數據秒級實時分析,成為支撐企業數字化轉型的核心基礎軟件設施。掃描二維碼獲取更多信息。