《愛分析:2022中國分析型數據庫市場研究報告(43頁).pdf》由會員分享,可在線閱讀,更多相關《愛分析:2022中國分析型數據庫市場研究報告(43頁).pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、 報告編委 愛分析 黃勇 合伙人&首席分析師 張揚 合伙人&首席分析師 洪逸群 高級分析師 任理 分析師 中國信通院云大所 魏凱 中國信通院云計算與大數據研究所副所長 序言 數字化時代,數據使用場景呈現多元化趨勢,數據規模也隨之爆發式增長。海量異構數據的爆發式增長,對數據庫的存儲和計算能力提出了更高的要求。分析型數據庫因其在處理海量實時數據時具有優秀的存算和管理能力,近年來贏得了市場的青睞。 分析型數據庫最早的定義是指從分散的數據源中抽取、清理和匯集各類結構化數據,形成面向特定分析主題的、相對穩定且能反映歷史變化的數據集合,并通過 OLAP(聯機分析處理引擎)來對這些數據進行分析,即通常意義的
2、數據倉庫。其中OLAP 數據庫概念最早由關系型數據庫之父E.F.Codd 于1993 年首次提出,他認為用戶的決策分析需要對關系型數據庫進行大量計算才能得到結果,OLTP(聯機事務處理)已經不能滿足終端用戶對數據庫查詢分析的需要,因此,E.F.Codd 提出了多維數據庫和多維分析的概念。OLAP 數據庫的提出引起了很大的反響,OLAP數據庫作為一類產品同 OLTP 數據庫明顯區分開來。 在此后近 30 年的演進中,分析型數據庫先后出現了共享存儲架構數倉、大規模并行處理(MPP)架構數據倉庫以及數據湖等技術架構。近年來,隨著企業數據分析需求的不斷提升,具有流批一體和存算分離,能通過元數據層在數據
3、湖上實現數據管理功能的智能湖倉受到了更多關注,分析型數據庫迎來新階段智能湖倉。伴隨企業數字化轉型戰略深入推進,分析型數據庫內涵也在不斷擴展,我們認為當下的分析型數據庫是指為應對企業管理、業務、數據分析師、數據科學家等人員對數據的各類分析和應用需求而提供的各類數據存儲和計算引擎,包括傳統數據倉庫、云數據倉庫、數據湖等,以及目前正在興起的智能湖倉。 后疫情時代背景下,分析型數據庫在更多業務場景中實現了更廣泛的應用,如流調溯源、時空分析等,分析型數據庫市場也迎來了爆發式增長。近些年國內分析型數據庫創業公司日益涌現,產業資本不斷涌入,獲得融資的公司數量及額度均大幅增長。據公開資料統計,2013-202
4、1 年,主打數據分析場景的數據庫企業成立數量為 11 家,占總數據庫企業總成立數量的 24%,融資次數共計約 40 余次,融資總額約近 50 億元人民幣。競爭激烈的市場,哪些公司具有真正潛力;當前火熱的市場是否只是一場泡沫; “智能湖倉”階段后,分析型數據庫又將向哪個方向發展,本報告將進行一一梳理和詳細解答。 魏凱 中國信通院云計算與大數據研究所副所長 目錄 前言:為什么要研究分析型數據庫 . 6 一、分析型數據庫的定義與發展歷程 . 8 分析型數據庫的誕生 . 8 分析型數據庫的定義及其延伸 . 8 分析型數據庫的發展歷程 . 8 2. 分析型數據庫的技術演進趨勢及其驅動因素 . 11 第一
5、代分析型數據庫共享存儲架構數據倉庫 . 11 第二代分析型數據庫MPP 數據倉庫 . 12 第三代分析型數據庫數據湖 . 13 第四代分析型數據智能湖倉 . 14 3. 中國分析型數據庫市場規模 . 21 中國分析型數據庫市場發展的驅動因素 . 21 中國分析型數據庫市場規模與增速 . 23 4分析型數據庫廠商關鍵競爭要素 . 26 廠商背景:團隊背景和產品定位 . 26 技術架構:技術路線和場景適用能力 . 26 自研能力:完善功能、提高穩定性、保障安全性 . 27 商業模式:提供數據平臺全棧產品和服務 . 28 行業落地:在行業領域的經驗積累 . 29 5分析型數據庫市場競爭格局 . 31
6、 傳統數據庫廠商 . 31 新銳數據庫廠商 . 32 公有云廠商 . 33 分析型數據庫典型產品分類 . 33 6國內代表廠商分析 . 36 南大通用 GBASE . 36 滴普科技 FASTDATA . 37 華為云 MRS . 39 結語:國內分析型數據庫廠商的機遇 . 41 前言:為什么要研究分析型數據庫 隨著數據成為驅動社會與經濟發展的核心生產要素,作為關鍵數字基礎設施的數據庫,其技術趨勢和市場格局正在經歷劇烈的變化。 一方面,數據規模的迅速膨脹,以及大量創新性的數據分析和應用場景的出現,對分析型數據庫的存儲和計算能力也提出了更復雜的要求。 另一方面,為應對新的趨勢,國內外傳統數據庫廠
7、商、新銳數據庫廠商和公有云廠商等各類廠商近年來紛紛加大對分析型數據庫的投入和布局,它們或推出了新一代的智能湖倉產品,或對傳統的數據倉庫、數據湖進行了重大升級。 變化也意味著機遇,為了挖掘出該領域具備潛力的代表性公司,本報告將詳細梳理分析型數據庫的發展歷程和技術演進趨勢,重點闡明中國分析型數據庫市場的價值和發展空間,建立分析型數據庫廠商的評估模型,并對重點公司的產品技術、研發能力、商業模式、行業落地情況進行分析。 北京愛分析科技有限公司 07 分析型數據庫的 定義與發展歷程 北京愛分析科技有限公司 08 一、分析型數據庫的定義與發展歷程 分析型數據庫的誕生 分析型數據庫最早是從交易型數據庫衍生而
8、來。在數據庫誕生和發展的早期,其應用場景主要是對數據進行統一的存儲、管理和訪問,因此用戶需要數據庫能夠實現對數據的增改刪操作,也即聯機事務處理(OLTP) ,此類數據庫被稱為交易型數據庫(也稱事務型數據庫) 。隨著用戶的需求從查看單個交易數據逐漸衍生出對交易數據的匯總、對比等分析需求,數據倉庫在 1980 年代開始出現。一直到 1993 年,關系型數據庫之父 Edgar F. Codd才正式提出聯機分析處理(OLAP)的概念后,分析型數據庫的概念也由此正式誕生。 分析型數據庫的定義及其延伸 分析型數據庫最早的定義是指從分散的數據源中抽取、清理和匯集各類結構化數據,形成面向特定分析主題的、相對穩
9、定且能反映歷史變化的數據集合,并通過 OLAP 引擎來對這些數據進行分析,也即通常所說的數據倉庫。 隨著企業數據分析需求的不斷變化,以及技術的持續演進,分析型數據庫的定義和內涵也在不斷延伸。我們認為,當下的分析型數據數據庫是指為應對企業管理、業務、數據分析師、數據科學家等人員對數據的各類分析和應用需求而提供的各類數據存儲和計算引擎,包括了傳統的數據倉庫、數據湖,以及目前正在興起的智能湖倉。 分析型數據庫的發展歷程 分析型數據庫已經經歷了數十年的發展,期間伴隨了多個關鍵概念的提出,以及眾多廠商推出的重要產品,這些事件成了串聯分析型數據庫發展歷程的關鍵節點,也大致勾勒出了分析型數據庫的演進趨勢。
10、北京愛分析科技有限公司 09 圖 1: 國內外分析型數據庫發展歷程重要節點 北京愛分析科技有限公司 010 分析型數據庫的技術演進 趨勢及其驅動因素 北京愛分析科技有限公司 011 2. 分析型數據庫的技術演進趨勢及其驅動因素 分析型數據庫誕生至今,已經經歷了共享存儲架構數據倉庫、MPP 數據倉庫、數據湖三代的發展,目前正在往第四代智能湖倉方向演進。在這一發展歷程中,驅動分析型數據庫代際演進的因素主要包括了應用場景、數據以及計算環境三個層面不斷發生的變化,也由此造成幾代分析型數據庫在技術架構、功能和性能層面的根本差異。 表 1:分析型數據庫的代際演進 第一代分析型數據庫共享存儲架構數據倉庫 基
11、于數據庫的共享存儲架構數據倉庫是分析型數據庫最早的形態,其可以追溯到誕生于 1970 年代末到 1980 年代初的 Oracle、DB2。在該階段,企業的數據分析的應用場景較單一,主要是面向管理層提供若干固定報表。數據類型為結構化數據,數據量也相對有限。 技術架構層面,對于該階段的數據分析需求,企業通常是建設一套用于分析查詢的歷史數據庫來匯集不同事務型數據庫的原始數據。 北京愛分析科技有限公司 012 功能層面,共享存儲架構數倉具備很強的穩定性,支持各類 SQL 標準,以及 ACID 特性(即數據庫的原子性、一致性、隔離性、持久性)。 性能層面,由于共享存儲架構數倉的計算節點能夠訪問任意的存儲
12、節點,其需要配備專有物理硬件,其性能優化良好。但共享存儲架構的缺點是可擴展性較差,一般擴展到十幾個節點就會遇到瓶頸,因此當數據量達到千萬、億級別時,數據的計算就會出現延時。 第二代分析型數據庫MPP 數據倉庫 最早的 MPP(大規模并行處理)數據倉庫是 Teradata 于 1984 年推出的基于專有硬件的無共享架構 MPP 數倉,后來也出現了基于 x86 通用服務器的 MPP 數倉 Greenplum、Vertica。在該階段,企業數據分析的應用場景已經從面向少數管理人員提供固定報表,轉變為面向業務人員提供更廣泛的批處理報告、BI 和可視化,以支持業務決策。與此同時,企業需要處理的數據類型依
13、舊是結構化數據,但數據量出現了快速增長,達到了 GB 或 TB級。 技術架構層面,為了應對上述的數據分析需求,專用于 OLAP 的分析型數據庫從事務型數據庫中分離出來,形成了沿用至今的數據倉庫。數據倉庫的設計是為了支持快速的數據查詢和數據分析任務,其技術架構是建立了一套數據流,通過預先定義 Schema 的方式,將事務型數據庫中的結構化數據經過 ETL 操作,形成“表”結構的數據寫入數據倉庫中。與此同時,數據倉庫在數據組織方式上開始普遍使用列存儲取代交易型數據庫的行存儲,由于列存儲具備自動索引、減少總 I/O、利于數據壓縮等優勢,數據倉庫因此得以極大地提升其查詢性能。 北京愛分析科技有限公司
14、013 圖 2:數據倉庫架構 功能層面,由于 MPP 數倉底層的數據依舊由事務型數據庫提供,并且經過長時間的發展,其 SQL 標準,以及ACID 特性的穩定性和可靠性變得更高。但 MPP 數倉僅能處理結構化數據,無法處理半結構化和非結構化數據。 性能層面,MPP 數倉采用無共享存儲架構,各計算節點都有獨立的存儲節點,因此并行處理和擴展能力更好,能夠滿足大數據量(GB 或 TB 級)下的高并發、高性能需求,并且其可擴展性相比共享存儲架構有了較大提升。但當集群擴展到數百節點時,MPP 數倉依然會出現性能瓶頸,擴容成本同樣不菲。 第三代分析型數據庫數據湖 以 Hadoop 為代表的數據湖出現在 20
15、05 年之后。在該階段,由于互聯網的興起,企業需要處理的數據呈現出多類型、大規模的特點。一方面,數據類型除了包含大量結構化數據,為包含了各類半結構化數據(如 CSV、XML、日志)、非結構化數據(如文檔、圖片、音頻、視頻)。另一方面,數據量從 GB 或 TB 級進一步提升至 TB 或 PB 級。與此同時,企業的數據分析的應用場景已經變得更加豐富,除了傳統的數據查詢、固定報表,也出現了大量面向業務監測和洞察的自助式分析,并且出現了一定的實時性數據分析場景。 技術架構層面,為了承載對大量結構化、半結構化、非結構化數據的存儲與處理,Hadoop 體系使用 HDFS 做數據存儲,可以靈活地以低成本存儲
16、任意類型的原始數據,使用 Mapreduce、Spark 等引擎做大數據計算。隨著Hive、SparkSQL 等大數據組件的出現,企業可以基于 Hadoop 實現數據倉庫(SQL-on-Hadoop)的功能,即 北京愛分析科技有限公司 014 將數據湖的數據經過 ETL 到數據倉庫,以支持 BI 等應用。與此同時,Storm、Flink 等流處理引擎,也能夠一定程度滿足企業實時數據處理的需求。盡管 2015 年后,云服務商提供的對象存儲如 AWS S3 大量取代私有部署的HDFS,存儲成本降低很多,但基于數據湖的大數據架構基本沒有改變。 圖 3:數據湖架構 功能層面,由于數據湖中各種類型數據都
17、是按原樣存儲,采用分析時寫入 Schema(schema-on-read)的模式,因此數據湖的 SQL 標準、ACID 特性支持較差,其數據版本控制和索引功能也不足,并且 Hive 本身不支持單條記錄的修改,這些原因導致數據湖難以取代 MPP 數倉對結構化數據的處理能力。 性能層面,SQL-on-Hadoop 在軟件上實現了存儲節點和計算節點的互相獨立,可以分別獨立擴展,因此其節點可以擴展至數千規模。由于實踐中,企業部署 Hadoop 主要還是基于物理機,在硬件層面,其計算與存儲資源仍然是綁定的。 第四代分析型數據智能湖倉 當前企業數據分析與應用需求的變化趨勢 在解析第四代分析型數據庫在技術架
18、構、功能和性能層面的特征之前,我們需要首先了解近年來數據分析的應用場景、數據以及計算環境等方面發生的重大變化趨勢,以及現有的分析型數據庫在應對這些變化時的主要缺陷。 北京愛分析科技有限公司 015 首先,企業數據分析的應用場景變得更加廣泛。數據正在成為業務創新的核心,基于數據分析,企業可以預測客戶行為、提供個性化的客戶體驗、預測市場趨勢、制定業務戰略等,從而提高企業的競爭力。與此同時,數據分析門檻的降低使得企業內部越來越多的業務人員成為數據消費者,并向“人人都是分析師”的方向演進。 在這樣的背景下,企業內部的數據分析與應用數量急劇增長,除了傳統基于結構化數據的 BI 應用,實時數據處理與分析的
19、需求在快速增加。與此同時,大量的創新性的 AI/ML 應用層出不窮。根據愛分析預測,頭部企業潛在 AI/ML 應用場景數量最多可達到 5000 到 10000 例,中長尾企業的 AI/ML 應用場景數量可達到 100 到 1000例。 圖 4:企業潛在 AI/ML 應用場景數量 測算邏輯: 場景指人工智能技術能夠應用的最小單點應用,如點餐 APP 智能推薦,潛在應用場景通過(企業內部系統數)*(每個系統中可以應用人工智能替換人工操作或規則模型數量)進行估算 北京愛分析科技有限公司 016 表 2:重點行業典型數據智能創新應用場景 其次,企業的總數據量以及實時數據正在以前所未有的速度爆發式增長。
20、隨著互聯網的深入發展,以及云、5G等基礎設施的成熟和興起,大規模的應用程序、移動設備、邊緣設備的聯網導致數據規模激增,大量企業需要處理數據量將達到 PB 級,甚至更高。根據 IDC 的數據,到 2025 年全球數據總量將達到 175ZB,而其中有超過25%為實時數據。 北京愛分析科技有限公司 017 圖 5:2025 年全球數據總量及構成 最后,企業業務和分析系統上云正在加速。隨著企業的業務系統、分析系統在往云端逐步遷移,其數據分析系統也因此在云端進行部署,以充分利云的可擴展性和相關技術資源。根據 IDC 的數據,到 2025 年全球 49%的數據將存儲在公有云中。盡管國內市場由于政策監管、企
21、業接受度等原因,國內企業上云步伐不如國外激進,但長期而言,這一趨勢不會改變。 傳統分析型數據庫應對當前需求的主要缺陷 在實踐中,大量企業還在使用傳統的數據倉庫和基于數據湖的大數據解決方案,并且很多企業內部有多套數據系統并行,滿足不同的數據分析需求。但由于諸多原因,這些解決方案通常存在以下主要的缺陷: 存儲計算資源難以彈性擴展,制約了大數據量下數據分析的性能和速度。無論是 MPP 數倉還是本地部署的Hadoop 大數據解決方案,其存儲和計算資源都是耦合的。這種設計通常會導致存儲資源冗余而計算資源不足,擴展成本高,并且節點擴展會存在上限。面對大數據集,企業可能需要花費數小時或者更長時間來查詢數據,
22、從而限制了大數據分析的性能和速度。 缺乏優化的性價比,資源消耗大、成本高。一方面,在數據湖加數倉的兩層架構中,數據會首先被 ETL 到數據湖中,之后再被 ETL 到數倉中,這會在系統中引入額外的復雜性,不僅需要付出大量的 ETL 作業成本,并且將數據從數據湖復制到數倉中也會需要支付兩倍的存儲成本。另一方面,由于數倉使用的是專有數據格式,將這些數據或工作負載遷移到其他系統也會產生額外的成本。 對人工智能和機器學習等高級分析的支持不足。當前流行的 TensorFlow、PyTorch 和 XGBoost 等機器學習系統很難在現有分析型數據庫之上高效運行,因為這些系統從數倉或數據湖中讀取大型的數據集
23、時需要寫非常復雜 北京愛分析科技有限公司 018 的非 SQL 代碼,并且數據湖本身缺少數倉豐富的數據管理能力,如 ACID 特性、數據索引、數據版本控制等,進一步加大了讀取數據的難度。 系統架構復雜,穩定性差,管理和維護成本高。企業在過往多年的發展中,由于技術能力、資源、制度流程等多種因素的限制,采取了很多臨時的數據方案。一方面,企業會在原有數倉和大數據系統中,根據需求不斷做升級、打補丁。另一方面,由于數據倉庫和數據湖都存在各自的不足,為了滿足不同的數據處理與分析需求,企業經常會建立獨立的系統來處理數據,例如單獨建立的數倉、數據湖、流數據處理平臺等。這些因素導致企業實際的數據系統架構非常復雜
24、,技術債務累計,系統的管理和維護成本非常高。 圖 6:典型多套系統并行的企業數據平臺 第四代分析型數據庫“智能湖倉”的誕生 通過分析近年來數據分析的應用場景、數據以及計算環境等方面發生的變化,以及現有的分析型數據庫在應對這些變化時的主要缺陷,我們認為,下一代的分析型數據庫必然會朝著增強分析性能、提升易用性、降低使用成本的方向發展。 在這樣的技術趨勢下,Databricks 于 2016 年推出 Delta Lake,旨在在數據湖上支持類似 DBMS 的數據管理功能,而隨著 Databricks 于 2020 年率先在業內提出 LakeHouse 的概念,智能湖倉由此開始興起。 在國外市場,Sn
25、owflake 推出了數據云產品,在其云上數據倉庫的基礎上增加了數據湖的功能。亞馬遜云科技基于 Amazon S3 構建數據湖,繞湖集成數據倉庫、大數據處理、日志分析、機器學習數據服務實現智能湖倉。在 北京愛分析科技有限公司 019 國內市場,公有云廠商如華為云、阿里云,新銳數據庫廠商如滴普科技也于近年推出智能湖倉產品,并收獲了一批行業頭部客戶。 圖 7:智能湖倉架構 智能湖倉在技術架構、功能和性能層面主要具備以下主要特征: 通過元數據層在數據湖上實現數據管理功能。智能湖倉使用標準文件格式(如 Parquet)將數據存儲在對象存儲中,并在對象存儲上構建元數據層,從而在元數據層實現諸如 ACID
26、 事務處理、版本控制等數據管理功能,使得多種計算引擎可以共享統一的數據存儲。同時,通過對緩存、輔助數據結構(如索引、統計信息)和數據布局進行優化,智能湖倉也具備了良好的 SQL 性能。 流批一體,簡化系統架構。智能湖倉可以實現批處理與流處理的統一,通過 CDC(Change Data Capture)將業務系統數據實時抽取到數據湖,實時加工后傳輸至 OLAP 系統中對外服務,實現端到端過程的分鐘級時延。與此同時,系統架構得到簡化,大幅降低了系統維護以及數據開發工作的難度。 云原生、存算分離?;谠圃軜?,智能湖倉存儲和計算資源得到有效分離,企業可以基于需求靈活地對存儲和計算資源進行分別擴展,
27、且擴展需求幾乎沒有限制,從而實現對大規模數據查詢與分析的高性能,并顯著降低TCO(Total Cost of Ownership)。 北京愛分析科技有限公司 020 中國分析型數據庫 市場規模 北京愛分析科技有限公司 021 3. 中國分析型數據庫市場規模 中國分析型數據庫市場發展的驅動因素 近期因素:企業數據處理與分析需求升級 分析型數據庫市場發展的近期驅動因素是企業的數據處理與分析需求的升級。面對新的數據處理與分析需求,企業原先的數據系統存在諸多限制,因此需要對分析型數據庫的功能也進行相應升級,這些需求包括: 超大規模結構化數據的查詢:滿足對百萬甚至千萬級表單數據查詢的的高性能; 實時數據
28、處理:滿足大規模實時數據處理的需求; AI/ML 應用:提供大規模 AI/ML 應用開發的數據讀取和相關功能支持; 統一存儲與分倉隔離:解決數據孤島問題,并針對不同業務需求進行數倉建設; 現有系統架構運維復雜:現有數據平臺多個系統并行,管理和運維成本高。 受產業特性、行業和企業發展階段,企業數字化程度等因素影響,國內企業在實踐中對上述因素的需求程度存在較大差異。對此,我們對多個行業企業的相關需求進行了調研,發現金融、能源、先進制造、零售等行業企業目前存在多個顯著的數據處理與分析需求升級因素。 北京愛分析科技有限公司 022 圖 8:重點行業數據處理與分析需求升級因素 遠期因素:分析型數據庫全面
29、迭代 企業對分析型數據庫的功能升級需求,近期內會存在沿用傳統的數據倉庫或數據湖進行功能升級,以及采用全新智能湖倉兩種路徑。長期來看,我們認為,未來的企業都會是高度數字化的,在需要處理的數據規模以及數據分析場景廣泛性方面也都會趨于統一,企業都需要構建統一數據存儲與計算底座,而傳統的分析型數據庫由于自身的種種局限性,將會逐漸被智能湖倉取代,企業將完成分析型數據庫的全面迭代。 北京愛分析科技有限公司 023 圖 9:未來企業的數據平臺架構 中國分析型數據庫市場規模與增速 分析型數據庫包括了數據倉庫、數據湖以及智能湖倉,因此,分析型數據庫的市場規模為這三者的市場規模之和。 根據 IDC 的數據,202
30、1 年,中國數據倉庫市場規模為 87.1 億元人民幣,大數據平臺軟件市場規模為 162.8 億元。其中,IDC 定義的大數據平臺的存儲計算引擎包含了數據湖和智能湖倉兩類。因此,可以認為 2021 年中國分析型數據庫的市場規模為當年數據倉庫與大數據平臺市場規模之和,為 249.9 億元。 同時,根據 IDC 的預測數據,到 2024 年,中國數據倉庫市場規模為 168.5 億元,中國大數據平臺軟件市場規模為 352.9 億元。綜上數據,預計 2024 年,中國分析型數據庫市場規模將達到 521.4 億元,復合增長率 CAGR 為27.7%。 智能湖倉在未來將逐步替代傳統的數據倉庫和數據湖,其潛在
31、可觸達的市場即為整個分析型數據庫的市場。作為下一代分析型數據庫,智能湖倉能夠直接在數據湖的低成本存儲上實現類似數據倉庫的數據結構和數據管理功能,從而兼具了傳統數據倉庫與數據湖的數據存儲與計算能力,在功能、性能、成本等方面具備顯著優勢。因此,我們認為長期來看,隨著企業數據量的進一步增長,分析場景的更加豐富,智能湖倉將逐步替代傳統的數據倉庫和數據湖,其潛在可觸達的市場規模即為數據倉庫與大數據平臺軟件的市場規模之和。 北京愛分析科技有限公司 024 圖 10:中國分析型數據庫市場規模及增速 測算邏輯補充: 1. 數據倉庫和大數據平臺軟件市場規模數據都包含了本地部署和云端部署兩種模式。 2. 大數據平
32、臺軟件還包括了數據開發、數據資產管理、平臺監控管理等運營管理工具。由于數據湖或智能湖倉廠商通常也會提供這些軟件服務,因此可以認為大數據平臺軟件市場規模屬于這類廠商能夠觸達的市場規模。 北京愛分析科技有限公司 025 分析型數據庫廠商 關鍵競爭要素 北京愛分析科技有限公司 026 4分析型數據庫廠商關鍵競爭要素 分析型數據庫市場參與者眾多,為了更準確地判斷市場格局,理解主要廠商的競爭優勢,我們從五個維度梳理了分析型數據庫廠商關鍵競爭要素,包括:廠商背景、自研能力、技術架構、商業模式、行業落地。 廠商背景:團隊背景和產品定位 廠商背景能夠反映廠商在相關領域的底蘊、研發實力、發展策略等,主要關注成立
33、時間、團隊背景、產品定位等信息。 廠商成立的時間較早一般意味著其在數據庫市場有較深厚的積累,這類廠商有著較高的市場知名度,產品通常成熟穩定,服務的客戶數量也較多,而近年來新成立的廠商通常在產品技術層面有較大創新,能夠滿足企業快速變化的數據處理需求。 團隊背景反映的是廠商在數據庫產品方面的技術積累和研發經驗,頭部數據庫廠商的核心團隊成員通常來自國內外老牌數據庫大廠、公有云廠商,或者頂尖院校。 產品定位則反映廠商在分析型數據庫領域產品能力、服務客群、服務范圍等。 技術架構:技術路線和場景適用能力 廠商的分析型數據庫產品采用不同的技術架構,代表了其技術路線和場景適用能力的不同。目前市場上主流廠商提供
34、的分析型數據庫包括了前文所述的第二代到第四代,即 MPP 數據倉庫,數據湖(基于 Hadoop 生態)以及智能湖倉。 北京愛分析科技有限公司 027 表 3:不同技術架構分析型數據庫關鍵指標 自研能力:完善功能、提高穩定性、保障安全性 自研能力較強的廠商能夠掌握分析型數據庫的核心代碼,從而在數據庫的功能迭代和管理運維方面提供原廠級服務,具備較強的競爭優勢。廠商掌握核心代碼可以從源頭解決軟件的核心問題,一方面,廠商因此可以主導產品的功能迭代,并針對不同客戶的個性化需求做定制化功能;另一方面,廠商可以在網絡存儲計算資源、安全管控等方面做更深的優化,提供原廠級的數據庫管理運維工具,以提升數據庫的性能
35、,并使得數據庫具備更高的穩定性和安全性。 分析型數據庫廠商的自研能力包含兩種方式,即自研數據庫內核或基于開源技術做源碼級改造并回饋開源社區。自研數據庫內核的在數據倉庫廠商中較常見,但國內外主流數據湖和智能湖倉廠商通常都是基于開源技術做二次開發。例如,智能湖倉廠商主要基于 Netflix 開源的 Iceberg 或 Uber 開源的 Hudi 做商業化版本產品,典型廠商產品如基于 Iceberg 的滴普 FastData、基于 Hudi 的華為 MRS、基于 Flink+Iceberg 的網易 Arctic 平臺等。盡管 DataBricks 目前已經開源了其 Delta Lake,但 Data
36、Bricks 之外,市場上暫無主流的相關商業化版本產品。 北京愛分析科技有限公司 028 圖 11:分析型數據庫廠商自研方式、目標與價值 基于開源技術做二次開發,廠商能持續給開源社區做貢獻,并在開源社區的具備較高技術影響力是關鍵。廠商對源代碼的更改如果不被主流社區接納,其產品技術與存在與主流社區脫節,產品穩定性不足的風險。 因此,對于分析型數據庫廠商,尤其是智能湖倉廠商,我們應重點關注其與開源社區的聯系緊密度,以其在開源社區的技術影響力,只有廠商對開源技術的二次開發能持續回饋到主流社區,在主流社區建立較領先的地位,并可以一定程度上影響開源社區的技術發展路徑,才可以被認為具備較強的自研能力。 商
37、業模式:提供數據平臺全棧產品和服務 商業模式層面,國外廠商以提供數據庫產品為主,而在國內市場,由于企業的數字基礎建設整體上較落后,企業通常需要廠商提供出數據庫產品之外,搭建數據平臺所需的工具組件,以及相關實施和咨詢服務。 國內廠商依據不同分類,其商業模式也有相應差異。傳統的數據庫廠商通常只為企業提供數據庫產品,以及數據庫運維工具和部署服務;大數據解決方案提供商,包括數據湖或智能湖倉廠商除了提供數據庫產品,通常也會提供包括數據開發、數據治理、數據資產管理等搭建數據平臺所需的工具組件,以及針對數據平臺搭建的實施和咨詢服務。這其中,廠商間的主要差異在于,各廠商的數據平臺相關的工具組件數量和功能完善度
38、存在一定區別,受限于服務過的客戶范圍和經驗積累,其實施和咨詢服務的效率和體驗也存在優劣之分。 北京愛分析科技有限公司 029 我們建議重點關注能夠提供完善數據平臺全棧產品,以及實施和咨詢服務經驗豐富的廠商,這類廠商通常能滿足更多類型的客戶需求,獲得更多的市場份額。此外,公有云廠商在商業模式也存在一定特殊性,這類廠商雖然也能提供數據平臺相關的產品、實施和咨詢服務,但其側重點在于為企業提供云端部署的標準化數據庫產品,且其通常會將數據庫產品與自家云基礎設施服務綁定銷售,定制化服務通常只面向行業大客戶。 圖 12:分析型數據庫廠商典型商業模式 行業落地:在行業領域的經驗積累 分析型數據庫在行業的落地情
39、況反映的是廠商的產品技術能力得到行業客戶的驗證程度,以及在行業領域的經驗積累情況。不同行業企業由于其所需處理數據量、數據類型、分析場景存在差異,其對分析型數據庫的功能、性能、成本等方面的要求也各有不同。例如金融、能源等行業頭部企業通常都有著 PB 級超大規模的數據,需要數據庫具備千萬級單表查詢的高性能,對數據的實時處理能力要求也很高,因此,分析型數據庫廠商如果能獲得較多金融、能源行業頭部客戶的使用,意味著廠商在超大規模數據的計算查詢、實時數據處理層面具備很好的性能表現,且數據庫產品穩定性較高;而零售行業企業存在大量探索性的分析場景,且對數據存儲與處理的成本較敏感,因此,廠商如果積累了較多零售行
40、業企業,則說明其在零售領域有較深的行業理解,能滿足這類企業個性化的分析場景的需求,且產品具備較高的性價比。 北京愛分析科技有限公司 030 分析型數據庫市場 競爭格局 北京愛分析科技有限公司 031 5分析型數據庫市場競爭格局 分析型數據庫市場參與者眾多。在幾十年的發展歷程中,分析型數據庫已經經歷過四代演進,傳統數據庫廠商通過不斷迭代產品滿足用戶需求,依然是該市場中的主要參與者。近年來,隨著數據成為企業最重要的生產要素,企業對數據存儲與處理變得更加復雜,國內外市場中涌現出了一批新銳的數據庫廠商,他們在產品設計上采用了最新一代湖倉一體的的架構設計,而各大公有云廠商也推出了面向多種應用場景的分析型
41、數據庫產品。 圖 13:國內外分析型數據庫市場代表廠商 注:部分最近幾年新成立的數據庫廠商,主推傳統 MPP 數倉或數據湖產品,同樣歸為傳統數據庫廠商。 由于公司底蘊,技術路線等原因,不同類型廠商在產品技術能力、商業模式、客戶積累等方面存在諸多差異,因此具備相應的優勢與不足。 傳統數據庫廠商 傳統數據庫廠商包含兩類,一類主要提供傳統的 MPP 數倉,另一類主要提供基于 Hadoop 生態的數據湖服務。這類廠商很多都有著悠久的歷史,甚至伴隨著幾代數據庫的發展至今,如 Oracle、Teradata 等。 優勢 穩定性和安全性高。成立時間較久的傳統數據庫廠商,其產品經過長期的打磨迭代,已經得到大量
42、客戶的使用和驗證,因此其通常具備很高的穩定性和安全性。例如,Cloudera 基于 Hadoop 生態先后推出了大數據平臺CDH 和 CDP,尤其目前的發行版產品 CDP 在計算引擎、多種分析功能、管理工具、資源調度等方面都做了大量 北京愛分析科技有限公司 032 深度優化,并且 Cloudera 在全球有 700 多名研發工程師,能保證用戶獲得穩定的使用體驗。同時,借助共享數據體驗技術(SDX)、CDP 中的安全和治理功能,CDP 能夠實現不同云上企業數據安全、隱私和合規的一致性。 客戶基礎好。在分析型數據庫開始興起的早期,一些傳統數據庫廠商憑借領先的產品和技術,完善的管理工具和服務,占據了
43、大量市場份額,并一致延續到現在。以 Oracle 為例,在國內市場,大量金融、電信等行業企業至今還在使用基于 Oracle 數據庫構建的數據倉庫。而在國外市場,大部分世界 500 強,以及更多中小型企業也是Oracle 的用戶。隨著分析型數據庫的技術發展,Oracle 也不斷與時俱進,推出了云數倉產品 Oracle ADW,從而滿足更多客戶的需求。 不足: 技術架構傳統。傳統數據庫廠商通常都是沿用原先的技術架構,針對新的功能需求做技術升級和大補丁,由此會造成系統架構越來越復雜,管理和運維成本高。同樣以 Cloudera CDP 為例,盡管最新版的 CDP 已經在混合云和多云部署、存算分離、多功
44、能分析做更多的支持,但 CDP 依然沿用了 Hadoop 生態體系的技術,目前 CDP中已經包含了多達 39 個開源項目,涵蓋存儲、計算、流處理、編排、SQL、NoSQL 等多種組件,這樣的系統架構非常復雜,管理維護成本高。同時,這種傳統架構對一些新的功能支持不足,例如,不支持數據庫之上提供完整的數據鏈路等。 新銳數據庫廠商 優勢 技術架構先進、滿足多種分析場景。新銳數據庫廠商在技術架構上很多采用了全新一代的設計,包括了湖倉一體、流批一體、云原生等,并且對存儲計算引擎做了大量優化,能夠以低成本、高性能滿足企業的多種分析需求。 以滴普科技為例,其智能湖倉產品 FastData 底層采用了統一的數
45、據存儲,通過統一技術元數據層實現完善的數據管理能力,并對接各類分析引擎,滿足企業對多模數據統一存儲與處理,以及批處理、流式計算、交互式分析、機器學習等各類分析需求。同時,FastData 采用流批一體架構,能夠實現 PB 級數據秒級實時分析。 不足 客戶接受度有待提升。新銳數據庫廠商在產品技術層面具備領先優勢,但企業用戶對新一代的分析型數據庫的接受度還有較大提升空間。一方面,大中型企業通常數字化程度較高,它們在傳統的數倉、數據湖建設上已經有了 北京愛分析科技有限公司 033 較大投入,其數據平臺中已經有了大量的業務應用和 ETL 任務,直接遷移的工作量和成本非常高。因此,目前企業通常都是出現大
46、量新的數據存儲和處理需求的時候,才會引入智能湖倉。另一方面,區別于國外企業對于上云的激進步伐,國內企業整體上上云步伐較慢,很多企業目前還是采用本地部署的模式,難以發揮云原生帶來的敏捷、彈性、低成本等多種優勢。 公有云廠商 優勢 產品類型豐富、滿足多種應用場景。公有云廠商通常會提供多種類型的分析型的數據庫,滿足企業各類分析需求。以阿里云為例,其分析型數據庫產品包括云原生數據倉庫 AnalyticDB MySQL 版、AnalyticDB PostgreSQL 版,實時數倉 Hologres、大數據計算服務 MaxCompute、基于 Hadoop 的大數據平臺 E-MapReduce,智能湖倉
47、Data Lake Formation。 不足 銷售綁定云服務,缺少中立性。公有云廠商在 IaaS、PaaS 和 SaaS 層提供了豐富的產品和服務,其在銷售數據庫產品時,通常會綁定其 IaaS 層的存儲、計算資源、以及相關的運維服務,這會降低企業的選擇范圍,增加使用成本。 服務能力不足。公有云廠商的業務重點是在云端為企業用戶提供標準化的產品,而國內大量企業目前還傾向使用私有化部署的模式,應對這類需求,公有云廠商通常會與生態合作伙伴合作,將實時部署服務外包,缺乏原廠服務會造成項目質量參差不齊。此外,對于部分企業的定制化功能需求,公有云廠商通常也難以滿足。 分析型數據庫典型產品分類 重點關注國內
48、提供新一代分析型數據庫的廠商。一方面,由于廠商底蘊、定位等方面的不同,國內外很多廠商會提供多種類型的分析型數據庫產品,我們認為新一代架構的分析型數據庫產品智能湖倉在處理大規模數據,支持多種分析場景方面具備領先的優勢,未來將會逐步成為分析型數據庫市場的主流。另一方面,由于信創政策的影響,國內企業,尤其是金融、電信、能源等國有企業在應對未來分析型數據庫升級需求時,基本都會選擇國內廠商的相關產品。 北京愛分析科技有限公司 034 圖 14:國內外分析型數據庫典型產品分類 北京愛分析科技有限公司 035 國內代表廠商分析 北京愛分析科技有限公司 036 6國內代表廠商分析 南大通用 GBase 南大通
49、用自 2004 年成立以來,專注于數據庫軟件的自主創新,保持產品核心技術和底層代碼自主可控,旗下分析型數據庫和交易型數據庫產品完全依靠自研,2014 年通過引進 Informix 數據庫源代碼推出了高端事務型數據庫,逐步形成全技術棧的數據庫產品和服務。 圖 15:南大通用 GBase8a 發展大事記 技術架構層面,南大通用核心產品 GBase 系列數據庫隨著客戶需求場景的更迭,發展出多種架構來支持不同的業務需求。其中面向數據分析市場的,主要是分析型數據管理系統 GBase 8a 和統一數據平臺 GBase UP。GBase 8a 以大規模并行處理、列存儲,高壓縮和智能索引技術為基礎,具有滿足各
50、個數據密集型行業日益提高的數據分析、數據挖掘、數據備份和即席查詢等需求的能力。最新的超大規模集群版本 GBase 8a MPP Cluster單個集群支持部署 300 個以上的數據節點,整套集群可處理 15PB 以上數據。 GBase UP 是融合自有 MPP 數據庫、事務型數據庫和開源 Hadoop 生態系統的大數據平臺產品,兼顧大規模分布式并行計算、穩定高效的事務處理,以及 Hadoop 的多種結構化與非結構化數據處理技術,能夠適應 OLAP、OLTP 和 NOSQL 三種計算模型的業務場景。 商業模式層面,南大通用通過構筑產品上下游生態體系提升市場競爭力,將自身數據庫產品與國內云平臺、操