《2022年國產數據庫產業發展空間機遇及廠商梳理分析報告(48頁).pdf》由會員分享,可在線閱讀,更多相關《2022年國產數據庫產業發展空間機遇及廠商梳理分析報告(48頁).pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、2022 年深度行業分析研究報告 2 正文目錄正文目錄 產業概覽:關系型數據庫占主流,分布式時代加速到來產業概覽:關系型數據庫占主流,分布式時代加速到來.3 產業復盤:變革與數據需求相協同,發展邁入后關系型階段.4 按數據結構分類:關系型、NoSQL、NewSQL.5 按架構模型分類:集中式架構、分布式架構.7 按業務負載分類:OLAP、OLTP、HTAP.8 發展趨勢:數據、計算雙重變化加速分布式數據庫時代到來.9 競爭格局:海外數據庫先發優勢突出,國產數據庫快速發展.12 國產國產數據庫:產業機遇明朗,國產品牌迅速成長數據庫:產業機遇明朗,國產品牌迅速成長.14 技術沉淀疊加信創需求,國產
2、數據庫迎來黃金發展期.14 關系型數據庫占主流地位,市場競爭格局初顯.16 初創廠商不斷涌現,數據庫產業體系日益完善.18 各路資本積極入局,國產數據庫市場空間廣闊.21 廠商梳理:海外廠商、國產廠商各具優勢廠商梳理:海外廠商、國產廠商各具優勢.22 海外廠商:云數據庫是主要方向,傳統龍頭與新興廠商并駕齊驅.22 Oracle:傳統數據庫龍頭,加速云數據庫轉型.23 Microsoft:兼顧本地、云端兩大數據庫應用場景.25 MongoDB:NoSQL 典型代表,提供文檔型數據庫服務.27 SAP:專注企業業務流程管理,提供內存數據庫產品.28 AWS:把握分布式浪潮,提供多類型云數據庫產品.
3、29 Snowflake:提供數據倉庫、數據湖等多種產品.31 Databricks:Lakehouse 概念,幫助客戶構建統一分析平臺.33 國產廠商:傳統廠商積淀深厚,新興廠商聚焦新興技術.34 達夢數據:背靠中國電子,主攻混合型數據庫 HTAP.34 人大金倉:背靠 CETC 中國電子科技集團,老牌數據庫.36 阿里 OceanBase:金融級分布式關系數據庫,核心代碼開源.38 華為 GaussDB:AI 原生數據庫,擁抱開源生態.40 巨杉數據庫:自研金融級分布式數據庫的獨立廠商.42 PingCAP TiDB:開源分布式關系型數據庫.45 星環科技:專注企業級大數據服務,布局分布式
4、數據庫.46 3 產業產業概覽概覽:關系型數據庫占主流,關系型數據庫占主流,分布式時代分布式時代加速加速到來到來 數據庫數據庫是信息系統運行的關鍵基礎是信息系統運行的關鍵基礎。從定義來看,數據庫是按照一定的數據結構組織、存儲和管理數據的倉庫,在計算機中一般由一個或者一組文件構成;從本質來看,計算機解決的是數據計算和數據處理問題,數據庫則是計算機應用系統中的專門管理數據資源的系統;從架構上看,數據庫作為計算機三大基礎軟件(操作系統、數據庫、中間件)之一,向下可充分發揮硬件算力,向上支撐上層的應用需求,是信息系統高效運行的關鍵基礎。圖表圖表1:數據庫是信息系統運行的關鍵基礎數據庫是信息系統運行的關
5、鍵基礎 資料來源:中國分布式數據庫市場報告,沙利文(2021)、華泰研究 數據庫數據庫軟件軟件的核心是的核心是數據庫管理系統數據庫管理系統。數據庫作為基礎軟件,可面向多種應用,被多個用戶、程序共享,其中數據庫管理系統(DataBase Management System,DBMS)負責搭建、處理、維護數據庫的數據及數據間邏輯關系,由外部組件集與內核組件集共同組成:1)外部組件集外部組件集:以數據庫配套的獨立支撐軟件為主,例如數據庫驅動;2)內核組件集內核組件集:一般可以分為管理組件、網絡組件、計算組件、存儲組件四大模塊。圖表圖表2:數據庫數據庫管理系統總體管理系統總體架構圖架構圖 資料來源:中
6、國數據庫發展研究報告,中國信通院(2021)、華泰研究 4 產業復盤:變革與數據需求相協同,發展邁入后關系型階段產業復盤:變革與數據需求相協同,發展邁入后關系型階段 自 20 世紀 60 年代以來,數據庫行業隨信息技術發展而快速演變,主要經歷了三大階段:1)前關系型階段(前關系型階段(1964-1970):):1964 年查爾斯 巴赫曼(Charles Bachman)開發出第一個數據庫管理系統,網狀數據管理系統 IDS(Integrated Data Store)初步成型;隨后為解決阿波羅登月計劃所需的大量數據,1968 年 IMS(Information Management System
7、)系統作為最早商業化的 DBMS 正式發布;此階段數據庫主要解決了數據獨立存儲、統一管理、統一訪問的問題,實現了數據與程序分離,但缺乏被廣泛接受的理論基礎;2)關系型階段(關系型階段(1970-2008):):1970 年,員埃德加 科德(Edgar F.Codd)發表大型共享數據庫的數據關系模型,關系型模型理論被初步提出;隨后關系型數據庫(Relational Database Management System,RDBMS)誕生,國際標準組織將 SQL 作為國際數據庫標準語言,并進行標準化,SQL 成為關系型數據庫主流語言并引領變革,Access、MySQL、PostgreSQL 等大批關
8、系型數據庫誕生,帶動關系型數據庫完成了從理論到實踐的轉換;3)后關系型階段(后關系型階段(2008-至今):至今):隨著 Web 2.0 的到來,數據量出現指數增長,傳統關系型數據庫無法有效對應日新月異的數據類型及業務場景,為更有效地處理海量數據,應對多樣的數據結構,NoSQL、NewSQL 等非關系型數庫脫穎而出,數據庫邁入第三發展階段。圖表圖表3:數據庫數據庫產業產業發展進入后關系型發展進入后關系型數據庫數據庫階段階段 資料來源:中國數據庫發展研究報告,中國信通院(2021)、華泰研究 根據數據結構、架構模型、業務負載特征的不同,數據庫可劃分為不同類別。根據數據結構、架構模型、業務負載特征
9、的不同,數據庫可劃分為不同類別。為了更清楚的了解數據庫之間的特性差異,數據庫產品可依照不同標準進行分類,常見的分類依據包括數據結構、架構模型、業務負載特征、部署方式等,其中數據結構類型是最常用的標準。1)根據數據結構類型:)根據數據結構類型:可分為關系型數據庫、NoSQL 數據庫、NewSQL 數據庫;2)根據架構模型:)根據架構模型:可分為集中式數據庫、分布式數據庫;3)根據業務負載特性:)根據業務負載特性:可分為 OLAP 數據庫(分析型數據庫)、OLTP 數據庫(事務型數據庫)、HTAP 數據庫(混合型數據庫)。5 按數據結構分類:關系型、按數據結構分類:關系型、NoSQL、NewSQL
10、 數據庫數據庫的的數據結構數據結構類型類型隨存儲需求變化而不斷拓展。隨存儲需求變化而不斷拓展。最早的數據存儲需求主要來源于結構化數據,因此數據庫產品多采用關系型架構,主流產品包括:Oracle、MySQL、PostgreSQL等;2000 年以后隨著互聯網應用的快速普及,產生大量非結構化數據的存儲需求,NoSQL數據庫快速興起,主流產品包括 Redis、MongoDB 等;后來為解決 NoSQL 數據庫缺乏強一致性及事務支持的問題,NewSQL 數據庫逐步發展,主流產品包括:Spanner、TiDB 等。圖表圖表4:數據庫數據結構類型隨存儲需求變化不斷拓展數據庫數據結構類型隨存儲需求變化不斷拓
11、展 資料來源:IDC、華泰研究 1)關系型數據庫)關系型數據庫 關系型數據庫關系型數據庫是由多個二維表所組成的集合是由多個二維表所組成的集合。關系型數據庫,是指采用了關系模型來組織數據的數據庫,數據以行和列的形式進行存儲,這一系列的行和列被稱為表,一組表組成了數據庫。表格之中每一行通過獨有的主碼(Primary Key)來區分彼此,每一列都擁有統一的數據類型,外碼(Foreign Key)通常與主碼(Primary Key)一起使用,用于建立表與表之間的聯系,通過匹配外碼以尋找相應的行。圖表圖表5:關系型數據庫典型架構關系型數據庫典型架構 資料來源:IDC、華泰研究 關系型數據庫具備關系型數據
12、庫具備 ACID 特性,為主流數據庫類型。特性,為主流數據庫類型。關系型數據庫嚴格遵循原子性 Atomicity、一致性 Consistency、隔離性 Isolation、持久性 Durability(以上簡稱 ACID 特性),在維護數據庫完整性、數據一致性方面優勢突出,適用于對數據安全性、事務支持高度要求的應用場景。1)原子性:)原子性:為避免不同指令之間的沖突,數據庫中的事務執行被視為原子不可再分,指令要么全部成功執行,要么失敗而保持原狀;2)一致性:)一致性:為確保業務邏輯一致性,數據庫設置約束與觸發器保證數據庫完整性,任何事務看到的數據總保持一致;3)隔離性:)隔離性:數據庫通過加
13、鎖,保證事務之間相互隔離,從而避免臟讀、幻讀等;4)持久性:)持久性:為避免數據庫丟失等意外事故,數據庫所有指令都將會被永久保存,不會被回滾。6 2)NoSQL(Not Only SQL)數據庫)數據庫 NoSQL 數據庫嘗試解決關系型數據庫的數據庫嘗試解決關系型數據庫的擴展可用性擴展可用性缺陷。缺陷。不同于關系型數據庫,NoSQL數據庫只遵守 BASE 模型:基本可用 Basically Avaliable、軟狀態 Soft state、最終一致性Eventual consistency:1)基本可用:)基本可用:當系統出現故障時,NoSQL 數據庫不像關系型數據庫一樣進行強制拒絕,而是允許
14、損失部分可用功能或降低響應速度,以保證核心功能可用;2)軟狀態)軟狀態:在處理數據過程中,允許數據狀態出現暫時不一致的情況;3)最終一致性:)最終一致性:NoSQL 數據庫只追求最終的結果一致,數據處理的過程中暫時不一致將被允許。NoSQL數據庫解決了關系型數據庫剛性架構的拓展性缺陷,NoSQL 的動態架構可實現橫向擴展。NoSQL 數據庫更適用于海量數據的快速讀寫場景。數據庫更適用于海量數據的快速讀寫場景。NoSQL 概念早在 1998 年就已經被Carlo Strozzi 提出,21 世紀初才進入規?;l展階段,主要原因在于 2008 年互聯網進入Web 2.0 時代,大量非結構化數據出現
15、,數據量呈現指數型增長,傳統的關系型數據在非結構化數據處理、海量數據快速讀寫、數據庫擴展等方面的劣勢逐漸暴露,因此,基于 BASE特性的 NoSQL 架構被重新提出并得到快速發展,MongoDB、Redis、HBase 等 NoSQL 數據庫逐步進入大眾視野,并實現了在電商、社交網絡、搜索引擎等領域的應用落地。常見常見 NoSQL 數據庫主要包括數據庫主要包括鍵值型數據庫、列族數據庫、文檔數據庫、圖數據庫:鍵值型數據庫、列族數據庫、文檔數據庫、圖數據庫:(1)鍵值)鍵值型數據庫:型數據庫:適用于內容緩存,如會話、配置文件、參數等。其擴展性高,靈活性好,大量操作時性能高,但數據無結構化,查詢方法
16、單一;(2)列族數據庫:)列族數據庫:適用于分布式數據存儲與管理,將同一列數據存在一起,可擴展性強,查找速度快,復雜性低,但功能局限;(3)文檔數據庫:)文檔數據庫:適用于存儲文檔數據,數據結構靈活,但缺乏統一查詢語法;(4)圖數據庫:)圖數據庫:適用于圖像數據、社交網絡、推薦系統,專注構建關系圖譜,支持復雜的圖形算法,但只能支持一定的數據規模。圖表圖表6:NoSQL 數據庫數據庫分類及分類及典型典型產品產品 資料來源:What is NoSQL?,Matob(2021)、華泰研究 3)NewSQL 數據庫數據庫 NewSQL 數據庫數據庫實現關系型數據庫與實現關系型數據庫與 NoSQL 數據
17、庫的優勢整合數據庫的優勢整合。盡管 NoSQL 數據庫處理數據的速度快,常用于處理海量數據,但 NoSQL 數據庫并不遵守 ACID 原則,無法滿足事務一致性要求。2011 年,Matthew Aslett 提出 NewSQL(可橫向擴展的 OLTP 關系型數據庫)概念,2012 年谷歌公司發布 Spanner 與 F1 論文,用原子鐘和 Truetime API 解決分布式問題,推動 NewSQL 快速發展。NewSQL 架構旨在整合關系型數據庫與 NoSQL 數據庫的優勢:1)保留 NoSQL 數據庫對海量數據處理的速度與可擴展性;2)采用以 SQL 為主要接口的關系數據模型,保持傳統關系
18、型數據庫的 ACID 特性。近年來 NewSQL 數據庫快速發展,主要包括三類發展路徑:1)基于全新的架構設計,代表產品為 Google Spanner、SAP HANA;2)基于分片中間件,代表產品為 ScaleArc;3)基于云服務商的DaaS(database-as-a-service)平臺,代表產品為Amazon Aurora、ClearDB。7 關系型數據庫與非關系型數據庫與非關系型數據庫各有千秋。關系型數據庫各有千秋。對比來看,1)關系型數據庫關系型數據庫:嚴格遵守 ACID原則,具備較強的約束性以及數據完整性,利于數據庫的管理的同時也導致數據庫難以擴展,在業務快速發展的信息時代存
19、在一定的成本劣勢;其二維的數據結構減少了數據的冗余,但讀取海量數據效率不理想;作為傳統數據庫,關系型數據庫發展時間長,技術成熟,學習成本低;2)NoSQL 數據庫數據庫:遵守 BASE 原則,相較于關系型數據庫,更便于擴展,儲存模式簡單,查詢速度更快;但其極高的可用性在一致性上做出了妥協,使用成本較高且不利于管理,相關技術具備較高的成熟度;3)NewSQL 數據庫數據庫:在底層解決了事務一致性問題,并整合了 NoSQL 在可擴展性、可用性上的優勢,但 NewSQL 技術較新,學習成本較高,且目前大多 NewSQL 只適用特定場景,距離普及還需要一定時間。圖表圖表7:關系型數據庫、關系型數據庫、
20、NoSQL、NewSQL 對比對比 資料來源:中國數據庫行業研究報告,艾瑞咨詢(2021)、華泰研究 按架構模型分類:按架構模型分類:集中式集中式架構、分布式架構架構、分布式架構 集中式集中式數據庫指數據庫指將信息存儲將信息存儲、維護在單個位置的數據庫維護在單個位置的數據庫。集中式數據庫利用系統中心的服務器統一管理所有資源,對數據進行集中儲存及管理,并由一臺機器作為服務器。由于集中數據庫的所有數據僅存儲在單個位置,因此在數據訪問、協調、管理方面具有突出優勢,同時相較于其他數據庫成本更低,為大多數企業最開始的選擇。但隨著數據存儲需求的變化,集中式數據庫的缺點逐漸顯現:1)難以擴展:只能通過提升硬
21、件性能實現數據處理性能的提升;2)容災性差:集中式數據庫采用完全共享(Shared-everything)架構,一旦任何環節發生系統故障,整個數據庫系統都將無法使用。常見的集中式數據庫架構,主要包括一主多備、一寫多讀、多寫多讀三類:1)一主多備(備)一主多備(備用不可讀):用不可讀):使用單臺主機模式部署,其他備機為主機備份數據,并在主機宕機的情況下代替主機提供服務;2)一寫多讀:一寫多讀:一個節點提供寫服務,其他多個節點提供讀服務,寫節點宕機時,讀節點可以代替寫節點來提供服務;3)多寫多讀:)多寫多讀:多個計算節點共享存儲,每個節點都提供讀寫服務,同時采用分布式鎖或集中式鎖解決寫沖突。分布式
22、分布式架構架構逐漸成熟,逐漸成熟,主要解決主要解決集中式架構集中式架構擴展性差的問題擴展性差的問題。不同于既重視數據庫統一處理數據的架構,分布式數據庫將數據分散在多個相互連接的節點上,通過使用多臺機器,將需要處理的數據、工作均衡分散到各個節點中,各節點相互連接又能夠獨立工作,節點故障不會對其他節點產生影響。因此,近年來隨業務拓展與數據體量變大,分布式架構成為眾多企業的選擇。分布式數據庫涵蓋兩大核心技術:1)數據的復制)數據的復制/分區:分區:通過復制或分區實現數據的多節點存放,復制包括主從復制、對等復制,分區包括垂直分區、水平分區(即分片);2)分布式事務:)分布式事務:通過機制設計保證分布式
23、環境下事務的 ACID 特性,包括兩階段提交(2PC)、三階段提交(3PC)、最大努力通知等解決方案。8 圖表圖表8:集中式與分布式數據庫對比集中式與分布式數據庫對比 資料來源:集中式數據庫與分布式數據庫,墨天輪(2022)、華泰研究 分布式數據庫技術路線選擇上,都是以解決數據容量擴展問題為首要目標,主流方案包括三類:1)分庫分表)分庫分表+中間件:中間件:下層的單機數據庫提供存儲和執行能力,在多個單機數據庫上封裝一層中間層補充分布式能力,以統一的數據分片規則管理分布在不同數據庫節點的數據;2)共享存儲架構:)共享存儲架構:計算節點獨立并且共享一個不帶計算功能的存儲集群(Shared-stor
24、age),采用存算分離架構,計算層和存儲層都可以動態擴縮容;3)去中心化)去中心化架構:架構:每個節點有獨立的計算和存儲功能,采用存算分離架構,并且節點之間不共享數據(Shared-nothing),分布式集群的每個節點都是獨立節點。圖表圖表9:分布式數據庫主流技術方案分布式數據庫主流技術方案 資料來源:中國分布式數據庫市場報告,沙利文(2021)、華泰研究 按業務負載分類:按業務負載分類:OLAP、OLTP、HTAP OLAP 為分析型數據庫,為分析型數據庫,OLTP 系統系統為事務型數據庫為事務型數據庫。按業務負載類型區分,數據庫大致可以分成兩大類:聯機事務處理 OLTP(On-Line
25、Transaction Processing)、聯機分析處理OLAP(On-Line Analytical Processing):1)OLTP 是傳統的關系型數據庫的主要應用,主要是基本的、日常的事務處理,記錄即時的增、刪、改、查,例如銀行交易;2)OLAP 是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果,典型的應用就是復雜的動態報表系統。9 HTAP(Hybrid Transaction and Analysis Processing)數據庫為融合數據庫為融合 OLTP 與與 OLAP業務的處理系統。業務的處理系統。企業通常通過 OLTP、OLAP
26、兩個系統來支持不同任務,但二者間的數據交換往往存在延遲,無法滿足實時分析,且維護成本高。因此,能夠同時擁有 OLTP 與 OLAP功能的數據庫成為眾多企業需求,HTAP 由此誕生。HTAP 基于分布式架構,不需要從 OLTP導入到 OLAP,能夠輕松應對海量數據,相較于 OLTP+OLAP 的組合更簡單通用,維護成本更低,但在分析海量數據時效率可能不及單獨使用 OLAP 數據庫進行分析。圖表圖表10:數據庫產品朝數據庫產品朝 HTAP 方向融合發展方向融合發展 資料來源:中國數據庫行業研究報告,艾瑞咨詢(2021)、華泰研究 發展趨勢:數據、計算雙重變化加速分布式數據庫時代到來發展趨勢:數據、
27、計算雙重變化加速分布式數據庫時代到來 數據庫的發展數據庫的發展與計算載體緊密相關。與計算載體緊密相關。數據庫是計算機行業的基礎核心軟件,所有應用軟件的運行和數據處理都要與其進行數據交互。數據庫的開發難度,不僅體現在與其他基礎器件的適配,更在于如何實現對數據高效、穩定、持續的管理。從數據庫的發展歷程來看,計算架構的變化,計算載體的變化、計算場景的變化,以及計算數據格式的變化都對數據庫的發展帶來一定影響?;蛘哒f,在以上計算環境變化下,其需要的數據庫類型也發生了變化。從計算載體來看從計算載體來看,數據的計算從原來的大型機、到小型機、個人電腦 PC、互聯網、移動互聯網、云計算,以及未來更多終端的物聯網
28、智能終端。計算的載體更加多樣化。從計算場景來看從計算場景來看,數據計算也從單獨的單機計算,到互聯網多群體交互的聯網計算和云計算,以及萬物互聯的高并發、低時延的物聯網計算。從計算架構來看從計算架構來看,傳統的 IT 架構也正逐步向云架構遷移。我們也經歷了從 C-S 架構到 B-S架構,而目前的云原生、分布式計算架構正對傳統計算架構帶來深刻變革。而新的計算架構也對計算的基礎軟件(操作系統、數據庫、芯片等)提出更高的需求。圖表圖表11:計算計算載體、載體、場景、架構場景、架構呈現明顯變化趨勢呈現明顯變化趨勢 資料來源:華泰研究 10 在以上計算環境的變化下,我們看到,聯網的數據也在發生深刻變化。在以
29、上計算環境的變化下,我們看到,聯網的數據也在發生深刻變化。數據的大小數據的大小。目前聯網數據量也在高速增長。通信技術的發展帶動從 2G 到 3G、4G、5G的演進,每代通信技術之間,聯網的數據規模也呈現(幾個)數量級的增加。對大容量、高性能計算提出更高要求。數據的類型數據的類型。計算場景的演變,我們對數據的定義也在發生變化。圖片、語音、視頻等非結構化數據成為增量數據的主要類型。聯網的數據類型也逐步從原來的結構化數據到非結構化數據演變,這就對計算的并發性提出了更高的要求。數據的快慢數據的快慢。對數據的高速計算是計算機一直以來的追求。但原有的 IT 架構下,計算速度的提升存在一定的物理條件限制。經
30、典的 IT 架構已經存在了幾十年的歷史,當時的 IT 架構并沒有完全考慮到目前計算場景的變化。因此,新的計算場景下,對數據高速計算的追求,需要我們從底層基礎軟件的變革開始。我們看到無論芯片、操作系統還是數據庫,都在經歷深刻變革。圖表圖表12:數據數據規模、類型、快慢呈現規模、類型、快慢呈現明顯明顯變化趨勢變化趨勢 資料來源:華泰研究 全球關系型數據庫市場增速漸趨平穩。全球關系型數據庫市場增速漸趨平穩。近年來受數據量激增以及數據類型不斷豐富影響,傳統關系型數據庫的流行程度呈下降趨勢,據 DB-Engines 數據顯示,近 24 個月關系型數據庫的市場流行度下降 8.23pct,市場增速逐步趨于平
31、緩,據 T4.ai 預測,2018-2022 年全球關系型數據庫市場規模復合增長率為 6%,較 2012-2017 年的 11%或將有所下降。非關系型數據庫的市場份額占比快速提升,根據 Gartner 2021 年發布的全球數據庫管理系統(DBMS)市場報告,2021 年全球非關系型數據庫的市場收入達 148 億美元,占總體數據庫市場的 19%,相較于 2017 年 8%的市場占比,非關系型數據庫的市場份額顯著提升。圖表圖表13:全球關系型數據庫市場增速漸趨平緩全球關系型數據庫市場增速漸趨平緩 圖表圖表14:全球關系型數據庫全球關系型數據庫流行度流行度略有下降略有下降(2020.10-2022
32、.10)資料來源:T4.ai、華泰研究 注:各類型數據庫起始流行度均為 100 資料來源:DB-Engines、華泰研究 11%6%-1%1%3%5%7%9%11%13%15%2012-20172018-2022809010011012013020-1020-1221-0221-0421-0621-0821-1021-1222-0222-0422-0622-0822-10時間序列數據庫圖數據庫文檔數據庫寬列數據庫關系型數據庫 11 全球數據量激增全球數據量激增,分布式分布式數據庫機遇顯現。數據庫機遇顯現。隨著智能移動手機普及、云計算的興起以及互聯網的快速發展,全球數據量不斷攀升,據 IDC 數
33、據顯示,全球數據量已從 2010 年的 1.2ZB增長至 2020 年的 59ZB,復合增長率高達 47.63%。據 IDC 預測,2025 年全球數據量將進一步增長至 175ZB,2020-2025 年復合增長率為 24.29%。隨著數據量上升,全球數據庫規??焖僭鲩L,據 Gartner 預測,2024 年全球數據庫市場規模有望突破千億美元,2018-2024年復合增長率為 13.78%,同時大數據分析、高并發計算、非結構化/異構數據處理的需求日益顯現,分布式數據庫兼具拓展性與高可用性,或將成為數據庫行業新的增量市場。圖表圖表15:全球數據庫市場規模全球數據庫市場規??焖僭鲩L快速增長 圖表圖
34、表16:2010-2020 全球數據量復合增長率為全球數據量復合增長率為 47.63%資料來源:全球數據庫研究報告,Gartner(2018)、華泰研究 資料來源:IDC、華泰研究 在在非結構化數據與高并發計算需求非結構化數據與高并發計算需求的的推動下,分布式數據時代加速到來。推動下,分布式數據時代加速到來。在計算、數據的雙重變革下,我們認為,數據庫行業的發展演進也將經歷重要的技術變革。在傳統計算環境和數據類型方面,傳統的關系型數據庫依然發揮著重要的作用;但面向未來新的計算場景與數據需求,數據庫產品亟需進行技術升級以適應下游需求的變化,通過統計國內外典型數據庫廠商的技術路線及產品體系變化,我們
35、判斷,數據庫行業已進入以云數據庫、分布式數據庫為代表的 3.0 階段。圖表圖表17:數據庫發展進入以分布式數據庫為代表的數據庫發展進入以分布式數據庫為代表的 3.0 時期時期 資料來源:國產數據庫的崛起,趙偉(2020)、華泰研究 171 461 1,000 02004006008001,0001,200200720182024E(億美元)123479162233591750204060801001201401601802002010 2011 2012 2013 2014 2015 2016 2017 2018 2020 2025E(ZB)12 競爭格局:海外數據庫先發優勢突出,國產數據庫快
36、速發展競爭格局:海外數據庫先發優勢突出,國產數據庫快速發展 全球數據庫全球數據庫產業呈現海外廠商主導的典型特征產業呈現海外廠商主導的典型特征。相較海外廠商來說,國內數據庫研究起步較晚,大約是 20 世紀 90 年代改革開放以后才開始進入萌芽階段,該階段數據庫研究主要源自國家的相關研究計劃或者大學科研需求,缺乏實際的業務場景驅動,因此數據庫技術發展較為緩慢。從全球市場來看,以 Microsoft、Oracle 為代表的海外數據庫數據庫廠商仍占據絕大部分市場份額,處于絕對領導地位,根據 Gartner 發布的2018 年全球數據庫研究報告,全球共 14 家企業入選事務型數據庫魔力四象限(中國僅 1
37、 家入榜),19 家企業入選分析型數據庫魔力四象限(中國僅 3 家入榜),處于領導者象限的企業均為海外廠商。圖表圖表18:2018 年年事務型數據庫魔力四象限事務型數據庫魔力四象限圖圖 圖表圖表19:2018 年年分析型數據庫魔力四象限分析型數據庫魔力四象限圖圖 資料來源:全球數據庫研究報告,Gartner(2018)、華泰研究 資料來源:全球數據庫研究報告,Gartner(2018)、華泰研究 根據 Gartner 發布的 全球數據庫市場份額報告 2021,微軟連續兩年市場占有率排名第一,2021 年占全球市場份額 24.0%,與 2020 年相比略有下降;亞馬遜云科技 AWS 市場占有率排
38、名上升,主要受其云數據庫產品快速增長帶動,2021 年 AWS 云數據庫產品同比增長42.3%,約為全球云數據庫市場增長率 22.3%的兩倍;Oracle 數據庫市場占有率排名略有下降,2021 年占全球市場份額 20.6%,主要由于 Oracle 云數據庫增速遠低于市場增速。圖表圖表20:2017-2021 年全球數據庫市場份額排名變化年全球數據庫市場份額排名變化 注:綠色表示排名上升、紅色表示排名下降 資料來源:全球數據庫市場份額報告,Gartner(2021)、華泰研究 國產數據庫國際影響力快速提升國產數據庫國際影響力快速提升:1)云數據庫)云數據庫表現優異表現優異:2019 年 Oce
39、anBase 數據庫打破數據庫基準性能測試(TPC-C)世界紀錄,且于 2019-2021 年連續三年穩居首位;2021年阿里云、華為云數據庫產品分別入選 Gartner 全球云數據庫魔力象限報告 領導者象限、特定領域者象限;2)非非關系型數據庫受國際認可關系型數據庫受國際認可:根據 DB-Engines 發布的數據庫管理系統受歡迎程度排名,2021 年 2 月,智臾科技 DolphinDB 榮登時序數據庫排行第 10 位,2022年 10 月,智臾科技 DolphinDB、濤思數據 TDengine、阿里 TSDB,依次位列時序數據庫排行第 9、13、35 位;2021 年 5 月,歐若數網
40、 Nebula Graph、華為云 GraphBase、百度智能云 HugeGraph 圖數據庫,依次位列圖數據庫排行第 15、28、30 名。13 圖表圖表21:國產非關系型數據庫受國際認可國產非關系型數據庫受國際認可(以時序數據庫為例)(以時序數據庫為例)注:圖中紅圈中數字為數據庫的流行程度排名 資料來源:DB-Engines、華泰研究 數據庫數據庫產品產品包含包含開源開源數據庫、數據庫、商業商業數據庫數據庫兩種兩種商業模式商業模式。其中,商業數據庫收費方式主要有兩種:1)本地部署)本地部署:本地部署的商業數據庫,一般采用 License 訂閱方式收費,一般按用戶數或者按 CPU 數定價,
41、按年訂閱,以 Oracle 為典型代表;2)公有云部署公有云部署:公有云部署的商業數據庫,除了 License 收費還可采用 SaaS 收費方式,用戶可按用量付費,按年/季度/月收費,以 Snowflake 為典型代表;開源數據庫供用戶免費使用,主要商業模式包括三種:1)完全開源式:)完全開源式:借助基金會完全托管,以 HBase 為典型代表;2)開源版本和商業開源版本和商業版本分別運營版本分別運營:通過運營開源版本社區積累人才、應用場景、市場品牌等,再通過售賣商業版本獲取利潤,以 TiDB 為典型代表;3)先開源后閉源先開源后閉源:運作前期通過開源社區優化產品與品牌,之后停止社區的維護將產品
42、閉源商業化,以 Neo4j 為典型代表。圖表圖表22:數據庫商業模式數據庫商業模式:開源數據庫、商業數據庫:開源數據庫、商業數據庫 資料來源:Oracle 官網、Snowflake 官網、數據庫發展研究報告,中國信通院(2021)、華泰研究 14 國產數據庫國產數據庫:產業機遇明朗,國產品牌迅速成長產業機遇明朗,國產品牌迅速成長 國產數據庫迎國產數據庫迎來來產業黃金期,國產替代空間廣闊。產業黃金期,國產替代空間廣闊。國產數據庫產業黃金期加速到來,主要受三方面因素影響:1)數據庫數據庫廣泛廣泛開源開源:全球數據庫開源趨勢明顯,據 DB-Engines 數據顯示,2021 年 1 月起開源數據庫流
43、行程度反超商業數據庫,數據庫開源為國產數據庫發展提供了良好的技術生態;2)國產化替代逐步推進:)國產化替代逐步推進:國產數據庫作為信創的關鍵環節,隨國產化替代深入推進而受到高度重視,產品、技術均實現快速發展;3)云數據庫日益興起:云數據庫日益興起:從全球數據庫部署占比來看,云數據庫產業趨勢明朗,受益于高人口基數與應用軟件繁榮帶來場景紅利,國產云數據庫爆發巨大的產品優勢。根據艾瑞咨詢發布的中國數據庫行業研究報告,2020 年國產數據庫占全國市場 47%,僅存量市場的替換空間已超 130 億。圖表圖表23:關系型數據庫關系型數據庫本地本地/公有云部署占比對比公有云部署占比對比 圖表圖表24:202
44、1 年年 1 月開源月開源數據庫數據庫流行度反超商業數據庫流行度反超商業數據庫 資料來源:IDC、華泰研究 資料來源:DB-Engines、華泰研究 技術沉淀疊加信創需求,國產數據庫迎來黃金發展期技術沉淀疊加信創需求,國產數據庫迎來黃金發展期 國產數據庫發展順應國家需求國產數據庫發展順應國家需求,國產替代,國產替代加速產業發展加速產業發展。1995 年,國家郵電部提出開發和建設“市內電話業務計算機綜合管理系統”,即“九七工程”,在此背景下,國內第一批數據庫企業開始發展,早期國內數據庫行業高度依賴大學以及國家政府機關,主要用來滿足國家部門的使用需求。2009 年以前,國內銀行以及企業高度依賴 I
45、MB、Oracle 等海外廠商研發的數據庫系統,單方向的技術依賴使國內廠商處于被動態勢。2013 年,棱鏡門事件爆發,信息安全的自主可控成為國家需求,國內企業積極響應國家需求,自主研發數據庫系統。國產數據庫作為國產化替代的重要環節,在我國信創產業政策的指引下實現加速發展。圖表圖表25:國產數據庫是國產化替代的關鍵環節國產數據庫是國產化替代的關鍵環節 資料來源:國產數據庫的崛起,趙偉(2020)、華泰研究 0.00%20.00%40.00%60.00%80.00%100.00%全球(2025)美國(2025)中國(2025)全球(2020)美國(2020)中國(2020)傳統部署模式公有云30%
46、35%40%45%50%55%60%65%70%13-0113-0714-0114-0715-0115-0716-0116-0717-0117-0718-0118-0719-0119-0720-0120-0721-0121-0722-0122-07商業數據庫系統開源數據庫系統 15 總體來看,國產數據庫的發展歷程大致可分為三個階段:1)海外)海外壟斷期壟斷期(1978-2000 年年):):SQL 體系初建立,美國三巨頭(Oracle,MySQL,SQL Server)相繼初露崢嶸,并逐步統治全球市場。1977 年國內召開第一次數據庫年會,改革開放引領浪潮,積極引入國外技術,以三大巨頭為代表的
47、海外數據庫于 90 年代席卷中國;2)國產萌芽國產萌芽期期(2000-2009 年年):):“十五”計劃期間,國家 863 計劃設立“數據庫重大專項”,國內研究所與大學積極投入數據庫研究,IT 社區逐步興起;1999 年,中國首個數據庫“人大金倉 KingbaseES 數據庫系統”誕生,隨后武漢達夢數據庫、神通數據庫系統等國產數據庫系統相繼面世,打破了 Oracle、IBM 的市場壟斷格局;3)快速發展快速發展期期(2009 年至今年至今):):2009 年,阿里巴巴成立阿里云,開始研發自己的數據庫產品 AliSQL;隨后,華為、騰訊等企業相繼加入自主研發隊伍,推出自有數據庫產品;云計算時代與
48、開源社區的興起,國產數據庫實現彎道超車,基于 NoSQL 等新技術的數據庫產品加速面世。2019 年,國外廠商神話被打破,螞蟻集團的 OceanBase 數據庫成功登頂世界上最權威的數據庫評測機構 TPC(國際事務處理性能委員會)排行榜榜首。國產數據庫遜于海外數據庫已成為過往,國產自研數據庫進入百花齊放階段,近年來隨著國產化替代深入推進,軟件廠商、集成商、運營商紛紛入局數據庫市場,我國數據庫產業加速發展。圖表圖表26:我國我國數據庫數據庫行業行業發展大事節點發展大事節點梳理梳理 時間時間 內容內容 1982 薩師煊起草了中國第一個計算機專業課本“數據庫系統概論”課程的教學大綱 1985 第一代
49、學生將數據庫技術應用在國防,軍工等領域,成為國家科技成果的奠基者 1989 Oracle 進軍中國,將 Oracle 的中文名注冊為“甲骨文”1995 郵電部電信總局下發了一系列技術和業務規范,要求全國縣以上的郵電局在 1997 年底前實施“九七工程”1997 Oracle 順利地拿下東三省郵電管理局 5 期工程的大單,中國的第一代 DBA 誕生,他們絕大多數都已經是中國電信行業的元老級人物 1998 中國數據庫的行業格局開始形成:金融行業使用 IBM DB2 數據庫、Informix 數據庫,電信行業使用 Oracle 數據庫 1999 數據庫社區興起,成為主要技術知識獲取手段 2000 互
50、聯網行業興起,Oracle 數據庫的一個致命缺點“貴”開始暴露,美國的雅虎公司率先開始使用 MySQL 數據庫,讓 MySQL 幾乎成為互聯網場景標配 2004 隨著淘寶、支付寶和阿里巴巴 B2B 的用戶數激增,阿里巴巴最終選擇放棄 Oracle,使用開源的 MySQL 2009 去 IOE 興起,IBM、Oracle 和 EMC 逐漸被替換為 PC Sever、MySQL 和中低端存儲 2011 MySQL 在國內的互聯網公司逐步取代 Oracle 地位許多技術在浪潮中成長,諸多企業也成為 MySQL 開源貢獻者,百度、騰訊、阿里巴巴、新浪微博、小米、網易等都開始使用 MySQL 2013
51、在棱鏡門事件曝光后,公眾視野以外的國產數據庫開始被人認知,武漢達夢、人大金倉、南大通用等一批國產數據庫獲得廣泛關注,這些數據庫多應用于央企、國家財政、軍事等專用領域 2014 除了 MySQL 以外,PostgreSQL、Redis、MongoDB 和 HBase 等開源數據庫也開始活躍起來,在各大數據庫大會和社群中助力中國數據庫發展 2015 阿里巴巴和螞蟻金服自研了金融數據庫 OceanBase 2017 阿里云公布國內首個自研企業級關系型云數據庫 PolarDB 技術框架,在降低成本的同時,大大提高了性能,中國數據庫開始進入世界一流行列 2019 華為推出分布式數據庫 GaussDB,騰
52、訊 TDSQL 在張家港農商銀行新一代核心業務系統上線,OceanBase 數據庫成功登頂世界上最權威的數據庫評測機構 TPC(國際事務處理性能委員會)排行榜榜首 2020 華為 GaussDB 在浙江移動核心系統成功商用,華為 openGauss 正式亮相,源代碼開放、社區成立,OceanBase 數據庫在 TPC-C 基準測試中打破由自己保持的世界紀錄,事務處理性能由上次測試的 6088 萬 tpmC 提升到 7 億 tpmC 2021 OceanBase 正式開源,阿里云宣布“阿里云數據庫開源計劃”并率先開源了 PolarDB for PostgreSQL 分布式版,人大金倉成功替代 O
53、racle 數據庫助力國家能源集團 186 個新能源場站新集控系統上線 2022 國際研究機構 Gartner 發布 2021 年全球云數據庫魔力象限報告:Magic Quadrant for Cloud Database Management Systems,華為云憑借 GaussDB 系列數據庫產品入選魔力象限的特定領域者,成為亞洲唯二入選的云廠商 資料來源:國產數據庫的崛起,趙偉(2020)、華泰研究 16 經過多年技術研發和經驗積累,經過多年技術研發和經驗積累,國產數據庫國產數據庫市場份額逐年提升。市場份額逐年提升。以人大金倉、南大通用、神舟通用為代表的國產數據庫廠商自 1999 創建
54、以來不斷發力,逐步打破了海外廠商的壟斷局面,同時數據庫初創廠商、云廠商等也加速發力,快速替換海外數據庫廠商的市場份額。根據智研咨詢數據顯示,國產數據庫企業的市場占比已從 2009 年的 4.19%提升至 2017 年的 16.64%;根據艾瑞咨詢發布的中國數據庫行業研究報告,2020 年國產數據庫市場占比已提升至47.4%,其中傳統數據庫廠商占比7.1%,國產云數據庫等新興廠商占比40.3%。根據 IDC 發布的2021 年上半年中國關系型數據庫軟件市場跟蹤報告,在傳統部署模式市場中,華為、阿里、達夢數據、人大金倉的市占率分別為 14.7%、5.7%、5.7%、5.0%,在公有云部署模式市場中
55、,阿里、騰訊、華為的市占率分別為 44.7%、17.4%、7.4%。圖表圖表27:2021H1 中國本地部署關系型數據庫市場份額中國本地部署關系型數據庫市場份額 圖表圖表28:2021H1 中國公有云部署關系型數據庫市場份額中國公有云部署關系型數據庫市場份額 資料來源:IDC、華泰研究 資料來源:IDC、華泰研究 圖表圖表29:2009-2017 年年國產數據庫市場份額國產數據庫市場份額占比占比逐年提升逐年提升 資料來源:智研咨詢、華泰研究 關系型數據庫關系型數據庫占主流地位,占主流地位,市場競爭格局市場競爭格局初顯初顯 國產數據庫參與廠商包括傳統廠商、初創廠商、云廠商和跨界廠商四類。國產數據
56、庫參與廠商包括傳統廠商、初創廠商、云廠商和跨界廠商四類。1)傳統廠商:)傳統廠商:以達夢數據、人大金倉、南大通用等企業為代表的傳統數據庫廠商,是我國最早參與數據庫研發、應用的企業,在數據庫領域具有深厚的技術沉淀;2)初創廠商:)初創廠商:以巨杉、PingCAP、偶數科技、星環科技等企業為代表的初創廠商,依托于新興的數據庫技術與需求,近年來實現蓬勃發展;3)云廠商:)云廠商:以阿里巴巴、騰訊等企業為代表的云數據庫廠商,得益于互聯網業務和開源技術的快速發展,積極搭建自研云數據庫平臺,迅速占領云數據庫市場份額;4)跨界廠商:)跨界廠商:以中興、浪潮等企業為代表的跨界廠商,積極布局企業級數據庫市場。O
57、racle27%Huawei15%Microsoft7%IBM7%SAP7%Alibaba Group6%Dameng6%Kingbase5%Others20%Alibaba Group45%Tencent17%Amazon Web Services14%Huawei7%Oracle4%Others13%4.19%5.01%6.03%7.16%8.73%10.27%11.71%14.16%16.64%0%2%4%6%8%10%12%14%16%18%020406080100120200920102011201220132014201520162017(億元)國產數據庫國外數據庫國產占比 17
58、圖表圖表30:國產數據庫國產數據庫產業圖譜產業圖譜 資料來源:中國數據庫行業研究報告,艾瑞咨詢(2021)、華泰研究 根據源代碼來源不同,國產數據庫代碼來源可分為三大類:1)基于開源代碼)基于開源代碼研發研發:MySQL 系的巨杉數據庫、阿里云數據庫,PostgreSQL 系的華為Gauss 數據庫;2)收購商業源碼)收購商業源碼+自研:自研:南大通用收購 IBM 的 Informix 數據庫源碼;3)獨立獨立自研:自研:以武漢達夢數據庫為典型代表。圖表圖表31:國產數據庫技術溯源國產數據庫技術溯源 資料來源:人大金倉官網、華泰研究 關系型數據庫占主流,關系型數據庫占主流,多基于多基于 MyS
59、QL 和和 PostgreSQL 二次開發而來。二次開發而來。關系數據庫作為傳統數據庫產品,誕生時間早于非關系型數據庫,產品體系更加成熟,在我國數據庫市場中占據主流地位。1)從數據庫數量來看從數據庫數量來看:根據中國信通院發布的數據庫發展研究報告,截至 2021 年 6 月,我國數據庫產品共有 135 款,其中關系型數據庫 81 個,占比 60%,非關系型數據庫 54 個,占比 40%;關系型數據庫中基于開源數據庫 MySQL 和 PostgreSQL 進行二次開發的個數分別為 23 和 24 個,分別占關系型數據庫比例為 28.40%和 29.63%,合計占比為 58.03%。2)從市場份額
60、來看從市場份額來看:根據艾瑞咨詢發布的中國數據庫行業研究報告,關系型數據庫市場份額占比約為 90%,非關系數據庫市場份額僅約為 10%。18 圖表圖表32:關系型數據庫為關系型數據庫為國產數據庫國產數據庫主流產品主流產品 資料來源:數據庫發展研究報告,中國信通院(2021)、華泰研究 云數據庫云數據庫產品產品優勢優勢逐步顯現逐步顯現,國產廠商掌握場景紅利。國產廠商掌握場景紅利。國產云數據庫廠商的快速發展主要獲益于我國的互聯網場景紅利,過去十年互聯網及移動互聯網在中國快速發展,國產廠商享受了高人口基數與豐富軟件應用場景帶來的場景紅利,積極開拓面向海量、高并發數據的云數據庫產品,并憑借產品優勢與本
61、土化業務理解迅速占領國內市場。根據 IDC 發布的2021H2 中國關系型數據庫軟件市場跟蹤報告,2021H2 公有云關系型數據庫規模為 8.7億美元,國產云數據廠商的市場份額合計占比超 68%,國產廠商(阿里、騰訊、華為)分別位居前五名中的第 1、2、4 位,其中阿里處于絕對龍頭位置,占總體市場份額的 42.5%。圖表圖表33:2021H2 中國中國公有云公有云部署關系型數據庫市場份額部署關系型數據庫市場份額 圖表圖表34:國產數據庫廠商掌握國產數據庫廠商掌握場場景紅利景紅利 資料來源:IDC、華泰研究 資料來源:2021 年中國分布式數據庫市場報告,沙利文(2021)、華泰研究 初創廠商不
62、斷涌現,初創廠商不斷涌現,數據庫產業體系數據庫產業體系日益日益完善完善 國產廠商多處在發展初期,國產廠商多處在發展初期,具備具備較大成長空間較大成長空間。與老牌海外數據庫廠商 50 余年的發展歷史相比,多數國產數據庫廠商的成立時長在 10 年以內,根據中國信通院發布的數據庫發展研究報告,2013-2017 年成立的數據庫廠商數量占國內廠商總數比重近 50%。由于多數國產數據庫廠商成立年限較短,因此在人才儲備與技術積累等方面,仍與海外廠商存在較大差距。根據中國信通院發布的數據庫發展研究報告,員工人數小于 300 的國產數據庫企業占比高達 84%(Oracle 員工 13,700 名),專利數量小
63、于 50 的國產數據庫企業占比高達77%(Oracle 專利 1.4 萬個),大部分廠商仍然擁有較大的成長空間。關系型數據庫81文檔數據庫28鍵值數據庫1列存數據庫13圖數數據庫3全文檢索數據庫5非關系數據庫不詳4非關系型數據庫54Oracle27%Huawei15%Microsoft7%IBM7%SAP7%Alibaba Group6%Dameng6%Kingbase5%Others20%19 圖表圖表35:1999-2020 年年國產數據庫廠商國產數據庫廠商成立數量成立數量 資料來源:數據庫發展研究報告,中國信通院(2021)、華泰研究 圖表圖表36:2021 年年國產國產數據庫廠商專利數
64、量分布數據庫廠商專利數量分布 圖表圖表37:2021 年年國產國產數據庫廠商員工數量分布數據庫廠商員工數量分布 資料來源:數據庫發展研究報告,中國信通院(2021)、華泰研究 資料來源:數據庫發展研究報告,中國信通院(2021)、華泰研究 初創廠商多基于新興數據庫技術初創廠商多基于新興數據庫技術,關注非關系型數據庫細分賽道,關注非關系型數據庫細分賽道。2015-2018 年大批初創數據庫廠商成立,包括費馬科技、創鄰科技、歐若數網、蜀天夢圖等圖數據庫廠商以及浙江智臾、濤思數據等時序數據庫廠商。據艾瑞咨詢統計,2015 年前后成立大部分初創廠商均采用 NewSQL、SQL on Hadoop、No
65、SQL 等新技術架構,主要原因在于新技術架構尚處于發展階段,同時更符合互聯網、金融、物聯網等應用場景的業務需求,為初創廠商實現新場景下的“彎道超車”提供了更大的可能。初創廠商紛紛涌入非關系型數據庫細分賽道,有望帶動基于新技術架構的非關系數據庫快速發展,據艾瑞咨詢預測,2020-2025 年以初創廠商為代表的新興數據庫市場規模有望實現高于 10 倍的增長。國產數據庫的支撐體系不斷完善國產數據庫的支撐體系不斷完善。數據庫支撐體系包括學術組織、行業支撐組織、人才培訓體系三大類:1)學術學術組織組織支撐支撐:主要包括高校、企業的學術理論研究,以及相關論文在學術領域的學術影響;2)行業支撐組織行業支撐組
66、織:主要包括具備官方背景的研究組織、數據庫從業人員牽頭發起的用戶組織、由數據庫企業組建的官方技術社區、匯聚數據庫整體行業信息的第三方技術社區等;3)人才培訓體系人才培訓體系:主要包括高校教育培訓、專業機構培訓以及企業培訓。5723231212512561296411024681012141999 2000 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020(個)411141064220510152025303540450-45-1011-2021-5051-
67、100 101-200 201-300 301-500(個)1234121010441205101520253035405-1011-2021-5051-100101-200201-300301-500501-800801-10001001-1500(個)20 圖表圖表38:國產數據庫支撐體系國產數據庫支撐體系日益完善日益完善 資料來源:中國分布式數據庫市場研究報告,沙利文(2021)、華泰研究 學術研究與行業發展齊頭并進,學術研究與行業發展齊頭并進,學術影響逐步提升學術影響逐步提升。2016 年-2020 年,我國成為世界第二大數據庫領域論文產出國,發文量為 1,141 篇,占全球總發文量
68、22.4,僅次于美國的 1,319篇。學術界主要有以 VLDB、ICDE、SIGMOD 為首的數據庫領域頂級會議,高校及企業在三大會議每年貢獻占比平均為 22.14%、23.74%和 23.81%,占比逐年上升,研究方向多以圖數據庫、數據挖掘、機器學習、查詢處理等為主。阿里巴巴、華為、騰訊、螞蟻金服、等企業和清華大學、香港科技大學、北京大學、香港中文大學、香港大學、浙江大學等高校論文紛紛入選三大頂會,顯示我國數據庫學術水平國際影響力不斷擴大。圖表圖表39:2018-2020 年中國高校及企業學術會議論文貢獻情況年中國高校及企業學術會議論文貢獻情況 資料來源:數據庫發展研究報告,中國信通院(20
69、21)、華泰研究 國內廠商重視人才培養國內廠商重視人才培養,加快人才,加快人才培訓培訓體系建立體系建立。數據庫廠商積極搭建官方社區、開源社區、第三方數據庫,與全國開發者積極進行技術討論與交流,加快技術發展,如阿里云開發者社區、PostgreSQL 中文社區、墨天輪等。同時企業廠商積極建立培訓機構與認證體系,加強與院校的交流,辦理不同的培訓課程與證書考試,為我國數據行業培養相關儲備人才。17.12%21.11%28.19%23.80%10.11%37.31%13.68%14.58%43.15%0%5%10%15%20%25%30%35%40%45%50%VLDBSIGMODICDEVLDBSIG
70、MODICDEVLDBSIGMODICDE201820192020中國高校及企業論文貢獻占比線性(每年平均貢獻占比)21 數據庫開源數據庫開源實現人才積累,實現人才積累,貢獻貢獻長效長效技術動力。技術動力。數據庫開源對于實現人才積累、生態拓展、產品技術迭代具有重要意義,2014 年 12 月,巨杉數據庫 SequoiaDB 正式開源,成為國內最早的開源自研數據庫項目,此后 PingCAP TiDB、百度 Roris 和 HugeGraph、華為 Gauss、螞蟻集團 OceanBase 等國產數據庫紛紛擁抱開源,積極構建開源生態社區,實現了數據庫開發人才的快速積累。據 Github 發布的20
71、21 年度開發者報告顯示,中國作為全球第二大開發者來源(755 萬開發者,占比 9.76%)正在快速成長,據 Github 預測,中國有望于2030 年超越美國,成為全球最大的開發者來源。各路資本積極入局各路資本積極入局,國產數據庫國產數據庫市場空間廣闊市場空間廣闊 各路資本紛紛注入數據庫產業,各路資本紛紛注入數據庫產業,產業態勢產業態勢明朗明朗。根據中國信通院統計,自 2013 年至 2021上半年,數據庫企業累計完成融資約 42 次,單年融資企業次數呈現明顯的上漲趨勢。根據沙利文發布的2021 年中國分布式數據庫報告,2021 年是國產數據庫投融資最活躍的一年,2021 年獲得新一輪融資的
72、企業就多達 20 家,千萬級甚至上億級融資數量在 14 輪以上,其中偶數科技完成 B+輪融資 2 億元,四維縱橫完成 A 輪融資 1 億元,智臾科技完成B 輪融資 1 億元。國產數據庫的投資方包括紅杉、高瓴、經緯、云啟、明勢等眾多知名投資機構,國產自研數據庫產業趨勢明朗,有望在資本注入下實現強勁增長。圖表圖表40:2013-2021H1 數據庫企業融資次數呈增長趨勢數據庫企業融資次數呈增長趨勢 資料來源:數據庫發展研究報告,中國信通院(2021)、華泰研究 據中國信通院預測,中國數據庫市場 2020-2025 年復合增長率將高達 23.35%,2025 年市場規模有望達到 688 億元,考慮到
73、目前國產數據庫市占率仍處于較低水平(2020 年國產數據庫市場占比不足 50%),未來隨我國數據庫市場規模擴大與國產數據庫替代加速,國產數據庫有望同步擴大存量與增量市場,國產數據庫市場空間前景廣闊。圖表圖表41:2020-2025 年年中國數據庫市場規模中國數據庫市場規模 CAGR 達達 23.35%資料來源:數據庫發展研究報告,中國信通院(2021)、華泰研究 478101517131712024681012141618201320142015201620172018201920202021H1(次)241 309 368 493 611 688 0%5%10%15%20%25%30%35%
74、40%010020030040050060070080020202021E2022E2023E2024E2025E(億元)中國數據庫市場規模增長率 22 廠商廠商梳理:梳理:海外廠商海外廠商、國產廠商各具優勢國產廠商各具優勢 觀點一:觀點一:海外廠商向云海外廠商向云化化方向深度邁進方向深度邁進,SaaS 模式模式助推助推新興廠商加速發展新興廠商加速發展 分布式云數據庫成為海外廠商的發展共識分布式云數據庫成為海外廠商的發展共識。通過總結 Oracle、Microsoft、SAP、MongoDB等海外傳統數據庫廠商以及 AWS、Snowflake、databricks 等新興云數據庫廠商的發展路徑
75、、技術演進以及現有產品體系,可以看到分布式云數據庫已成為海外廠商的發展共識,各類云托管、云原生數據庫不斷面世,加速數據庫產品云化轉型。傳統數據庫廠商基于原有業務優勢,以云托管數據庫為主要發展方向,支持數據庫產品在公有云、私有云、混合云環境下部署;新興廠商多選取云原生路線,Snowflake、databricks 等廠商更是推出專門面向公有云環境的數據倉(分析型數據庫)服務,SaaS模式助力新興廠商業績高增,以Snowflake為例,截至 2022 年 7 月 31 日,公司年化付費超百萬的客戶為 246 個,同比增長 112%。觀點二:觀點二:開源、分布式兩大技術趨勢開源、分布式兩大技術趨勢下
76、,國產數據庫下,國產數據庫有望有望彎道超車彎道超車 開源開源構建數據庫產業正反饋循環,構建數據庫產業正反饋循環,主流數據庫產品陸續擁抱開源主流數據庫產品陸續擁抱開源。數據庫開源旨在通過開放核心代碼,運營開源社區以實現多方共贏,1)對于社區開發者來說,開源數據庫提供免費的數據庫產品,成本優勢突出;2)對于數據庫廠商來,通過開源社區可快速獲得產品反饋,加快產品開發、提升產品質量;3)對于生態伙伴來說,開源產品的生態影響力更強,可以更好地實現產品兼容。通過梳理國產數據庫廠商的發展歷程,可以看到眾多國產廠商最早都基于開源數據庫構建底層代碼,同時近年來主流數據庫產品紛紛擁抱開源,以加速產品技術升級,構建
77、友好的數據庫生態。典型代表有巨杉數據庫 SequoiaDB、華為 Gauss數據庫、阿里云 PolarDB for PostgreSQL 數據庫、螞蟻集團 OceanBase 數據庫。圖表圖表42:國產數據庫廠商陸續擁抱開源國產數據庫廠商陸續擁抱開源 資料來源:數據庫發展研究報告,中國信通院(2021)、華泰研究 分布式數據庫時代加速到來,分布式數據庫時代加速到來,國產廠商加速分布式產品布局國產廠商加速分布式產品布局。分布式數據庫可有效解決現有互聯網環境下海量數據、高并發計算的數據需求,成為國產數據庫廠商的產品發展共識。傳統國產數據庫廠商重點關注分布式關系型數據庫,主要選擇分庫分表+中間件、原
78、生分布式兩類技術路線;新興國產數據庫廠商廣泛布局分布式關系型數據庫、NoSQL 數據庫、NewSQL 數據庫等多類型分布式數據庫,大量非關系型數據庫廠商實現彎道超車。海外廠商:海外廠商:云數據庫是云數據庫是主要主要方方向,向,傳統龍頭傳統龍頭與新興廠商并駕齊驅與新興廠商并駕齊驅 根據 DB-Engines 發布的數據庫流行度最新排行(2022 年 10 月),全球數據庫排名前五名依次為:Oracle、MySQL、Microsoft SQL Server、PostgreSQL、MongoDB,新興數據庫廠商 Snowflake、Databricks 分別位列 13、20 名。我們選取關系型數據庫
79、代表 Oracle、Microsoft SQL Server,NoSQL 數據庫代表 MongoDB,內存數據庫代表 SAP,云數據庫代表 AWS、Snowflake、Databricks 作為范例,對海外數據庫廠商的發展歷程及現有產品體系進行了詳細梳理。23 圖表圖表43:全球數據庫流行程度排行榜(截至全球數據庫流行程度排行榜(截至 2022 年年 10 月)月)資料來源:DB-Engines、華泰研究 Oracle:傳統數據庫龍頭,加速云數據庫轉型:傳統數據庫龍頭,加速云數據庫轉型 Oracle 的數據庫產品是公司的數據庫產品是公司的的起家業務起家業務,技術技術積淀深厚積淀深厚。Oracl
80、e 的數據庫業務發展歷程,與全球數據庫發展歷史交織在一起,也與 Oracle 整個公司的發展綁定在一起。Oracle 的數據庫產品包括兩種:1)Oracle 自有數據庫產品 Oracle Database;2)MySQL:2008 年Sun 以 10 億美元收購 MySQL,2009 年,Oracle 以 74 億美元收購 Sun。圖表圖表44:Oracle 數據庫產品體系數據庫產品體系 資料來源:Oracle 官網、華泰研究 隨著隨著 IT 架構、終端設備形態的不斷變化和遷移,架構、終端設備形態的不斷變化和遷移,Oracle 的數據庫產品也在不斷更新迭代。的數據庫產品也在不斷更新迭代。從 O
81、racle 數據庫產品服務的計算載體的形態來看,經歷了小型機與大型機、客戶機/服務器(PC 與服務器)、互聯網架構/瘦客戶端、數據庫云/大數據四個階段。目前 Oracle 的數據產品已經更新到 21c。從以往 Oracle 更新的版本來看,我們可以將其劃分為幾個不同時代:24 圖表圖表45:Oracle 數據庫數據庫向云數據庫方向演進向云數據庫方向演進 資料來源:Oracle 官網、華泰研究 階段一:階段一:Oracle 9i 之前,支持傳統的之前,支持傳統的 C-S 架構架構 Oracle 的數據庫產品主要解決的是數據庫的高可靠性問題(注:衡量數據庫產品的核心指標在于五個方面:高可用性(Hi
82、gh Availability)、高性能(High Performance)、高可管理(High Manageability)、高安全(High Security Ability)、高數據服務能力(High Data Service Ability)五個領域)。Oracle 數據庫核心優勢在于高效、安全、穩定等。階段二:階段二:9i-12c,支持互聯網計算環境,支持互聯網計算環境 從 Oracle 9i 開始,Oracle 引入新的技術 Oracle RAC,RAC 是指 real application clusters,譯為“實時應用集群”。RAC 是 Oracle 新版數據庫中采用的一項
83、新技術,是高可用性的一種,也是 Oracle 數據庫支持網格計算環境的核心技術。用來在集群環境下,實現多機共享數據庫,以保證應用的高可用性。同時可以自動實現并行處理及負載均衡,并能實現數據庫在故障時的容錯和無斷點恢復。它是 Oracle 數據庫支持網絡計算環境的核心技術。Oracle RAC 主要支持 Oracle9i、10g、11g、12c 版本,可以支持 24 x 7 有效的數據庫應用系統,在低成本服務器上構建高可用性數據庫系統,并且自由部署應用,無需修改代碼。從 Oracle 12c 開始,Oracle 逐步開始推出 Options 產品線,推動企業數據中心的整合、數據集中和網格計算的發
84、展,強化了數據的高可靠性,提升了數據庫對云計算需求的應對能力:1)Exadata 數據庫一體機和內存選件(In-memory Option)的推出,用來提高性能、簡化架構,提高數據庫的速度;2)Oracle 12c 的多租戶和 DBaaS 則讓數據庫混合云成為可能,客戶可以在不同云環境中進行切換。圖表圖表46:Oracle RAC 架構架構 資料來源:Oracle 官網、華泰研究 25 階段三:階段三:12c 之后,支持云計算環境,進入自治時代之后,支持云計算環境,進入自治時代 Oracle 12c 引入了引入了 CDB 與與 PDB 的新特性的新特性。在 Oracle 12c 數據庫引入的多
85、租用戶環境(Multitenant Environment)中,允許一個數據庫容器(Container Database,CDB)承載多個可插拔數據庫(Pluggable Database,PDB)。在 Oracle 12c 之前,實例與數據庫是一對一或多對一關系(RAC):即一個實例只能與一個數據庫相關聯,數據庫可以被多個實例所加載,而實例與數據庫不可能是一對多的關系,當進入 Oracle 12c 后,實例與數據庫可以是一對多的關系。Oracle 21c 是是 Oracle 最新一代數據庫,最新一代數據庫,致力于實現可部署在本地和云端的單一融合數據致力于實現可部署在本地和云端的單一融合數據庫
86、。庫。Oracle 從 19c 開始就致力于提供全球唯一可運行在本地和云端的融合數據庫,可支持使用包括 JSON、圖、XML 等在內的任何數據類型。同時,用戶不必再為不同的工作負載而創建不同的數據庫,可以在同一個數據庫中運行交易型負載、分析型負載、物聯網、區塊鏈等,大大減輕 DBA 的工作負擔,降低維護成本,進一步減少故障點,從而保證數據庫系統安全平穩運行。圖表圖表47:Oracle 以構建以構建單一融合數據庫單一融合數據庫為產品目標為產品目標 資料來源:Oracle 官網、華泰研究 Oracle 21c 在技術方在技術方面面也有多項創新。也有多項創新。1)支持持久化內存,提供微秒級 I/O
87、響應:在 21c當中,在非 Exadata 環境下同樣支持將數據和 redo 保存在本地的持久化內存當中,從而消除 I/O 瓶頸;2)In-Memory 支持混合查詢:在 19c 之前數據如果分布在列存儲區和行存儲區,將無法使用 In-Memory 特性,21c 支持混合查詢,查詢性能提升超 10 倍;3)Sharding增強:21c 能從多個現有數據庫創建分片數據庫,能夠運行跨分片查詢的聯邦數據庫。Microsoft:兼顧本地兼顧本地、云端云端兩大兩大數據庫應用數據庫應用場景場景 Microsoft數據庫產品多為關系型數據庫。數據庫產品多為關系型數據庫。Microsoft于1988年推出Mi
88、crosoft SQL Server,為企業提供商業數據管理;1992 年推出 Microsoft Access,為軟件設計師與分析師提供便捷的應用開發軟件;2010 年推出 Microsoft Azure,為用戶提供云端數據庫服務,以上三款產品皆使用關系型數據庫模型。Microsoft SQL Server 歷經多年迭代,歷經多年迭代,目前包括目前包括本地本地、云端兩大產品類別云端兩大產品類別。Microsoft SQL Server 的發展大致可分為三個階段:1)合作創始初期()合作創始初期(1988-1995 年):年):SQL Server 最早由 Microsoft、Sybase、A
89、shton-Tate三家公司共同開發,最早于 1988 年推出了 OS/2 版本;隨后 Aston-Tate 退出,1992 年Microsoft 與 Sybase 共同開發了基于 Windows 系統的 SQL Server,但在 SQL Server 4 后Microsoft 與 Sybase 分道揚鑣,于 1995 年獨立完成 SQL Server 6.0 版本的開發;26 2)獨立發展期()獨立發展期(1995-2010 年):年):自 Microsoft SQL Server 6.0 發布后,SQL Server 產品進入以Microsoft為單一研發主體的獨立發展期,隨后相繼發布S
90、QL Server 7.0、SQL Server 2000、SQL Server 2005 等多個版本;其中,2008 年發布的 SQL Server 2008 新增了數據壓縮、資源調控、備份壓縮等功能,保護了數據庫查詢、減少了管理操作所需時間、增加了穩定性、增強了系統性能優化以及預測功能等,使其成為了至今為止最強大和全面的 SQL Server 版本;3)云化轉型期()云化轉型期(2010 年至今):年至今):早在 2008 年 Microsoft 專業開發人員大會上,Microsoft 當時的首席軟件架構師 Ray Ozzie 就宣布推出新云計算操作系統 Microsoft Azure,并
91、推出Azure 服務平臺關鍵組件之一是 Microsoft SQL 服務;2010 年以 SQL Server 2008 為基底的云數據庫 SQL Azure 正式面世,后改名為 Azure SQL,旨在作為 Azure 云計算平臺的一部分提供的云數據庫產品/服務。圖表圖表48:Microsoft SQL Server 產品發展梳理產品發展梳理(2008-2019 年)年)資料來源:Microsoft 官網、華泰研究 總體來看,Microsoft SQL Server 作為一個全面的數據庫管理平臺,為用戶提供了企業級的數據管理,擁有較好的伸縮性與集成度高等優點,主要包括:1)本地部署 SQL
92、Server 系列;2)私有云部署 SQL Server Private Cloud 系列;4)公有云部署 Azure SQL 系列:Azure SQL Database、Azure SQL Managed Instance、SQL Server on Azure VM;其中,Azure SQL Database 支持大多數本地數據庫級功能,提供最常用的 SQL Server 功能;Azure SQL Managed Instance 幾乎支持所有的本地實例級和數據庫級功能,與 SQL Server 高度兼容,適合用于大部分云遷移方案;SQL Server on Azure VM 能夠輕松直接
93、遷移 SQL Server 工作負載,保持 100%的 SQL Server 兼容性和操作系統級別的訪問權限。根據 Gartner 發布的2021 年數據庫市場份額,Microsoft 數據庫市場份額為 24.0%,位居全球第一,其中云數據庫產品收入增長率為 39.5%,帶動公司數據庫產品整體增長率推高至 20.9%,略低于市場 22.3%的增長率。27 圖表圖表49:Microsoft SQL Server 產品體系產品體系 資料來源:Microsoft 官網、華泰研究 MongoDB:NoSQL 典型代表,提供典型代表,提供文檔型數據庫文檔型數據庫服務服務 MongoDB 旨在為旨在為 W
94、eb 應用提供可擴展的高性能數據存儲解決。應用提供可擴展的高性能數據存儲解決。MongoDB 于 2007 年成立,是文檔型的 NoSQL 數據庫,數據以文檔的形式在 MongoDB 中保存,它使用 BJON 作為數據格式,擁有輕量級、可遍歷性、高效性三大特點,有效應對了傳統關系型數據庫在面臨高讀寫、高存儲、高擴展性與可用性的挑戰。MongoDB 支持 Java、Python、C+等多類型語言,數據從 MongoDB 中讀取出來后,可無需轉換直接使用,適用于數據量大,讀寫操作頻繁、數據價值低且對事務要求不高的場景。MongoDB 支持在公有云、本地和混合云環境中大規模部署,2019 年最新發布
95、的 MongoDB 4.2.0 開始支持分布式事務。圖表圖表50:MongoDB 數據庫產品發展數據庫產品發展梳理梳理 時間時間 內容內容 2009 MongoDB 社區服務器 0.9 版本發布 2011 推出 Mongo 第一個云管理工具 2012 5 月 MongoDB 2.1 開發分支發布;6 月 MongoDB 2.0.6 發布;開始提供全天候(24365)的技術支持 2013 MongoDB 2.4.3、MongoDB 2.4.6、MongoDB 2.4.8 相繼發布;推出第一個商業版本的 MongoDB 企業數據庫服務器 2014 收購 WiredTiger 存儲引擎,擴大應用數據
96、平臺的廣度 2015 推出 MongoDB Compass 圖形化用戶界面;提供分析工具的集成功能,包括提供 BI 連接器 2016 推出云數據庫 DBaaS 產品MongoDB Atlas,并發布了平臺的最新版本 2017 MongoDB 3.0.1 發布;客戶超 4000 并將 MongoDB Atlas 擴展到三大公有云提供商,為客戶提供多種部署選項,以避免供應商鎖定 2018 MongoDB 4.0.2 發布,支持多文檔事務 2019 MongoDB 4.2.0 發布,引入分布式事務 資料來源:MongoDB 招股說明書、華泰研究 MongoDB 遵從開源協議提供商業數據庫產品遵從開源
97、協議提供商業數據庫產品。MongoDB 產品體系主要由企業級數據庫產品 MongoDB Enterprise Advanced、云數據庫 MongoDB Altas、開源數據庫 Community Server、移動數據庫 MongoDB Realm。1)MongoDB Enterprise Advanced:為企業級數據庫平臺,包括商業數據庫服務器、企業級管理工具、圖形用戶界面、分析工具集成等功能;2)MongoDB Altas:為完全托管的云數據庫產品,包括全面系統監控、托管備份、恢復等功能;3)Community Server:為免費下載的開源版本;4)MongoDB Realm:為用于
98、數據密集型網頁的移動數據庫,可借助 Realm Sync 實現邊緣設備數據到后端云數據庫的無縫同步。28 圖表圖表51:MongoDB 數據庫產品體系架構數據庫產品體系架構 資料來源:MongoDB 官網、華泰研究 SAP:專注企業專注企業業務流程管理業務流程管理,提供內存數據庫產品,提供內存數據庫產品 SAP 作為作為業務流程管理軟件供應商業務流程管理軟件供應商,致力于實現企業數據的高效治理,致力于實現企業數據的高效治理。SAP 成立于 1972年,最初稱為 System Analysis Program Development,后來縮寫為 SAP。SAP 總部位于德國,在全球擁有 10 萬
99、多名員工,業務范圍遍布 130 多個國家,擁有超過 2.3 億云用戶。公司 2010 年發布的 SAP HANA(Hight-Performance Analytic Applicance)Cloud 產品,作為統一的數據庫即服務(DBaaS)平臺,支持針對所有企業數據的現代應用和分析工具,在擴展性、速度與性能上為用戶提供極佳的體驗。SAP HANA 組件包括:1)名稱服務器(Name Server):將信息傳播到其他組件上;2)預處理服務器(Preprocessor):用于文本數據分析;3)統計服務器(Statistics Server):用于檢查和分析 HANA 所有組件的運行狀況;4)X
100、S 服務器(XS Server):用于幫助外部 Java和 HTML 的應用程序訪問 HANA 系統;5)索引服務器(Index Server):用于處理數據庫查詢語句的 SQL/MDX 處理器,它將所有查詢請求分段,并將它們引導到正確的引擎以進行性能優化。圖表圖表52:SAP HANA 數據庫架構數據庫架構 資料來源:SAP 官網、華泰研究 SAP HANA 性能優越,性能優越,支持企業預置型部署和云部署支持企業預置型部署和云部署兩種兩種模式。模式。HANA 數據庫作為內存數據庫在支持任務關鍵型應用和分析、優化業務流程等方面具有突出優勢:1)具備實時數據庫性能,無需復制數據,即可同時進行事務
101、處理和分析處理;2)依靠內存數據庫結構構建并運行 PB 級的高性能事務處理應用和實時分析應用,可及時獲取所需業務數據;3)整合關系、圖形、空間、文檔存儲和其他功能,可無縫整合多模數據。29 HANA 數據庫服務客戶眾多,包括 Costain、Mirgor、NHL 等多類型企業。以 Costain 為例,借助 SAP HANA 的數據虛擬化功能,公司的 IT 基礎架構成本降低 66%,以機器閑置時間衡量,機器使用效率提高 30%。圖表圖表53:SAP HANA 數據庫典型客戶案例數據庫典型客戶案例 資料來源:SAP 官網、華泰研究 AWS:把握分布式浪潮,提供多類型云數據庫產品:把握分布式浪潮,
102、提供多類型云數據庫產品 AWS(Amazon Web Service)把握分布式數據庫浪潮,帶動云數據庫產品快速發展。把握分布式數據庫浪潮,帶動云數據庫產品快速發展。AWS是全球云服務的先行者,產品覆蓋了彈性計算、儲存、分析、開發、網絡安全、數據庫等多個 200 多個方向,業務覆蓋全世界 245 個國家。AWS 云數據庫擁有一系列全面的數據庫管理服務,包括針對運營用例、分析用例、圖數據處理、鍵值以及分類賬等,致力于為用戶提供適應多場景的專用云數據庫產品。AWS 數據庫產品多為單一用途的專用云數據庫,并為用戶提供云遷移服務數據庫產品多為單一用途的專用云數據庫,并為用戶提供云遷移服務。根據數據庫類
103、型的不同,AWS 云數據庫產品分為八大類:1)關系型數據庫:Amazon Aurora(高性能托管式關系數據庫)、Amazon RDS、Amazon RedShift(經濟高效的數據倉庫);2)鍵值型數據庫:Amazon DynamoDB(托管式 NoSQL 數據庫);3)內存數據庫:Amazon ElastiCache(內存中緩存服務)、Amazon MemoryDB for Redis(與 Redis 兼容且持久的內存數據庫);4)文檔數據庫:Amazon Document DB;5)列族數據庫:Amazon Keyspaces(兼容 Cassandra);6)圖數據庫:Amazon Ne
104、ptune;7)時序數據庫 Amazon Timestrea;8)賬本數據庫:Amazon Ledger Database Services(QLDB)。圖表圖表54:AWS 數據庫產品體系及主要應用場景數據庫產品體系及主要應用場景 資料來源:AWS 官網、華泰研究 30 Amazon Aurora 是是 AWS 關系型云數據庫的典型代表,兼容關系型云數據庫的典型代表,兼容 MySQL 與與 PostgreSQL。Amazon Aurora 是 AWS 從 2014 年開始開發并提供的云原生關系型數據庫,專門面向云計算場景,實現了傳統企業數據庫的性能、可用性與開源數據庫的簡單性、成本效益的有機
105、融合,可與 MySQL 和 PostgreSQL 完全兼容。Amazon Aurora 作為高性能數據庫,兼具高性能和高可擴展性、高可用性和持久性、高度安全、完全托管等重要特性,服務三星 Samsung、Halliburton、任天堂 Nintendo、A+E Networks 等多類型客戶。圖表圖表55:Amazon Aurora 數據庫數據庫產品特性及工作原理產品特性及工作原理 資料來源:AWS 官網、華泰研究 以三星 Samsung 為例,由于認證和授權服務的用戶數量激增至 11 億以上,三星決定將橫跨三大洲的 11 億用戶從傳統的 Oracle 數據庫遷移至云數據庫,Amazon Au
106、rora 憑借其兼容性與高性能優勢,成為三星的最終選擇。2019 年 4 月三星完成歐盟區域遷移,2019 年10 月完成中國區域遷移,2020 年 3 月完成美國區域遷移,遷移至云原生的 Amazon Aurora數據庫后,三星運維成本大幅降低,每月數據庫成本降低了 44%,同時可以比以前更快的速度為更多用戶提供服務,90%的延遲不超過 60 毫秒。圖表圖表56:三星三星 Samsung 實現三大洲數據的實現三大洲數據的 Aurora 數據庫遷移數據庫遷移 資料來源:AWS 官網、華泰研究 31 Snowflake:提供數據倉庫、數據湖等多種產品提供數據倉庫、數據湖等多種產品 Snowfla
107、ke 滿足并發性、可擴展性、易用性、平臺中立性需求。滿足并發性、可擴展性、易用性、平臺中立性需求。公司產品完全基于公有云,提供包括數據倉庫(Data Warehouse)、數據湖(Data Lake)在內的多種產品,支持非結構化數據、數據可視化和分析。公司意在打造綜合性的云數據平臺,其數據庫可在三大公有云 AWS、Microsofe Azure 和 Google Cloud Platform 上部署,對于企業多云異構的復雜環境有適用性、中立性,同時亦提供數據交換功能,解決了過去用戶面臨的投入高、靈活度低等問題,可吸引中小型客戶。據公司財報,截至 2022 年 7 月,公司有 6,808 個企業
108、客戶,同比增長 36%,包括全球 2,000 強企業中的 510 家,環比增加 12 家。圖表圖表57:Snowflake 數據湖產品數據湖產品 vs 數據倉庫產品數據倉庫產品 數據湖數據湖 數據倉庫數據倉庫 查詢 即時且幾乎無限數量的并發查詢;使用外部表可以直接查詢數據湖中的數據;數據管道支持實時擴展和可擴展的數據轉換,并輕松地將數據載回數據湖;支持Snowpipe和StreamsTasks自動提取數據并實現連續數據管道的數據變更捕獲;ANSI SQL 有效地轉換數據;外部功能和存儲過程擴展管道;使用分區自動刷新功能從數據湖自動注冊新文件;將外部表與 Apache Hive Metastor
109、e 同步 完全兼容 ANSI SQL,具有對半結構化數據本機支持;支持 SQL 及 BI 和機器學習工具查詢半結構化數據;支持幾乎無限數量的并發用戶和查詢;支持通過 Snowflake Data Marketplace 和私人數據交換訪問共享的數據并將其提供給客戶和合作伙伴;跨主要公共云的單一體驗;跨云數據復制可實現無縫的全局數據訪問 彈性 實時放大或縮小以優化管道性能;使用各種數據類型和不同的接收樣式構建彈性的數據管道;只需幾秒鐘,即可配置大小從極小到 6XL 的計算集群,以滿足需求;選擇多集群計算資源以實現高并發;存儲 向所有數據用戶提供數據的一個副本(一個真實的來源)單一的,受管理的且可
110、立即查詢的數據源;存儲多類型數據,包括JSON和XML;具有 2-3 倍壓縮的低成本云存儲;數據的單個副本可隨時隨地使用 分析 支持與 Snowsight 數據探索,內置的可視化界面 針對流行的 BI 和 Analytics 工具優化了直接連接器;通過 Snowsight 的內置可視化 UI Snowsight 訪問圖表和 SQL 分析;支持 BI 和分析,專用計算資源;對地理空間數據和分析的本地支持 安全 細粒度的訪問控制,例如列級屏蔽和行級過濾;實時,安全的數據共享 權限管理;靜態和傳輸中的自動數據加密;動態數據屏蔽和令牌化;利用功能實現 GDPR 和 CCPA 的合規性;SOC2 類型
111、2,ISO 27001,PCI,HIPAA,FedRAMP 等的認證 資料來源:Snowflake 官網、華泰研究 圖表圖表58:Hadoop vs snowflake hadoop snowflake 表現 可將不同類型數據存儲在分布式環境中,使用MapReduce 進行批處理,使用 Apache Spark 進行流處理 虛擬倉庫提供了隔離的工作負載和容量,可根據需求對工作負載進行分離或分類以及查詢處理 易用性 存在部署、配置和維護成本;較為復雜,需要精通Linux 零維護數據庫,由 Snowflake 團隊完全管理 成本 開源項目,無需許可費,但部署、配置、維護費用較高 無需部署,需要支付
112、存儲空間使用費用、查詢數據花費 數據處理 批量處理在一段時間內收集的大型靜態數據集,但無法用于運行交互式作業或分析 支持批處理和流處理;虛擬倉庫支持低延遲查詢 容災 HDFS 分布式結構保障容災能力 具備容災能力和內置多數據中心 安全 服務級別的授權;支持加密、傳統的文件權限、ACL 通過網絡動態加密,在磁盤上靜態加密,支持基于角色的授權,單點登錄的兩因素和聯合身份驗證 彈性 只能增加集群大小,且需要停機,難以彈性伸縮 可在幾毫秒內完成擴展或縮小 存儲與計算 存儲計算一體 存儲與計算完全分開 資料來源:Snowflake 官網、Hadoop 官網、華泰研究 數據倉庫滿足多種使用場景需求。數據倉
113、庫滿足多種使用場景需求。數據倉庫采取 Shared-nothing 架構,在節點之間不共享任何數據,此外 Snowflake 基于 Multi-cluster,shared data 的概念,將存儲和計算分離,解決了升級擴容時需要重新分配節點資源等痛點。在數據支持方面,Snowfalke 支持結構化和半結構化數據的組合使用,可以接收 JSON、XML 或 Avro 格式的數據,并且支持嵌套和重復數據類型,從而滿足傳統數據庫、Hadoop 等半結構化使用場景的使用需求。32 圖表圖表59:Snowflake 數據倉庫架構數據倉庫架構 資料來源:Snowflake 官網、華泰研究 Snowflak
114、e 數據湖產品強調查詢性能、數據管道集成可擴展、安全等。數據湖產品強調查詢性能、數據管道集成可擴展、安全等。Snowflake 數據湖產品在利用內置數據治理和安全性的同時,實現快速的數據訪問,具備較好的查詢性能,并且對數據轉換進行了良好的支持,通過云的模式為客戶省去運維成本。在查詢性能方面,支持即時和幾乎無限的可擴展性和并發性,此外,通過集成和可擴展的數據管道,實現簡化數據管道開發以優化性能,依靠管道實時可靠地擴展來處理繁重的數據工作量和可擴展的數據轉換;在安全方面,則提供了安全的數據協作功能。圖表圖表60:Snowflake 數據湖數據湖架構架構 資料來源:Snowflake 官網、華泰研究
115、 Snowflake 服務各行業客戶。服務各行業客戶。以 hookit 為例,據公司官網,Snowflake 為 hookit 構建具有可擴展性的多集群共享數據架構數據庫,提高了 Hookit 的運營效率。查詢效率提高 30 倍,每天可自動評估社交帖子 5 億條,數據倉庫基礎架構成本降低 40%,消除了 88的內部支持請求,提升了客戶的運行效率,使客戶能夠專注于產品創新。圖表圖表61:Snowflake 主要服務主要服務客戶客戶 資料來源:Snowflake 官網、華泰研究 33 Databricks:Lakehouse 概念,幫助客戶構建統一分析平臺概念,幫助客戶構建統一分析平臺 Datab
116、ricks 提出提出 Lakehouse(湖倉一體)湖倉一體)概念。概念。Lakehouse 由數據湖 Data Lakes 與數據倉 Data Warehouses 融合而成。普通的數據湖在數據質量、一致性/隔離性、混合處理追加讀取等方面不如數據倉庫。Lakehouse 兼容了數據倉庫和數據湖的優勢,在數據湖的低成本存儲上實現數據倉庫的數據結構和管理功能。Lakehouse 功能包括事務支持、模式執行和治理、商務智能 BI(Business Intelligence)支持、存儲與計算分離、開放性、支持多種數據類型、各種工作負載、端到端流。圖表圖表62:Lakehouse(湖倉一體)(湖倉一體
117、)架構演進及架構演進及功能概覽功能概覽 資料來源:Databricks 官網、華泰研究 Databricks 為客戶提供統一分析平臺為客戶提供統一分析平臺以以提升效率提升效率。Databricks 通過構建統一分析平臺,1)可以簡化跨功能團隊的分析工作流程,使用單一平臺查詢、調試和探索流式處理和批次數據,以及構建和部署 ML 模型;2)打造交互式工作空間,促進與共享筆記本環境的合作,使數據科學家能夠快速實時在模型上進行重復;3)簡化管理,使公司無需人工干預即可完全自動化作業調度、監控和集群管理。以 RB 為例,Databricks 為 RB 提供了一個統一的數據分析平臺,該平臺在數據科學和工程
118、領域營造了可擴展的協作環境,使數據團隊能夠更快地進行創新,并為業務提供 ML 驅動的見解。據公司官網,該方案使得公司業務可支持量提高 10 倍,數據從 80TB 壓縮到 2TB,降低了運營成本,24*7 個任務的數據管道性能提高 2 倍。圖表圖表63:Databricks 主要服務主要服務客戶客戶 資料來源:Databricks 官網、華泰研究 34 國產廠商:傳統廠商國產廠商:傳統廠商積淀深厚,新積淀深厚,新興興廠商聚焦新廠商聚焦新興興技術技術 根據墨天輪發布的國產數據庫流行度最新排行(2022 年 10 月),國產數據庫排名前五名依次為:TiDB、OceanBase、達夢、openGaus
119、s、PolarDB。我們選取傳統數據庫代表武漢達夢、人大金倉,云數據庫代表 OceanBase,GaussDB,新興數據庫代表巨杉數據庫、TiDB、星環科技KunDB作為范例,對國產數據庫廠商的發展歷程及現有產品體系進行了詳細梳理。圖表圖表64:國產數據庫流行程度排行(截至國產數據庫流行程度排行(截至 2022 年年 10 月)月)資料來源:墨天輪、華泰研究 達夢數據:背靠中國電子,主攻混合型數據庫達夢數據:背靠中國電子,主攻混合型數據庫 HTAP 背靠背靠 CEC 中國電子,主攻混合型數據庫中國電子,主攻混合型數據庫 HTAP。武漢達夢成立于 2000 年,是中國電子信息產業集團(CEC)旗
120、下基礎軟件企業,專注于為客戶提供以數據庫軟件、集群軟件、云計算、大數據平臺為代表的全棧數據產品及解決方案,產品涵蓋數據庫、云計算、大數據三大類。在數據庫領域,武漢達夢主攻混合型數據庫 HTAP,旨在用一種數據庫模式處理客戶所有數據庫需求,適合業務廣、數據量大的綜合型客戶使用,目前已掌握數據管理與數據分析領域的核心前沿技術,擁有全部源代碼,具有完全自主知識產權。達夢數據庫產品目前已廣泛應用于金融、電力、航空、通信、電子政務等 30 多個行業領域。圖表圖表65:達夢達夢數據數據產品產品體系及典型數據庫產品體系及典型數據庫產品 注:云計算/大數據產品僅作部分展示 資料來源:達夢數據庫官網、華泰研究
121、35 達夢主推透明分布式數據庫(達夢主推透明分布式數據庫(DMTDD)技術。)技術。達夢提出的 DMTDD 技術包括靈活橫向擴展、完整的 SQL 特性支持、多副本數據異地容災的特點。結合了分布式數據庫高可擴展、高可用、高并發處理能力,并支持傳統數據庫開發接口和業務開發框架的技術架構。(1)靈活橫向擴展:DM8 TDD 采用計算存儲分離的系統架構,實現計算、日志、存儲三層分離,可實現各層獨立擴展、按需配置設備的特點。(2)完整的 SQL 特性支持:支持多表連接查詢、子查詢、視圖嵌套查詢、遞歸表達式查詢等高級查詢語法。提供存儲過程、觸發器、Package、序列等高級功能特性。(3)多副本數據異地容
122、災:支持異地部署,通過將數據副本存儲在不同的容災域,實現數據的異地容災;日志服務本身具備副本與容災能力,可在每個數據中心分別部署;數據庫服務在主機房按需部署,在檢測到災害時,即時啟動。圖表圖表66:達夢透明分布式數據庫(達夢透明分布式數據庫(DMTDD)技術架構技術架構 資料來源:達夢數據庫官網、華泰研究 新一代分布式數據庫新一代分布式數據庫 DMDPC 具備極致的橫向擴展能力具備極致的橫向擴展能力。2022 年,達夢數據發布新一代分布式數據庫產品 DMDPC,DMDPC 數據庫無狀態計算節點,可隨數據庫并發壓力負載按需增加或減少節點,具備極致的橫向擴展能力。同時 DMDPC 支持分布式事務(
123、滿足 ACID規范)、數據分片的多副本容災、多機并行協同計算,適用于 HTAP 場景。DMDPC 架構包括三類節點:1)計劃生成節點 SP:對外提供分布式數據庫服務,也會分配執行帶有匯總性質以及不包含數據掃描操作的子任務;2)數據存儲節點 BP:訪問數據并進行簡單的過濾、投影以及分組操作;3)元數據服務器節點 MP:獲取 SP、BP 節點的數據字典信息。圖表圖表67:達夢達夢新一代新一代分布式數據庫(分布式數據庫(DMDPC)架構架構 資料來源:達夢數據庫官網、華泰研究 36 新一代分布式數據庫新一代分布式數據庫 DMDPC 滿足金融、電網、交通、工業互聯網等多場景需求滿足金融、電網、交通、工
124、業互聯網等多場景需求。1)金融)金融系統:系統:DMDPC 基于改進的多主機 XA 協議、基于分布式環境的多版本并發控制等技術,保證了分布式數據庫對事務 ACID 規范的支持,滿足金融核心業務系統對事物強一致性的需求;2)智慧電網:)智慧電網:支持同城異地多活,可有效支持電網在全國多地的部署聯網;3)智慧交通:)智慧交通:DMDPC 可實現計算資源的按需分配,彈性擴展、支持 GIS 地理信息存儲;4)工業互聯網:)工業互聯網:支持100以上的分布式節點且采用多種安全加固措施,可支撐工業互聯網的數據安全需求。圖表圖表68:DMDPC 滿足金融、電網、交通、工業互聯網多場景需求滿足金融、電網、交通
125、、工業互聯網多場景需求 資料來源:達夢數據庫官網、華泰研究 人大金倉:人大金倉:背靠背靠 CETC 中國電子科技集團,老牌數據庫中國電子科技集團,老牌數據庫 背靠背靠 CETC 中國電子科技集團,中國電子科技集團,是成立最早的國產數據庫企業是成立最早的國產數據庫企業。人大金倉背靠 CETC 中國電子科技集團,由中國人民大學最早一批從事數據庫研究的專家于 1999 年發起創立,先后承擔了國家“863”、“核高基”等重大專項。人大金倉專注數據庫領域 20 余年,具備出色的數據庫產品研發和服務能力,數據庫產品廣泛服務于電子政務、國防軍工、能源、金融、電信等 60 余個重點行業和關鍵領域,截至 202
126、1 年,產品累計裝機部署超百萬套。圖表圖表69:人大金倉發展史人大金倉發展史 資料來源:人大金倉官網、華泰研究 以數據存儲計算為核心,提供完善以數據存儲計算為核心,提供完善的的產品體系。產品體系。人大金倉擁有三類核心產品,分別為數據存儲計算、數據遷移交換以及數據應用分析:1)數據存儲計算:包括金倉數據庫管理系統Kingbase ES(KES)、金倉分析型數據庫 Kingbase Analytics DB(KADB)、金倉 HTAP分布式數據庫 KSOne;2)數據遷移交換:包括金倉數據庫遷移評估系統 KDMS、數據庫遷移工具 KDTS、金倉異構數據同步軟件 KFS;3)數據應用分析:包括數據開
127、發工具 KStudio、云數據庫服務管控平臺 KRDS、數據庫監控工具 KMonitor。其中事務型數據庫 KingbaseES是入選國家自主創新產品目錄的數據庫產品,可滿足各行業用戶多種場景的數據處理需求。37 圖表圖表70:人大金倉人大金倉構建以構建以數據庫數據庫為核心的為核心的產品產品體系體系 資料來源:人大金倉官網、華泰研究 三大三大數據庫產品數據庫產品各具優勢,各具優勢,使用多類型應用場景使用多類型應用場景。1)KES:KingbaseES 作為人大金倉的通用型數據庫產品,是一款面向大規模并發交易處理的企業級關系型數據庫,嚴格支持ACID 特性,具備遷移簡單、高度容錯、系統自治、兼容
128、性好的突出優勢,并提供可覆蓋遷移、開發及運維管理全使用周期的智能便捷工具;2)KADB:KingbaseAnalyticsDB 采用shared-nothing 分布式架構,是一款具有高性能、高擴展性能力的 MPP 數據庫產品,適用于數據倉庫、決策支持、高級分析等分析類應用場景;3)KSOne:是人大金倉自主研發的 HTAP 分布式數據庫,擁有高可靠,高安全,彈性伸縮,高效備份恢復等關鍵能力,可以為海量數據、海量并發用戶、高負載壓力、高連續性要求的業務系統提供強有力支撐。圖表圖表71:人大金倉數據庫人大金倉數據庫優勢對比及典型應用場景優勢對比及典型應用場景 資料來源:人大金倉官網、華泰研究 人
129、大金倉致力于為政務、能源、國防、金融、電信等國家企事業單位提供人大金倉致力于為政務、能源、國防、金融、電信等國家企事業單位提供數據數據解決方案解決方案。人大金倉作為國產數據庫領軍企業,積極推動與產業鏈上下游伙伴產品的兼容適配,涵蓋芯片、操作系統、云平臺、中間件以及上層軟件應用,具備來自上下游 1,300 多家公司超4,000 份兼容認證,全面適配國家專用項目相關產品。人大金倉在部署模式上提供線下部署與線上云適配兩種形式,云聯合方案覆蓋主流云廠商。金倉數據庫產品廣泛服務于電子政務、國防軍工、能源、運營商、金融等 60 余個關鍵行業,涵蓋國家電網、南方電網、中國人民銀行、中國銀行、中國郵政、中國移
130、動等重點企事業單位。38 圖表圖表72:人大金倉人大金倉主要應用場景及客戶概覽主要應用場景及客戶概覽 資料來源:人大金倉官網,華泰研究 阿里阿里 OceanBase:金融級分布式關系數據庫:金融級分布式關系數據庫,核心代碼開源核心代碼開源 發端于阿里內部,發端于阿里內部,2021 年正式開源年正式開源。OceanBase 是由螞蟻金服、阿里巴巴完全自主研發的分布式關系型數據庫,始創于 2010 年,應用于支付寶全部核心業務以及阿里巴巴淘寶業務,從 2017 年開始,開始服務外部客戶。2020 年 6 月 8 日,螞蟻集團將自研數據庫產品OceanBase 獨立進行公司化運作,同年 9 月,中國
131、工商銀行開始采用螞蟻自研數據庫OceanBase,其對公(法人)理財系統已完成從大型主機到 OceanBase 分布式架構的改造。2021 年 6 月,OceanBase3.0 版本發布并正式開源;2022 年 8 月,OceanBase4.0 正式發布,成為業內首個單機分布式一體化數據庫。圖表圖表73:OceanBase 數據庫發數據庫發展歷程展歷程 資料來源:OceanBase 官網、華泰研究 OceanBase 是是金融級分布式關系數據庫金融級分布式關系數據庫,具備在線水平擴展能力具備在線水平擴展能力。OceanBase 是一款針對特殊巨型復雜網絡、超大實時更新數據場景的分布式實時數據庫
132、產品,擁有簡單易用、性能高的特點。該產品定位是一款分布式關系數據庫,適合于金融、證券等涉及交易、支付和賬務等對高可用、強一致要求較高,同時對性能、成本和擴展性有需求的金融屬性場景,以及各種關系型結構化存儲的 OLTP 應用。39 圖表圖表74:OceanBase 典型典型架構架構 資料來源:OceanBase 官網、華泰研究 OceanBase 產品產品體系涵蓋體系涵蓋四大類四大類:1)分布式數據庫:)分布式數據庫:包括社區版、企業版、公有云三大版本,社區版可免費下載,適用于中小企業開發者,企業版適用于追求更高擴展能力、穩定性的中大型企業,公有云版適用于阿里云、AWS 等全球主流公有云場景;2
133、)圖數據庫:)圖數據庫:OceanBase TuGraph 構建了包含圖存儲、圖計算、圖學習、圖研發平臺的完善的圖技術體系,適用于金融、工業、政務等業務場景;3)時序數據庫:)時序數據庫:OceanBase CeresDB 基于 OceanBase 分布式存儲引擎,用來存儲和管理時間序列數據,適用于物聯網 IoT、運維監控等業務場景;4)工具體系:)工具體系:涵蓋數據庫評估、遷移、開發、運維等工具。圖表圖表75:OceanBase 產品體系產品體系及典型數據庫產品及典型數據庫產品 資料來源:OceanBase 官網、華泰研究 OceanBase 從從 3.0 版本起核心代碼正式開源,版本起核心
134、代碼正式開源,打造開源社區,實現生態共贏打造開源社區,實現生態共贏。2021 年 6月 1 日,OceanBase 正式宣布開源,截止 2022 年 8 月,OceanBase 已連接了超過 3 萬多的社區開發者,并有超過 100 位開發者為 OceanBase 貢獻代碼,問答社區的總數據達14,000 多條消息,自開源以來平均每月問答消息超 1,000 條。依托于開源社區的建設,OceanBase 在技術升級、社區活躍、培訓計劃、合作伙伴、用戶免費試用等各個層面不斷加碼,力求成為開源數據庫中的引領者。2022 年公司在發布 4.0 正式版的同時,發布 4.0社區版,MySQL 兼容能力全部開
135、源,享受企業版同等性能,有望進一步推進開源共贏。40 OceanBase 客戶客戶主要集中在銀行、保險證券、政企、互聯網主要集中在銀行、保險證券、政企、互聯網。OceanBase 最早應用于阿里集團的淘寶、網商銀行、支付寶等業務場景,實現了在互聯網、金融交易等業務上的產品沉淀,目前下游客戶主要集中在銀行、保險、證券、政企、互聯網等領域。以中國工商銀行為例,面對工商銀行的 5 級容災要求,OceanBase 結合不同的副本屬性組合實現“數據庫同城雙活、異地 RPO=0 的兩地三中心方案”的容災部署,實現了兩地三中心的城市級容災,解決了容災標準高、建設成本高、備機房資源浪費等問題,滿足 7x24
136、小時服務要求,數據庫服務器資源利用率達到 75%,降低了整體的投入成本。圖表圖表76:OceanBase 主要應用場景及客戶主要應用場景及客戶概覽概覽 資料來源:OceanBase 官網、華泰研究 華為華為 GaussDB:AI 原生原生數據庫,數據庫,擁抱開源生態擁抱開源生態 AI 原生原生&支持異構計算。支持異構計算。華為 GaussDB 是一個企業級 AI-Native 分布式數據庫,可為超大規模數據管理提供高性價比的通用計算平臺,也用于支撐各類數據倉庫系統、BI 系統和決策支持系統,為上層應用的決策分析提供服務。GaussDB 采用 MPP(Massive Parallel Proce
137、ssing))架構,支持行存儲與列存儲,提供 PB 級別數據量的處理能力。GaussDB 是全球首款 AI-Native 數據庫,能夠同時支持 X86、ARM、GPU、NPU 等異構計算,布局全球 7 大區域,服務金融、政企、互聯網、游戲、汽車等行業標桿客戶超 2,500 家。圖表圖表77:GaussDB 數據庫產品發展歷程數據庫產品發展歷程 資料來源:華為官網、華泰研究 41 GaussDB 包含三大產品線包含三大產品線:關系型數據庫、非關系數據庫、數據庫生態工具:關系型數據庫、非關系數據庫、數據庫生態工具/中間件中間件。1)關系型數據庫:關系型數據庫:包括華為自研的云數據庫 GaussDB
138、(for openGauss)、GaussDB(for MySQL)以及非自研的適用于 MySQL、PostergreSQL、SQL Server 的云數據庫 RDS;2)非關系型數據庫:包括華為自研的 GaussDB(for Mongo)、GaussDB(for Cassandra)、GaussDB(for Influx)、GaussDB(for Redis)以及非自研的文檔數據庫服務 DDS;3)數據庫生態工具/中間件:包括數據復制服務 DRS、管理服務 DAS、數據庫和應用遷移 UGO以及分布式數據庫中間件 DDM。圖表圖表78:GaussDB 產品產品體系體系 注:標星的為華為自研產品
139、 資料來源:華為官網、華泰研究 openGauss 擁抱開源。擁抱開源。2019 年 9 月,華為宣布開源其 GaussDB 數據庫,開源后的產品命名為 openGauss,2020 年 6 月 openGauss 源代碼正式開放并發布 1.0.0 版本,同年 7月社區關鍵組織開始運行。openGauss 內核源自 PostgreSQL,代碼自研占比超過 74%,截至 2022 年 6 月開源社區用戶超 64 萬,貢獻者約 3,000 人?;?openGauss 開放生態,華為進一步推出分布式云數據庫 GaussDB(for openGauss),該產品具備企業級復雜事務混合負載能力,同時支
140、持分布式事務強一致、同城跨 AZ 部署、數據 0 丟失,支持 1000+的計算節點擴展能力、4PB 海量存儲,擁有云上高可用、高可靠、高安全、彈性伸縮、一鍵部署等關鍵能力,現已廣泛適用于金融、政企、互聯網等關鍵場景。42 圖表圖表79:華為華為 GaussDB(for openGauss)分布式架構)分布式架構 資料來源:華為官網、華泰研究 GaussDB 適應適應互聯網、金融、游戲互聯網、金融、游戲、汽車、汽車等多業務場景等多業務場景。GaussDB(for openGauss)作為金融級分布式數據庫,具有高性能、高彈性、AI-Native 自治的典型特性,廣泛應用于金融業務場景;Gauss
141、DB(for MySQL)數據庫提供百萬級 QPS,性能最高可以達到 MySQL社區版本的 7 倍、GaussDB(for Mongo)性能最高可以達到 MongoDB 社區版本的 3 倍,滿足游戲業務場景下彈性伸縮、一鍵回檔、快速開服的業務需求;綜合應用 RDS 數據庫、DDS 文檔型數據庫、數據復制服務 DRS、分布式數據庫中間件 DDM 等產品,可構建讀寫分離的分布式架構,為互聯網行業應用提供分布式解決方案。圖表圖表80:GaussDB 主要主要客戶客戶及所屬行業及所屬行業 資料來源:華為官網、華泰研究 巨杉數據庫:自研金融級分布式數據庫巨杉數據庫:自研金融級分布式數據庫的的獨立廠商獨立
142、廠商 專注分布式數據庫技術研發的自研數據庫獨立廠商專注分布式數據庫技術研發的自研數據庫獨立廠商。巨杉數據庫成立于 2012 年,是一家專注分布式數據庫技術研發的自研國產基礎軟件廠商,公司自成立以來,專注數據庫產品研發,堅持從零開始打造原生分布式數據庫引擎,經過多年積累,現已推出分布式數據庫 DB(實時數據湖)、內容管理平臺 CM(多模數據湖)、湖倉融合平臺 DP(湖倉一體)三大產品線,廣泛應用于金融、政府、能源、電信、交通等領域,企業用戶總數超過 1,000 家。43 圖表圖表81:巨杉數據庫巨杉數據庫產品體系產品體系 資料來源:巨杉數據庫官網、華泰研究 從商用首發時間看,巨杉數據庫是國內最早
143、進行商業化布局的分布式數據庫。從商用首發時間看,巨杉數據庫是國內最早進行商業化布局的分布式數據庫。2012 年,SequoiaDB 巨杉數據庫作為獨立數據庫公司開始研發,進行原生分布式架構布局。2013 年SequoiaDB v1.0 產品化正式商用并進軍企業級領域,開始為客戶提供產品及技術服務支持。自研內核具有領先性自研內核具有領先性,支持跨結構化、半結構化、非結構化的多模數據處理支持跨結構化、半結構化、非結構化的多模數據處理。巨杉數據庫堅持自主打造原生分布式數據庫引擎,專注數據庫技術研發,聚焦金融賽道,致力于以金融行業為核心,打造安全可靠、高性能,適合全行業通用的分布式數據庫產品。巨杉分布
144、式數據庫 SequoiaDB 基于巨杉自研的原生分布式內核,研發出引擎級多模及 STP 邏輯時鐘協議分布式數據庫技術,能夠實現分布式交易與 ACID 的完全兼容,同時架構及功能特性與傳統數據庫完全兼容,提供跨引擎事務支持和一致性保障。SequoiaDB 支持多種級別的容災部署形態,如同城雙中心、同城三中心、兩地三中心、三地五中心等,獨創四級熔斷容災安全保護機制,充分保證數據安全,滿足核心交易業務的嚴苛要求。圖表圖表82:巨杉數據庫巨杉數據庫 SequoiaDB 產品產品架構架構 資料來源:巨杉數據庫官網、華泰研究 44 湖倉一體平臺湖倉一體平臺為為數據聯通數據聯通提供解決方案提供解決方案。巨杉
145、推出的湖倉融合平臺 SequoiaDP 以分布式數據庫 SequoiaDB、內容管理平臺 SequoiaCM 為基礎,打破了數據湖與數據倉庫割裂的體系,可以為上層應用提供“一數一源”的數據基礎設施。湖倉一體架構除了具備多模能力,兼容多種結構化數據、半結構化數據和非結構化對象數據引擎以外,還可以提供包括流式計算、高性能列存分析引擎、跨引擎數據 ACID 一致性等能力,支持 Tableau、Power BI、帆軟、SmartBI 等國內外分析工具,解決了獨立建設、管理的數據庫數據互不相通的問題。圖表圖表83:巨杉巨杉湖倉一體平臺湖倉一體平臺為為數據聯通數據聯通提供解決方案提供解決方案 資料來源:巨
146、杉數據庫官網、華泰研究 巨杉主要為金融巨杉主要為金融客戶客戶提供數據庫產品提供數據庫產品,業務延伸至政府、能源、電信等多領域,業務延伸至政府、能源、電信等多領域。巨杉數據庫最早聚焦于金融業務,據公司官網,巨杉數據庫 SequoiaDB 已在超過 100 家大型銀行及金融機構的生產業務規模上線應用。近年來,伴隨公司數據庫產品體系的拓展,公司業務向政府、能源、電信等領域拓展,根據公司官網,截至 2021 年巨杉數據庫企業用戶總數已超過 1,000 家,支持超過 4,096 節點,超 10PB 級別存儲容量,已成功協助客戶在高達 1.2萬億數據量生產環境下,提供安全穩定、可靈活擴展、高性能、高并發的
147、數據底座。圖表圖表84:巨杉數據庫巨杉數據庫客戶客戶概覽概覽 資料來源:巨杉數據庫官網、華泰研究 45 助力助力數據庫數據庫信創生態、支撐信創生態、支撐體系建設。體系建設。巨杉數據庫積極參與信創生態建設,根據 2021 年信創產業技術與應用大會,截至 2021 年 3 月,巨杉已經與鯤鵬、飛騰、統信、銀河麒麟等產品完成兼容認證,合作伙伴總數超 50 家,為企業客戶打開豐富的上下游產品生態。得益于引擎級多模的高度兼容,巨杉數據庫現已與近百家企業的200+產品完成了兼容測試與認證,產品對接時間平均降低到 15 個工作日,為企業客戶打開豐富的上下游生態。2019 年,巨杉數據庫搭建“巨杉大學”認證與
148、學習體系,講師團隊由巨杉數據庫官方的數據庫架構師、資深分布式技術專家以及開源社區技術大咖共同組成。截至 2021 年 6 月,已有超 180 家金融機構,30 余家知名技術服務開發商參加巨杉大學計劃。截至 2020 年底,經過短短 1 年的發展,巨杉大學已認證工程師超過 1 萬人,網站用戶注冊數量超過 5 萬人,為分布式技術業界發展提供堅實的人才積淀。PingCAP TiDB:開源分布式關系型數據庫:開源分布式關系型數據庫 TiDB 為為 PingCAP 自主研發的自主研發的一棧式實時一棧式實時 HTAP 數據庫數據庫。PingCAP 公司成立于 2015 年,借鑒 Google Spanne
149、r 及 F1 論文的實現,TiDB 在 Github 上開源,從僅有 SQL 層及 KV 層的 beta 版本到現在已經衍生出龐大家族的 6.0 版本,始終圍繞著為用戶提供一棧式 OLTP、OLAP、HTAP 解決方案的目標演進。在內核設計上,TiDB 分布式數據庫將整體架構拆分成了多個模塊,各模塊之間互相通信,組成完整的 TiDB 系統。與傳統的單機數據庫相比,TiDB 的純分布式架構擁有良好的擴展性且具有豐富的工具鏈生態,覆蓋數據遷移、同步、備份等多種場景。2022 年,TiDB Cloud 正式商用,TiDB 支持本地和云部署兩種方式。圖表圖表85:TiDB 產品發展歷程產品發展歷程及產
150、品架構及產品架構 資料來源:TiDB 產品與解決方案,TiDB(2022)、華泰研究 TiDB 適應多應用場景適應多應用場景。依托純分布式架構及開源社區,TiDB 持續擴展出豐富的應用場景:1)對數據一致性及高可靠、系統高可用、可擴展性、容災要求較高的金融場景:)對數據一致性及高可靠、系統高可用、可擴展性、容災要求較高的金融場景:TiDB 采用多副本+Multi-Raft 協議的方式將數據調度到不同的機房、機架、機器,當部分機器出現故障時系統可自動進行切換;2)對存儲容量、可擴展性、并發要求較高的海量數據及高并發的)對存儲容量、可擴展性、并發要求較高的海量數據及高并發的 OLTP 場景:場景:
151、TiDB 采用計算、存儲分離的架構,可對計算、存儲分別進行擴容和縮容,計算最大支持 512 節點,每個節點最大支持 1000 并發,集群容量最大支持 PB 級別;3)Real-time HTAP 場景:場景:TiDB 在 4.0 版本中引入列存儲引擎 TiFlash,結合行存儲引擎TiKV 構建真正的 HTAP 數據庫,在增加少量存儲成本的情況下,可以同一個系統中做聯機交易處理、實時數據分析,極大地節省企業的成本;46 4)數據匯聚、二次加工處理的場景:)數據匯聚、二次加工處理的場景:TiDB 通過 ETL 工具或者 TiDB 的同步工具將數據同步到 TiDB,在 TiDB 中直接生成報表,便
152、于將分散在不同系統中的數據匯總,以便決策層了解公司的整體業務狀況及時做出決策?!伴_源社區”助力“開源商業化”?!伴_源社區”助力“開源商業化”。PingCAP 擁有豐富的開源社區活動,形成開源社區和自身研發的有效協同。通過開源及免費策略,快速擴展開發者及技術粉絲用戶群體,實現未來商業變現機會的長期積累。據 GitHub,截至 2022 年 8 月,TiDB 項目在 GitHub 上已總計獲得超 32,000 顆星,超 1,800 位開源代碼貢獻者,高度活躍的開源社區為 TiDB 產品發展帶來了正向反饋閉環。TiDB 已廣泛應用于互聯網、游戲、金融、政府等多領域。圖表圖表86:TiDB 數據庫數據
153、庫國內用戶國內用戶概覽概覽 資料來源:TiDB 官網、華泰研究 星環科技星環科技:專注企業級大數據服務,布局分布式數據庫:專注企業級大數據服務,布局分布式數據庫 布局分布式數據庫,布局分布式數據庫,搭建數據服務閉環。搭建數據服務閉環。星環科技成立于 2013 年,專注于企業級容器云計算、大數據和人工智能核心平臺的研發和服務,目前已形成包括大數據與云基礎平臺(大數據基礎平臺 TDH、數據云平臺 TDC)、分布式關系型數據庫(ArgoDB、KunDB)、數據開發與智能分析工具(大數據開發工具 TDS、智能分析工具 Sophon)在內的產品體系。ArgoDB 與 KunDB 分別為分析型、交易型數據
154、庫產品:1)ArgoDB:是一款具備多模型、聯邦等特性的高性能分析型分布式數據庫,于 2019 年成為全球第四個通過 TPC-DS 基準測試并經過 TPC 官方審計的數據庫產品;2)KunDB:是一款兼容 SQL 標準語言的交易型分布式數據庫,可支持高并發交易場景的核心業務。47 圖表圖表87:星環科技產品體系及發展歷程星環科技產品體系及發展歷程 資料來源:星環科技招股說明書、華泰研究 ArgoDB 滿足數據多模、聯邦計算需求。滿足數據多模、聯邦計算需求。與傳統的 MPP 數據庫相比,ArgoDB 具有存算解耦結構,存儲和計算獨立按需擴縮容,具備更強的可擴展性、一致性、平滑適配云原生架構等優勢
155、。2022年最新發布的 ArgoDB 5.0推出新一代的向量化計算引擎和多模存儲引擎,分析能力達到了同類數據庫產品 210 倍,同時可提供多模分析,擁有實時數據處理、AETP混合負載、聯邦計算、隱私計算等能力,可一站式滿足湖倉集一體化建設需求。圖表圖表88:星環科技分析型數據庫星環科技分析型數據庫 ArgoDB 5.0 架構架構 資料來源:星環科技官網、華泰研究 KunDB 支持高并發交易場景的核心業務。支持高并發交易場景的核心業務。KunDB 具有業內領先的事務處理性能,SQL 兼容性以及最新的分布式查詢優化技術,支持復雜查詢且性能是 MySQL 的 10 倍以上,充分滿足高并發、大數據量的
156、交易型業務場景。升級后 KunDB 3.0 高度兼容 Oracle 語法及PL/SQL,基于升級的 TSO 全新分布式事務架構,性能領先主流開源 NewSQL 5 倍以上,分布式查詢優化和向量化執行引擎技術支持 TPCH 復雜分析,并提供一體化實時 HTAP,支持一致性備份恢復及容災,全面助力數據庫國產化升級。48 圖表圖表89:星環科技交易型數據庫星環科技交易型數據庫 KunDB 3.0 架構架構 資料來源:星環科技官網、華泰研究 星環科技數據庫星環科技數據庫服務服務能源、金融、政府、交通等能源、金融、政府、交通等多業務多業務場景。場景。ArgoDB 主要用于構建離線數據倉庫、實時數據倉庫、數據集市等數據分析系統,適用于構建能源、物聯網、政務等大數據平臺的業務場景。KunDB 適用于對數據具有高并發讀寫需求,同時需要 ACID 保證的交易型場景,如金融、電信、能源等核心業務系統;也適用于對數據庫有高并發和大容量存儲需求的場景,如物聯網、日志存儲等系統。此外,公司結合 KunDB 和 ArgoDB 打造了一體化實時AETP技術(分析增強型交易庫),可以同時支撐交易與分析混合型的業務場景。圖表圖表90:星環科技數據庫星環科技數據庫主要應用場景及客戶概覽主要應用場景及客戶概覽 資料來源:星環科技官網、華泰研究