【研報】計算機行業: 分布式數據庫或成為新增量-210402(35頁).pdf

編號:33348 PDF 32頁 1.02MB 下載積分:VIP專享
下載報告請您先登錄!

【研報】計算機行業: 分布式數據庫或成為新增量-210402(35頁).pdf

1、 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 1 證券研究報告 計算機計算機 分布式分布式數據庫數據庫或成為新增量或成為新增量 華泰研究華泰研究 計算機計算機 增持增持 ( (維持維持) ) 行業行業走勢圖走勢圖 資料來源:華泰研究,Wind 2021 年 4 月 02 日中國內地 專題研究專題研究 數據庫行業螺旋上升,分布式數據庫或成新增量數據庫行業螺旋上升,分布式數據庫或成新增量 縱觀計算機行業發展歷程,計算載體經歷了從大型機到小型機,再到分布式數據中心的演變。在數據庫領域,小型機時代促成了 Oracle 等關系型數據庫興起,分布式架構時代 AWS、Snowflake 等

2、分布式數據庫興起。在計算載體變革的過程中,數據庫市場往往不是簡單的代替舊市場,而是不斷創造新的增量。 據 Garter, 2018 年全球數據庫管理系統市場規模達 461 億美元,預計于 2024 年整體市場規模達千億美元,但與此同時關系型數據庫市場規模增長漸趨平緩。伴隨著分布式計算架構的興起,分布式數據庫或成為數據庫市場新的增量,以史為鑒,該領域也有望誕生新的龍頭。 數據、計算場景變革推動分布式數據庫時代到來數據、計算場景變革推動分布式數據庫時代到來 隨著智能終端的普及及云計算的興起, 據 IDC 全球數據產生量從 2010 年的1.2ZB 上升至 2018 年的 33ZB。另一方面,數據類

3、型不斷豐富,非結構化數據逐漸增加。應運而生的分布式數據庫能夠較好的滿足大數據分析的需求。而隨著 Snowflake、Databricks 等廠商推出分布式數據庫產品滿足云計算、大數據的使用需求,分布式數據庫時代到來的趨勢逐步確定。 開源或商業閉源模式均導向企業級服務,自研內核具有穩定性優勢開源或商業閉源模式均導向企業級服務,自研內核具有穩定性優勢 數據庫在 IT 架構中向下對接操作系統,直接調度硬件,向上則需支撐大量不同形態的上層應用。與應用軟件相比,數據庫作為基礎軟件更加注重穩定性。開源與商業閉源模式的商業策略,最終均需要導向優質的產品及企業級服務,為客戶創造價值,獲得客戶及行業認可。另一方

4、面,自研內核有助于數據庫廠商從源頭解決問題,并且能掌握迭代控制權,同樣是影響穩定性的重要因素,因此自研內核廠商有望憑借穩定性在企業級服務市場獲得優勢。 數據庫的六大評判維度數據庫的六大評判維度 我們認為評判數據庫有六大維度,除了上文提到的商業架構、內核基礎外,還包括品牌基因、技術架構、商業落地、人才體系。其中品牌基因影響技術路線、側重領域、應用場景等。技術架構方面,分析型、大數據場景驅動分布式數據庫發展。 商業落地方面, 金融、 電信等的落地場景由于具備高并發、宕機代價高的特點, 因此在這一領域的商業落地案例一定程度上能夠說明數據庫產品穩定性高。人才體系則體現了數據庫廠商的生態建設成效。 風險

5、提示:市場競爭加劇,芯片及 AI 行業發展導致 IT 投資傾斜。 (3)13284459Apr-20Jul-20Nov-20Mar-21(%)計算機滬深300 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 2 計算機計算機 正文目錄正文目錄 數據庫行業:行業螺旋上升,分布式數據庫時代到來數據庫行業:行業螺旋上升,分布式數據庫時代到來 . 3 數據庫發展需要關注增量市場,分布式數據庫或成新機遇 . 3 數據庫發展歷程復盤:計算載體變革往往催生新興數據庫龍頭 . 5 進入戰國時代,云計算場景推動分布式數據庫時代到來 . 8 分布式數據庫滿足云計算場景的需求 . 8 Snowflak

6、e、Databricks 引領數據湖興起. 10 Snowflake:提供數據倉庫、數據湖等多種產品 . 10 Databricks:Lakehouse 概念,幫助客戶構建統一分析平臺. 13 數據庫六大評判維度數據庫六大評判維度 . 14 品牌基因:品牌定位和創始團隊背景 . 14 商業模式:基礎軟件需要企業級服務,開源具有兩面性 . 14 內核基礎:原廠自研能力關鍵,掌控核心代碼或成重要競爭力 . 15 技術架構:不同數據庫適用于不同場景 . 16 落地情況:中標客戶行業&應用場景 . 18 公開的人才體系:自營培訓認證體系、企業技術級社區 . 19 國內數據庫市場:新興與傳統廠商并存國內

7、數據庫市場:新興與傳統廠商并存 . 21 人大金倉:背靠 CETC 中國電子科技集團,老牌數據庫 . 21 武漢達夢:背靠中國電子,主攻混合型數據庫 HTAP . 22 巨杉數據庫:自研金融級分布式數據庫獨立廠商 . 23 PingCAP TiDB:開源分布式關系型數據庫 . 26 阿里 Oceanbase:金融級分布式關系數據庫 . 27 華為 GaussDB:AI 原生,支持異構計算 . 29 總結:分布式數據庫或誕生新龍頭,關注六大評判維度總結:分布式數據庫或誕生新龍頭,關注六大評判維度 . 31 風險提示. 32 oPrPnQpMsRvMvNuNnPvMmM7NaObRpNoOmOpO

8、iNnNrNfQnNoQ6MrRwONZoNyRxNtOnP 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 3 計算機計算機 數據庫行業:行業螺旋上升,分布式數據庫時代到來數據庫行業:行業螺旋上升,分布式數據庫時代到來 數據庫發展需要關注增量市場,分布式數據庫或成新機遇數據庫發展需要關注增量市場,分布式數據庫或成新機遇 數據庫的發展數據庫的發展與計算載體緊密相關。與計算載體緊密相關。數據庫是計算機行業的基礎核心軟件,所有應用軟件的運行和數據處理都要與其進行數據交互。數據庫的開發難度,不僅體現在與其他基礎器件的適配,更在于如何實現對數據高效、穩定、持續的管理。從數據庫的發展歷程來

9、看,計算架構的變化,計算載體的變化、計算場景的變化,以及計算數據格式的變化都對數據庫的發展帶來的一定的影響?;蛘哒f,在以上計算環境變化下,其需要的數據庫類型也發生了變化。 從計算載體來看從計算載體來看,數據的計算從原來的大型機、到小型機、個人電腦 PC、互聯網、移動互聯網、云計算,以及未來更多終端的物聯網智能終端。計算的載體更加多樣化。 從計算場景來看從計算場景來看,數據計算也從單獨的單機計算,到互聯網多群體交互的聯網計算和云計算,以及萬物互聯的高并發、低時延的物聯網計算。 從計算架構來看從計算架構來看,傳統的 IT 架構也正逐步向云架構遷移。我們也經歷了從 C-S 架構到 B-S架構,而目前

10、的云原生、分布式計算架構正對傳統計算架構帶來深刻變革。而新的計算架構也對計算的基礎軟件(操作系統、數據庫、芯片等)提出更高的需求。 圖表圖表1: 計算的變化計算的變化 資料來源:華泰研究 在以上計算環境的變化下,我們看到,聯網的數據也在發生深刻變化。在以上計算環境的變化下,我們看到,聯網的數據也在發生深刻變化。 數據的大小數據的大小。目前聯網數據量也在高速增長。通信技術的發展帶動從 2G 到 3G、4G、5G的演進,每代通信技術之間,聯網的數據規模也呈現(幾個)數量級的增加。對大容量、高性能計算提出更高要求。 數據的類型數據的類型。計算場景的演變,我們對數據的定義也在發生變化。圖片、語音、視頻

11、等非結構化數據成為增量數據的主要類型。聯網的數據類型也逐步從原來的結構化數據到非結構化數據演變,這就對計算的并發性提出了更高的要求。 數據的快慢數據的快慢。對數據的高速計算是計算機一直以來的追求。但原有的 IT 架構下,計算速度的提升存在一定的物理條件限制。經典的 IT 架構已經存在了幾十年的歷史,當時的 IT 架構并沒有完全考慮到目前計算場景的變化。因此,新的計算場景下,對數據高速計算的追求,需要我們從底層基礎軟件的變革開始。我們看到無論芯片、操作系統還是數據庫,都在經歷深刻變革。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 4 計算機計算機 圖表圖表2: 數據的變化數據的

12、變化 資料來源:華泰研究 在以上計算和數據多個維度變化的情況下,我們認為,數據庫行業也正在經歷歷史演進的深刻變革。在傳統計算環境和數據類型方面,傳統數據庫依然發揮比較重要的作用。但在面向未來新的計算場景方面,我們需要的可能是新型的數據庫產品。這種新型數據庫,是計算架構遷移、計算載體演進以及計算環境變化之后的產物;同時,也是數據規模大幅增加,數據結構變化之后所需要的產品。 圖表圖表3: 數據庫發展數據庫發展 資料來源:華泰研究 全球關系型數據庫市場增速漸趨平穩。數據庫是對數據的管理,全球關系型數據庫市場增速漸趨平穩。數據庫是對數據的管理,數據庫誕生于上世紀 60 年代,傳統的數據庫產品面臨的是以

13、事務型、交易處理為主的任務,事務支持性能較好的關系型數據庫如 Oracle、 DB2 迅速興起。 而近年來, 傳統的關系型數據庫市場增長漸趨平穩,據Gartner, 2018年全球數據庫管理系統 (DBMS) 市場規模達461億美元, 同比增長18.4%,增速達到近十年峰值。但關系型數據庫市場增長漸趨平緩,據 T4.ai 預測,全球關系型數據庫市場規模 2018-2022E CAGR 為 6%,較 2012-2017 的 11%或將有所下降。 數據量上升催生分析需求,數據庫市場新機遇顯現。數據量上升催生分析需求,數據庫市場新機遇顯現。隨著智能移動手機的普及及云計算的興起,全球數據產生量不斷上升

14、,從 2010 年的 1.2ZB 上升至 2018 年的 33ZB。未來幾年內隨著各類智能物聯設備的推廣以及云計算的進一步應用,數據量有望進一步上升。隨著數據量上升,大數據分析的需求逐步顯現,傳統的關系型數據庫在高并發、分析等方面存在一定的劣勢,應運而生的分布式數據庫能夠較好的滿足大數據分析的需求,或形成數據庫市場新的增量。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 5 計算機計算機 圖表圖表4: 全球全球數據庫市場規模數據庫市場規模 圖表圖表5: 全球全球數據數據產生量產生量 資料來源:Gartner、華泰研究 資料來源:IDC、華泰研究 圖表圖表6: 數據庫數據庫演進演

15、進 資料來源:華泰研究 數據庫發展歷程復盤:計算載體變革往往催生新興數據庫龍頭數據庫發展歷程復盤:計算載體變革往往催生新興數據庫龍頭 階段一:大型機到小型機時代促成了階段一:大型機到小型機時代促成了 Oracle 的興起的興起 上世紀上世紀 90 年代小型機興起促成年代小型機興起促成 Oracle 興起。興起。上世紀 80 年代到 90 年代,IBM PC 兼容機的出現使新興中小廠商能夠提供價格更低,并且同樣能兼容多種第三方軟件的計算機產品,IBM PC 兼容機市場份額也因此迅速增長,推動了計算機在美國家庭內普及。此后,Windows3.0 于 1990 年推出, 提供了較為成熟的圖形界面操作

16、系統, 推動了計算機的普及。這一階段內,Oracle 數據庫等產品最終戰勝了主機數據庫占領了這一新增市場,從收入規模變化看,1990-2000 年 Oracle 營業收入高速增長,期間 CAGR 達到 27.3%。 171461100002004006008001,0001,200200720182024E億美元數據庫市場規模123479162233441630204060801001201401601802010201120122013201420152016201720182020E2025EZB全球數據產生量 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 6 計算機計算機

17、 圖表圖表7: 90 年代美國計算機銷售快速增長年代美國計算機銷售快速增長 資料來源:Wind、華泰研究 圖表圖表8: 90 年代年代 Oracle 營業收入規模高速增長營業收入規模高速增長 資料來源:公司年報、華泰研究 技術積累幫助技術積累幫助 Oracle 開拓小型機市場。開拓小型機市場。 基礎軟件從產品誕生到走向成熟往往需要十年左右的時間。以 Oracle 為例,公司于上世紀 80 年代初開始產品化,一直處于技術與商業的積累過程。 直到 1992 年, 公司推出旗艦產品 Oracle7, 迅速把握小型機發展帶來的市場機遇,在與 IBM DB2 for LUW、Informix、Sybas

18、e 等著名數據庫廠商的一系列競爭后,一躍成為行業的霸主。 圖表圖表9: Oracle 主要數據庫產品(主要數據庫產品(2010 前)前) 時間時間 數據庫產品數據庫產品 特點特點 1979 Oracle2 商業 SQL 實現 1985 Oracle5 多版本讀取一致性 1988 Oracle6 分布式 SQL&事務處理 1992 Oracle7 旗艦產品,數據庫倉庫優化 1997 Oracle8 新增對象關系 1998 Oracle8i 全方位 JAVA 支持;為互聯網開發設計 2001 Oracle9i RAC、OLAP 2003 Oracle10g 自我管理數據庫 2007 Oracle1

19、1g 數據庫保險庫 資料來源:公司官網、華泰研究 階段二:小型機到分布式時代,階段二:小型機到分布式時代,AWS 興起興起 分布式架構時代,分布式架構時代,AWS 等數據庫興起。等數據庫興起。隨著數據量的增長,傳統數據庫面臨挑戰,分布式數據庫的訪問模式從過去單一標準化的 SQL,向包括 SQL 在內的多種訪問模式轉化,催生了分布式數據庫的發展。2005 年起,人們開始了針對分布式數據庫的探索,以 HBase、Cassadra、MongoDB 為代表的 NoSQL 數據庫快速發展。此類數據庫通過提供 KV 接口、0%10%20%30%40%50%60%70%0204060801001201401

20、60197819801982198419861988199019921994199619982000200220042006200820102012201420162018美國GDP物量指數:計算機最終銷售變化率-20%-10%0%10%20%30%40%50%60%0501001502002503003504004501990199119921993199419951996199719981999200020012002200320042005200620072008200920102011201220132014201520162017201820192020億美元營業收入同比 免責聲明和

21、披露以及分析師聲明是報告的一部分,請務必一起閱讀。 7 計算機計算機 簡化存儲模型等方式實現容量水平擴展,但對業務的支撐有所減弱。2012 年左右隨著Google 關于 Spanner 和 F1 論文的發表,以 Aurora、Spanner 為代表的分布式數據庫迅速發展。分布式數據庫結合了非關系型數據庫的存儲管理能力、關系數據庫的 ACID 特性和SQL 便利性。從結果看,分布式技術歷經十年左右的發展,如今逐步被大量企業接受,而在這一階段內,AWS aurora 等新興數據庫逐步興起。 國產分國產分布式數據庫布式數據庫 2011 年陸續起步。年陸續起步。自 2011 年起,以 Oceanbas

22、e、巨杉數據庫、TiDB為代表的國產分布式數據庫相繼誕生。三者發展路徑及商業化時間有所區別,其中Oceanbase 誕生于 2011 年,最初主要用于阿里集團內部,在 2017 年首次實現商用;巨杉數據庫誕生于 2011 年,于 2013 年正式發布商用版本,并持續服務于金融銀行行業;TiDB于 2015 年發布,重點經營開源策略。 圖表圖表10: 分布式數據庫發展歷程分布式數據庫發展歷程 資料來源:各公司官網、華泰研究 AWS 發展全新的技術體系,把握分布式數據庫浪潮。發展全新的技術體系,把握分布式數據庫浪潮。AWS 數據庫平臺可以視為一個大型數據服務資源池,在底層共享統一的存儲與計算資源,

23、在上層則提供了 Aurora、RDS、DynamoDB、Neptune 等數據庫服務實例,從而實現對更多業務場景和服務模式的覆蓋。通過全新的技術體系,亞馬遜 AWS 滿足了多樣化的計算需求,2013-2020 年收入 CAGR達到 46.7%。并且憑借云計算業務的快速擴張,獲得了領先的市場地位。截至 2019 年,據Canalys,AWS 在云基礎設施市場份額達到 32.3%,具有一定的優勢。 圖表圖表11: AWS 收入及占亞馬遜總收入比收入及占亞馬遜總收入比 圖表圖表12: 2019 年全球云基礎設施市場份額年全球云基礎設施市場份額 資料來源:公司年報、華泰研究 資料來源:Canalys、

24、華泰研究 0%10%20%30%40%50%60%70%80%010020030040050020132014201520162017201820192020億美元AWS增速占比AWS32%Microsoft Azure17%Google Cloud6%Alibaba Cloud5%Others40% 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 8 計算機計算機 圖表圖表13: AWS 數據庫技術體系數據庫技術體系 資料來源:AWS 官網、華泰研究 進入戰國時代,云計算場景推動分布式數據庫時代到來進入戰國時代,云計算場景推動分布式數據庫時代到來 分布式數據庫滿足云計算場景的需

25、求分布式數據庫滿足云計算場景的需求 計算場景不斷變化,云成為重要的計算場景。計算場景不斷變化,云成為重要的計算場景。不同的計算場景對數據庫有不同的要求,隨著數據量的不斷增長,傳統的終端計算場景難以滿足大量的數據處理需求。而云計算將計算與存儲資源彈性、動態分配,邊緣計算通過邊緣節點提升了計算的效率,實現了高效的數據處理,云端、邊緣端的計算場景重要性逐步提升。據 Gartner,全球云計算市場規模由2011 年的 910 億美元增長到 2019 年的 1880 億美元,期間 CAGR 達到 9.5%。 圖表圖表14: 全球云計算市場規模全球云計算市場規模 資料來源:Gartner、華泰研究 分布式

26、數據庫能夠較好滿足云計算場景的需求。分布式數據庫能夠較好滿足云計算場景的需求。分布式數據庫將數據庫進行資源池化管理,具備多模式、多租戶、HTAP、彈性擴張、高可用等特性,與云計算、分布式應用開發模式相匹配。分布式數據庫包括底層數據庫資源池化管理、多模式兩大重要特點。 (1)底層數據庫資源池化管理:)底層數據庫資源池化管理:指以資源池的方式,上層應用中所有模塊在底層數據庫資源池中創建獨立的數據庫實例,服務于自身業務。每一個數據庫實例可以提供完全不同的兼容 MySQL、PostgreSQL、MongoDB、S3 等接口,也可以將所使用的底層物理資源擴展到多個服務器中做到自由伸縮,同時也能夠保障不同

27、實例之間的數據可以根據策略做到物理或邏輯層面的相互隔離。 在這種體系架構中, 應用程序依然能保持獨立的微服務形態。 91188360050100150200250300350400201120192023E十億美元全球云計算市場規模 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 9 計算機計算機 (2) “多模式”特性:) “多模式”特性:指同一套分布式架構底座同時支撐上層超過一種數據訪問接口,訪問方式包括但不限于 SQL 引擎、類似 JSON 的半結構化數據、S3 的非結構化數據、KV 鍵值對存儲、圖數據庫接口、時序型數據接口等。通過此種方式,可以對存儲于不同的物理服務器、不

28、同格式的數據進行數據結構與算法的優化,從而形成“數據服務平臺” ,突破數據庫類型的限制,對上層不同類型的應用同時提供多種類型的數據服務。 圖表圖表15: 云原生概念變遷云原生概念變遷 資料來源:云原生計算基金會、華泰研究 分布式數據庫滿足云原生需求,或將成為新的增長點:分布式數據庫滿足云原生需求,或將成為新的增長點:從云原生概念變遷看,云原生使用微服務、容器等技術,目的在于提供更加敏捷的服務支持,協助業務更易于實現擴展及持續交互。分布式數據庫通常是基于一個數據集合,這些數據分布在由計算機網絡連接起來的若干節點上,每個節點可以管理本地的數據應用,也可以參與全局數據應用,同時這些數據在邏輯上形成一

29、個整體,由統一的數據庫管理系統進行管理。從架構上看,分布式數據庫提供了靈活的數據服務支持,實際上是一種“云原生”的架構體現。 圖表圖表16: 全球數據庫市場規模(分類別)全球數據庫市場規模(分類別) 資料來源:IDC、華泰研究 大數據向分布式數據庫傾斜,或形成新增量。大數據向分布式數據庫傾斜,或形成新增量。以 Hadoop 為代表的第一代大數據系統框架對大數據技術的落地起了重要的作用。Hadoop 起源于 2004 年,并于 2006 年成為一套獨立完整的軟件。Hadoop 主要包括文件系統 HDFS 及計算系統 MapReduce,采用計算存儲一體化的方式,將巨大的數據集分派到由普通計算機組

30、成的集群中的多個節點進行存儲, 并能對數據進行索引和跟蹤。但隨著數據量和分析需求的復雜性的進一步增加,Hadoop 中“Map+Reduce 模型不適合描述復雜的數據處理過程” 、 “查詢效率較低” 、 “時刻在線處理導致使用成本高”等問題逐步顯現,分布式數據庫或成為大數據領域的新選擇。 0100200300400500600700800數據庫云數據庫操作型云操作型數據倉庫云數據倉庫億美元20192024E 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 10 計算機計算機 圖表圖表17: Hadoop 生態模型生態模型 資料來源:Hadoop 官網、華泰研究 Snowflake

31、、Databricks 引領引領數據湖興起數據湖興起 數據倉庫性能較強,數據湖更具靈活性。數據倉庫性能較強,數據湖更具靈活性。數據倉庫與數據湖側重點有所區別,數據倉庫關注的是數據使用效率和數據管理, 為企業各級別、 業務線的決策制定提供統一的數據支持,其數據主要來源于業務系統,存儲格式以結構化為主,并且歷經加工清洗,數據形態顯得更加范式化、模型化,因此數據的靈活度較低。相比之下,數據湖則是以原生格式(或者經過粗加工后)進行積累和沉淀,格式豐富多樣,有結構化、半結構化、非結構化類型,強調數據的原始性、靈活性和可用性。相比數據倉庫,數據湖所儲存的數據類型更加豐富,同時開放存儲讓上層引擎靈活度增加,

32、引擎可隨意讀寫數據湖中數據,兼容的寬松性強。但另一方面,數據湖中文件系統直接訪問使得很多更高階的功能很難實現,如細粒度權限管理、讀寫接口升級等。 圖表圖表18: 數據湖數據湖 vs 數據倉庫數據倉庫 數據湖數據湖 數據倉庫數據倉庫 靈活性靈活性 啟動成本低,靈活性強 啟動成本高,需專業學習,靈活性較差 數據類型數據類型 數據類型豐富 數據類型單一 計算存儲計算存儲 計算存儲分離提升穩定性 傳統架構不分離 引擎引擎 引擎結構豐富 針對少量場景的高度優化引擎 功能成熟度功能成熟度 數據追蹤等相關功能成熟度不高 能實現細粒度權限管理、讀寫接口升級等功能 安全安全 安全組件效果參差不齊 統一身份認證,

33、安全性高 規模規模 單集群的最大規模有限 多集群的最大規模大 資料來源:Databricks 官網、Snowflake 官網、華泰研究 Snowflake:提供數據倉庫、數據湖等多種產品:提供數據倉庫、數據湖等多種產品 Snowflake 滿足并發性、可擴展性、易用性、平臺中立性的需求。滿足并發性、可擴展性、易用性、平臺中立性的需求。公司完全基于公有云,提供包括數據倉庫(Data Warehouse) 、數據湖(Data Lake)在內的多種產品,支持非結構化數據、數據可視化和分析。公司意在打造綜合性的云數據平臺,其數據庫可在三大公有云 AWS、Azure 和 Google Cloud Pla

34、tform 上部署,對于企業多云異構的復雜環境有適用性、中立性,同時亦提供數據交換功能,解決了過去用戶面臨著投入高、靈活度低等問題,可吸引中小型客戶。據公司財報,截至 2020 年 7 月,公司有 3117 個企業客戶,同比增長超 100%,截至 2021 財年 Q3,公司的數據提供商已經突破 100 家。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 11 計算機計算機 圖表圖表19: Snowflake 數據湖產品數據湖產品 vs 數據倉庫產品數據倉庫產品 數據湖數據湖 數據倉庫數據倉庫 查詢查詢 即時且幾乎無限數量的并發查詢; 使用外部表可以直接查詢數據湖中的數據; 數據

35、管道支持實時擴展和可擴展的數據轉換,并輕松地將數據載回數據湖; 支持 Snowpipe 和 StreamsTasks 自動提取數據并實現連續數據管道的數據變更捕獲; ANSI SQL 有效地轉換數據; 外部功能和存儲過程擴展管道; 使用分區自動刷新功能從數據湖自動注冊新文件;將外部表與 Apache Hive Metastore 同步 完全兼容 ANSI SQL,具有對半結構化數據本機支持; 支持 SQL 及 BI 和機器學習工具查詢半結構化數據; 支持幾乎無限數量的并發用戶和查詢; 支持通過 Snowflake Data Marketplace 和私人數據交換訪問共享的數據并將其提供給客戶和

36、合作伙伴; 跨主要公共云的單一體驗; 跨云數據復制可實現無縫的全局數據訪問 彈性彈性 實時放大或縮小以優化管道性能;使用各種數據類型和不同的接收樣式構建彈性的數據管道; 只需幾秒鐘,即可配置大小從極小到 6XL 的計算集群,以滿足需求;選擇多集群計算資源以實現高并發; 存儲存儲 向所有數據用戶提供數據的一個副本(一個真實的來源) 單一的,受管理的且可立即查詢的數據源;存儲多類型數據,包括 JSON 和 XML;具有 2-3 倍壓縮的低成本云存儲;數據的單個副本可隨時隨地使用; 分析分析 支持與 Snowsight 數據探索,內置的可視化界面 針對流行的 BI 和 Analytics 工具優化了

37、直接連接器;通過Snowsight 的內置可視化 UI Snowsight 訪問圖表和 SQL 分析;支持 BI 和分析,專用計算資源;對地理空間數據和分析的本地支持 安全安全 細粒度的訪問控制,例如列級屏蔽和行級過濾;實時,安全的數據共享 權限管理;靜態和傳輸中的自動數據加密;動態數據屏蔽和令牌化;利用功能實現 GDPR 和 CCPA 的合規性;SOC2 類型 2,ISO 27001,PCI,HIPAA,FedRAMP 等的認證 資料來源:Snowflake 官網、華泰研究 圖表圖表20: Hadoop vs snowflake hadoop snowflake 表現表現 可將不同類型數據存

38、儲在分布式環境中,使用MapReduce 進行批處理,使用 Apache Spark 進行流處理 虛擬倉庫提供了隔離的工作負載和容量, 可根據需求對工作負載進行分離或分類以及查詢處理 易用性易用性 存在部署、配置和維護成本;較為復雜,需要精通Linux 零維護數據庫,由 Snowflake 團隊完全管理 成本成本 開源項目,無需許可費,但部署、配置、維護費用較高 無需部署,需要支付存儲空間使用費用、查詢數據花費 數據處理數據處理 批量處理在一段時間內收集的大型靜態數據集, 但無法用于運行交互式作業或分析 支持批處理和流處理;虛擬倉庫支持低延遲查詢 容災容災 HDFS 分布式結構保障容災能力 具

39、備容災能力和內置多數據中心 安全安全 服務級別的授權;支持加密、傳統的文件權限、ACL 通過網絡動態加密,在磁盤上靜態加密,支持基于角色的授權,單點登錄的兩因素和聯合身份驗證 彈性彈性 只能增加集群大小,且需要停機,難以彈性伸縮 可在幾毫秒內完成擴展或縮小 存儲與計算存儲與計算 存儲計算一體 存儲與計算完全分開 資料來源:Snowflake 官網、Hadoop 官網、華泰研究 數據倉庫滿足多種使用場景需求。數據倉庫滿足多種使用場景需求。其中彈性數據倉庫的系統會隨著負載變化自動擴展或收縮,根據需要向主機復制數據,且并不限制處理請求的數量,從而實現數據服務彈性。數據倉庫采取 Shared-noth

40、ing 架構,在節點之間不共享任何數據,此外 Snowflake 基于Multi-cluster, shared data 的概念,將存儲和計算分離,解決了升級擴容時需要重新分配節點資源等痛點。在數據支持方面,Snowfalke 支持結構化和半結構化數據的組合使用,可以接收 JSON、XML 或 Avro 格式的數據,并且支持嵌套和重復數據類型,從而滿足傳統數據庫、Hadoop 等半結構化使用場景的使用需求。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 12 計算機計算機 圖表圖表21: Snowflake 數據倉庫架構數據倉庫架構 資料來源:Snowflake 官網、華泰研

41、究 Snowflake 數據湖產品強調查詢性能、數據管道集成可擴展、安全等。數據湖產品強調查詢性能、數據管道集成可擴展、安全等。利用內置數據治理和安全性的同時實現快速的數據訪問,具備較好的查詢性能,并且對數據轉換進行了良好的支持,通過云的模式為客戶省去運維成本。在查詢性能方面,支持即時和幾乎無限的可擴展性和并發性;此外,通過集成和可擴展的數據管道,實現簡化數據管道開發以優化性能。 依靠管道實時可靠地擴展來處理繁重的數據工作量和可擴展的數據轉換; 在安全方面,則提供了安全的數據協作功能。 圖表圖表22: Snowflake 數據湖數據湖 資料來源:Snowflake 官網、華泰研究 Snowfl

42、ake 服務各行業客戶。服務各行業客戶。以 hookit 為例,據公司官網,Snowflake 為 hookit 構建具有可擴展性的多集群共享數據架構數據庫, 提高了 Hookit 的運營效率。 查詢效率提高 30 倍,每天可自動評估社交帖子 5 億條,數據倉庫基礎架構成本降低 40%,消除了 88的內部支持請求,提升了客戶的運行效率,使客戶能夠專注于產品創新。 圖表圖表23: Snowflake 客戶客戶 資料來源:Snowflake 官網、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 13 計算機計算機 Databricks:Lakehouse 概念,幫助客戶構建

43、統一分析平臺概念,幫助客戶構建統一分析平臺 Databricks 推出推出 Lakehouse 概念。概念。 Lakehouse 是由 “Data Lakes” 與 “Data Warehouses”融合而成。普通的數據湖在數據質量、一致性/隔離性、混合處理追加讀取等方面不如數據倉庫。Lakehouse 兼容了數據倉庫和數據湖的優勢,在數據湖的低成本存儲上實現數據倉庫的數據結構和管理功能。Lakehouse 功能包括事務支持、模式執行和治理、BI 支持、存儲與計算分離、開放性、支持多種數據類型、各種工作負載、端到端流。 圖表圖表24: Lakehouse 資料來源:Databricks 官網、

44、華泰研究 為客戶提供統一分析平臺提升效率:為客戶提供統一分析平臺提升效率: 構建統一分析平臺, 簡化跨功能團隊的分析工作流程,使用單一平臺查詢、調試和探索流式處理和批次數據,以及構建和部署 ML 模型。打造交互式工作空間,促進與共享筆記本環境的合作,使數據科學家能夠快速實時在模型上進行重復。同時簡化管理,使公司無需人工干預即可完全自動化作業調度、監控和集群管理。以RB 為例,Databricks 為 RB 提供了一個統一的數據分析平臺,該平臺在數據科學和工程領域營造了可擴展的協作環境, 使數據團隊能夠更快地進行創新, 并為業務提供 ML 驅動的見解。據公司官網,該方案使得公司業務可支持量提高

45、10 倍,數據從 80TB 壓縮到 2TB,降低了運營成本,24*7 個任務的數據管道性能提高 2 倍。 圖表圖表25: Databricks 客戶客戶 資料來源:Databricks 官網、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 14 計算機計算機 數據庫六大評判維度數據庫六大評判維度 綜合前文數據庫行業的發展歷程, 我們總結了數據庫的幾個評判維度, 主要包括品牌基因、商業模式、內核基礎、技術架構、商業落地、人才體系。 品牌基因:品牌定位和創始團隊背景品牌基因:品牌定位和創始團隊背景 關注品牌基因。關注品牌基因。包含品牌的背景,商用首發時間,資金背景,創始團隊

46、背景、廠商主營業務等。品牌基因反映出數據庫的品牌特性,商用首發時間較早的數據庫廠商往往在傳統數據庫領域具有較為深厚的積累,近年來新誕生的勢力包括獨立創新品牌和大廠的數據庫產品。從創始團隊背景看,則反映出數據庫產品的技術背景,當前國產數據庫創始團隊多來自國內頂尖院校、海外數據庫廠商或國內互聯網大企業內部培育。此外,由于大數據時代數據庫的作用日益重要,在傳統的數據庫廠商之外,金融服務廠商、ICT 等主營業務非數據庫的廠商也推出了自己的數據庫產品。主營業務非數據庫的廠商基于特定場景延伸出的數據庫產品針對特定的行業可能存在一定的競爭優勢。但與此同時,相比獨立數據庫廠商,此類廠商的發展路徑及方向可能會受

47、到母公司策略方向的制約。 圖表圖表26: 數據庫品牌基因對比數據庫品牌基因對比 Kingbase 達夢數據庫達夢數據庫 GBase 巨杉數據庫巨杉數據庫 TiDB Oceanbase GaussDB(openGauss) 商用首發 1999 2000 2006 2013 2015 2017 2019 品牌類型 傳統品牌 傳統品牌 傳統品牌 獨立創新品牌 獨立創新品牌 大廠子產品 大廠子產品 創始團隊 背靠 CETC 中國電子科技集團 創始團隊來自人大信息學院 中國電子信息產業集團(CEC)旗下基礎軟件企業 創始人曾美國信息行業工作十年 歸國創業 創始團隊來自原 DB2北美實驗室及華為存儲團隊

48、創業團隊,創始人曾任豌豆莢,京東資深系統架構師 互聯網企業內部孵化,雙 11 等 華為內部 資金背景 國資 國資 民營 創業 創業 母公司子產品 母公司子產品 廠商 人大金倉 武漢達夢 南大通用 巨杉數據庫 PingCAP 螞蟻金服 華為 主營業務 數據庫 數據庫 數據庫 數據庫 數據庫 金融服務 ICT 資料來源:人大金倉官網、達夢數據庫官網、南大通用官網、巨杉數據庫官網、TiDB 官網、Oceanbase 官網、華為官網、華泰研究 商業模式:基礎軟件需要企業級服務,開源具有兩面性商業模式:基礎軟件需要企業級服務,開源具有兩面性 數據庫是基礎軟件,穩定性較為重要。數據庫是基礎軟件,穩定性較為

49、重要?;A軟件指操作系統、數據庫、中間件等服務于軟件開發者的,最底層的軟件。此類軟件直接調度 CPU、內存、磁盤、網絡等硬件設備,因此穩定性較為重要。數據庫在 IT 架構中扮演著承上啟下的角色,向下對接操作系統,需要直接調度各類硬件,分布式數據庫還需要協調多臺服務器形成整體的可管理集群,深度參與跨節點事務控制及網絡優化以獲得最佳性能;向上則需要支撐大量不同形態的上層應用。與應用軟件相比,數據庫作為基礎軟件更加注重穩定性。 圖表圖表27: 數據庫在數據庫在 IT 架構中的位置架構中的位置 資料來源:華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 15 計算機計算機 開源具

50、備兩面性,企業級服務廠商具備穩定性優勢。開源具備兩面性,企業級服務廠商具備穩定性優勢。開源將二次修改使用源代碼的權利公開,有助于快速的積累用戶,當客戶將包含開源產品的內容通過閉源方式銷售時則需要支付費用,廠商實現用戶資源變現。但相比企業級服務,開源往往通過技術社區的方式維系,缺乏法律合約關系,開發者響應速度難以保障,并且在社區參與者過多的情況下維護難度也有所提升。相比之下,企業級服務具有穩定性的優勢。因此對于數據庫等重視穩定性的基礎軟件,企業級服務產品具備一定的優勢。 圖表圖表28: 基礎軟件基礎軟件 VS 應用軟件應用軟件 基礎軟件基礎軟件 應用軟件應用軟件 代表代表 數據庫、操作系統、中間

51、件 辦公軟件、ERP 等 服務對象服務對象 開發者 使用者 關注點關注點 協調調度各類硬件,支撐上層應用 業務流程與真實事件及使用需求的關系 需求需求 穩定性,服務能力 開發能力,快速迭代適應發展 迭代方式迭代方式 需要進行嚴格的穩定性、性能、功能測試;通過多個版本穩步推進 快速迭代,甚至通過 AB 測試發布探索需求 資料來源:華泰研究 圖表圖表29: 各開源產品各開源產品協議調整協議調整情況情況 時間時間 事件事件 2018 年 10 月 MongoDB 調整開源協議,明確要求托管 MongoDB 實例的云計算公司要么獲取商業許可證要么向社區開源其服務代碼 2018 年 11 月 Neo4j

52、 3.5 版本開始,企業版將僅在商業許可下提供,不再開源 2018 年 9 月 Redis 調整開源協議,限制了 Redis 涵蓋軟件的銷售 2020 年 12 月 CentOS 宣告未來將不再作為紅帽 RHEL 下游的 rebuild 分支,調整為作為 RHEL 的上游開發分支 2021 年 1 月 Elasticsearch 將其軟件堆棧的核心由 Apache 2 改為一種限制性更強的許可協議 ( SSPL 與 Elastic License) 資料來源:MongoDB 官網、Neo4j 官網、Redis 官網、CentOS 官網、華泰研究 開源或閉源模式均需導向企業級服務。開源或閉源模式

53、均需導向企業級服務。開源具有兩面性,通過將二次修改使用源代碼的權利公開,打造開發者生態,有助于快速的積累用戶。但開源和閉源并非不會改變,同一家數據庫廠商可能在不同的階段選擇開源或閉源,此外,在同一時期,也可能同時發布開源、閉源的不同版本產品。如 Oceanbase、GaussDB 均經歷過開源與閉源的切換。但一般來說開源版本往往較低,企業級服務需要最新,最穩定的性能,因此閉源模式的產品較為適合。 內核基礎:原廠自研能力關鍵,掌控核心代碼或成重要競爭力內核基礎:原廠自研能力關鍵,掌控核心代碼或成重要競爭力 企業級原廠服務有助于從源頭解決問題。企業級原廠服務有助于從源頭解決問題。企業級服務包括企業

54、級原廠服務及第三方支持服務。企業級原廠服務指掌握每一行核心代碼,可以從源頭解決軟件核心問題的廠商,企業通過購買其產品及服務,可以獲得系統故障過后第一手的服務承諾。而第三方支持服務,如同數據庫行業中各類運維服務商,在成熟的市場體系下可以協助客戶以更低的成本獲取常規服務支持,但由于第三方支持服務商往往不具備產品的核心研發能力,因此往往作為服務輔助。 圖表圖表30: 企業級原廠服務企業級原廠服務 VS 第三方支持服務第三方支持服務 資料來源:華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 16 計算機計算機 企業級原廠服務掌握迭代控制權,有助于持續發展。企業級原廠服務掌握迭代

55、控制權,有助于持續發展。開源社區及第三方廠商雖然擁有更改源代碼的能力,但其更改存在不被主流社區接納,最終與主社區脫節的風險,因此穩定性上存在一定隱患。相比之下,企業級原廠服務掌握迭代控制權,有助于持續發展。在分布式數據庫的廠商選擇上同樣如此,具有全面掌握所有核心代碼主導權的廠商所提供的企業級原廠服務能形成更加有力的技術支持。國內商業閉源的分布式數據庫廠商大多為主研發,具備企業級服務基因。 圖表圖表31: 企業級原廠服務企業級原廠服務 VS 開源數據庫開源數據庫 資料來源:華泰研究 關注是否為完全自研可控。關注是否為完全自研可控。數據庫內核是否自研關系到數據庫廠商是否完全能掌握迭代控制權,目前國

56、產數據庫多采取具備自主知識產權的自研內核。選取具備自研內核的數據庫產品有助于提升產品升級迭代的穩定性和可控性,對于重視穩定性的基礎軟件領域,自研可控是重要的考慮因素。 圖表圖表32: 數據庫內核自研情況數據庫內核自研情況 數據庫數據庫 內核內核 Kingbase 自研 達夢數據庫 自研 GBase 自研+Informix 商用代碼 巨杉數據庫 自研 TiDB 自研+RocksDB Oceanbase 自研 GaussDB(openGauss) 自研+PostgreSQL 開源 資料來源:人大金倉官網、達夢數據庫官網、巨杉數據庫官網、TiDB 官網、Oceanbase 官網、GaussDB 官網

57、、華泰研究 技術架構:不同數據庫適用于不同場景技術架構:不同數據庫適用于不同場景 關系型數據庫關系型數據庫 vs 非關系型數據庫。非關系型數據庫。根據數據存儲結構區分,可以分為關系型數據庫、非關系型數據庫,其中非關系型數據庫根據存儲方式又可以分為鍵值數據庫、列數據庫、文檔數據庫、圖數據庫等。非關系型數據庫在讀寫性能、擴展性上具有一定的優勢,因此較適應大數據、高并發等場景,而關系型數據庫具備強一致性,遵循 ACID 原則,因此在事務支持中具備優勢。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 17 計算機計算機 圖表圖表33: 關系型數據庫關系型數據庫 vs 非關系型數據庫非關

58、系型數據庫 關系型數據庫關系型數據庫 非關系型數據庫非關系型數據庫 代表代表 Oracle 、Mysql,SqlServer、Aurora、DB2 MongoDB、Redis、Memcache 存儲方式存儲方式 表格,便于查詢 數據集,包括鍵值對、圖結構或者文檔等 存儲結構存儲結構 結構化方法,可靠性高,但修改困難 動態結構 存儲規范存儲規范 按照最小關系表的形式進行存儲,避免重復,但管理較為復雜 平面數據集,利于讀寫 擴展方式擴展方式 縱向擴展(提升計算機性能) 分布式,橫向拓展(添加更多服務器) 查詢方式查詢方式 結構化查詢語言 SQL 非結構化查詢語言 UnQL 事務性事務性 ACID

59、原則(原子性、一致性、隔離性、持久性) BASE(基本可用、軟狀態、最終一致性) 讀寫性能讀寫性能 性能較低,需要解析 適用于大數據場景 資料來源:華泰研究 圖表圖表34: 非關系型數據庫分類非關系型數據庫分類 非關系型數據庫類別非關系型數據庫類別 代表代表 優點優點 缺點缺點 鍵值數據庫鍵值數據庫 Redis、DynamoDB 、Memcached 能夠進行數據的快速查詢 需要存儲數據之間的關系 列數據庫列數據庫 Hbase 、Cassandra 快速查詢,擴展性強 數據庫的功能有局限性 文檔數據庫文檔數據庫 MongoDB、AWS DocumentDB、CouchDB 對數據結構要求不特別

60、的嚴格 查詢性差,缺少一種統一查詢語言 圖形數據庫圖形數據庫 Neo4J 、InfoGrid、Neptune 方便的利用圖結構相關算法進行計算 必須進行整個圖的計算,對數據模型有一定要求 時間序列數據庫時間序列數據庫 Timestream、Prometheus、Influxdb、opentsdb 持續高并發寫入 分析功能較弱 資料來源:華泰研究 集中式數據庫集中式數據庫 vs 分布式數據庫。分布式數據庫。 根據系統架構分, 可以分為集中式數據庫、 分布式數據庫。分布式數據庫在可擴展性、高并發支持方面具有優勢,集中式數據庫在事務性支持上遵循ACID 原則,在事務支持上具備優勢。從優劣勢看,分布式

61、數據庫的優劣勢與非關系型數據庫類似,而近年來,分布式數據庫不斷發展,在提供高彈性、支持高并發的同時,與關系型數據庫強事務性支持的特性進一步結合。 圖表圖表35: 集中式數據庫集中式數據庫 vs 分布式數據庫分布式數據庫 集中式數據庫集中式數據庫 分布式數據庫分布式數據庫 可擴展性可擴展性 有限,支持縱向擴展 支持橫向擴展 并發訪問量并發訪問量 性能、數據量提升方式只針對單機,導致其成本高且瓶頸明顯 存儲集群,支持更高并發訪問 自治性自治性 集中式控制 局部 DBMS 自治性 兼容性兼容性 無法進行非結構化大數據處理,硬件兼容能力較差 可支持非結構化大數據處理 堅固性堅固性 較低 個別節點發生故

62、障仍可降低級別使用 成本成本 需要高配置硬件,成本較高 成本相對較低 事務性事務性 遵循 ACID 遵循 CAP、BASE;少數產品提供 ACID 能力 資料來源:華泰研究 磁盤數據庫磁盤數據庫 vs 內存數據庫。內存數據庫。根據存儲設備分,可以分為磁盤數據庫、內存數據庫。內存數據庫指將數據放在內存中直接操作的數據庫,具備讀寫速度快的優勢。相比之下,磁盤數據庫在容量大小、數據安全性能方面具有一定的優勢。從內存數據庫及磁盤數據庫的特點看,內存數據庫適用于對讀寫要求較高,快速開發的場景。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 18 計算機計算機 圖表圖表36: 內存數據庫內

63、存數據庫 vs 磁盤數據庫磁盤數據庫 內存數據庫內存數據庫 磁盤數據庫磁盤數據庫 處理速度處理速度 內存讀寫較快,處理速度較快 受系統調用等影響,數據量大時容易出問題 容量大小容量大小 受物理內存限制 較大 數據存儲數據存儲 不需要連續存放 連續存放 緩沖管理緩沖管理 不需要 需要 索引結構索引結構 哈希、AVI 樹、T 樹、B 樹 B 樹、B+樹、哈希 并發控制并發控制 大粒度鎖 細粒度鎖加鎖、解鎖、死鎖檢測 查詢優化查詢優化 基于處理器代價及 Cache 代價 基于 I/O 代價 安全性安全性 內存本身有掉電丟失的缺陷,需要采取保護機制 較好 資料來源:華泰研究 數據庫技術架構評判要點與計

64、算場景、數據類型相關。數據庫技術架構評判要點與計算場景、數據類型相關。計算場景的變化、數據結構的豐富等,催生出不同的數據庫需求??v觀數據庫的發展歷程,我們總結出了以下幾個評判數據庫技術架構的要點,不同的場景對每個維度的側重有所不同。 查詢:查詢:隨著數據類型的豐富,傳統的關系型數據庫難以滿足需求,新興的非關系型數據庫增加了針對多種非結構化數據類型的查詢方法,數據庫查詢方式決定了其適用的數據類型。在數據類型日益豐富的今天,查詢方法是評判數據庫的重要維度。 容量大小容量大小&彈性:彈性:隨著數據量的不斷提升,容量大小和彈性的重要性逐步上升。 (1)容量大?。海┤萘看笮。簝却鏀祿焓芟抻谖锢韮却娲笮?/p>

65、,相較于磁盤數據庫容量上存在劣勢,因此使用場景也相應受到限制; (2)彈性:)彈性:分布式數據庫支持通過添加服務器的橫向擴展方式,使數據庫獲得了更高的性能,而傳統的集中式關系型數據庫支持提升處理器性能的方式縱向擴展,相比之下彈性較弱。面對高并發的分析型、大數據類任務,分布式數據庫就體現出一定的優勢。 事務支持:事務支持:事務支持要求具備一致性原則,傳統的關系型數據庫在事務支持方面遵循了ACID 原則,包括原子性、一致性、隔離性、持久性,從而實現較好的事務支持。非關系型數據庫在事務支持方面僅能遵循大部分 BASE 原則,即基本可用、軟狀態、最終一致性,在事務支持上相對較弱。 安全性:安全性:數據

66、安全性是評判數據庫的重要維度之一,隨著云計算、大數據等新技術在數據庫領域逐步應用,安全性的概念也不斷延伸,不僅包括容災能力,還包括數據安全、數據協同的權限管控等方面。 成本:成本:成本包括硬件成本、軟件成本、運維成本等,云數據庫通過云模式降低了運維成本及硬件采購成本。此外,隨著分析場景的豐富,在評判數據庫成本時應該采取動態的視角,考慮包括彈性擴容成本、后續運維成本在內的各項成本。 落地情況:中標客戶行業落地情況:中標客戶行業&應用場景應用場景 關注數據庫的落地情況。關注數據庫的落地情況。不同行業對數據庫的需求有所區別,處理事務的復雜性、對安全穩定的要求、付費意愿均會產生不同。一般來說,金融、電

67、信類場景由于處理量大,宕機代價較高,因此對于安全、穩定性有較強的訴求,能夠首先在金融、電信類場景落地通常意味著在性能、安全等方面達到了較高的標準;因此金融、電信等領域落地情況可以大致作為數據庫安全、穩定性的篩選維度之一;此外金融、電信、互聯網類場景往往具備高并發特征,需要不斷擴展,并且往往能夠積累下大量數據,為分析打下了良好的基礎,適合分布式數據庫,因此分布式數據庫的選擇可以重點關注以上行業的案例。在此之外,能夠積極向其他場景延伸則體現出數據庫產品的延伸性,有助于不斷打開新的市場空間。從國內分布式數據庫當前的落地情況看,金融、黨政、電信也是目前主要的落地場景,除此之外,互聯網、電力能源、教育也

68、是重要的落地場景。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 19 計算機計算機 圖表圖表37: 代表客戶及覆蓋行業代表客戶及覆蓋行業 金融金融 黨政黨政 電信電信 其他其他 kingbase 光大銀行 北京市政務云 中國電信山東分公司 電力、國防、能源等 達夢 建設銀行等 國家工商總局等 中國聯通 國土、住建、鐵路、航空、教育、電力等 Gbase 中國銀行等 廣東省稅務局 中國移動 能源、氣象局等 巨杉 民生銀行等 廣州市人民政府 中國移動 電力能源、互聯網等 TiDB 浙商銀行等 吉林祥云 中移物聯網 泛互聯網 oceanbase 中國人保等 - 浙江移動 - open

69、gauss 工商銀行等 陜西財政廳 浙江移動 互聯網、汽車等 注:本表所示客戶均為來自表中提及的各個數據庫官網的公開案例 資料來源:各公司官網、華泰研究 公開的人才體系:自營公開的人才體系:自營培訓培訓認證認證體系體系、企業技術級社區、企業技術級社區 公開人才體系體現生態建設成效。公開人才體系體現生態建設成效。公開的人才體系包含自營社區、培訓認證等部分。數據庫廠商推出培訓認證,系統的培養廠商數據庫人才,在提升數據庫人才水平的同時培養了使用者的使用習慣,有助于生態的建設。另一方面,通過自營社區論壇,能夠提供開發者交流的空間,有助于使用者拓展技術前沿視野,在提升使用者水平的同時,促進技術生態發展,

70、一定程度上社區論壇的活躍度能夠反映數據庫的生態建設成效。 圖表圖表38: 國產數據庫廠商公開人才體系國產數據庫廠商公開人才體系 自營社區自營社區 情況情況 培訓認證培訓認證 情況情況 kingbase 金倉社區 貼子數 4000+ 金倉學院 包括三類培訓, 2020 年培訓 3200+, KCA學習人數 5 萬+ 達夢達夢 達夢服務社區 BBS 注冊人數3 萬,帖子4000+ 達夢大學 包含四個等級,認證學員數千人 Gbase Gbase 社區 帖子數量 2 萬+ Gbase 學院 包含三個等級, 巨杉巨杉 企業級社區 注冊5 萬人 巨杉大學 認證工程師1 萬人,注冊學員2 萬人 TiDB T

71、iDB 社區 6000+主題 基于開源社區/Pingcap university GitHub Star:27K/兩個級別認證 Oceanbase Oceanbase 社區 100+博客 oceanbase 學院 已推出兩級認證,截至 2020 年 12 月其中 OBCA 已認證 5000+人 opengauss - - 基于開源社區 GitHub Star:208 注:數據截至 2021 年 3 月 資料來源:人大金倉官網、達夢官網、GBase 官網、巨杉數據庫官網、TiDB 官網、Oceanbase 官網、華為官網、華泰研究 圖表圖表39: 商用首發及行業重要協議發布時間對比商用首發及行業

72、重要協議發布時間對比 資料來源:人大金倉官網、達夢官網、GBase 官網、巨杉數據庫官網、TiDB 官網、Oceanbase 官網、華為官網、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 20 計算機計算機 圖表圖表40: 數據庫比較維度數據庫比較維度 數據庫產品數據庫產品 Kingbase 達夢數據庫達夢數據庫 GBase 巨杉數據庫巨杉數據庫 TiDB Oceanbase OpenGauss 商用首發商用首發 1999 2000 2006 2013 2015 2017 2019 品牌類別品牌類別 傳統品牌 傳統品牌 傳統品牌 獨立創新品牌 獨立創新品牌 大廠子產品

73、 大廠子產品 創始團隊創始團隊 背靠 CETC 中國電子科技集團 創始團隊來自人大數據庫研究專家 中國電子信息產業集團(CEC)旗下基礎軟件企業 創始人曾美國信息行業工作十年 歸國創業 創始團隊來自原DB2 北美實驗室及華為存儲團隊 創業團隊,創始人曾任豌豆莢,京東資深系統架構師 互聯網企業內部孵化,雙 11 等 華為內部 廠商廠商 人大金倉 武漢達夢 南大通用 巨杉數據庫 PingCAP 螞蟻金服 華為 主業務主業務 數據庫 數據庫 數據庫 數據庫 數據庫 金融服務 ICT 商業模式商業模式 商業閉源 商業閉源 商業閉源 商業閉源 開源+商業服務 開源+商業服務 開源+商業服務 資金背景資金

74、背景 國資 國資 民營 創業 創業 母公司子產品 母公司子產品 融資融資 - - - D 輪 D 輪 - - 內核基礎內核基礎 自研 自研 自研+Informax 商用代碼 自研 自研 自研 自研+PostgreSQL開源 技術架構技術架構 集中式 集中式 集中式 原生分布式 原生分布式 原生分布式 原生分布式 技術特色技術特色 支撐 6 級災難恢復能力等級要求 支持雙機熱備 用戶并發數達到“萬”級 KES V8 兼容多種類型數據 與異構數據庫兼容 完整的 SQL 特性支持 多副本數據異地容災 存儲分離的系統架構 節點數支持 64 個 支持 PB 級數據高效管理 金融電信級高可用能力 STP

75、序列時鐘協議專利 金融級四層容災熔斷 引擎級多模 跨引擎事務一致性 100%兼容 MySQL HTAP-S 混合負責 跨多云部署 多副本存儲 Raft 多數派選舉算法 100%一致性 高度兼容 MySQL 故障自動恢復 多副本架構 單集群多租戶設計 公有云、私有云、混合云等多種部署形式 支持 Oracle、MySQL 行列混存+向量化執行 數據節點 HA +Handoff 技術 可擴展至 2048 節點 基于通用X86/Kunpeng 架構 客戶客戶 上海政府、 國家石油天然氣管網公司等 國家市場監督管理總局等 中國人民銀行、中國移動等 廣發銀行、民生銀行、南方電網等 萬達網絡科技集團、微眾銀

76、行等 浙江移動等 工商銀行、陜西財政廳等 公開的人才公開的人才體系體系 金倉學院 金倉數據庫工程師認證 金倉社區 達夢大學 自營達夢認證 GBase 認證 GBase 8a 中文社區 自營企業級技術社區 社區注冊5 萬人 自營培訓巨杉大學認證 認證工程師1 萬人 注冊學員2 萬人 基于開源社區 GitHub Star:27K 基于開源社區 GitHub Star:124 基于開源社區 GitHub Star:208 資料來源:人大金倉官網、達夢數據庫官網、GBase 官網、巨杉數據庫官網、TiDB 官網、Oceanbase 官網、OpenGauss 官網、華泰研究 免責聲明和披露以及分析師聲明

77、是報告的一部分,請務必一起閱讀。 21 計算機計算機 國內數據庫國內數據庫市場:新興與傳統廠商并存市場:新興與傳統廠商并存 人大金倉:背靠人大金倉:背靠 CETC 中國電子科技集團,老牌數據庫中國電子科技集團,老牌數據庫 背靠背靠 CETC 中國電子科技集團,擁有三類核心產品。中國電子科技集團,擁有三類核心產品。人大金倉背靠 CETC 中國電子科技集團,由中國人民大學最早一批從事數據庫研究的專家于 1999 年發起創立,先后承擔了國家“863” 、 “核高基”等重大專項。人大金倉擁有三類核心產品,分別為數據存儲計算、數據采集交換以及數據應用分析。其中金倉交易型數據庫 KingbaseES,是入

78、選國家自主創新產品目錄的數據庫產品,也是國家級、省部級實際項目中應用較為廣泛的國產數據庫產品。 圖表圖表41: 人大金倉發展人大金倉發展史史 資料來源:人大金倉官網、華泰研究 分布式數據庫產品分布式數據庫產品 KSOne 具備應用透明,支持水平擴展等特點。具備應用透明,支持水平擴展等特點。人大金倉旗下的 KSOne是一款面向交易型業務場景、 實時分析場景、 時間序列等場景的 HTAP 分布式數據庫產品,具有可橫向彈性伸縮、高可用、可跨域分布部署、應用透明度高等特點。該產品采用分布式集群架構,支持水平數據分片等智能分片算法。此外,支持并行加載與并行計算,數據導入速度達到 50GB/分鐘,有助于進

79、行實時分析。 圖表圖表42: 人大金倉數據庫產品人大金倉數據庫產品 資料來源:人大金倉官網、華泰研究 人大金倉主要致力于為政務、能源、國防、金融、公安、電信等國家企事業單位提供解決人大金倉主要致力于為政務、能源、國防、金融、公安、電信等國家企事業單位提供解決方案。方案。據公司官網,人大金倉為北京市資源中心構建大數據平臺,面向大數據中心用戶以及委辦局用戶提供數據管理和服務,用戶可利用北京市大數據管理平臺的能力和服務,開展數據的管理、處理、分析與可視化等工作,支撐各類業務應用。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 22 計算機計算機 圖表圖表43: 人大金倉北京市資源中心

80、大數據平臺示意圖人大金倉北京市資源中心大數據平臺示意圖 資料來源:人大金倉官網,華泰研究 武漢達夢:背靠中國電子,主攻混合型數據庫武漢達夢:背靠中國電子,主攻混合型數據庫 HTAP 背靠背靠 CEC 中國電子,主攻混合型數據庫中國電子,主攻混合型數據庫 HTAP。武漢達夢成立于 2000 年,為中國電子信息產業集團(CEC)旗下基礎軟件企業。應用于金融、電力、航空、通信、電子政務等 30 多個行業領域。 武漢達夢主攻混合型數據庫 HTAP, 旨在用一種數據庫模式處理客戶所有數據庫需求,適合業務廣、數據量大的綜合型客戶使用。武漢達夢目前已掌握數據管理與數據分析領域的核心前沿技術,擁有全部源代碼,

81、具有完全自主知識產權。其主要產品有:達夢 HTAP 數據庫管理系統 DM8、達夢大數據集群軟件 DMMPP 等產品。 圖表圖表44: 達夢數據庫產品達夢數據庫產品 資料來源:達夢數據庫官網、華泰研究 達夢主推透明分布式數據庫 (達夢主推透明分布式數據庫 (DMTDD) 技術。) 技術。 達夢提出的 DMTDD 技術包括靈活橫向擴展、完整的 SQL 特性支持、多副本數據異地容災的特點。結合了分布式數據庫高可擴展、高可用、高并發處理能力,并支持傳統數據庫開發接口和業務開發框架的技術架構。 (1)靈活橫向擴展:DM8 TDD 采用計算存儲分離的系統架構,實現計算、日志、存儲三層分離,可實現各層獨立擴

82、展、按需配置設備的特點。 (2)完整的 SQL 特性支持:支持多表連接查詢、子查詢、視圖嵌套查詢、遞歸表達式查詢等高級查詢語法。提供存儲過程、觸發器、Package、序列等高級功能特性。 (3)多副本數據異地容災:支持異地部署,通過將數據副本存儲在不同的容災域,實現數據的異地容災。日志服務本身具備副本與容災能力,可在每個數據中心分別部署日志服務節點。數據庫服務在主機房按需部署,在本地和異地備用機房日常無需部署,只需在檢測到災害時,即時啟動。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 23 計算機計算機 圖表圖表45: 達夢透明分布式數據庫(達夢透明分布式數據庫(DMTDD)

83、 資料來源:達夢數據庫官網、華泰研究 為解決能源行業神華集團加強集中管控能力、解決信息孤島問題、提升跨區交互能力、進行復雜統計、提高應用型容災的需求,武漢達夢使用 DM7 數據庫管理系統以及相關數據集群、DMETL 組件、DMHS 同步套件等產品、DMHS 數據同步工具,從而保證業務系統的連續性和跨站點的高可用性。 此外, 據公司官網, 神華集團數據庫工程使用普通 PC SERVER的達夢數據庫服務器成功替換 Oracle 一體機,降低用戶成本。同時,達夢采用現有設備創建同城容災系統,保障系統穩定運行。 圖表圖表46: 達夢能源行業解決方案示意圖達夢能源行業解決方案示意圖 資料來源:達夢數據庫

84、官網,華泰研究 巨杉數據庫:自研金融級分布式數據庫獨立廠商巨杉數據庫:自研金融級分布式數據庫獨立廠商 巨杉數據庫成立于 2011 年,是一家專注分布式數據庫技術研發的自研數據庫獨立廠商。針對市場對業務中臺、微服務架構、非結構數據管理、敏捷開發的不同需求,SequoiaDB 巨杉數據庫已推出:DP(湖倉一體數據平臺) 、TP(事務型數據庫) 、CM(內容管理數據庫)和 DOC(文檔型數據庫)四大產品線。 企業基因:從商用首發時間看,巨杉數據庫是國內最早進行商業化布局的分布式數據庫。企業基因:從商用首發時間看,巨杉數據庫是國內最早進行商業化布局的分布式數據庫。2011 年, SequoiaDB 巨

85、杉數據庫作為獨立數據庫公司開始研發, 進行原生分布式架構布局。2013 年 SequoiaDB v1.0 產品化正式商用并進軍企業級領域,開始為客戶提供產品及技術服務支持。 商業模式: 打造企業級產品標桿。商業模式: 打造企業級產品標桿。銀行業是體現數據庫產品能力的標桿行業, 據賽迪顧問,2019 年中國金融 IT 市場規模中,銀行 IT 占據了 50%以上的市場份額。一家銀行歷經了幾十年的法律和業務規則的演進,通常擁有超過上百種的業務系統。因此業界公認,在選擇技術產品的過程中,銀行對于數據穩定性、安全性和數據處理性能等企業級功能,要求是最為嚴苛的。銀行作為企業級產品應用的標桿行業,能被其采用

86、的產品均達到了金融級產品的最高標準,自然更能夠滿足其他行業的要求。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 24 計算機計算機 巨杉采用企業級服務的商業化策略,對于重視穩定性的基礎軟件數據庫而言,相較于開源模式在版本迭代的穩定性上具有更符合企業運行標準的競爭優勢。借此,巨杉數據庫不斷向金融等關鍵行業拓展。自 2014 年首次進入金融行業以來,已經在國內金融行業進行了大規模的實踐與使用,應用場景也覆蓋了聯機交易、數據中臺、內容管理以及實時數據服務等多類業務。 圖表圖表47: 巨杉數據庫發展歷程巨杉數據庫發展歷程 資料來源:巨杉數據庫官網、華泰研究 自研內核:自研內核具有領先

87、性。自研內核:自研內核具有領先性。巨杉數據庫堅持從零開始打造原生分布式數據庫引擎,專注數據庫技術研發,聚焦金融賽道,致力于以金融行業為核心,打造安全可靠、高性能,適合全行業通用的分布式數據庫產品?;诜植际郊夹g架構,研發出引擎級多模及 STP 邏輯時鐘協議分布式數據庫技術, 能夠實現分布式交易與 ACID 與傳統技術完全兼容, 架構及功能特性與傳統數據庫完全兼容,提供跨引擎事務支持和一致性保障?;诙喔北靖綦x機制, 其 HTAP 混合負載能力能夠實現計算、 I/O資源互不干擾的 OLTP/OLAP 混合負載管理,充分釋放資源,進一步提升系統穩定性。巨杉數據庫支持多種級別的容災部署形態,如同城雙

88、中心、同城三中心、兩地三中心甚至三地五中心等,獨創四級熔斷容災安全保護機制,充分保證數據安全,滿足核心交易業務的嚴苛要求。 圖表圖表48: 巨杉數據庫架構巨杉數據庫架構 資料來源:巨杉數據庫官網、華泰研究 客戶:客戶:巨杉主要為金融業提供數據庫產品。巨杉主要為金融業提供數據庫產品。巨杉數據庫具備豐富的服務大型企業的解決方案和經驗,據公司官網,巨杉數據庫已在超過 100 家大型銀行及金融機構的生產業務規模上線應用。其中民生銀行的生產環境集群包含超過 160 臺物理服務器,三副本數據量達 2460TB,基于巨杉數據庫實現的非結構化數據管理平臺已接入的各類系統達到 100 套。 免責聲明和披露以及分

89、析師聲明是報告的一部分,請務必一起閱讀。 25 計算機計算機 圖表圖表49: 巨杉數據庫巨杉數據庫在民生銀行的應用架構在民生銀行的應用架構 資料來源:巨杉數據庫官網、華泰研究 同時,巨杉數據庫的應用范圍已擴展至證券、保險、電信、政府、能源、互聯網、交通等多個行業。據公司官網,目前,巨杉數據庫的企業用戶總數超過 1000 家。目前,巨杉數據庫支持超過 4096 節點,超 10PB 級別存儲容量,已成功協助客戶在高達 1.2 萬億數據量生產環境下,提供安全穩定、可靈活擴展、高性能、高并發的數據底座。 圖表圖表50: 巨杉數據庫巨杉數據庫主要客戶主要客戶 資料來源:巨杉數據庫官網、華泰研究 生態:助

90、力技術生態體系建設。生態:助力技術生態體系建設。巨杉數據庫積極參與信創生態建設,據 2021 年信創產業技術與應用大會,截至 2021 年 3 月,巨杉已經與鯤鵬、飛騰、統信、銀河麒麟等產品完成兼容認證,合作伙伴總數超 50 家,為企業客戶打開豐富的上下游產品生態。 2019 年,巨杉數據庫搭建巨杉大學認證與學習體系,講師團隊由巨杉數據庫官方的數據庫架構師、資深分布式技術專家以及開源社區技術大咖共同組成。目前,已有超 180 家金融機構,30 余家知名技術服務開發商參加巨杉大學計劃。截至 2020 年底,經過短短 1年的發展,巨杉大學已認證工程師超過 1 萬人,網站用戶注冊數量超過 5 萬人,

91、為分布式技術業界發展提供堅實的人才積淀。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 26 計算機計算機 PingCAP TiDB:開源分布式關系型數據庫:開源分布式關系型數據庫 建立以分布式數據庫為統一中心的架構。建立以分布式數據庫為統一中心的架構。TiDB 是 PingCAP 公司自主設計、研發的開源分布式關系型數據庫,是一款同時支持在線事務處理與在線分析處理的融合型分布式數據庫產品。2015 年 9 月,借鑒 Google Spanner 及 F1 論文的實現,TiDB 在 Github 上開源,從僅有 SQL 層及 KV 層的 beta 版本到現在已經衍生出龐大家族的

92、 4.0 版本, 始終圍繞著解決分庫分表問題,為用戶提供一站式 OLTP、OLAP、HTAP 解決方案的目標演進。在內核設計上,TiDB 分布式數據庫將整體架構拆分成了多個模塊,各模塊之間互相通信,組成完整的 TiDB 系統。與傳統的單機數據庫相比,TiDB 的純分布式架構擁有良好的擴展性且具有豐富的工具鏈生態,覆蓋數據遷移、同步、備份等多種場景。 圖表圖表51: TiDB 整體架構圖整體架構圖 資料來源:TiDB 官網、華泰研究 多應用場景多應用場景,適合不同業務需求。,適合不同業務需求。依托純分布式架構,及開源社區,TiDB 持續擴展出豐富的應用場景。一是對數據一致性及高可靠、系統高可用、

93、可擴展性、容災要求較高的金融行業屬性的場景, TiDB采用多副本+Multi-Raft協議的方式將數據調度到不同的機房、 機架、機器,當部分機器出現故障時系統可自動進行切換;二是對存儲容量、可擴展性、并發要求較高的海量數據及高并發的 OLTP 場景,TiDB 采用計算、存儲分離的架構,可對計算、存儲分別進行擴容和縮容,計算最大支持 512 節點,每個節點最大支持 1000 并發,集群容量最大支持PB級別; 三是Real-time HTAP場景, TiDB在4.0版本中引入列存儲引擎TiFlash結合行存儲引擎 TiKV 構建真正的 HTAP 數據庫,在增加少量存儲成本的情況下,可以同一個系統中

94、做聯機交易處理、實時數據分析,極大地節省企業的成本;四是數據匯聚、二次加工處理的場景,TiDB 通過 ETL 工具或者 TiDB 的同步工具將數據同步到 TiDB,在 TiDB中直接生成報表,便于將分散在不同系統中的數據匯總,以便決策層了解公司的整體業務狀況及時做出決策。 “開源社區” 助力 “開源商業化” ?!伴_源社區” 助力 “開源商業化” 。 PingCAP 擁有豐富的開源技術社區活動, 依托開源社區,在自身快速發展過程中不斷回饋社區,形成開源社區和自身研發的有效協同。通過開源及免費策略,快速擴展開發者及技術粉絲用戶群體,以長期積累未來商業變現的機會。據GitHub, 截至2021年3月

95、, TiDB 項目在 GitHub 上已總計獲得超過 27000 顆星, 超 4200 位開源代碼貢獻者,參與企業包括美團、知乎、小米、微眾銀行等眾多企業,高度活躍的開源社區為 TiDB 產品發展帶來了正向反饋閉環。在此基礎上,TiDB 已被廣泛應用于互聯網、游戲、金融、大型企業、政府等多領域的領先企業的實際生產環境中,當中還包括多個國外不同地區的用戶。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 27 計算機計算機 圖表圖表52: TiDB 國內國內主要主要用戶用戶 資料來源:TiDB 官網、華泰研究 阿里阿里 Oceanbase:金融級分布式關系數據庫:金融級分布式關系數

96、據庫 發端于阿里內部,逐步商業化。發端于阿里內部,逐步商業化。OceanBase 是由螞蟻金服、阿里巴巴完全自主研發的分布式關系型數據庫,始創于 2010 年。應用于支付寶全部核心業務以及阿里巴巴淘寶業務。從2017年開始, 開始服務外部客戶。 2020年6月8日, 螞蟻集團將自研數據庫產品OceanBase獨立進行公司化運作,同年 9 月,中國工商銀行開始采用螞蟻自研數據庫 OceanBase,其對公(法人)理財系統已完成從大型主機到 OceanBase 分布式架構的改造。Oceanbase商業化逐步推進。 圖表圖表53: Oceanbase 發展歷程發展歷程 資料來源:OceanBase

97、官網、華泰研究 OceanBase 是一個金融級分布式關系數據庫。是一個金融級分布式關系數據庫。具備在線水平擴展能力;GeaBase 是一款針對特殊巨型復雜網絡、超大實時更新數據場景的分布式實時圖數據庫產品,擁有簡單易用、性能高的特點。該產品定位是一款分布式關系數據庫,適合于金融、證券等涉及交易、支付和賬務等對高可用、強一致要求較高,同時對性能、成本和擴展性有需求的金融屬性場景,以及各種關系型結構化存儲的 OLTP 應用。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 28 計算機計算機 圖表圖表54: Oceanbase 架構架構 資料來源:OceanBase 官網、華泰研究

98、 Oceanbase 主要客戶包括網商銀行、支付寶、淘寶網、阿里媽媽。主要客戶包括網商銀行、支付寶、淘寶網、阿里媽媽。其中,為了解決支付寶一致性、擴展性、可用性、成本性能方面的業務挑戰,OceanBase 在架構層面引入 Paxos 協議,多重數據校驗機制,完善支付寶業務模型,多重機制保障金融級別的一致性。此外,支付寶的訂單型業務采用了同城三中心的部署方式,具備單機和單 IDC 故障的容災,通過 RFO 的方式提供異地容災能力,在性能和可用性方面做到了極致的權衡。賬務型業務采用三地五中心部署方式,除了具備單機,單 IDC 的容災能力,還具備城市級故障自動容災能力。 據公司官網, OceanBa

99、se 在同城容災和異地容災場景下, RPO=0, RTO30 秒。 圖表圖表55: Oceanbase 主要客戶主要客戶 資料來源:OceanBase 官網、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 29 計算機計算機 華為華為 GaussDB:AI 原生,支持異構計算原生,支持異構計算 AI 原生原生&支持異構計算。支持異構計算。華為 GaussDB 是一個企業級 AI-Native 分布式數據庫。為超大規模數據管理提供高性價比的通用計算平臺,也用于支撐各類數據倉庫系統、BI(Business Intelligence)系統和決策支持系統,為上層應用的決策分析提

100、供服務。華為的數據庫產品系列命名為:GaussDB,高斯數據庫。華為 GaussDB 是一個企業級 AI-Native 分布式數據庫。 GaussDB 采用 MPP(Massive Parallel Processing)架構,支持行存儲與列存儲,提供 PB(Petabyte, 2 的 50 次方字節)級別數據量的處理能力。華為 Gauss 數據庫是全球首款 AI-Native 數據庫,能夠同時支持 X86、ARM、GPU、 NPU 等異構計算。 圖表圖表56: GaussDB 產品產品 資料來源:華為官網、華泰研究 GaussDB:三大產品線系列。:三大產品線系列。據華為官網,目前華為已經開

101、發有三個產品系列:GaussDB100、 GaussDB 200、 GaussDB 300。 1) GaussDB 100:主要以 OLTP 為主。 目前該產品已經應用在招商銀行。 2) GaussDB 200: 以 OLAP 為主, 兼顧 OATP。該產品目前已經在工商銀行得到上線應用。 3) GaussDB300:HTAP,是企業級分布式 HTAP 數據庫(Hybrid Transaction andAnalytical Process,混合事務和分析處理) 。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 30 計算機計算機 圖表圖表57: Gauss 數據庫產品線數據庫

102、產品線 資料來源:公司官網、華泰研究 華為華為 GaussDB 產品主要用于互聯網、物聯網、電商、金融、游戲。產品主要用于互聯網、物聯網、電商、金融、游戲。在電商應用中,數據庫可支持熱銷商品展示、 秒殺推薦等數據面臨高并發壓力的場景。 此外, 云數據庫兼容 Redis生態,高并發分布式緩存服務 Redis 提供超過 10 萬的高 QPS,輕松應對高并發訪問,業務爆發時可以通過一鍵擴容,滿足秒殺場景下的訪問量增長產生的計算需求。 圖表圖表58: Gauss 電商類應用架構示意圖電商類應用架構示意圖 資料來源:華為官網、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 31

103、計算機計算機 總結:分布式數據庫或誕生新龍頭,關注六大評判維度總結:分布式數據庫或誕生新龍頭,關注六大評判維度 1、數據量增大、類型豐富、計算場景擴展,分布式數據庫或成為新的增量、數據量增大、類型豐富、計算場景擴展,分布式數據庫或成為新的增量 數據庫行業發展與計算載體變革緊密相關,而隨著計算載體的變革,在新市場內往往會誕數據庫行業發展與計算載體變革緊密相關,而隨著計算載體的變革,在新市場內往往會誕生新的數據庫龍頭。生新的數據庫龍頭。從發展變革看,大型機向小型機的變革,數據庫在事務處理中的應用逐步增加,催生了 Oracle 為代表的關系型數據庫廠商;隨著云計算的興起,以 AWS 為代表的新興數據

104、庫廠商逐步興起。 分布式數據庫或成為新的增量。分布式數據庫或成為新的增量。隨著數據的累積,分析型任務的重要性逐步提升,擅長于事務支持、結構化數據查詢的傳統關系型數據庫市場增長逐漸放緩,據 T4.ai 預測,全球關系型數據庫市場規模 2018-2022E CAGR 為 6%,較 2012-2017 的 11%或將有所下降。另一方面,數據類型持續豐富,從結構化數據向非結構化數據延伸,支持非結構化數據的查詢方法變得日益重要。 而分布式數據庫、 數據倉庫在大數據分析中展現出了較好的支持性,綜上,我們認為分布式數據庫或成為數據庫領域新增量。 2、商業模式:企業級服務、商業模式:企業級服務&開源社區,核心

105、在于解決客戶的問題開源社區,核心在于解決客戶的問題 數據庫作為基礎軟件, 在 IT 架構中扮演承上啟下的重要作用, 因此相比于功能的快速更新,數據庫的安全與穩定性更為重要。開源社區有助于快速積累用戶,但企業級產品通過更加緊密的組織方式,保障了開發者的響應速度,在提供企業級服務方面具有優勢。 3、內核基礎:自主研發能力重要性上升、內核基礎:自主研發能力重要性上升 原廠自研在穩定性上具備優勢。原廠自研的數據庫廠商能夠提供企業級原廠服務,相比于提供第三方服務的廠商,更有助于從源頭解決問題,在安全性和穩定性上具備優勢;在功能的迭代上,掌握源代碼的自研廠商能夠主導功能的迭代,相較于開源社區,在穩定性上更

106、有優勢,與企業級客戶的需求更為契合。 我們總結了評判數據庫的六個維度,除了上文提到的商業架構、內核基礎外,還包括品牌我們總結了評判數據庫的六個維度,除了上文提到的商業架構、內核基礎外,還包括品牌基因、技術架構、商業落地、人才體系基因、技術架構、商業落地、人才體系 (1)品牌基因: 影響技術路線、側重領域、應用場景等。)品牌基因: 影響技術路線、側重領域、應用場景等。包含品牌的背景,商用首發時間,資金背景,創始團隊背景、廠商主營業務等。品牌基因反映出數據庫的品牌特性,品牌基因對數據庫的技術路線、側重領域、應用場景均會產生一定的影響,在選擇數據庫廠商時,品牌基因是重要的考量因素。我們認為,國產數據

107、庫廠商大致可以分為傳統數據庫、創新品牌、大廠子產品三類,不同類廠商的優勢領域有所區別。 (2)技術架構:分析型、大數據場景適合分布式數據庫。)技術架構:分析型、大數據場景適合分布式數據庫。集中式數據庫在事務性支持上遵循 ACID 原則,在事務支持上具備優勢。分布式數據庫在高并發支持、擴展性上具備優勢。而近年來,分布式數據庫不斷發展,在提供高彈性、支持高并發的同時,與關系型數據庫強事務性支持的特性進一步結合。 (3)商業落地:金融、電信場景體現穩定性。)商業落地:金融、電信場景體現穩定性。一般來說,金融、電信類場景對于安全、穩定性有較強的訴求,能夠首先在金融、電信類場景落地通常意味著在性能、安全

108、等方面達到了較高的標準;因此金融、電信領域落地情況可以大致作為數據庫安全、穩定性的篩選維度之一;此外能夠積極向其他場景延伸則體現出數據庫產品的延伸性,有助于不斷打開新的市場空間。 (4) 人才體系: 體現生態建設成效。) 人才體系: 體現生態建設成效。 公開的人才體系包含自營社區、 培訓認證體系等部分。我們認為,數據庫廠商通過推出針對自由數據庫產品的培訓認證,在提升數據庫人才水平的同時培養了使用者的使用習慣,有助于生態的建設。另一方面,社區論壇作為技術愛好者的交流空間,從側面體現出數據庫產品的活躍度,是生態建設成效的體現。 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。 32 計算機計算機 風險風險提示提示 市場競爭加劇風險。分布式數據庫快速發展,但參與者眾多,存在競爭加劇的風險。 芯片及 AI 行業發展導致 IT 投資傾斜風險。隨著芯片及 AI 行業迅速發展,存在 IT 投資向芯片、AI 領域傾斜,對數據庫領域投資產生影響的風險。

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(【研報】計算機行業: 分布式數據庫或成為新增量-210402(35頁).pdf)為本站 (木子璨璨) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站