計算機行業“構筑中國科技基石”系列報告:數據庫關鍵三問深度解讀-221018(39頁).pdf

編號:103585 PDF 39頁 2.94MB 下載積分:VIP專享
下載報告請您先登錄!

計算機行業“構筑中國科技基石”系列報告:數據庫關鍵三問深度解讀-221018(39頁).pdf

1、 證券研究報告證券研究報告 請務必閱讀正文之后第請務必閱讀正文之后第 38 頁起的免責條款和聲明頁起的免責條款和聲明 數據庫數據庫:關鍵三問深度解讀:關鍵三問深度解讀 計算機行業“構筑中國科技基石”系列報告 232022.10.18 中信證券研究部中信證券研究部 核心觀點核心觀點 楊澤原楊澤原 計算機行業首席 分析師 S1010517080002 丁奇丁奇 云基礎設施行業 首席分析師 S1010519120003 馬慶劉馬慶劉 云應用分析師 S1010522090001 安全可控勢在必行,數據庫國產替代加速安全可控勢在必行,數據庫國產替代加速開展,以黨政為代表的國產替代先行,開展,以黨政為代表

2、的國產替代先行,并不斷向金融、電信等領域拓展并不斷向金融、電信等領域拓展。通過。通過對對關鍵三關鍵三個個問問題的題的深度解讀深度解讀,我們認為:,我們認為:1)國產廠商已具備)國產廠商已具備較強的較強的 OLTP 數據庫數據庫替代替代能力;能力;2)OLAP 數據庫未來數據庫未來仍仍將將會持續快速發展,會持續快速發展,技術能力強者有望突圍技術能力強者有望突圍;3)數據庫行業朝著多元化方向演)數據庫行業朝著多元化方向演進,包括非關系型數據庫、分布式數據庫、進,包括非關系型數據庫、分布式數據庫、HTAP 混合負載、云數據庫等,與混合負載、云數據庫等,與傳統數據庫類型形成良好的市場互補關系。數據庫產

3、業料將持續快速成長,帶傳統數據庫類型形成良好的市場互補關系。數據庫產業料將持續快速成長,帶來諸多投資機遇,產品技術能力強、生態客戶圈廣、行業趨勢把握準確者有望來諸多投資機遇,產品技術能力強、生態客戶圈廣、行業趨勢把握準確者有望勝出勝出。問題一:問題一:OLTP(聯機事務處理)(聯機事務處理)數據庫的國產替代能力如何?數據庫的國產替代能力如何?回答一:回答一:關注產品性能、穩定性、安全性、兼容性等維度,國產廠商已具備關注產品性能、穩定性、安全性、兼容性等維度,國產廠商已具備較較強的替代能力強的替代能力。20 世紀 70 年代,關系型數據庫原型 System R 誕生,Oracle、IBM DB2

4、、SQL Server 等主流關系型數據庫崛起,并逐步進入中國市場,長期占據主要份額。海外巨頭的產品具有優越的性能、獨立的編程方言、廣泛的應用生態等,如 Oracle 的 RAC 技術,大幅提升數據庫性能、可用性、擴展性,提高了集群的事務處理能力。從替代能力來看,國產主流產品的性能指標已與海外龍頭接近,外部擾動及政策支持下,信創需求加速釋放,促使產品性能進一步提升,并正逐步從辦公管理系統向核心業務系統拓展,加速打開市場空間。IDC 數據顯示,2021 年我國本地部署關系型數據庫市場份額 Top3 分別為 Oracle、華為、達夢,后兩者市場份額超過了微軟、IBM 等海外 IT 巨頭,人大金倉、

5、阿里巴巴等國產廠商亦有所斬獲,國產廠商已具備較強的替代能力。問題二:問題二:OLAP(聯機分析處理)(聯機分析處理)數據庫的發展到了什么階段?數據庫的發展到了什么階段?回答二:聚焦回答二:聚焦分析分析處理,重視湖倉一體、智能湖倉等方向,技術能力強者有望處理,重視湖倉一體、智能湖倉等方向,技術能力強者有望勝出勝出。OLAP(聯機分析處理)的概念最早由關系模型之父埃德加科德于 1993年提出,主要支持面向分析場景的應用,用于業務反饋和輔助決策。OLAP 先后衍生出數據倉庫、數據湖的發展路徑,數據倉庫聚焦于結構化數據處理能力,數據湖聚焦于數據完整性的實現,支持對于各類半結構化數據、非結構化數據的存儲

6、和分析。為了兼顧數據分析效率和數據完整性,近年來眾多廠商開始進行湖倉一體、智能湖倉的探索。我們認為,分析型數據庫正呈現出決策實時化、場景精細化、產品標準化等特點,需求的持續推動促使行業快速發展,帶來諸多機遇,參與者如 Snowflake、Databricks、Cloudera、阿里巴巴、騰訊、星環科技等百花齊放,競相成長,技術能力強者有望勝出。問題三問題三:如何看待國產數據庫的創新:如何看待國產數據庫的創新方向?方向?1)看架構:分布式)看架構:分布式&集中式集中式分布式成重要趨勢,云數據庫進一步打開市場。分布式成重要趨勢,云數據庫進一步打開市場。分布式數據庫具有數據計算量大、運算速度快等特點

7、,是數據庫發展的重要趨勢,但目前具有成本高、管理復雜等問題,與傳統集中式數據庫優勢互補。云數據庫進一步打開市場空間,IDC 數據顯示,2021 年我國關系型數據庫中,公有云市場規模增速已超過本地部署增速,IDC 預計未來 3 年云數據庫的市場規模增速有望保持在40%,2025 年市場規模有望達到 55 億美元。2)看模型:關系型)看模型:關系型&非關系型非關系型相互補充,重視多模型能力構建。相互補充,重視多模型能力構建。非關系型數據庫核心解決半結構化、非結構化數據問題,智研咨詢數據顯示,2018 年我國關系型數據庫市場規模占比達 85%,但呈現逐年下降趨勢。中國信通院數據顯示,截至 2021

8、年 6 月,我國關系型數據庫產品數量占比約 60%。非關系型與關系型數據庫相互補充,具備多模型兼容能力者具備更強競爭力。計算機計算機行業行業 評級評級 強于大市(維持)強于大市(維持)計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 2 3)看生態:開源)看生態:開源&閉源閉源并存發展,共促商業化生態繁榮。并存發展,共促商業化生態繁榮。開源與商業化并不矛盾,商業化的數據庫亦可以開源,如 MongoDB、Spark SQL、TiDB 等開源的商業化數據庫,通過開源提升自身的影響力、促進代碼技術的提升、構建更

9、大的生態圈等,但開源也對安全可控帶來一定考驗。DB-engines 數據顯示,目前開源數據庫產品數量已超過 50%。我們認為,未來國內數據庫廠商將呈現出開源和閉源共存的狀態,共促商業化生態的繁榮。風險因素:風險因素:國產數據庫技術迭代不及預期;下游行業需求不及預期;數據庫行業參與者眾多,市場競爭加劇的風險;開源或免費軟件的競爭風險;疫情及宏觀環境擾動。投資策略:投資策略:數據庫是數字化時代的底層基石,是各廠商重點布局的關鍵戰略領域。安全可控勢在必行,數據庫國產替代加速開展,以黨政為代表的國產替代先行,并不斷向金融、電信等領域拓展。通過對關鍵三個問題的深度解讀,我們認為:1)國產廠商已具備較強的

10、 OLTP 數據庫替代能力;2)OLAP 數據庫未來仍將會持續快速發展,技術能力強者有望突圍;3)數據庫行業朝著多元化方向演進,包括非關系型數據庫、分布式數據庫、HTAP 混合負載、云數據庫等,與傳統數據庫類型形成良好的市場互補關系。數據庫產業料將持續快速成長,帶來諸多投資機遇,產品技術能力強、生態客戶圈大、行業趨勢把握準確者有望勝出。建議建議關注:關注:1)已上市及擬上市:達夢數據(中國軟件)、星環科技、人大金倉(太極股份)、達夢數據(中國軟件)、星環科技、人大金倉(太極股份)、海量數據、神舟通用(航天軟件)、科藍軟件。海量數據、神舟通用(航天軟件)、科藍軟件。2)未上市公司:PingCAP

11、、巨杉數據庫、南大通用、易鯨捷、云和恩墨等。QVgUcVlXyXdYtYpUbR9R7NmOoOpNtReRpOpPiNpOwP8OmMzQuOrNsPuOrRrP 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 3 目錄目錄 報告亮點及創新之處報告亮點及創新之處.6 問題一:問題一:OLTP 數據庫的國產替代能力如何?數據庫的國產替代能力如何?.7 核心聚焦:關系型 OLTP 數據庫是國產替代的主要對象.7 替代挑戰:海外巨頭在產品性能、編程方言、應用生態等維度具備優勢.9 替代能力:國產數據庫已具備

12、較強的替代能力.13 問題二:問題二:OLAP 數據庫的發展到了什么階段?數據庫的發展到了什么階段?.17 并駕齊驅:OLAP 成為繼 OLTP 之后數據庫的下一發展重心.17 技術復盤:把握數據處理效率、數據完整性兩條發展主線.20 需求推演:決策實時化、場景精細化、產品標準化.24 問題三:如何看待國產數據庫的創新方向?問題三:如何看待國產數據庫的創新方向?.27 看架構:分布式成重要趨勢,云數據庫打開更大市場.27 看模型:關系型與非關系型長期共存,重視多模型能力構建.30 看生態:開源閉源并存發展,共促商業化生態繁榮.33 風險因素風險因素.36 投資建議投資建議.37 計算機計算機行

13、業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 4 插圖目錄插圖目錄 圖 1:一張圖看懂數據庫發展路徑.8 圖 2:Oracle RAC 架構增強數據處理能力.10 圖 3:Oracle Data Guard 用于容災提升安全性.10 圖 4:SQL 語言的特點.11 圖 5:部分主流關系型數據庫“方言”示例.11 圖 6:TPC-C 基準測試全球數據庫歷史前 10 名(按照每分鐘處理任務數排序).13 圖 7:達夢數據庫具備高性能 OLTP 能力.14 圖 8:人大金倉 KingbaseES 主要性能優勢.14 圖

14、 9:信創核心品類有望進一步向區縣層面下沉.15 圖 10:行業信創推進順序.15 圖 11:達夢數據庫客戶案例.16 圖 12:2021 年全球數據庫市場份額.16 圖 13:2021 年我國本地部署關系型數據庫市場份額.16 圖 14:數據治理賦能企業各個價值鏈環節.18 圖 15:國內外分析型數據庫市場代表廠商.19 圖 16:2020、2021 年全球數據庫魔力象限.19 圖 17:數據倉庫架構及優缺點.21 圖 18:MPP(大規模并行處理)架構.21 圖 19:數據湖架構及優缺點.22 圖 20:Hadoop 技術生態體系.23 圖 21:全球數據量預測(ZB).23 圖 22:我

15、國企業潛在 AI/ML 應用場景數目調研.23 圖 23:湖倉一體架構圖.24 圖 24:亞馬遜智能湖倉架構圖.24 圖 25:TP/AP 分離數據庫應用架構數據流.25 圖 26:數據價值隨實時性遞減.25 圖 27:數據分析需求在部分行業深化方向.26 圖 28:數據中臺產品技術 SaaS 化.26 圖 29:硬件架構有中 4 種不同層次的數據共享.28 圖 30:2020-2026 中國關系型數據庫市場規模(按部署方式分類).30 圖 31:我國數據庫產品分布情況(截至 2021 年 6 月).32 圖 32:各機構關于我國數據庫及關系型數據庫市場增速預測.32 圖 33:常見開源許可證

16、一覽.34 圖 34:全球開源數據庫與商業數據庫數量占比.35 圖 35:開源數據庫與商業數據庫成本比較.35 表格目錄表格目錄 表 1:關系型數據庫與非關系型數據庫的對比.7 表 2:OLTP 和 OLAP 的對比.8 表 3:主流海外數據庫品類分類一覽.9 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 5 表 4:Oracle 發展歷史.12 表 5:Oracle 產品線.12 表 6:達夢數據主要上游生態合作伙伴.15 表 7:2019-2021 年我國國產數據庫管理軟件市占率排名.17 表 8

17、:數據倉庫與傳統數據庫對比.17 表 9:不同技術架構分析型數據庫關鍵指標.20 表 10:Hadoop 與 MPP 差異.22 表 11:非 HTAP 架構與兩種 HTAP 方案對比.25 表 12:傳統集中式數據庫與新興分布式數據庫對比.27 表 13:三種分布式架構的優劣勢分析.28 表 14:分布式數據庫技術路線對比.29 表 15:存算一體 vs 存算解耦.29 表 16:云數據庫的機遇與挑戰.30 表 17:四種非關系型數據庫對比.31 表 18:2022 年 10 月數據庫管理系統流行程度排名及環比、同比變化情況.31 表 19:星環大數據基礎平臺(TDH)與競爭對手支持數據模型

18、對比.33 表 20:不同多模型實現路徑.33 表 21:國產數據庫開源情況.36 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 6 報告報告亮點及創新之處亮點及創新之處 本報告以市場上核心關注的三個數據庫行業問題為抓手,創新性的展開對數據庫行業本報告以市場上核心關注的三個數據庫行業問題為抓手,創新性的展開對數據庫行業的討論與分析,幫助讀者重點理解當前數據庫行業的核心矛盾,并梳理了對應的參與公司的討論與分析,幫助讀者重點理解當前數據庫行業的核心矛盾,并梳理了對應的參與公司與建議關注的投資機遇。具體內容

19、如下:與建議關注的投資機遇。具體內容如下:1)OLTP 數據庫國產數據庫國產廠商替代能力廠商替代能力探究探究 基于數據庫產業發展歷史的回顧,明確關系型 OLTP 數據庫是目前國產替代的主要對象,從產品性能、編程方言、應用生態維度梳理海外巨頭所具備的優勢以及國產廠商面臨的挑戰,從性能、生態和市場的角度分別論證數據庫國產替代的能力幾何。2)OLAP 數據庫的技術復盤與格局推演數據庫的技術復盤與格局推演 我們認為 OLAP 與 OLTP 并行發展是數據庫行業重要趨勢,并從供需角度分析 OLAP增長動因。系統梳理 OLAP 領域從數據倉庫、數據湖到湖倉一體的技術發展演進,總結各階段技術架構與需求痛點。

20、基于 OLAP 需求場景,我們認為 OLAP 數據庫正在朝著決策實時化、場景精細化、產品標準化的方向發展。3)分析了國產分析了國產數據庫數據庫行業的行業的創新發展方向創新發展方向 提出從架構、模型和生態三個維度看待國產數據庫未來的創新發展方向。在架構維度,分布式與云將持續貢獻增量;在模型維度,關系型與非關系型將長期共存,多模型兼容能力者有望勝出;在生態維度,預計國產廠商將積極擁抱開源建設,補充自身技術能力與生態,同時兼顧自主可控與商業化需求,打開更大市場。計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明

21、7 問題一:問題一:OLTP 數據庫數據庫的的國國產替代產替代能力如何能力如何?核心聚焦:關系型核心聚焦:關系型 OLTP 數據庫是國產替代的主要對象數據庫是國產替代的主要對象 產品分類:產品分類:從從需求的需求的角度角度可可將將數據庫數據庫分成分成以下兩種以下兩種關系型數據庫和非關系型數據關系型數據庫和非關系型數據庫、庫、OLTP 數據庫和數據庫和 OLAP 數據庫。數據庫。1)按數據模型分類:關系型數據庫和非關系型數據庫按數據模型分類:關系型數據庫和非關系型數據庫 關系型數據庫關系型數據庫是一種典型的數據庫類型,采用關系模型,常用行和列等二維的形式來存儲結構化數據,一系列的行和列被稱為表,

22、一組表組成了一個數據庫。表的每一行稱為一個元祖(Tuple),代表了一組值之間的聯系;每一列稱為一個屬性(Attribute)或字段(Field),是對實體的具體描述,每一列的數據類型相同。關系模型憑借原子性、一致性、隔離性和持久性的 ACID 特性,取代層次、網狀模型成為當代主流數據模型。非關系型數據庫非關系型數據庫是用非關系模型,存儲非結構化的如圖像、音視頻等類型數據的數據庫,分為列存數據庫、鍵值數據庫、文檔數據庫、圖數據庫等多種類別。隨著 web2.0 的興起海量半結構化、非結構化數據出現,非關系型數據庫應運而生。表 1:關系型數據庫與非關系型數據庫的對比 類型類型 關系型數據庫關系型數

23、據庫 非關系型數據庫非關系型數據庫 特性 關系型數據庫,是指采用了關系模型來組織數據的數據庫。關系模型指的就是二維表格模型,而一個關系型數據庫就是由二維表及其之間的聯系所組成的一個數據組織。1、有鍵值存儲數據庫、列存儲數據庫、文檔型數據庫、圖形數據庫等多種分類;2、一般不支持ACID 特性;優點 1、容易理解:關系模型相對網狀、層次等其他模型來說更容易理解;2、使用方便:關系型數據庫使用 SQL 語言非常方便;3、易于維護:豐富的完整性減低了數據冗余和數據不一致的概率。1、無需經過 SQL 層的解析,讀寫性能很高;2、數據容易擴展;3、存儲數據的格式多樣化:存儲格式是 K-V 形式、文檔形式、

24、圖片形式等等,而關系型數據庫則只支持基礎類型。缺點 1、處理高并發讀寫性能較差;2、表結構較為固定,不便于更改擴展;1.不提供 SQL 支持;2.一般來說無事務處理 資料來源:OSCHINA,中信證券研究部 2)按應用類型分類:按應用類型分類:OLTP 和和 OLAP OLTP(On-Line Transaction Processing,操作型數據庫,又稱聯機事務處理),操作型數據庫,又稱聯機事務處理)主要關注一段時間內的實時數據,基本特征是接收的用戶數據可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果,是對用戶操作快速響應的方式之一。OLTP 主要使用關系模型,用戶多為一線業務

25、人員,支持高并發、實時快速增刪查改,典型應用場景包括金融交易、互聯網電商等。OLAP(On-Line Analysis Processing,分析型數據庫,又稱聯機分析處理),分析型數據庫,又稱聯機分析處理)主要是分析長期數據的規律走勢,多應用于決策。OLAP 使用的數據對象不限于關系模型,用戶多為分析師或管理層,支持對于歷史數據的分析操作,典型應用場景包括風險預警、商業分析、輔助決策等。伴隨企業信息系統大量業務數據的產生,從不同類型的數據中提取 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 8 出對

26、企業決策分析有用的信息這一需求日漸顯現。表 2:OLTP 和 OLAP 的對比 OLTP OLAP 本質 在線交易系統 在線數據檢索和分析系統 數據處理操作 對數據庫進行增、刪、改、查 對數據記錄進行選擇 數據表 標準化 未標準化 數據源 OLTP 以及 OLTP 的處理記錄 不同的 OLTP 是 OLAP 的數據源 數據量大小 實時數據,數據量小 聚合歷史數據,數據量大 響應時間 毫秒級 秒、分鐘或小時(取決于處理的數據量)存儲方式 數據存儲在傳統的數據管理系統 數據存儲在數據倉庫 特點 方便創建數據表以及方便維護 引導用戶在電子表格的幫助下創建視圖進行分析 用途 關注一段時間內的實時數據

27、分析長期數據的規律走勢,為決策提供幫助 典型適用場景 快速處理高并發、小批量數據 使用復雜查詢處理大量數據 主要用戶 銀行柜員、收銀員、倉庫管理員等 數據分析師、業務分析師、高管等 資料來源:Giant Tech,艾瑞咨詢,中信證券研究部 發展發展歷史:歷史:國外數據庫廠商相對于國內廠商早起步國外數據庫廠商相對于國內廠商早起步 20-30 年。年。國內廠商中,如今占據國內市場份額較多的達夢數據成立于 2000 年,南大通用成立于 2004 年,而國外的 IT 巨頭早在上個世紀便已經在這一領域進行研究發展,以 Oracle、IBM、微軟為代表的海外 IT巨頭的相關產品于 20 世紀 80 年代末

28、開始進入中國。先發優勢帶來的技術領先和客戶粘性是如今國外廠商仍然占據國內數據庫市場主要份額的重要原因。圖 1:一張圖看懂數據庫發展路徑 資料來源:各公司官網,中信證券研究部繪制 20 世紀世紀 60-70 年代,關系模型快速發展,關系型數據庫可解決數據存儲的易用性、年代,關系模型快速發展,關系型數據庫可解決數據存儲的易用性、抽象性、獨立性等問題,拉開了關系型數據庫軟件革命的序幕。抽象性、獨立性等問題,拉開了關系型數據庫軟件革命的序幕。1970 年,IBM 公司的研究員埃德加科德在 Communications of ACM 上發表論文A Relational Model of Data for

29、 Large Shared Data Banks,在層次模型和網狀模型的數據庫產品在市場上占主要位置 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 9 的時代,拉開了關系型數據庫軟件革命的序幕。IBM 在在 1973 年啟動了年啟動了 System R 項目來研究關系型數據庫的實際可行性,各方關系項目來研究關系型數據庫的實際可行性,各方關系型模型支持者吸取該項目經驗,進行關系型數據庫研發。型模型支持者吸取該項目經驗,進行關系型數據庫研發。1977 年,Oracle 創始人 Larry Ellison

30、與 Bob Miner 和 Ed Oates 在硅谷共同創辦了一家名為軟件開發實驗室的計算機公司(Oracle 前身),開始進行關系型數據庫的研發,同時期 Berkeley 大學也在進行關系數據庫系統 Ingres 的開發。IBM 雖然 1973 年就啟動了 System R 項目來研究關系型數據庫的實際可行性,但是并沒有及時推出這樣的產品,因為當時 IBM 的的 IMS(著名的層次型數據庫)市場較好,公司當時認為,如果推出關系型數據庫,會是對另一款產品的顛覆。80-90 年代,大量數據庫公司吸取關系模型經驗,逐步推出自己的產品。年代,大量數據庫公司吸取關系模型經驗,逐步推出自己的產品。198

31、3 年,IBM發布商業版數據庫 DB2。1984 年,Sybase 公司成立,創始人之一 Bob Epstein 是 Ingres 大學版(與 System R 同時期的關系數據庫模型產品)的主要設計人員。1988 年,微軟推出 SQL Server,主要適配自身 Windows 生態,這個時期,Oracle 因為客戶需求已經使用C 語言開發出適用于多個系統版本的數據庫產品。90 年代,MySQL、PostgreSQL 等開源版本數據庫陸續發布。表 3:主流海外數據庫品類分類一覽 關系型關系型 非關系型非關系型 OLTP 傳統巨頭:Oracle、MySQL、IBM DB2、SQL Server

32、、SAP Adaptive Server、Microsoft Access 云計算巨頭:Microsoft Azure SQL Database、Amazon Aurora、Google spanner 獨立廠商:PostgreSQL、MariaDB、SQLite、FileMaker、Firebird 傳統巨頭:Oracle NoSQL、IBM Cloudant、OrientDB 云計算巨頭:Amazon DynamoDB、Microsoft Azure Cosmos DB、RocksDB、LevelDB 獨立廠商:MongDB、Redis、Cassandra、Neo4j、Hbase OLAP

33、 傳統巨頭:Teradata、Oracle Essbase、SAP IQ 云計算巨頭:Google BigQuery、Amazon Redshift、Microsoft Azure Synapse Analytics 獨立廠商:Hive、Vertica、Snowflake、Spark SQL、HAWQ 獨立廠商:Elasticsearch、Splunk、Apache Kylin、Apache Druid、ClickHouse 資料來源:各公司官網,中信證券研究部 注:加粗為開源數據庫 國產替代國產替代:重點關注海外重點關注海外 IT 巨頭先入為主的巨頭先入為主的關系型關系型 OLTP 數據庫數

34、據庫的存量市場。的存量市場。外部確定因素擾動下,安全可控勢在必行,數據庫國產替代加速開展,以黨政為代表的國產替代先行,并不斷向金融、電信等領域拓展??v觀海內外數據庫行業近 70 年的發展史,我國自上世紀 80 年代開始相關技術研發、21 世紀初開始逐步邁入成熟的商業化進程,整體進度落后于海外巨頭 20 余年,導致在傳統關系型 OLTP 數據庫領域海外巨頭占據主要市場份額。而后較為新興的非關系型領域、OLAP 領域由于需求的碎片化以及云廠商和獨立廠商的角力,加上國產數據庫廠商緊緊跟隨行業發展的步伐,海內外新興數據庫市場呈現出百花齊放的態勢,海外廠商在新型數據庫領域并不具備絕對的技術迭代優勢和市場

35、份額優勢。因此因此數據庫國產替代首先重點關注數據庫國產替代首先重點關注傳統的傳統的關系型關系型 OLTP 數據庫的存量市場。數據庫的存量市場。替代挑戰:替代挑戰:海外海外巨頭在巨頭在產品性能產品性能、編程編程方言方言、應用應用生態生態等維度等維度具備優勢具備優勢 我們認為,我們認為,海外海外 IT 巨頭在數據庫領域巨頭在數據庫領域能夠能夠經久不衰的原因經久不衰的原因主要體現在主要體現在優越的產品性優越的產品性能能、獨立的編程獨立的編程方言方言和廣泛的應用生態等維度。和廣泛的應用生態等維度。這亦是數據庫國產替代所面臨的主要挑戰,是探究國產數據庫能否完成替代的重要關切。計算機計算機行業行業“構筑中

36、國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 10 1)技術領先,性能加持技術領先,性能加持 數據庫產品最重要的指標之一是性能數據庫產品最重要的指標之一是性能,以海外數據庫龍頭以海外數據庫龍頭 Oracle 為例,其產品在安為例,其產品在安全性、可伸縮性和并行性、兼容性、開放性等維度具備出眾優勢全性、可伸縮性和并行性、兼容性、開放性等維度具備出眾優勢。安全性方面,安全性方面,Oracle 的安全機制得到 17 家獨立安全評估機構的認可,獲得最高認證級別的 ISO 標準認證。Oracle Data Guard 是 Oracle 的

37、高可用性數據庫方案,主要功能是數據保護、數據容災。Oracle Data Guard 在主節點和備用節點之間通過日志同步來保證主數據庫與備用數據庫之間數據的同步,實現數據庫的快速切換和故障恢復,最大程度保護數據庫的安全??缮炜s性和并行性方面,可伸縮性和并行性方面,Oracle 的服務器通過使一組結點共享同一簇中的工作來擴展,提供高可用性和高伸縮性的解決方案;Oracle 產品擁有 RAC 等數據庫領域的硬核技術。Oracle RAC(Real Application Clusters)是 Oracle 的一項支持網格計算環境的關于應用集群的核心技術。在一個應用環境中,讓多個服務器來管理同一個數

38、據庫,分散了每一臺服務器的工作量。Oracle RAC 的技術大幅提升架構的可用性、性能、擴展性,即使某些實例宕機,也能維持系統正常工作;提高集群的事務處理能力,使得多個實例能夠并發工作;能通過增加節點提高數據庫的性能。兼容性方面,兼容性方面,Oracle Database 可以在 Windows、Unix、DOS 等多個系統上工作,沒有 SQL Server 只能在 Windows 系統上運行的局限性,同時支持包括 TCP/IP、DECnet在內的多種協議,可以與多種通訊網絡連接。開放性方面,開放性方面,Oracle 的底層使用 C 語言開發而成,隨著不斷發展在開發中也加入 Java語言和技

39、術標準,并支持絕大多數編程語言,相比之下 SAP 等競爭對手均只支持幾種編程語言,與其他技術與平臺的兼容度低于 Oracle。圖 2:Oracle RAC 架構增強數據處理能力 圖 3:Oracle Data Guard 用于容災提升安全性 資料來源:51CTO 資料來源:Oracle 公司官網 2)獨立編程方言,提升用戶粘性獨立編程方言,提升用戶粘性 SQL 作為關系型數據庫的標準語言,具備移植性強、簡潔易用等優勢。作為關系型數據庫的標準語言,具備移植性強、簡潔易用等優勢。SQL 全稱Structured Query Language,是用于定義、查詢、修改和管理關系型數據庫的結構化查詢 計

40、算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 11 語言。1970 年 IBM 公司研究員埃德加科德在其發表的論文A Relational Model of Data for Large Shared Data Banks中首次描述了關系模型,SQL 是對關系模型的第一個商業化語言實現,并于 1986 年成為美國國家標準學會(ANSI)的一項標準,在 1987 年成為國際標準化組織(ISO)標準。作為一種高度非過程化的編程語言,SQL 同時具備擴展型強和簡潔易用的優勢,它允許用戶在不指定對數據的存放方法

41、和不了解具體數據存放方式的情況下在高層數據結構上進行工作。圖 4:SQL 語言的特點 資料來源:艾瑞咨詢,中信證券研究部 各家數據庫產品各家數據庫產品在落地應用過程中逐漸形成在落地應用過程中逐漸形成 SQL“方言”“方言”,以以解決標準語言無法解決解決標準語言無法解決的問題,提高了的問題,提高了用戶用戶黏性黏性,形成,形成競爭壁壘。競爭壁壘。在商業實踐中,由于各家數據庫產品的數據源不同、應用場景不同、用戶需求不同,眾多數據庫廠商均開始嘗試在標準 SQL 基礎上提供自己特有的功能,以提高用戶的便捷性。不論是數據庫龍頭 Oracle、微軟 SQL Server、IBM DB2 還是開源框架 MyS

42、QL、PostgreSQL,都逐漸形成了自己的 SQL“方言”,這大大提高了不同主流數據庫產品之間的替換成本。同時,以 Oracle 為代表的全球數據庫巨頭不斷完善自身產品生態,通過收購 MySQL 等途徑提高自身在開源社區的影響力和話語權。持續提升的用戶黏性幫助海外 IT 巨頭實現對于傳統數據庫市場的壟斷。圖 5:部分主流關系型數據庫“方言”示例 資料來源:Towards Data ScienceMarie Lefevre 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 12 3)產品快速迭代,完善應

43、用生態產品快速迭代,完善應用生態 龍頭龍頭數據庫公司對于產品的更新換代較為積極,數據庫公司對于產品的更新換代較為積極,能夠產生較大的用戶粘性,使得市場能夠產生較大的用戶粘性,使得市場份額優勢持續份額優勢持續。以Oracle為例,在Oracle9i產品中引入網絡(Internet)的特性,在Oracle10g中加入網格計算(grid)的特性,在 Oracle12c 中引入云(cloud)的概念,不斷讓產品有新的突破。而通過每一次更新對于產品的漏洞進行及時修復、推出新的應用、優化產品的性能,也都會吸引已有的用戶持續使用這款產品。數據庫的這些特征,使其如同操作系統一樣存在較強的用戶粘性,幫助行業龍頭

44、廠商迭代已建立的市場份額優勢,因此數據庫行業是一個容易形成寡頭的行業。表 4:Oracle 發展歷史 年份年份 事件事件 1977 年 埃里森與同事創立名為“軟件開發實驗室”(Software Development Labs)的公司 1979 年 推出 Oracle2,計算機軟件史上第一個由純軟件公司開發的商用關系型數據庫管理系統 1986 年 Oracle 公司上市 1989 年 正式進入中國市場 1992 年 旗艦產品 Oracle7 面世 1997 年 推出面向網絡計算的 Oracle8 2001 年 發布 Oracle9i,i 代表網絡(Internet)2003 年 發布 Orac

45、le10g,最大特點是加入網格計算的功能。版本號中的 g 代表網格(grid)。2007 年 發布 Oracle11g,實現信息生命周期管理(Information Lifecycle Management)等創新功能。2010 年 收購了 MySQL 的所有者 Sun Microsystems 2013 年 發布 Oracle12c,c 代表云(cloud)2018 年 發布 Oracle18c 2019 年 發布 Oracle19c 資料來源:Oracle 官網,中信證券研究部 國外數據庫公司注重技術創新和邊界拓展,不斷獲得用戶國外數據庫公司注重技術創新和邊界拓展,不斷獲得用戶黏性黏性。以

46、 Oracle 為例,Oracle是第一個引入對象概念、多媒體等多種數據格式、并行技術、網格技術的數據庫。作為數據庫產品的標桿,Oracle 的 IT 布局十分完備,開發的產品涵蓋了行業管理軟件、企業管理軟件、中間件、數據庫、操作系統、服務器、存儲等多個領域。通過向上游基礎設施和下游軟件應用延伸產業鏈,海外 IT 巨頭得以進一步完善產品生態布局、提高基礎技術實力,從而持續穩固在數據庫領域的龍頭地位。表 5:Oracle 產品線 數據庫數據庫 中間件中間件 應用應用 IT 基礎設施基礎設施 Database 19c 企業版/標準版 Application Testing Suite E-Busi

47、ness Suite、PeopleSoft、JD Edwards、Siebel CRM Grid Infrastructure Database 18c 企業版/標準版 Data Integrator 和套件 AIA 流程集成 Oracle 閃存系統和 Pillar Axiom 插件 Database 12c 企業版/標準版 Enterprise Manager HCM 云解決方案庫 Oracle Linux 和 Oracle Enterprise Kernel Database 11g 企業版/標準版 Content Management SDK User Productivity Kit(

48、UPK/UPK 專業版)Solaris 10 MySQL Enterprise Data Quality Solaris 11 NoSQL 數據庫 融合中間件 資料來源:Oracle 官網,中信證券研究部 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 13 替代能力替代能力:國產數據庫已具備:國產數據庫已具備較強的替代較強的替代能力能力 1)性能為基:傳統數據庫領域性能為基:傳統數據庫領域,技術及性能可技術及性能可滿足國產替代的要求滿足國產替代的要求 從從 TPC-C 測試結果測試結果來看,來看,OL

49、TP 領域國產數據庫在領域國產數據庫在 TPC-C 等國際知名測試中性能已等國際知名測試中性能已達到甚至趕超海外巨頭水平。達到甚至趕超海外巨頭水平。TPC 全稱 Transaction Processing Performance Council,中文名稱為事務處理性能委員會,是數據庫性能測試的國際權威標準組織,目前擁有 20+成員公司,包括 Oracle、微軟、IBM 等數據庫領域 IT 巨頭和華為、阿里、浪潮、柏睿數據等國產廠商。TPC-C 測試是衡量 OLTP 系統的工業標準,是行業中公認的權威和最為復雜的在線事務處理基準測試。它通過模擬倉庫和訂單管理系統測試 OLTP 數據庫功能,包括

50、查詢、更新和隊列式小批量事務,通過每分鐘處理任務數(tpmC)衡量數據庫性能。2020年阿里云旗下 OLTP 數據庫 OceanBase 以 7.07 億 tpmC 的成績登頂 TPC-C 測試歷史榜首并延續至今,打破了 Oracle、IBM 等傳統 IT 巨頭對頭部排名的壟斷,反映了國產力量在 OLTP 領域已經達到較為領先的水平。圖 6:TPC-C 基準測試全球數據庫歷史前 10 名(按照每分鐘處理任務數排序)資料來源:TPC 官網 注:截止時間為 2022 年 10 月 14 日 國產國產 OLAP 數據庫數據庫龍頭龍頭廠商拳頭產品性能已逐漸實現對于海外廠商拳頭產品性能已逐漸實現對于海外

51、 IT 巨頭的追趕。巨頭的追趕。以達夢數據庫為例,公司招股說明書顯示,通過基于記錄的多版本并發控制、基于事務鎖的行級并發、日志包分片處理等大量先進性技術,公司產品具備優秀的并發事務處理性能。第三方軟件測評實驗室測試,單節點能夠支撐數據庫并發連接超過 10 萬個;TPC-C 測試模型下,單節點性能可達百萬級 tpmC,與海外主流 OLTP 產品 Oracle 11g、IBM DB2 9.5性能達到同一數量級。計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 14 圖 7:達夢數據庫具備高性能 OLTP 能力

52、 資料來源:達夢數據招股書,中信證券研究部 除了關注除了關注 OLTP 數據庫基本的讀寫性能之外,國產廠商還高度重視產品可用性、穩定數據庫基本的讀寫性能之外,國產廠商還高度重視產品可用性、穩定性、易用性、安全性等維度。性、易用性、安全性等維度。人大金倉旗下拳頭產品通用型關系型數據庫 KingbaseES 實現對 97%以上 Oracle“方言”的兼容,便于用戶實現低成本遷移;同時具備高穩定性、高可用性,標桿項目國家電網智能電網調度系統已實現10余年7x24穩定運行;易用性方面,KingbaseES 通過自研數據庫輔助調優工具的應用,大大提高了性能診斷、輔助調優、故障修復等運維業務的效率;此外,

53、KingbaseES 還通過了國家信息安全產品認證、Common Criteria EAL4+安全認證,達到主流產品 Oracle、SQL Server、IBM DB2 的安全級別。圖 8:人大金倉 KingbaseES 主要性能優勢 資料來源:人大金倉官網,中信證券研究部 2)生態為綱:生態為綱:信創加速,國產數據庫信創加速,國產數據庫穩步推進上下游生態的適配穩步推進上下游生態的適配 黨政信創縱向下沉和行業信創橫向拓寬持續利好國產數據庫生態構建。黨政信創縱向下沉和行業信創橫向拓寬持續利好國產數據庫生態構建。信創需求是數據庫國產替代的核心動力,外部環境不確定性提升國內信創產業發展的確定性,緊迫

54、性、重要性持續獲市場更深認知。作為對自主可控和數據安全要求最高的細分市場,黨政信創開啟最早,部委、省、市層面包括數據庫在內的基礎軟硬件和 PC、應用推進順利,信創產業后續有望從“縱向下沉”和“橫向拓寬”兩方面繼續發展??v向方面,縱向方面,信創核心品類預計將進一步向區縣層面下沉,各條線工作落地節奏逐步清晰。我們認為當前階段信創應用在部委、省、市層面已深入開展,未來有望進一步下沉,實現較第一輪信創三倍體量的擴展。同時在行業內部,國產化替代主要遵循“外圍軟件-管理支持-準核心系統-核心系統”計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必

55、閱讀正文之后的免責條款和聲明 15 的順序,按四個業務層級逐步深化。橫向橫向方面,方面,信創核心品類有望從黨政公文向電子政務、事業單位及其他行業加速滲透,按照“2+8”的自主可控體系由黨政機關逐漸拓展至金融、電信、能源、教育、交通等八大行業,預計有望以 2022H2 為起點逐步進入高速發展期。信創產業的快速推進將持續利好國產數據庫上下游行業生態的構建,不斷加強對國產基礎硬件、操作系統、中間件及各類應用的適配能力。圖 9:信創核心品類有望進一步向區縣層面下沉 圖 10:行業信創推進順序 資料來源:國家統計局,中信證券研究部測算 資料來源:艾瑞咨詢,中信證券研究部 上游生態:上游生態:數據庫軟件作

56、為基礎軟件,其上游主要是數據庫軟件作為基礎軟件,其上游主要是 CPU 芯片、服務器主機、存儲芯片、服務器主機、存儲設備、操作系統等基礎軟硬件行業。設備、操作系統等基礎軟硬件行業。目前國內市場上除 IBM Power 小型機,以及 Intel、AMD 等主要國際 PC 服務器生態體系外,眾多國產生態體系也走在快速發展的路上。其中CPU 主要包括飛騰、龍芯、申威、鯤鵬、海光、兆芯等品牌,服務器主要包括浪潮、長城、曙光、聯想等品牌,操作系統則有麒麟軟件、統信軟件等廠商。以達夢為例,達夢數據庫與相關國內外上游計算生態企業有著良好合作關系,能夠提供經過良好兼容優化的各類數據產品。此外,在上游存儲設備領域

57、,達夢也與宏杉、H3C、華為、浪潮、曙光、長城、聯想、EMC 等主流廠商的存儲產品具有良好的兼容適配性。表 6:達夢數據主要上游生態合作伙伴 品類品類 合作伙伴合作伙伴 CPU Intel、AMD、飛騰、龍芯、申威、鯤鵬、海光、兆芯等 服務器主機 IBM Power 小型機、浪潮、長城、曙光、聯想等 存儲設備 宏杉、H3C、華為、浪潮、曙光、長城、聯想、EMC 等 操作系統 麒麟軟件、統信軟件等 資料來源:達夢數據招股書,中信證券研究部 下游下游生態:生態:數據庫軟件的下游主要為應用軟件開發行業,既包括傳統信息化應用,如數據庫軟件的下游主要為應用軟件開發行業,既包括傳統信息化應用,如電子政務、

58、電子商務、企業電子政務、電子商務、企業 ERP、財務管理、工業生產控制等,也包括新型的應用如大數、財務管理、工業生產控制等,也包括新型的應用如大數據、人工智能、物聯網等。據、人工智能、物聯網等。數據庫軟件作為信息化系統中不可或缺的組成部分,廣泛覆蓋政府、金融、能源、教育、交通等大多數涉及國計民生的領域。目前我國應用軟件產業整體發展較為成熟,在各行業領域擁有豐富的產品供給,形成了大量行業獨立應用軟件開發商(ISV)。ISV 是數據庫與用戶的重要橋梁,承擔著數據庫的應用和集成工作。與 ISV 的合作將是國產數據庫公司下游生態建設的持續投入方向。195730325563010002000300040

59、0050006000小口徑中口徑大口徑市級及以上區縣 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 16 大型國央企數字化轉型和信創需求持續豐富國產數據庫下游生態。大型國央企數字化轉型和信創需求持續豐富國產數據庫下游生態。由于海外數據庫龍頭較早進入國內市場打開市場,此前重點行業大型央國企高度依賴海外數據庫產品。隨著“十四五”期間數字經濟的不斷加碼和行業信創的穩步推進,大型央國企數據庫建設呈現出“升級改造”和“國產替代”的雙重需求,為國產數據庫廠商開拓下游用戶生態創造了良好的發展機遇。目前國產數據庫廠商

60、在金融、電信、能源、交通等重點行業持續拓展大型用戶,推進國產替代,通過打造標桿性行業用戶不斷積累行業 know-how,從而快速把握用戶需求實現產品迭代。圖 11:達夢數據庫客戶案例 資料來源:達夢數據官網,中信證券研究部 3)市場為證:傳統數據庫市場為證:傳統數據庫領域國產份額穩步提升,競爭格局逐漸清晰領域國產份額穩步提升,競爭格局逐漸清晰 市場份額:市場份額:國產廠商國產廠商在國內在國內傳統數據庫傳統數據庫市場市場已逐漸與海外龍頭分庭抗禮。已逐漸與海外龍頭分庭抗禮。Gartner 數據顯示,2021 年全球數據庫主要市場份額仍被微軟、AWS、Oracle 等海外龍頭占據。反觀國內傳統數據庫

61、領域,國產替代已經初具成效。IDC 數據顯示,2021 年我國本地部署關系型數據庫市場份額 Top3 分別為 Oracle、華為、達夢,后兩者的市場份額超過了微軟、IBM 等海外 IT 巨頭,人大金倉、阿里巴巴等國產廠商亦在國內市場有所斬獲。圖 12:2021 年全球數據庫市場份額 圖 13:2021 年我國本地部署關系型數據庫市場份額 資料來源:Gartner,中信證券研究部 資料來源:IDC,中信證券研究部 國產企業國產企業:傳統領域國產數據庫競爭格局逐漸清晰。傳統領域國產數據庫競爭格局逐漸清晰。賽迪顧問數據顯示,傳統領域國MicrosoftAWSOracleGoogleIBM其他Orac

62、le華為達夢微軟SAPIBM人大金倉阿里巴巴其他 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 17 產數據庫市場 Top5 在過去三年基本沒有發生變化,市場格局逐漸趨于穩定。達夢數據庫、人大金倉、優炫軟件、南大通用和神州通用作為國內老牌商業數據庫廠商,已成為 OLTP領域國產替代的中堅力量。表 7:2019-2021 年我國國產數據庫管理軟件市占率排名 國產國產數據庫廠商數據庫廠商 2021 2020 2019 達夢數據 1 1 1 人大金倉 2 2 5 優炫軟件 4 3 4 通用數據 3 4 2

63、神舟通用 5 5 3 資料來源:賽迪顧問,達夢數據招股說明書,中信證券研究部 注:因公有云廠商(如阿里云、華為、騰訊等數據庫產品)的經營模式差異較大,因此未做排名統計。問題二問題二:OLAP 數據庫的發展數據庫的發展到了什么階段?到了什么階段?并駕齊驅并駕齊驅:OLAP 成為成為繼繼 OLTP 之后數據庫的下一發展之后數據庫的下一發展重心重心 20 世紀世紀 90 年代以前,年代以前,早期早期 OLAP 需求場景尚不成熟,需求場景尚不成熟,OLAP 和和 OLTP 在同一個數在同一個數據庫產品中實現,主要應用于簡單的歷史數據查詢分析。據庫產品中實現,主要應用于簡單的歷史數據查詢分析。前文中我們

64、提到,1990s 之前,以增、刪、查、改為核心的 OLTP 需求是數據庫領域發展的重心。隨著企業數據管理系統應用的深化,數據量的高速積累、數據應用場景的不斷豐富和數據模型的不斷完善,分析師和企業管理層逐漸看到數據分析的價值。20 世紀末世紀末,分析型數據庫開始嶄露頭角,分析型數據庫開始嶄露頭角,OLAP 技術路線獨立,技術路線獨立,成為繼成為繼 OLTP 之后之后數據庫領域的數據庫領域的另一另一發展重心。發展重心。OLAP(聯機分析處理)的概念最早由關系模型之父埃德加 科德于 1993 年提出。他認為 OLTP 已不能滿足終端用戶對數據庫查詢分析的要求,用戶需要對關系型數據庫進行大量的計算才能

65、輔助決策分析。OLAP 的技術路線由此獨立并得到蓬勃發展,在傳統數據庫的基礎上逐漸在傳統數據庫的基礎上逐漸發展發展出數據倉庫的產品形態出數據倉庫的產品形態,主要支持面向分析場景的應用,提供結構化的、主題化的數據用于業務反饋和輔助決策。表 8:數據倉庫與傳統數據庫對比 比較比較指標指標 傳統數據庫傳統數據庫 數據倉庫數據倉庫 數據內容 當前值 歷史的、歸檔的、集成的、計算過的數據(處理過)數據目標 面向業務操作程序、重復操作 面向主題、分析應用 數據特性 動態變化、更新 靜態、不能直接更新、只能定時添加和更新 數據結構 高度結構化、復雜、適合操作計算 簡單、適合分析 使用頻率 高 低 數據標準化

66、 高度標準化的靜態 Schema 非標準化 Schema,例如星型 Schema 或雪花型 Schema 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 18 比較比較指標指標 傳統數據庫傳統數據庫 數據倉庫數據倉庫 數據存儲 往往采用“行存儲”,對在單行型物理塊中執行高吞吐量寫入操作進行了優化 使用“列存儲”進行了優化,可實現輕松訪問和高速查詢列性能 數據訪問 大量小型讀取操作 為最小化 I/O 并最大化數據吞吐量進行了優化 數據訪問量 每個事物一般之訪問少量記錄 每個事務一般訪問大量的記錄 響應時間

67、要求 計時單位小,如秒甚至毫秒 計時單位相對較大、如分鐘、小時等 資料來源:華為云官網,中信證券研究部 我們認為,我們認為,OLAP 需求的獨立和分析型數據庫的爆發是數據庫行業發展的必然趨勢需求的獨立和分析型數據庫的爆發是數據庫行業發展的必然趨勢,其驅動因素主要包括需求側和供給側兩個維度:1)需求側:數據量的積累帶來數據賦能的潛力,分析處理的應用場景不斷豐富需求側:數據量的積累帶來數據賦能的潛力,分析處理的應用場景不斷豐富 數據治理能夠實現對企業各個價值鏈環節的賦能,提升企業的運營與決策效率。數據治理能夠實現對企業各個價值鏈環節的賦能,提升企業的運營與決策效率。數據量的積累使得基于歷史數據的分

68、析決策成為可能,企業的頂層決策、生產運營、后臺研發等一系列環節將逐步由數字化邁向智能化。我們認為,信息密集型、勞動密集型行業的數據治理賦能成果更易顯現,在業務運營過程中容易產生體量巨大、數據結構不統一的數據?;趯v史數據的分析可以充分賦能產品研發、營銷銷售、售后服務等諸多環節。以金融行業為例,基于個人消費行為數據、征信數據、儲戶信用報告數據、交易數據的分析可以幫助企業更高效地開展風險評估以及理財產品的定制化推介營銷活動。圖 14:數據治理賦能企業各個價值鏈環節 資料來源:帆軟官網,中信證券研究部 2)供給側:供給側:海內外海內外傳統數據庫巨頭、云廠商、獨立廠商傳統數據庫巨頭、云廠商、獨立廠商

69、百家爭鳴百家爭鳴,各有千秋,各有千秋 分析型數據庫領域由于場景需求碎片化、技術路徑多樣化,海內外各類廠商呈現出百分析型數據庫領域由于場景需求碎片化、技術路徑多樣化,海內外各類廠商呈現出百花齊放的態勢花齊放的態勢。傳統 IT 巨頭多在關系模型領域深耕,憑借在 OLTP 領域的先發優勢率先進行探索,整體占據主導地位。但云計算、大數據的快速發展帶來了需求的進一步爆發,各類數據模型、各種應用場景的需求逐漸分化。同時隨著開源生態的不斷豐富,以 Apache軟件基金會為代表的開源體系也為巨頭之外的數據庫廠商的發展提供了一片沃土。云計算巨頭、獨立數據庫公司的數據庫產品快速崛起。計算機計算機行業行業“構筑中國

70、科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 19 圖 15:國內外分析型數據庫市場代表廠商 資料來源:各公司官網,中信證券研究部 傳統巨頭:傳統巨頭:在 OLTP 領域起步相對較早具有先發優勢,產品具備高穩定性、高安全性的優勢,且具備良好的客戶基礎,市場份額較高。但技術架構相對傳統,需要承擔較高的運維成本和改造成本,在新技術的適配性上存在短板。典型代表包括海外 Oracle、IBM、Microsoft、SAP 和國內人大金倉、達夢數據庫等。云廠商云廠商:對于應用場景(特別是互聯網領域)的理解更加深刻,產品矩陣類型豐富。但相對缺少

71、中立性,銷售綁定云服務,降低企業可選擇性,同時對于私有化部署相對缺乏服務能力。典型代表包括海外亞馬遜、谷歌和國內阿里、騰訊、華為等。獨立廠商:獨立廠商:技術架構先進,能夠滿足更加多元化的分析需求,各自在自身的強勢領域深耕細作。但商業化驗證維度存在欠缺,客戶消費意愿、消費能力以及市場空間均有待驗證,財務表現相對較弱。典型代表包括海外 Databricks、Snowflake、MongoDB 和國內星環科技、PingCAP、偶數科技等公司。圖 16:2020、2021 年全球數據庫魔力象限 資料來源:Gartner 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 23

72、2022.10.18 請務必閱讀正文之后的免責條款和聲明 20 技術復盤技術復盤:把握數據把握數據處理處理效率、數據完整性效率、數據完整性兩條發展主線兩條發展主線 路徑回顧:路徑回顧:OLAP 先后先后衍生出衍生出數據倉庫、數據湖數據倉庫、數據湖的發展路徑的發展路徑,現在正,現在正在進行在進行湖倉一體湖倉一體、智能湖倉的實踐嘗試智能湖倉的實踐嘗試。數據倉庫聚焦于結構化數據處理能力的問題,由傳統 OLTP 數據庫提供底層數據,主流采用 MPP(大規模并行計算)的無共享架構,相較于早期分析型數據庫顯著提升了擴展性和對于結構化數據的處理性能,但不支持非結構化、半結構化數據的存儲和分析;數據湖聚焦于數

73、據完整性的實現,支持對于各類半結構化數據(CSV、XML、日志等)、非結構化數據(文檔、圖片、音頻、視頻等)的存儲和分析,大大拓展了數據分析的使用場景和功能,但在結構化數據處理、ACID 特性支持、數據的實時性與可靠性等維度存在短板。為了兼顧數據分析效率和數據完整性,同時在分析過程中與 AI/ML 更緊密結合,近年來眾多分析型數據庫廠商開始進行湖倉一體、智能湖倉的嘗試。表 9:不同技術架構分析型數據庫關鍵指標 數據倉庫數據倉庫 數據湖數據湖 湖倉湖倉一體一體 數據類型 結構化數據 結構化、半結構化/非結構化數據 結構化、半結構化/非結構化數據、實時數據 數據量級 GB 級、TB 級 TB 級、

74、PB 級 TB 級、PB 級 Schema 在寫入數倉前設計 在取用時寫入 統一元數據管理 ACID 事務支持 良好 較弱 良好 性價比 較高的成本獲得、很快的查詢結果 較低的成本獲得、教快的查詢結果 較低的成本獲得、最快的查詢結果 指標要求 性能、SQL 標準、ACID 特性、可擴展性 可擴展性、在線擴容、彈性擴容 性能、SQL 標準、ACID 特性、可擴展性、在線擴容、彈性擴容、敏捷開發 用戶 業務分析師 業務分析師、數據開發人員、數據科學家 業務分析師、數據開發人員、數據科學家 適用場景 大規模結構化數據查詢和分析 大規模數據的離線批量計算、高級預測性分析 超大規模結構化數據查詢和分析、

75、實時數據處理、AI/ML 應用 業務價值 對單個業務環節實現描述性分析、診斷性分析 實現診斷性、預測性分析,對現有及未來客戶價值具有前瞻性 實時產品與服務、決策與行動最優化 資料來源:IDC,艾瑞咨詢,AWS 官網,CSDN Data+Science+Insight,中信證券研究部 1)數據倉庫:數據倉庫:基于基于 MPP 架構實現架構實現較大規模較大規模結構化數據計算效率優化結構化數據計算效率優化,但在可用性,但在可用性、可可擴展性擴展性和數據模型靈活性和數據模型靈活性上仍存在短板上仍存在短板 技術架構:技術架構:數據倉庫的分析對象主要來自 OLTP 數據庫的結構化數據,通過預先定義Sche

76、ma 的方式,運用 ETL(抽去、轉換、加載)操作將數據導入數據倉庫后,用戶可以較為便捷地鏈接 BI 系統和報表系統。由于與 OLTP 數據庫高度結合,數據倉庫對于元數據的要求十分嚴格,很多數據倉庫同樣滿足 ACID 事務能力。早期數據倉庫主流采用 MPP(大規模并行處理)架構,通過一定的節點互聯網連接多臺 SMP 服務器,每個節點之間采用完全無共享(Shared Nothing)結構,具有獨立的 CPU、內存和磁盤資源。在實務過程中,來自 OLTP 數據庫的數據將根據來源場景、應用特點分配到不同的節點上,在每個處理單元上并行地進行計算分析,最終每個節點計算完成后再統一匯總得到最終結果。計算機

77、計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 21 圖 17:數據倉庫架構及優缺點 圖 18:MPP(大規模并行處理)架構 資料來源:阿里云官網,Databricks,中信證券研究部 資料來源:墨天輪 性能分析:性能分析:基于 MPP 架構的數據倉庫在 ACID 事務性支持和中等規模數據分析效率上具備優勢。由于數據源來自高度結構化的OLTP系統,數據倉庫具有穩定可靠、支持ACID事務性和 SQL 兼容的優勢,同時多個節點的并行計算也提高了數據倉庫所能處理的數據量水平。但是,基于 MPP 架構的數據倉庫在數據

78、模型的靈活性、可用性和擴展性的維度上仍存在短板。Web2.0 時代的來臨使得企業在日常運營過程中積累了大量非結構化、半結構化數據(如日志、圖片、文檔、音視頻等),需要提前設計 Schema 的數據倉庫無法應對非/半結構化數據的處理需求。此外,由于 MPP 的各個節點并行處理任務,一旦某個節點出現性能短板或性能故障,將會降低整個系統的處理性能。因此 MPP 架構的可用性(部分節點發生故障時繼續運行的能力)、并發度(單位時間內所能夠處理的任務數)仍然存在缺陷,這也進一步造成了 MPP 數據倉庫可擴展性以及擴展成本上的短板,使得數據倉庫無法應對大數據時代 PB 級甚至更高的數據處理需求。2)數據湖:

79、數據湖:以以 Hadoop 架構為代表的數據湖提高了可擴展性和數據模型的靈活性,架構為代表的數據湖提高了可擴展性和數據模型的靈活性,但犧牲了一定程度數據的實時性和可靠性但犧牲了一定程度數據的實時性和可靠性 技術架構:技術架構:數據湖的核心是存儲業務數據的完整副本(原始數據),包括結構化數據、非結構化數據以及半結構化數據。Hadoop 是企業數據湖建設的典型架構,以分布式文件系統 HDFS、分布式計算引擎 MapReduce 為核心組件,將所有機器的存儲資源與計算資源進行分層抽象設計。2003 年前后,Google 連續發表三篇論文,奠定了大數據的框架基礎。此后基于理論又形成了 Hadoop 原

80、始的“3+1”式軟件棧:即分布式文件系統 HDFS、分布式計算引擎 MapReduce、Hbase NoSQL 數據庫,以及 YARN 資源調度。Hadoop 定義了最基礎的分布式大數據批處理架構,打破了傳統數據庫一體化的模式,將計算與存儲分離,聚焦于解決海量數據的低成本存儲與規?;幚?。Hadoop 在面對上百 PB 數量級的大數據查詢分析時能夠極大地提升效率,同時通過使用廉價硬件集群搭建的分布式系統實現成本效益。計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 22 圖 19:數據湖架構及優缺點 資料

81、來源:阿里云官網,Databricks,中信證券研究部 性能分析:性能分析:基于 Hadoop 架構的數據湖解決了半/非結構化數據的存儲問題,同時通過存算分離的架構設計提高了可擴展性。數據湖中各種類型的數據均按原樣存儲,在分析時采用 Schema-on-read 模式,能夠滿足互聯網場景下多種數據類型存儲和分析的需求。但也以犧牲 ACID 事務性作為代價。如果要基于 Hadoop 實現 BI、報表等功能,需要將數據庫的數據經過 ETL 進入數據倉庫、在版本控制、數據索引等維度存在短板。表 10:Hadoop 與 MPP 差異 特性特性 Hadoop MPP 平臺開放性 完全開源 專有 節點數

82、平均數百個節點,最大數千個 平均數十個節點,最大數百個 數據量 支持大于 10PB 一般不大于 10PB 查詢延遲 10-20 秒 10-20 毫秒 技術價格 每個節點免費或數千美元 每個節點數十到十萬美元 計算性能 對非關系型操作效率高 對關系型操作效率高 數據結構 結構化、半結構化和非機構化數據 結構化數據 可擴展性 完整的編程接口,擴展性強 有限擴展能力,主要通過 UDF 支持 事務支持 有限 完整 資料來源:CSDNShockang,中信證券研究部 生態演化:生態演化:核心組件基礎之上衍生出龐雜的開源 Hadoop 生態圈。僅有 HDFS、MapReduce 組件并不能支撐企業級的大數

83、據分析應用,在此基礎上衍生出豐富的生態組件,包括資源管理系統、各類計算引擎、ETL 工具、安裝部署工具、數據庫/數據倉庫產品等。同時,還出現了 Hadoop 發行版商業公司,通過提供整合、加強后的打包產品和服務,解決繁雜組件帶來的版本管理混亂、部署過程繁瑣、升級過程復雜等問題。計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 23 圖 20:Hadoop 技術生態體系 資料來源:CSDN從一到無窮大 3)湖倉一體和湖倉一體和智能湖倉:智能湖倉:“倉”“湖”結合,“倉”“湖”結合,兼顧事務性、擴展性和靈活性

84、兼顧事務性、擴展性和靈活性,并逐漸,并逐漸向數據全生命周期管理發展向數據全生命周期管理發展 數據量的爆發增長和應用場景的不斷豐富為企業分析型數據庫提出了更高的要求。數據量的爆發增長和應用場景的不斷豐富為企業分析型數據庫提出了更高的要求。隨著云、5G 基礎設施的成熟帶動互聯網的深入發展,各種應用程序、移動設備、邊緣設備、傳感器所產生的數據總量正在以前所未有的速率爆發式增長。IDC 預計 2025 年全球數據總量將達到 175ZB,其中超過 25%為實時數據。數據倉庫在擴展性和數據模型的局限性亟待突破。此外,企業數據分析的應用場景不斷豐富,智能化分析水平不斷提高,愛分析調研顯示未來企業存在廣闊的

85、AI/ML 應用空間,企業數據分析智能化需求有望爆發。圖 21:全球數據量預測(ZB)圖 22:我國企業潛在 AI/ML 應用場景數目調研 資料來源:IDC(含預測),中信證券研究部 資料來源:愛分析,中信證券研究部 基于此,兼具數據倉庫和數據基于此,兼具數據倉庫和數據湖湖優勢的湖倉一體應運而生優勢的湖倉一體應運而生。2021 年創新數據系統研究會議(CIDR)上 Databricks,UC Berkeley 和 Stanford University 聯合發布的論文Lakehouse:A New Generation of Open Platforms that Unify Data War

86、ehousing and Advanced Analytics,系統描繪了新一代湖倉一體架構。數據湖倉的核心是將“湖內”和數據湖倉的核心是將“湖內”和“倉內”的數據和元數據進行打通,實現自由流動?!皞}內”的數據和元數據進行打通,實現自由流動。各類結構化、非/半結構化數據使用標020406080100120140160180200500505-10k0.1-1k0100020003000400050006000頭部企業用戶中長尾企業用戶當前場景數潛在場景數 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明

87、24 準文件格式(如 Parquet),通過對象存儲的方式依然存儲在底層的數據湖當中。在數據湖之上建立的元數據層實現 ACID 事務性、版本控制等數據管理功能。元數據層作為存儲層和計算層之間的中間層,通過緩存、索引、輔助數據和數據布局優化等多種優化手段減少計算和存儲層之間的 I/O 流量,優化 OLAP 工作負載的性能。元數據層之上的各類計算引擎(包括面向 BI/報表的 SQL 類工作負載和面向數據挖掘的機器學習工作負載)共享統一的數據存儲,可以按需攝取熱數據、回注冷數據。未來未來“智能湖倉”架構將把“智能湖倉”架構將把湖、倉以及所有其他數據處理服務組成統一且連續的湖、倉以及所有其他數據處理服

88、務組成統一且連續的整體。整體。AWS 提出的智能湖倉架構旨在以數據為中心構建“數據服務環”。數據湖作為數據中央存儲庫,圍繞數據湖建立包括數據倉庫、機器學習、大數據處理、日志分析等一系列專用服務,各項服務共享同一的數據存儲,按需對湖內數據進行攝取和回注,同時彼此之間可以以低成本、高效率地進行數據交換,最終實現企業數據全生命周期管理。圖 23:湖倉一體架構圖 圖 24:亞馬遜智能湖倉架構圖 資料來源:Databricks 資料來源:AWS 官網 需求推演需求推演:決策實時化、場景精細化、產品標準化決策實時化、場景精細化、產品標準化 數據庫的發展歷史是用戶數據治理需求的變遷史,需求的數據庫的發展歷史

89、是用戶數據治理需求的變遷史,需求的演變演變方向決定技術路線的演方向決定技術路線的演進方向。進方向??v觀數據庫近 70 年的發展歷程,從 1960s 增刪查改的事務性需求的出現帶來了OLTP 數據庫的興起,到 1990s 針對歷史數據的分析和輔助決策需求推動了 OLAP 數據庫的發展,用戶需求的變遷決定了數據庫技術的發展重心。分析型數據庫的發展脈絡,數據處理效率的更高要求催生了數據倉庫,半/非結構化數據的治理需求催生了數據湖,而用戶對于數據分析事務性、擴展性和靈活性的統一追求催生了湖倉一體和智能湖倉。我們認為,當下分析型數據庫正呈現出決策實時化、場景精細化、產品標準化的需求,我們認為,當下分析型

90、數據庫正呈現出決策實時化、場景精細化、產品標準化的需求,這亦是未來這亦是未來 OLAP 數據庫的演進方向。數據庫的演進方向。1)決策實時化:決策實時化:打通打通 TP/AP 消除消除 ETL 延時,延時,HTAP 助力實現助力實現實時實時決策決策 OLAP 與與 OLTP 之間的數據傳輸延時導致在處理實時性極高的分析業務時存在短板。之間的數據傳輸延時導致在處理實時性極高的分析業務時存在短板。不論是數據倉庫還是數據湖,在進行分析處理時都需要基于事務處理所產生和積累的數據,必須經過數據提取、轉換、加載的 ETL 過程,在此過程中為了保證系統的高可用將會產生 計算機計算機行業行業“構筑中國科技基石”

91、系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 25 大量且分散的副本數據造成數據冗余,最終導致較高的同步難度和運維成本。同時,當用戶面臨實時性要求極高的分析業務場景時,OLAP 與 OLTP 之間分鐘級甚至小時級的數據傳輸延時將難以滿足分析需求,數據實時性所蘊含的數據價值也會隨著 ETL 的延時而逐漸消弭。此外,當用戶需要調用不同系統之間的數據進行聚合分析時,實時性方面的短板將被進一步放大。圖 25:TP/AP 分離數據庫應用架構數據流 圖 26:數據價值隨實時性遞減 資料來源:PingCAP,中信證券研究部 資料來源:DTCC,騰訊云,中

92、信證券研究部 HTAP 混合事務和分析處理混合事務和分析處理消除了消除了 OLAP 和和 OLTP 之間的間隔,可以更好滿足實時分之間的間隔,可以更好滿足實時分析和決策需求。析和決策需求。目前市場上的 HTAP 實現路徑主要由三種:第一種在上層應用層實現混合處理,通過 OLAP/OLTP 的松耦合和底層共享存儲縮短數據同步時間,只能在數據庫和應用的整體層面呈現 HTAP 能力;第二種分別運用行存儲引擎和列存儲引擎進行 OLTP 和OLAP,存儲引擎在物理上進行隔離,通過分布式協議進行實時復制和同步;第三種采用單一存儲引擎,在最底層實現 HTAP,但目前仍處于技術探索階段。第二種分離存儲架構、第

93、二種分離存儲架構、同一系統的同一系統的 HTAP 是目前的主流解決方案。是目前的主流解決方案。表 11:非 HTAP 架構與兩種 HTAP 方案對比 不同系統的不同系統的 HTAP 分離分離存儲存儲架構架構 HTAP 統一統一存儲存儲架構架構 HTAP 存儲引擎/行存+列存分離存儲引擎 單一存儲引擎 架構 定義 OLTP 和 OLAP 松耦合,通過 ETL 將OLTP 結果同步到 OLAP,底層共享存儲縮短數據同步時間,在應用層實現混合處理,整體呈現 HTAP 能力?;诜植际郊軜?,行存儲引擎處理事務OLTP、列存儲引擎進行分析 OLAP,遵循共識協議在引擎間復制數據,在數據庫層實現 HTAP

94、。使用單一存儲引擎同時支持 OLTP 事務處理和 OLAP 分析,在最底層實現HTAP。產品 SAP TiDB、PolarDB、Oceanbase、GaussDB、TDSQL、F1 Hive、Impala、Kudu、Hyper、MemSQL 優勢 初步融合 TP、AP 支持彈性擴容,按需擴展 資源隔離技術成熟,高性能 徹底融合 TP 和 AP,延遲低 數據可見度高 劣勢 運維成本高 同步延時、事務分析延時 存在數據同步延遲 數據可見度差 技術不成熟 行列隔離性差 資料來源:DTCC,頭豹研究院,艾瑞咨詢,中信證券研究部 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報

95、告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 26 2)場景精細化:場景精細化:深耕細分領域深耕細分領域積累行業積累行業 know-how,應用場景愈加精細化,應用場景愈加精細化 數據分析與數據管理的應用場景在未來將持續拓展和深化。數據分析與數據管理的應用場景在未來將持續拓展和深化。數據分析的應用將繼續向各行業領域的核心業務滲透,數據的采集、流通、分析、應用的價值閉環將持續完善。由數據分析需求逐漸衍生出的大數據管理將逐漸改變各行業的各個價值鏈環節。一方面,基于歷史數據分析的銷售預測、趨勢分析、營銷策略設計、客群畫像匹配的優化建議將提高用戶的運營效率和決策效率;另一方面,基于

96、數據分析的如 AI、大數據的應用有望帶來新商業模式、新產品形態、新應用場景的開拓,如無人駕駛、智能安防、智慧物流等。圖 27:數據分析需求在部分行業深化方向 資料來源:前瞻產業研究院,中信證券研究部 3)產品標準化:產品標準化:技術技術 SaaS 化化、解決方案標準化打開長尾下沉市場、解決方案標準化打開長尾下沉市場 分析型數據庫產品將逐漸實現標準化,進入下沉市場分析型數據庫產品將逐漸實現標準化,進入下沉市場提高提高中小企業中小企業滲透率滲透率。受限于數據治理需求碎片化、場景理解不夠深入等因素,現階段分析型數據庫產品主要集中在大型企業客戶市場,且定制化程度相對較高。未來伴隨更多業務場景能力的沉淀

97、,分析型數據庫廠商將不斷豐富產品矩陣,完善數據治理服務的深度和廣度,通過產品標準化的途徑降低成本,從而提高在長尾下沉市場的滲透率。圖 28:數據中臺產品技術 SaaS 化 資料來源:艾瑞咨詢 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 27 問題三問題三:如何看待國產數據庫的創新方向?如何看待國產數據庫的創新方向?看架構:分布式看架構:分布式成重要成重要趨勢趨勢,云,云數據庫數據庫打開打開更大市場更大市場 按照架構模式進行分類,數據庫可以分為分布式數據庫和集中式數據庫。按照架構模式進行分類,數據庫可

98、以分為分布式數據庫和集中式數據庫。這種分類方式的誕生,一方面是由于傳統集中式數據庫缺乏擴展性,為了實現擴展而出現了分布式數據庫,另一方面,是緣于云技術和網絡技術快速發展,推動分布式技術升級,形成新型分布式數據庫。集中式集中式數據庫數據庫由一個處理器、與它相關聯的數據存儲設備以及其他外圍設備組成,將數據集中在一臺機器上進行處理,被物理地定義到單個位置。典型代表有 Oracle、DB2、人大金倉、武漢達夢等;分布式數據庫分布式數據庫采用分布式架構,將數據在網絡上分開儲存于多個機器中進行處理。分布式數據庫是一個數據集合,這些數據在邏輯上屬于同一個系統,但物理上卻分散在計算機網絡的若干站點上,并且要求

99、網絡的每個站點具有自治的處理能力,能執行本地的應用。分布式數據庫典型代表如谷歌的 Google Spanner、阿里巴巴的 OceanBase、華為的 GaussDB 等。表 12:傳統集中式數據庫與新興分布式數據庫對比 優勢優勢 劣勢劣勢 傳統集中式數據庫 1、較高的安全性和穩定性較高的安全性和穩定性:數據存儲在中央計算機上,只要對中央計算機做好保護措施以及數據備份工作,便能保證較高的安全性和穩定性,適合存儲重要的核心數據;2、運算開銷和通信開銷小運算開銷和通信開銷?。悍掌鹘Y構部署簡單,存取數據的運算開銷小,通信的開銷也較??;3、產品商品化程度高產品商品化程度高:現有的集中式數據庫產品大都

100、經過了時間的考驗,穩定可靠,商品化程度高,數據庫公司服務能力成熟,對于客戶來說便捷安全;1、存儲空間有限存儲空間有限:集中式數據庫把數據都存儲在主機中,存儲空間有限,只依靠主機計算和存儲數據將難以解決這一問題。2、響應速度較慢:、響應速度較慢:中央計算機需要執行所有的運算,當終端很多時,會導致響應速度變慢。3、靈活性差:、靈活性差:如果終端用戶有不同的需要,要對每個用戶的程序和資源做單獨的配置,在集中式系統上做起來比較困難,而且效率不高。新型分布式數據庫 1、滿足數據量、計算量大的需求:、滿足數據量、計算量大的需求:只要布置足夠多的計算機,便能儲存足夠多的數據,相比傳統集中式數據庫可以儲存更多

101、的數據,做更大量的數據計算;2、讀取數據和運算的速度更快:、讀取數據和運算的速度更快:可并發讀取數據,可并行運算,因此讀取數據和運算速度都會比集中式數據庫更快;3、靈活、靈活、可擴展性好:可擴展性好:可以方便地添加新機器對系統進行擴充,而集中式數據庫就沒有這種便捷的可擴展性;1、穩定性、安全性、保密性不如傳統集中式數據庫:、穩定性、安全性、保密性不如傳統集中式數據庫:分布式系統通過通信網絡來控制局部,而通信網絡的保密性和安全性存在缺陷,例如容易受到黑客攻擊;2、分布式事務的代價較高分布式事務的代價較高:兩階段的提交造成過多消息傳輸,可能的鎖爭用變大,保證數據同步的代價較高,分布式事務在未來將還

102、是個很難消除的瓶頸 3、管理復雜管理復雜:分布式數據庫有更多的節點和組件,更難于管理,故障排除和管理方面要求更高。資料來源:CSDNQ.E.D.,中信證券研究部 硬件架構:硬件架構:數據庫硬件架構主要有完全共享、共享內存、共享磁盤和無共享四種。數據庫硬件架構主要有完全共享、共享內存、共享磁盤和無共享四種。完全共享(Shared Everything)模式擁有完全透明共享的 CPU、內存和磁盤,屬于集中式數據庫的范疇,天然具有較好的 AICD 事務性,但擴展性和并發性較差;共享磁盤(Shared Disk)和共享內存(Shared Memory)模式允許增加內存節點和磁盤節點以提高并行處理能力,

103、但是隨著數據體量的爆發式增長,共享磁盤的接口數量容易達到上限,共享內存的內存訪問和網絡帶寬之間沖突增強,系統處理速度將會遭遇瓶頸。無共享(Shared Nothing)模式下每個節點具備獨立的 CPU、內存、磁盤,每個處理單元獨立運行,各單元之間通過協議通信。無共享架構具備良好的擴展能力和并行處理能力,從 MPP 數據倉庫時代起逐漸得到廣泛應用。隨著硬件成本的下降,無共享模式已逐漸成為分布式硬件架構的主流。計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 28 圖 29:硬件架構有中 4 種不同層次的數據

104、共享 資料來源:艾瑞咨詢 主流應用:通過無共享架構實現的分布式架構已成為大數據管理的主流解決方案。主流應用:通過無共享架構實現的分布式架構已成為大數據管理的主流解決方案。數據量的爆發式增長以及應用負載的快速增加使得傳統單一服務器架構的集中式數據庫出現瓶頸,包括傳統集中式數據庫廠商、新興廠商在內的各類玩家均開始探索數據功能的分布式實現。三種分布式架構中,無共享架構憑借高可用性、高擴展性、低帶寬要求等優勢已成為分布式架構的主流解決方案。表 13:三種分布式架構的優劣勢分析 共享磁盤架構共享磁盤架構 共享內存架構共享內存架構 無共享架構無共享架構 定義 每個處理器自帶私有內存區域 通過內部通訊機制訪

105、問所有磁盤 多個處理器共享一片內存區域 通過內部通訊機制訪問所有內存 每個處理器都私有內存和磁盤空間 處理器之間通訊通過網絡連接 優勢 快速適應變化的負載 高可用 數據不需要分區 故障恢復能力高 單個系統鏡像,管理簡單 主存轉換效率高,消息數量積累少 無限的水平擴展 無單點,可用性強 業務侵入性小 劣勢 寫入瓶頸并沒有解決,單機寫入依靠文件系統的多副本復制及高可用 內存訪問干涉與網絡帶寬競爭問題 擴展能力有限 實現較為復雜 在某些場景下需要重新思考業務設計 并行控制能力 劣 中 中 災難恢復能力 劣 優 中 數據庫設計易度 中 中 劣 負載均衡能力 中 優 劣 高可用性 中 劣 優 消息數量處

106、理 中 優 劣 帶寬要求 中 劣 優 橫向擴展能力 中 劣 優 遠程部署能力 中 劣 優 關鍵回話敏感性 中 劣 優 系統鏡像數量 劣 優 劣 熱點敏感度 劣 劣 劣 資料來源:Oracle,ScaleDB,頭豹研究院,韓國工業科學院 RIST,中信證券研究部 技術實現:分布式架構技術實現:分布式架構的實現方式將逐漸從借助中間件向原生分布式過渡。的實現方式將逐漸從借助中間件向原生分布式過渡。分布式架構的實現路徑包括借助中間和原生分布式兩類,其中原生分布式包括共享存儲分布式數據庫、去中心化的分布式數據庫,不同技術路線產品各有千秋。分庫分表+中間件的模式相對成熟,但整體依然基于單機數據庫的存算性能

107、,依托中間件進行數據分配和任務管理,在并發性和擴展性上仍有局限。原生分布式實現了存儲層、計算層的全面分布式改造,但目前技術成熟度相對較低。計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 29 表 14:分布式數據庫技術路線對比 分庫分表分庫分表+中中間件間件 共享存儲分布式數據庫共享存儲分布式數據庫 去中心化的分布式數據庫去中心化的分布式數據庫 方案 下層的單機數據庫提供存儲和執行能力,在多個單機數據庫上封裝一層中間層補充分布式能力,以統一的數據分片規則管理分布在不同數據庫節點的數據,并提供 SQL 解

108、析,請求轉發和結果合并的能力。計算節點獨立并且共享一個不帶計算功能的存儲集群(Shared storage),數據存儲的底層是可動態擴容的分布式高性能存儲,以存算分離架構,計算層和存儲層都可以動態擴縮容,并且這些分布式數據庫都會對網絡以及存儲層的優化來保證高可用和高性能。每個節點有獨立的計算和存儲功能并且節點之間不共享數據(Shared-nothing),為了平滑的擴縮容也采用了存算分離的架構,分布式集群的每個節點都是獨立節點,通過multi-paxos 或者 multi-raft 等共識算法來保證多副本的可用性。優勢 可以利用現有開源數據庫成熟穩定的產品功能,具備高性能、低成本、穩定性、用戶

109、門檻低,(能力上限低但下限高)事務性能優、讀寫響應最快、最大程度提升寫入容量限制 架構解耦性高、高兼容性、高可移植部署性、強一致高可用 劣勢 Sharding(分片)拆分成本高、底層架構不具備分布式能力,中間件通訊及單體數據庫功能受限存在擴展性瓶頸 架構可改造性低、依賴共享存儲系統,移植性低 具備較高的硬件要求、分布式事務鎖機制,多寫性能低 案例 GoldenDB、TDSQL MySQL 版、GreatDB、HotDB、MogDB、GaiaDB-X、openGauss AWS Aurora、PolarDB、TDSQL-C、SequoiaDB-MySQL、GaussDB for MySQL、Ar

110、kDB TiDB、Oceanbase、Google Spanner、Cockroach、Hubble 資料來源:頭豹研究院,中信證券研究部 技術內核:從存算一體到存算解耦,硬件成本的降低技術內核:從存算一體到存算解耦,硬件成本的降低和網絡帶寬的提高和網絡帶寬的提高保障分布式架保障分布式架構的實現。構的實現。20 世紀 80 年代,Oracle 推出了首款數據庫產品。彼時服務器硬件成本高昂,硬件算力、存儲、網絡帶寬都十分有限。因此數據庫產品在優化過程中難以依托服務器之間的信息交換,而是聚焦于在單服務器的 CPU、內存、磁盤固定配置下進行極致優化。因此在軟件架構的設計中,存儲與計算高度耦合,其核心

111、思想是通過存算一體實現性能的極致優化。隨著硬件成本的大幅降低和網絡帶寬的大幅提高,通過集群服務器的硬件設計,聯合多個節點進行協議通信以實現分布式計算成為可能。軟件算法的設計無需再基于存儲和計算的深度綁定,存算解耦的思想為分布式的實現提供了更多想象力。表 15:存算一體 vs 存算解耦 存算一體存算一體 存算解耦存算解耦 優勢 針對固定硬件配置做極致優化,單機性能較好 使用通用型服務器,可配置范圍廣,硬件的通用性和靈活性高;集群水平擴展、垂直擴展靈活,可以按需單獨擴展計算或存儲;集群擴展后自動管理數據均勻分布,無需數據重分布操作,連續提供對外服務;劣勢 使用專有服務器或硬件配置較為固定,硬件的通

112、用性和靈活性不足 集群水平擴展、垂直擴展不靈活,單獨擴展計算或存儲較困難;集群擴展后需要做數據重分布,期間影響甚至停止對外服務;為保持硬件的通用性和靈活性,單機性能優化較一般。資料來源:CSDN星環科技,中信證券研究部 分布式數據庫的“資源池化”分布式數據庫的“資源池化”思想思想與云計算的“與云計算的“按需服務按需服務”理念理念具有異曲同工之處,具有異曲同工之處,天然滿足云原生的需求。天然滿足云原生的需求。分布式數據庫遷移到云計算平臺后可以輕松實現數據與業務的分離、存儲與計算的分離。云數據庫可以相對不受限制地實現基礎設施資源的調動,以滿足上層對于高擴展性、高并發、高吞吐量、靈活配置的需求。因此

113、,云數據庫在成本、可用性、易用性、擴展性和并行處理方面較傳統數據庫有絕對優勢。但同時,由于現階段云數 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 30 據庫產品仍處于相對不成熟階段,且市場的普遍存在公有云和私有云的混合部署需求,云數據庫在數據遷移、數據質量、性能優化和規范標準方面仍有局限。表 16:云數據庫的機遇與挑戰 機遇機遇 挑戰挑戰 低成本:多租戶模式,用戶之間共享資源且只用按需付費,節省了成本 數據質量:云數據庫在大數據環境下,容易產生臟數據,影響事務一致性 高可用:高水平的容錯能力,一個節

114、點崩潰,其他節點也可以繼續工作 數據遷移:將大量、復雜的企業內部數據庫數據遷移上云存在一定困難 易用性:不需要關心底層服務器、系統等的部署和運維,開箱即用 數據融合:本地數據與云數據長期并存,需要有效的融合機制,統一管理 動態可擴展:具有無限可擴展性,可以滿足不斷增加的數據存儲需求 性能優化:云環境為動態負載均衡、資源分配管理提出了新的要求 大規模并行處理:并行處理能力強,面對海量數據,幾乎可以做到實時的響應 規范標準:各大廠商獨立發展云數據庫,在查詢語言、語言模型和安全等方面缺乏統一的規范標準 資料來源:艾瑞咨詢,中信證券研究部 在未來,上云需求將持續為數據庫市場帶來增量。在未來,上云需求將

115、持續為數據庫市場帶來增量。IDC 數據顯示,2021 年我國關系型數據庫中,公有云部署的市場規模增速已經超過本地部署的增速,預計從 2022 年開始二者的增速差將進一步拉大。IDC 預測,未來三年關系型數據庫中云數據庫的市場規模增速有望保持在 40%左右,而本地部署模式的規模增速僅為 20%,云數據庫的市場份額有望進一步提高。圖 30:2020-2026 中國關系型數據庫市場規模(按部署方式分類)資料來源:IDC(含預測),中信證券研究部 看模型:看模型:關系型與非關系型關系型與非關系型長期共存長期共存,重視多模型能力構建,重視多模型能力構建 數據模型先后經過了層次模型、網狀模型和關系模型的變

116、遷,互聯網的興起推動非關數據模型先后經過了層次模型、網狀模型和關系模型的變遷,互聯網的興起推動非關系模型和系模型和 NoSQL 數據庫登上歷史舞臺。數據庫登上歷史舞臺。20 世紀 80 年代以來,結構化的關系模型始終占據市場主流,隨著 Web2.0 的繁榮非結構化和半結構化數據(如日志、圖片、文檔、音視頻等)出現爆發式增長,面向非關系型數據的 NoSQL 數據庫開始走向市場,區別于關系數據庫,它們往往不保證關系數據的 ACID 特性,對于超大規模和高并發數據具有較好的處理能力。NoSQL 數據庫種類繁多,數據之間無關系,容易擴展。NoSQL 數據庫具有非常高的讀寫性能,尤其在大數據量下,主要在

117、于它的無關系性,數據庫的結構簡單。目前對于非關系型數據庫主要有四種四種數據存儲類型:鍵值對存儲(key-value),文檔存儲0%10%20%30%40%50%60%0.010.020.030.040.050.060.070.080.0202020212022E2023E2024E2025E2026E本地部署公有云本地部署增速(右軸)公有云增速(右軸)計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 31(document store),基于列的數據庫(column-oriented),圖形數據庫(gra

118、ph database)。表 17:四種非關系型數據庫對比 類型類型 產品代表產品代表 應用場景應用場景 數據模型數據模型 優點優點 缺點缺點 鍵值對存儲 Redis,Voldemort,Oracle BDB 內容緩存,主要用于處理大量數據的高訪問負載,用于一些日志系統、統計等。Key 指向 Value 的鍵值對,通常用 hash table 來實現 查找速度快 數據無結構化,通常只被當作字符串或者二進制數據 文檔型數據庫 CouchDB,MongoDb 網站數據;緩存;大尺寸,低價值的數據;高伸縮性的場景;用于對象及JSON 數據的存儲。Key-Value 對應的鍵值對,Value 為結構化

119、數據 數據結構要求不嚴格,表結構可變,不需要像關系型數據庫一樣需要預先定義表結構 功能相對局限 列存儲數據庫 Cassandra,HBase,Riak 分布式的文件系統 以列簇式存儲,將同一列數據存在一起 查找速度快,可擴展性強,更容易進行分布式擴展 查詢性能不高,而且缺乏統一的查詢語法。圖形數據庫 Neo4J,InfoGrid,Infinite Graph 社交網絡,推薦系統等。專注于構建關系圖譜 圖結構 利用圖結構相關算法。比如最短路徑尋址,N 度關系查找等 很多時候需要對整個圖做計算才能得出需要的信息,而且這種結構不太好做分布式的集群方案。資料來源:各公司官網,CSDNCoder-CT,

120、中信證券研究部 放眼全球:從市場反饋來看,多模型數據庫更受企業青睞,企業用戶關注平臺的兼容性與可擴展性。DB-Engines 發布的 2022 年 10 月數據庫管理系統流行程度排名顯示,排名前 8 的數據庫管理系統均為多模型數據庫,支持文檔模型,鍵值模型,圖模型等多種數據模型。而隨著排名逐漸靠后,多模型數據庫的比重也逐漸下降,排名 11-20 的數據庫管理系統中僅有 5 個多模型數據庫。由此可見多模型數據庫受企業歡迎的程度更高。國內公司憑借對于主流數據模型更高的兼容性,有望在非關系型數據庫領域與國際廠商同臺競爭,憑借大數據基礎平臺等核心產品實現國產替代。表 18:2022 年 10 月數據庫

121、管理系統流行程度排名及環比、同比變化情況 2022 年年 10 月月 2022 年年 9 月月 2021 年年 10 月月 數據庫管理系統數據庫管理系統 數據模型數據模型 1 1 1 Oracle 關系型,多模型 2 2 2 MySQL 關系型,多模型 3 3 3 Microsoft SQL Server 關系型,多模型 4 4 4 PostgreSQL 關系型,多模型 5 5 5 MongoDB 文檔型,多模型 6 6 6 Redis 鍵值型,多模型 7 7 8 Elasticsearch 搜索引擎,多模型 8 8 7 IBM DB2 關系型,多模型 9 9 11 Microsoft Acc

122、ess 關系型 10 10 9 SQLite 關系型 資料來源:DB-engines,中信證券研究部 注:截止時間為 2022 年 10 月 17 日 聚焦國內:非關系型數據庫占比呈現上升趨勢,關系型數據庫在市場規模和產品數量上仍占據主流。智研咨詢數據顯示,2018 年我國關系型數據庫市場規模占比高達 85%,但呈現逐年下降趨勢。綜合多方關于我國數據庫市場規模的數據(中國信通院、IDC、艾瑞 計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 32 咨詢),2021 年我國關系型數據庫市場規模占比約為 60

123、%。中國信通院數據顯示,截至 2021年 6 月,我國關系型數據庫的產品數量占比約為 60%。圖 31:我國數據庫產品分布情況(截至 2021 年 6 月)資料來源:中國信通院,中信證券研究部 我們認為,我們認為,非關系型數據庫與關系型數據庫長期共存,具備多模型兼容能力者有望勝非關系型數據庫與關系型數據庫長期共存,具備多模型兼容能力者有望勝出。出。根據 IDC、艾瑞咨詢、中國信通院對于未來我國數據庫市場規模的增速預測,未來關系型數據庫仍將占據主流市場,但非關系型數據庫也將成為行業生態中不可或缺的一部分,二者將長期共存。處理半結構化、非結構化數據的治理水平或將成為未來衡量數據庫廠商能力的重要指標

124、之一,具備多模型兼容能力者有望勝出。圖 32:各機構關于我國數據庫及關系型數據庫市場增速預測 資料來源:艾瑞咨詢,中國信通院,IDC,中信證券研究部 以國產大數據廠商星環科技為例,旗下核心大數據基礎平臺(以國產大數據廠商星環科技為例,旗下核心大數據基礎平臺(TDH)中包含)中包含 9 種獨立種獨立的存儲引擎,支持業界主流的的存儲引擎,支持業界主流的 10 種存儲模型。種存儲模型。相關核心子產品主要包括關系型分析引擎Inceptor、寬表數據庫 Hyperbase、圖數據庫 StellarDB、搜索引擎 Scope、時空數據庫Spacture、時序數據庫 TimeLyre、鍵值數據庫 KeyBy

125、te、事件存儲庫 Event Store、文檔數據庫 DocStore,對于多模型的兼容能力相較于海外主流廠商存在優勢。關系型數據庫文檔數據庫鍵值數據庫列存數據庫圖數據庫搜索引擎數據庫非關系型數據庫(不詳)0.0%10.0%20.0%30.0%40.0%50.0%2021E2022E2023E2024E2025E數據庫市場增速(艾瑞咨詢預測)數據庫市場增速(中國信通院預測)關系型數據庫市場增速(IDC預測)計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 33 表 19:星環大數據基礎平臺(TDH)與競爭

126、對手支持數據模型對比 DBMS Relational Key-Value Graph Search Engines Wide Column Text,XML,Json Object Geospatial Time Series Event TDH IBM DB2 PostgreSQL ArangoDB SQL Server MarkLogic Oracle NoSQL DB OrientDB Oracle MySQL Cassabdra MongoDB Oracle DB InfluxDB Hbase 資料來源:星環科技官網,中信證券研究部 TDH 的多模型實現路徑相較于其他主流產品具備優勢。

127、的多模型實現路徑相較于其他主流產品具備優勢。傳統的多模型實現路徑包括為每一種新數據模型開發獨立完整的存算策略、用單一存儲引擎支撐多個存儲模型、在多種獨立數據庫之上提供統一的用戶界面等,這些策略暴露出存算資源消耗過高、存儲引擎與存儲策略不匹配、語言不一致提高開發難度等問題。星環 TDH 通過提供統一的 SQL 編譯器層,統一的分布式計算引擎層,統一的分布式數據管理系統層以及統一的資源調度層,將不同的數據庫架構在統一多模型數據平臺中,跨庫的關聯分析不需要額外的數據導出導入過程,避免了數據冗余。同時 TDH 提供 9 種獨立的存儲引擎子產品,用戶可以根據業務的需要,隨時增減不同的存儲引擎,做到資源按

128、需分配。表 20:不同多模型實現路徑 代表產品代表產品 IBM DB2 Oracle DB MongoDB MySQL Couchbase Marklogic TDH8.0(星環科技)(星環科技)實現時間 2007 2013 2016 2011 2010 2008 2020 支持模型種類 6 3 3 3 2 4 10 實現路徑 為每一種新數據模型開發獨立完整的存算策略 用單一存儲引擎支撐多個存儲模型 在多種獨立數據庫之上提供統一的用戶界面,對底層多個數據庫進行轉發。統一計算框架,統一數據管理,按需增減異構數據存儲模型 局限性/改進 存算耦合,支持的模型越多,系統的開發量和復雜度就越高,消耗存算

129、資源也較多。由于不同計算數據模型對于存儲的要求不同,單一存儲引擎無法隨之匹配適合的存儲策略,從而限制了多模型數據庫的性能。由于底層多個數據庫開發語言不一致,導致了實際開發時的高難度,排除故障的成本也較高。用一套統一的架構來同時支持多模型、高可用與高性能,并解決上述問題 資料來源:CSDN星環科技,中信證券研究部 看生態:看生態:開源閉源開源閉源并存發展,共促商業化生態繁榮并存發展,共促商業化生態繁榮 開源即開放源代碼,用戶擁有基于源代碼進行修改的權利。雖然源代碼一般均免費提供給使用者,但開源系統的版權依然受到法律保護。開源軟件標準權威發布機構 OSI(Open Source Initiativ

130、e)發布的對于開源的定義及要求主要包括如下三個方面:計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 34 內容方面:內容方面:開放的源軟件必須包含源代碼,且必須確保源代碼可被理解和可被運用;不得故意混淆源代碼;開源代碼需以源碼或編輯后文件的形式傳播。允許用戶對開源項目及其他衍生分支進行修改,且必須允許其按照與初始軟件相同的許可證發行。傳播規范方面:傳播規范方面:開源許可證不能限制開源軟件的再傳播,不得利用此條件進行收費。必須允許更改后的源代碼所建立的程序發行許可證。當且僅當開源軟件配合補丁文件一起發布時

131、,開源許可證才可以限制源代碼以修改后的形式發行。開源許可證不得限制其他銅許可軟件一起發行的其他軟件,不得限制特定軟件的項目內容。公平性、中立性準則:公平性、中立性準則:開源項目不得歧視任何研究領域、個人或團體。所有獲得該項目的主體擁有所有附加到開源項目上的內容的使用權,無需當事方執行額外許可。開源許可必須獨立于技術,不應指定任何特定的技術或接口。圖 33:常見開源許可證一覽 資料來源:墨天輪 從數據庫廠商的視角來從數據庫廠商的視角來看看,積極開源有助于構建服務生態,提高產品迭代速度和適配,積極開源有助于構建服務生態,提高產品迭代速度和適配能力,及時捕捉用戶需求的同時降低開發成本。能力,及時捕捉

132、用戶需求的同時降低開發成本。通過構建開源生態社區,數據庫廠商一方面可以依托廣泛的開發者群體提高產品創新效率和迭代速度,節省自身開發成本和下游客戶的 IT 成本,另一方面可以更加敏銳地捕捉新興需求,并基于此迅速迭代產品搶占市場,亦可通過開源社區提高品牌影響力和行業話語權。計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 35 圖 34:全球開源數據庫與商業數據庫數量占比 資料來源:DB-engines 注:截止時間為 2022 年 10 月 17 日 從用戶視角來看,從用戶視角來看,開源不同于免費,選型采購

133、階段的成本將轉移到后續的開發部署和開源不同于免費,選型采購階段的成本將轉移到后續的開發部署和運維使用階段運維使用階段。對用戶來說,采用開源數據庫可以一定程度節約選型采購階段的 license費用,但同時對于自身二次開發的能力提出了較高要求,數據庫的部署、運維、遷移、配套升級等環節需要開源廠商提供數據庫服務,也需要額外的人力投入和資金投入。此外,用戶由于缺乏相關領域的重復實踐經驗,在應用場景和性能的擴展能力上可能不及直接采購商業數據庫。因此政務、金融等對于數據安全性、一致性要求更高的場景傾向于使用商業數據庫,越來越多廠商開始嘗試“開源+商業”的混合策略。圖 35:開源數據庫與商業數據庫成本比較

134、資料來源:艾瑞咨詢 我們認為,我們認為,開源與商業并不開源與商業并不沖突沖突,未來國內數據庫廠商將呈現出開源和未來國內數據庫廠商將呈現出開源和商業商業共同繁榮共同繁榮的格局,數據庫廠商將在積極擁抱開源生態的同時,兼顧自主可控及商業化需求。的格局,數據庫廠商將在積極擁抱開源生態的同時,兼顧自主可控及商業化需求。一方面,在傳統數據庫領域,我國相較于海外龍頭企業仍有差距,開源生態能夠幫助國內廠商更加快速實現追趕;另一方面,近年來數據庫領域持續迸發出新技術、新應用、新模式,參與開源項目能夠幫助企業更快把握技術革新與市場機遇,實現生態構建的正向循環。此外在信創大背景下,開源生態能夠促進國產數據庫上下游的

135、適配能力,加快自主可控的步伐。計算機計算機行業行業“構筑中國科技基石”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 36 表 21:國產數據庫開源情況 名稱名稱 貢獻者貢獻者 開源時間開源時間 已處理已處理 issue 已合并已合并 Pull 請求請求 Watch Star Fork Contributors TiDB PingCAP 2015 年 9043 22110 1300 31200 5100 741 Apache Doris 百度 2017 年 2733 5454 227 4300 1400 314 TDengine 濤思數據 2

136、019 年 2426 9417 679 18300 4300 181 Nebula Graph 悅數科技 2020 年 1399 2439 170 7400 827 79 StarRocks 鼎石科技 2021 年 1376 3787 82 2500 529 104 云樹Shard 愛可生 2016 年 1109 1988 76 925 310 29 Apache HAWQ 偶數科技 2015 年-1505 95 648 320 76 openGauss 華為 2019 年 1056 1167 277 817 655 165 OceanBase OceanBase 2021 年 484 234

137、 91 4300 963 126 RadonDB 青云 2018 年 294 444 86 1600 214 9 gStore 北京大學 2014 年 65 46 38 515 187 26 AliSQL 阿里巴巴 2016 年 61 1 497 4500 856 3 TDSQL 騰訊云 2019 年 58 17 74 1200 237 18 PolarDB 阿里云 2021 年 45 100 56 2300 350 55 IvorySQL 瀚高 2021 年 28 56 10 83 47 63 SequoiaDB 巨杉科技 2015 年 3 68 22 272 111-資料來源:Github

138、,Gitee,墨天輪,中信證券研究部 注:截止時間為 2022 年 5 月 風險因素風險因素 國產數據庫技術迭代不及預期。國產數據庫技術迭代不及預期。數據庫行業中,海外巨頭 Oracle、微軟、Google 等企業技術領先,客戶覆蓋廣泛,亦有諸如 MongoDB、Snowflake 等獨立數據庫公司,技術能力全球領先。國產數據庫公司與海外巨頭存在一定技術差距,其生存和發展很大程度上取決于是否能夠及時、高效地進行技術更新與產品升級,以滿足客戶不斷升級的需求。若國產數據庫未能及時把握技術發展趨勢、技術迭代不及預期,不排除國內外競爭對手或潛在競爭對手率先在新技術領域取得重大突破,而推出更先進、更具競

139、爭力的技術和產品,將對國產數據庫產生不利影響。下游行業需求不及預期。下游行業需求不及預期。近年來,國家產業政策支持對基礎軟件產業發展有較大程度的影響,信創產業正加速發展。同時,各行業快速成長的過程中對數據管理的需求不斷增長,帶來數據庫行業快速發展。若未來出現國家信息化趨勢放緩,金融、電信、政務等領域核心業務系統信息化進程和相關政策支持力度不及預期等不利變化,國產數據庫行業將面臨收入增長放緩的風險。數據庫數據庫行業行業參與者眾多,市場競爭加劇的風險。參與者眾多,市場競爭加劇的風險。根據墨天輪統計,2022 年 6 月,中國數據庫廠商已超過 200 家,參與者包括大型云廠商、獨立軟件開發商、運營商

140、、基礎設施類廠商等。同時,隨著用戶對數據存儲和分析服務的需求不斷增長,各參與者加強爭奪市場份額,可能導致行業競爭加劇。如果相關公司在市場競爭中不能有效保持技術先進水平,不能充分利用現有的市場影響力和差異化競爭策略,無法在當前市場高速發展的態勢下迅速擴大自身規模并增強資金實力,可能導致其市場地位出現下滑。開源或免費軟件的競爭風險。開源或免費軟件的競爭風險。開源軟件和免費軟件具有較低的應用成本,仍然在當前軟件行業中有較為廣泛的應用基礎,對商用軟件的推廣構成一定的競爭。商用軟件通常針對客戶需求進行開發,有較高的技術門檻,在對安全、性能等方面有剛性需求場景中,商 計算機計算機行業行業“構筑中國科技基石

141、”系列報告“構筑中國科技基石”系列報告 232022.10.18 請務必閱讀正文之后的免責條款和聲明 37 用軟件仍然占據主流。目前傳統關系型數據庫仍以商用產品為主,NoSQL 數據庫作為新興數據庫產品,在應用中,免費及開源產品使用較為廣泛。若未來免費或開源產品的技術快速迭代,應用范圍更廣,可能加劇市場競爭。疫情及疫情及宏觀環境宏觀環境擾動擾動。近年來,地緣政治、新冠疫情等因素了使得全球經濟增長具有更大的不確定性,數據庫面向政府、金融、運營商、教育、醫療等各行各業,受宏觀經濟影響較大,產業鏈中各合作伙伴也無可避免地受到影響。若未來地緣政治沖突持續存在、新冠疫情不能得到抑制,宏觀經濟出現波動,則

142、將對行業發展造成不利影響。投資投資建議建議 數據庫是數字化時代的底層基石,是各廠商重點布局的關鍵戰略領域。安全可控勢在必行,數據庫國產替代加速開展,以黨政為代表的國產替代先行,并不斷向金融、電信等領域拓展。通過對關鍵的三個問題的深度解讀,我們認為:1)國產數據庫廠商已具備較強的 OLTP 數據庫替代能力;2)OLAP 數據庫未來仍將會持續快速發展,技術能力強者有望勝出;3)數據庫行業朝著多元化方向演進,包括非關系型數據庫、分布式數據庫、HTAP 混合負載、云數據庫等,與傳統數據庫類型形成良好的市場互補關系。數據庫產業料將持續快速成長,帶來諸多投資機遇。建議關注建議關注:1)已上市及擬上市:達夢

143、數據(中國軟件)、星環科技、人大金倉(太極股份)、海達夢數據(中國軟件)、星環科技、人大金倉(太極股份)、海量數據、神舟通用(航天軟件)、科藍軟件量數據、神舟通用(航天軟件)、科藍軟件。2)未上市公司:PingCAP、巨杉數據庫、南大通用、易鯨捷、云和恩墨等。38 分析師聲明分析師聲明 主要負責撰寫本研究報告全部或部分內容的分析師在此聲明:(i)本研究報告所表述的任何觀點均精準地反映了上述每位分析師個人對標的證券和發行人的看法;(ii)該分析師所得報酬的任何組成部分無論是在過去、現在及將來均不會直接或間接地與研究報告所表述的具體建議或觀點相聯系。一般性聲明一般性聲明 本研究報告由中信證券股份有

144、限公司或其附屬機構制作。中信證券股份有限公司及其全球的附屬機構、分支機構及聯營機構(僅就本研究報告免責條款而言,不含 CLSA group of companies),統稱為“中信證券”。本研究報告對于收件人而言屬高度機密,只有收件人才能使用。本研究報告并非意圖發送、發布給在當地法律或監管規則下不允許向其發送、發布該研究報告的人員。本研究報告僅為參考之用,在任何地區均不應被視為買賣任何證券、金融工具的要約或要約邀請。中信證券并不因收件人收到本報告而視其為中信證券的客戶。本報告所包含的觀點及建議并未考慮個別客戶的特殊狀況、目標或需要,不應被視為對特定客戶關于特定證券或金融工具的建議或策略。對于本

145、報告中提及的任何證券或金融工具,本報告的收件人須保持自身的獨立判斷并自行承擔投資風險。本報告所載資料的來源被認為是可靠的,但中信證券不保證其準確性或完整性。中信證券并不對使用本報告或其所包含的內容產生的任何直接或間接損失或與此有關的其他損失承擔任何責任。本報告提及的任何證券或金融工具均可能含有重大的風險,可能不易變賣以及不適合所有投資者。本報告所提及的證券或金融工具的價格、價值及收益可跌可升。過往的業績并不能代表未來的表現。本報告所載的資料、觀點及預測均反映了中信證券在最初發布該報告日期當日分析師的判斷,可以在不發出通知的情況下做出更改,亦可因使用不同假設和標準、采用不同觀點和分析方法而與中信

146、證券其它業務部門、單位或附屬機構在制作類似的其他材料時所給出的意見不同或者相反。中信證券并不承擔提示本報告的收件人注意該等材料的責任。中信證券通過信息隔離墻控制中信證券內部一個或多個領域的信息向中信證券其他領域、單位、集團及其他附屬機構的流動。負責撰寫本報告的分析師的薪酬由研究部門管理層和中信證券高級管理層全權決定。分析師的薪酬不是基于中信證券投資銀行收入而定,但是,分析師的薪酬可能與投行整體收入有關,其中包括投資銀行、銷售與交易業務。若中信證券以外的金融機構發送本報告,則由該金融機構為此發送行為承擔全部責任。該機構的客戶應聯系該機構以交易本報告中提及的證券或要求獲悉更詳細信息。本報告不構成中

147、信證券向發送本報告金融機構之客戶提供的投資建議,中信證券以及中信證券的各個高級職員、董事和員工亦不為(前述金融機構之客戶)因使用本報告或報告載明的內容產生的直接或間接損失承擔任何責任。評級說明評級說明 投資建議的評級投資建議的評級標準標準 評級評級 說明說明 報告中投資建議所涉及的評級分為股票評級和行業評級(另有說明的除外)。評級標準為報告發布日后 6 到 12 個月內的相對市場表現,也即:以報告發布日后的 6 到 12 個月內的公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。其中:A 股市場以滬深 300指數為基準,新三板市場以三板成指(針對協議轉讓標的)或三板做市指數

148、(針對做市轉讓標的)為基準;香港市場以摩根士丹利中國指數為基準;美國市場以納斯達克綜合指數或標普 500 指數為基準;韓國市場以科斯達克指數或韓國綜合股價指數為基準。股票評級股票評級 買入 相對同期相關證券市場代表性指數漲幅 20%以上 增持 相對同期相關證券市場代表性指數漲幅介于 5%20%之間 持有 相對同期相關證券市場代表性指數漲幅介于-10%5%之間 賣出 相對同期相關證券市場代表性指數跌幅 10%以上 行業評級行業評級 強于大市 相對同期相關證券市場代表性指數漲幅 10%以上 中性 相對同期相關證券市場代表性指數漲幅介于-10%10%之間 弱于大市 相對同期相關證券市場代表性指數跌幅

149、 10%以上 39 特別聲明特別聲明 在法律許可的情況下,中信證券可能(1)與本研究報告所提到的公司建立或保持顧問、投資銀行或證券服務關系,(2)參與或投資本報告所提到的 公 司 的 金 融 交 易,及/或 持 有 其 證 券 或 其 衍 生 品 或 進 行 證 券 或 其 衍 生 品 交 易。本 研 究 報 告 涉 及 具 體 公 司 的 披 露 信 息,請 訪 問https:/ 本研究報告在中華人民共和國(香港、澳門、臺灣除外)由中信證券股份有限公司(受中國證券監督管理委員會監管,經營證券業務許可證編號:Z20374000)分發。本研究報告由下列機構代表中信證券在相應地區分發:在中國香港由

150、 CLSA Limited(于中國香港注冊成立的有限公司)分發;在中國臺灣由 CL Securities Taiwan Co.,Ltd.分發;在澳大利亞由 CLSA Australia Pty Ltd.(商業編號:53 139 992 331/金融服務牌照編號:350159)分發;在美國由 CLSA(CLSA Americas,LLC 除外)分發;在新加坡由 CLSA Singapore Pte Ltd.(公司注冊編號:198703750W)分發;在歐洲經濟區由 CLSA Europe BV 分發;在英國由 CLSA(UK)分發;在印度由 CLSA India Private Limited

151、分發(地址:8/F,Dalamal House,Nariman Point,Mumbai 400021;電話:+91-22-66505050;傳真:+91-22-22840271;公司識別號:U67120MH1994PLC083118);在印度尼西亞由 PT CLSA Sekuritas Indonesia 分發;在日本由 CLSA Securities Japan Co.,Ltd.分發;在韓國由 CLSA Securities Korea Ltd.分發;在馬來西亞由 CLSA Securities Malaysia Sdn Bhd 分發;在菲律賓由 CLSA Philippines Inc.

152、(菲律賓證券交易所及證券投資者保護基金會員)分發;在泰國由 CLSA Securities(Thailand)Limited 分發。針對不同司法管轄區的聲明針對不同司法管轄區的聲明 中國大陸:中國大陸:根據中國證券監督管理委員會核發的經營證券業務許可,中信證券股份有限公司的經營范圍包括證券投資咨詢業務。中國香港:中國香港:本研究報告由 CLSA Limited 分發。本研究報告在香港僅分發給專業投資者(證券及期貨條例(香港法例第 571 章)及其下頒布的任何規則界定的),不得分發給零售投資者。就分析或報告引起的或與分析或報告有關的任何事宜,CLSA 客戶應聯系 CLSA Limited 的羅鼎

153、,電話:+852 2600 7233。美國:美國:本研究報告由中信證券制作。本研究報告在美國由 CLSA(CLSA Americas,LLC 除外)僅向符合美國1934 年證券交易法下 15a-6 規則界定且 CLSA Americas,LLC 提供服務的“主要美國機構投資者”分發。對身在美國的任何人士發送本研究報告將不被視為對本報告中所評論的證券進行交易的建議或對本報告中所述任何觀點的背書。任何從中信證券與 CLSA 獲得本研究報告的接收者如果希望在美國交易本報告中提及的任何證券應當聯系CLSA Americas,LLC(在美國證券交易委員會注冊的經紀交易商),以及 CLSA 的附屬公司。新

154、加坡:新加坡:本研究報告在新加坡由 CLSA Singapore Pte Ltd.,僅向(新加坡財務顧問規例界定的)“機構投資者、認可投資者及專業投資者”分發。就分析或報告引起的或與分析或報告有關的任何事宜,新加坡的報告收件人應聯系 CLSA Singapore Pte Ltd,地址:80 Raffles Place,#18-01,UOB Plaza 1,Singapore 048624,電話:+65 6416 7888。因您作為機構投資者、認可投資者或專業投資者的身份,就 CLSA Singapore Pte Ltd.可能向您提供的任何財務顧問服務,CLSA Singapore Pte Lt

155、d 豁免遵守財務顧問法(第 110 章)、財務顧問規例以及其下的相關通知和指引(CLSA 業務條款的新加坡附件中證券交易服務 C 部分所披露)的某些要求。MCI(P)085/11/2021。加拿大:加拿大:本研究報告由中信證券制作。對身在加拿大的任何人士發送本研究報告將不被視為對本報告中所評論的證券進行交易的建議或對本報告中所載任何觀點的背書。英國:英國:本研究報告歸屬于營銷文件,其不是按照旨在提升研究報告獨立性的法律要件而撰寫,亦不受任何禁止在投資研究報告發布前進行交易的限制。本研究報告在英國由 CLSA(UK)分發,且針對由相應本地監管規定所界定的在投資方面具有專業經驗的人士。涉及到的任何

156、投資活動僅針對此類人士。若您不具備投資的專業經驗,請勿依賴本研究報告。歐洲經濟區:歐洲經濟區:本研究報告由荷蘭金融市場管理局授權并管理的 CLSA Europe BV 分發。澳大利亞:澳大利亞:CLSA Australia Pty Ltd(“CAPL”)(商業編號:53 139 992 331/金融服務牌照編號:350159)受澳大利亞證券與投資委員會監管,且為澳大利亞證券交易所及 CHI-X 的市場參與主體。本研究報告在澳大利亞由 CAPL 僅向“批發客戶”發布及分發。本研究報告未考慮收件人的具體投資目標、財務狀況或特定需求。未經 CAPL 事先書面同意,本研究報告的收件人不得將其分發給任何

157、第三方。本段所稱的“批發客戶”適用于公司法(2001)第 761G 條的規定。CAPL 研究覆蓋范圍包括研究部門管理層不時認為與投資者相關的 ASX All Ordinaries 指數成分股、離岸市場上市證券、未上市發行人及投資產品。CAPL 尋求覆蓋各個行業中與其國內及國際投資者相關的公司。印度:印度:CLSA India Private Limited,成立于 1994 年 11 月,為全球機構投資者、養老基金和企業提供股票經紀服務(印度證券交易委員會注冊編號:INZ000001735)、研究服務(印度證券交易委員會注冊編號:INH000001113)和商人銀行服務(印度證券交易委員會注冊編號:INM000010619)。CLSA 及其關聯方可能持有標的公司的債務。此外,CLSA 及其關聯方在過去 12 個月內可能已從標的公司收取了非投資銀行服務和/或非證券相關服務的報酬。如需了解 CLSA India“關聯方”的更多詳情,請聯系 Compliance-I。未經中信證券事先書面授權,任何人不得以任何目的復制、發送或銷售本報告。未經中信證券事先書面授權,任何人不得以任何目的復制、發送或銷售本報告。中信證券中信證券 2022 版權所有。保留一切權利。版權所有。保留一切權利。

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(計算機行業“構筑中國科技基石”系列報告:數據庫關鍵三問深度解讀-221018(39頁).pdf)為本站 (刺猬) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站