《計算機行業大數據系列(五):海內外數據庫技術演進深度解析大數據浪潮下數據庫的演進-240706(54頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業大數據系列(五):海內外數據庫技術演進深度解析大數據浪潮下數據庫的演進-240706(54頁).pdf(54頁珍藏版)》請在三個皮匠報告上搜索。
1、 敬請閱讀末頁的重要說明 證券研究報告|行業深度報告 2024 年 07 月 06 日 推薦推薦(維持)(維持)大數據系列(五):海內外數據庫技術演進深度解析大數據系列(五):海內外數據庫技術演進深度解析 TMT 及中小盤/計算機 隨互聯網、大數據發展,數據量膨脹、數據類型不斷豐富、數據應用不斷隨互聯網、大數據發展,數據量膨脹、數據類型不斷豐富、數據應用不斷深化,模型拓展與架構解耦并存,數據庫深化,模型拓展與架構解耦并存,數據庫技術技術演變特征包括:演變特征包括:分布式架構分布式架構逐漸成熟;逐漸成熟;數據模型不斷拓展,非關系型數據庫開始興起;統一框架支撐數據模型不斷拓展,非關系型數據庫開始興
2、起;統一框架支撐分析與事務混合處理;與云基礎分析與事務混合處理;與云基礎設施深度結合。本篇我們將圍繞這些特設施深度結合。本篇我們將圍繞這些特征,重點探討數據庫技術的演變趨勢。征,重點探討數據庫技術的演變趨勢。技術架構:技術架構:分布式架構分布式架構日漸興起、逐漸成熟日漸興起、逐漸成熟。相較于傳統的集中式數據庫架構,分布式架構能更好適應高并發、大流量、高可用特征。近年分布式數據庫逐漸成熟,其平滑擴展的特性適用于業務彈性較大的業務系統,能夠支撐多節點的數據存儲和管理,提高數據的可靠性和可擴展性。在分布式技術的趨勢下,主流數據庫廠商相繼啟動了相關產品的研發。數據模型數據模型:關系型關系型長期并將繼續
3、保持主流數據庫地位長期并將繼續保持主流數據庫地位,非非關系型關系型逐步取得逐步取得大范圍應用大范圍應用。根據 Gartner,22 年全球 DBMS 市場總規模為 910 億美元,其中關系型和非關系型的市占率分別為 78%和 21%。關系型數據庫因其滿足 ACID 特性;采用 SQL 標準語法;且經過長時間的發展和完善,已經形成了基于關系型數據庫的龐大信息技術生態,長期并將在可預期的未來繼續保持主流數據庫地位。另一方面,隨互聯網、大數據發展,音視頻、文本等海量非結構化數據激增,鍵值、文檔、寬列、時序等非關系型數據庫取得了較大范圍的應用。非關系型數據庫在大數據量、低延遲、靈活數據模型等情境中對關
4、系型起到了重要補充作用。部署方式:部署方式:“云化云化”為大勢所趨。為大勢所趨。得益于云計算特有的“資源池化”特點,云數據庫相比傳統數據庫,在成本、易用性、可用性、可調節性、可擴展性與并行處理能力等多個方面均有明顯優勢。數據庫云原生化基于基礎服務構筑服務,使用戶從購買資源向購買能力轉變,加速數據業務上云,例如資源解耦、Serverless 等能力。公有云廠商、獨立數據庫廠商等各陣營紛紛采取云化布局和戰略,助力數據價值不斷放大和拓展長尾客戶。需求功能:需求功能:存儲與分析需求驅動存儲與分析需求驅動 OLAP、HTAP 技術發展,湖倉一體化技術發展,湖倉一體化前景廣闊。前景廣闊。從需求功能來看,在
5、存儲和分析海量數據需求的推動下,OLAP、HTAP、數據湖倉迅猛發展,2020 年 Databricks 提出“湖倉一體”概念,湖倉一體技術應運而生。湖倉一體融合了數據湖與數據倉庫的優勢,形成一體化、開放式數據處理平臺的技術,可使得數據處理平臺底層支持多數據類型統一存儲,實現數據在數據湖、數據倉庫之間無縫調度和管理,并使得上層通過統一接口進行訪問查詢和分析。Databricks、Snowflake、亞馬遜、阿里、華為等均有數據湖倉一體相關的產品布局。風險提示:風險提示:技術創新不及預期;行業競爭加??;大數據、大模型等發技術創新不及預期;行業競爭加??;大數據、大模型等發展不及預期展不及預期 行業
6、規模行業規模 占比%股票家數(只)278 5.5 總市值(十億元)2049.5 2.8 流通市值(十億元)1776.5 2.7 行業指數行業指數%1m 6m 12m 絕對表現-9.0-28.0-39.1 相對表現-4.3-30.9-27.5 資料來源:公司數據、招商證券 相關報告相關報告 1、試點城市確定,全域建設市場空間廣闊“車路云一體化”建設點評報告(二)2024-07-03 2、計算機行業 2024 年中期投資策略AI 聚焦落地,政策驅動為景氣主基調2024-07-02 3、財稅體制改革機會解析計算機行業周觀察 202406302024-06-30 劉玉萍劉玉萍 S10905181200
7、02 鮑淑嫻鮑淑嫻 研究助理 -50-40-30-20-10010Jul/23Oct/23Feb/24Jun/24(%)計算機滬深300大數據浪潮下數據庫的演進大數據浪潮下數據庫的演進 敬請閱讀末頁的重要說明 2 行業深度報告 正文目錄正文目錄 一、數據庫發展綜述:NoSQL、分析型、分布式和云蓬勃發展.6 1、全球數據庫市場規模概覽.6 2、數據庫發展歷程綜述:當前已進入后關系型階段.7 3、從 Gartner 和 DB-Engines 榜單看當前各類型數據庫的“火爆程度”.9 二、技術架構:分布式架構日漸興起、逐漸成熟.11 1、數據庫的技術架構分類.11 2、分布式架構能更好適應高并發、
8、大流量、高可用特征,金融、電信已有較多落地案例.14 三、數據模型:關系型仍為霸主,非關系型逐步取得大范圍應用.16 1、非結構化數據激增驅動 NoSQL 發展.16 2、關系型將繼續保持主流數據庫地位,數據湖倉等尚處發展初期.19 3、文檔數據庫:適用于數據存儲場景,MongoDB 為流行度第一.22 4、時序數據庫:適用于工業、物聯網等場景,InfluxDB 為流行度第一,國內對標廠商包括 DolphinDB 等.29 5、圖數據庫:適用于復雜實體聯系場景,Neo4j 為領頭羊.33 6、鍵值數據庫:適用于快速查詢與臨時數據存儲,以 Redis 為代表.40 7、向量數據庫:大模型的記憶體
9、,Pinecone、Milvus、Transwarp Hippo 等均具備優勢.42 四、部署方式:“云化”為大勢所趨.45 五、需求功能:存儲與分析需求驅動 OLAP、HTAP 技術發展,湖倉一體化前景廣闊.48 1、數據湖倉:為處理復雜數據的存儲和分析需求而誕生.48 2、湖倉一體化代表廠商:Databricks、Snowflake 崛起之路復盤.50 風險提示.53 圖表目錄圖表目錄 圖 1:數據庫管理系統分類.7 圖 2:一圖了解數據庫各維度規模結構(全球).7 圖 3:數據庫發展歷程重要節點.7 圖 4:關系型數據庫的發展.8 eZeZeUcWeZaVaYbZ8OcMbRsQmMnP
10、qMiNpPpQlOpPxO9PrRyRvPoMyRwMsOyQ 敬請閱讀末頁的重要說明 3 行業深度報告 圖 5:2011-2022 數據庫市場份額變動情況.10 圖 6:2023 年 Gartner DBMS 魔力象限.10 圖 7:DB-Engines 數據庫榜單(截止 2024 年 5 月,按照受歡迎程度排序).11 圖 8:DB-Engines 數據庫受歡迎程度.11 圖 9:數據庫架構分類.12 圖 10:關系型及非關系型數據庫發展重要節點梳理.18 圖 11:2013 年至今按數據庫模型劃分的 DBMS 受歡迎程度.18 圖 12:近一年按數據庫模型劃分的 DBMS 受歡迎程度.
11、19 圖 13:各類數據庫的受歡迎程度(所有排名份額之和為 100%。).19 多模數據庫:支持不同場景下的多種類型數據處理.20 圖 14:技術成熟度曲線.22 圖 15:文檔數據庫適用場景.23 圖 16:MySQL+ES 存儲方案在騰訊優碼業務場景下可能的架構圖.23 圖 17:基于 MongoDB 方案存儲方案在騰訊優碼業務場景下可能的架構圖23 圖 18:利用 MongoDB 靈活的模式(Schema),咪咕視頻用戶可以輕易地在線增加屬性字段.25 圖 19:MongoDB 分產品收入結構.26 圖 20:MongoDB 收入及增速情況(單位:千美元).26 圖 21:MongoDB
12、 毛利率及凈利率情況.26 圖 22:MongoDB 客戶數量情況.27 圖 23:MongoDB 發展歷程.28 圖 24:文檔數據庫受歡迎程度排行榜.28 圖 25:時間序列數據庫發展簡史.30 圖 26:TDengine 在物聯網監測平臺中的數據采集側架構圖.31 圖 27:TDengine 的存儲是從空間與時間兩個維度進行分層分級存儲.31 圖 28:時序數據庫受歡迎程度排行榜.32 圖 29:圖數據庫與關系型數據庫存儲模型對比.34 圖 30:各類金融機構圖數據庫使用現狀對比.36 圖 31:不同類型金融機構圖數據庫建設規?,F狀對比:存儲規模.36 圖 32:不同類型金融機構圖數據庫
13、建設規?,F狀對比:圖點邊數量.36 圖 33:不同類型金融機構圖數據庫建設規?,F狀對比:服務器節點數量.36 圖 34:Neo4j 發展歷程.38 敬請閱讀末頁的重要說明 4 行業深度報告 圖 35:Neo4j 圖數據平臺.38 圖 36:圖數據庫受歡迎程度排行榜.39 圖 37:鍵值數據庫受歡迎程度排行榜.40 圖 38:Redis 數據模型.40 圖 39:向量數據庫關鍵技術及應用場景示意圖.42 圖 40:向量數據庫受歡迎程度排行榜.43 圖 41:一種計算、內存、存儲三層解耦架構示意圖.46 圖 42:2009 年至 2022 年企業在云和數據中心上的支出(單位:十億美元).47 圖
14、43:2023 年全球公有云服務使用情況.47 圖 44:數據平臺發展歷程.49 圖 45:湖+倉混合架構圖.50 圖 46:湖倉一體架構模塊圖.50 圖 47:Databricks 解決方案.52 圖 48:Databricks 發展歷程.52 圖 49:2021 年 Snowflake、Databricks 成功升級為云 DBMS 的領導者.53 圖 50:Snowflake 平臺的演化:從單一軟件到生態系統的初步蛻變.53 表 1:不同階段數據庫各維度特征梳理.9 表 2:集中式數據庫與分布式數據庫優劣勢對比.12 表 3:分布式數據庫三種技術路線對比.13 表 4:傳統集中式數據庫存在
15、的問題.14 表 5:主流數據庫廠商分布式數據庫的布局.15 表 6:主流銀行國產分布式數據庫應用案例.15 表 7:電信行業國產替換重點案例.15 表 8:關系數據庫與非關系數據庫差異摘要.16 表 9:各類型數據庫產品代表及適用場景.17 表 10:主流關系型廠商通過多模+非關系數據庫相互配合的路線完善產品線,非關系型廠商也在不斷完善模型種類.20 表 11:多模數據庫擴展戰略.21 表 12:不同類型數據庫的成熟度.22 表 13:對比 MySQL+ES 與 MongoDB 方案在各方面的表現.24 表 14:海內外主流文檔數據庫梳理.29 敬請閱讀末頁的重要說明 5 行業深度報告 表
16、15:InfluxDB 售價.31 表 16:海內外主流時序數據庫梳理.32 表 17:江西移動反詐模型由傳統數據庫向圖數據庫遷移的三個關鍵點.34 表 18:江西移動基于圖數據庫的新一代電信網絡詐騙預防勸阻和溯源打擊系統的三大特點.34 表 19:Neo4j 與某關系型數據庫在關聯查詢的性能對比.35 表 20:海內外主流圖數據庫梳理.39 表 21:Redis 應用案例.41 表 22:TcaplusDB(騰訊云)應用案例.41 表 23:愛可生 AI+TensorDB 解決方案為用戶帶來的增益.43 表 24:海內外主流向量數據庫梳理.43 表 25:各類關系型/非關系型數據庫主流廠商均
17、推出 Cloud 版本.45 表 26:數據湖與數據倉庫對比表.49 表 27:湖倉一體主要廠商和代表產品.50 敬請閱讀末頁的重要說明 6 行業深度報告 一、一、數據庫發展綜述:數據庫發展綜述:NoSQL、分析型、分布式和、分析型、分布式和云蓬勃發展云蓬勃發展 在大數據系列第一篇篳路藍縷,星火燎原大數據系列(一):數據庫深度復盤與展望中,我們認為數據庫順應市場需求持續進化,并從數據模型邏輯、技術架構、需求功能、部署方式、存儲介質、商業模式、數據庫治理模式等七大維度對數據庫發展脈絡進行詳細闡述,理清了行業演化邏輯與發展趨勢。在大數據系列第二篇從 Snowflake 快速崛起深度解析數倉競爭要素
18、大數據系列(二):數據倉庫深度分析中,我們分析了在數據量愈加龐大和分析需求興起的背景下,數倉的技術發展路徑和競爭要素。在大數據系列第四篇下游多元需求下國產數據庫的崛起大數據系列(四):國內數據庫行業需求深度分析中,我們從產品類型及下游行業兩個角度分析了國內數據庫市場需求趨勢。本篇報告我們將進一步從技術角度解析大數據時代下數據庫的進化:本篇報告我們將進一步從技術角度解析大數據時代下數據庫的進化:技術架構:技術架構:隨著 5G 下的云計算、物聯網等快速發展,對于數據分析的需求、響應速度、存儲容量擴展、算力提升等均提出更高的要求,使得分布式數據庫得到快速發展;數據模型:數據模型:隨著大數據時代的到來
19、,數據規模和邏輯關系復雜度進一步提升,其中非結構化數據的激增使得非關系型數據庫迅速發展;部署方式:部署方式:信息化水平快速提升下,企業業務規??焖贁U張,數據庫的運維和管理成為新的難題,數據庫云部署模式與借助 AI 自治成為重要發展方向。需求功能:需求功能:存儲與分析需求驅動 OLAP、HTAP 技術發展,湖倉一體化前景廣闊;1、全球全球數據庫數據庫市場規模概覽市場規模概覽 從數據庫分類來看:從數據庫分類來看:數據庫管理系統是“按照數據結構來組織、存儲和管理數據的倉庫”,是一種用于建立、使用、操縱和管理數據庫的大型基礎軟件,既是業務數據的存儲中心,也是統計分析計算的基礎,對 IT 核心系統起著關
20、鍵性作用,是信息化時代、大數據時代中各行各業不可或缺的重要基礎軟件。按其管理的數據結構,可分為關系型數據庫、非關系型數據庫(NoSQL,包括鍵值型、文檔型、圖、對象型等);按其設計架構可分為集中式數據庫和分布式數據庫;按其部署模式可分為本地數據庫和云數據庫;按其應用場景可分為OLTP 事務型數據庫、OLAP 分析型數據庫、HTAP 混合型數據庫;按其存儲介質可分為磁盤數據庫和內存數據庫;按其商業模式可分為商業數據庫和開源數據庫。從市場規模和增速來看:從市場規模和增速來看:Gartner 發布的 2022 年全球數據庫管理系統市場報告顯示,2022 年全球數據庫管理系統(DBMS)市場達到 91
21、0 億美元,相較前一年增長了 14.4%,超過了整體軟件市場 11.3%的增長。其中,非關系型 DBMS 市場增長 26.8%,占 DBMS 市場份額的 21%,而關系型 DBMS(RDBMS)市場增長 12.2%,市場份額為 78%。根據艾瑞咨詢的研究數據,國內 2022 年集中式數據庫市場份額約 80%,分布式部署不到 20%。根據阿里云官網援引 Gartner 敬請閱讀末頁的重要說明 7 行業深度報告 的預測數據,2021 年,云數據庫在整個數據庫市場中的占比首次達到 50%,到2022 年,預計將有 75%的數據庫天然部署或遷移至云平臺。數據庫上云將成為未來數據庫的發展趨勢。圖圖 1:
22、數據庫管理系統分類:數據庫管理系統分類 資料來源:招商證券 圖圖 2:一圖了解數據庫各維度規模結構(全球)一圖了解數據庫各維度規模結構(全球)數據來源:Gartner、艾瑞咨詢、招商證券 2、數據庫發展歷程綜述:當前已進入后關系型階段數據庫發展歷程綜述:當前已進入后關系型階段 根據根據中國信息通信研究院數據庫發展研究報告(中國信息通信研究院數據庫發展研究報告(2021),數據庫,數據庫技術演進技術演進與互聯網發展相互促進,數據庫共經歷前關系型、關系型和后關系型三大階段,與互聯網發展相互促進,數據庫共經歷前關系型、關系型和后關系型三大階段,當前當前已已進入后關系型。進入后關系型。圖圖 3:數據庫
23、發展歷程重要節點:數據庫發展歷程重要節點 數據來源:中國信息通信研究院、招商證券 敬請閱讀末頁的重要說明 8 行業深度報告 (1)前關系型階段(前關系型階段(1960-1970),解決數據集中存儲和共享),解決數據集中存儲和共享等等問題問題,網狀層網狀層次數據庫初嘗探索次數據庫初嘗探索。數據模型主要基于網狀模型和層次模型,代表產品為 IDS 和 IMS,該類產品在當時較好地解決了數據集中存儲和共享的問題,但在數據抽象程度和獨立性上存在明顯不足。1963 年,通用電氣公司的 Charles Bachman 等人開發出世界上第一個數據庫管理系統(以下簡稱 DBMS)也是第一個網狀 DBMS集成數據
24、存儲(Integrated Data Store,IDS)。同時期為解決“阿波羅登月”計劃處理龐大數據量的需求,北美航空公司(NAA)開發出 GUAM 軟件。其設計思想是將多個小組件構成較大組件,最終組成完整產品。這是一種倒置樹的結構,也被稱之為層次結構。隨后IBM 加入 NAA,將 GUAM 發展成為 IMS(Information Management System)系統并發布于 1968 年,成為最早商品化的層次 DBMS。(2)關系型階段(關系型階段(1970-2008),關系型數據庫大規模應用),關系型數據庫大規模應用,主要應用于銀行、,主要應用于銀行、軍工、政府等以處理結構軍工、政
25、府等以處理結構化化數據。數據。以 IBM 公司研究員 E.F.Codd 提出關系模型概念,論述范式理論作為開啟標志,期間誕生了一批以 DB2、Sybase、Oracle、SQL Server、MySQL、PostgreSQL 等為代表的廣泛應用的關系型數據庫,該階段技術脈絡逐步清晰、市場格局趨于穩定。1970 年,IBM 實驗室的 Edgar Frank Codd 發表了一篇題為大型共享數據庫數據的關系模型論文,提出基于集合論和謂詞邏輯的關系模型,為關系型數據庫技術奠定了理論基礎。1974 年,Ingres 原型誕生,為后續大量基于其源碼開發的 PostgreSQL、Sybase、Inform
26、ix 和 Tandem 等著名產品打下堅實基礎。1977 年,Oracle 前身 SDL 成立。1978 年,SDL 發布 Oracle 第一個版本。20 世紀 80 年代,關系型數據庫進入商業化時代。20 世紀 90 年代,Access、PostgreSQL 和 MySQL 相繼發布。至此,關系型數據庫理論得到了充分的完善、擴展和應用。圖圖 4:關系型數據庫的發展:關系型數據庫的發展 資料來源:Oceanbase、招商證券(3)后關系型階段(后關系型階段(2008-至今),至今),因因數據量數據量膨脹、膨脹、數據類型數據類型不斷豐富、不斷豐富、數據數據應用不斷深化應用不斷深化,模型拓展與架構
27、解耦并存模型拓展與架構解耦并存。進入 21 世紀,隨著信息技術及互聯 敬請閱讀末頁的重要說明 9 行業深度報告 網不斷進步,數據量呈現爆發式增長,各行業領域對數據庫技術提出了更多需求,數據模型不斷豐富。谷歌的三篇論文開啟后關系型數據庫階段,該階段由于數據規模爆炸增長、數據類型不斷豐富、數據應用不斷深化,技術路線呈現多樣化發展。隨著各行業數字化轉型不斷深入,5G、云計算等新興技術快速發展,傳統數據庫的應用系統紛紛優化升級。根據信通院數據庫發展研究報告(2021 年),后關系型階段的數據庫演變特征包括:數據模型不斷拓展,非關系型數據庫開始興起,NoSQL 數據庫應運而生;分布式架構逐漸成熟;統一框
28、架支撐分析與事務混合處理;與云基礎設施深度結合。表表 1:不同階段數據庫各維度特征梳理不同階段數據庫各維度特征梳理 維度維度 前關系型與關系型階段前關系型與關系型階段(1960-2008)后關系型階段后關系型階段(2008-至今)至今)數據特征 數據量較少;以結構化數據為主,主要為客戶、賬戶、產品、交易等大量的結構化數據 步入互聯網 Web 2.0 和移動互聯網時代,許多互聯網應用表現出高并發讀寫、海量數據處理、數據結構不統一等特點 數據模型 網狀、層次模型網狀、層次模型 關系模型關系模型 關系模型(仍為主流)關系模型(仍為主流)非關系模型(對關系型的補充,訪問速度快,適宜處理互聯非關系模型(
29、對關系型的補充,訪問速度快,適宜處理互聯網時代容量大、多樣性高、流動性強的網時代容量大、多樣性高、流動性強的非結構化非結構化數據)數據)部署方式 本地部署 云部署,減少數據庫參數的重復配置,具有快速部署、高擴展性、高可用性、可遷移性、易運維性和資源隔離等特點 技術架構 集中式 分布式架構逐漸成熟,解決集中式部署在應對海量數據及復雜分析處理時,存在數據庫的橫向擴展能力受限、數據存儲和計算能力受限、不能滿足業務瞬時高峰的性能等根本性的架構問題 數據來源:中國信通院數據庫發展研究報告(2021)、招商證券 3、從從 Gartner 和和 DB-Engines 榜單看當前各類型數據庫的榜單看當前各類型
30、數據庫的“火爆程度”“火爆程度”根據根據 Gartner 2011-2022 年年 DBMS 市場份額排名市場份額排名變化變化,可以發現以下幾大技術,可以發現以下幾大技術趨勢:(趨勢:(1)云數據庫廠商崛起。)云數據庫廠商崛起。Amazon、Google、Alibaba、Huawei、Tencent 等均借助云優勢排名穩步上升,其中 Amazon 于 22 年上升一位超越Microsoft 位居第一;Oracle、IBM、SAP 等傳統型數據庫廠商排名略有下降;數倉和大數據分析平臺方面,Snowflake、Databricks 也借助云數倉優勢排名上升,而 Teradata、Cloudera、
31、Marklogic 排名均有所下降。(2)非關系型數據)非關系型數據庫廣受關注。庫廣受關注。在 22 年份額排名靠前的數據庫廠商中,文檔數據庫 MongoDB、圖數據庫 Neo4j 和 TigerGraph 均成功抓住 NoSQL 發展機遇躋身榜單。Gartner 2023 年數據庫管理系統魔力象限展示出了相近的結論:年數據庫管理系統魔力象限展示出了相近的結論:AWS 連續 9年位列領導者;微軟、甲骨文、谷歌等國外科技巨頭同樣位于領導者象限;Snowflake、Databricks、MongoDB、Neo4j 等新型數據庫廠商表現突出;我國廠商阿里云入選魔力象限。敬請閱讀末頁的重要說明 10
32、行業深度報告 圖圖 5:2011-2022 數據庫市場份額變動情況數據庫市場份額變動情況 數據來源:Gartner,招商證券 圖圖 6:2023 年年 Gartner DBMS 魔力象限魔力象限 數據來源:Gartner,招商證券 根據根據 DB-Engines 按照受歡迎程度排序的數據庫榜單:按照受歡迎程度排序的數據庫榜單:Oracle、MySQL、Microsoft SQL Server、PostgreSQL 四大流行的關系型數據庫位列榜單前四,第五到七名分別為文檔數據庫 MongoDB、鍵數據庫 Redis、搜索引擎數據庫Elasticsearch。而根據各款數據庫產品受歡迎程度:而根據
33、各款數據庫產品受歡迎程度:文檔數據庫 MongoDB、云數倉廠商 敬請閱讀末頁的重要說明 11 行業深度報告 Snowflake、微軟推出的云數據庫產品 Microsoft Azure SQL Database、搜索引擎數據庫 Splunk 等熱度前列,再次印證云和非關系型數據庫系大數據時代下的“利器”。圖圖 7:DB-Engines 數據庫榜單(截止數據庫榜單(截止 2024 年年 5 月,按照受歡迎程度排序)月,按照受歡迎程度排序)資料來源:DB-Engines、招商證券(注:DB-Engines 衡量受歡迎程度的參數包括搜索引擎結果數、搜索頻率、IT 網站中對其技術討論的頻率等)圖圖 8
34、:DB-Engines 數據庫受歡迎程度數據庫受歡迎程度 資料來源:DB-Engines、招商證券 二、二、技術技術架構:分布式架構架構:分布式架構日漸興起、逐漸成熟日漸興起、逐漸成熟 1、數據庫的技術架構分類數據庫的技術架構分類 數據庫數據庫按照架構分類:按照架構分類:根據計算機學會數據庫專委會數據庫系統的分類和評測研究,按數據庫系統架構角度分類,數據庫可以分為單機數據庫、集中式數據庫(without data sharding)、分布式數據庫(with data sharding):(1)單機數據庫適用于數據量少、對服務可靠性要求不高的場景。一般都是 shared 敬請閱讀末頁的重要說明
35、12 行業深度報告 everthing 架構,即共享所有計算資源(CPU、RAM、Disk)和數據;(2)集中式數據庫是指多臺機器聯合管理數據,一般不對數據進行分片,包括一主多備(備機不可讀)、一寫多讀、多寫多讀等架構;(3)分布式是分布在計算機網絡上、邏輯上相互關聯的數據庫,將數據從物理上分割,并分配給多臺服務器(或多個實例),例如通過哈希進行數據劃分,或者通過范圍進行劃分,或者通過列表進行劃分(例如北京、上海數據分配到一個節點),每臺服務器可以獨立工作,具備共同的 schema。分布式架構的技術路線包括分庫分表+中間件、共享存儲分布式數據庫、去中心化的分布式數據庫三種。圖圖 9:數據庫架構
36、分類:數據庫架構分類 資料來源:華為 HCIA-openGaussV1.0 Training Material、計算機學會數據庫專委會數據庫系統的分類和評測研究、招商證券 集中式集中式 VS 分布式:分布式:根據計算機學會數據庫專委會數據庫系統的分類和評測研究,集中式數據庫是一種經典、傳統的數據庫結構,被廣泛應用于數據管理,其數據被集中存儲在存儲設備中,安全且易于處理。但是,集中式數據庫具有信息化投入成本高、性能及容量無法彈性擴展的資源瓶頸等明顯的劣勢。分布式可以解決資源瓶頸問題,但受限于 CAP 理論,需要在一致性與可用性之間權衡,其最大的挑戰便是解決各個節點狀態的同步問題;此外,根據中國軟
37、件評測中心發布的分布式數據庫發展路徑研究報告,在集中式數據庫中應用比較成熟的存儲過程、觸發器、視圖、DBLink、外鍵約束等功能要遷移到全局層面實現,實現難度較大。即使部分分布式數據庫已經實現上述功能,也可能是受限使用,并且執行效率低于集中式數據庫,當前分布式數據庫產品在功能完備度方面距離通用數據庫有較大差距,在標準化程度方面也有一定差距。表表 2:集中式數據庫與分布式數據庫:集中式數據庫與分布式數據庫優劣勢優劣勢對比對比 維度維度 集中式數據庫集中式數據庫 分布式數據庫分布式數據庫 定義 僅在一個位置上儲存、定位和維護的數據庫 分布于計算機網絡且邏輯上統一的數據庫 敬請閱讀末頁的重要說明 1
38、3 行業深度報告 可擴展性 橫向擴展受限,支持縱向擴展 支持橫向擴展 擴容彈性 大變更需停機 快速迭代、小時級投產、分鐘級在線擴容 成本 擴展需要高配置硬件,成本較高;單賬戶成本幾十元,單筆交易成本幾角錢 利用廉價 PC Server 組建集群,成本相對較低;單賬戶成本1 元以下,單筆交易成本幾分錢 兼容性 無法進行非結構化大數據處理,硬件兼容能力弱 支持非結構化大數據處理,硬件兼容能力強 高并發能力 可以支持單表千萬級數據量的存儲,但是難以支撐密集的并發讀寫,存在容量與性能瓶頸 關聯多個節點,減少單個節點數據量;實現并行計算,支持PB 級數據量訪問,以及百萬級高并發 事務性 遵循 ACID
39、遵循 CAP、BASE,少數提供 ACID 能力 自治性 集中式控制,廠商標準,封閉 局部 DBMS 自治性,產業標準,開放 可用性 系統監控與發布部署有架構優勢 容災機制和故障恢復有架構優勢 優勢優勢 在可維護性、一致性方面更具優勢在可維護性、一致性方面更具優勢 在經濟性、安全自主、靈活性、可伸縮性等方面更具優勢在經濟性、安全自主、靈活性、可伸縮性等方面更具優勢 數據來源:Frost&Sullivan2020 年中國金融級分布式數據庫市場報告、招商證券 分布式的分布式的技術技術路線路線:根據國家工業信息安全發展研究中心分布式數據庫發展趨勢研究報告,分布式數據庫與單機數據庫的不同在于其可以將核
40、心功能,即查詢、事務管理、存儲等擴展到多臺節點,甚至多個地域。從實現方式上看,當前主要包含 3 條不同的技術路線:分庫分表+中間件、共享存儲分布式數據庫、去中心化的分布式數據庫。根據 Frost&Sullivan2021 年中國分布式數據庫市場報告,分庫分表+中間件路線的案例包括 GoldenDB、TDSQL MySQL 版、openGauss 等;共享存儲分布式數據庫路線的案例包括 AWS Aurora、PolarDB、TDSQL-C、SequoiaDB-MySQL、GaussDB for MySQL、ArkDB 等;去中心化的分布式數據庫路線的案例包括 TiDB、Oceanbase、Goo
41、gle Spanner 等。表表 3:分布式數據庫三種技術路線對比:分布式數據庫三種技術路線對比 類別類別 介紹介紹 架構示意圖架構示意圖 優點優點 缺點缺點 分布式中間件+單機數據庫 在單機數據庫系統上進行改造,主要解決了擴展性的問題。上層無狀態的計算節點維護一套統一的分片規則,提供 SQL 解析,請求轉發和結果合并的能力,下層實 際 是 增 強的 單 機 數據庫,提供單機數據庫的存儲和執行能力。由于實際的執行仍舊在傳統單機數據庫執行,這種路線的兼容性好,學習成本低;從原理上說,如果有足夠的資源投入,比如:硬件資源、開發運維人員等,節點的擴展可以做到很大規模。由于每張表只能有一個分片規則,業
42、務建模需要重新規劃,業務代碼也要相應修改,改造成本高;由于分片規則是基于算法提供的,下層計算節點之間并不會進行數據交互,擴展下層計算節點的時候無法按需擴展,而要成倍擴展,數據分割過程需要停機人工介入。本質上把單機數據庫進行了二次處理,在全局事務能力、全局 MVCC、副本控制、高可用等方面存在短板,需要有針對性增強。復雜度高,機器冗余多,上層節點要保持高可用,分庫規則的存儲需要高可用,每個數據分片也需要一寫多讀的一組節點維持高可用。構建共享存儲分布式數據庫 采用非對稱計算節點,大部分公有云數據庫是這條路線。共享存儲能夠跨多個節點提供讀寫,上層的計算部分是無狀態的一組節點組成。當有寫能力的計算節點
43、出現故障時,會自動從可用的讀節點中自動選出一個作為寫節點,實現寫能力的高可用。由于上層運行來自單機數據庫改造,兼容性好;日志和數據在分布式共享存儲中保持冗余和一致性,產品整合度相對較高;應用不需要改造 擴展性有限,尤其是寫節點,當數據處理規模要求較高時,仍舊需要分庫處理;很難做到跨地域高可用;對底座有比較重的依賴,需要對基礎設施進行大范圍替換。敬請閱讀末頁的重要說明 14 行業深度報告 原生分布式數據 將分布式存儲、事務、計算有機的結合在一起,數據由系統自動打散并存儲多個副本,通過一致性協議保證多個副本和事務日志的一致性,對分布式事務、全局 MVCC 等支持更為徹底。應用改造的代價相比于中間件
44、要小,業務邏輯要根據數據分布規則做適應性調整;集群的擴展和收縮對應用透明,并可以按需擴展,沒有數量和規模限制;數據一致性是在事務層被一致性協議保護的,安全性更高;原生的多副本機制支持跨地域的訪問和容災;硬件依賴少,可靈活進行混合云和多云部署,以及跨多云的數據管理;多活架構,硬件利用率高,可以通過普通 PC 服務器實現集群和高可用。多數產品成熟度不足,仍需沉淀,沒有經過長時間核心系統驗證;架構與傳統數據庫不同,目前雖然一些金融、能源、電信等行業的業務場景已嘗試原生分布式數據庫的部署,但整體上下游生態適配還有待進一步完善。數據來源:國家工業信息安全發展研究中心分布式數據庫發展趨勢研究報告、招商證券
45、 2、分布式架構能更好適應高并發、大流量、高可用特征分布式架構能更好適應高并發、大流量、高可用特征,金融金融、電信電信已有已有較多較多落地案例落地案例 分布式架構分布式架構能更好能更好適應高并發、大流量、高可用適應高并發、大流量、高可用特征特征。根據金融電子化援引北京銀行軟件開發中心平臺架構研發團隊的文章北京銀行 OceanBase 分布式數據庫應用實踐,長久以來重要行業的核心數據庫一直使用傳統的集中式數據庫,傳統的集中式數據庫架構支持一般業務系統時,可以做到高效、穩定和可靠,對金融服務的發展起著重要支撐作用,但并不能較好適應數字經濟時代金融業的高并發、大流量、高可用的特征。根據中國信息通信研
46、究院數據庫發展研究報告(2021 年),由于傳統基于集中式數據庫在應對海量數據及復雜分析處理時,存在數據庫的橫向擴展能力受限、數據存儲和計算能力受限、不能滿足業務瞬時高峰的性能等根本性的架構問題。根據中國信息通信研究院數據庫發展研究報告(2021 年),利用分布式計算和內存計算等新技術設計的分布式數據庫能夠解決上述遇到的性能不足等問題,分布式數據庫的數據分散在網絡上多個互聯的節點上,數據量、寫入讀取的負載均衡分散到多個單機中,集群中某個節點故障整個集群仍然能繼續工作,數據通過分片、復制、分區等方式實現分布存儲。每個數據節點的數據會存在一個或者多個副本,提供數據冗余。當某個數據節點出現故障時,可
47、以從其副本節點獲取數據,避免數據的丟失,進而提升了整個分布式集群的可靠性。為保障分布式事務在跨節點處理時事務的原子性和一致性,一般使用分布式協議處理。常用兩階段提交、三階段提交協議保障事務的原子性;使用 Paxos、Raft 等協議同步數據庫的事務日志從而保障事務的一致性。表表 4:傳統集中式數據庫存在的問題:傳統集中式數據庫存在的問題 問題問題 問題詳述問題詳述 性能瓶頸 數據規模指數級增長,但傳統數據庫面對數據量爆發式增長難以維持其穩定性、高性能,也很難滿足業務的彈性伸縮 分析能力不足 傳統數據庫方案需要構建獨立的 AP 系統,并且需要經過 ETL,整體數據傳輸流程長、計算時效性差,難以滿
48、足業務實時分析的需求 成本高昂 傳統集中式架構下,只能基于硬件縱向擴容,系統需按最大容量設計,硬件投入大。且實現高可用、高可靠性需要付出高額的成本代價。異構遷移復雜度高 無法保障異構數據庫兼容性,全量業務梳理和兼容性評估周期長、成本高。無法準確評估數據庫容量和資源需求,無法提前識別和規避性能風險點,導致切換后業務 SLA 下降。數據質量無保障 無法保證關鍵數據遷移過程中的遷移效率和數據質量,長時間的業務停歇通常是不可避免的,缺乏整體可回滾能力。資料來源:金融電子化北京銀行 OceanBase 分布式數據庫應用實踐、招商證券 敬請閱讀末頁的重要說明 15 行業深度報告 各主流數據庫廠商均布局分布
49、式架構。各主流數據庫廠商均布局分布式架構。早期參與數據庫產業并至今仍續存的公司往往少有分布式數據庫產品傳承,但在分布式技術的趨勢下,大多啟動了相關產品的研發;而新近成立的數據庫企業及其它轉型參與數據庫技術的企業則較多采取了直接新研分布式數據庫或分布式數據庫中間件的路線。表表 5:主流數據庫廠商分布式數據庫的布局:主流數據庫廠商分布式數據庫的布局 廠商廠商 集中式數據庫產品集中式數據庫產品 分布式數據庫產品分布式數據庫產品 Oracle Oracle 數據庫 Oracle 數據庫 Sharding 特性 微軟 SQLServer 數據庫 公有云服務:CosmosDB 阿里云 公有云服務:Pola
50、rDB 公有云服務:分布式數據庫 PolarDB-X 華為 公 有 云 數 據 庫 服 務:Gauss DB 系列 公有云數據庫服務:Gauss DB for OpenGauss 公有云服務:分布式數據庫中間件(Distributed Database Middleware,簡稱 DDM)人大金倉 KingbaseES 數據庫 KSOne 數據庫 資料來源:各公司官網、招商證券 國產國產分布式數據庫分布式數據庫已進入大型銀行核心系統和電信行業多項業務。已進入大型銀行核心系統和電信行業多項業務。中國銀行、中國農業銀行、中國郵儲銀行均采用云底座+分布式數據庫的方式構建分布式核心系統;中國工商銀行、
51、交通銀行則以自研開源數據庫+國產數據庫的方式引入國產化數據庫方案;中國建設銀行則按分行與客戶維度漸進式分布切換數據庫投產。表表 6:主流銀行國產分布式主流銀行國產分布式數據庫應用數據庫應用案例案例 銀行銀行 替換替換系統系統 數據庫數據庫 架構架構 中國工商銀行 對公(法人)理財系統 OceanBase 支持數據多副本,節點間通過 Paxos 協議流復制,集群統一管理調度所有服務器資源 包括信貸系統、貴金屬等 130 多個業務系統,覆蓋辦公系統、一般業務系統和關鍵業務系統各類業務場景 GaussDB 分布式數據庫+云化服務 中國農業銀行 銀行核心業務系統 TDSQL 基礎硬件、操作系統、中間件
52、、數據庫、云平臺五大領域全棧式國產化創新,實現全鏈路信創國產化 中國銀行 銀行核心全鏈路信創國產化 TDSQL 采用 TDSQL+中標麒麟+鯤鵬,也是國內首次銀行核心系統實現 x86 和國芯混部署 中國建設銀行 信用卡核心系統 GaussDB 鯤鵬 920+KylinOS+GaussDB 交通銀行 貸記卡核心系統 OceanBase 國內首個貸記卡核心系統“大機下移”分布式 中信銀行 銀行核心業務系統 GoldenDB 使用 GoldenDB 分布式數據庫針對金融 OLTP 交易型場景構建的數據庫解決方案 北京銀行 網聯支付清算平臺、銀聯無卡快捷支付平臺、金融服務互聯平臺、網貸業務平臺等 Ti
53、DB 微服務架構+分布式數據庫,北京銀行在兩地三中心部署 TiDB 集群,采用主從的多活架構,主集群作為生產集群承擔日常的生產服務,主從之間采用 Kafka 同步 Binlog 的形式進行數據同步 資料來源:螞蟻官網、華為官網、中興官網、騰訊官網、PingCAP 官網、墨天輪、中國經濟網、證券時報、CSDN、招商證券 表表 7:電信行業國產替換:電信行業國產替換重點案例重點案例 系統分類系統分類 公司公司 替換系統替換系統 替換前替換前 替換后替換后 替換時間替換時間 替換效果替換效果 業務操作支持系統 中國移動通信集團山東移動 CRM(營業員業務操作系統)Oracle 小機+集中式存儲 Oc
54、eanBase 分布式集群數據庫 2020 年 系統核心場景性能大幅提升,詳單處理效率提升 30%。營業與賬務系統 中國電信 對賬平臺系統 X86+MySQL等開源數據庫 TiDB 數據庫 2019 年 在商用渠道的用時顯著縮短,在性能與效率方面有大幅度提升。敬請閱讀末頁的重要說明 16 行業深度報告 中國電信 個人帳單系統 X86+MySQL等開源數據庫 TiDB 數據庫 2019 年 用戶體驗顯著提升,有效減少了交易無法追溯的問題,也解決了原有分庫分表在容量、儲存周期、查詢效率等維度的問題,最終提升了用戶使用量與用戶活躍度。中國移動通信集團山東移動 BOSS 系統 Oracle 小機+集中
55、式存儲 OceanBase 分布式集群數據庫 2020 年 實現跨多數據中心的分布式集群部署;達到 RPO=0 的機房級別容災能力。反洗錢系統 中國電信 反洗錢系統 X86+MySQL等開源數據庫 TiDB 數據庫 2019 年 1、跑批寫入性能提升 3 倍以上;2、跑批時??s短至原來 1/3 以內;3、平臺整體數據有效處理能力提升至原數據庫的 5 倍以上。資料來源:墨天輪、PingCAP 官網、OceanBase 官網、招商證券 三、數據模型:關系型三、數據模型:關系型仍為霸主仍為霸主,非非關系型關系型逐步取逐步取得大范圍應用得大范圍應用 1、非結構化數據激增驅動非結構化數據激增驅動 NoS
56、QL 發展發展 大數據時代下,大數據時代下,非結構化數據激增驅動非結構化數據激增驅動 NoSQL 發展。發展。根據信息通信技術與政策,隨著人工智能技術、大數據技術以及 5G 等技術的不斷發展,社會中每時每刻都在產生著海量的數據,產生的數據中不僅包含了結構化數據,同時也有大量的音視頻、文本等非結構化數據。根據其援引 IDC 在 2021 年的預測,在 2020 年以前人類產生的數據量每兩年翻一倍,到 2025 年前后全球數據量將達到驚人的 179.6 ZB,而其中大部分為非結構化數據,占據了全部數據量的80%90%,并且非結構化數據增長的速度要比結構化數據增長的速度高出1050 倍之多,所以對應
57、的數據存儲需求就越來越多樣化,也延伸出了很多非關系型數據庫的需求。根據 TWT 社區對江西銀行存儲工程師程宗憬的訪談,關系型數據庫適合事務處理,而非關系型數據庫適合處理大規模的非結構化數據,更擅長處理大量的并發讀寫操作。根據京東技術,NoSQL 數據庫并沒有一個統一的模型,是以犧牲事務機制和強一致性機制,來獲取更好的分布式部署和橫向擴展能力,使其在不同的應用場景下,對特定業務數據具有更強的處理性能。關系數據庫和非關系數據庫是應用程序的兩種數據存儲方法。關系數據庫和非關系數據庫是應用程序的兩種數據存儲方法。關系數據庫(SQL 數據庫)以包含行和列的表格格式存儲數據,列包含數據屬性,行包含數據值。
58、非關系數據庫(NoSQL 數據庫)使用各種數據模型來訪問和管理數據,專門針對需要大數據量、低延遲和靈活數據模型的應用程序進行了優化。表表 8:關系數據庫與非關系數據庫差異摘要:關系數據庫與非關系數據庫差異摘要 類別類別 關系型數據庫關系型數據庫 非關系型數據庫(非關系型數據庫(NoSQL 數據庫)數據庫)數據模型 表格式 鍵值、文檔或圖形 數據類型 結構化 結構化、半結構化和非結構化 數據完整性 高,完全符合 ACID 標準 最終一致性模型 性能 性能取決于其磁盤子系統 性能取決于網絡延遲、硬件集群大小和調用應用程序,為特定應用場景提供了更高的性能和可擴展性 擴展 橫向擴展需要額外的數據管理策
59、略 橫向擴展很簡單 適用場景 數據的大小、結構和訪問頻率可預測;實體之間的關系較為重要 更適合存儲形狀或大小比較靈活,或者將來可能發生變化的數據 數據來源:Amazon 官網、招商證券 敬請閱讀末頁的重要說明 17 行業深度報告 表表 9:各類型數據庫產品代表及適用場景:各類型數據庫產品代表及適用場景 類別類別 廠商及產品代表廠商及產品代表 數據模型實例數據模型實例 適用場景適用場景 層次數據庫(NDB)IBM(IMS)/B.F.Goodrich(IDMS)以樹形結構組織數據,數據之間存在父子關系,查詢速度快,但難以擴展和維護 關系型數據庫(RDBMS)Oracle(Oracle DB、MyS
60、QL 8.0)規范化的二維表,事務的一致性需求場景 鍵值數據庫(KVDB)Salvatore Sanfilippo(Redis7.0.11)/Danga Interactive(Memcached 1.6.20)只能存儲成對的鍵和值,并在知道鍵時檢索值。針對高性能并發讀寫場景,適用于游戲緩存系統、用戶會話信息存儲等場景 文檔數據庫(DDB)MongoDB Inc(MongoDB 6.0.5)/Damien Katz(CouchDB 3.3.2)以文檔形式存儲和組織數據,適用于數據量大、讀寫操作頻繁的場景。適用于存儲游戲用戶信息、裝備、積分等;存儲訂單信息、訂單狀態、物流信息等場景。圖數據庫(G
61、DB)Neo Technology,Inc.(Neo4j 5.9)靈活、可擴展且功能強大的圖形數據庫平臺可以用來快速理解模糊的、發散的數據,適用于社交網絡分析等場景。時序數據庫(TSDB)InfluxData(InfluxDB 3.0)/Timescale(Timescale DB)針對時序數據的持久化和多維度的聚合查詢等場景,適用于能源行業智能電表、設備監測;傳統制造業生產設備的實時監控;交通物流領域交通工具和集裝箱貨物的位置追蹤等場景。向量數據庫(VDB)Pinecone Systems,Inc(Pinecone 2.1.2)/Zilliz(Milvus)/星環科技(Hippo)可以應用在
62、需要對大量多維相似向量數據進行高效存儲和檢索的場景中,適用于知識庫、問答、推薦系統、人臉識別、圖片搜索等場景。數據來源:京東云社區、Pigsty、K21Academy、招商證券 推動推動 NoSQL 發展的標志性事件包括如下:發展的標志性事件包括如下:根據 CSDN,2005 年,Hadoop 項目誕生,它是一個運行在普通機器上的、可供大規模存儲和訪問的分布式文件系統,是大數據存儲的基石,使得大數據這件事情變得可行,在硬件成本上可控,在軟件技術上可實現;2006 年,Google 發布 BigTable 論文,描述了一個用于管理結構化數據的分布式存儲系統Bigtable 的數據模型、接口以及實
63、現等內容;根據阿里云公眾號,2007 年,亞馬遜發布 Dynamo 論文,論文介紹了 Dynamo 的設計和實現,它是一種高度可用的鍵值存儲系統,亞馬遜的一些核心服務使用它來提供“永遠在線”的體驗,被認為是 NoSQL 的開山之作;根據 Neo4j 官網,同年第一款商用圖數據庫 Neo4j 發布,Neo4j 作為高速圖形數據庫,具有無限的規模、安全性和數據完整性,適用于任務關鍵型智能應用;根據 twt 企業社區公眾號,2009 年,由文檔數據庫 MongoDB 引發了一場NoSQL 運動,MongoDB 是一款基于文檔式的并且建立在分布式存儲系統之上的 NoSQL 數據庫,存儲的數據模型是文檔
64、,面向的是集合而不是表,所有的數據存儲都以集合為單位,而每個集合里面包含的內容則稱為文檔;2012 年以來,Amazon DynamoDB、Databricks、Microsoft Azure CosmosDB、Kdb、敬請閱讀末頁的重要說明 18 行業深度報告 NebulaGraph 等一系列 NewSQL 數據庫誕生。圖圖 10:關系型及非關系型數據庫關系型及非關系型數據庫發展重要節點梳理發展重要節點梳理 資料來源:DB-Engines、各公司官網、招商證券 根據根據 DB-Engins,近年來近年來 NoSQL 討論度和熱度持續高升。討論度和熱度持續高升。因步入互聯網 Web 2.0 和
65、移動互聯網時代,從 2013 年至今的長維度來看,圖數據庫、時序數據庫、文檔數據庫、鍵數據庫作為補充性的新需求蓬勃發展;而近一年來,因 AI 需求爆發,向量數據庫為最受歡迎的數據庫類型。AI、圖數據分析、時空數據分析等創新業務驅動數據庫行業成長。、圖數據分析、時空數據分析等創新業務驅動數據庫行業成長?,F階段,向量數據庫在人工智能技術的發展駛入快車道的時期初露鋒芒,圖數據庫為復雜關聯關系提供查詢性能釋放數據價值,時空數據庫對查詢、統計、分析時空數據的實際應用嶄露頭角,Serverless 無服務器架構計算范式賦能數據庫產品及生態工具云化,以及軟硬協同一體化技術加速數據庫性能持續優化。圖圖 11:
66、2013 年至今按數據庫模型劃分的年至今按數據庫模型劃分的 DBMS 受歡迎程度受歡迎程度 資料來源:DB-Engines、招商證券 敬請閱讀末頁的重要說明 19 行業深度報告 圖圖 12:近一年按數據庫模型劃分的近一年按數據庫模型劃分的 DBMS 受歡迎程度受歡迎程度 資料來源:DB-Engines、招商證券 2、關系型將關系型將繼續保持主流數據庫地位繼續保持主流數據庫地位,數據湖倉等尚處發,數據湖倉等尚處發展初期展初期 關系型數據庫市場份額占近八成,仍為目前最受歡迎的數據庫類型。關系型數據庫市場份額占近八成,仍為目前最受歡迎的數據庫類型。Gartner研究報告顯示,2022 年全球數據庫管
67、理系統(DBMS)市場達到 910 億美元,增長了 14.4%,超過了整體軟件市場 11.3%的增長。非關系型 DBMS 市場增長26.8%,占 DBMS 市場份額的 21%,而關系型 DBMS 市場增長 12.2%,市場份額為 78%。根據 DB-Engines,關系型數據庫的受歡迎程度排名份額為72.1%,遠高于非關系型數據庫 27.9%的得分總和,占據數據庫“霸主”地位。圖圖 13:各類數據庫的受歡迎程度(所有排名份額之和為各類數據庫的受歡迎程度(所有排名份額之和為 100%。)。)資料來源:DB-Engines、招商證券 關系數據庫長期并將在可預期的未來繼續保持主流數據庫地位。關系數據
68、庫長期并將在可預期的未來繼續保持主流數據庫地位。隨著移動互聯網的發展,涌現出了包括鍵值、文檔、寬列、時序等在內的越來越多非關系型數據庫,其在大數據、互聯網領域取得了較大范圍的應用。但關系型數據庫具有以下三點價值:(1)滿足數據庫的 ACID 特性,即原子性、一致性、隔離性、持久性,根據英特爾中國援引 InfoQ 文章,ACID 能幫助應用開發且簡化應用開發的復雜性;(2)采用 SQL 標準,SQL 是關系型數據庫的標準語言,相比 C、Java、Python 等編程語言,SQL 貼合口語的設計使得其代碼復雜度大大簡化、便于數據分析人員上手,同時嵌入式的設計也保證了 SQL 可以被其他編程語言輕松
69、調用,據 TIOBE 統計,SQL 在近 20 年穩居 TOP10 編程語言榜單;(3)敬請閱讀末頁的重要說明 20 行業深度報告 經過長時間的發展和完善,已經形成了基于關系型數據庫的龐大信息技術生態。在未來,隨著數據量的不斷增長和數據流程的加速,關系型數據庫具有的良好可擴展性、兼容性、成熟穩定性、數據一致性等獨特優越性將得到更加充分的體現。此外,關系型數據庫也在繼續不斷地適應新的技術和需求,保持持續發展和創新。以 Oracle 為例,在關系模型的基礎上,Oracle 可支持文檔數據、對象數據、空間數據、圖數據等非關系模型,成為了單一數據庫支持多種模型的“多模數據庫”。目前大量傳統關系型數據庫
70、和新興非關系型數據庫已開始轉為“多模數據庫類型”。多模數據庫:支持不同場景下的多種類型數據處理多模數據庫:支持不同場景下的多種類型數據處理 多模數據庫技術是在多模數據庫技術是在 NoSQL 技術演進中發展起來的技術演進中發展起來的。根據 CCSA TC601 大數據技術標準推進委員會數據庫發展研究報告(2023 年),由于需求不斷變化、RDBMS 的擴展性不佳等諸多因素導致越來越多的開發者選擇 NoSQL 數據庫。但多個 NoSQL 數據庫系統混用的方式為軟件開發團隊帶來高額的學習成本和維護費用。多模數據庫旨在提供多語言持久性的數據建模優勢,通過使用單個數據庫存儲來降低操作的復雜性,更好地支持
71、不同場景下的多種類型數據處理。多模數據庫發展呈現兩種形態,一是出現了多款原生的多模數據庫系統;二是關系型數據庫系統也陸續增加了對多模數據處理的支持。多模數據庫不僅能夠為多種數據模型提供該模型適用的查詢接口,也可以通過一種語言實現對多種模型數據的同時查詢。根據星環科技,其多模數據庫產品根據星環科技,其多模數據庫產品 ArgoDB 在在客戶客戶 360 分析分析的案例中的案例中,企業需要組織分析三種類型的數據,并將結果匯總分析,以生成更準確的客戶概況:事務歷史記錄和產品主數據,由關系型數據庫或數據倉庫處理;產品或近期交易的關系,由圖數據庫處理;來自社交媒體或電子商務網站的產品/商店/人員相關的評論
72、,由搜索引擎檢索。在過去,用戶必須使用多個類型的數據庫來管理這些不同類型的數據,并通過提取、轉換和加載(ETL)或導出/導入工具將分析結果結合在一起。這不僅影響了數據的時效性,增加了數據溯源的復雜性,還影響了數據質量。不同于傳統方案為不同類型的數據單獨部署和使用不同的數據庫產品,基于星環科技 ArgoDB 的多模型統一技術架構,用戶可以實現不同模型數據的統一存儲管理,并且用戶只需用一句 SQL 就能同時訪問這 3 種存儲模型進行聯合分析,替代了之前 3 段代碼,一次操作完成了之前三次操作才能完成的業務,大大簡化了開發復雜度,簡化用戶操作。同時數據也仍保留在原存儲引擎中,也不用對數據進行導入導出
73、或者轉換,不會存在數據不一致或數據冗余存儲的問題。表表 10:主流關系型廠商通過多模主流關系型廠商通過多模+非關系數據庫相互配合的路線完善產品線,非關系數據庫相互配合的路線完善產品線,非關系型廠商也在不斷完善模型種類非關系型廠商也在不斷完善模型種類 廠商與產品廠商與產品 產品具體描述產品具體描述 Oracle(Oracle Database 23c)新版本增強了 Oracle Database 適用于任何工作負載的融合數據庫方法(支持 JSON、XML、圖形、空間、文本和關系數據)。Oracle(MySQL 8.0)新的文檔存儲功能:用于使用單個數據庫開發 SQL 和 NoSQL 文檔應用程序
74、。IBM(Db2)IBM Db2 是一種關系型多模數據庫,為結構化和非結構化數據以及廣泛的工作負載(包括 OLTP)提供高級數據管理和分析能力。微軟(SQL Server 2019)SQL Server2019 的重要改變是能夠虛擬化數據??梢詫祿A粼谄湓嘉恢?,虛擬化 SQL Server 實例中的數據,在整個數據資產(SQL Server、Azure SQL 數據庫、Azure SQL 數據倉庫、Azure Cosmos DB、MySQL、PostgreSQL、MongoDB、Oracle、Teradata 等)中執行,無需移動或復制數據。敬請閱讀末頁的重要說明 21 行業深度報告 星
75、環科技(ArgoDB)實現支持跨模型的數據訪問,一種查詢接口用于寫,另一種查詢語言進行讀,并且保證相同結果的數據視圖。阿里云(Lindorm)既可以通過 SQL 訪問多個模型,也可以通過不同的開源接口訪問不同模型。SQL 和原 生 API 之 間 可 以 基 于 數 學 模 型 如 范 疇 論 實 現 高 效 的 相 互 轉 化,如SQL 和 JSON 之間的轉換,JSON 可以轉換成稀疏的層級表。華為(GeminiDB)云數據庫 GeminiDB 是一款基于計算存儲分離架構的分布式多模 NoSQL 數據庫服務。云數據庫 GeminiDB 目前包含 GeminiDB Cassandra、Gem
76、iniDB Mongo、GeminiDB Influx 和 GeminiDB Redis 四 款 產 品,分 別 兼 容 Cassandra、MongoDB、InfluxDB 和 Redis 主流 NoSQL 接口。資料來源:各公司官網、招商證券 表表 11:多模數據庫擴展戰略多模數據庫擴展戰略 技術路徑技術路徑 數據庫管理系統數據庫管理系統 存儲類型存儲類型 新儲存方式 PostgreSQL relational SQL server 2019 relational IBM DB2 relational Oracle DB relational Cassandra column CrateD
77、B column DynamoDB column Riak key/value Cosmos DB document 原存儲模型擴展 MySQL relational Vertica column ArangoDB document MongoDB document OrientDB graph Cache object 原始存儲策略加新型接口 Sinew relational c-treeACE key/value Oracle NoSQL Database key/value Couchbase document MarkLogic document 資料來源:CCSA TC601 大數據
78、技術標準推進委員會、招商證券 從成熟度和市場滲透率來看,關系型已進入成熟主流期,向量數據庫等仍處于從成熟度和市場滲透率來看,關系型已進入成熟主流期,向量數據庫等仍處于發展初期。發展初期。根據 GartnerHype Cycle for Data Management,2023,關系型數據庫發展至今已有 30 余年的歷史,已經進入成熟期,在數據庫市場中占據主流地位。非關系型數據庫尚處于快速發展期,類型主要包括圖型、時序型、向量型、列簇型和多模型等。其中,圖型數據庫市場滲透率為目標受眾的 5%至20%,處于成長期;時序型數據庫市場滲透率為目標受眾的 20%至 50%,為早期主流;向量型數據庫市場滲
79、透率低于目標受眾的 1%,處于萌芽期;列簇型數據庫市場滲透率于為目標受眾的 20%至 50%,為成熟主流。分布式數據庫市場滲透率低于目標受眾的 1%,處于轉型期。還有一些廠商開始建造數據倉和數據湖,數據倉市場滲透率于為目標受眾的 5%至 20%,處于成長期;數據湖市場滲透率于為目標受眾的 20%至 50%,為早期主流。敬請閱讀末頁的重要說明 22 行業深度報告 圖圖 14:技術成熟度曲線技術成熟度曲線 資料來源:Gartner、招商證券 表表 12:不同類型數據庫的成熟度:不同類型數據庫的成熟度 類型類型 代表公司代表公司 市場滲透率市場滲透率 成熟度成熟度 關系型-Oracle(Oracle
80、 DB、MySQL 8.0)-成熟期 非關系型 多模型數據庫 OpenLink Software(Virtuoso 7.2.7)、Amazon(DynamoDB)超過 50%的目標受眾 成熟主流 列簇型 Powerset(HBase 2.3.4)、Yandex(ClickHouse v23.4.1.1943)目標受眾的 20%至 50%成熟主流 數據湖 Databricks(Databricks)目標受眾的 20%至 50%早期主流 時序型 InfluxData(InfluxDB 3.0)/Timescale(Timescale DB)目標受眾的 20%至 50%早期主流 分布式數據庫 Pin
81、gCPA(TiDB7.0.0)、奧星貝斯(OceanBase 3.2.3)目標受眾的 5%至 20%早期主流 圖型 Neo Technology,Inc.(Neo4j 5.9)目標受眾的 5%至 20%成長期 數據湖倉 Snowflake Computing(Snowflake)目標受眾的 5%至 20%成長期 向量型 Pinecone Systems,Inc(Pinecone 2.1.2)/Zilliz(Milvus)/星環科技(Hippo)目標受眾不到 1%萌芽期 數據來源:Gartner、招商證券(注:根據 gartner 定義,發展時間較長,數據庫則進入成熟期;若市場滲透率達到目標受眾
82、的 20%及以上,則為主流)3、文檔數據庫:適用于數據存儲場景,文檔數據庫:適用于數據存儲場景,MongoDB 為流行為流行度第一度第一 文檔數據庫系以文檔形式存儲和組織數據,適用于數據量大、讀寫操作頻繁的文檔數據庫系以文檔形式存儲和組織數據,適用于數據量大、讀寫操作頻繁的場景。場景。根據 PingCAP 官網,文檔型數據庫是一種 NoSQL(非關系型)數據庫,使用類似于 JSON 或 BSON 的文檔格式,可以存儲嵌套和非結構化的數據,這種靈活性使得文檔數據庫更適合處理具有不同字段和結構的數據。文檔數據庫更多適用于如下場景:如使用 MongoDB 存儲游戲用戶信息、裝備、積分等,直接以內嵌文
83、檔的形式存儲,方便查詢、更新;存儲訂單信息、訂單狀態、物流信息;存儲用戶信息,朋友圈信息,通過地理位置定位;物聯網中存儲設備信息、設備匯報的日志信息并進行多維度分析;存儲用戶信息、點贊互動信息等。即適用于數據量大、讀寫操作頻繁、數據價值不高,對事務要求不高的場景。敬請閱讀末頁的重要說明 23 行業深度報告 圖圖 15:文檔數據庫適用場景文檔數據庫適用場景 資料來源:網絡智能研究中心 NIRC、招商證券 根據騰訊云,在根據騰訊云,在騰訊智慧零售優碼業務選用文檔數據庫案例騰訊智慧零售優碼業務選用文檔數據庫案例中,中,騰訊智慧零售優碼業務存儲零售商品二維碼信息,該信息為智慧零售最核心的數據信息。碼存
84、儲的特征有海量數據、關聯存儲、多維度查詢。采用 MySQL+ES 的常見架構是寫操作直接作用于 MySQL,然后通過 canal+Kafka 的方式將數據變更同步到 ES,然后再根據不同的查詢場景從 MySQL 或者 ES 查詢數據。然而此種方案存在數據同步和一致性問題、數據容量問題、成本問題、DDL 運維問題、開發成本問題、水平擴容問題。在使用 MongoDB 方案時,不需要 MySQL 冗余表或者 ES 來支持大部分的分布式查詢,因此可以避免冗余存儲帶來的數據同步和一致性問題、存儲成本問題、資源/運維/開發成本。對比可知,MongoDB 不僅能完全滿足業務需求,同時在性能、成本、可維護性等
85、各方面都優于傳統關系型數據庫方案,因此騰訊優碼最終選用的是 MongoDB 作為業務核心數據碼的存儲方案。圖圖 16:MySQL+ES 存儲方案存儲方案在騰訊優碼業務場景下可在騰訊優碼業務場景下可能的架構圖能的架構圖 圖圖 17:基于:基于 MongoDB方案存方案存儲方案儲方案在騰訊優在騰訊優碼業務場景下可能的架構圖碼業務場景下可能的架構圖 資料來源:騰訊云、招商證券 資料來源:騰訊云、招商證券 敬請閱讀末頁的重要說明 24 行業深度報告 表表 13:對比:對比 MySQL+ES 與與 MongoDB 方案在各方面的表現方案在各方面的表現 對比項對比項 指標要求指標要求 MySQL+ES M
86、ongoDB 功能 分片鍵查詢 非分片鍵查詢 按索引聚合查詢 父子關系查詢判斷 MySQL 需要輔助表來實現 C 端業務費非分片鍵查詢;需要 ES 來實現 B 端不同維度查詢;不支持父子碼查詢 一份數據滿足不同維度查詢;數據類型的多 Key 索引支持父子關系查詢 性能 存儲規格 4 核 8GB MySQL 讀性能約 6000 QPS;ES 僅約 800 QPS 單分片讀性能約 3 萬 QPS 成本 按容量 50TB 數據 磁盤容量需求為 MySQL 50TB,ES 60TB,總計 110TB 自帶數據壓縮,無冗余存儲 內存容量 MongoDB:MySQL:ES 約為 1:3:6 的比例 磁盤容
87、量要求:16.67TB,其為 MySQL 磁盤消耗的三分之一 可擴展性 是否動態擴容 磁盤容量要求:16.67TB 需要提前根據數量預分片 分片擴容難,需要業務手動 rehash 搬遷數據,并自己保證數據一致性與完整性 動態擴容,不存在容量上限 自動 rebalance 數據,保證各個分片負載均勻 可維護性 DBA(Database Administrator)維度 數據一致性 運維成本 DDL/DML 執行非常耗時 數據有多個副本,需要復雜的架構和開發來維護數據一致性難 開發維護分庫分表和數據同步的配置和實現,存在業務抖動風險,發布耗時且風險大 No Schema 無需頻繁 DDL 一份數據
88、滿足多種業務需求,不需要維護數據一致性,大幅減少開發與運維難度 資料來源:騰訊云、招商證券 中國移動和咪咕視頻應用案例:中國移動和咪咕視頻應用案例:根據 MongoDB 官網,中國移動使用 MongoDB 來支持其最大和最關鍵的推送服務之一,該服務每月向超過 10 億用戶發送賬單明細。在使用MongoDB 之前,中國移動技術團隊一直依賴 Oracle 數據庫,但隨著用戶數量的增加,數據庫性能也隨之下降。盡管投入了大量資金,Oracle 系統處理日常請求(如最終確定和向用戶交付賬單)仍然需要很長時間。2019年,經過全面測試,中國移動遷移到 MongoDB。通過利用 MongoDB 的原生分片,
89、該系統性能大幅提高了 80%,從原來需要 50 臺 Oracle 機器減少至只需要 12 臺 MongoDB 的機器來處理相同的負載。該推送服務不但可以處理所有當前需求,并為隨著未來增長而擴展做好了準備。根據 MongoDB 官方公眾號,2018 年咪咕視訊逐步減少傳統數據庫的使用,開始使用 MongoDB 文檔模型數據庫。團隊迅速認識到,MongoDB 是解決靈活、多樣、多變的互聯網視頻業務,以及大規模復雜的技術系統架構的最好選擇。MongoDB 幫助咪咕視訊有效處理大量非結構化數據和去中心化部署,賦能咪咕視訊優化現代應用架構,進一步提升業務性能與規模。遵循“先遷移現有數據、再遷移新數據”的
90、路徑,咪咕視訊已成功將其傳統數據庫遷移到 MongoDB 中。在部署規模上,傳統數據庫的“消”對應的是 MongoDB 的“長”。6 年間,MongoDB 在咪咕核心系統的部署規模增長了 75%以上,占其所有數據庫一半以上。目前,咪咕視訊已逐步重構其核心系統,實例已超過 450 個。敬請閱讀末頁的重要說明 25 行業深度報告 圖圖 18:利用利用 MongoDB 靈活的模式(靈活的模式(Schema),咪咕視頻用戶可以輕易地在線增加屬性字段),咪咕視頻用戶可以輕易地在線增加屬性字段 資料來源:MongoDB 數據庫公眾號、招商證券 根據根據 DB-Engines,MongoDB 為目前最主流的
91、文檔數據庫,國內對標廠商包為目前最主流的文檔數據庫,國內對標廠商包括巨杉軟件(括巨杉軟件(SequoiaDB)等。)等。MongoDB(1)產品涵蓋開源社區版、付費專業版和云開發者數據平臺)產品涵蓋開源社區版、付費專業版和云開發者數據平臺 開源社區版,建立龐大用戶社區。開源社區版,建立龐大用戶社區。Community Server 是 MongoDB 數據庫的免費下載版本,為初識 MongoDB 的用戶提供入門機會。同時基于開源模式,建立了龐大的用戶社區,根據用戶的反饋改進 MongoDB,不斷增強產品的易用性。付費付費專業版專業版,專注專注企業客戶的商業數據庫企業客戶的商業數據庫。Mongo
92、DB Enterprise Advanced 是為企業客戶提供的商業數據庫,企業訂閱后可獲得平臺的商業許可及企業數據庫服務器、企業管理能力、分析集成,并可在云、本地或混合環境中運行。開創多云開發者數據開創多云開發者數據平臺,助力收入騰飛。平臺,助力收入騰飛。MongoDB Atlas 是 2016 年推出的云數據庫和數據服務的集成套件,是一款基于云的 SaaS 版服務器,覆蓋三大云服務提供商(Amazon Web Services(AWS)、Google Cloud Platform(GCP)、Microsoft Azure),并于 2020 年與我國最大云服務商之一阿里云達成合作。Mongo
93、DB Atlas 內建了 MongoDB 安全和運維最佳實踐,可自動完成基礎設施的部署、數據庫的構建、高可用部署、數據的全球分發、備份等既費時又需要大量經驗運維工作。近三年,Atlas 已經是 MongoDB 最大的收入來源(根據 MongoDB 2023 財年財報,Q4 營收中,Atlas 營收占 65%)。敬請閱讀末頁的重要說明 26 行業深度報告 圖圖 19:MongoDB 分產品收入結構分產品收入結構 資料來源:公司年報、招商證券(2)財務和業務情況介紹)財務和業務情況介紹 穩固的訂閱銷售模式穩固的訂閱銷售模式,矚矚目的目的 DBaaS 產品。產品。MongoDB 在過去幾年實現了強勁
94、的營收增長,主要依賴于其穩定的訂閱銷售模式。在 FY2021-FY2023,訂閱銷售均占據了總收入的 96%+。MongoDB Atlas 自 2016 年 6 月推出以來,在收入中占比持續增長。FY2023,Atlas 已占總收入的 63%,超出預期的增長表明了市場對 DBaaS 解決方案的認可與需求的增長??涂蛻魬艋A擴大,基礎擴大,忠誠忠誠度較高。度較高。根據 MongoDB 年報,公司持續投資于銷售和營銷工作以及開發人員社區外聯,這對于推動客戶獲取至關重要。在客戶遷移現有應用程序或構建新應用程序,以及將信息技術基礎設施現代化并轉向云端的過程中,MongoDB 不斷推動平臺的標準化,同時
95、為新客戶和現有客戶引入新的工作負載,以增加客戶的訂閱金額。MongoDB 的付費客戶總數從 2021 年的24,800 個客戶增加到了 2023 年的 40,800 個客戶,近乎翻倍,表明了公司的市場吸引力。同時,用于衡量客戶增加支出速度的凈 ARR 擴張率持續保持在 120%以上,說明了目前訂閱模式在現有客戶中的持續增長能力和較強的客戶忠誠度。圖圖 20:MongoDB 收入及增速情況(單位:千美元)收入及增速情況(單位:千美元)圖圖 21:MongoDB 毛利率及凈利率情況毛利率及凈利率情況 資料來源:公司年報、招商證券(注:2023 財年指 2022 年 1 月31 日至 2023 年
96、1 月 31 日財年)資料來源:公司年報、招商證券 0%10%20%30%40%50%60%70%80%90%100%2019財年2020財年2021財年2022財年2023財年2024財年Professional Services收入占比MongoDB Enterprise Advanced收入占比MongoDB Atlas收入占比0%10%20%30%40%50%60%70%0200,000400,000600,000800,0001,000,0001,200,0001,400,0001,600,0001,800,000總收入收入YoY-60%-40%-20%0%20%40%60%80%1
97、00%2019財年 2020財年 2021財年 2022財年 2023財年 2024財年毛利率凈利率 敬請閱讀末頁的重要說明 27 行業深度報告 圖圖 22:MongoDB 客戶數量情況客戶數量情況 資料來源:公司年報、招商證券(3)崛起歷程復盤)崛起歷程復盤 技術革新之技術革新之際際,引領新數據庫范式。,引領新數據庫范式。隨著傳統關系型數據庫面對現代應用程序需求時的力不從心,2009 年,采用文檔型數據模型的 MongoDB 的應運而生,為處理大規模、高速度、多樣化數據的需求提供了一種新的范式。這種創新性的設計吸引了開發者的注意,為 MongoDB 的崛起奠定了基礎。逐步拓展商業版圖,創新驅
98、動增長。逐步拓展商業版圖,創新驅動增長。2009 年 2 月,MongoDB 1.0 發布,提供了大部分基本的查詢功能。同年 12 月 MongoDB 1.2 發布,引入了 map-reduce,支持大規模數據處理。2013 年,MongoDB 推出了第一個商業版本的企業數據庫服務器,加速了其在企業級應用中的普及。此后,MongoDB 不斷引入新的功能和服務。MongoDB 早期版本的一個主要問題是保存和管理磁盤數據的存儲引擎相對較弱,于是在 2014 年,MongoDB 收購 WiredTiger 存儲引擎,極大提升了寫入性能,加速了數據庫處理速度。2015 年,推出了 MongoDB 指南
99、針和分析集成等工具,為用戶提供更便捷的數據庫管理和分析方案。2016 年,推出了數據庫即服務 MongoDB Atlas,提供了全新的數據庫部署和管理方式。2017 年,MongoDB 在美國納斯達克上市,MongoDB Atlas 擴展到了所有三大公有云提供商,為用戶提供了多樣化的部署選項,提高了靈活性和選擇性。2018 年,MongoDB 公司收購并集成了在云端提供 MongoDB 服務(DBaaS)的mLab,將其作為 MongoDB Atlas 云平臺的一部分,并通過改變開源版本的許可條款來限制更多的 DBaaS 競爭者的出現。2019 年,為了將 MongoDB 發展成一個成熟的云平
100、臺,而不僅僅提供數據庫服務,公司再次收購云計算移動數據庫公司 Realm,強化云生態系統。市場影響力強,占據市場影響力強,占據 NoSQL 領先地位。領先地位。在知名編程論壇 Stack Overflow 2023年的開發者問卷調查中,MongoDB 位列最常用的數據庫技術第四位,顯示了其在開發者社區的廣泛認可度。根據 DB-Engines 在 2023 年 10 月的流行度調查,MongoDB 在非關系型數據庫中排名第一,進一步鞏固了其在 NoSQL 領域的領導地位。010,00020,00030,00040,00050,00060,0002019財年 2020財年 2021財年 2022財
101、年 2023財年 2024財年 敬請閱讀末頁的重要說明 28 行業深度報告 圖圖 23:MongoDB 發展歷程發展歷程 資料來源:MongoDB、招商證券(4)公司競爭優勢)公司競爭優勢 順順應市場需求變化,幫助開發者顛覆行業。應市場需求變化,幫助開發者顛覆行業。MongoDB 結合了關系型數據庫和非關系型數據庫的優點,在維持關系數據庫的優勢的前提下,挑戰傳統數據庫的限制,滿足對性能、可伸縮性、靈活性和可靠性的需求。在 FY2023,與MongoDB Enterprise Advanced 相關的新業務中,大約 25%來自從傳統關系數據庫遷移而來的應用程序。靈活的數據模型和分布式能力靈活的數
102、據模型和分布式能力。MongoDB 采用文檔型數據模型,允許動態添加字段,具備非常高的靈活性,能夠適應各種數據需求的變化。同時,MongoDB原生支持分布式數據庫,具有快速的水平擴展能力,可以在各種環境中靈活部署,滿足不同規模和需求的應用場景。多云支持多云支持的廣泛的應用場景的廣泛的應用場景 MongoDB 支持多家云服務商,避免了廠商支持多家云服務商,避免了廠商鎖鎖定定。此外,MongoDB Atlas 中提供了多樣化的部署選項。用戶可以根據實際需求選擇在云端、本地或混合環境中運行,滿足不同業務需求。圖圖 24:文檔數據庫受歡迎程度排行榜文檔數據庫受歡迎程度排行榜 資料來源:DB-Engin
103、es、招商證券(標星代表國產公司)敬請閱讀末頁的重要說明 29 行業深度報告 表表 14:海內外主流文檔數據庫梳理:海內外主流文檔數據庫梳理 產品名稱產品名稱 所屬廠商所屬廠商 開發時間開發時間 用途用途 主類型主類型 市值或融資情況市值或融資情況 公司介紹公司介紹 MongoDB MongoDB,Inc 2009 開源 文檔型 已上市,Mongo DB MDB,當前市值約265 億美元 MongoDB 客戶數量超過 47,800,覆蓋 100 余個國家和地區。MongoDB 數據庫平臺下載量已超過 3.65 億次,MongoDB University 注冊量已達 180 余萬次。2024 財
104、年 MongDB 收入為 16.83 億美元,規模凈利潤為-1.77 億美元,員工人數 5037 人。Amazon DynamoDB Amazon 2012 商用 文檔型、鍵值型 已上市,亞馬遜AMZN,當前市值約1.91 萬億美元 AWS 全球云基礎設施是最安全、擴展性和可靠性最高的云平臺,可提供來自全球數據中心的 200 多種功能全面的服務。AWS Cloud 服務 245 個國家和區域,現已在全球 32 個地理區域內運營著 102 個可用區,超過 550 個入網點和 13 個區域性邊緣緩存。2023 年,亞馬遜云服務共收入 907.57 億美元,亞馬遜員工人數達 152.5 萬人。Cou
105、chDB Apache Software Foundation 2005 開源 文檔型、空間型-Apache CouchDB 允許用戶在需要時訪問數據。Couch Replication Protocol 在各種項目和產品中實施,這些項目和產品跨越了從全球分布式服務器集群到移動電話到 Web 瀏覽器的每個可以想象的計算環境。ASF 的開源軟件有超過 8400 名提交者為 320 多個活躍項目做出了貢獻。SequoiaDB 巨杉軟件巨杉軟件 2011 商業、開源 文檔型 2020 年完成數億元人民幣 D 輪融資,由中金資本領投,元禾重元與越秀產業基金跟投。融資后市值約為 25 億人民幣 廣州巨杉
106、軟件開發有限公司是一家專注分布式數據庫技術研發,以全球數據庫領導者為愿景,以深耕數據沃土,釋放全量數據價值為使命的自研國產基礎軟件廠商。2022 年巨杉軟件公司員工人數為 117 人。數據來源:各公司官網、招商證券(加粗的為國內企業)4、時序數據庫:適用于工業、物聯網等場景,時序數據庫:適用于工業、物聯網等場景,InfluxDB 為為流行度第一,國內對標廠商包括流行度第一,國內對標廠商包括 DolphinDB 等等 根據阿里云,時間序列數據庫根據阿里云,時間序列數據庫(TSDB)是一種軟件系統,專門用于處理時間序列是一種軟件系統,專門用于處理時間序列數據、按時間索引的數字數組(日期時間或日期時
107、間范圍)。時序數據庫發展數據、按時間索引的數字數組(日期時間或日期時間范圍)。時序數據庫發展歷程如下:歷程如下:第一代時序數據存儲系統:第一代時序數據存儲系統:通用關系數據庫雖然可以存儲時序數據,但由于缺乏對按時間間隔存儲和檢索數據等時間的優化,無法非常有效地處理時序數據。第一代時間序列數據通常來自監測領域?;谄矫嫖募暮唵未鎯ぞ呤谴祟悢祿氖走x存儲。RRDTool 和 Whisper 等系統通常處理單一數據模型,并且獨立容量有限。這些系統通常嵌入在監控和警報場景中?;谕ㄓ么鎯Φ臅r間序列數據庫:基于通用存儲的時間序列數據庫:隨著大數據和 Hadoop 的發展,時序數據量開始快速增長,系統
108、服務對處理時序數據提出了更多要求,例如更高的可擴展性?;谕ㄓ么鎯Φ膶S脮r序數據庫開始出現。時序數據庫可以按時間間隔高效地存儲和處理時序數據。這些數據庫包括 OpenTSDB 和KairosDB。這些時序數據庫繼承了通用數據庫的優點,并利用特性避免了通用存儲的缺點。此外,這些數據庫在數據模型和聚合分析方面還有許多針對時間序列的創新。例如,OpenTSDB 繼承了 HBase 的寬表,針對時間序列進行了偏移存儲模型的設計,并使用 salt 來緩解熱點問題。但它也存在諸多缺點,例如全局 UID 機制效率低下、聚合數據加載不可控、無法處理高基數標簽查詢等。垂直時間序列數據庫的誕生:垂直時間序列數據庫
109、的誕生:隨著 Docker、Kubernetes、微服務等技術的發展,物聯網的發展預期越來越強烈。隨著數據隨著時間的推移不斷增長,時間序列數據是增長最快的數據類型之一。開發了高性能、低成本的垂直時序數據庫。具有時間序列特征的數據存儲引擎(InfluxDB 是典型例子)敬請閱讀末頁的重要說明 30 行業深度報告 正在興起,并且在市場上變得越來越重要。這些時序數據庫通常具有更先進的數據處理能力、更高效的壓縮算法以及更符合時序數據特性的存儲引擎。例如,InfluxDB 具有基于時間的 TSMT 存儲、Gorilla 、rate 和自動匯總等窗口函數。同時,由于架構上索引分離,這些數據庫仍然面臨著時間
110、線擴展、混亂或其他類似場景的挑戰。圖圖 25:時間序列數據庫發展簡史時間序列數據庫發展簡史 資料來源:阿里云、招商證券 時序數據庫適用領域:時序數據庫適用領域:時序數據庫經常應用于工業環境監控、物聯網 IOT 設備采集存儲、互聯網業務性能監控服務、自動駕駛等基于時間線且多源數據連續涌入數據平臺的應用場景。1)電信:上網記錄,通話記錄,用戶行為,設備監測;2)電網:智能電表,設備監測;3)銀行:交易記錄,ATM/POS 監測;4)交通物流:交通工具和集裝箱貨物的位置追蹤;5)IT 運維:服務器和業務系統的監測;6)傳統制造業:生產設備的實時監控;7)其它:所有能產生時序數據的領域。根據根據 TD
111、engine,在濤思數據時序數據庫產品,在濤思數據時序數據庫產品 TDengine 在在華自科技華自科技的應用案的應用案例中例中,華自科技旗下的物聯網數據平臺是電站及泵站智慧運維平臺的核心組成。在數據存儲上,此前其采用 MySQL 分庫分表方案來存儲歷史數據,使用 Redis來存儲實時數據,在測點數較少或者集控需求不是很多的場景下,基本滿足需求,但隨著平臺業務的發展,接入的站點越來越多,運維難、開發難、成本高等問題逐漸凸顯。為了解決這些問題,華自科技決定重新進行技術選型,升級為時序數據庫存儲方案。完成改造遷移后,數據存儲周期由原來的 5 分鐘減少到 1 秒鐘,存儲的數據維度更精細了,能為平臺的
112、智能診斷、智能分析服務提供更準確的數據支持,同時各業務場景下的計算查詢性能得到提升,數據庫服務器由原來的 6 臺減少到目前的 3 個節點集群。蒼穹數碼蒼穹數碼 x TDengine 案例:案例:在地災專業監測物聯網平臺項目中,首先需要解決的就是海量時序數據的存儲和計算問題,其有著體量大、時間長,寫入、查詢要求高等特點,傳統關系型數據庫已經無法滿足實時寫入與高性能查詢要求。該項目在 2018 年創建之初采用的是大型企業級數據庫 Oracle,目前已經無法滿足實時寫入與高性能查詢要求,特別是當雨季來臨,傳感器數據采集頻率提高到秒級、毫秒級別,數據入庫就會阻塞,效率非常低下。蒼穹數碼選擇接入 TDe
113、ngine 以解決海量時序數據的存儲和計算問題。敬請閱讀末頁的重要說明 31 行業深度報告 圖圖 26:TDengine 在物聯網監測平臺中的數據采集側在物聯網監測平臺中的數據采集側架構圖架構圖 圖圖 27:TDengine 的存儲是從空間與時間兩個維度進行分的存儲是從空間與時間兩個維度進行分層分級存儲層分級存儲 資料來源:TDengine 公眾號、招商證券 資料來源:TDengine 公眾號、招商證券 根據根據 DB-Engines,InfluxDB 為目前最為目前最主流的時序數據庫之一,國內對標廠商主流的時序數據庫之一,國內對標廠商包括包括 DolphinDB(智臾科技)、(智臾科技)、T
114、Dengine(濤思數據)、(濤思數據)、TSDB(阿里云)(阿里云)等。等。InfuxDB 專為時序數據存儲而生,智能制造應用潛力巨大。專為時序數據存儲而生,智能制造應用潛力巨大。時序數據庫經常應用于工業環境監控、物聯網 IOT 設備采集存儲、互聯網業務性能監控服務、自動駕駛等基于時間線且多源數據連續涌入數據平臺的應用場景。InfuxDB 專為時序數據存儲而生,尤其是在工業領域的智能制造方面應用潛力巨大。InfuxDB 是一個由是一個由 InfuxData 公司于公司于 2013 年開發的開源分布式時間序列數據年開發的開源分布式時間序列數據庫庫,其設計意圖就是為了能夠存儲帶有大量時間戳的數據
115、,例如物聯網設備、自動駕駛汽車產生的數據等,InfluxDB 致力于對這些數據進行海量的寫入以及高負載查詢,由于是由 Go 語言開發,無須外部依賴,安裝配置十分便捷,被廣泛用于存儲系統的監控數據等領域,成為目前主流的時序數據庫之一。InfluxData 公司成立于 2012 年 1 月,其創始人 Paul Dix 和 Todd Person 在2013 年開始著手 InfluxDB 的開發,之后獲得了多輪投資。發展至今,歷經了多次迭代,目前在 InfuxDB 版本中,部署方式分為單機版和集群版,單機版走開源路線。在 2016 年 3 月,InfuxData 公司宣布他們會將用于支撐 Infux
116、DB 集群水平擴展的組件作為閉源產品單獨銷售,從而為 InfluxDB 的持續開發建立一個穩定的收入來源。InfuxDB 單機版是免費使用的,關于 InfuxDB 集群版的售價可在其官網上查閱價格是隨著服務器節點和每個節點的核心數變化的。表表 15:InfluxDB 售價售價 數據節點數數據節點數 每個數據節點的核心數每個數據節點的核心數 年度訂閱價格年度訂閱價格 每秒寫入的數據點數每秒寫入的數據點數 2 2 9500 美元 75000 2 4 17000 美元 150000 超過兩個 超過四個 聯系 InfluxDB 150000 數據來源:清華大學出版社 時序數據庫 InfluxDB 簡介
117、、招商證券 得益于其高效的數據讀取存儲的能力和算法,慢慢占據主流市場。得益于其高效的數據讀取存儲的能力和算法,慢慢占據主流市場。從 2011 年年始,陸續出現了以 openTSDB、Kairos 為代表的基于分布式存儲的數據庫,其對時間進行了針對性優化,相較于之前的時序數據庫,在存儲和讀寫性能方面上有了顯著提升,但其依賴 Hadoop 和 HBase 環境,使得部署及維護成本極高。由于 openTSDB 本身的不足再加上部署維護不便,促成了低成本時序數據庫的誕生。在這場混戰中,InfluxDB 得益于其高效的數據讀取存儲的能力和算 敬請閱讀末頁的重要說明 32 行業深度報告 法,慢慢地占據了主
118、流市場。Errplane 公司在 2013 年下半年開始以開源項目的形式開始了 InfuxDB 的研發。其目的是提供一個高性能的監控以及告警的解決方案。2014 年 11 月,Errplane 公司獲得了梅菲爾德風險投資公司與 Trinity Ventures 領投的 A 輪投資,金額高達 810 萬美元。在 2015 年,Errplane 正式更名為 InfuxData,在 2016 年 9 月獲了金額高達 1600 萬美元的 B 輪投資,又于 2018 年 2 月獲得 3500 萬美元的 C 輪投資。版本不斷迭代,產品日益完善。版本不斷迭代,產品日益完善。2013 年 9 月,Errpla
119、ne 公司正式發行了InfuxDB 1.0 版本。2019 年 1 月 23 日 InfuxDB 推出了 InfuxDB 2.x 的 alpha 內部測試版,通過了二十幾個版本的迭代,到 2020 年 1 月 8 日,InfuxDB 2.0 開始推出 Beta 公開測試版,一直持續到同年 10 月,最終測試版本 v2.0.0-rc.0 正式推出。后來又推出了 v2.0.1 通用版,截至 2021 年 11 月,InfuxDB 版本已經迭代到了 v2.1.1。歷經這么多版本的迭代,InfluxDB 在用戶界面上不斷進行完善,對舊版本的 bug 進行不斷改進,并在每個版本上增加了新功能。根據 24
120、年 5 月 DB-Engines 給出的時間序列數據庫排名,InfuxDB 高居第一位。圖圖 28:時序數據庫受歡迎程度排行榜時序數據庫受歡迎程度排行榜 資料來源:DB-Engines、招商證券(標星代表國產公司)表表 16:海內外主流時序數據庫梳理:海內外主流時序數據庫梳理 產品名稱產品名稱 所屬廠商所屬廠商 開發開發時間時間 用途用途 主類型主類型 市值或融資情況市值或融資情況 公司介紹公司介紹 InfluxDB 3.0 InfluxDB 2013 開源 時序 2023 年 2 月,influxData 完成 5100 萬美元 E 輪融資;2018年InfluxDB 獲 得Sapphire
121、 Ventures 的 3500萬美元 C 輪融資;2016 年9 月融資 1600 萬美元 InfluxData:時間序列應用程序的領先平臺。致力于幫助客戶打造酷炫的產品,在更短的時間內改變他們的業務稱之為“Time to Awesome”。幫助思科、IBM 和 PayPal 等組織的開發人員使用帶時間戳的數據構建實時物聯網、分析和云應用程序。截至目前有 900K 案例,2000 商業客戶,1500 貢獻者。根據 Growjo,InfluxData 估計年收入為 30.6 百萬美元。員工人數為 203 人。Kdb Kx Systems,a division of First Derivati
122、ves plc 2018 商用 向量型、時序型-KX:世界上最快的矢量、時間序列和實時分析數據庫,客戶包括摩根士丹利、JP 摩根、瑞士聯合銀行等。根據 Growjo,Kx Systems 估計年收入為 75.6 百萬美元,員工人數為 432 人。Prometheus SoundCloud 2015 開源 時序 2020 年 2 月融資 7500 萬美元 Prometheus 將所有采集到的樣本數據按時間序列存儲在內存數據庫中,并定期將數據保存到硬盤中。需要遠程存儲來確??煽啃院?敬請閱讀末頁的重要說明 33 行業深度報告 可擴展性??蛻舭?amadeus、Argus Cyber Securi
123、ty、PingCAP等。TimescaleDB Timescale 2017 開源 時序 2018年 獲 得Benchmark Capital 1240 萬美元 A 輪融資;在 2021 年、2019 年分別完成了 4000 萬美元、1500 萬美元的融資;2022 年 2 月 完 成 了 由 Tiger Global 領投的 C 輪融資,總融資金額達到 1.8 億美元。Timescale 估 值 超 過 10 億美元。Timescale:設計用于高效處理資源密集型工作負載,如時間序列、事件和分析數據?;?PostgreSQL 構建,專家支持,無需額外收費。Timescale 為使用 Tim
124、escaleDB 的 500 多家付費客戶和社區中數萬家其他組織提供服務,客戶包括蘋果、通用電氣、IBM、微軟、特斯拉 LUCID、coinbase、Uber 等公司。根據Growjo 數據,Timescale 估計年收入為 17.6 百萬美元,公司員工人數為 126 人。TDengine 濤思數據濤思數據 2017 商業、商業、開源開源 時序時序 2020 年 1 月融資約千萬美元;2020 年 4 月融資 1000萬美元;2021 年 5 月融資4700 萬美元。投資機構包括紀源資本、紅杉中國。2020年 5 月濤思數據估值已超 3億美元。TDengine 是一款專為物聯網、工業互聯網等場
125、景設計并優化的大數據平臺。開源、云原生的時序數據庫 TDengine OSS 是 TDengine 的核心模塊,截止目前已有 412.2k 實例安裝、21.8k GitHub stars、10,000+技術社區開發者;客戶覆蓋順豐、理想、西門子、大疆等。根據企查查數據,2022 年濤思數據員工人數為 49人。DolphinDB 智臾科技智臾科技 2018 商業商業 時序時序 2021 年 1 月 A 輪融資金額數千萬人民幣,投資機構為朗瑪峰創投;2021 年 12 月 B輪融資金額 1 億元。DolphinDB 是由浙江智臾科技有限公司創立的品牌。浙江智臾科技有限公司由多位旅美博士創辦,總部設
126、于浙江杭州,并在美國設有全資子公司。公司主創團隊從 2012 年開始投入研發高性能分布式時序數據庫 DolphinDB,為海量結構化數據的快速存儲、檢索、分析及計算提供一站式解決方案。DolphinDB 憑借其卓越的性能及低廉的運維成本優勢,已被金融、物聯網及高校等領域數十家客戶所采用。根據企查查數據,智臾科技 2021 年員工人數為 47 人。Lindorm TSDB 阿里云阿里云 2017 商用商用 時序時序 BABA.N,市值約 2000 億美元 阿里云是全球領先的云計算及人工智能科技公司,為 200 多個國家和地區的企業、開發者和政府機構提供服務。2022 年,阿里巴巴云計算和互聯網基
127、礎設施/云智能組營業收入為 772.03 億人民幣,營業利潤為-51.51 億人民幣。截至 2023 年 3 月,阿里巴巴員工人數為 235216 人。數據來源:各公司官網、阿里云、招商證券(加粗的為國內企業)5、圖數據庫:適用于復雜實體聯系場景,圖數據庫:適用于復雜實體聯系場景,Neo4j 為領頭為領頭羊羊 圖數據庫:適用于海量數據的多對多的復雜實體聯系場景處理。圖數據庫:適用于海量數據的多對多的復雜實體聯系場景處理。根據信通院圖數據庫白皮書,圖數據庫以圖論為理論基礎,使用圖模型,將關聯數據的實體作為頂點(vertex)存儲,關系作為邊(edge)存儲,解決了數據復雜關聯帶來的嚴重隨機訪問問
128、題。根據墨天輪2023 年 7 月我國數據庫行業分析報告,關系型數據庫對數據模式和數據規范化有著嚴格的要求,這種要求對數據關系的查詢產生了束縛,當數據規模變大,目數據間關系隨之變得復雜時,使用關系模型檢索時需要多個表的屬性執行連接操作,數據寫入時也需考慮外鍵約束,從而導致較大的額外開銷,產生嚴重的性能問題,因此傳統關系型數據庫更適合實體聯系為一對一或一對多的應用場景。而圖數據庫則在處理復雜關系上有著天然優勢,在海量數據的多對多的復雜實體聯系場景中有著異常突出的性能表現。敬請閱讀末頁的重要說明 34 行業深度報告 圖圖 29:圖數據庫與關系型數據庫存儲模型對比圖數據庫與關系型數據庫存儲模型對比
129、資料來源:華鵬圖數據庫、招商證券 根據沙丘社區,在創鄰科技根據沙丘社區,在創鄰科技公司圖數據庫產品公司圖數據庫產品 Galaxybase 在中國移動在中國移動電信反電信反詐系統詐系統的應用案例中,的應用案例中,中國移動通信集團江西有限公司過去基于傳統的 Oracle關系型數據庫做反詐模型,因關聯查詢超慢、系統時常崩潰、模型語句冗繁等問題,反而成為反詐系統的業務痛點。經調研,江西移動發現防范打擊電信詐騙、契合圖數據庫萬物互聯,直觀表達數據之間關聯關系的特點,對關系數據的處理效率是關系型數據庫的 2-3 個數量級,同時圖數據庫還有兼容性強的特點,可以與現有數據庫對接,于是決定將傳統數據庫反詐模型向
130、圖數據庫反詐模型遷移。江西移動通過“一轉、二模、三深挖”構建基于圖數據庫的新一代反詐系統,將江西移動海量傳統關系型數據結構轉換為圖數據結構,生成“反詐圖數據庫”;將原有反詐模型轉換成圖數據庫反詐模型,同時新建圖數據庫高階反詐模型并持續迭代優化;基于圖數據庫特性,深挖涉詐號碼關聯關系,溯源打擊詐騙團伙頭目,從詐騙源頭打擊根治?;趫D數據庫的新一代電信網絡詐騙預防勸阻和溯源打擊系統具有快、準、狠的三大特點。表表 17:江西移動:江西移動反詐模型由傳統數據庫向圖數據庫遷移反詐模型由傳統數據庫向圖數據庫遷移的的三個關鍵點三個關鍵點 遷移遷移關鍵關鍵點點 具體措施具體措施 轉 將江西移動海量傳統關系型數
131、據結構轉換為圖數據結構,生成“反詐圖數據庫”,需要將每一通電話轉換為不同用戶之間連接的邊的定義。模 將現有反詐模型轉換成圖數據庫反詐模型,同時探索基于圖數據庫條件下更高階的反詐模型,持續迭代,優化識別成功率,確保有效性。深挖 通過圖數據庫“中心性”分析及可視性特定,深挖犯罪分子上線,溯源打擊詐騙團伙頭目,做到反詐根治。資料來源:江西移動、中國信通院云大所、沙丘社區、Gartner、招商證券 表表 18:江西移動:江西移動基于圖數據庫的新一代電信網絡詐騙預防勸阻和溯源打擊系統基于圖數據庫的新一代電信網絡詐騙預防勸阻和溯源打擊系統的的三大特點三大特點 三大特點三大特點 具體描述具體描述 快 涉詐號
132、碼識別、受害人預警勸阻時效性在應用圖數據庫后,從原有“小時級”提升至“分鐘級”。準 根據正常用戶的圖關系特征建立可信用戶數據庫,使圖數據模型誤判率降低 30%,同時沉淀知識圖譜,精準識別詐騙分子。狠 輕松挖掘詐騙分子之間的深度關聯關系,通過溯源打擊涉詐團伙頭目達到源頭根治的目的。資料來源:江西移動、中國信通院云大所、沙丘社區、Gartner、招商證券 圖數據庫主要發展歷程:圖數據庫主要發展歷程:根據信通院圖數據庫白皮書,自 2007 年第一款 敬請閱讀末頁的重要說明 35 行業深度報告 商用圖數據庫 Neo4j 誕生以來,圖數據庫的發展雖然不過十余年,卻已經歷了底層存儲、架構等技術方面的重大變
133、革,由最初的單機圖數據庫向分布式大規模圖數據庫發展。Graph 1.0 時代(時代(2007 年年-2010 年):小規模原生圖存儲。年):小規模原生圖存儲。以 Neo4j 為代表,采用原生圖的方式實現了圖存儲,獲得了比關系型數據庫快得多的復雜關聯數據查詢性能。OReilly 出版的圖數據庫一書中在 5000 萬點和邊的數據規模下,對比了 Neo4j 與關系型數據庫在關聯查詢的時間對比,隨著關聯關系深度的增加,關系型數據庫性能呈指數倍增長甚至無法執行,圖數據庫的優勢不言而喻。然而,當時在軟件架構設計上只支持單機部署,圖數據庫產品性能和業務擴展能力有限。Graph2.0 時代(時代(2010 年
134、年-至今)至今):分布式大規模圖存儲。分布式大規模圖存儲。隨著大數據和物聯網的蓬勃發展,數據本身的豐富程度增加,數據之間的關聯性增多,擴展性成為數據庫行業共同的痛點,分布式架構的興起催生了很多的分布式圖數據庫項目。在這一發展階段,支持分布式大規模圖存儲是關注的重點,圖存儲是否以原生的方式實現,不再是那么重要的問題,例如 OrientDB 選擇了支持原生圖存儲,自研了分布式圖數據存儲模塊,而 JanusGraph 則是在其他數據庫(Cassandra、HBase 等)之上封裝實現圖的語義。通過支持在通用硬件上進行水平擴展(Scale Out),分布式圖數據庫具備了在海量關聯關系數據的存儲與實時深
135、度查詢上絕佳的性能,但是在全圖分析等需要迭代計算的場景下仍需要結合圖處理引擎進行離線計算與分析。表表 19:Neo4j 與某關系型數據庫在關聯查詢的性能對比與某關系型數據庫在關聯查詢的性能對比 深度深度 關系型數據庫的關系型數據庫的執行時間(執行時間(s)Neo4j 的執行時間(的執行時間(s)返回的記錄條數返回的記錄條數 2 0.016 0.01 2 500 3 30.267 0.168 110 000 4 1543.505 1.359 600 000 5 未完成 2.132 800 000 數據來源:OREILLY圖數據庫、信通院圖數據庫白皮書、招商證券 高性能計算技術高性能計算技術愈加被
136、重視愈加被重視,圖數據庫建設迎來發展的黃金時代:,圖數據庫建設迎來發展的黃金時代:隨著通信技術和大數據快速發展,金融行業具有的數據資產體量劇增,數據間的關聯關系變得愈發復雜交錯。傳統的對少量、單維度、靜態化數據的分析已經難以滿足金融業數字化轉型需求。圖數據庫作為深入挖掘數據信息的有力工具,開始受到全行業的關注。圖數據庫在金融領域正式進入應用階段:圖數據庫在金融領域正式進入應用階段:根據金融業圖數據庫建設發展調研報告,當前圖數據庫在金融行業中已經獲得長足發展,但總體建設進度不一。國有大行、股份制銀行較其他類型銀行與金融機構對圖數據有更深入了解,數據應用規模更大。除一家尚處于 POC 測試階段外,
137、其他均已使用過一種及以上的圖數據庫,60%的國有大行的圖數據規模超過 10TB,圖規模超過 100 億點邊,集群規模超過 10 節點。此外,66.7%的國有大行、40.0%的股份制銀行已采購或正立項采購商業版圖數據庫。敬請閱讀末頁的重要說明 36 行業深度報告 圖圖 30:各類金融機構圖數據庫使用現狀對比:各類金融機構圖數據庫使用現狀對比 資料來源:金融業圖數據庫建設發展調研報告、招商證券 圖圖 31:不同類型金融機構圖數據庫建設規?,F狀對比:不同類型金融機構圖數據庫建設規?,F狀對比:存儲規模存儲規模 圖圖 32:不同類型金融機構圖數據庫建設規?,F狀對比:不同類型金融機構圖數據庫建設規?,F狀對
138、比:圖圖點邊數量點邊數量 資料來源:金融業圖數據庫建設發展調研報告、招商證券 資料來源:金融業圖數據庫建設發展調研報告、招商證券 圖圖 33:不同類型金融機構圖數據庫建設規?,F狀對:不同類型金融機構圖數據庫建設規?,F狀對比比:服務器節點數量服務器節點數量 資料來源:金融業圖數據庫建設發展調研報告、招商證券 圖數據庫是一種高效的分析型技術,已在金融行業多場景落地:圖數據庫是一種高效的分析型技術,已在金融行業多場景落地:根據金融業圖數據庫建設發展調研報告,已部署圖數據庫的 41 家被調研機構中,分別有 85.4%、73.2%、70.7%的機構在對公、內部管理以及零售三類業務場景中應用了圖數據庫。整
139、體來看,銀行更多將圖數據庫應用于對公業 敬請閱讀末頁的重要說明 37 行業深度報告 務,保險和證券則更加專注于內部監管等相關場景。零售場景或成為圖數據庫應用的一個增長點。圖圖 27:金融機構三大類場景中圖數據庫的應用率:金融機構三大類場景中圖數據庫的應用率 圖圖 28:不同類型金融機構三大類場景中的圖數據庫應用率不同類型金融機構三大類場景中的圖數據庫應用率 資料來源:金融業圖數據庫建設發展調研報告、招商證券 資料來源:金融業圖數據庫建設發展調研報告、招商證券 “自研應用自研應用+外采圖數據庫外采圖數據庫”是當前金融業最主流的建設路徑:是當前金融業最主流的建設路徑:根據金融業圖數據庫建設發展調研
140、報告,相對于從 0 到 1 進行圖數據庫自研,金融機構傾向將自研重心放到自己更擅長的應用領域。行級圖平臺的建設能夠高效滿足金融機構對數據資產的統一管理。報告顯示,整體上,79.6%的被調研機構規劃建設行級圖數據庫平臺,所有參與調研的國有大行與股份制銀行均表示計劃建設行級圖平臺。金融機構選擇圖數據庫產品時需要從性能、安全可控性、業務支撐度、簡單易運維、應用能力五個維度分析圖數據庫產品間的核心差異。報告顯示,當前金融業對于圖數據庫產品的技術價值關注度主要聚焦于存儲、查詢、分析能力,87.8%的被調研機構將圖數據庫的大數據處理性能看作最重要的考量指標。值得一提的是,隨著外部環境的不斷變化,金融機構對
141、安全可控提出了更高要求。48%的被調研機構將產品完全自主可控列為重要考量因素。此外,金融機構同樣對于圖數據庫廠商的業務支撐能力表現出了較高的關注度,68.4%的被調研機構認為該能力十分重要。各類金融機構普遍對圖數據庫的便捷運維性提出了要求:64.8%的被調研機構認為簡單易運維是選擇圖數據庫的重要考量因素。圖圖 29:各金融機構計劃建設行級圖平臺的占比:各金融機構計劃建設行級圖平臺的占比 圖圖 30:四個圖數據庫評估維度在金融機構采購決策中的重四個圖數據庫評估維度在金融機構采購決策中的重要性統計要性統計 資料來源:金融業圖數據庫建設發展調研報告、招商證券 資料來源:金融業圖數據庫建設發展調研報告
142、、招商證券 根據最新的根據最新的 DB-Engines 圖數據庫排行榜單,圖數據庫排行榜單,Neo4j 穩居圖數據庫領頭羊的地穩居圖數據庫領頭羊的地位,國內對標廠商包括位,國內對標廠商包括 NebulaGraph、gStore、Galaxybase 等。等。Neo4j 敬請閱讀末頁的重要說明 38 行業深度報告 發展歷程:堅定投身圖數據庫領域,領頭羊地位穩固。發展歷程:堅定投身圖數據庫領域,領頭羊地位穩固。2000 年起,市場環境主要是關系型數據庫,但隨著互聯網尤其是移動互聯網的發展,大量數據涌現,關系型數據庫已滿足不了客戶的需求。Neo4j 的創始人和初創團隊看到市場需求,并投身到圖數據庫這
143、個領域。2007 年,懷揣圖數據庫理想的 Neo4j 公司正式在瑞典成立。十幾年之后,根據 Neo4j 亞太區副總裁 Nik Vora 講話,截止21 年 Neo4j 公司已經成為全球領先的圖數據庫平臺,服務全球 400 多家企業客戶(包括空客、康卡斯特、eBay、美國宇航局、瑞銀、沃爾瑪等),坐擁數百萬社區用戶;根據 Growjo 網站數據,Neo4j 目前估計年收入為 171.6 百萬美元,員工人數為 857 人(2024 年 5 月);根據桔子 IT 網站數據,2021 年 11 月Neo4j 完成 3.9 億元的 F 輪融資,投后估值為 35 億美元??蛻糍Y源優越,主要系知識圖譜應用場
144、景??蛻糍Y源優越,主要系知識圖譜應用場景。根據 Nik Vora,Neo4j 的客戶覆蓋NASA、沃爾沃、瑞銀等強勢客戶。以 NASA 為例,NASA 有數以千計的數據中心,NASA 的科學家或工程師之前找數據非常困難,因為有太多的文檔,查找極其耗時。NASA 登陸火星項目應用了 Neo4j,創建了知識圖譜,把上億信息關聯起來,方便工程師,將項目縮短了兩年的時間,能提前完成項目并節省成本。我國很多公司也在投入和學習知識圖譜。在我國很多大型機構,知識圖譜都是非常流行的一個應用,大家投入很多的精力去學習,甚至已經開始研究知識圖譜如何幫助企業。Neo4j 在我國已經積累了很多客戶,包括來自電信、銀行
145、、金融、制造行業的領先公司。圖圖 34:Neo4j 發展歷程發展歷程 資料來源:Neo4j 官網、招商證券 圖圖 35:Neo4j 圖數據平臺圖數據平臺 資料來源:Neo4j 公眾號、招商證券 產品從圖數據庫走向圖數據平臺。產品從圖數據庫走向圖數據平臺。Neo4j 的核心產品仍然是圖數據庫,同時提 敬請閱讀末頁的重要說明 39 行業深度報告 供了開源社區版和企業版。但隨著數據的多樣性關聯性不斷豐富,以及業務需求的不斷變化,我們處理的數據復雜性和量級都在不斷增長。Neo4j 從圖數據庫演變成圖數據平臺,也是在不斷豐富產品本身和擴展交互能力,力求滿足當前對于關聯數據的豐富需求。不同的角色都可以通過
146、 Neo4j 圖數據平臺開展工作,除了開發者和 DBA 以外,還有業務分析人員、數據分析師、數據科學家,以及大數據工程師等,都可以通過他們熟悉的工具和技術,來實現基于 Neo4j圖數據平臺的工作。圖圖 36:圖數據庫受歡迎程度排行榜圖數據庫受歡迎程度排行榜 資料來源:DB-Engines、招商證券(標星代表國產公司)表表 20:海內外主流圖數據庫梳理:海內外主流圖數據庫梳理 產品名稱產品名稱 所屬廠商所屬廠商 開發時間開發時間 用途用途 主類型主類型 市值或融資情況市值或融資情況 公司介紹公司介紹 Neo4j 5.14.0 Neo4j,Inc.2007 開源 圖型 2021 年 11 月 Ne
147、o4j 完成3.9 億元的 F 輪融資,由Inovia Capital 公司領投,投后估值為 35 億美元。Neo4j 致力于培養以關系為中心的文化和協作精神。作為圖形技術的先驅,Neo4j 的使命是幫助世界理解數據。截止 21 年 Neo4j 公司已經成為全球領先的圖數據庫平臺,服務全球 400 多家企業客戶(包括空客、康卡斯特、eBay、美國宇航局、瑞銀、沃爾瑪等),坐擁數百萬社區用戶。根據 Growjo 數據,Neo4j 目前估計年收入為 171.6 百萬美元,員工人數為 857 人。Memgraph Memgraph Ltd 2017 商用 圖型 2021 年 5 月融資 934 萬美
148、元,由 Microsoft 的風險投資基金 M12 領投。Memgraph 專注于流數據的圖形計算,使小型組織能夠從“數據不堪重負”轉變為有利可圖的見解,曾經是科技巨頭獨有的分析功能現在可以通過 Memgraph 跨行業訪問。根據 Growjo 數據,Memgraph 估計年收入為 4.4 百萬美元,員工人數為 39 人。NebulaGraph v3.6.0 Vesoft Inc.2019 開源開源 圖型圖型 2020 年 11 月融資近千萬美元,投后估值 1 億美元;2022 年 9 月 15 日,開源圖數據庫 NebulaGraph 研發商杭州悅數科技有限公司獲得數千萬美元的 A 輪融資。
149、Vesoft 是一家高科技初創公司,致力于開發 NebulaGraph 數據庫,NebulaGraph 是開源的分布式圖數據庫,其目標是為全球企業提供穩定可靠的互聯網基礎技術服務。NebulaGraph 用戶包括騰訊、微信、網易等。根據企查查數據,2022 年 Vesoft 員工人數為 39 人。gStore V1.0 北京大學北京大學 2011 開源開源 圖型圖型-gStore 是由鄒磊教授領導的北京大學王選計算機所數據管理實驗室(PKUMOD)研發的,面向知識圖譜的高效圖數據庫系統。年度開源系統下載量超過 1200 次。gStore 系統提供了一鍵安裝的可下載版本、拆箱即用的云端系統和與多
150、個國產自主可控的計算平臺(鯤鵬、飛 敬請閱讀末頁的重要說明 40 行業深度報告 騰、海光、兆芯)兼容。目前 gStore 系統已經應用到了包括金融、公安、醫療、政府大數據和智能語音問答等多個領域。TuGraph 3.4.0 螞蟻集團螞蟻集團 2017 開源開源 圖型圖型 截止 2018 年 6 月,戰略投資的投后估值為 218 億元。螞蟻集團是世界領先的互聯網開放平臺,為消費者和小微企業提供普惠便捷的數字生活及數字金融服務;持續開放產品與技術,助力企業的數字化升級與協作;在全球廣泛合作,服務當地商家和消費者實現“全球收”、“全球付”和“全球匯”。服務的客戶包括支付寶、天貓、網商銀行和高德地圖等
151、。2022 年螞蟻云創數字科技(北京)有限公司的員工人數為 2550 人。數據來源:各公司官網、招商證券(加粗的為國內企業)6、鍵值數據庫:適用于快速查詢與臨時數據存儲,以鍵值數據庫:適用于快速查詢與臨時數據存儲,以Redis 為代表為代表 根據 AWS 官網,鍵值數據庫使用簡單的鍵值方法來存儲數據,該數據庫將數據存儲為鍵值對集合,其中鍵作為唯一標識符,鍵和值都可以是從簡單對象到復雜復合對象的任何內容。根據 DB-Engines,最受歡迎的鍵值數據庫為 Redis,國內鍵值數據庫產品包括TcaplusDB(騰訊云)等。根據 AWS 官網,Redis 將數據存儲在 RAM 中,可以直接從內存訪問
152、數據,在提供低延遲的響應的同時也限制了可以存儲的數據量,Redis 數據模型如下所示:圖圖 37:鍵值數據庫受歡迎程度排行榜鍵值數據庫受歡迎程度排行榜 資料來源:DB-Engines、招商證券 圖圖 38:Redis 數據模型數據模型 資料來源:AWS 官網、招商證券 根據根據 AWS 官網,鍵值數據庫的適用場景如下:官網,鍵值數據庫的適用場景如下:敬請閱讀末頁的重要說明 41 行業深度報告 會話管理:會話管理:一個面向會話的應用程序(如 Web 應用程序)在用戶登錄某個應用程序時啟動會話,并保持活動狀態直到用戶注銷或會話超時。在此期間,該應用程序會將所有用戶會話屬性存儲在主內存或數據庫中,用
153、戶會話數據可能包括個人資料信息、消息、個性化數據和主題、建議、有針對性的促銷和折扣。每個用戶會話具有唯一的標識符,除了主鍵之外,任何其他鍵都無法查詢會話數據,因此快速鍵值存儲更適合于會話數據。一般來說,鍵值數據庫所提供的每頁開銷可能比關系數據庫要小。購物車:購物車:在假日購物季,電子商務網站可能會每秒收到數十億的訂單。鍵值數據庫可以處理大量數據擴展和極高的狀態變化,同時還通過分布式處理和存儲為數百萬并發用戶提供服務。此外,鍵值存儲還具有內置冗余,可以處理丟失的存儲節點。元數據存儲引擎:元數據存儲引擎:鍵值存儲可以充當底層存儲層,以實現更高級別的數據訪問。例如可以擴展媒體和娛樂工作負載(例如實時
154、視頻流和交互式內容)的吞吐量和并發度,還可以使用玩家數據、會話歷史記錄和數百萬并發用戶的排行榜構建游戲平臺。緩存:緩存:可以使用鍵值數據庫來臨時存儲數據,以便更快地進行檢索,例如社交媒體應用程序可以存儲經常訪問的數據(新聞源內容等)。表表 21:Redis 應用案例應用案例 客戶案例客戶案例 應用場景應用場景 唯品會 redis cluster 在唯品會主要應用于后端業務,用作內存存儲服務。主要大數據實時推薦/ETL、風控、營銷三大業使用。目前唯品會在線有生產幾十個 cluster 集群,約 2 千個 instances,單個集群最大達到 250+instances。微博 微博從 2010 年
155、開始引入 Redis,現在 Redis 已經廣泛應用于微博的多個業務場景,如關系、計數、通知提醒等,目前 Redis 集群存儲超過百億記錄,每天上萬億的讀取訪問。小米 小米的 Redis 使用規模很大,現在有數萬個實例,并且每天有百萬億次的訪問頻率,支撐了幾乎所有的產品線和生態鏈公司。京東金融 R2M 是京東金融線上大規模應用的分布式緩存系統,目前管理的機器總內存容量超過 60TB,近 600 個 Redis Cluster 集群,9200 多個 Redis 實例。其主要功能包括:全 web 可視化運維、緩存集群一鍵部署、資源池統籌管理、在線擴容及快速數據遷移、多機房切換及容災、完善的監控及告
156、警、Redis API 兼容等。中國工商銀行 工商銀行通過自主研發代理轉發層、監控系統、管控系統,并基于 Redis 開源客戶端、Redis 存儲引擎、注冊中心進行二次開發,結合工商銀行 PaaS、SaaS 等平臺建設了具備云原生能力的分布式緩存平臺,為全行各級業務、技術系統提供高性能的主備異步模式、就近訪問的異地多活模式、RPO=0 的主備強一致模式和可彈性伸縮且支持多語言的直連模式四種個性化緩存服務模式。中原銀行 2020 年,中原銀行建成分布式緩存平臺,以集約化管理分布式緩存服務,降本增效的同時可以節省資源、提高專業化管理水平,使得運維成本可控并且更易于管理。資料來源:小米技術等各公司公
157、眾號、招商證券 表表 22:TcaplusDB(騰訊云)應用案例(騰訊云)應用案例 應用場景應用場景 詳細介紹詳細介紹 手游 移動游戲時間碎片化,玩家之間交互多,數據量大,全區全服和分區分服都很普遍,游戲發展變化快,運營活動多,數據存儲層對低時延要求高。TcaplusDB 采用批量操作、自動合服、不停服無損擴縮容、冷熱數據交換等技術,對手游這些特點做了針對性支持和優化。同時 TcaplusDB 對數據回檔、高可用、數據更新多等游戲數據特點也專門做了支持和優化。端游 玩家在線時間長,游戲業務生命周期較長,大部分是分區分服,數據記錄大,對低時延要求高。TcaplusDB 采用自動容災、數據分區、記
158、錄自動分包、Cache 結合高速硬盤存儲等技術,對端游這些特點做了針對性支持和優化。頁游 開服合服頻繁,一般是 7 x 24 小時不停服,瀏覽器數據緩存能力弱所以對后臺數據存儲系統要求高。TcaplusDB 采用自動合服、不停服無損擴縮容、Cache 結合高速硬盤存儲等技術,對頁游這些特點做了針對性支持和優化。社交 用戶可以自由創建數據,評論使用頻繁,內容按主題聚合,文本、鏈接、時間等字段長度比較穩定,數據活躍度按時間分布,讀多寫少。TcaplusDB 采用列表存儲、異構數據類型支持、冷熱數據交換、讀寫分離等技術,對社交這些特點做了針對性支持和優化。資料來源:騰訊云數據庫公眾號、招商證券 敬請
159、閱讀末頁的重要說明 42 行業深度報告 7、向量數據庫:大模型的記憶體,向量數據庫:大模型的記憶體,Pinecone、Milvus、Transwarp Hippo 等均具備優勢等均具備優勢 AI 大模型催生向量數據庫新應用。大模型催生向量數據庫新應用。向量數據庫簡化原本復雜的底層數據處理系統,實現數據類型形式上的統一,可以以高效達到相似性搜索,因其可以將向量的特征進行分組與引索的能力。在引索方面,高效搜索可以被向量數據庫通過各類向量操作而實現,可用的向量操作有如向量相加、相似度計算、聚類分析等。向量數據庫也可以降低儲存與計算成本,因向量數據庫可以通過向量化技術實現從高維向量到低維空間的映射。近
160、年向量數據庫的實際應用場景也因大語言模型(LLM)的發展逐漸擴大,在大語言模型中,向量數據庫可以儲存由大語言模型訓練而產生的向量嵌入(Embeddings)。向量數據庫是大模型的記憶體。向量數據庫是大模型的記憶體。GOTC 2023 大會上,Zilliz 創始人兼首席執行官星爵表示以 ChatGPT 為代表的大模型仍處于發展過程中,知識儲備十分有限,經常出現“AI 幻覺”,加上大模型的訓練成本高昂,使得大模型的應用受到諸多限制。向量數據庫作為大模型的記憶體,不僅能夠為其提供數據存儲,而且能通過數據檢索的方式讓大模型進行知識增強。在向量數據庫的加持下,大模型將變得博聞強識、成本可控。而根據 Zi
161、lliz 合伙人兼技術總監欒小凡,當下“AI 幻覺”是大模型的主要痛點之一,由于信息密度不足,大模型經常會生成一些無意義或不可信的內容。在此情況下,需要 CVP Stack(C 是 ChatGPT,即利用大語言模型實現以 ChatGPT 為代表的智能問答;V 是 Vector database,即通過向量數據庫為 ChatGPT 提供大規模的、可靠的知識庫;P 是 Prompt as code,即使用提示匹配用戶問題與來自知識庫的參考內容)。在整個 CVP Stack 中,向量數據庫扮演著重要角色,它是為 AI 而生的數據庫,Milvus 是這一賽道的奠基者與領先者。Milvus 2.0 是云
162、原生分布式的一款向量數據庫,具有百億規模的向量可擴展性,能夠實現存儲計算分離、離在線一體化等。同時,Milvus 2.0 的性能亦值得關注,它的查詢速度高于 ES 10 倍,高于主流競品 2倍,具備毫秒級延遲響應。此外,可插拔引擎、云端一體的特點也讓 Milvus 2.0成為全球領先的向量數據庫。圖圖 39:向量數據庫關鍵技術及應用場景示意圖:向量數據庫關鍵技術及應用場景示意圖 資料來源:CCSA TC601 大數據技術標準推進委員會、招商證券 愛可生云樹向量數據庫軟件(TensorDB)的目標是在以圖搜圖、視頻推薦、文本檢索與大模型私域應用等 AI 場景中,對海量非結構化數據嵌入后的高維向量
163、數據提供存儲、管理、計算的綜合能力,以滿足金融、交通、互聯網等行業對 敬請閱讀末頁的重要說明 43 行業深度報告 核心業務系統高可用性、高擴展性的要求。系統和技術的復雜性使智能制造的流程復雜性越來越大。根據深圳市金融信創攻關基地,在愛可生公司向量數據庫 TensorDB 在智能制造的領域的應用中,目前,在智能制造這樣大規模制造行業的產品研發過程中,會產生大量的產品試驗數據,這些數據是由對產品的可靠性、精確性、質量安全等多方面性能進行測試所產生的。原有的數據管理 分析 方式 已經 不能滿 足日 益發 展的 制造工 業的 業務 需求。愛可 生AI+TensorDB 解決方案為用戶帶來許多增益。表表
164、 23:愛可生:愛可生 AI+TensorDB 解決方案為用戶帶來的增益解決方案為用戶帶來的增益 主要主要增益增益 無需人工梳理,自動對紙質文檔進行 OCR 解析,并從 pdf、word 等文件中單獨解析出圖片和表格;支持對文本、圖片、表格的混合檢索或單獨檢索;支持用戶查找相似圖片 支持用戶查找相似表頭的表格。資料來源:深圳市金融信創攻關基地、招商證券 根據最新的根據最新的 DB-Engines 向量數據庫排行榜單,向量數據庫排行榜單,Pinecone 系向量數據庫中最系向量數據庫中最受歡迎的產品,國內對標廠商包括受歡迎的產品,國內對標廠商包括 Milvus、Transwarp Hippo 等
165、。等。圖圖 40:向量數據庫受歡迎程度排行榜向量數據庫受歡迎程度排行榜 資料來源:DB-Engines、招商證券(標星代表國產公司)表表 24:海內外主流向量數據庫梳理:海內外主流向量數據庫梳理 產品名稱產品名稱 所屬廠商所屬廠商 開發時開發時間間 用途用途 主類型主類型 市值或融資情況市值或融資情況 公司介紹公司介紹 Pinecone Pinecone Systems,Inc 2019 商用 向量型 23 年 4 月,Pinecone 以7.5 億美元的估值籌集了 1億美元的 B 輪融資;根據Growjo 數據,Pinecone估值為 750 百萬美元。Pinecone 的創建是為了提供構建
166、和運行最先進的 AI 應用程序所需的關鍵存儲和檢索基礎設施,創始原則是使各種規模和人工智能專業知識水平的工程團隊都能使用解決方案。根據 Growjo 數據,Pinecone 估計年收入為 26.6 百萬美元,公司員工人數為177 人。Weaviate SeMI Technologies 2019 開源 向量型 23 年 4 月,Weaviate 獲得 5000 萬美元 B 輪融資。Weaviate 的價值主張:類 Graphql 接口支持的表達查詢語法。這允許對豐富的實體數據運行探索性數據科學查詢。截至目前,Weaviate 共有超 400 萬下載量,根據 Growjo 數據,Weaviate
167、估計年收入為 12.3 百萬美元,現有員工人數為 77 人。Qdrant Qdrant 2021 開源 向量型 24 年 1 月,Qdrant 成功完成由 Spark Capital 領投的 A 輪融資,共獲得 2800萬美元。Qdrant 具有擴展過濾支持的向量相似度引擎。Qdrant 完全用Rus 語言開發,實現了動態查詢計劃和有效負載數據索引。向量負載支持多種數據類型和查詢條件。有效負載過濾條件允許用戶構建幾乎任何應該在相似性匹配之上工作的自定義業務邏輯。敬請閱讀末頁的重要說明 44 行業深度報告 根據 Crunchbase 數據,Qdrant 員工人數區間為 11-50。Milvus
168、Zilliz 2019 開源 向量型 截止 2022 年 8 月,完成1.03 億美元的 B 輪融資,戰略投資的投后估值為 3.6 億美元。Zilliz 是研發面向人工智能的新一代數據處理和分析平臺,系列產品和解決方案應用于金融、電信、安防、智慧城市電子商務等行業。根據企查查數據,Zilliz 2023 年員工人數為 4 人。Transwarp Hippo 星環科技星環科技 2023 商業 向量 已上市,星環科技-U,688031.SH,當前市值約56 億元 星環科技致力于打造企業級大數據基礎軟件,圍繞數據的集成、存儲、治理、建模、分析、挖掘和流通等數據全生命周期提供基礎軟件與服務,構建明日數
169、據世界。目前公司產品已經在十幾個行業應用落地,擁有超過 1400 家終端用戶。2023 年,星環科技營業收入為 4.91 億元,營業利潤為-2.89 億元,員工人數為1193 人。TensorDB 愛可生愛可生 商業 向量 截止 2021 年 2 月,戰略投資的投后估值為 8 億元 愛可生是國內知名的分布式數據庫、開源數據庫解決方案提供商,堅持自主研發,技術獲得多方認證,提供企業私有化部署。根據企查查,愛可生 2022 年員工人數為 144 人。數據來源:各公司官網、招商證券(加粗的為國內企業)Pinecone Pinecone 發展歷程:發展歷程:Pinecone 是向量數據庫領域的早期探索
170、者之一,成立于2019 年,其創建是為了提供構建和運行最新 AI 應用程序所需的關鍵存儲和檢索基礎架構。Pinecone 更新迭代至今,能適用于廣泛的應用程序:包括語義文本搜索、生成問答、混合搜索和圖像相似度搜索;并且擁有運行成本低、完全托管、快速處理大量數據等特點。圖圖 29 Pinecone 發展歷程發展歷程 資料來源:Pinecone 公司官網、招商證券 與與 OpenAI 達成合作,實現快速可擴展的向量搜索達成合作,實現快速可擴展的向量搜索。Pinecone 與 OpenAI 達成合作,專為 OpenAI 的 GPT-4 等大型語言模型(LLMs)提供長期記憶服務:用戶可以通過 Ope
171、nAI 的 Embedding API 生成語言嵌入,然后在 Pinecone 中為這些嵌入建立索引,以實現快速且可擴展的向量搜索。Pinecone 還與 Cohere 等LLM 生成商達成合作,如今已有 1500 個客戶。根據公司官網和 Growjo,截至目前,Pinecone 付費客戶超過 200 名,其中包括 Workday、Xandr(Microsoft)、Gong、Course Hero、BambooHR、Expel和 Zapier 等等;Pinecone 目前使用數量正在快速上升,Pinecone 的免費計劃每天有超過 1 萬個注冊,并且在增長迅速中;Pinecone 估計年收入目
172、前為 26.6百萬美元,估值為 7.5 億美元。Milvus(Zilliz)Milvus 是全球首家以“向量數據庫”命名的非結構化數據項目是全球首家以“向量數據庫”命名的非結構化數據項目,由商業公司Zilliz 進行運營支持。截至目前,Milvus 已得到全球上千家企業級用戶的信賴,包括 NVIDIA、eBay、Shopee、Walmart、快手、宜家等,最大部署規模超過10 億向量。同時,在很多應用場景下,Milvus 的 QPS 超過 10K。敬請閱讀末頁的重要說明 45 行業深度報告 Milvus 典型的應用場景包括:典型的應用場景包括:在長文本領域,可以進行翻譯、問答、語義檢索、情感分
173、析,語義檢索和問答可以與 ChatGPT 配合使用,提升其回答的準確度;在圖片領域可以進行去重、目標檢測、圖片檢索、多模態的圖文互搜;在視頻領域進行推薦、合規檢測、分類等。以及眾多新興的應用場景,以及眾多新興的應用場景,包括在生物制藥領域把生物分子式轉化成向量,判斷生物小分子與蛋白質能否緊密結合;在音頻領域進行去重、情感分析;在風控領域識別潛在的風險;在自動駕駛領域可以通過向量檢索幫助自動駕駛找出實時判斷過程中沒有分析出來的物體。四四、部署方式:、部署方式:“云化云化”為大勢所趨為大勢所趨 根據根據 CCSA TC601 大數據技術標準推進委員會,云被視為數字化轉型的高度大數據技術標準推進委員
174、會,云被視為數字化轉型的高度戰略性平臺,云計算成為數據庫發展的重要驅動力。戰略性平臺,云計算成為數據庫發展的重要驅動力。數據庫產品及生態工具上云成為趨勢,從全球范圍看,目前,Elasticsearch、MongoDB、Databricks、Snowflake 等數據庫廠商,已與微軟、谷歌、亞馬遜、阿里云、騰訊云、Clever CloudAiven 等公有云廠商開展合作。從國內范圍看,近兩年部分數據庫產品及生態公司如新數科技 ShinData DMP、沃趣科技 OFusion、飛輪科技SelectDB、玫章算術 Ninedata、濤思數據 TDengine、悅數科技 NebulaGraph等,已
175、與阿里云、華為云聯合推出 DBaaS 版本,持續完善公有云數據庫產品及運維體系,為用戶搭建高效、便捷、安全的數據庫云生態應用場景服務。我們將部分具有實力的早期巨頭型獨立數據庫廠商,通過轉型云運營商成為了除獨立數據庫廠商、云計算運營商兩類陣營外的第三陣營,各陣營所采取的云化布局和戰略簡要歸納對比如下:表表 25:各類關系型各類關系型/非關系型數據庫主流廠商均推出非關系型數據庫主流廠商均推出 Cloud 版本版本 類別類別 發力方向發力方向 戰略目標戰略目標 廠商廠商 Cloud 版本版本 獨立數據庫廠商 云托管模式、云原生技術改進、多云與跨云部署(如 MongoDB 本地版本、公有云版本及Mon
176、goDB Atlas 多云管理平臺)本地部署產品向私有云部署和公有云運營商同時滲透:一方面支持私有云技術生態,占據本地部署市場優勢;另一方面實現線下自主銷售+線上與不同云運營商分成的模式 人大金倉 KRDS(Kingbase Relational Database Service)MongoDB MongoDB Atlas 云計算運營商 云數據庫的本地化部署模式(如 PolarDB for PostgreSQL 提供本地部署方式指導和下載)自有云平臺線上銷售自有品牌數據庫,同時輸出產品到線下侵占本地化市場 Amazon Amazon Aurora、Amazon DocumentDB、Amazo
177、n DynamoDB、Amazon ElastiCache、Amazon Keyspaces、Amazon MemoryDB for Redis、Amazon RDS、Amazon Redshift、Amazon Amazon Neptune、Amazon Timestream 阿里云 關系型:云原生數據庫 PolarDB MySQL 版、云原生數據庫 PolarDB PostgreSQL 版、云原生數據庫 PolarDB 分布式版、云數據庫 RDS MySQL版、云數據庫 RDS PostgreSQL 版、云數據庫 RDS SQL Server 版、云數據庫 RDSMariaDB 版;非關系
178、型:云數據庫 Redis 版、云原生內存數據庫 Tair、云原生多模數據庫Lindorm、云數據庫 MongoDB 版 由獨立數據庫廠商向云計算運營商轉型的廠商 自建云平臺,并打造本地數據庫產品的云化分支(如 SQLServer 與 Azure SQL)實現數據庫廠商+云運營商雙重身份共存,線上線下市場共存且互為支撐 Oracle Oracle DatabaseAzure、Oracle Autonomous Database、Exadata Database Service、MySQL HeatWave Database Service、Oracle Base Database Service
179、 Microsoft Azure SQL DB、Azure Cosmos DB、Azure Database for PostgreSQL、Azure Database for MySQL、Azure Cache for Redis2、Azure Database for MariaDB 華為云 關系型數據庫:云數據庫 GaussDB、云數據庫 GaussDB(for MySQL)、云數據庫 RDS for MySQL、云數據庫 RDS for PostgreSQL、云數據庫 RDS for SQLServer、云數據庫 RDS for MariaDB;非關系型數據庫:云數據庫 GaussDB
180、(for Cassandra)、云數據庫GaussDB(for Mongo)、云 數 據 庫GaussDB(for Redis)、云 數 據 庫GaussDB(for Influx)、文檔數據庫服務 DDS 資料來源:各公司官網、招商證券 DBaaS 提供彈性靈活的數據庫管理解決方案,助力企業降本增效。提供彈性靈活的數據庫管理解決方案,助力企業降本增效。DBaaS 模式最早由亞馬遜提出,隨后 Oracle、MongoDB、微軟、谷歌、阿里巴巴、SAP、敬請閱讀末頁的重要說明 46 行業深度報告 Redis Labs、IBM、騰訊、EnterpriseDBRackspace 等供應商紛紛推出相關
181、服務。隨著建立和管理多云環境正在成為國外用戶趨勢,互有競爭關系的甲骨文和微軟甚至聯合推出 Oracle Database Service for Azure,旨在為其共同客戶的應用遷移上云降低復雜性,更是為 OCI(Oracle Cloud Infrastructure)在 DBaaS方面與 AWS 的競爭提供支撐。根據 Forrester 調查數據,33%的全球基礎設施業務決策者已經在生產環境中部署 DBaaS 版本。企業支持的使用場景類型已大大增加,不僅限于簡單的測試、開發和備份,更擴大到錯綜復雜的客戶體驗、物聯網、移動和大數據等應用領域。未來,DBaaS 將與其它技術更加深入融合。隨著
182、DBaaS 技術的普及和成熟,DBaaS 供應商逐步提供一些創新功能。例如通過人工智能技術實現數據庫部署、運維、管理全流程的自動化,減少人為干預的同時加快部署,幫助企業迅速構建和支持龐大且更復雜的業務應用程序和操作型系統。以無服務器架構以無服務器架構(Serverless)為核心計算范式的云原生技術飛速發展,云原生為核心計算范式的云原生技術飛速發展,云原生數據庫取得不斷進步。數據庫取得不斷進步。越來越多的云原生數據庫通過存儲計算分離架構,實現資源池化和極致彈性,具備高擴展性高可用性、跨地域規模、低成本等優勢,可為用戶提供真正具備秒級智能彈性擴容能力、隨需而動的云原生數據庫服務。云原生數據庫 S
183、erverless 關鍵技術以底層池化資源為基礎,利用 RDMA 高性能網絡高效管理、使用物理資源實現資源池化及彈性擴展、高可用、高性能、低成本的 Serverless 能力。Serverless 服務大部分以 API 形式提供,無需運維同時用戶也無需關注后端使用情況。服務還能實現是實時彈性擴縮容,用戶可以像使用自來水一樣按使用量進行付費。最初的云數據庫主要是模仿線下數據庫使用方式,為用戶提供數據庫托管服務。但云上主機的型號選擇并不靈活,很難根據用戶業務及資源需求進行協調。云原生數據庫計算和存儲分離的架構很好地解決了這一問題,這也是數據庫 Serverless 化基礎。目前存在一些Server
184、less 數據庫在架構上分為三層,即接入層、計算層和存儲層。圖圖 41:一種計算、內存、存儲三層解耦架構示意圖一種計算、內存、存儲三層解耦架構示意圖 資料來源:Serverless 數據庫技術研究報告、CCSA TC601 大數據技術標準推進委員會、招商證券 公有云廠商發布數據管理服務助力數據價值不斷放大,數據庫企業收購初創公公有云廠商發布數據管理服務助力數據價值不斷放大,數據庫企業收購初創公司布局司布局 IDE 生態。生態。2022 年 12 月,亞馬在 re:Invent 全球大會上推出數據管理服務 Amazon DataZone,旨在讓客戶更快更輕松地對存儲的數據進行編排、發現、共享和治
185、理。阿里云推出 DMS 產品提供一站式全鏈路數據管理與服務,進一步 敬請閱讀末頁的重要說明 47 行業深度報告 釋放云原生技術紅利。2020 年至今,MongoDB、Databricks 和 ClickHouse 分別先后收購數據庫生態工具廠商 Compass、Redash 和 Arctype。國內PingCAP 創始人也投資了數據庫開發工具企業 Bytebase。各廠商著力打造自己的數據庫 IDE,不斷提升用戶的數據庫使用體驗。根據 statista 統計,2009 年-2022 年企業在云和數據中心上的支出逐年提升,22 年云支出高達 2250 億美元。根據 statista 對 750
186、名受訪者的調查,截止2023 年底,56%的受訪者表示使用數據倉庫,其次是 DBaaS 關系數據庫??傮w而言,可以看到云提供商的平臺即服務(PaaS)產品的使用量有所增加。圖圖 42:2009 年至年至 2022 年企業在云和數據中心上的支出年企業在云和數據中心上的支出(單位單位:十億美元十億美元)資料來源:statista、招商證券 圖圖 43:2023 年全球公有云服務使用情況年全球公有云服務使用情況 資料來源:Flexera Software、statista、招商證券 0501001502002503002009 2010 2011 2012 2013 2014 2015 2016 2
187、017 2018 2019 2020 2021 2022Data Center Hardware&SoftwareCloud Infrastructure Services0%10%20%30%40%50%60%70%80%90%100%DBaaS(relational)DBaaS(NoSQL)HadoopData warehouseContainer-as-a-ServiceServerless(Function-as-a-Service)CachingBatch processingSearchStream processingMachine learning/Artificial Int
188、elligenceMobile servicesPush notificationsQueueingDRaaS(DisasterRecovery-as-a-service)Edge servicesIoTCurrently usingExperimentingPlan to use 敬請閱讀末頁的重要說明 48 行業深度報告 五、需求功能:五、需求功能:存儲與分析需求驅動存儲與分析需求驅動 OLAP、HTAP技術發展,湖倉一體化前景廣闊技術發展,湖倉一體化前景廣闊 1、數據湖倉:為處理復雜數據的存儲和分析需求而誕生數據湖倉:為處理復雜數據的存儲和分析需求而誕生 根據根據 CCSA TC601湖
189、倉一體技術與產業研究報告,在存儲和分析海量數據湖倉一體技術與產業研究報告,在存儲和分析海量數據需求的推動下,數據平臺架構持續演進,經過數十年的發展,主要經歷了數據需求的推動下,數據平臺架構持續演進,經過數十年的發展,主要經歷了數據庫、數據倉庫、數據湖三個階段。庫、數據倉庫、數據湖三個階段。數據庫:數據庫:20 世紀 60 年代,企業的數據量不大且數據類型比較單一。企業對數據的使用需求主要是面向管理層從宏觀層面對公司的經營狀況做描述性分析,處理的數據為有限的結構化數據,支撐數據存儲和計算的軟件系統架構比較簡單。20 世紀 70 年代,最早出現的關系型數據庫已經得到了一定程度的應用。關系型數據庫主
190、要應用于聯機事務處理 OLTP 場景,如銀行交易等。數據倉庫:數據倉庫:隨著互聯網的快速普及,門戶、搜索引擎、百科等應用用戶快速增長,數據量呈爆發式增長,原有的單個關系型數據庫架構無法支撐龐大的數據量。20 世紀 90 年代數據倉庫理論被提出,主要是為解決單個關系型數據庫架構無法支撐龐大數據量的數據存儲問題而誕生。數據倉庫是為了對數據整合而形成的架構,核心是基于 OLTP 系統的數據源,根據聯機分析處理 OLAP 場景訴求,將數據經過數倉建模形成 ODS、DWD、DWS、DM等不同數據層,每層都需要進行清洗、加工、整合等數據開發(ETL)工作,并最終加載到關系型數據庫中。數據湖:數據湖:隨著移
191、動互聯網的飛速發展,半結構化、非結構化數據的存儲、計算需求日益突出,對數據平臺提出了新的要求。2010 年,數據湖概念被提出,數據湖是一種支持結構化、半結構化、非結構化等數據類型大規模存儲和計算的系統架構。隨著 Hadoop 技術的成熟與普及,企業開始基于Hadoop、Spark 及其生態體系中的配套工具搭建平臺處理結構化、半結構化數據,同時利用批處理引擎實現數據批處理。而以開源 Hadoop 體系為代表的開放式 HDFS 存儲、開放的文件格式、開放的元數據服務以及多種引擎(Hive、Presto、Spark 等)協同工作的模式,形成了數據湖的雛形。Hudi、Delta Lake 和 Iceb
192、erg 三大開源數據湖技術的成熟,加速了數據湖產品化落地。數據湖將數據管理的流程簡化為數據入湖和數據分析兩個階段。數據入湖即支持各種類型數據的統一存儲。數據分析則以讀取型Schema(schema on read)形式,極大提升分析效率。敬請閱讀末頁的重要說明 49 行業深度報告 圖圖 44:數據平臺發展歷程:數據平臺發展歷程 資料來源:CCSA TC601 大數據技術標準推進委員會、招商證券 表表 26:數據湖與數據倉庫對比表:數據湖與數據倉庫對比表 差異項差異項 數據湖數據湖 數據倉庫數據倉庫 數據類型數據類型 所有數據類型 歷史的、結構化的數據 Schema 讀取型 Schema 寫入型
193、 Schema 計算能力計算能力 支持多計算引擎用于處理、分析所有類型數據 處理結構化數據,轉化為多維數據、報表,以滿足后續高級報表及數據分析需求 成本成本 存儲計算成本低,使用運維成本高 存儲計算綁定、不夠靈活、成本高 數據可靠性數據可靠性 數據質量一般,容易形成數據沼澤 高質量、高可靠性、事務隔離性好 擴展性擴展性 高擴展性 擴展性一般,擴展成本高 產品形態產品形態 一種解決方案,配合系列工具實現業務需求,靈活性更高 一般是標準化的產品 潛力潛力 實現數據的集中式管理,能夠為企業挖掘新的運營需求 存儲和維護長期數據,數據可按需訪問 資料來源:CCSA TC601 大數據技術標準推進委員會、
194、招商證券 此前多采用此前多采用“數據湖數據湖+數據倉庫數據倉庫”混合架構,存在較大弊病?;旌霞軜?,存在較大弊病。為滿足多種數據類型存儲、多場景分析等業務訴求,企業的數據平臺采用混合部署模式,數據湖、數據倉庫、關系型數據庫等多種架構并存,其中數據湖和數據倉庫通過 ETL 進行數據交換。數據湖和數據倉庫是兩套獨立的體系,其中數據湖基于 Hadoop 技術生態(HDFS、Spark、Flink 等技術)來實現,主要用于支撐多源異構的數據存儲,執行批處理、流處理等工作負載。數據倉庫主要基于 MPP 或者關系型數據庫來實現,主要支撐結構化數據在 OLAP 場景下的 BI 分析和查詢需求?;旌霞軜嫷哪J綍?/p>
195、帶來數據冗余,增加存儲成本;兩個系統間額外的 ETL(抽取、轉化、加載)流程導致時效性差;數據一致性保障低,增加數據校驗成本;混合架構復雜,開發運維難度大、成本高等弊端。湖倉一體技術應運而生。湖倉一體技術應運而生。2020 年 Databricks 提出“湖倉一體”概念,隨著云計算的深入應用,以容器、DevOps、微服務等為代表的云原生技術與大數據技術進一步深度融合,采用存算分離架構,同時利用云原生的資源彈性擴縮容、按需分配特點實現了資源進一步集約化,進而降低成本,同時促進了湖倉一體技術的興起。湖倉一體是指融合數據湖與數據倉庫的優勢,形成一體化、開放式數據處理平臺的技術。通過湖倉一體技術,可使
196、得數據處理平臺底層支持多數據類型統一存儲,實現數據在數據湖、數據倉庫之間無縫調度和管理,并使得上層通過統一接口進行訪問查詢和分析。敬請閱讀末頁的重要說明 50 行業深度報告 圖圖 45:湖湖+倉混合架構圖倉混合架構圖 圖圖 46:湖倉一體架構模塊圖湖倉一體架構模塊圖 資料來源:CCSA TC601 大數據技術標準推進委員會、招商證券 資料來源:CCSA TC601 大數據技術標準推進委員會、招商證券 2、湖倉一體化代表廠商:湖倉一體化代表廠商:Databricks、Snowflake 崛起之崛起之路復盤路復盤 根據 CCSA TC601湖倉一體技術與產業研究報告,湖倉一體技術路線的代表產品包括
197、 Databricks、Snowflake、阿里云 MaxCompute 和亞馬遜 Redshift等。表表 27:湖倉一體主要廠商和代表產品湖倉一體主要廠商和代表產品 廠商廠商 湖倉一體湖倉一體 Lakehouse Platform Snowflake AWS 智能湖倉 MaxCompute/Hologres 湖倉一體 FusionInsight MRS 云原生數據湖 云原生智能數據湖 資料來源:CCSA TC601 大數據技術標準推進委員會、招商證券 Databricks 數據湖中支持數倉的功能主要是通過功能性開發實現,如多版本并發控制、自適應 Schema、提供文件級事務等來實現數倉功能
198、,這類產品以 Databricks 的DeltaLake、Uber 的 Apache Hudi 等為代表。發家背景:發家背景:根據 Databricks 官網,Databricks 是 ApacheSpark 背后的商業公司,美國科技獨角獸,起源于學術界和開源社區。2013 年由 ApacheSpark、DeltaLake 和 MLflow 的原始創建者創立,總部位于美國舊金山,致力于提供基于 Spark 的云服務。Databricks 在世界各地設有辦事處,擁有數百家全球合作伙伴,包括 Microsoft、Amazon、Tableau、Informatica、Capgemini 和BoozA
199、llenHamilton,其使命是簡化數據和 AI 并使之民主化,幫助數據團隊解決世界上最棘手的問題。作為世界上第一個也是唯一一個云中的湖倉一體平臺,Databricks 結合了最好的數據倉庫和數據湖,為數據和 AI 提供了一個開放、統一的平臺。敬請閱讀末頁的重要說明 51 行業深度報告 Databricks 起源起源于支持開源于支持開源 Apache Spark 的數據湖的數據湖。Databricks 成立于2013 年,是一個基于數據湖的云數據平臺,專注于數據科學和機器學習應用。Databricks 平臺的核心組件包括數據湖(存儲引擎)、Delta Lake(處理引擎)以及 Unity C
200、atalog(用于數據治理和安全管理的引擎)。所有這些組件都構建在云平臺(如 AWS 或 Azure)的基礎之上。Databricks 建立在三個核心開源系統(Apache Spark、Delta Lake 和 MLflow)上,并且支持包括 SQL 的多種編程語言。從 Delta Lake 到 Delta Sharing,Databricks 的所有關鍵產品線都可以免費使用。同時客戶可以選擇使用 Databricks 的企業級產品以獲得更高級的功能和支持。這樣開放的系統為 Databricks 積累了強大且忠實的工程師社區支持。Databricks 從簡單的數據湖逐步發展為廣泛的數據湖倉庫。
201、從簡單的數據湖逐步發展為廣泛的數據湖倉庫。數據湖倉庫把面向企業的數據倉庫技術與數據湖存儲技術相結合,避免傳統的數據湖、數據倉庫之間的數據移動,將原始數據、加工清洗數據、模型化數據,共同存儲于一體化的“湖倉”中,既能面向業務實現高并發、精準化、高性能的歷史數據、實時數據的查詢服務,又能承載分析報表、批處理、數據挖掘等分析型業務。ETL 能夠將未經規整的數據湖層數據轉換成數倉層結構化的數據,在數據湖倉庫的構建中起了非常重要的作用。發展歷程:發展歷程:2017 年,DataBricks 與微軟合作推出 AzureDatabricks。2020 年,DataBricks 公司首次提出了湖倉一體(Dat
202、aLakehouse)概念,希望將數據湖和數據倉庫技術合而為一,此概念一出各路云廠商紛紛跟進。2023 年 7 月,Databricks 宣布收購大模型企業 MosaicML,此次收購后 Databricks 將可為企業提供統一的平臺來管理數據資產,并且能夠使用自己的專有數據來構建、擁有和保護自己的生成式 AI 模型。2023 年 9 月 14 日 Databricks 宣布在 I 輪融資中籌集了超過 5 億美元資金,Databricks 的估值已達到 430 億美元。截至 2024年 1 月底,Databricks 表示其年收入突破 16 億美元,同比增長 50%+。根據Growjo,公司員
203、工人數為 8883 人。產品及客戶:產品及客戶:根據 Databricks 官網,如今,全球有 9,000 多家組織(包括荷蘭銀行、康泰納仕、再生元和殼牌)依靠 Databricks 來實現大規模數據工程、協作數據科學、全生命周期機器學習和業務分析,主要產品涉及 Databricks 共享和統轄平臺、人工智能、馬賽克 ML、數據管理、數據倉庫、實時分析、數據工程、數據科學等多個方面。例如:DatabricksLakehouse 幫助 AT&T 在運營中加速 AI,包括將欺詐減少 70%-80%,減少客戶流失并增加 CLV;殼牌將Databricks 用作現代商業智能工具,幫助公司轉向數據和人工
204、智能來提高運營效率,通過能源解決方案進行創新,打造更清潔的世界;荷蘭銀行通過DatabricksLakehouse 將數據和 AI 付諸行動,在全球范圍內實現銀行業轉型;Rolls-Royce 通過使用 DatabricksLakehouse 的實時數據收集來減少碳排放,為航空旅行帶來更綠色的未來;USPSOIG 通過 DatabricksLakehouse 為數百萬人提供高效的郵政服務;Walgreens 使用 DatabricksLakehouse 創建了一個智能數據平臺,該平臺能夠在其近 9,000 家藥房的網絡中預測需求并重新分配藥物,同時為藥劑師提供近乎實時的見解和建議,以幫助為患者
205、提供更個性化的建議。敬請閱讀末頁的重要說明 52 行業深度報告 圖圖 47:Databricks 解決方案解決方案 資料來源:Databricks AI Summit、招商證券 圖圖 48:Databricks 發展歷程發展歷程 資料來源:Databricks、招商證券 Snowflake Snowflake 將存儲和計算功能分離是區別于傳統數倉最大的技術革新。將存儲和計算功能分離是區別于傳統數倉最大的技術革新。Snowflake 成立于 2012 年,由一些不滿意 Oracle 的架構師所創立。公司最初提供云數據倉庫服務,用于存儲數據和運行分析計算工作負載。傳統數倉無法實現存儲和計算單獨拓展
206、,而 Snowflake 存算分離架構實現“不影響數據庫(存儲層)工作狀態的條件下,根據需求動態匹配計算資源”。沒有查詢語句執行時,可徹底“關閉”計算資源,減少資源浪費。Snowflake 從單一數據倉庫產品向數據融合、智能實時分析等方向拓展,不斷從單一數據倉庫產品向數據融合、智能實時分析等方向拓展,不斷朝著數據云一體化方向進化。朝著數據云一體化方向進化。Snowflake 打破傳統數據倉庫發展桎梏,持續提升產品能力。根據最新的 Gartner 云數據管理系統(Cloud DBMS)魔力象限統計,Snowflake 的技術創新加速行業升級變革,和 Databricks一起成功由 2020年的挑
207、戰者升級為 2021 年的領導者。Snowflake 于 2014 年推出云數據倉庫產品,實現數據高效存儲和計算;2019 年數據倉庫進化為云數據平臺,實現數據的合并、分析等功能;2020 年云數據平臺升級為可看作生態系統的數據云,用戶、合作伙伴、數據提供者可在 Snowflake 平臺內緊密交互,深度挖掘數據價值,實現數據分析和決策。敬請閱讀末頁的重要說明 53 行業深度報告 圖圖 49:2021 年年 Snowflake、Databricks 成功升級為云成功升級為云DBMS 的領導者的領導者 圖圖 50:Snowflake 平臺的演化:從單一軟件到生態系統平臺的演化:從單一軟件到生態系統
208、的初步蛻變的初步蛻變 資料來源:Gartner、招商證券 資料來源:Gartner、Snowflake 招股說明書、招商證券 風險提示風險提示 技術創新不及預期:技術創新不及預期:數據庫行業面臨上云、分布式架構、圖數據庫、向量數據庫、搜索數據庫、向量數據庫等數據庫領域技術創新,若技術發展不及預期,可能會導致行業發展受影響。行業競爭加?。盒袠I競爭加?。簲祿煨袠I玩家眾多,包括云廠商、傳統數據庫廠商、初創廠商等,可能導致未來競爭加劇,對行業發展產生不利影響。大數據、大模型等發展不及預期:大數據、大模型等發展不及預期:大數據和大模型的發展是非關系型、OLAP 等技術發展的重要驅動力,如果未來大數據和
209、大模型產業發展不及預期,可能對數據庫發展產生影響。敬請閱讀末頁的重要說明 54 行業深度報告 分析師承諾分析師承諾 負責本研究報告的每一位證券分析師,在此申明,本報告清晰、準確地反映了分析師本人的研究觀點。本人薪酬的任何部分過去不曾與、現在不與,未來也將不會與本報告中的具體推薦或觀點直接或間接相關。評級說明評級說明 報告中所涉及的投資評級采用相對評級體系,基于報告發布日后 6-12 個月內公司股價(或行業指數)相對同期當地市場基準指數的市場表現預期。其中,A 股市場以滬深 300 指數為基準;香港市場以恒生指數為基準;美國市場以標普 500 指數為基準。具體標準如下:股票評級股票評級 強烈推薦
210、:預期公司股價漲幅超越基準指數 20%以上 增持:預期公司股價漲幅超越基準指數 5-20%之間 中性:預期公司股價變動幅度相對基準指數介于 5%之間 減持:預期公司股價表現弱于基準指數 5%以上 行業評級行業評級 推薦:行業基本面向好,預期行業指數超越基準指數 中性:行業基本面穩定,預期行業指數跟隨基準指數 回避:行業基本面轉弱,預期行業指數弱于基準指數 重要聲明重要聲明 本報告由招商證券股份有限公司(以下簡稱“本公司”)編制。本公司具有我國證監會許可的證券投資咨詢業務資格。本報告基于合法取得的信息,但本公司對這些信息的準確性和完整性不作任何保證。本報告所包含的分析基于各種假設,不同假設可能導
211、致分析結果出現重大不同。報告中的內容和意見僅供參考,并不構成對所述證券買賣的出價,在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議。除法律或規則規定必須承擔的責任外,本公司及其雇員不對使用本報告及其內容所引發的任何直接或間接損失負任何責任。本公司或關聯機構可能會持有報告中所提到的公司所發行的證券頭寸并進行交易,還可能為這些公司提供或爭取提供投資銀行業務服務??蛻魬斂紤]到本公司可能存在可能影響本報告客觀性的利益沖突。本報告版權歸本公司所有。本公司保留所有權利。未經本公司事先書面許可,任何機構和個人均不得以任何形式翻版、復制、引用或轉載,否則,本公司將保留隨時追究其法律責任的權利。