大數據技術標準推進委員會:數據庫發展研究報告(2023年)(53頁).pdf

編號:131515 PDF  DOCX 53頁 3.90MB 下載積分:VIP專享
下載報告請您先登錄!

大數據技術標準推進委員會:數據庫發展研究報告(2023年)(53頁).pdf

1、數據庫發展研究報告(2023 年)CCSACCSA T TC601C601 大數據大數據技術技術標準推進標準推進委員會委員會20232023年年7 7月月版版權權聲聲明明本報告版權屬于本報告版權屬于 CCSA TC601 大數據技術標準推進委大數據技術標準推進委員會員會,并受法律保護并受法律保護。轉載轉載、摘編或利用其它方式使用本報摘編或利用其它方式使用本報告文字或者觀點的,應注明告文字或者觀點的,應注明“來源:來源:CCSA TC601 大數據技大數據技術標準推進委員會術標準推進委員會”。違反上述聲明者,本院將追究其相關。違反上述聲明者,本院將追究其相關法律責任。法律責任。編寫委員會本報告的

2、撰寫得到了數據庫領域多家企業與專家的支持和幫助,主要參與單位與人員如下。主要編寫單位主要編寫單位(排名不分先后):大數據技術標準推進委員會、中移動信息技術有限公司、華夏銀行股份有限公司、北京科藍軟件系統股份有限公司、星環信息科技(上海)股份有限公司、天謀科技(北京)有限公司、云和恩墨(北京)信息技術有限公司、阿里云計算技術有限公司、華為云計算技術有限公司、深圳計算科學研究院、訊飛智元信息科技有限公司、中興通訊股份有限公司、浪潮云信息技術股份公司、上海沄熹科技有限公司、浙江創鄰科技有限公司、杭州沃趣科技股份有限公司、廣州巨杉軟件開發有限公司、天津南大通用數據技術股份有限公司、北京人大金倉信息技術

3、股份有限公司、北京海致星圖科技有限公司、上海愛可生信息技術股份有限公司、成都虛谷偉業科技有限公司、上海熱璞網絡科技有限公司、騰訊云計算(北京)有限責任公司、螞蟻科技集團股份有限公司、螞蟻區塊鏈科技(上海)有限公司、北京庚頓數據科技有限公司、湖南亞信安慧科技有限公司、蘇州庫瀚信息科技有限公司、北京思斐軟件技術有限公司、上海新炬網絡信息技術股份有限公司、北京九章云極科技有限公司、深圳矩陣起源科技有限公司、武漢達夢數據庫股份有限公司、四川蜀天夢圖數據科技有限公司、武漢達夢數據技術有限公司、北京達夢數據庫技術有限公司、北京萬里開源軟件有限公司、北京奧星貝斯科技有限公司、杭州拓數派科技發展有限公司、貴州

4、易鯨捷信息技術有限公司。編寫組主要成員編寫組主要成員(排名不分先后):劉思源、齊丹陽、劉蔚、馬嘉慧、馬鵬瑋、閆樹、姜春宇、魏凱、袁暢、邢韋川、鄭鴻健、楊明珉、鄭展奮、趙春陽、徐珂、胡捷、王輝、陳曦、林海、田亮、鄭貴德、郭帆、魏晗清、雷天洋、劉磊、吳豐澤、張星宇、喬嘉林、劉海、秦楚晴、黃向東、李軼楠、江寧、楊俊、張鵬志、王斌、謝炯、宋震、黎火榮、汪晟、陳吉強、劉穎男、馮程、朱松、樊文凱、張亞楠、隋景鵬、何睿、郭亮、陳偉紅、楊銳、王義寅、王龍、黃佩、蔣昀豈、倪修峰、王慧敏、張曉陽、呂作晶、魏星、齊學成、韓銀俊、王陽、劉剛、陳家偉、鄧光超、金寧、周幸駿、苑曉龍、張晨、周研、馬超、魏興華、李春、張文件

5、、吳炎、樊耀文、許建輝、武赟、楊上德、史新龍、馮文忠、白雪、王薇、賈欣泉、張俊峰、張秋舉、胡一鳴、楊娟、沈游人、劉藝華、路新英、黃炎、蘇鵬、明玉琢、蘇德財、郭家文、江培鋒、姜維瑩、朱飛、陳亮、蘇強、胡一鶴、崔安頎、林恒、郭智慧、吳曉晨、李陽、蔣志勇、徐巖、梁召遠、王晉暉、賈孝芬、張樺、呂亞寧、顧鴻翔、楊國華、王磊、張遠康、張亮、韓鋒、潘娟、程永新、梁銘圖、黃國標、郭萌萌、李慧靜、黎超、程靜、嚴恒、胡書能、王振宇、賴禧、張睿、陶天林、李莊莊、張永強、鄧亮、徐欣、萬亮、劉俊鋒、齊益琛、李楊桅、徐爽、王栩、李陽、莫荻。前前言言當前,數據正在成為重組全球要素資源、重塑全球經濟結構、改變全球競爭格局的關

6、鍵力量。數據庫作為存儲與處理數據的關鍵技術,在數字經濟大浪潮下,全球數據庫產業中新技術、新業態、新模式不斷涌現。2023 年,全球數據庫產業、技術、應用呈現如下總體發展態勢。產業方面,全球產業發展熱度持續保持高位,企業、產品數量再創新高。全球范圍內,數據庫市場規模約 833 億美元,企業共 472家,產品數量超 500 款。我國數據庫市場規模 59.7 億美元,占全球7.2%,云數據庫市場規模占比超過一半,數據庫供應商數量達到 150家,產品數量達到 238 款。技術方面,數據庫技術正圍繞助力用戶降本增效、護航數據要素安全流通、賦能新興業務場景三個目標持續發展,呈現 12 個細分發展方向。分別

7、為交易分析一體化、多模處理一體化、數據湖倉一體化、軟硬協同一體化、AI 與數據庫融合、云與數據庫融合、密態數據庫、區塊鏈數據庫、圖聯邦學習、向量數據庫、圖數據庫、時空數據庫。應用方面,數據密集型行業應用聚焦深度優化,傳統行業應用迎來創新變革。金融、電信等數據密集型行業在既有數據庫應用基礎上,正通過分布式改造等手段進行深度優化。制造業等傳統行業正通過引入時序數據庫、圖數據庫等創新技術,探索數據與實體經濟深度融合的新模式。本報告是中國通信標準化協會大數據技術標準推進委員會(CCSA TC601)繼數據庫發展研究報告(2021 年)、數據庫發展研究報告(2022 年)發布后的第三本數據庫年度綜合報告

8、,內容涵蓋數據庫產業及市場、數據庫產品及服務、數據庫支撐體系、數據庫技術發展趨勢和典型行業數據庫應用情況綜述。由于水平所限,錯誤和不足之處在所難免,歡迎各位讀者批評指正,本報告為內容簡版,欲了解詳細內容,請聯系 。目目錄錄版權聲明.I一、數據庫產業發展情況綜述.1(一)數據庫產業及市場.1(二)數據庫產品及服務.21.從時間看,全球數據庫發展經歷兩輪熱周期.22.從地域看,美國和中國是全球數據庫產業的主力軍.43.從類型看,非關系型數據庫在全球范圍占比略大.44.從模式看,開源模式在全球范圍內發展勢頭迅猛.6(三)數據庫支撐體系.81.創新方面,非關系型是熱點,我國創新實力不斷增強.82.標準

9、方面,我國數據庫產業標準引領作用初見成效.10二、數據庫技術發展情況綜述.12(一)助力用戶降本增效.121.交易分析一體化支撐多類業務.122.多模處理一體化實現一庫多用.143.數據湖倉一體化降低存算成本.164.軟硬協同一體化提升系統性能.185.AI 與數據庫融合迸發無限潛力.206.云計算成為數據庫重要驅動力.23(二)技術融合護航數據要素安全流通.261.隱私計算保障密態數據安全流通.262.區塊鏈技術賦能數據資產高度可信.273.圖聯邦學習技術打破圖數據孤島.29(三)技術革新賦能新興業務場景.311.AI 大模型催生向量數據庫新應用.312.圖分析技術洞察數據連接新價值.333

10、.時空數據庫釋放時空數據新潛能.35三、數據庫行業應用情況綜述.36(一)金融行業核心系統改造升級進度加快.36(二)電信行業三類系統適配遷移加速推進.37(三)制造業數據庫創新應用具備廣闊空間.39四、總結與展望.41圖圖 目目 錄錄圖 12022-2027 年中國數據庫市場規模及增速.1圖 22021-2023 中國公有云和本地部署數據庫市場規模.2圖 4全球數據庫企業開展業務時間.3圖 5中國數據庫企業開展業務時間.3圖 6全球數據庫產品類型分布.5圖 7中國數據庫產品類型分布.6圖 8全球現存開源數據庫的開源時間.7圖 9中國現存開源數據庫的開源時間.7圖 102020-2022 年

11、VLDB、ICDE 和 SIGMOD 論文分布情況.8圖 112022 年 VLDB、ICDE 和 SIGMOD 論文關鍵詞云圖.9圖 122020-2022 年中國高校及企業學術會議論文貢獻情況.10圖 13CCSA TC601 數據庫領域標準化工作體系.11圖 14四類 HTAP 數據庫技術架構示意圖.13圖 15數據平臺技術架構演進圖.16圖 16FPGA 與 GPU 技術發展歷程示意圖.19圖 17GDBMS 系統全景圖.20圖 18AIGC 為數據庫運維提供建議的示例.21圖 19AIGC 為數據庫結構設計提供建議的示例.22圖 20AIGC 對數字進行判斷的示例.23圖 21一種計

12、算、內存、存儲三層解耦架構示意圖.25圖 22全密態數據庫發展歷程圖.27圖 23業界防篡改數據庫方案對比.29圖 24一種圖聯邦數據庫方案架構示例.30圖 25一種圖聯邦數據庫應用架構示例.30圖 26向量數據庫關鍵技術及應用場景示意.32圖 27圖計算平臺分類方式及典型產品.33圖 28GNN 模型的一般設計流程.34圖 29國內外典型時空數據庫產品.35圖 30電信行業數據庫部署方式分布.38表表 目目 錄錄表 1 HTAP 關鍵技術總覽與優缺點比較.13表 2 多模數據庫擴展策略.14表 3 數據湖支持數據倉庫產品能力對比.17表 4 數據倉庫支持數據湖產品能力對比.18表 5 防篡改

13、數據庫典型產品.28表 6 向量數據庫企業投融資情況.32表 7 電信行業支撐體系三大域分析.37表 8 制造行業典型系統及數據庫類型分布情況.39數據庫發展研究報告(2023 年)1一、數據庫產業發展情況綜述當前,全球產業生態加速變革,產品形態日益豐富;我國產業熱度持續升溫,創新能力不斷增強。市場規模不斷增高,產品提供商以中美兩國為主;非關系型數據庫產品是產業關注熱點、產品數量占比過半;開源模式影響力再次增大,我國開源業態不斷成熟。(一一)數據庫產業及市場數據庫產業及市場根據中國通信標準化協會大數據技術標準推進委員會(以下簡稱:CCSA TC601)調研分析,我國數據庫產業鏈包括數據庫產品提

14、供商、數據庫生態工具提供商、數據庫服務提供商、數據庫安全供應商、數據庫生態社區、數據庫人才培養等多個環節,各領域參與者專攻術業,發揮競爭優勢,積極拓展生態圈,為我國繁榮的數據庫生態不斷注入活力。來源:CCSA TC601,2023 年 6 月圖 1 2022-2027 年中國數據庫市場規模及增速據 CCSA TC601 測算,2022 年全球數據庫市場規模為 833 億美元,中國數據庫市場規模為 59.7 億美元(約合 403.6 億元人民幣),數據庫發展研究報告(2023 年)2占全球 7.2%1。預計到 2027 年,中國數據庫市場總規模將達到 1286.8億元,市場年復合增長率(CAGR

15、)為 26.1%。來源:CCSA TC601,2023 年 6 月圖 2 2021-2023 中國公有云和本地部署數據庫市場規模據 CCSA TC601 測算,按數據庫部署方式劃分市場規模,2022年中國公有云數據庫市場規模為219.15億元,較2021年增速51.6%,本地部署數據庫市場規模為 184.45 億元,較 2021 年增速 14.4%,公有云和本地部署模式市場規模分別占總市場 54.3%和 45.7%,2022年公有云數據庫市場規模首次過半,預計 2023 年公有云市場占比將進一步擴大達到 59.8%,規模達到 323.16 億元,本地部署模式市場增速達到 17.8%,規模為 2

16、17.24 億元。(二二)數據庫產品及服務數據庫產品及服務1.從時間看,全球數據庫發展經歷兩輪熱周期1中華人民共和國 2022 年國民經濟和社會發展統計公報,國家統計局,2022 年全年人民幣平均匯率為1 美元兌 6.7261 元人民幣。數據庫發展研究報告(2023 年)3來源:CCSA TC601,2023 年 6 月圖 4 全球數據庫企業開展業務時間全球數據庫發展經歷兩次熱潮,21 世紀后進入蓬勃發展期。從企業開展數據庫業務時間看,全球數據庫企業起步于 20 世紀 60 年代,隨著 80 年代關系型數據庫的理論突破和技術創新,全球數據庫迎來第一波發展熱潮。步入 21 世紀后,PC 互聯網逐

17、步向移動互聯網發展,數據庫的應用場景不斷豐富,全球數據庫在 2010-2019 年進入發展高峰期,新興企業不斷成立。這十年間,一共出現了 230家企業,全球 48.7%的數據庫企業均成立于這一時期。來源:CCSA TC601,2023 年 6 月圖 5 中國數據庫企業開展業務時間數據庫發展研究報告(2023 年)4中國數據庫產業始于 20 世紀末,并在 2013 年后迎來繁榮發展。截止 2023 年 6 月,我國數據庫產品提供商共 150 家,2022 年新增企業數量仍然突破兩位數,較 2021 年增速 12.8%。2014-2022 近十年時期迎來發展的高峰,其中 2015 年、2018-2

18、022 年每年企業新增數量均為兩位數,六年期間一共有89家企業成立,占總數比例59.3%。2.從地域看,美國和中國是全球數據庫產業的主力軍美國和中國是全球數據庫產業的主力軍。據 CCSA TC601 統計,截止 2023 年 6 月,全球有共計 472 家數據庫產品提供商,總部設在美國和中國的數據庫廠商數量遙遙領先,分別為 157 和 150 家,占比 33.3%和 31.8%。全球數據庫產品數量為 655 款。美國和中國的數據庫產品數量以 242 和 238 款領先,占比分別為 36.9%和 36.3%。北京為我國數據庫產業貢獻主要力量。中國 150 家數據庫廠商總部大多集中在超一線城市。數

19、量最多的前四名分別是北京、杭州、上海和深圳,數量為 80、15、12、8 個。天津、南京、廣州、成都數據庫企業數量均為 4 個,其中南京市和成都市由于高校資源豐富,成為很多數據庫企業設立研發中心的青睞地點。3.從類型看,非關系型數據庫在全球范圍占比略大數據庫發展研究報告(2023 年)5來源:CCSA TC601,2023 年 6 月圖 6 全球數據庫產品類型分布全球數據庫產品數量整體分布呈現以非關系型及混合型數據庫為主。據 CCSA TC601 統計分析,截止 2023 年 6 月,全球數據庫產品共有 655 款。除了早期的兩款網狀數據庫和層次數據庫,在剩余的 653 個數據庫產品中,關系型

20、數據庫為 309 個,非關系型數據庫有 344 個,占比分別為 47.3%和 52.7%。非關系型數據庫中,鍵值型數據庫 82 個、時序數據庫 53 個、圖數據庫 52 個,在非關系數據庫中依次占比 23.8%、15.4%和 15.1%。數據庫發展研究報告(2023 年)6來源:CCSA TC601,2023 年 6 月圖 7 中國數據庫產品類型分布我國數據庫產品數量呈現以關系型為主,非關系型數據庫為輔的局面。關系型數據庫 156 個,非關系型數據庫有 82 個,占比分別為 65.5%和 34.5%。非關系型數據庫中,圖數據庫 24 個、時序數據庫 24 個、鍵值數據庫 10 個、列存數據庫

21、10 個,在非關系數據庫中依次占比 29.3%、29.3%、12.2%和 12.2%。4.從模式看,開源模式在全球范圍內發展勢頭迅猛數據庫發展研究報告(2023 年)7來源:CCSA TC601,2023 年 6 月圖 8 全球現存開源數據庫的開源時間全球開源數據庫興起于 20 世紀 90 年代。自 90 年代開源數據庫不斷推出,2001-2015 年,每隔 5 年,產品數量均呈 2-3 倍增長。開源數據庫于 2006 年后迅速發展,目前共 268 款,占全部數據庫比例40.9%。其中在 2011-2020 年進入發展高峰期,大量開源數據庫產品不斷推出。這十年間,一共出現了 159 個產品,全

22、球 59.3%的開源數據庫均誕生于在這一時期。來源:CCSA TC601,2023 年 6 月圖 9 中國現存開源數據庫的開源時間我國開源數據庫產品始于 2010 年前后,但開源數據庫在總數中占比較小,開源數據庫中七成為關系型數據庫。我國數據庫產品以商用為主,開源數據庫產品共有 42 款,商用和開源占我國數據庫產品總數分別為 82.4%和 17.6%。開源產品中,關系型數據庫 29 個,非關系型數據庫有 13 個,占比分別為 69.0%和 31.0%。我國開源數據庫整體起步較晚,在 2017 年之后迎來發展高峰。2017 年至今,一共新增 29 款開源數據庫產品,近 7 成產品采用 Apach

23、e 許可證 2.0版。數據庫發展研究報告(2023 年)8近兩年全球數據庫開源生態發展態勢良好,期間涌現出許多優秀的開源項目。從國外看,AWS 開源其搜索型數據庫產品OpenSearch,多模數據庫 ArcadeDB 和向量數據庫 Qdrant 陸續開源,Edgeless Systems 發布基于 MariaDB 的密態數據庫 EdgelessDB,內存數據緩存系統Dragonfly以及端到端云原生數據庫SurrealDB正式開源。從國內看,分析型數據庫公司鼎石縱橫和杭州石原子分別開源其產品 StarRocks 和 StoneDB,諾司時空開源其時序數據庫產品CnosDB,螞蟻集團陸續開源單機

24、版圖數據庫和圖計算引擎 TuGraph。(三三)數據庫支撐體系數據庫支撐體系1.創新方面,非關系型是熱點,我國創新實力不斷增強來源:CCSA TC601,2023 年 6 月圖 10 2020-2022 年 VLDB、ICDE 和 SIGMOD 論文分布情況從 VLDB、SIGMOD 和 ICDE 三個數據庫領域權威的學術會議研究方向看,當前關系型數據庫和非關系型數據庫研究內容數量占比相當,非關系型數據庫研究方向成為熱點。以 VLDB 為例,2020-2022 年,各領域論文總數分別為 110、81 和 483 篇,關系型和數據庫發展研究報告(2023 年)9非關系型數據庫論文分別占三年論文總

25、數量的 16%和 13%。SIGMOD 各領域論文總數分別為 87、87 和 350 篇,關系型和非關系型數據庫論文總數均占 17%。ICDE 各領域論文總數分別為 75、85 和 574 篇,關系型和非關系型數據庫論文總數占三年論文總數比例分別為 10%和 12%,非關系型數據庫占比略微超過關系型數據庫。來源:CCSA TC601,2023 年 6 月圖 11 2022 年 VLDB、ICDE 和 SIGMOD 論文關鍵詞云圖綜合分析全球論文研究主題,2022 年三大頂會較為火熱的研究方向有機器學習、異常檢測、查詢處理、數據科學、神經網絡、聯邦學習、差分隱私、云原生等等。此外,數據庫領域如

26、HTAP、內存數據庫、圖數據庫等方向也是每年不可或缺的研究主題。數據庫發展研究報告(2023 年)10來源:CCSA TC601,2023 年 6 月圖 12 2020-2022 年中國高校及企業學術會議論文貢獻情況我國在全球三大數據庫領域學術會議的影響力持續提升。高校及企業在 ICDE 論文貢獻占比最高,三年依次為 43.15%、44.68%和65.43%,三大會議每年貢獻占比平均為 23.81%、27.17%和 40.70%,數量呈逐年上升趨勢,且 2022 年增長幅度相較前兩年十分明顯。大部分由我國貢獻的論文是以企業、高校合作或者高校間合作的方式發表到頂級會議上。2022 年入選三大頂會

27、論文的企業有阿里巴巴、華為、騰訊、字節跳動、螞蟻科技、美團、百度、快手科技等;科研機構有中國科學院、深圳計算科學研究院;入選 10 篇及以上論文的高校則有清華大學、香港科技大學、北京大學、香港中文大學、浙江大學、中國科學技術大學、華東師范大學、香港浸會大學、中國人民大學、哈爾濱工業大學、北京航空航天大學、復旦大學等,我國數據庫入選高校數量不斷擴大,學術國際影響力穩步提升。2.標準方面,我國數據庫產業標準引領作用初見成效數據庫發展研究報告(2023 年)112021 年 10 月 10 日,國務院印發國家標準化發展綱要(以下簡稱發展綱要),發展綱要明確強調“開展數據庫等方面標準攻關,提升標準設計

28、水平,制定安全可靠、國際先進的通用技術標準”,首次在標準化頂層文件中將數據庫領域標準化攻關的重要性提升到前所未有高度??v觀國內外數據庫標準化進展,我國數據庫標準化工作初見成效,從深度和廣度均需推進大量工作,以不斷適應產業日新月異的變化。來源:CCSA TC601,2023 年 6 月圖 13 CCSA TC601 數據庫領域標準化工作體系中國通信標準化協會大數據技術標準推進委員會緊跟國家戰略,圍繞數據庫領域標準化工作,設立數據庫與存儲工作組(WG4)。自 2015 年起共推出 30 項標準,逐步構建以數據庫產品、服務和應用為目標的標準體系。產品能力方面,從關系型和非關系型,構建了基礎能力、性能

29、和穩定性的技術標準;服務能力方面,圍繞規劃設計、實施部署和運維運營,推出國內首個面向數據庫服務的團體標準 數據庫服務能力成熟度模型(標準編號:T/CCSA 418-2022),圍繞數據庫應用遷移和 SQL 質量管理平臺,推出能力分級標準,其數據庫發展研究報告(2023 年)12中數據庫應用遷移服務能力分級要求(標準編號:T/CCSA335-2021)成功入選工信部 2022 年百項團體標準應用示范項目;行業應用方面,面向數據庫應用方內部運維管理團隊,推出數據庫運維管理能力成熟度模型。CCSA TC601 見證了我國數據庫標準化工作有序有力進行,成為國家在數據庫領域重要的支撐單位。二、數據庫技術

30、發展情況綜述數據要素時代,數據規模爆發式增長對數據庫技術提出了新的挑戰。數據庫技術將在圍繞三個目標持續發展,1)助力用戶降本增效(交易分析一體化支撐多類業務,多模處理一體化實現一庫多用,數據湖倉一體化降低存算成本,軟硬協同一體化提升系統性能,AI與數據庫融合迸發無限潛力,云計算成為數據庫重要驅動力);2)護航數據要素安全流通(隱私計算保障密態數據安全流通,區塊鏈技術賦能數據資產高度可信,圖聯邦學習技術打破圖數據孤島);3)賦能新興業務場景(AI 大模型催生向量數據庫新應用,圖分析技術洞察數據連接新價值,時空數據庫釋放時空數據新潛能)。(一一)助力用戶降本增效助力用戶降本增效供給側通過六類優化方

31、式,助力數據庫性能不斷提升,以及運維、應用成本降低。1.交易分析一體化支撐多類業務HTAP(Hybrid Transaction/Analytical Processing,混合事務分析處理)的概念是指同時支持 OLTP 和 OLAP 場景。該技術可以實現一個平臺上同時處理多個數據任務,支撐海量并發連接復雜混數據庫發展研究報告(2023 年)13合負載,提升系統彈性,降低開發運維復雜度和成本,提升數據使用粒度,提高組織數據處理的效率。目前,業界主流的 HTAP 技術架構按存儲類型劃分,主要分為主行存儲與內存型列存儲、分布式行存與列存副本、單機磁盤型行存與分布式列存,以及主列存與增量型行存四種形

32、態2。來源:HTAP 數據庫關鍵技術綜述圖 14 四類 HTAP 數據庫技術架構示意圖在技術實現方面,HTAP 在數據組織、數據同步、查詢優化和資源調度等方面仍需持續突破。這些技術的解決方法在各種指標上互有優劣,例如效率、可擴展性和新鮮度,如下表所示。表 1 HTAP 關鍵技術總覽與優缺點比較HTAP 技術類技術類別別關鍵技術關鍵技術代表性代表性產品產品主要優點主要優點主要缺點主要缺點數據組織技術基于主行存的內存列選擇MySQLHeatwaveOracle事務性能高分析性能低基于負載驅動的行列混合存儲/存儲代價低系統復雜度高數據同步技術基于內存增量表與內存型列存的數據同步Oracle,SQL

33、Server,SAP HANA性能高擴展性低基于增量日志與持久化列存的數據同步TiDB,F1 Lightning擴展性高合并代價高查詢優化技術混合行/列存儲掃描TiDB,SQL Server分析性能搜索空間2張超,李國良,馮建華,張金濤.HTAP 數據庫關鍵技術綜述.軟件學報,2023,34(2):761785.數據庫發展研究報告(2023 年)14高大異構 CPU/GPU 硬件加速RateupDB,Caldera分析性能高事務性能低面向 HTAP 負載的索引技術/事務性能高內存空間大資源調度技術基于負載驅動的資源調度SAP HANA,Siper性能高新鮮度低基于新鮮度驅動的資源調度/新鮮度高

34、性能不高來源:HTAP 數據庫關鍵技術綜述在推廣應用方面,HTAP 數據庫仍面臨多重挑戰。一是 HTAP將事務與分析處理相融合,需對數據庫的結構進行大規模修改,這也增加了系統復雜性。二是 HTAP 數據庫通常會應用在高度敏感的場景下,需有額外的安全措施保障數據機密性和完整性。三是 HTAP數據庫應用需集成包括分布式系統、高可用性、并發控制等技術,對于建設及運維團隊的技術水平要求較高。2.多模處理一體化實現一庫多用多模數據庫技術是在 NoSQL 技術演進中發展起來的,由于需求不斷變化、RDBMS 的擴展性不佳等諸多因素導致越來越多的開發者選擇 NoSQL 數據庫。但多個 NoSQL 數據庫系統混

35、用的方式為軟件開發團隊帶來高額的學習成本和維護費用。多模數據庫旨在提供多語言持久性的數據建模優勢,通過使用單個數據庫存儲來降低操作的復雜性,更好地支持不同場景下的多種類型數據處理。多模數據庫發展呈現兩種形態,一是出現了多款原生的多模數據庫系統,二是關系型數據庫系統也陸續增加了對多模數據處理的支持。多模數據庫不僅能夠為多種數據模型提供該模型適用的查詢接口,也可以通過一種語言實現對多種模型數據的同時查詢。表 2 多模數據庫擴展策略技術路徑技術路徑數據庫管理系統數據庫管理系統存儲類型存儲類型數據庫發展研究報告(2023 年)15新存儲方式PostgreSQLrelationalSQL serverr

36、elationalIBM DB2relationalOracle DBrelationalCassandracolumnCrateDBcolumnDynamoDBcolumnRiakkey/valueCosmos DBdocument原存儲模型擴展MySQLrelationalVerticacolumnArangoDBdocumentMongoDBdocumentOrientDBgraphCacheobject原始存儲策略加新型接口Sinewrelationalc-treeACEkey/valueOracle NoSQL Databasekey/valueCouchbasedocumentMa

37、rkLogicdocument來源:Multi-model Databases:A New Journey to Handle the Variety of Data學術界對多模數據庫的研究大致分為四階段,2012 年之前的史前研究階段、2012 至 2017 年多模數據庫開放探討階段、2014 至2019 年的系統研究階段以及 2015 至今的細分研究階段。1997 年,IBM Almaden Research Center 發表了一篇論文系統性地介紹了Garlic system 的實現。1998 年美國的一篇專利系統性地提出管理多模型數據的統一數據庫管理系統,該管理系統由物理存儲層、語義數

38、據模型層、邏輯數據模型層以及接口層3。2012 年開始,多模數據庫系統開始受到學術屆關注。2016 年 Serge Abiteboul 概括性地提出了數據管理領域未來幾個重要的方向4,其中多模數據管理就是其中3Multi-model database management system engine for database having complex data models4Research Directions for Principles of Data Management數據庫發展研究報告(2023 年)16之一。同年,陸嘉恒團隊發表文章介紹了一款作者構想的多模數據管理系統的形態和

39、能力5。2019 年,陸嘉恒團隊提出多模數據庫查詢和優化以及多模數據庫模式設計與優化的技術路徑6。2015 年開始,學術界對多模數據庫的研究進入細分領域研究階段,主要分為多模數據庫模式設計與優化、模式推導和多模演進等方向。未來多模數據庫應原生支持多種數據模型,有統一訪問接口且兼容各行業數據規范,具備各模型自動化管理和轉換能力的新型數據庫系統,多模數據庫將逐步形成新的規范和使用方式。3.數據湖倉一體化降低存算成本大數據平臺技術架構持不斷演進,以數據倉庫(Data Warehouse)和數據湖(Data Lake)為兩類經典代表,近年來這兩項技術在不斷演進過程中逐漸走向融合形成湖倉一體(Data

40、Lakehouse)技術架構。來源:Databricks圖 15 數據平臺技術架構演進圖數據平臺架構歷經三個發展階段。第一代是傳統類型的數據倉庫,通過 ETL 任務將結構化數據導入到通常為關系型數據庫的數據5RoadMap:UDBMS:Road to Unification for Multi-model Data Management6Multi-model Databases:A New Journey to Handle the Variety of Data數據庫發展研究報告(2023 年)17倉庫中進行商務分析及財務報表等工作。第一代數據倉庫面臨的問題是計算和存儲高度耦合使得平臺難以

41、隨著數據量的增長而不斷增長,另一方面是無法支持非結構化數據。數據平臺進入到第二代,也是當前最為流行的雙層架構階段,但這類架構存在難以保證數據湖與數據倉庫中數據一致性等問題。為了解決以上問題,第三代數據平臺架構湖倉一體架構應運而生。表 3 數據湖支持數據倉庫產品能力對比時間時間公司公司產品產品優勢優勢缺陷缺陷2011HortonworksApache Atlas數據血緣追蹤/2011HortonworksRanger數據權限安全數據湖中新引擎優先實現功能和場景,并非優先對接 Ranger,可能會產生安全漏洞2018NexflixIceberg提供MVCC等增強數倉能力Iceberg 作為插件方式

42、兼容并配合 HMS,數倉管理能力大打折扣2018-2019Uber&DatabricksApache Hudi&DeltaLake增量文件格式以支持 Update/Insert、事務等數據倉庫功能新功能打破了元數據湖多套引擎之間關于共用存儲的簡單約定,Hudi 發明兩種表三中查詢類型維持兼容性。來源:CCSA TC601,2023 年 6 月湖倉一體是一種開放式的數據管理架構,集數據湖的靈活性、可擴展性優勢以及數據倉庫的數據結構和數據管理功能于一體。主要優勢包括以下幾個方面,一是降低數據冗余,二是減少存儲成本,三是減少報表分析師與數據科學家不必要的重復勞動,四是提升數據分析時效性,五是提升對其

43、它數據技術的兼容性。當前,湖倉一體的技術路徑主要分為以數據倉庫中支持數據湖特性和以數據湖中支持數倉特性兩種技術路徑。在數據倉庫中支持數據湖的功能主要是通過在數倉中建外部表來實現,目的是使數據倉庫更加靈活,主要是以數倉為核心,支持訪問數據庫。這類技術路線的代表產品包括 Snowflake,阿里云 MaxCompute 和亞馬遜 Redshift。數據湖中支數據庫發展研究報告(2023 年)18持數倉的功能主要是通過功能性開發實現,如多版本并發控制、自適應 Schema、提供文件級事務等來實現數倉功能,這類產品以Databricks 的 DeltaLake、Uber 的 Apache Hudi 等

44、為代表。表 4 數據倉庫支持數據湖產品能力對比時間時間公司公司產品產品優勢優勢缺陷缺陷2017RedshiftRedshiftSpectrum支持數倉用戶訪問 S3 數據湖的數據需要用戶在數倉中通過創建外部表來將數據湖的開放存儲路徑納入數倉的概念體系,無法完全自動化創建外部表、添加分區等。生產使用中較為復雜。2018阿里云MaxCompute外表能力,支持訪問包括OSS/OTS/RDS 數據庫在內的多種外部存儲來源:CCSA TC601,2023 年 6 月當前,湖倉一體作為一種新興技術架構,在企業落地方面還處于早期探索階段,在部署方面仍面臨多重挑戰。一方面是由于團隊缺乏前期數據治理經驗,另一

45、方面湖倉一體的高度復雜性使得湖倉之間存在如何協同的問題。怎樣打通兩套系統存儲、保證元數據一致性、確保湖倉之間不同引擎數據交叉引用、如何保障數據安全等問題仍是湖倉一體未來發展過程中亟待解決的問題。4.軟硬協同一體化提升系統性能計算機軟件和硬件的發展相輔相成、并行不悖,硬件技術的創新或產品成本變化,不僅會給傳統的計算機體系結構和系統帶來影響,也給系統軟件,特別是數據庫系統帶來了新的機遇。一方面,伴隨著硬件技術發展數據庫技術不斷進步,另一方面在數據庫架構方面,硬件技術的發展也不斷推進著數據庫在分布式、云原生等方面的快速發展。此外,硬件技術的發展也促進了數據庫與其它新興技術的融合,提升了數據庫安全性和

46、智能性。數據庫發展研究報告(2023 年)19來源:中興通訊股份有限公司,2023 年 6 月圖 16 FPGA 與 GPU 技術發展歷程示意圖數據庫技術方面,新型硬件使得數據庫在數據計算、數據存儲以及數據通信方面持續提升。數據計算層面,借助多核、GPU、FPGA、專用芯片等,可以實現并行優化、事務并發控制、查詢加速、數據壓縮加速、工作負載遷移等;數據存儲層面,隨著新型內存及 NVM的出現和發展,內存和外存的界限變得模糊,存儲及索引設計得到新的性能提升;數據通信層面,RDMA、CXL 協議帶來網絡傳輸高性能表現和 CPU 卸載能力,或將對數據庫系統的網絡通信架構設計帶來顛覆性變化。數據庫架構方

47、面,新型硬件對于不同架構類型的數據庫產生不同影響。一是使得集中式關系型數據庫網絡架構更加便捷、建設成本更加低廉。二是使得分布式數據庫、云原生數據庫等具有更強實用性。此外硬件技術的發展也使得分布式數據庫節點之間的處理延時得到不斷改進。數據庫發展研究報告(2023 年)20來源:GPU 數據庫核心技術綜述圖 17 GDBMS 系統全景圖目前,以 GPU 計算為核心的數據庫技術(GDBMS)受到廣泛關注,其具有吞吐量大、響應時間短、成本低廉、易于擴展等特點,可為人工智能、時空數據分析、數據可視化、商務智能等領域帶來更大價值,有望改變數據分析領域的格局。GDBMS 按照商業模式分為研究原型(R-GDB

48、MS:for research)和商用系統(C-GDBMS:forcommercial)兩大類,其中商用 GDBMS 可以進一步分為三類。一是支持 GPU 計算的傳統數據庫、二是非內存型 GDBMS 使用 GPU 完成全部或者大部分數據庫關系運算、三是內存行 GDBMS 內存型GDBMS7。5.AI 與數據庫融合迸發無限潛力人工智能技術發展駛入快車道,為數據庫與 AI 深度融合帶來新機遇。2023 年 AIGC 技術的跨越式突破發展,不僅使大語言模型進入公眾視野,更擴展了數據庫與 AI 融合的發展空間。一方面,生成式 AI 在數據庫結構設計、架構設計、數據分析挖掘等方面可以不同7裴威,李戰懷,

49、潘巍.GPU 數據庫核心技術綜述.軟件學報,2021,32(3):859885.數據庫發展研究報告(2023 年)21程度簡化人員操作,提高開發、運維、分析的效率。例如 2022 年12 月,數據庫自動化和優化平臺 OtterTune 宣布推出 OtterTuneV1.5,2023 年 Databricks 將大型語言模型(LLMs)引入 SQL 和MLflow2.3,國內 Bytebase 于 5 月推出基于對話式交互的 SQL 客戶端 SQL Chat,阿里巴巴開源了支持自然語言與 SQL 互相轉換的數據庫開發工具 Chat2DB。另一方面,多模態數據存儲和計算的需求隨著大語言模型出現而劇

50、增,向量數據庫在構建基于大語言模型的行業智能應用中扮演著重要角色。2023 年除了 Qdrant、Pinecone、Weaviate、Milvus 等特化的向量數據庫備受關注外,許多數據庫廠商也開始在原有產品上拓展向量檢索的能力,2023 年以來,AWSRDS PostgreSQL 和阿里云 PostgreSQL 14、15 版本新增支持 pgvector插件,實時數據庫 Rockset 增加向量嵌入功能支持,微軟宣布 CosmosDB 支持向量搜索功能。隨著以 ChatGPT 為代表的 AIGC 技術產品發展火熱,數據庫從業者不斷思考 AIGC 技術與數據庫相互賦能的途徑。AIGC 技術對數

51、據庫的影響主要體現在數據開發與分析、數據庫性能優化、數據庫結構設計、數據庫架構設計等方面。一些大型語言模型已可以初步創建復雜數據庫的查詢過程,使得用戶更容易使用自然語言來與數據庫進行交互檢索。來源:CCSA TC601,2023 年 6 月圖 18 AIGC 為數據庫運維提供建議的示例數據庫發展研究報告(2023 年)22數據庫開發與分析方面,數據庫開發者和數據分析師可以通過大語言模型將自然語言轉換為對應的 SQL 語句,從而對數據庫進行開發與操作。數據庫性能優化方面來看,AIGC 技術可以對數據對象或查詢語句進行優化,提供一些通用性建議,同時可以根據具體語句給出進一步優化建議。來源:CCSA

52、 TC601,2023 年 6 月圖 19 AIGC 為數據庫結構設計提供建議的示例數據庫結構設計方面,AIGC 技術可以幫助 DBA 前置完成結構設計,DBA 提出簡單的場景描述,大語言模型能夠返回數據庫結構定義,較大程度簡化數據庫結構的設計工作。從數據庫架構設計方面來看,用戶可以根據自身需求用自然語言進行場景描述,AIGC技術能夠提出推薦的數據庫選型建議。當用戶向大語言模型提供一定性能要求后,AIGC 技術還可以反饋推薦的規格和潛在架構優化點,進而有效減少數據庫架構師的工作量,提升其工作效率。數據庫發展研究報告(2023 年)23來源:CCSA TC601,2023 年 6 月圖 20 A

53、IGC 對數字進行判斷的示例AIGC 技術十分消耗算力,未來硬件發展使得數據庫算力不斷提升的同時,也會進一步激發數據庫潛能。此外,最近同樣火熱的向量數據庫迅速發展,有效支持多模態數據的存儲、索引和查詢。隨著近幾年大語言模型(LLM)的發展也擴展了向量數據庫的應用場景,AI4DB 技術將會更快地在向量數據庫中落地。6.云計算成為數據庫重要驅動力云被視為數字化轉型的高度戰略性平臺,云計算成為數據庫發展的重要驅動力。數據庫產品及生態工具上云成為趨勢,從全球范圍看,目前,Elasticsearch、MongoDB、Databricks、Snowflake 等數據庫廠商,已與微軟、谷歌、亞馬遜、阿里云、

54、騰訊云、Clever Cloud、Aiven 等公有云廠商開展合作。從國內范圍看,近兩年部分數據庫產品及生態公司如新數科技 ShinData DMP、沃趣科技 QFusion、飛輪科技 SelectDB、玖章算術 Ninedata、濤思數據 TDengine、悅數科技 NebulaGraph 等,已與阿里云、華為云聯合推出 DBaaS 版本,持續完善公有云數據庫產品及運維體系,為用戶搭建高效、便捷、安全的數據庫云生態應用場景服務。數據庫發展研究報告(2023 年)24DBaaS 提供彈性靈活的數據庫管理解決方案,助力企業降本增效。DBaaS 模式最早由亞馬遜提出,隨后 Oracle、Mongo

55、DB、微軟、谷歌、阿里巴巴、SAP、Redis Labs、IBM、騰訊、EnterpriseDB、Rackspace 等供應商紛紛推出相關服務。隨著建立和管理多云環境正在成為國外用戶趨勢,互有競爭關系的甲骨文和微軟甚至聯合推出Oracle Database Service for Azure,旨在為其共同客戶的應用遷移上云降低復雜性,更是為 OCI(Oracle Cloud Infrastructure)在 DBaaS方面與 AWS 的競爭提供支撐。根據 Forrester 調查數據顯示8,33%的全球基礎設施業務決策者已經在生產環境中部署 DBaaS 版本。企業支持的使用場景類型已大大增加,

56、不僅限于簡單的測試、開發和備份,更擴大到錯綜復雜的客戶體驗、物聯網、移動和大數據等應用領域。未來,DBaaS 將與其它技術更加深入融合。隨著 DBaaS 技術的普及和成熟,DBaaS 供應商逐步提供一些創新功能。例如通過人工智能技術實現數據庫部署、運維、管理全流程的自動化,減少人為干預的同時加快部署,幫助企業迅速構建和支持龐大且更復雜的業務應用程序和操作型系統。以無服務器架構(Serverless)為核心計算范式的云原生技術飛速發展,云原生數據庫取得不斷進步。越來越多的云原生數據庫通過存儲計算分離架構,實現資源池化和極致彈性,具備高擴展性、高可用性、跨地域規模、低成本等優勢,可為用戶提供真正具

57、備秒級智能彈性擴容能力、隨需而動的云原生數據庫服務。云原生數據庫 Serverless 關鍵技術以底層池化資源為基礎,利用 RDMA 高性能網絡高效管理、使用物理資源實現資源池化及彈性擴展、高可用、8The Forrester Wave:Database-As-A-Service,Q2 2019數據庫發展研究報告(2023 年)25高性能、低成本的 Serverless 能力。Serverless 服務大部分以 API 形式提供,無需運維同時用戶也無需關注后端使用情況。服務還能實現是實時彈性擴縮容,用戶可以像使用自來水一樣按使用量進行付費。最初的云數據庫主要是模仿線下數據庫使用方式,為用戶提供

58、數據庫托管服務。但云上主機的型號選擇并不靈活,很難根據用戶業務及資源需求進行協調。云原生數據庫計算和存儲分離的架構很好地解決了這一問題,這也是數據庫 Serverless 化基礎。目前存在一些 Serverless 數據庫在架構上分為三層,即接入層、計算層和存儲層。來源:Serverless 數據庫技術研究報告圖 21 一種計算、內存、存儲三層解耦架構示意圖云原生數據庫可以廣泛應用在可變工作負載或不可預測的工作負載場景中,使得用戶無需按峰值容量或平均容量預置,從而避免為不常使用的資源付費以及由于容量不足導致的性能問題。在電商、電信運營商、金融等行業中能夠幫助企業應對業務洪峰,助力系統平穩運行。

59、未來,云原生數據庫將在提升易用性、標準化計算資源、擴容無感知、快速調度資源、提升數據共享能力和數據庫智能自治方面不斷發展,從而更好地幫助用戶降本增效。數據庫發展研究報告(2023 年)26公有云廠商發布數據管理服務助力數據價值不斷放大,數據庫企業收購初創公司布局 IDE 生態。2022 年 12 月,亞馬遜在 re:Invent全球大會上推出數據管理服務 Amazon DataZone,旨在讓客戶更快、更輕松地對存儲的數據進行編排、發現、共享和治理。阿里云推出DMS 產品提供一站式全鏈路數據管理與服務,進一步釋放云原生技術紅利。2020 年至今,MongoDB、Databricks 和 Cli

60、ckHouse 分別先后收購數據庫生態工具廠商 Compass、Redash 和 Arctype。國內PingCAP 創始人也投資了數據庫開發工具企業 Bytebase。各廠商著力打造自己的數據庫 IDE,不斷提升用戶的數據庫使用體驗。(二二)技術融合護航數據要素安全流技術融合護航數據要素安全流通通數字經濟時代,數據要素被列為和土地、資本、技術和勞動力并列的第五大生產要素。在交易流通過程中數據要素的安全如何保障成為當前技術決策者重點關注的問題。數據安全與數據流通的關系好比矛與盾,更多地流通意味著更多的數據通道暴露,也為數據安全帶來更大挑戰。隱私計算、區塊鏈及圖技術等與數據庫技術的結合為數據流通

61、提供了更加安全可靠的解決方案。1.隱私計算保障密態數據安全流通隱私計算技術與數據庫相結合產生的全密態數據庫能夠解決數據全生命周期的隱私保護問題,使得系統無論在何種環境下,數據在傳輸、運算以及存儲的各個環節始終都處于密文狀態。全密態數據庫是指能夠提供對應用透明的加解密能力,在數據庫系統中數據的全生命周期以密文形式進行處理,同時密鑰掌握在授權用戶手中的數據庫管理系統。當數據擁有者在客戶端完成數據加密并發送給服務端后,在攻擊者(包括黑客、超級用戶等任何角色)借助系統數據庫發展研究報告(2023 年)27脆弱點竊取用戶數據的狀態下仍然無法獲得有效的價值信息,從而起到保護數據隱私的作用。來源:CCSA

62、TC601,2023 年 6 月圖 22 全密態數據庫發展歷程圖目前,全密態數據庫發展尚處于早期階段。2022 年,CCSATC601 WG4(數據庫與存儲工作組)組織編制國內首個全密態數據庫技術標準,使業內各廠商對于關系型數據庫密態存儲與計算的技術架構、基本功能達成初步共識。國內目前以華為云 GaussDB、阿里云 PolarDB 以及螞蟻科技集團的螞蟻鏈數鏡產品較為成熟,其中華為云全密態數據庫已在華為公司流程 IT ERP 項目中落地使用。近年來,全密態數據庫研究已從傳統關系型數據庫加解密研究,拓展至非關系型數據庫如空間數據庫的加解密研究。未來全密態數據庫的性能提升、搜索型數據庫、圖數據庫

63、等加密技術將會成為專家學者們探索的下一個藍海。2.區塊鏈技術賦能數據資產高度可信近年來,隨著數據資產可信流動的需求不斷增強,業界對于數據全向追蹤管理、防止數據篡改與作弊、實現多方認同的需求越來越迫切。區塊鏈技術具有數據防篡改、數據可追溯、信息全透明、多方地位平等以及數據可共享的技術特征,是數據資產可信流動的必要技術保障,是數字世界不可或缺的根基。區塊鏈技術能夠很好數據庫發展研究報告(2023 年)28地彌補當前數據庫缺乏防篡改能力、無法驗證篡改行為、不具備抗抵賴性等問題,二者相結合形成的多方可信防篡改數據庫技術方案能夠更好地保障云上數據可信運維。表 5 防篡改數據庫典型產品企業名稱企業名稱產品

64、名稱產品名稱特性特性華為云數據庫 GaussDB(for openGauss)保障數據在云上的增、刪、改全生命周期可追溯、可校驗,為數據完整性提供更強有力的保護,極大降低用戶使用門檻和業務切換的難度,全方位實時保障企業數據安全。阿里云Lindorm 防篡改數據庫通過構建可信數據結構為用戶提供防篡改、可追溯、不可抵賴等完整性保證能力,并可結合三方簽名服務使數據具備司法效力。結合 Lindorm 自身寬表、時序、計算、搜索、時空等多模引擎能力,在金融政企、供應鏈、物聯網、車聯網等領域,提供一體化、全方位、高可信的解決方案。微軟SQL Server通 過實 現加 密保 護和 提供 安全 衛士(Sec

65、uritySentinel)支持防止數據篡改,同時提供身份驗證、授權、審計、角色管理等安全控制功能OracleOracle Database提供了安全可信賴體系結構,支持內置的數據加密、身份驗證、審計和訪問控制等多種安全特性,可幫助用戶實現防篡改和數據保護。IBMIBM DB2提供了高級的數據安全和加密功能,包括數據壓縮、必須的域限制等,同時還支持訪問控制和審計,以提高數據的安全性。來源:CCSA TC601,2023 年 6 月目前數據庫與區塊鏈相結合的技術主要分為兩類技術路徑,一是單中心賬本方案,采用區塊鏈技術增強數據庫防篡改特性,可以通過加密驗證,不可變且透明,易用性較高。二是多方共識防

66、篡改方案(即聯盟鏈):有準入機制的多方參與聯盟鏈,聯盟鏈成員使用多方共識共同維護鏈上數據,使用數據庫增加數據存儲、處理能力。業界主要技術方案包括僅插入賬本、可更新賬本以及聯盟鏈方案。數據庫發展研究報告(2023 年)29來源:華為云計算技術有限公司圖 23 業界防篡改數據庫方案對比未來,區塊鏈技術與數據庫技術結合將產生更多火花。區塊鏈技術和數據庫技術與可信硬件、高性能共識、KMS、零知識證明等技術不斷融合,硬件可信賬本、多方可信數據庫、三方可信賬本以及端側可信賬本等新興技術將會為信息技術發展帶來更多機會。3.圖聯邦學習技術打破圖數據孤島圖聯邦技術是為了解決數據孤島、隱私保護和數據安全問題提出的

67、概念,在保護用戶隱私和公司數據的前提下,更好地發揮數據價值。圖數據庫(Graph Database)是一種使用圖結構進行語義查詢的數據庫,通常使用屬性圖模型(包含節點、邊和屬性)來表示和存儲數據。圖數據庫技術突破了傳統關系型數據庫對于數據之間關系的束縛,圖聯邦技術打破了“數據孤島”的限制,圖聯邦數據庫作為兩者的交叉領域,存在著巨大的發展潛力。數據庫發展研究報告(2023 年)30來源:浙江創鄰科技有限公司圖 24 一種圖聯邦數據庫方案架構示例梅特卡夫定律(Metcalfes law)表明9,數據的連通性越完整,獲得的價值越高。圖數據庫因其能很好地處理復雜的數據關系,同時具有高效的復雜關聯關系查

68、詢性能,因此天然善于處理復雜的網絡關系從而幫助數據釋放價值。由于技術限制、法律合規等多種因素的制約,傳統的圖數據庫只能緩解企業內部部門之間的“數據孤島”,對于企業之間的“數據孤島”現象難以提供有效解決方案。圖聯邦數據庫能夠更好地管理、查詢、集成和計算跨越不同數據源的圖數據,對于促進圖數據更好地流通有巨大價值。來源:浙江創鄰科技有限公司圖 25 一種圖聯邦數據庫應用架構示例9一個網絡的價值等于該網絡內節點數的平方。即一個網絡的價值和這個網絡節點數的平方成正比。數據庫發展研究報告(2023 年)31圖聯邦數據庫可以應用于社交網絡分析、推薦系統、金融風險管理、生命科學等場景。目前,圖聯邦數據庫在應用

69、方面仍面臨數據安全、法律合規以及底層數據庫性能方面的挑戰。如何在保證數據安全、保證合法合規的前提下進行數據共享,是圖聯邦數據庫需要解決的重點問題之一。(三三)技術革新賦能新興業務場景技術革新賦能新興業務場景近年來,隨著人工智能、云計算等技術不斷發展,以及組織數字化轉型持續深入,新興業務場景驅動數據庫技術不斷革新。2023年上半年,生成式人工智能(AIGC)引發業界對大語言模型的關注,向量數據庫被認為是數據庫未來十年最重要的新興技術之一。智慧城市、智能電網以及車聯網等新興場景下產生的圖數據和時空數據也對數據庫的數據處理能力提出新需求。1.AI 大模型催生向量數據庫新應用文本、圖像、音視頻等海量的

70、非結構化數據占數據總量不斷上升,預計 2025 年,將達到八成以上,這些數據需要通過機器學習算法從中提取出以向量為表示形式的“特征”。向量數據庫便是為了解決對這些向量進行存儲與計算的問題而興起。向量數據庫可以通過將向量的特征進行分組和索引,以實現高效的相似性搜索。同時,向量化技術可以幫助向量數據庫將高維向量映射到低維空間,從而減少存儲和計算成本?;谒饕夹g,向量數據庫通過自身的各類向量操作,如向量相加、相似度計算和聚類分析等,使得用戶能夠對向量進行高效搜索。向量數據庫的優勢在于用統一的形式呈現所有類型的數據,降低了底層數據處理系統的復雜性。近幾年大語言模型(LLM)的發展擴展了向量數據庫的應

71、用場景,在 LLM 中,數據庫發展研究報告(2023 年)32向量數據庫可用于存儲 LLM 訓練產生的向量嵌入(Embeddings)。通過存儲數十億個表示 LLM 的大量訓練的向量嵌入,向量數據庫執行至關重要的相似性搜索,以找到用戶提示和特定向量嵌入之間的最佳匹配。來源:CCSA TC601,2023 年 6 月圖 26 向量數據庫關鍵技術及應用場景示意隨著向量數據庫關注度持續上升,眾多傳統數據庫企業陸續投入資源研究該領域。目前全球已有 70%的向量數據庫選擇開源發展模式,超過一半的向量數據庫具有云化部署能力。向量數據庫公司在一級市場上獲得眾多投資者青睞。國內愛可生向量數據庫TensorDB

72、 完成與昇騰 AI 基礎軟硬件平臺的全面融合,基于昇騰 AI完成深度優化,達到索引速度 10 倍提升的效果。表 6 向量數據庫企業投融資情況產品名稱產品名稱所屬組織所屬組織產品發布時間產品發布時間投融資日期投融資日期MilvusZilliz2019 年開源2022 年 8 月完成 6000 萬美元融資Vearch京東2019 年 10 月/TensorDB愛可生2020 年2021 年完成 B 輪融資近億人民幣Om-iBASE聯匯科技2020 年2022 年 1 月完成 B+輪融資PineconePinecone2021 年 4 月2023 年 4 月 B 輪融資 1 億美元WeaviateW

73、eaviate2020 年 5 月2023 年 4 月 B 輪融資 5 千萬美元QdrantQdrant2023 年 2 月2023 年 4 月 750 萬美金種子融資ChromaChroma2023 年 2 月2023 年 4 月 1800 萬美金融資來源:CCSA TC601,2023 年 6 月數據庫發展研究報告(2023 年)33未來,向量數據庫面臨在可運維性、性能成本、離在線一體化、智能化、易用性以及標量數據處理方面的六大挑戰。企業也在通過復用基礎設施、與 GPU 等硬件相結合、與 Hugging face、OpenAI等大模型生態對接和標量執行引擎研發等方面不斷向更加完善的向量數據

74、庫演進。2.圖分析技術洞察數據連接新價值隨著數據自身豐富度不斷增加,數據之間的關聯性以及如何有效分析和處理數據之間的復雜關系成為從業人員研究的重點。當前圖分析技術研究熱點主要聚焦在圖計算以及圖神經網絡兩個方面。來源:CCSA TC601,2023 年 6 月圖 27 圖計算平臺分類方式及典型產品常用的圖計算模型有兩種:BSP(Bulk Synchronous Parallel)模型和 Pregel 模型。BSP 模型是一種同步計算模型,將計算任務劃分成多個超級步,每個超級步包含計算、通信和同步三個階段。Pregel模型是一種異步計算模型,將計算任務劃分成多個迭代步驟,每個迭代步驟包含計算和消息

75、傳遞兩個階段。數據庫發展研究報告(2023 年)34來源:Graph neural networks:A review of methods and applications圖 28 GNN 模型的一般設計流程圖神經網絡(GNN)也是當前圖機器學習最火的分類之一。傳統神經網絡主要是基于歐幾里得空間的向量數據,其輸入數據是經過預處理后的向量,通過層層傳遞計算,最終輸出一個預測結果。而在圖數據中,節點之間的關系通常是非線性的,所以需要一種能夠處理圖數據的神經網絡模型,即圖神經網絡,它主要應用于節點分類、圖分類、鏈接預測等任務中。盡管 GNN 在諸多領域取得巨大成就,但 GNN 模型在在魯棒性、可解

76、釋性、圖預訓練以及復雜圖結構方面仍面臨多重挑戰10。目前,一些圖數據庫已提供原生的圖分析能力,無需將數據導出到外部計算平臺,在圖數據庫內部即可完成圖分析任務。相比于依賴外部計算平臺的架構,原生的圖分析可以免去同外部計算平臺進行數據導入和導出的巨大開銷,同時將計算的實時性由天或小時級別提高至分鐘級甚至秒級。隨著算力不斷提升以及大模型技術持10Jie Zhou,Ganqu Cui,Shengding Hu,Zhengyan Zhang,Cheng Yang,Zhiyuan Liu,Lifeng Wang,ChangchengLi,Maosong Sun,Graph neural networks:

77、A review of methods and applications,AI Open,Volume 1,2020,Pages57-81,ISSN 2666-6510.數據庫發展研究報告(2023 年)35續發展,圖計算技術與圖神經網絡技術將會讓圖數據的價值進一步得到釋放。3.時空數據庫釋放時空數據新潛能時空數據指在統一的時空參考下地球或者其它星體上的所有與位置有關的地理要素或者現象的數據集合?,F實世界中超過 80%的數據與地理位置(空間)相關,而所有數據均含有時間屬性11。實際業務場景中很多數據需要通過時空數據引擎進行處理。因此,能夠實現海量時空數據管理、查詢、統計與分析的時空數據庫應運而

78、生。來源:CCSA TC601,2023 年 6 月圖 29 國內外典型時空數據庫產品時空數據庫主要針對矢量、柵格、瓦片、軌跡、三維模型和激光點云空間數據進行處理。為了提高數據庫對時空數據的管理能力,各家數據庫廠商也面向不同需求開出了不同的引擎。國外如Refractions 基于 PostgreSQL 開發的 PostGIS 可以對矢量、柵格及三維模型數據進行處理,Oracle Spatial 可以對全量空間數據類型進行處理。國內以阿里云 Ganos 引擎和星環 Spacture 為代表,在傳統數11Franklin,Carl and Paula Hane,“An introduction t

79、o GIS:linking maps to databases,”Database.15(2)April,1992,17-22.數據庫發展研究報告(2023 年)36據庫基礎上增加了對于時空數據的動態感知能力,更好地對于時空數據進行處理分析以支撐決策。時空數據庫能夠通過一庫統管的方式對于不同格式的數據進行處理,打破傳統時空數據處理平臺限制。2023 年上半年,中國信通院聯合二十余家單位共同制定時空數據庫技術標準,標準包括幾何對象管理、影像與格網對象管理、移動對象管理、表面網格對象管理及地理網格對象管理五大能力域。未來時空數據庫通過多模融合處理、與 AIGC 深入融合等方式,更好地釋放時空數據價

80、值。三、數據庫行業應用情況綜述數據庫是應用系統運行的關鍵基礎軟件,近些年隨著各行業數字化轉型不斷加速,我國數據庫正朝著由邊緣系統至核心系統、由重點行業向全行業應用鋪開,下文以金融、電信及制造業為例,分別闡述我國數據庫應用創新實踐情況。(一一)金融行業金融行業核心系統改造核心系統改造升級進度加快升級進度加快數據庫作為金融系統的核心基礎設施,歷經數十年發展,為金融行業經營戰略轉型升級提供了有力的技術支撐。在戰略指導下,國內金融機構積極探索分布式數據庫在金融業務中的應用,并已經開始嘗試在核心交易系統中進行分布式改造,取得顯著成果。近一年,我國數據庫在金融行業核心交易系統不斷取得積極成果。從技術架構看

81、,金融行業使用的數據庫仍以集中式為主,分布式數據庫在中大型金融機構形成了有力補充。金融業數據庫供應鏈安全發展報告(2022)調研數據顯示,集中式數據庫在金融業總體占比仍高達 89%,其中銀行 80%,證券和保險業占比均超過 90%,集中式數據庫在金融科技數字化進程中扮演重要角色。金融行業分數據庫發展研究報告(2023 年)37布式數據庫總體占比達到 7%,銀行業超過了 17%,證券業和保險業相對較低。此外,金融業逐步開始探索應用云數據庫,且主要以私有云為主,金融業數據庫供應鏈安全發展報告(2022)調研數據顯示,云數據庫在金融業占比大致在 3.97%。金融行業在近幾年的數據庫遷移改造中,集中式

82、數據庫仍發揮著重要作用,新技術分布式和云原生成為新選擇,共同推進了數據庫在金融行業的廣泛應用實踐。除此之外,以圖數據庫為代表的新型數據庫近年來也在金融行業應用實踐中嶄露頭角。隨著互聯網金融興起,圖數據庫成為金融機構在風險管理、反欺詐、推薦系統和市場分析等系統的關鍵選擇。(二二)電信行業三類系統適配遷移加速推進電信行業三類系統適配遷移加速推進電信行業作為數字中國建設的基礎性、戰略性、先導性產業,是新型數字基礎設施建設者和服務提供者;同時電信行業業務復雜,部分核心應用對性能和高可用性的要求極高,通過 IT 監管環境、數據業務復雜性、核心業務數據類型、成本敏感性四個維度對電信行業支撐系統體系三大域進

83、行分析,分析結果如下表所示。表 7 電信行業支撐體系三大域分析B 域域O 域域M 域域IT 監管環境強強一般數據業務復雜性復雜一般弱核心業務數據特點強事務+分析強事務強事務成本敏感性一般一般一般來源:CCSA TC601,2023 年 6 月數據庫發展研究報告(2023 年)38出于對數據安全等因素考慮,當前我國電信行業幾乎全部采用私有云或自有機房部署的方式。在數據庫部署類型方面,集中式數據庫仍占據主導地位。B 域作為支撐體系的主要業務承載域,其業務數據復雜且有強事務要求,目前主要采用在事務一致性、維護等方面表現突出的集中式數據庫。單庫集中式部署占 60%左右。當面臨對 B 域大量流水類冷數據

84、,以及應對業務相對簡單的 O 域和 M域,通常采用分析型數據庫。此外,分布式數據庫近年逐漸成熟,其平滑擴展的特性適用于業務彈性較大的業務系統,但總體占比較少,在整個支撐體系中不超過 10%。早期分布式數據庫不成熟、事務控制復雜、網絡開銷大等問題導致原生分布式數據庫并未得到廣泛應用,電信行業絕大多數業務數據具備業務隔離特性,通過業務層發起的縱向分庫可以較好解決單庫負載問題,因此基于業務分庫模式的分布式部署方式在部分負載較大的核心業務系統得到應用。來源:CCSA TC601,2023 年 6 月圖 30 電信行業數據庫部署方式分布自 2018 年起,我國數據庫產品在電信行業非核心業務系統的應用逐步

85、增加。公開資料顯示,過去一年,三大電信運營商在各自支數據庫發展研究報告(2023 年)39撐系統中不斷上線我國數據庫產品。未來電信行業數據庫發展趨勢主要有三大方面,一是我國數據庫應用創新進程將邁入深水區,對大型核心生產系統的適配改造將加速推進,二是數據庫產品交付后供應商的維保、服務等將成為運營商選擇數據庫產品的重要考量點;三是運營商紛紛升級或發布自有數據庫產品的同時,各類專業數據庫將在特定場景得到應用,未來電信行業的數據庫選型將進一步呈現多元化、專業化態勢。(三三)制造業數據庫創新應用具備廣闊空間制造業數據庫創新應用具備廣闊空間制造行業是立國之本與強國之基,順應時代發展走向,推動制造業的數字化

86、發展,增強數字技術與自身業務的融合,加速數字產業與制造業的相互融合,不僅可以為企業發展持續注入新動力,更能持續推動我國制造業高質量發展。受我國工業發展基礎影響,我國工業數據環境面臨著數據量不斷激增、數據類型復雜、數據治理難等問題。導致一是數據量爆炸性增長對數據庫性能提出新的要求,二是數據庫需要融合行業特征提供特定的計算模型以適配業務需求,三是工業領域我國數據庫產業生態尚未完全建立。目前工業領域各系統存在著相互隔離、信息孤島等問題,數據庫方面也沒有形成統一的技術標準、服務標準、管理標準和安全標準,尚未實現在系統兼容、數據共享、信息安全以及互聯互通等方面的模式創新。表 8 制造行業典型系統及數據庫

87、類型分布情況業務系統類型業務系統類型業務系統業務系統主流國外廠商主流國外廠商國內廠商國內廠商數據庫類型數據庫類型研發設計EDA、PDM、PLM 等Cadence、Synopsys、Siemens概倫電子、華大九天、思爾芯等Oracle生產制造MES、YMS、EAP、RTD、PMS、QMS 等西門子、霍尼韋爾、GE、IBM 等華為、上揚軟件、賽美特、哥瑞利等Oracle、DB2、數據庫發展研究報告(2023 年)40SQLServer經營管理ERP、SCM、SRM、CRM、WMS 等SAP、Oracle、Salesforce用友、金蝶、鼎捷、浪潮等Oracle、HANA來源:CCSA TC601

88、,2023 年 6 月當前制造業在數據庫應用創新方面呈現如下特點,一是工業領域數據量激增,數據庫需求大,市場廣闊。二是工業領域部分場景已開始試點運行我國數據庫產品。國內已有 30 多款時序數據庫產品在新能源發電、儲能智慧運維等場景中落地應用。隨著新一代信息技術與制造業的深度融合,工業大數據在制造業的發展具備了一定的技術基礎,未來將呈現三大趨勢,一是向工業云和邊緣計算發展。二是更加重視數據治理和質量控制。三是分布式數據庫助力工業云化發展。隨著工業互聯網深入發展,企業需要將數據集中存儲在云端,以便數據的共享和協同工作。分布式數據庫能夠支撐多節點的數據存儲和管理,提高數據的可靠性和可擴展性。數據庫發

89、展研究報告(2023 年)41四、總結與展望在全球數字經濟浪潮下,數據庫作為承載數據存算的關鍵數據技術,正經歷又一輪發展熱潮。當前,我國數據庫行業市場前景廣闊,產業欣欣向榮,正在經歷由“數量型”向“質量型”關鍵轉變期。產業層面看,全球數據庫市場穩步增長,理論技術推陳出新,我國數據庫企業增速仍在高位,開源數據庫產品不斷豐富,在云原生數據庫、圖數據庫、全密態數據庫等新興賽道實現引領發展。數據庫未來將支撐著更多關鍵業務系統運行和海量數據價值挖掘,這對于數據庫的架構設計、生態建設等方面提出了更嚴苛的要求。技術層面看,數據庫與 GPU、RDMA、NVMe 等新興硬件不斷融合發展,打破傳統數據庫邊界,持續

90、為在線業務創造價值。數據庫也在持續與以 AI 大模型為代表的人工智能技術、云原生技術、區塊鏈技術和隱私計算技術等新興 IT 技術有機融合,以滿足日益變革的新興業務需求。從應用側看,我國數據庫應用創新實踐邁入新階段,其應用范圍已從對能力需求較低的辦公、郵件等外圍系統,逐步向金融、電信等關鍵行業中,對性能需求極高、穩定性要求極強的賬務、調度等核心系統深入?!八问?,日月生輝”。我國數據庫產業發展過程中,需凝聚產業鏈各方力量,久久為功,持續推動數據庫技術創新、生態培育和應用落地,從而支撐數字中國建設,構筑國家競爭新優勢。數據庫發展研究報告(2023 年)42大數據技術標準推進委員會大數據技術標準推進委員會地址:地址:北京市海淀區花園北路北京市海淀區花園北路 5 52 2 號號郵編:郵編:1 10019100191郵箱:郵箱:TC601CCSATC601CCSA網址:網址:om

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(大數據技術標準推進委員會:數據庫發展研究報告(2023年)(53頁).pdf)為本站 (面朝大海) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站