《大數據技術標準推進委員會:2022年開源數據庫發展研究報告(38頁).pdf》由會員分享,可在線閱讀,更多相關《大數據技術標準推進委員會:2022年開源數據庫發展研究報告(38頁).pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、開源數據庫發展研究報告(2022 年)大數據技術標準推進委員會數據庫應用創新實驗室2022 年 7 月編寫委員會 主要編寫單位主要編寫單位(排名不分先后):中國信息通信研究院云計算與大數據研究所、江蘇省農村信用社聯合社、Apache Doris 社區、杭州石原子科技有限公司、openGauss社區、北京科藍軟件系統股份有限公司、廣州巨杉軟件開發有限公司、平凱星辰(北京)科技有限公司、OpenMLDB 社區、云和恩墨(北京)信息技術有限公司、成都虛谷偉業科技有限公司、上海新炬網絡信息技術股份有限公司、北京萬里開源軟件有限公司、ApacheShardingSphere 社區、騰訊云計算(北京)有限
2、責任公司、阿里云計算有限公司、瀚高基礎軟件股份有限公司、中興通訊股份有限公司、北京極數云舟科技有限公司、北京濤思數據科技有限公司 問卷支撐單位問卷支撐單位(排名不分先后):dbaplus 社群、墨天輪、InfoQ、盤古云課堂 編寫組主要成員編寫組主要成員(排名不分先后):馬嘉慧劉思源馬鵬瑋魏凱姜春宇閆樹王蘊韜龔嘉慶張志強李明康杜培亮李浩王力玉楊銳向新勇楊征濤祝志偉魏晗清張積斌史新龍黃東旭劉松陸雨霄盧冕鄭曌安新亞楊明翰李軼楠明玉琢蘇德財黃元霞程永新梁銘圖黃國標李楊桅徐爽韓鋒張亮潘娟蘇強張曉于巍驚玄德哥張進路熊華龍王守波白國華魏波王其達汪彥舒王文娟周彥偉前前言言開源憑借其平等、開放、協作、共享的特
3、性,正在提升軟件開發效率,成為數字化時代軟件生產協作的主要方式。數據庫作為一種重要的基礎軟件,其發展創新也深受開源趨勢的影響。當前,全球開源數據庫的流行度超過商業數據庫,圍繞開源數據庫的產業體系正處在繁榮發展階段,頭部企業紛紛入局,新興企業不斷涌現,開源產品不斷增加,新經濟行業的需求不斷觸發新的產品需求,非關系型開源數據庫等技術創新勢頭強勁,供應商正在探索開源數據庫商業化發展之路。我國開源數據庫市場順勢進入高速發展階段,未來發展空間巨大。但值得注意的是,由于我國開源數據庫發展時間較短,開源生態活躍度有待進一步激發,有效的開源風險治理模式仍在探索中。本報告系統分析開源數據庫的發展歷程,探尋開源數
4、據庫產業興起動因,厘清開源數據庫產業鏈,從供需兩側入手剖析產業現狀,同時就供給側和需求側最關心的產品商業化及相關風險問題展開討論。由于水平所限,錯誤和不足之處在所難免,歡迎各位讀者批評指 正,該 報 告 為 公 開 簡 版,欲 了 解 詳 細 版 本,請 聯 系。目目錄錄一、開源數據庫發展概述.1(一)全球開源數據庫步入繁榮發展期.1(二)我國開源數據庫發展進入快車道.3二、開源數據庫產業現狀.7(一)開源數據庫產業鏈.8(二)供給側:產品數量多差異大,開發者生態有待進一步構建.9(三)需求側:傳統行業紛紛入局,新經濟行業或將成為應用主力軍.16三、開源數據庫商業模式.23(一)開源數據庫商業
5、模式分類:訂閱式最受我國需求方青睞.23(二)開源數據庫商業環境:九成需求方有付費意愿,服務價值是商業化的經濟關鍵.25四、開源數據庫風險分類.26(一)開源數據庫風險現狀:漏洞風險是使用方最擔心的風險.27(二)開源數據庫風險分類及產生根因.28五、總結與展望.30圖圖 目目 錄錄圖 1全球開源數據庫產品開源時間.2圖 2中國開源數據庫產品開源時間.4圖 3開源和商業數據庫流行度歷史趨勢.5圖 4開源數據庫產業鏈架構圖.8圖 5全球現存開源數據庫產品地域分布.9圖 6全球開源數據庫產品類型.10圖 7開源數據庫產品 Star 數.11圖 8開源數據庫產品 Contributor 數.12圖
6、9開源數據庫產品 Pull Request 數.13圖 10主流開源協議.14圖 11全球開源數據庫使用 License 情況.15圖 12我國開源數據庫使用 License 情況.15圖 13我國開源數據庫使用情況.16圖 14我國開源數據庫需求方行業分布圖.17圖 15我國金融業開源數據庫使用情況.18圖 16我國金融業使用開源數據庫原因.18圖 17我國金融業不使用開源數據庫原因.19圖 18我國新經濟行業使用開源數據庫原因.20圖 19我國新經濟行業使用開源數據庫類型.21圖 20我國新經濟行業使用開源數據庫原因.22圖 21我國新經濟行業不使用開源數據庫原因.22圖 22我國開源數據
7、庫應用方愿意采取的付費方式.24圖 23我國開源數據庫使用方付費意愿.25圖 24我國開源數據庫使用方付費原因.26圖 25影響開源數據庫大規模使用的原因.27圖 26 使用方最擔心發生的風險.28表表 目目 錄錄表 1部分開源相關政策節選.6表 2開源數據庫主流商業模式對比.231開源憑借其開放、共享、協同的特性,不斷加速產業迭代升級,促進產業協同創新,成為數字經濟時代全球軟件和產業創新的主導模式。數據庫是基礎軟件的核心,也是支撐數字經濟最關鍵的基礎設施,近年來在開源領域的熱度更是居高不下。全球知名數據庫流行度排行榜網站 DB-Engines 數據顯示,從 2021 年初開始開源數據庫的流行
8、度已經超過商業數據庫1,全球權威 IT 研究與顧問咨詢公司 Gartner 表示開源數據庫的數量和影響持續走高,并判斷開源數據庫將是數據庫未來發展趨勢2。一、一、開源數據庫發展概述開源興起于軟件行業,是源代碼開放共享的開發模式,具有自由開放、共建共享的特性。開源,即開放源代碼。業界對開源數據庫尚未有正式定義,目前業界普遍認為開源數據庫是指源代碼完全公開,允許其他人在遵守開源許可協議的條件下自由獲取源代碼,并能夠基于開放源碼進行研究、運行、使用、復制、修改、改進、擴展和再次傳播發布的數據庫。(一一)全球開源數據庫步入繁榮發展期全球開源數據庫步入繁榮發展期全球開源數據庫起步早,發展晚。全球首款開源
9、數據庫誕生于20 世紀 70 年代,由加州大學伯克利分校的 Michael Stonebraker 和Eugene Wong利用IBM 公司已發布的信息及關系模型的理論開發而來。在五十多年發展過程中,全球開源數據庫主要經歷了三個發展1Db-(DB-Engines Ranking Opensource vs.Commercial DBMS)2Gartner 2階段,分別是 1970 到 2000 年的萌芽期、2001 到 2010 年的高速增長期,以及 2011 年之后的繁榮發展期。來源:中國信息通信研究院,2022 年 6 月圖 1 全球開源數據庫產品開源時間在 1970-2000 年間,關系
10、型和非關系型開源數據庫開始萌芽,主要以關系型開源數據庫為主。1994 年,鍵值型數據庫 BerkeleyDB的正式開源標志著非關系型數據庫開源的萌芽。1996 年 MySQL 正式開源,掀起了關系型開源數據庫的發展浪潮,隨即涌現了一批如PostgreSQL、SQLite 和 Firebird 等知名開源關系型數據庫。進入2001 年,開源數據庫迎來高速增長。2001 年到 2005 年間出現的開源數據庫是 2001 年前出現的 1.3 倍,在該階段由于非關系型數據庫的盛行,大量開源數據庫類型不斷涌現,這一階段的特征是非關系型和關系型開源數據庫發展并存。比如文檔型開源數據庫 CouchDB、鍵值
11、型開源數據庫 Memcached 和 Redis、寬列型數據庫 Cassandra和 Accumulo、圖數據庫 Neo4j 等均在這一時期出現。2011 年,451Group 公司的 Matthew Aslett 在其論文中首次提3出了 NewSQL 概念。2012 年谷歌在 OSDI(USENIX Symposium onOperating Systems Design and Implementation)上發表了 Spanner 系統 的 論 文,2013 年 在SIGMOD(Special Interest Group onManagement Of Data)發表了 F1 系統的論
12、文,這兩篇論文讓業界第一次看到了關系模型和 NoSQL 的擴展性在超龐大集群規模上融合的可能性,由此開始誕生了多模(Multi-model)或混合型(HybridTransaction and Analytical Process,HTAP)開源數據庫,比如Cockroach Labs 就用 Spanner+F1 論文開發了 CockroachDB 分布式數據庫,此外還有 YugabyteDB 等數據庫。NewSQL 開源數據庫的涌入使全球開源數據庫市場更加活躍,隨著新型多模開源數據庫越來越多,開源數據庫與商業的結合也隨之加深,開源數據庫探索商業化發展之路是這一時期的主要特征,典型產品有 Cl
13、ickhouse、ArangoDB 等。在資本浪潮下,可以預見開源數據庫的市場流行度會越來越高。(二二)我國開源數據庫發展進入快車道我國開源數據庫發展進入快車道我國開源數據庫起步晚,增速整體呈上升趨勢。同國際開源數據庫發展歷史相比,我國開源數據庫起步落后近三十年。在1970-2000年的萌芽階段以及2001到2010年的高速增長階段基本屬于停滯狀態。1970-2010 年之間,雖然有國產數據庫的研發,但是并未進行開源。4來源:中國信息通信研究院,2022 年 6 月圖 2 中國開源數據庫產品開源時間2014 年,巨杉數據庫宣布開源文檔型數據庫 SequoiaDB,成為國內最早開源的數據庫項目。
14、此后我國開源數據庫不斷發展,從 2019年開始進入發展高峰期,2021 年出現井噴式爆發,年增長率達到400%。資本涌入和政策利好是助推國產開源數據庫發展的關鍵因素。2019 年,國際開源數據庫流行熱度繼續攀升,且有超過商業數據庫的趨勢。同時國際上走開源路線的公司不斷獲得市場認可,如MongoDB 股價突破百元大關,達到 151 美元。開源出非關系型數據庫 ElasticSearch 的 Elastic 公司于 2018 年 10 月在紐交所上市,上市首日就交出了最高股價為 74.2 美元,最高漲幅達到 106%的優秀答卷。國際開源市場的火熱引發國內市場開展基于開源的商業化路徑的思考和布局,國
15、內掀起開源數據庫熱潮。2019 年,阿里將開源升級為技術戰略,成立開源技術委員會。騰訊首次捐獻開源項目到Apache 軟件基金會。濤思數據宣布將其時序數據庫產品 TDengine開源,歐若數網正式開源發布分布式圖數據庫 Nebula Graph Alpha5V1.0 版本。來源:DB-Engines,2022 年 6 月圖 3 開源和商業數據庫流行度歷史趨勢進入 2021 年,政策利好是推動國產開源數據庫“井噴式”爆發的直接原因。2021 年,“開源”首次被明確列入國民經濟和社會發展五年規劃綱要。綱要提到“支持數字技術開源社區等創新聯合體發展,完善開源知識產權和法律體系,鼓勵企業開放軟件源代碼
16、、硬件設計和應用服務?!庇纱丝梢钥吹絿以趹鹇詫用鎸﹂_源的肯定和支持。而后開源支持政策不斷加碼,在支持開源社區、完善開源知識產權和法律體系、發展開源標準、培育開源項目、繁榮開源軟件方面密集出臺一系列政策。政策的重視和引導帶來了關鍵行業推動開源的良好氛圍、為我國更多企業擁抱開源奠定了堅實制度基礎。這一時期國產開源數據庫不斷涌現,如 2021 年 5 月,阿里云宣布對外開放關系型數據庫 PolarDB for PostgreSQL 源代碼;2021 年 6 月,螞蟻集團宣布開源 OceanBase;同年 6 月第四范式宣布開源面向機器6學習應用的關系型數據庫 OpenMLDB。表 1 部分開源相關
17、政策節選2021年1月工業互聯網創新發展行動計劃(2021-2023 年)二、重點任務(二)數據匯聚賦能行動。17.培育高質量工業 APP?!鞍l展基于數字孿生技術的工業智能解決方案,支持開源社區、開發者社區建設,發展工業 APP 商店,促進工業 APP 交易流轉?!?021年3月中華人民共和國國民經濟和社會發展第十 四 個 五 年 規 劃 和2035 年遠景 目標綱要第五篇加快數字化發展 建設數字中國第十五章打造數字經濟新優勢第一節加強關鍵數字技術創新應用“加快布局量子計算、量子通信、神經芯片、DNA存儲等前沿技術,加強信息科學與生命科學、材料等基礎學科的交叉創新,支持數字技術開源社區等創新聯
18、合體發展,完善開源知識產權和法律體系,鼓勵企業開放軟件源代碼、硬件設計和應用服務?!?021年6月工業和信息化部 中央網絡安全和信息化委員會辦公室關于加快推動區塊鏈技術應用和產業發展的指導意見一、重點任務(二)打造現代產業鏈4.建立開源生態?!凹涌旖ㄔO區塊鏈開源社區,圍繞底層平臺、應用開發框架、測試工具等,培育一批高質量開源項目。完善區塊鏈開源推進機制,廣泛匯聚開發者和用戶資源,大力推廣成熟的開源產品和應用解決方案,打造良性互動的開源社區新生態?!?021年9月物聯網新型基礎設施建設三年行動計劃(20212023 年)二、重點任務(一)創新能力提升行動3.構建協同創新機制?!肮膭铨堫^企業聯合上
19、下游企業組建物聯網產業技術聯盟,探索“專利+標準+開源社區”發展模式,激發創新活力。依托基金會、開源社區,聚集開發者和用戶資源,共同打造成熟的開源產品和應用解決方案,形成具有國際競爭力協同創新生態?!?021年9月知識產權強國建設綱 要(2021 2035年)三、建設面向社會主義現代化的知識產權制度(七)構建響應及時、保護合理的新興領域和特定領域知識產權規則體系?!巴晟崎_源知識產權和法律體系?!?021 年 10月 國 務 院 關 于 印 發“十四五”國家知識產權保護和運用規劃的通知三、全面加強知識產權保護,激發全社會創新活力(四)完善知識產權法律政策體系?!巴晟崎_源知識產權和法律體系?!?0
20、21 年 10月國家標準化發展綱要八、夯實標準化發展基礎(三十)提升標準化技術支撐水平?!鞍l展機器可讀標準、開源標準,推動標準化工作向數字化、網絡化、智能化轉型?!?2021 年 11月工業和信息化部關于印發“十四五”軟件和信息技術服務業發展規劃的通知三、總體要求(二)基本原則“應用牽引,生態優化。堅持生態培育,繁榮開源軟件,完善公共服務,優化產業生態?!保ㄈ┌l展目標“生態培育獲得新發展。培育一批具有生態主導力和核心競爭力的骨干企業,到 2025 年,主營業務收入達百億級企業過百家,千億級企業超過 15 家。建設 2-3個有國際影響力的開源社區,培育超過 10 個優質開源項目?!?021 年
21、 11月工業和信息化部關于印發“十四五”大數據產業發展規劃的通知四、主要任務(三)夯實產業發展基礎加強技術創新?!把a齊關鍵技術短板,重點強化自主基礎軟硬件的底層支撐能力,推動自主開源框架、組件和工具的研發,發展大數據開源社區,培育開源生態,全面提升技術攻關和市場培育能力?!?022年1月知識產權強國建設綱要和十四五規劃實施年度推進計劃(三)完善新興領域和特定領域知識產權規則21“研究制定信息技術開源知識產權合規標準、開源社區代碼貢獻規則標準等,開展行業開源知識產權風險及合規問題研究,加強行業開源知識產權合規評估與培訓?!?022年1月中國銀保監會辦公廳關于銀行業保險業數字化轉型的指導意見六、風
22、險防范(二十七)強化網絡安全防護?!敖⑿录夹g引入安全風險評估機制,強化技術風險管理,實施開源軟件全生命周期安全管理。建設安全運營中心,充分利用態勢感知、威脅情報、大數據等手段,持續提高網絡安全風險監測、預警和應急處置能力,加強行業內外部協同聯動?!?022年1月 國 務 院 關 于 印 發“十四五”數字經濟發展規劃的通知六、加快推動數字產業化(一)增強關鍵技術創新能力?!爸С志哂凶灾骱诵募夹g的開源社區、開源平臺、開源項目發展,推動創新資源共建共享,促進創新模式開放化演進?!保ㄋ模I造繁榮有序的產業創新生態?!肮膭铋_源社區、開發者平臺等新型協作平臺發展,培育大中小企業和社會開發者開放協作的數字
23、產業創新生態,帶動創新型企業快速壯大?!眮碓矗汗_信息整理二、開源數據庫產業現狀歷經 50 余年發展,全球開源數據庫產業正處在繁榮發展期,市場內參與者增多,產品迭代速度加快,開源數據庫正在覆蓋越來越8多的行業,以開源數據庫為中心的產業鏈逐漸清晰。(一一)開源數據庫產業鏈開源數據庫產業鏈來源:中國信息通信研究院,2022 年 6 月圖 4 開源數據庫產業鏈架構圖和傳統軟件業“產品生產者-產品-產品使用者”的產業鏈條近似,開源數據庫產業本質上也是由產品的生產到使用的過程。由于開源具有開放、平等、協作、共享的特性,“構建生態”是開源數據庫產業中必不可少的一部分。所以和傳統軟件產業略有不同的是,開源數
24、據庫產業鏈中增加開源社區一環??偟膩碚f,開源數據庫產業主體有:開源貢獻者,開源貢獻者一般是個人或者企業。開源貢獻者通過多種形式參與到開源項目的貢獻中,比如貢獻開源數據庫源代碼等;開源社區,開源社區是開源項目在運營中處的環境,環境由開源貢獻者,及促進開源項目發展的群體(如開源基金會、代碼托管平臺、行業論壇等)共同構建維護。開源使用者,開源使用者可以是使用開源代碼、開源數據庫或開源解決方案的個人或企業。產業鏈典型運行方式是由開源貢獻者將開源數據庫的源代碼在社區中發布,代碼的使用者可以進行二次開發或迭代,并在開源許可證的約束下使用開源數據庫迭代版本。開源社區中其他組織或機構協同9配合,實現技術交流或
25、商業開發目的。本章將圍繞開源數據庫產品,從產品供給和需求兩側,分析開源數據庫產業現狀。(二二)供給側:產品數量多差異大,開發者生態有待進供給側:產品數量多差異大,開發者生態有待進一步構建一步構建1.產品數量:產品主要集中在美中,歐洲居其后來源:中國信息通信研究院,2022 年 6 月圖 5 全球現存開源數據庫產品地域分布全球開源數據庫產品共 200 款,美國遙遙領先,中英德居其后。據中國信通院統計,截止 2022 年 6 月,全球現存開源數據庫產品數量共 200 款,美國產品數量以 107 款遙遙領先,占比 53.5%。中國以 29 款產品居其后,占比 14.5%。英國、德國、荷蘭分別擁有 1
26、1、9 和 6 款產品,占比為 5.5%、4.5%和 3.0%。2.產品類型:全球以非關系型為主,我國非關系型和關系型相持平10來源:中國信息通信研究院,2022 年 6 月圖 6 全球開源數據庫產品類型全球開源數據庫產品數量整體分布呈現非關系型及混合型數據庫遠超關系型數據庫的局面。據中國信通院統計分析,截止 2022年6月,全球開源數據庫產品共有200款。非關系型數據庫占比70.0%。在非關系型數據庫中,鍵值型數據庫、圖數據庫、時序數據庫和文檔數據庫是主要的非關系型開源數據庫類型。中國開源數據庫產品數量整體分布呈現以關系型和非關系型基本持平的局面。據中國信通院統計分析,截止 2022 年 6
27、 月,中國開源數據庫產品共有 29 款。關系型數據庫 15 個,非關系型數據庫有 14 個,占比分別為 52.0%和 48.0%。非關系型數據庫中,時序數據庫和圖數據庫占比較高,分別為 21.4%和 21.4%。3.項目生態:全球近半數開源項目活躍度不高,我國開發者生態有待進一步構建11來源:GitHub,2022 年 6 月圖 7 開源數據庫產品 Star 數全球 Star 數超過 5000 項目僅兩成,美國占據近 80%席位。Star是 Github 上的指標之一,用來表示 Github 用戶對開源項目的興趣或滿意度。全球來看,開源數據庫產品項目的 Star 數主要集中在101-500 和
28、 1001-3000 兩個區間。只有 22%的項目 Star 數為 5000 以上,其中美國占比 77.3%,我國占比 9.1%??傮w上,全球受歡迎度高的項目不多,美國擁有最多的歡迎度高項目。我國開源數據庫的項目受歡迎程度中等偏高,但和美國相比仍有較大差距。在我國內,各開源數據庫項目發展水平差異較大,大多數產品受關注和歡迎程度中等偏高。12來源:GitHub,2022 年 6 月圖 8 開源數據庫產品 Contributor 數全球近半數開源數據庫項目 Contributor 數不足 30,我國不同項目間 Contributor 數差距近千倍。Contributor 代表在 Github 項目
29、中幫助解答用戶的問題,貢獻代碼或文檔,在郵件列表中參與討論設計和方案的用戶。在全球范圍內,近半數開源數據庫項目的 Contributor數量主要集中在 0-30 區間,占比 43.5%。只有 12.5%的項目Contributor 數為 300 以上,其中美國占比 84.0%,我國占比 12.1%。從我國看,我國也主要集中在 0-30 之間。Contributor 數小于 50 和大于 500 的項目數占國內項目總數比分別為 48.3%和 3.4%??梢钥吹?,全球開發者活躍度高的項目較少,美國擁有最多的開發者高活躍度項目,我國開發者活躍度較低。在我國內,各開源數據庫項目開發者活躍度差異較大,半
30、數項目開發者活躍度較低。13來源:GitHub,2022 年 6 月圖 9 開源數據庫產品 Pull Request 數在 Pull Request 數量超過 5000 的項目中,美國是我國 5 倍。PullRequest 是評估開發者生態是否活躍的另一重要指標。從全球看,Pullrequest 數量主要集中在小于 50 的范圍內,占比 31.5%。只有 16%項目的 Pull Request 數量超過 5000,其中美國占比 78.1%,我國占比15.6%。美國的Pull Request 數主要集中在 50 以下和 1001-3000 之間。從我國看,我國也主要集中在小于 50 和 101
31、到 500 之間,占我國開源數據庫項目比分別為 24.1%和 24.1%。Pull Request 數小于 100 和大于 10000 的項目數占國內項目總數比分別為 31.0%和 6.9%??梢钥吹?,我國開源數據庫項目的開發者活躍度參差不齊,只有不足 10%的項目具有高活躍度,半數項目開發者活躍度較低,開發者生態有待構建。4.開源協議:Apache License 被使用最多,寬松許可協議較受青睞開源協議(License)是一種法律許可。通過它,版權擁有人明14確允許用戶可以免費地使用、修改、共享版權軟件。它是一種具有法律性質的合同,目的在于規范受著作權保護的軟件的使用或者分發行為。來源:中
32、國信通院,2022 年 6 月圖 10 主流開源協議按照國際開源領域官方組織 OSI(Open Source Initiative)根據使用條件的劃分,開源許可證可分為兩類:寬松許可協議(PermissiveLicense)和反版權許可證(Copyleft License)。前者允許用戶不經許可能夠隨意復制、修改和發布,但是并不要求分發時必須使用相同的許可證,用戶可以在修改代碼后選擇閉源,這也為原作品的自由使用、修改和傳播等提供更大的空間,常見的 Apache、BSD、MIT屬于此類寬松式許可證。后者則意味著未經許可,用戶無權復制和使用,如 GPL 是典型的強著作權許可證。15來源:中國信息通
33、信研究院,2022 年 6 月圖 11 全球開源數據庫使用 License 情況來源:中國信息通信研究院,2022 年 6 月圖 12 我國開源數據庫使用 License 情況寬松式開源協議更受青睞,我國國產木蘭協議嶄露頭角。據中國信通院統計,全球開源數據庫領域使用最多的開源協議分別是Apache,GPL,MIT,AGPL,BSD,LGPL 和 Mozilla。其中 Apache 協議被使用最多,過半數開源數據庫均采用此協議。其中 65.5%的開源16數據庫使用 Apache、BSD、MIT 這類較為寬松的開源協議。我國開源數據庫使用的協議以 Apache,GPL,AGPL,BSD,Elast
34、ic,和國產的木蘭開源協議為主。其中 Apache 協議被使用最多,過 60%的開源數據庫均采用此協議。其中近 70%的開源數據庫使用 Apache、BSD 這類較為寬松的開源協議。(三三)需求側:傳統行業紛紛入局,新經濟行業或將成需求側:傳統行業紛紛入局,新經濟行業或將成為應用主力軍為應用主力軍隨著開源理念的不斷深入以及政策推動,需求側大面積擁抱開源數據庫。來源:中國信息通信研究院,2022 年 6 月圖 13 我國開源數據庫使用情況據中國信通院調研統計,我國目前已經有 86.8%的公司或組織表示正在使用開源數據庫,4.8%的公司或組織表示正在選型中,可見約 90%的企業或組織已傳遞出對開源
35、數據庫的需求。開源數據庫購買成本低、功能性能滿足使用需求、行業使用開源的趨勢、社區生態繁榮以及政策支持是使用開源數據庫的主要原因。17來源:中國信息通信研究院,2022 年 6 月圖 14 我國開源數據庫需求方行業分布圖從使用情況和使用意愿來看,互聯網、金融、電信、制造等行業已經開始使用開源數據庫。其中互聯網和金融是使用開源數據庫最多的兩個行業。同時,零售、餐飲、商業地產等行業對開源數據庫的使用也值得關注,在有開源數據庫使用需求的公司或組織中,有 13.7%來自于這些行業,已經成為開源數據庫應用端一股不可忽視的力量?;ヂ摼W行業始終走在新興技術前沿,其科技儲備能力強、對企業運營成本敏感、IT 監
36、管環境較為寬松以及業務更新迭代速度快等特點,決定了開源數據庫成為很多互聯網企業的首選。然而以金融為代表的,具有強科技儲備能力、嚴格的 IT 監管環境、高數據業務復雜度以及低成本敏感度的行業為什么會選擇開源數據庫。以及以零售、餐飲、商業地產為主的新興行業選擇使用開源數據庫的原因是什么。接下來本節將重點梳理金融行業和新興行業的業務特點,探究開源數據庫的使用動機并研判需求趨勢。181.金融業:核心業務場景持慎重態度,非關鍵業務場景擁抱開源來源:中國信息通信研究院,2022 年 6 月圖 15 我國金融業開源數據庫使用情況伴隨金融互聯網轉型的迅速發展,傳統單一的數據庫很難滿足多元化的金融業務場景的需要
37、,這驅使著金融行業面臨多重數據庫選型的問題。為了應對金融互聯網化帶來的挑戰,開源數據庫系統逐漸成為金融行業的選型方案,并正在占據非關鍵業務場景。據中國信通院調研統計,約 66.7%的金融行業已經使用開源數據庫,20.0%的金融行業表示正在選型中。來源:中國信息通信研究院,2022 年 6 月圖 16 我國金融業使用開源數據庫原因19來源:中國信息通信研究院,2022 年 6 月圖 17 我國金融業不使用開源數據庫原因其中,行業趨勢、政策支持、生態社區繁榮以及產品功能或性能滿足需求,是金融行業目前選擇使用開源的原因。而擔心運維難度大、開源存在風險,是金融行業不使用開源的主要原因。當前,金融行業業
38、務場景大致分為四個類別:核心應用類、內部管理類、服務應用類、渠道應用類。這四個類別根據重要性程度分別對應ABCD 四個等級,最高等級為 A 核心應用類。A 類場景非??粗貜娨恢滦?,對高可用、高可靠、高穩定及 7*24 小時服務有極高的要求。這種要求下,大型銀行在 A 類場景使用開源數據庫的案例很少。目前,主流開源數據庫在金融行業的 B 內部管理、C 服務應用和 D 渠道應用場景下占據重要位置,如辦公系統、人力資源系統、審計系統和綜合審計平臺中多使用 MySQL、PostgreSQL 等產品;在影像系統、電子檔案系統中多使用 MongoDB、Redis 等產品。近年來,隨著金融科技互聯網化發展、
39、技術層面的國產化需求迫切、IT 端安全可控要求加強,部分銀行開始探索分布式架構,以此應對全量數據20場景下對實時處理能力的挑戰,分布式開源數據庫作為分布式體系的一部分或將迎來發展機會。2.新經濟行業:新業態下對開源數據庫需求攀升,運維能力弱是新經濟企業的核心痛點來源:中國信息通信研究院,2022 年 6 月圖 18 我國新經濟行業使用開源數據庫原因本節分析的“新經濟企業”區別于純互聯網企業,是指業務模式涉及線下門店與線上直銷,且有實體產品或服務交付的,服務對象是海量最終消費者3的企業。具體包括新零售、餐飲以及商業地產行業。IT 預算投入不足、原有科技儲備能力較弱是這類企業的普遍特征。新冠疫情促
40、使新經濟企業將業務轉移到了線上,海量數據的涌入,突發的高峰流量和實時業務分析壓力為他們帶來了挑戰。在新業態的挑戰下,開源數據庫以其成本低的特性迅速吸引了新經濟行業的關注。據中國信通院調研統計,61.2%的新經濟企業正在使用開源數據庫,還有 25.7%的企業表示正在選型中。3資料來源:新經濟 DTC 用戶場景白皮書21來源:中國信息通信研究院,2022 年 6 月圖 19 我國新經濟行業使用開源數據庫類型據中國信通院調研,當前我國新經濟行業使用非關系型開源數據庫的比例略高于關系型開源數據庫。在非關系型開源數據庫的中,全文檢索數據庫、文檔數據庫、鍵值數據庫、時序數據庫和圖數據庫是主要的使用類型。M
41、ySQL、PostgreSQL、ClickHouse、GreenPlum、TiDB、Apache Doris 是使用頻率較高的關系型開源數據庫,Elasticsearch、Redis、Prometheus、MongoDB 是使用頻率較高的非關系型開源數據庫。22來源:中國信息通信研究院,2022 年 6 月圖 20 我國新經濟行業使用開源數據庫原因來源:中國信息通信研究院,2022 年 6 月圖 21 我國新經濟行業不使用開源數據庫原因據中國信通院調研統計,購買成本低、功能或性能滿足使用需求、運維工具或平臺豐富、開發模式靈活、政策支持是新經濟行業選擇使用開源數據庫的主要考量因素。由于大部分新經
42、濟行業屬于業務導向,且自身運維團隊實力不強,所以運維保障能力弱、運行穩定性差和風險高是阻礙新經濟行業使用開源數據庫的主要原因。未來,隨著數字化轉型壓力的不斷加大,新經濟行業或將成為使用開源數據庫的主戰場。操作復雜度低、運維有保障的開源數據庫將23受到新經濟企業的更多青睞。三、開源數據庫商業模式隨著開源生態的日益成熟,開源逐漸被用作驗證市場、獲取客戶的商業布局手段。近年來,在業務體量和業務復雜度的提升下,市場對開源數據庫的產品能力和技術服務能力有了更高的要求。在市場需求下,部分開源產品開始探索商業化發展之路。本章將介紹當前開源數據庫采用的主流盈利模式,以及通過用戶側的真實反饋分析較為可行的商業模
43、式。(一一)開源數據庫商業模式分類:訂閱式最受我國需求開源數據庫商業模式分類:訂閱式最受我國需求方青睞方青睞表 2 開源數據庫主流商業模式對比訂閱式雙版本式云服務式毛利率20%-40%60%-80%40%-70%客戶保留率低中高競爭壁壘低高中規?;芰χ懈吒邅碓矗築lossom Capital 及公開資料整理國際上開源數據庫常用的盈利模式主要有三種,一是訂閱式。訂閱式是指發售企業級的訂閱制軟件,并為企業提供各類開源解決方案服務,代表企業有開源解決方案提供商 Redhat。訂閱式的本質是出售服務,核心資產是大量的運維人員。該模式的競爭壁壘較低,且由于需要大量的人力提供運維保障,運營成本較高。在收
44、入情況不穩定時,訂閱式難以規?;_展。二是雙版本式。采取雙版本商業模式的產品通常有兩個版本,24即免費的“社區版”和需要付費的“商業版”。商業版產品是指開源數據庫供應商依照開源協議許可,在開源社區版本的基礎上,提供有更豐富的功能和性能的產品,代表供應商如 Elastic。該模式主要依靠提供商業版產品盈利,由于產品研發成本可以借助開源社區的力量分擔,所以總體來說利潤率較高。但是這一模式下如何兼顧開源版本和商業版本的利益,對供應商是一個考驗。三是云服務式。隨著云計算的發展,云端部署的商業模式興起。在這種模式下,客戶可以直接付費使用部署在云端的開源軟件,省去了自己運維部署的麻煩,代表供應商如 Mon
45、goDB。對供應商來說,由于用戶在此種模式下的替換成本較高,所以這種模式擁有較高的客戶保留率。但是價格受客戶支付意愿的影響較大,如果價格明顯高于底層基礎設施建設的成本,大部分公司會選擇自己托管,尤其對于技術實力比較強的公司來說更是如此。來源:中國信息通信研究院,2022 年 6 月圖 22 我國開源數據庫應用方愿意采取的付費方式從中國信通院對開源數據庫需求方的調研來看,訂閱式是當前25國內用戶首選的付費方式,占比 44.6%。使用靈活便捷和能夠提供運維保障服務是訂閱式深受需求方青睞的主要原因,可以看到看重運維服務能力以及降低對單一供應商的依賴是當前應用端的明顯趨勢。(二二)我國開源數據庫商業環
46、境:九成需求方有付費意我國開源數據庫商業環境:九成需求方有付費意愿,服務價值是商業化的經濟關鍵愿,服務價值是商業化的經濟關鍵來源:中國信息通信研究院,2022 年 6 月圖 23 我國開源數據庫使用方付費意愿據中國信通院統計,當前我國用戶對開源數據庫的付費意識較高,約 83.1%的用戶表示愿意為開源數據庫支付費用。其中更有15.7%的用戶表示對價格不敏感,相比于價格,這部分用戶更看重開源數據庫的性能。在能夠接受的開源數據庫價格方面,愿意支付商業版數據庫價格 5%-20%的用戶最多,占比 33.7%;其次是 20%-40%的價格區間,占比 20.5%??梢姰旈_源數據庫的價格定在商業數據26庫價格
47、的 5%-40%時,比較容易被大多數客戶接受,過半數的用戶均在這一價格區間。來源:中國信息通信研究院,2022 年 6 月圖 24 我國開源數據庫使用方付費原因具有全套解決方案、提供服務水平協議(Service LevelAgreement,SLA)、提供培訓及咨詢服務和產品具有商業版特性是排在前四的驅動用戶付費的因素,分別占比 63.9%、56.6%、54.2%和 49.4%??梢钥吹綄τ诖蟛糠钟脩魜碚f,運維保障能力和服務穩定性是影響客戶付費意愿的主要因素,也是影響開源數據庫實現商業化轉型的關鍵。四、開源數據庫風險分類源代碼作為軟件的核心內容,對任何一款軟件來說都是處于“王冠上寶石”的位置。
48、因為軟件的核心在于設計,而所有的設計幾乎都體現在源代碼中4。開源意味著開放源代碼,從開源數據庫出現起,關于其風險的討論就從來都沒有停止。本章將探索開源數據庫存在的風險,挖掘風險存在根因并討論風險解決方法。4大教堂與集市,Eric S Raymond27(一一)開源數據庫風險現狀:漏洞風險是使用方最擔心開源數據庫風險現狀:漏洞風險是使用方最擔心的風險的風險來源:中國信息通信研究院,2022 年 6 月圖 25 影響開源數據庫大規模使用的原因過半數人表示使用風險高是阻礙開源數據庫使用的重要原因,漏洞風險是主要顧慮。產業的發展離不開產品的大規模使用,據中國信通院調研統計,運維生態、使用風險、產品穩定
49、性、遷移成本和社區活躍度被認為是影響開源數據庫大規模使用的五大因素。其中使用風險被排在第二位,有 61.5%的人認為使用風險是阻礙開源數據大規模使用的主要原因。28來源:中國信息通信研究院,2022 年 6 月圖 26 使用方最擔心發生的風險其中,漏洞風險是使用方最擔心發生的風險,占比 37.0%;斷供風險緊跟其后,占比 33.3%;迭代風險和許可證法律風險位列其后,分別占比 16.9%和 10.7%。(二二)開源數據庫風險分類及產生根因開源數據庫風險分類及產生根因業內普遍認為開源數據庫風險主要有四類:一是漏洞風險。以全球使用最廣泛的開源數據庫產品 MySQL 為例,據國際著名安全漏洞庫 CV
50、E 披露,MySQL 5.5 版本有 121 個漏洞;5.6 版本有 90 個漏洞;5.7 版本有 10 個漏洞;4-5 版本有 612 個高危隱患;5-6 版本有 72 個高危隱患;6-7 版本有 130 個高危隱患。并且 MySQL 5.7 版本計劃在 2023 年 10 月停止發布補丁,漏洞不再修復,現存量的產品安全保障或將成為難題。相比閉源軟件,開源軟件由于所有源代碼全部公開,更容易被黑客分析研究找到漏洞且利用其漏洞進行攻擊。二是斷供風險。從供應鏈角度來看,開源軟件供應鏈具有產品29迭代快、模塊數量多、生產線上化、供應全球化、倉儲集中化和用戶多樣化等特點,這些特性決定了開源軟件供應鏈暴
51、露在更多風險之下。從產業鏈角度來看,目前全球主流的代碼托管平臺、開源基金會、大量的核心開源項目以及大多數開源許可證均誕生于美國或由美國公司運營,因此國外公司具有先發優勢。當前國際形勢復雜,沖突日益加劇,開源數據庫有面臨斷供風險的可能。除了國際沖突外,商業沖突也會導致斷供,比如在 Redis Lab 與云服務商爭奪市場中,Redis Lab 將基于 Redis 構建的新數據庫擴展許可修改成為Commons Clause,許可條款規定,其他企業不允許將這些擴展服務作為云服務的一部分提供。在 Neo4j 的開源項目流行度遠超商業回報時,Neo4j 宣布從 3.5 版本開始,在商業許可下才會提供企業版
52、產品,并且不再在 GitHub 上提供源碼。三是技術迭代風險。開源軟件產品種類繁雜且版本迭代迅速,因其開源特性,開源數據庫不能像商業數據庫一樣進行有計劃有規律的升級或淘汰。如果沒有能匹配原主干的技術研發團隊,將無法跟上開源數據庫的迭代步伐,產品的合規性和安全性都將受到威脅,進而影響產品的升級及后續閉源的使用。四是許可證法律風險。開源軟件的許可證數量眾多且條款復雜,截止2022年6月,經過開放源代碼促進會(Open Source Initiative,OSI)批準的開源軟件許可證有 111 個,每個許可證都可以被看作是一份冗長的許可合同。且涉及開源的知識產權問題相對專業,一般的知識產權專家很難準
53、確掌握開源許可證的責任義務要求。而濫用開源30軟件可能面臨被起訴或商用代碼必須開源等風險。關于上述風險,主要原因在于我國在開源數據庫軟件方面起步較晚,評估機制尚未健全,產業生態還不成熟。為了緩解上述風險,短期內對于開源技術的應用和基于開源技術的二次開發,需要通過科學慎重的評估后進行嚴肅選擇;對開源技術和開源代碼的使用利用,需要對開源發展主體進行詳細的背景調查和論證分析,開展綜合評估。長期來看,技術上供求雙方都需要不斷夯實自身基礎,提高系統軟件架構設計能力,同時也能夠避免單一廠商鎖定,解決運維困難或遷移困難等問題;生態方面鼓勵更多國內的技術愛好者和研發人員參與,形成活躍的開源生態與技術態勢;政府
54、及相關部門也需要對全行業開展必要的指導和專業化支持,合力保障行業平穩運行和發展。五、總結與展望開源開辟了數據庫產業競爭新賽道,為數據庫產業帶來了新的生產協作方式,正在成為數據庫技術和產業創新的主導模式。在全球開源浪潮下我國開源數據庫產業邁入高速發展期,資本和政策助力產業規模持續擴大。供給側紛紛入局,多樣化開源數據庫產品不斷涌現;需求側大力擁抱開源,傳統行業如在金融新核心系統、信用卡業務系統、運營商計費系統、制造企業的 MES 系統、電力企業的調度系統和政務系統等,都已基本實現基于國產開源數據庫的規?;逃?,新興行業在數字化轉型和新冠疫情的影響下主動加入開源浪潮;開源數據庫的商業模式在探索中得到
55、發展,用戶付費意愿31增強;開源風險問題受到廣泛關注,行之有效的開源治理模式逐漸建立。但是仍應注意到,我國開源數據庫市場存在“一個不均衡三個不匹配”的現狀:商業數據庫與開源數據庫數量不均衡。全球開源數據庫和商業數據庫的比例約為 3:5,美國、德國、英國等大部分國家這一比例近似 1:1,而我國開源與商業數據庫數量比例約為 1:5,開源數據庫數量遠少于商業數據庫數量;現有開源數據庫產品及配套服務能力和行業需求不匹配。據中國信通院調研統計,能夠提供運維保障服務、產品穩定可靠、遷移成本低是當前需求方的主要需求。但是目前我國開源數據庫市場還不成熟,圍繞開源數據庫的運維保障服務機制仍在探索中;開源數據庫付
56、費意愿和付費轉化率不匹配。當前我國用戶對開源數據庫的付費意識較高,約 83.1%的用戶表示愿意為開源數據庫支付費用。但是從供給側的反饋來看,獲取到的付費用戶數量較少。開源數據庫產業生態完善程度與開源數據庫發展速度不匹配。2019 年后,我國開源數據庫產業進入高速增長階段,2021 年年增長率更是達到 400%,但是現有開源數據庫項目質量參差不齊、活躍度差異較大,開源風險問題治理機制尚未健全,配套人才也較為短缺。未來,我國開源數據庫產業規模將繼續擴展。隨著需求側對開源的認知進一步加深以及非關系型開源數據庫的崛起,未來 3 到 5年將會涌現出更多開源數據庫產品,開源數據庫將在超過 95%的行業實現
57、更多場景化應用。開源數據庫的商業價值將被放大,新的商業模式將會出現。當前國際上開源數據庫的盈利模式基本形成,但32是適用于我國市場的盈利模式還未出現。市場對開源數據庫產品能力和配套服務能力的期待將會催生出新型商業模式,我國開源數據庫的商業價值將被進一步放大。開源數據庫治理體系持續完善,眾創、眾研、眾用的產業生態將會加速形成。當前開源數據庫風險問題已經受到社會各方的重視,一套健全完備、行之有效的開源數據庫運行治理方式正在探索中。在開源領域里程碑式的著作大教堂與集市中寫道“探索在本質上是分散行動,并通過一種可擴展的機制來協調整體行為”。相信在開源數據庫產業鏈各方的配合下,成熟的開源產品和應用解決方案將被打造出來,具有國際競爭力的協同創新生態將會加速形成。