《墨天輪:2022年中國數據庫行業年度分析報告(127頁).pdf》由會員分享,可在線閱讀,更多相關《墨天輪:2022年中國數據庫行業年度分析報告(127頁).pdf(127頁珍藏版)》請在三個皮匠報告上搜索。
1、20222022 年中國數據庫行業年中國數據庫行業年度分析報告年度分析報告墨天輪數據社區2023 年 01 月目目錄錄前 言.-1-一、中國數據庫發展現狀.-2-1.中國數據庫流行度.-2-2.數據庫學術論文概況.-4-3.數據庫開源現狀.-5-4.國產數據庫產業融資概述.-9-5.國產數據庫上市廠商財務分析.-16-6.國產數據庫項目簽約及中標一覽.-18-7.數據庫國產化替代背景及相關政策.-27-8.國產數據庫市場份額.-30-9.國內數據庫存量和增量市場平衡.-33-二、數據庫關鍵技術概覽.-38-1.NewSQL.-38-2.分布式.-42-3.HTAP.-45-4.Serverle
2、ss.-58-5.湖倉一體.-61-6.內存數據庫.-62-7.超融合與流式數據處理.-64-8.云原生數據庫“四化”.-69-9.多模數據庫.-74-10.時序數據庫.-76-11.實時數據庫.-77-12.圖數據庫.-85-13.搜索引擎.-97-14.數據庫安全.-99-15.數據庫中間件.-102-16.數據庫兼容性.-105-三、中國數據庫標準現狀.-108-1.國內數據庫行業發展簡述.-108-2.數據庫標準概況.-109-3.國外數據庫標準發展及現狀.-109-4.國內數據庫標準發展及現狀.-110-5.國內數據庫標準發展方向及建議.-112-四、數據庫服務及智能運維.-113-
3、1.數據庫服務.-113-2.數據庫智能運維.-115-五、中國數據庫產業問題與思考.-118-1.問題與挑戰.-118-2.應對策略.-120-總 結.-122-附件附件表格表格表 1:2022 年排行榜年度 TOP 10 趨勢詳情.-4-表 2:2022 年國產數據庫開源情況統計表.-7-表 3:2022 年國產數據庫融資一覽表.-11-表 4:2022 年國產數據庫相關廠商估值表.-18-表 5:2022 年國產數據庫項目中標一覽表.-23-表 6:第六屆大數據“星河”案例數據庫優秀、標桿案例.-26-表 7:2022 年國產數據庫相關政策.-30-表 8:HTAP 數據庫的關鍵能力對比
4、.-52-表 9:2022 年中國重大數據安全事件一覽表.-101-編委會成員編委會成員:韓鋒、韓富晟、黃東旭、蓋國強、李飛飛、李浩、李昆、李文杰、李軼楠、李戰懷、明玉琢、潘巍、徐戟、于巍、姚羽、鄭貴德、張樺、鄒磊、周研、章芋文指導指導單位單位:阿里云、北京大學、創鄰科技、DBAIOPS 社區、庚頓數據、基石數據、科藍軟件、OceanBase、PingCAP、SphereEx、石原子科技、途普科技、虛谷偉業、星環科技、云和恩墨、亞信科技、云堯科技(以上人物姓名和公司名稱按首字母排序,排名不分先后)版權版權聲明聲明本報告著作權歸墨天輪、各合作單位和個人共同享有,未經書面許可,任何機構或個人不得以
5、任何形式翻版、復刻、發表或引用。若征得墨天輪、各合作單位和個人同意進行引用、轉載的,需在允許的范圍內使用,并注明出處為“墨天輪”,且不得對本報告進行任何有悖原意的引用、刪節或修改。本報告所涉及的觀點或信息僅供參考,不構成任何投資建議。本報告僅在相關法律許可的情況下發放,并僅為提供信息而發放,概不構成任何廣告。在法律許可的情況下,墨天輪可能會為報告中提及的企業提供或爭取提供投融資或咨詢等相關服務。本報告所指的公司或投資標的的價值、價格及投資收入可升可跌。本報告中發布的調研數據采用樣本調研方法,其數據結果受到樣本的影響。由于調研方法及樣本的限制,調查資料收集范圍的限制,該數據僅代表調研時間和人群的
6、基本狀況,僅服務于當前的調研目的,為市場和客戶提供基本參考。受研究方法和數據獲取資源的限制,本報告只提供給用戶作為市場參考資料,本公司對該報告的數據和觀點不承擔法律責任。本報告的部分信息來源于公開資料,墨天輪、各合作單位和個人對該等信息的準確性、完整性或可靠性不做任何保證。本文所載的資料、意見及推測僅反映墨天輪于發布本報告當日的判斷,過往報告中的描述不應作為日后的表現依據。在不同時期,墨天輪、各合作單位和個人可發出與本文所載資料、意見及推測不一致的報告和文章。墨天輪、各合作單位和個人不保證本報告所含信息保持在最新狀態。同時,墨天輪、各合作單位和個人對本報告所含信息可在不發出通知的情形下做出修改
7、,讀者應當自行關注相應的更新或修改。-1-前前 言言隨著互聯網、大數據、人工智能等新一代信息技術的創新聚變,數字化產業正在成為全球經濟新的驅動引擎,以數據為核心生產要素的增長變革,成為面向網絡化、智能化方向提質增效及重塑核心競爭力的基礎。隨著數字化轉型深入推進和數據量的爆炸式增長,產業對數據庫的需求發生了革命性變化。技術發展讓數據創造無處不在,從企業應用到個人應用和萬物互聯,來自新時代的數據庫挑戰持續增長:數據存儲從 TB 級別、PB 級別增至 EB 級別;海量并發從企業內部數百至數千并發到互聯網模式下百萬級至億萬級并發;新的應用場景要求數據庫具備彈性伸縮能力;各行業在加速信息化基礎設施的分布
8、式建設;此外端邊云協同、AI 融合、軟硬結合、數據安全、隱私保護等都是重要挑戰。當前數據庫技術得到創新發展并發生著顛覆性變革,從結構化數據到非結構化數據,從關系型到非關系型,從集中式到分布式,從閉源到開源,“One size fits all”的時代已經過去。全球知名咨詢公司 Gartner 2021 年企業軟件全球市場報告顯示,數據技術已成為企業軟件中最大且增速最快的賽道,未來 5 年復合增長率將達到 17.5%;2022 年 5 月發布的市場報告顯示,2021 年全球 DBMS(Database Management System,數據庫管理系統)市場規模達到 800億美元,同比增長 22
9、.3%。在快速發展中,數據庫領域的技術和市場也發生著巨大變革。中國的數據庫市場是全球市場的重要組成部分,從技術到商業,中國數據庫產業正在發生快速而深遠的變化,為了記錄時代變革、洞察技術趨勢、傳遞產品價值,我們組織編寫了本報告,希望能夠為數據庫產業的產學研用提供參考,為行業發展作出貢獻。-2-一、一、中國中國數據庫數據庫發展發展現狀現狀伴隨中國數據庫領域的快速技術進步,國內數據庫生態蓬勃發展,并不斷涌現出極具創新力的產品,推動了數據庫應用的遍地開花。墨天輪社區正是在這樣的背景之下創立成長,以平臺化持續匯聚產業界力量,反映和呈現中國數據庫發展狀態,為推動行業進步而持續貢獻。1.1.中國數據庫中國數
10、據庫流行度流行度1.1.1 1 榜單榜單收錄持續增加,數據庫收錄持續增加,數據庫產業產業蓬勃發展蓬勃發展墨天輪中國數據庫流行度排行榜于 2019 年 6 月推出,2022 年全年新增收錄 55 款數據庫,每月排行榜收錄數持續增加,截至 2022 年 12 月共收錄 249 款產品。圖 1:2022 年中國數據庫流行度排行榜收錄數據庫數量截至 12 月,中國數據庫排行榜關系型數據庫依舊是主流。在 163 個關系型數據庫中,OLTP數據庫 109 個,占比 66.9%。HTAP 和 OLAP 分別有 27 個和 25 個。分布式數據庫多出集中式數據庫 6 個,達到 123 個,目前分布式技術已成為
11、多數國產數據庫的標配,讓企業應用能在容量和負載上都能輕松橫向擴展,滿足了當今時代和市場的需求,也是替換 Oracle 等傳統集中式數據庫的重要突破口。云原生數據庫 34 個,云數據庫成為新的競爭力焦點,阿里云、華為云、騰訊云的市場份額有顯著增長。中國數據庫排行榜各模型、屬性數據如下圖所示。-3-圖 2:2022 中國數據庫流行度排行榜各模型、屬性數據1.1.2 2 排行榜年度排行榜年度 TOPTOP 1010 趨勢趨勢2022 年排行榜前三有 TiDB、OceanBase、openGauss 以及達夢的身影交替出現。相比于 2021 年 TiDB 連續占據榜首 12 個月的情況,2022 年排
12、行榜榜首多了一些懸念。排行榜年度TOP10 是:TiDB、OceanBase、openGauss、達夢、GaussDB、PolarDB、人大金倉、GBase、TDSQL、AnalyticDB,排行榜前十競爭激烈,常有名次變動。2022 年排行榜年度 TOP 10 流行度趨勢詳情見下表。排名排名數據庫名稱數據庫名稱主要趨勢主要趨勢1TiDBTiDB 2022 年可謂是在面對強勢進攻中堅守陣地,全年共累計 10 次位居榜首。TiDB 與上/下一名的最小分差僅為 2.13 分,但是全年流行度趨勢比較平穩。2OceanBaseOceanBase 12 月得分相比 1 月得分,分數上漲 132.6 分,
13、漲幅達到了 27.3%。其以榜首位置收官 2022 年排行榜,給 2023 年全年的流行度趨勢帶來了懸念。3openGaussopenGauss 在 2022 年 5 月登頂榜首一次。全年來看,12 月得分和排名與 1 月相比,以 0.8 分的分數劣勢,排名下降一位至第三,其全年的趨勢相對平穩。4達夢全年的流行度排行波動較大,12 月的得分相比今年 1 月得分下降 41.4 分。7 月得分上漲了 54.7 分,系與 6 月正式遞交招股書,申請上交所科創板上市引發關注相關。5GaussDB整個流行度趨勢是穩步上行的,其 12 月得分相比于今年 1 月得分,分數漲幅達到了14.9%。GaussDB
14、 在市場拓展、技術上都有了突破性進展。6PolarDB2022 年 1 月的流行度得分是近兩年的最低點,由此起步,全年的流行度是穩中有升。在-4-2022 年 10 月,排名和得分都有所突破,以 436.3 分位列第五。7人大金倉2022 年 6 月、7 月獲得了全年最靠前的排名,位列第六。其全年的發展趨勢是先升后降。1-10 月,人大金倉流行度直線上升,并在 10 月以 431.37 分達到頂點。8GBase全年的流行度趨勢是“先升后降”,在今年 5 月以 384.9 分達到得分最高值后,逐漸下降。其 12 月得分相比于 1 月得分,微增 9.21 分,全年排名基本在第 7-8 名徘徊。9T
15、DSQL其作為騰訊云旗下的數據庫品牌,一直在金融領域穩扎穩打。TDSQL 全年的流行度趨勢是波動性下降,以全年最高分為起點,12 月得分較 1 月得分下降幅度達到了 19.5%。10AnalyticDB全年得分穩中有升,全年一直保持著第十名的排名優勢。其 12 月得分較今年 1 月上漲28.34 分,在數倉建設上穩步推進。表 1:2022 年排行榜年度 TOP 10 趨勢詳情2.2.數據庫學術論文概況數據庫學術論文概況中國數據庫自主創新能力顯著增強。目前中國數據庫論文數占全球總數 12%,并呈現發文數逐年遞增的趨勢。以下數據基于 Web of Science 核心合集,檢索主題為 Databa
16、se 的檢索機構,檢索日期為 2022 年 12 月。圖 1:中國數據庫論文數盤點國產數據庫創新成果有所突破。數據庫論文能夠展現數據庫行業最新研究成果,發文數量能夠一定程度上體現各發文單位在數據庫學術領域、技術鉆研上的成就。2022 年 7 月 SIGMOD2022會議中共有 151 篇國內外論文入選。SIGMOD2022 收錄的國內論文,發文單位主要來源于高等學府清華大學、香港中文大學、香港科技大學,此外國產數據庫廠商(阿里巴巴、騰訊、華為等)也入選了。這體現了國產數據庫的自研成果達到了世界先進水平,得到了業界的廣泛認可。-5-圖 2:中國在 SIGMOD2022 的論文盤點2022 年 9
17、 月 VLDB 召開,VLDB2022 會議中共有 336 篇國內外論文入選,其中中國貢獻115 篇,占比超過 1/3。圖 3:中國在 VLDB2022 的論文盤點3.3.數據庫開源數據庫開源現狀現狀中國數據庫逐漸實現開源是大勢所趨也是謀求長期發展的重要路徑,2022 年 TiDB、PolarDB、GaussDB 等也相繼推出了開源版本。對于廠商而言,開源能吸引更多的用戶來拓展自己的生態,是一條行之有效的路徑。截止到 2022 年 12 月底,已有 48 款國產數據庫產品開源,具體的國產數據庫開源情況如下表所示。序號序號名稱名稱貢獻者貢獻者開源地址開源地址StarStar 數量數量 開源時間開
18、源時間1TiDBPingCAP 年2TDengine濤思數據 年-6-3Milvus賾??萍迹╖illiz) 年4TiKVPingCAP 年5NebulaGraph悅數科技 年6Apache Doris百度 年7OceanBaseOceanB 年8Databend數變科技 年9Pika奇虎 年10AliSQL阿里巴巴 年11StarRocks鼎石科技 年12Kylin易趣 年13IoTDB清華大學 年14PolarDB阿里云 年15Tendis騰訊 年16LinDB餓了么 年17HugeGraph百度 年18Greptime DB格睿云 年19Kvrocks美圖 年20TerarkDB字節跳動
19、 年21RadonDB青云 年22MatrixOne矩陣起源 年23CovenantSQL子午星辰(CovenantLabs) 年24TDSQL騰訊云 年25TensorBase致大盡微 年-7-26OpenMLDB第四范式 年27CnosDB諾司時空 年28FlashDB阿明克 年29openGauss華為 年30BaikalDB百度 年31云樹Shard愛可生 年32Apache HAWQ偶數科技 年33StoneDB石原子科技 年34gStore北京大學 年35IvorySQL瀚高 年36SequoiaDB巨杉科技 年37openGemini華為 年38TenDB Cluster騰訊 年
20、39DingoDB九章云極 年40Claims華東師范大學 年41PinusDB巨松軟件 年42開務數據庫浪潮云溪 年43GreatSQL萬里數據庫 年44Palo百度 年45Yukon超圖軟件 年46He3DB移動云 年47OushuDB偶數科技 年48紅象數據庫RedElephant2020 團隊 年表 2:2022 年國產數據庫開源情況統計表-8-2022 年國產數據庫行業陸續有 PingCAP、阿里云、華為云、螞蟻集團、格睿云共五家廠商推出開源的產品,具體的開源產品詳情如下:4 月 1 日,TiDB 分析引擎 TiFlash 正式開源,它是為 TiDB 提供 HTAP 能力的重要組成部
21、分。圖 4:TiDB 分析引擎 TiFlash 正式開源4月1日,阿里云PolarDB-X正式開源X-Paxos,基于原生MySQL存儲節點,提供Paxos三副本共識協議,可以做到金融級數據庫的高可用和容災能力,做到 RPO=0 的生產級別可用性,可以滿足同城三機房、兩地三中心等容災架構。6 月 15 日,華為云將 GaussDB 時序時空數據庫內核開源,并命名為 openGemini。圖 5:openGemini 數據庫全景圖7 月 23 日消息,螞蟻集團時序數據庫 CeresDB 正式開源,并發布開源版本 CeresDB0.2.0。11 月 15 日,格睿云 Greptime宣布旗下時序數
22、據庫 GreptimeDB 正式開源。開源后,GreptimeDB 連續三天在 GitHub Trending 榜上排名第一。-9-圖 6:2023 GreptimeDB 路線圖4.4.國產數據庫國產數據庫產業產業融資概述融資概述從融資環境上看,數據庫產業受資本關注度較高,整體投融資環境向好從融資環境上看,數據庫產業受資本關注度較高,整體投融資環境向好。2022 年至今已有17 家國產數據庫廠商和數據庫生態企業獲得融資,其中 2014 年后成立的新興企業有 12 家,占比 70.6%;單筆獲得過億元人民幣融資的有 11 家,占比 64.7%。相比于 2021 全年融資次數,數據庫企業融資次數增
23、長 21.4%。根據披露金額,2022 年融資額度總計約為 80.92 億元人民幣,其中不乏高瓴創投、經緯中國、紅杉資本等知名投資方。2022 年國產數據庫廠商融資詳情見下表。融資時間融資時間公司名稱公司名稱輪次輪次金額金額成立時間成立時間投資方投資方數據庫名稱數據庫名稱2022/3/22天云數據D 輪數億元人民幣2013/5/9融溢資本、綠地創極、京國創創輝投資Hubble2022/4/28飛輪科技天使輪超 3 億人民幣2021/12/23IDG 資本、紅杉中國SelectDB2022/5/13淵亭科技B 輪億級人民幣2014/1/28達晨財智DataExa-Seraph2022/6/23拓
24、數派戰略融資數億元2021/2/2元禾重元、東吳證券DB-10-2022/6/29天謀科技天使輪近億人民幣2021/10/20紅杉中國、考拉基金、戈壁創投、云智慧時序數據庫2022/6/30新數科技A+輪數千萬元2014/6/13復星銳正資本、博彥科技ShinDB2022/8/18云堯科技(浙江)種子輪1000 萬人民幣2021/6/16未披露YaoBase2022/8/25賾??萍迹╖illiz)B+輪6000 萬美元2017/5/9Prosperity7Ventures、PavilionCapital、高瓴創投、五源資本、云啟資本Milvus2022/9/15杭州悅數科技A 輪數千萬美元2
25、018/8/16時代資本、經緯創投、紅點中國、源碼資本、華興資本圖數據庫NebulaGraph2022/9/27格睿云Greptime天使輪數百萬美元2022/4/7耀途資本、九合創投時序數據庫Greptime DB2022/10/11瀚高軟件戰略融資數億人民幣2005/7/5浪潮集團HighGo DB2022/10/18成章數據天使輪數千萬元2021/9/27線性資本MonoGraphDB2022/10/18星環科技IPO 上市14.3 億人民幣2013/6/5公開發行ArgoDB、KunDB-11-2022/10/24南大通用D 輪數億元人民幣2004/5/11君聯資本、耀途資本、國投創合
26、、宇信科技、信一創科技、宇新大數據基金、蘇州國發創投、相城金控GBASE2022/11/7航天軟件IPO 過會5.51 億元2000/12/12公開發行神通數據庫2022/12/22達夢數據IPO 過會23.51 億元2000/11/13公開發行達夢數據庫2022/12/23柏睿數據D 輪過億人民幣2014/8/14海創天成、合肥產投集團、上海國際資管、北科建、朝科創RapidsDB表 3:2022 年國產數據庫融資一覽表圖 1:2022 年融資國產數據庫廠商-12-20222022 年國產數據庫年國產數據庫融資事件融資事件3 月 22 日,Hubble 數據庫廠商天云數據獲得數億元天云數據獲
27、得數億元 D D 輪融資輪融資。本輪由多家國家隊基金共同投資,包括:北京市國資部門旗下創新投資平臺北創投管理、科技部和北京市科創基金共同支持的北京市首支央地聯動科技成果轉化子基金遠京基金、上海市國資委旗下綠地創極管理的蘇州吳江太湖新城母基金。2021 年,天云數據還曾獲得上海國資旗下國鑫創投的投資。4 月 28 日,云原生實時數倉廠商飛輪科技完成超飛輪科技完成超 3 3 億元天使輪和天使億元天使輪和天使+輪融資輪融資,將研發基于 Doris 內核的云原生發行版 SelectDB。SelectDB 是運行在云上的實時數據倉庫,為用戶和客戶提供開箱即用的能力。5 月 13 日,DataExa-Se
28、raph 圖數據庫廠商淵亭科技完成了億元人民幣淵亭科技完成了億元人民幣 B B 輪融資輪融資。本輪融資由達晨財智獨家投資,資金將主要用于核心 AI 產品升級、高端人才引進,以及在國防、政企、工業、金融等業務方向的市場擴展。6 月 23 日,國內云原生數據庫公司拓數派(拓數派(OpenPieOpenPie)完成數億元)完成數億元 A A 輪戰略融資輪戰略融資。本輪融資由元禾重元領投,東吳證券跟投。據悉,此前拓數派已獲得頭部產業基金連續兩筆天使輪投資,估值在成立時即達到準獨角獸級別。、-13-6 月 29 日,工業物聯網時序數據庫廠商天謀科技天謀科技(TimechoTimecho)完成近億元人民幣
29、天完成近億元人民幣天使輪融資使輪融資,本輪融資由紅杉中國領投,考拉基金、戈壁創投、云智慧共同跟投。本輪資金將主要用于開源產品研發、開源社區建設,以及核心技術團隊打造與擴充等。6 月 30 日,一體化數據庫云管理平臺軟件廠商北京新數科技有限公司完成北京新數科技有限公司完成 A+A+輪數輪數千萬元融資千萬元融資。新數科技于 2018 年在業界率先推出數據庫管理平臺理念,致力建設一體化的數據庫云管理平臺軟件生態。新數科技 ShinDB 分布式數據庫突破了傳統單節點數據庫在高負載和大數據量場景下的瓶頸,實現了高并發、高吞吐量、自動容災、備份恢復、動態擴展、應用透明等特性,還提供統一的 DDL、DML
30、執行、自動運維、監測告警、性能分析等一站式數據庫管理平臺。8 月 18 日,YAOBASEYAOBASE 廠商廠商云堯科技云堯科技完成千萬元種子輪融資完成千萬元種子輪融資。據悉,浙江云堯科技成立于 2021 年 6 月,是一家數據庫軟件企業,核心技術團隊從 80 年代初就從事數據存儲與管理領域的科研工作,目前已自主研發出 YaoBase(堯)原生 NewSQL 分布式關系型數據庫軟件,兼容 Oracle/DB2/MySQL 等特性。8 月 25 日,向量數據庫公司向量數據庫公司 ZillizZilliz(上海賾睿信息科技上海賾睿信息科技)宣布完成宣布完成 60006000 萬美元萬美元的的B+
31、B+輪融資輪融資,成功將其 B 輪融資規模進一步擴大至 1.03 億美元。該筆融資將用于進一步完善研發團隊和市場團隊建設,加速全托管云服務產品 Zilliz Cloud 的研發及商業化,以及持續推進全球市場的布局。-14-9 月 15 日,開源圖數據庫開源圖數據庫 NebulaGraphNebulaGraph 研發商研發商杭州悅數科技有限公司杭州悅數科技有限公司獲得數千萬獲得數千萬美元的美元的 A A 輪融資輪融資。本輪融資將被用來繼續投入到分布式圖數據庫 NebulaGraph 的產品研發項目中,為更多企業打造更穩定高效的數據存儲及圖計算技術底座。9 月 27 日,時序數據庫廠商 格睿云格睿
32、云(GreptimeGreptime)宣布完成數百萬美元天使輪融資宣布完成數百萬美元天使輪融資,本輪由耀途資本領投,九合創投跟投。格睿云公司當前正在打磨時序數據庫 Greptime DB,未來也計劃推出基于 Greptime DB 的全托管數據庫服務 Greptime Cloud。10 月 11 日,瀚高基礎軟件股份有限公司獲得浪潮集團數億元戰略投資,浪潮集團瀚高基礎軟件股份有限公司獲得浪潮集團數億元戰略投資,浪潮集團成為瀚高股份第一大股東成為瀚高股份第一大股東,瀚高亦正式成為一家國有數據庫軟件企業。浪潮戰略投資瀚高,進一步完善了浪潮的生態體系,強化產業實力,助力自身產品綜合解決方案構建。10
33、 月 18 日,數據庫初創企業成章數據(成章數據(MonoGraphDBMonoGraphDB)宣布完成數千萬元天使)宣布完成數千萬元天使輪融資輪融資,投資方為線性資本。本輪融資將用于產品開發和團隊組建。成章數據基于數據基底 DataSubstrate 這一技術,打造一款具備模塊化、云原生、高性能、多模態和可插拔多種計算和存儲引擎的新一代關系型 OLTP 數據庫。10 月 18 日,星環信息科技(上海)股份有限公司在科創板掛牌上市,成為“國產大數據基礎軟件第一股”,市值約為 88.12 億元。星環科技此次發行價為 47.34 元,發行 3021.06萬股,IPO 募資總額為 14.3 億元,募
34、資主要會用在加大技術研發投入和加大市場推廣方面。-15-10 月 24 日,GBASE 南大通用宣布完成數億元 D 輪融資。本輪融資由君聯資本領投,國投創合、獅城資本聯合宇信科技集團、耀途資本、信一創科技、蘇國發、相城金控聯合投資。通過本輪融資,GBASE 南大通用將加速產品的升級研發計劃、加大市場拓展力度,作為國產數據庫行業領軍企業,在助力國產信息化建設的國家戰略中繼續發揮積極作用。11 月 7 日,神舟通用母公司航天軟件科創板航天軟件科創板 IPOIPO 過會過會。神舟軟件本次發行股票后,擬投資 5.51 億元用于以下五個方面:產品研制協同軟件研發升級建設項目(1.8 億元)、神通數據庫系
35、列產品研發升級建設項目(1.52 億元)、航天產品多學科協同設計仿真(CAE)平臺研發項目(0.41 億元)、ASP+平臺研發項目(1.11 億元)、綜合服務能力建設項目(0.67 億元)。12 月 22 日,達夢數據達夢數據科創板科創板 IPOIPO 過會過會。此次 IPO,達夢數據計劃募資 23.51 億元,此次募集的資金將用于達夢集群數據庫管理系統、高性能分布式關系數據庫管理系統、新一代云數據庫產品的優化升級,以及達夢中國數據庫產業基地和達夢研究院建設等項目。12 月 23 日,柏睿數據完成過億人民幣柏睿數據完成過億人民幣 D D 輪融資輪融資。本輪融資由科技部、北京市、上海市、合肥市聯
36、合引導基金(海創天成、合肥產投集團、上海國際資管、北科建、朝科創)投入。據悉,未來的數月內,柏睿數據還會陸續完成相當規模的戰略融資。-16-5.5.國產數據庫上市廠商財務分析國產數據庫上市廠商財務分析由于缺乏直接的國產數據庫上市廠商信息,墨天輪整理了18家國產數據庫相關上市廠商數據。截止 2022 年 12 月 29 日,獲取到 16 家廠商的每股月度價格波動信息。5.15.1 自研數據庫在國產數據庫行業具有較強優勢自研數據庫在國產數據庫行業具有較強優勢近年來,國產自研數據庫不斷發展和突破,自研的國產數據庫在中國數據庫行業具有極大的優勢,發展迅猛,主要的自研數據庫代表產品有達夢。達夢數據聯營企
37、業中國軟件每股營收最高,達到了 47.23 元。今年 6 月后,每股價格增長提速,與達夢遞交招股書緊密相關。據中國軟件 2022年第二季度財務報告,其自主軟件產品收入同比增長 78.18%,旗下達夢業績表現良好。在信創市場份額領先,為公司貢獻投資收益 1.12 億元。達夢 2022 年 1-6 月的營業收入和凈利潤也呈現著正增長趨勢。圖 1:國產數據庫相關上市公司股價走勢圖5 5.2.2 營運投入增加,凈利率虧損擴大營運投入增加,凈利率虧損擴大根據 2022 年二、三季度各廠商公布的財務數據,八家廠商的虧損都有所擴大。根據 2022年 9 月 30 日各廠商公布的數據,2022 年三季度凈利潤
38、負增長的廠商占比 42.1%,18 家廠商的虧損總資金達到了 32.54 億。以下上市公司中,大多處于發展階段,疫情、各項投入加大是導致虧損的主要原因。-17-5 5.3.3 收入規模效應逐漸顯現收入規模效應逐漸顯現在 18 家國產數據庫相關上市廠商中,中興通訊營業收入最高,2022 年三季度營業收入達到了 925.6 億,相比于二季度漲幅達到 54.7%。其次,浪潮集團實現了 2022 年三季度營業收入達316.3 億。各廠商相繼研在研發產品、人才引進等方面加大投入,收入規模效應逐漸顯現。2022年 18 家國產數據庫相關廠商估值情況見下表。數據庫廠商數據庫廠商代表產品代表產品市值市值營業收
39、入營業收入凈利潤凈利潤2022/92022/9/30/302022/62022/6/30/302022/32022/3/31/3120212021A A2022/92022/9/30/302022/6/2022/6/30302022/32022/3/31/3120212021A A星環科技ArgoDB、KunDB、StellarDB110 億 1.71 億9758 萬/3.31億-2.36億-1.65 億/-2.45億亞信科技AntDB128.6億/31.09億/68.95 億/1.92 億/7.86億海量數據AtlasDB、Vastbase58.30億2.00 億1.33 億7886 萬4.
40、20億-5875萬-3865萬-1075萬1127萬科藍軟件SUNDB60.68億7.05 億4.81 億2.43 億12.98 億-1666萬-993.3萬595.7萬3737萬中國軟件達夢383.6億55.82億36.11億15.24億103.5 億-3.91億-2.85 億 1.03 億7558萬拓爾思TRS Hybase84.13億6.37 億4.25 億1.90 億10.29 億1.04 億7463 萬2100萬2.46億創意信息GreatDB58.75億10.67億6.31 億3.78 億18.67 億-3284萬279.1萬3303萬-2173 萬超圖軟件Yukon(禹貢)92.
41、08億10.05億4.47 億2.77 億18.75 億6222萬-4962萬1169萬2.88億恒生電子LightDB772.0億37.37億23.86億9.73 億54.97 億1149萬-9580萬-4130萬14.64 億-18-太極股份KingBase162.9億70.61億49.22億18.59億105.0 億1.17 億3684 萬1872萬3.73億東方國信CirroData91.96億14.25億8.93 億4.70 億24.70 億1.08 億5913 萬4140萬3.02億天璣科技PBData23.73億2.6 億1.49 億6862 萬5.42億-1962萬-1922萬
42、-598.9萬4007萬東軟集團OpenBASE122.6億55.64億33.83億12.78億87.35 億1.29 億8303 萬-3012萬11.73 億浪潮信息K-DB、開務數據庫316.2億527.7億348.5億172.8億670.5 億15.46億9.54 億3.34 億20.03 億優刻得UTSDB56.82億14.89億10.46億5.28 億29.01 億-3.5 億-2.6 億-1.41億-6.33億金山云(港股)DragonBase、KingDB80.29億60.49億40.80億21.74億90.61 億-21.49億-13.56億-5.532億-15.89 億航天軟
43、件神通數據庫20億/中興通訊GoldenDB、EBASE1220億925.6億98.2 億279.3億1145億68.20億45.66億22.17億68.13 億達夢數據DM94.04億/2.49 億/7.43億/0.79 億/4.38億表 4:2022 年國產數據庫相關廠商估值表6.6.國產數據庫項目簽約及中標一覽國產數據庫項目簽約及中標一覽6 6.1.1 20222022 年國產數據庫項目簽約及中標情況年國產數據庫項目簽約及中標情況據信通院預測,中國數據庫市場 2020-2025 年復合增長率高達 23.35%,2025 年市場規模有望達 688 億元。根據各廠商公開發布的消息,據墨天輪不
44、完全統計,2022 年國產數據庫行業共收到 51 次中標喜訊(表 6)。其中金額最大是中興通訊、OceanBase、亞信 AntDB、萬里數據庫 4 家聯合中標移動 1.45888 億元超級大單。單家中標金額最大的是阿里云,其中標廣東移動-19-2022-2023 年主備式自主可控 OLTP 數據庫,金額達到了 967.28 萬。從采購單位性質分析,46%的采購單位集中在金融領域,其次是政府。圖 1:2022 年國產數據庫采購單位性質占比圖2022 年國產數據庫行業中標信息統計如下:公告時間公告時間采購單位采購單位中標數據庫中標數據庫中標金額(元)中標金額(元)項目名稱項目名稱1 月 5 日中
45、國銀行Hubble(HTAP)TiDB中國銀行企業級架構相關項目組件1 月 7 日黑龍江省農村信用社巨杉數據庫60 萬黑龍江省農村信用社聯合社項目1 月 19 日中國石化、中國石油、中國海油金倉數據庫中國石化、中國石油、中國海油的數據庫國產化采購項目1 月 27 日中國移動福建公司科藍軟件 SUNDB 數據庫中國移動福建公司 2020 年企業級大數據四期內存數據庫采購項目1 月江西銀行科藍軟件 SUNDB 數據庫江西銀行新建企業網銀及企業手機銀行建設項目2 月 22 日吉林銀行股份有限公司GBase 8a MPPCluste吉林銀行股份有限公司 MPP 數據庫采購項目-20-2 月貴陽農商銀行
46、科藍軟件 SUNDB 數據庫貴陽農商銀行“安心租”資金監管系統3 月 2 日武漢地鐵達夢數據庫武漢地鐵 7 號線北延線工程自動售檢票系統項目3 月 2 日河南移動優炫數據庫河南移動業務支撐系統國產數據庫采購項目3 月 17 日安徽省聯社中興通訊 GoldenDB安徽省農村信用聯合社(簡稱:安徽省聯社)“分布式在線交易查詢平臺”項目4 月 15 日廣東移動阿里云967.28 萬廣東移動 2022-2023 年主備式自主可控 OLTP 數據庫項目4 月 20 日北京市應急管理部優炫數據庫/北京市應急管理部消防產品合格評定中心項目4 月五糧液集團財務有限公司科藍軟件 SUNDB 數據庫/監管數據標準
47、化報送平臺5 月 31 日人力資源社會保障部科藍軟件 SUNDB 數據庫人力資源社會保障部金保工程二期SOA 基礎軟件及工具軟件采購項目5 月貴陽銀行科藍軟件 SUNDB 數據庫貴陽銀行信用卡管理系統6 月 17 日中移信息技術有限公司萬里數據庫/中移信息技術有限公司自主可控OLTP 數據庫(分布式)聯合創新項目(一期)7 月國防科技大學科藍軟件 SUNDB 數據庫/國防科技大學氣象海洋學院海洋環境再分析數據庫平臺項目7 月 15 日福建移動達夢數據庫/福建移動 2022 年國產通用型關系數據庫軟件項目-21-7 月 18 日中車信息技術有限公司Hubble 數據庫/中車信息技術有限公司“Ti
48、DSMP規則引擎組件采購及集成項目”7 月 19 日南瑞集團南大通用 GBase/南瑞集團 2022 年應用軟件、國產操作系統及數據庫框架建設項目中的數據庫框架部分8 月 2 日北京農商銀行科藍軟件 SUNDB 數據庫/2022 年信創數據庫軟件數據庫國產化替換8 月 4 日新疆某綜合醫院亞信科技 AntDB 數據庫/新疆某綜合醫院“醫共體”項目9 月 19 日中原銀行OceanBase627 萬中原銀行 2022 年信息技術應用創新-OceanBase數據庫軟件許可采購項目9 月 22 日四川移動GreatDB188.145 萬中國移動四川公司 2021 年業務支撐BOSS擴容改造工程國產分
49、布式數據庫項目9 月 27 日泉州銀行GBase 8a/9 月 29 日正數網絡UXDB/正數網絡 2022-2023 年數據庫產品及技術支撐服務集中采購項目9 月 29 日中國郵政TDSQL/中國郵政技術中臺國產關系型數據庫和數據備份軟件采購項目9 月 30 日國家自然科學基金委員會達夢數據庫48 萬/9 月自貢銀行GBase 8s/自貢銀行基礎軟件及服務采購項目。9 月成都農商行GBase 8s成都農商行智慧辦公與新郵件系統基礎軟件項目。-22-10 月 8 日天津市市場監督管理委員會南大通用 GBase 8c/天津市市場監督管理委員會分布式交易型數據庫集成項目10 月 13 日浦發銀行人
50、大金倉/信用卡中心郵件系統數據庫項目10 月 13 日山西銀行人大金倉/財資系統等集中式數據庫業務系統10 月 13 日新疆農村信用社聯合社人大金倉/ODS 數據倉庫項目10 月 13 日正數網絡圖數據庫 GDMBASE/正數網絡數據庫產品及技術支撐服務集中采購項目10 月 17 日中國人民銀行清算總中心南大通用 GBase 8a/中國人民銀行清算總中心 2022 年金融大數據分析與服務平臺擴容建設數據庫采購項目10 月兵器裝備集團財務有限責任公司GBase 8a MPPCluster/兵器裝備集團財務有限責任公司大數據平臺及應用建設項目10 月深圳地鐵 14 號線軌道交通GBase 8s 數
51、據庫管理系統/11 月 2 日國家電網有限公司達夢數據庫/國家電網有限公司 2022 年第四十五批采購(數字化項目第三次設備招標采購)項目調度類軟件-數據庫軟件11 月 5 日湖北銀行啟云數據庫/湖北銀行 2022 年系統設備采購項目數據庫類11 月 10 日某市紀律檢查委員會亞信科技 AntDB 數據庫/某市紀律檢查委員會大數據分析查詢項目11 月 11 日國家電網省級電力公司RapidsDB/-23-11 月 15 日東營銀行科藍軟件 SUNDB 數據庫/東營銀行網貸平臺11 月 21 日龍江銀行HotDB84.7(萬元)龍江銀行 2022 年至 2023 年HotDB 數據庫服務采購項目
52、11 月 30 日中國移動河南公司科藍軟件 SUNDB 數據庫/中國移動通信集團河南有限公司與北京科藍軟件系統股份有限公司2021-2022 年框架研發采購項目12 月 22 日江漢油田達夢數據庫/2022 年江漢油田(中國石油化工股份有限公司江漢油田分公司)非結構化數據管控體系建設項目12 月昆侖銀行科藍軟件 SUNDB 數據庫/昆侖銀行股份有限公司 2022 年分布式數據庫一年框架協議采購項目12 月上海上期商務有限公司MogDB/信創數據庫及中間件采購項目12 月杭州銀行TiDB/杭州銀行核心系統數據庫項目2022 年國家管網GBase 8s2022 年解放軍某部隊GBase 8c表 5
53、:2022 年國產數據庫項目中標一覽表6.26.2 20222022 年大數據年大數據“星河星河”案例一覽案例一覽由中國信息通信研究院、中國通信標準化協會大數據技術標準推進委員會(CCSA TC601)共同組織的第六屆大數據“星河”案例征集于 2022 年 12 月 12 日公示入選結果。本次案例征集包括行業數據應用、數據安全、隱私計算、數據資產管理、數據庫五大方向,共收到申報項目 595 份,經過形式審查和專家評審,共有 209 個案例入選,其中數據庫方向有標桿案例 10 個、優秀案例22 個。在國產數據庫產品廣泛應用的同時,用戶對于數據庫的全棧服務日益關注,包括成熟的運維體-24-系、智能
54、的工具產品等。在 2022 年信通院評選的“大數據星河案例”中,一系列優秀項目體現了數據庫的整體性和用戶的關注方向,例如哈爾濱銀行和云和恩墨聯合打造的“一體化數據庫服務體系建設”項目,就體現了國產數據庫 MogDB 和數據庫服務體系的完美重塑。2022 年具體的數據庫標桿案例和優秀案例如下表所示。20222022 年數據庫標桿案例年數據庫標桿案例單位名稱單位名稱成果名稱成果名稱中國工商銀行股份有限公司華為技術有限公司華為云 GaussDB 助力工商銀行核心交易系統分布式改造,助推智慧銀行建設中國移動通信集團浙江有限公司金篆信科有限責任公司基于 GoldenDB 的電信行業核心交易系統數據庫應用
55、創新中國聯通軟件研究院阿里云計算有限公司聯通 BSS 集約化系統異地雙活建設實踐中國移動通信集團江蘇有限公司北京奧星貝斯科技有限公司上海新炬網絡信息技術股份有限公司CRM 系統核心數據庫替代項目中國移動通信集團上海有限公司湖南亞信安慧科技有限公司業務支撐系統核心數據庫遷移改造項目中國移動通信集團廣東有限公司阿里云計算有限公司在離線一體云原生數據倉庫技術研究和應用中國移動通信集團山東有限公司亞信科技(中國)有限公司天津南大通用數據技術股份有限公司湖倉一體大數據平臺研究和實踐威海市商業銀行股份有限公司華為技術有限公司“湖倉一體”分布式分析型數據庫平臺中國移動通信集團河北有限公司云和恩墨(北京)信息
56、技術有限公司數據庫替換選型方法及智能分析工具-25-中國移動通信集團江西有限公司浙江創鄰科技有限公司創意信息技術股份有限公司基于圖數據庫的新一代電信網絡詐騙預防勸阻和溯源打擊系統20222022 年數據庫優秀案例年數據庫優秀案例單位名稱單位名稱成果名稱成果名稱中國移動通信集團山東有限公司北京奧星貝斯科技有限公司核心 IT 系統全流程業務在新型分布式 OLTP 數據庫中的應用中國移動通信集團四川有限公司天津南大通用數據技術股份有限公司混搭架構中構建邏輯數倉的應用與實踐中國移動通信集團云南有限公司金篆信科有限責任公司云南移動營收稽核系統改造項目創新案例中國移動通信集團內蒙古有限公司北京柏睿數據技術
57、股份有限公司全內存計算數據庫“提速賦能內蒙古移動行業智能短信精準分析與高效運營”中國光大銀行股份有限公司北京萬里開源軟件有限公司光大銀行分布式數據庫在重要業務系統中的應用江蘇紫金農村商業銀行股份有限公司星環信息科技(上海)股份有限公司紫金農商銀行基于 ArgoDB 的湖倉集一體大數據平臺中國移動通信集團河南有限公司北京人大金倉信息技術股份有限公司基于軒轅數據總線平臺實現異構數據庫混合組網的解決方案中國聯通軟件研究院北京奧星貝斯科技有限公司聯通核心業務的分布式數據庫創新實踐江西金融發展集團股份有限公司星環信息科技(上海)股份有限公司基于分布式數據庫的互聯網金融業務系統云南公路聯網收費管理有限公司
58、湖南亞信安慧科技有限公司云南高速清分結算系統降本增效升級改造中國國際金融股份有限公司云和恩墨(北京)信息技術有限公司中金公司星漢數據庫智能運維平臺中國光大銀行股份有限公司北京新數科技有限公司中國光大銀行數據庫平臺云系統哈爾濱銀行股份有限公司云和恩墨(北京)信息技術有限公司一體化數據庫運維服務體系建設中國對外經濟貿易信托有限公司上海愛可生信息技術股份有限公司多元數據庫統一云管平臺云樹 DMP 在信托行業應用實踐-26-深圳華大北斗科技股份有限公司廈門淵亭信息科技有限公司DataExa-Seraph 圖數據庫賦能企業知識中臺應用成都市氣象局成都虛谷偉業科技有限公司綜合氣象信息管理系統升級維沃移動通
59、信有限公司深圳分公司KV 存儲在互聯網領域的應用實踐維沃移動通信有限公司深圳分公司透明數據加解密在互聯網領域的應用實踐鄭州銀行股份有限公司智能 SOL 掃描工具四川省大數據技術服務中心北京飛輪數據科技有限公司基于 SelectDB 的超大規模核酸檢測數據平臺中國電信股份有限公司湖北分公司湖北省信產通信服務有限公司數字科技分公司建設高效穩定的數據調度平臺中航信移動科技有限公司北京飛輪數據科技有限公司基于 SelectDB 的航旅縱橫用戶行為在線分析平臺表 6:第六屆大數據“星河”案例數據庫優秀、標桿案例6 6.3 3 數據庫出海成為國產廠商的全新增量邏輯數據庫出海成為國產廠商的全新增量邏輯很多數
60、據庫創業公司,成立之初就定位國際化,比如分布式開源數據庫 PingCAP、開源向量數據庫系統 Zilliz、云原生流式數據庫 Singularity 等。2022 年有些國產數據庫廠商在“出?!狈矫嫒〉昧诉M展。螞蟻集團的 OceanBase 先后服務過印度、印尼、菲律賓、巴基斯坦等國家的金融科技公司。8 月 10 日,OceanBase CEO 楊冰在 4.0 產品發布會上也首次公開提到了出海戰略,作為OceanBase 的第三增長引擎。2022 年 11 月 22 日,騰訊云數據庫 TDSQL“大展身手”助力印尼 BNC 銀行完成新核心分布式遷移,告別昂貴的傳統商業數據庫,實現數字化轉型。從
61、 2019 年服務 Shopee 開始,PingCAP 走向了海外市場。目前海外市場的營收已經超過 PingCAP 國內營收,在不同的國家都有頭部的客戶,比如日本最大的在線支付公司 PayPay,美國的 Square,越南的獨角獸 VNG,印度的 Zomato,東南亞最大的電商 Shopee,法國最大的在線視頻公司 Dailymotion 等等。-27-7.7.數據庫國產化替代數據庫國產化替代背景及背景及相關政策相關政策7 7.1.1 國產化替代國產化替代背景背景從中興、華為等一系列高科技企業被美國制裁,到俄烏沖突事件爆發后,西方各國相繼宣布制裁俄羅斯,以 Oracle、IBM、微軟、SAP
62、為代表的科技巨頭暫停在俄服務,這一系列動作給我們敲響了加速國產化替代的警鐘。數據庫作為提供數據存儲與處理能力的基礎軟件,是信息系統的基礎,數據庫自主可控和國產化替代已經成為現實要求。在國內市場,Oracle、MySQL、IBM DB2 等傳統數據庫發展較早,廣泛應用、占據先機,一旦出現供應鏈風險,企業沒有相應的替代方案,則可能導致企業運營管理等系統業務無法正常開展,這將帶來不可估量的影響與損失。往更深層次得說,一旦這些國外數據庫產品全面禁用,會對國家信息安全帶來危害,嚴重影響國民經濟的正常運行。國產數據庫起步較晚,在信息、人才、技術、成本等多重困境之下,很多企業采用“拿來主義”的方式,在開源軟
63、件基礎上或者從廠商購買源代碼的方式進行封裝和開發,從“表面”上縮短差距,造成一種技術“平齊”甚至趕超的“虛假繁榮”。這種方式雖然起點比較高,起步比較快,但產品架構幾乎不可能調整,想掌握核心技術更是難上加難。以國內最受歡迎的 MySQL 為例,從授權協議看,MySQL 擁有兩種授權協議,一種是 GPL授權協議:任何采用 MySQL 源代碼,并且進行修改的衍生產品,其代碼必須開源,不允許修改后和衍生的代碼作為閉源商業軟件進行發布和銷售。另外一種是商業授權協議,允許修改開源代碼進行商用,但需要購買商業授權,本質上與使用 Oracle 沒有區別。而事實上,國內很多“拿”了 MySQL 的產品并沒有遵循
64、 GPL 協議。他們在 MySQL 產品基礎之上進行封裝處理,把業務數據映射到某個封裝協議的凈荷中,然后填充對應協議的包頭,形成封裝協議的數據包,并完成速率適配。使用 PostgreSQL 的情況也大抵如此。這幾年 PostgreSQL 在國內掀起了一波熱潮,越來越多廠商基于 PostgreSQL 進行封裝,以 PostgreSQL 為代表的開源數據庫信創生態正在完善。這本質上和使用 MySQL 的“拿來主義”沒有差別,甚至可能更糟。就在前幾年里,Elastic、MongoDB、Redis Lab、Neo4j 等均修改過開源協議,以 Elastic為例,2021 年初,Elastic 公司宣布
65、再次修改開源協議:Elastic 公司決定將 Server Side PublicLicense 和 Elastic License 兩款開源軟件的 Apache License 2.0 變更為雙授權許可。其核心條款是“如果將程序的功能或修改后的版本作為服務提供給第三方,那么必須免費公開提供服務源代碼”。這意味著不法分子可以獲得其源代碼并研究其漏洞,給企業用戶帶來巨大的安全風險。-28-此外,Apache 軟件基金會和 GitHub 官網都有公開說明,產品和技術受到美國的出口法律和法規限制,因此使用國外開源軟件不能規避“被制裁”風險。受美國出口管制的俄羅斯在近期俄烏事件中將這方面風險徹底暴露。
66、有外媒消息稱,全球第一代代碼托管平臺 GitHub 考慮限制俄羅斯開發人員使用開源軟件。盡管此類軟件的使用是免費的,但它的許可協議仍然存在諸多限制,包括禁止受制裁的國家使用原本對公眾免費開放的代碼。從以上可以看出,“拿來主義”本質上并沒有實現真正的自主可控,其后續架構演進、功能和性能等都受到一定的制約,同時還受到國外出口管制法律的限制,隨意修改開源協議等操作,給國內用戶帶來了巨大的商業和安全風險。近年來,中央出臺多項信創相關政策,大力支持信創產業持續發展,努力實現國產替代。數據庫作為信息系統的核心和信創基礎軟件的重要部分,將迎來重大發展機遇。十四五規劃和 2035年遠景目標綱要也明確提出:“堅
67、持自主可控、安全高效,推進產業基礎高級化、產業鏈現代化?!秉h的二十大報告強調,加快實施創新驅動發展戰略。加快實現高水平科技自立自強。以國家戰略需求為導向,集聚力量進行原創性引領性科技攻關,堅決打贏關鍵核心技術攻堅戰。據 Gartner 報告,2021 年全球數據庫管理系統市場接近 800 億美元,其中關系型數據庫占比達到 80%,是全球數據庫的主流。據中國信通院預測,我國數據庫市場規模 2025 年將達到 688億元,增長迅速。在信創熱潮推動下,分析型數據庫、交易型數據庫、圖數據庫、搜索引擎、時序數據庫、時空數據庫等國產化替代,打造自主可控數據平臺將成為中國數據庫市場重要趨勢。當前,國內數據庫
68、產業呈現出百花齊放、百家爭鳴的局面,在關系型和非關系型數據庫領域全面開花,如云廠商如阿里云、騰訊云、華為云,也有很多數據庫廠商,如達夢、人大金倉等,也有大數據廠商如星環科技。星環科技是一家大數據基礎軟件廠商,于 2022 年 10 月 18 日在科創板上市,其致力于大數據基礎軟件的自主研發,并基于分布式技術、多模型統一技術、數據云技術等打造了一系列國產分布式數據庫產品,覆蓋主流的 10 條數據庫賽道,并且能夠基于星環科技創新的多模型統一架構實現多模型數據的統一存儲管理,高效實現跨模型聯合分析。目前星環國產數據庫產品已在金融、政府、能源、醫療等行業擁有 1000 多家終端用戶,幫助企業實現國外(
69、開源)數據庫的國產化替代,打造自主可控的數據庫平臺,并在架構、功能、性能、安全、運維、易用性等方面實現大幅提升。7 7.2.2 政策催化,替代化進程加速政策催化,替代化進程加速國產數據庫作為信創的關鍵環節,隨著國產化替代深入推進而受到重視。尤其當前數據庫供應商國外廠商占比較大,國產信創產品研發迫在眉睫。2022 年,黨的二十大勝利召開,提出加快建設制造強國、網絡強國、數字中國,并對加快發展數字經濟提出明確要求?;厥?2022 年全年,政-29-府相繼從高位部署、省級試點布局、地市重點深入三個維度,頒發了 9 項國產數據庫利好政策。具體政策詳情見下表。發布日期發布日期細分領域細分領域文件名文件名
70、主要內容主要內容2022/1/6數字經濟不斷做強做優做大我國數字經濟充分發揮海量數據和豐富應用場景優勢,促進數字技術和實體經濟深度融合,賦能傳統產業轉型升級,催生新產業新業態新模式,不斷做強做優做大我國數字經濟。2022/1/12數字經濟“十四五”數字經濟發展規劃預計到 2025 年,數字經濟核心產業增加值占 GDP 比重達到10%;大數據產業測算規模突破 3 萬億元;年均復合增長率保持在 25%左右。推進信息技術軟硬件產品產業化、規?;瘧?,加快集成適配和迭代優化,提升關鍵軟硬件技術創新和供給能力。2022/1/24數字金融銀行業保險業數字化轉型指導意見加快數據庫、中間件等通用軟件技術服務能
71、力建設,支持大規模企業級技術應用。加強創新技術的前臺應用,豐富智能金融場景,強化移動端金融服務系統建設。2022/3/5數字經濟2022 國務院政府工作報告加快發展工業互聯網,培育壯大集成電路、人工智能等數字產業,提升關鍵軟硬件技術創新和供給能力。2022/6/23數字政府關于加強建設數字政府政策的指導意見加快數字政府建設領域關鍵核心技術攻關,強化安全可靠技術和產品的應用,切實提高自主可控水平。2022/8/25數字經濟中央企業關鍵核心技術攻 關大會集中力量攻克一批關鍵核心技術產品,不斷提升自主創新能力,聚焦卡脖子問題取得更多突破性成果2022/9/6信創關于健全社會主義市場經濟條件下關鍵核心
72、技術攻關新型舉國體制的意見明確主攻方向和核心技術突破口,重點研發具有先發優勢的關鍵技術和引領未來發展的基礎前沿技術。-30-2022/9/28信創關于加快部分領域設備更新改造貸款財政貼息工作的通知設立設備更新改造專項再貸款,額度為 2000 億元以上,具體支持領域包括衛生健康、教育等 10 個領域設備購置與更新改造,且將優先審核和支持符合采購國產自主品牌設備。2022/12/27信創擴大內需戰略規劃綱要(2022-2035)聚焦核心基礎零部件及元器件、關鍵基礎材料、關鍵基礎軟件、先進基礎工藝和產業技術基礎,引導產業鏈上下游聯合攻關。表 7:2022 年國產數據庫相關政策8.8.國產數據庫市場份
73、額國產數據庫市場份額8.18.1 國產數據庫市場規模增長迅速,三年內將達到國產數據庫市場規模增長迅速,三年內將達到 688688 億元億元據信通院預測,中國數據庫市場 2020-2025 年復合增長率高達 23.35%,2025 年市場規模有望達 688 億元,國產數據庫市場空間前景廣闊。圖 1:2020-2025e 數據庫市場規模8.28.2 國產數據庫市場份額向頭部廠商聚集,數據庫云化趨勢顯著加速國產數據庫市場份額向頭部廠商聚集,數據庫云化趨勢顯著加速12 月 15 日消息,2022 年 Gartner 云數據庫魔力象限公布,阿里云(Alibaba Cloud)依舊處于領導者象限,騰訊云(
74、Tencent Cloud)重新入選并進入特定領域者象限且具有最高的執行力,是國內入選的僅有兩家企業。而 2021 年位于特定領域者象限的華為云今年落選。-31-圖 2:2022 年 Gartner 云數據庫魔力象限12 月 16 日消息,IDC 發布2022 年上半年中國關系型數據庫軟件市場跟蹤報告。報告顯示,數據庫云化趨勢顯著加速,公有云模式占比大幅提升至 61.2%。其中,阿里云以 42.4%的市場份額連續 3 年蟬聯榜首,在傳統部署+公有云模式下,阿里云也穩居第一,持續領跑國內關系型數據庫市場。在本地部署模式市場中,華為云 GaussDB 以 16.59%的市場份額排名國內第一,自20
75、20H1 以來,連續五次蟬聯第一。圖 3:IDC 2022 年上半年中國關系型數據庫軟件市場份額-32-8.38.3 中國在全球分析型和交易型數據庫市場份額到中國在全球分析型和交易型數據庫市場份額到 20252025 年將占據較高比例年將占據較高比例3 月 3 日,國際權威研究分析機構 Gartner 發布了中國數據庫市場指南(Market Guide forDBMS,China)。Gartner 預測,“到 2025 年,中國分析型數據庫市場來自海外廠商的將只剩下 30%,交易型數據庫市場海外廠商市場也只會剩下 50%左右?!?.48.4 20222022 年云數據庫營收數據將占據數據庫整體
76、市場的半數以上年云數據庫營收數據將占據數據庫整體市場的半數以上根據 Gartner2022 中國數據庫市場指南報告顯示,中國數據庫行業將加速增長并逐步向云端遷移,未來四年,中國數據庫行業向公有云遷移的速度將超過全球平均水平。2020 年數據顯示,云數據庫已占據整體數據庫市場份額的 40%,據 Gartner 預測,2022 年云數據庫營收數據將占據數據庫整體市場的半數以上。8.58.5 三年內中國公有云數據庫市場總規模有望達到超五百億元三年內中國公有云數據庫市場總規模有望達到超五百億元,云原生數據庫主云原生數據庫主要應用于互聯網行業要應用于互聯網行業8 月 18 日,華為云與中國信通院云計算與
77、大數據研究所共同發布了業界首個云原生數據庫白皮書,據中國信通院統計分析,2021 年,中國公有云數據庫市場規模為 144.59 億元,較 2020年增速 34.3%,預計到 2025 年,中國公有云數據庫市場總規模將達到 503.31 億元。信通院對云數據庫的使用者進行調研后發現,云原生數據庫的使用者行業分布廣泛,其中來自互聯網行業的占比 55.4%,這里面包含了互聯網電商、社交文娛、計算機軟件、信息技術服務等多個細分行業。圖 4:云數據庫使用者行業分布圖-33-8.68.6 關系型數據庫在中國數據庫總體市場中的占比超六成關系型數據庫在中國數據庫總體市場中的占比超六成,四家初創廠商評選為四家初
78、創廠商評選為中國分布式關系型數據庫創新者中國分布式關系型數據庫創新者11 月 1 日,國際知名研究機構 IDC 發布 IDC Innovator:中國分布式關系型數據庫,2022報告,根據 IDC 的最新數據,關系型數據庫在中國數據庫總體市場中的占比仍超過 60%。IDC 基于對分布式關系型數據庫市場中各初創廠商的綜合分析,評選出 4 家公司作為該領域的創新者(排名不分先后):北京偶數科技有限公司(偶數科技)、北京萬里開源軟件有限公司(萬里數據庫)、廣州巨杉軟件開發有限公司(巨杉數據庫)、天云融創數據科技(北京)有限公司(天云數據)。圖 5:IDC Innovator:中國分布式關系型數據庫,
79、20229.9.國內數據庫存量和增量市場平衡國內數據庫存量和增量市場平衡9.19.1 國內數據庫行業背景簡述國內數據庫行業背景簡述從長期來看,國內數據庫行業經過實驗室自研階段、引入國外產品借鑒吸收階段發展到了在自主研發賽道“百花齊放”的階段,各類型的數據庫企業與其代表的技術路線都處于激烈的市場角逐當中。但是短期來看,近兩年國內數據庫市場并未完全達到預期的增長水平,無論從投資規模還是從中標金額均沒有呈現“爆發”的跡象。具體而言,除了整個經濟形勢的外在影響外還有一些產品或者行業本身存在的問題和挑戰,下文從市場需求角度簡要分析國內增量市場和存量市場的“魚和熊掌兼得”問題。9.29.2 國內數據庫存量
80、市場概況國內數據庫存量市場概況(1 1)“存量市場存量市場”說明說明國內數據庫領域的“存量市場”概念和通俗意義經濟學上所指的“現存已被看到的確定的市場”有一定區別,指的是“在數據安全和供應鏈安全因素下進行的對國外產品進行對等替換的市場”。-34-以國外某數據庫的數據為樣本,推測整個替換市場空間:據公開財報數據顯示,近年來某國外頭部數據庫公司的年銷售額約為 2500 億元;數據庫銷售額占總收入比值約為 40%(35%45%浮動)為 1000 億元(來源:Gartner,中泰證券);中國區市場占全球市場約為 4%(3%6%浮動),為 40 億元;據調研以及實地用戶走訪調研統計:某國外頭部數據庫非正
81、式授權市場規模和正式授權市場相比約為 9:1,即隱性市場和顯性市場分別占比 90%和 10%;以金融行業為例,據統計,國外頭部數據庫 TOP4 市場占比約為 55%、19%、13%、6%?;谏鲜龅男袠I報告和市場統計,可以得出如下大致的存量年平均市場估算圖:圖 1:國內數據庫存量市場年估算上述的統計如果考慮到在限定時間內完成的話,例如 5 年,那么年替換市場規??梢詳U大 23倍(需累計計算過去 20 年國外產品在國內的 License 總量)。(2 2)“存量市場存量市場”需求分析需求分析受“真替真用”的相關要求,目前國內存量市場不再具有早期的“低售后成本紅利”,市場開始更多關注產品本身的能力
82、與特性。對目前的存量市場進行需求分析之前需要對客戶類型進行分類,本文按技術能力水平可以將客戶分為技術實力充沛型客戶和技術實力匱乏型客戶。-35-技術實力充沛型客戶在面臨數據庫技術路線變化的替換需求時往往選擇更高成本但是更徹底的“完全解綁”路線,即從應用層面進行重構,包括但不限于單元化改造、微服務改造、分布式改造等。技術實力匱乏型客戶有兩類,一類是行業屬性導致對信息化投入低,例如制造、工業等傳統企業,一類則是行業腰部及以下客戶,不具備儲備大量技術人員的條件。受限于技術實力和信息化投入比例,此類客戶往往選擇更為便捷和平滑的替換方案,包括但不限于產品同構替換、應用集成替換等。由于用戶對基礎技術的了解
83、不深入特點,所以往往基礎軟件需要由供貨商或服務提供商兜底。9.39.3 國內數據庫增量市場概況國內數據庫增量市場概況(1 1)“增量市場增量市場”說明說明數據庫領域的增量市場區別于經濟學中的“可能會被激發的潛在的市場份額”概念,一般指的是“由于應用新建或者業務變化帶來的數據庫銷售”,更偏向于“新增市場”概念。國內的數據庫市場規模統計口徑在 2020 年之前主要是以增量市場(新增市場)為基礎的,“存量市場”占比基本低于 3%,可以忽略不計?;谝韵陆y計數據,可以大致評估出國內增量市場規模:中國信通院數據庫發展研究報告(2021):中國數據庫市場以每年 23.4%的增速增長,在 2025 年達到
84、688 億元規模;中國賽迪顧問“十四五”關鍵應用領域之數據庫市場研究報告統計:中國數據庫市場本地部署與云市場比例為 47.7%和 52.3%。圖 2:中國數據庫市場預計統計(增量)-36-目前我國數據庫的增量市場是和數據管理業務強相關的,隨著數據重要性逐步提升,數據的規模和重要程度會從金字塔模型逐步過渡到倒金字塔模型,如下所示:圖 3:數據規模金字塔模型具體來說,早期受限于硬件能力和大數據處理技術,地方應用的數據規??偭客亲畲蟮?,其經過處理以后將總結數據層匯聚到國家級應用中,此時國家級的應用數據是規模較小的結果數據和歷史數據。以自然資源系統和統計系統為例,國家層面的數據往往是統計結果,并不
85、存儲原始數據,所以其數據時效性和價值并不能完全展現。在數字化改革和數據集約影響下,傳統應用開始轉型,呈現從地方/自動化端側直報國家級中心的態勢,區域數據則是由國家中心下發。此模型無論從時效性還是管理上都要更進一步。隨之而來的則是地方應用(端側)數據規模會逐步降低,國家級應用(云)的數據規模和數據時效性會逐步上升。數據的價值是建立在數據的規模和數據時效性之上的,只有原始數據的快速匯聚才能打通橫向和縱向的數據孤島,完成數據的可服務化從而提升數據價值。(2 2)“增量市場增量市場”需求分析需求分析整體而言,國內企業/單位分為了守成型和開拓型兩類,前者指的是業務模型較為固定,或者客戶總量確定的企業,例
86、如部分國企、央企、金融機構;后者指的是客戶數量快速增長、業務壓力提升迅速、政績需求突出的單位和企業。守成型客戶對數據庫的需求乃至對信息系統的需求更多是從供給側發起的,包括但不限于對降低成本、風險規避、合法合規方面有較強需求。開拓型客戶的需求和守成型客戶的需求發起點相反,大多從消費側發起,目前國內 IT 領域對數據庫或者說數據產品的最大期望是能為其帶來數據的增值,從而實現市場的開拓。具體的數據應-37-用包括但不限于數據共享(數據交易)、數據挖掘、數據分析(決策)等。(3 3)增量市場和存量市場平衡思路)增量市場和存量市場平衡思路通過對增量市場和存量市場的概況分析可以大致得出,存量市場主要關注替
87、換本身的“低成本”,包括但不限于時間成本、人力成本、學習成本等;增量市場主要關注產品為業務帶來的附加值,即數據利用的“高效性”,包括但不限于降本增效、數據集約、數據分析等。但是隨著傳統企業轉型升級迫在眉睫,國家數據安全要求逐步覆蓋全行業國家數據安全要求逐步覆蓋全行業,原有的增量市場和原有的增量市場和存量市場的界限開始變得模糊存量市場的界限開始變得模糊。通俗來講,客戶期望一次數據庫銷售可以同時滿足存量替換和數據增值的需求,而非分步進行,所以平衡存量市場和增量市場需求就顯得尤為重要平衡存量市場和增量市場需求就顯得尤為重要。要解決平衡問題首先需要分析目前國內數據庫產品和企業狀態,國內目前存量市場主要
88、優勢企業是傳統數據庫企業,增量市場主要優勢企業是新興數據庫企業,這兩類企業或者產品應對另外一方的市場來說還略顯不足,具體來看如下:傳統數據庫廠商產品以集中式數據庫進行同型替換方案為主,在面對增量市場的時候存在一些挑戰:a.不能獨立依靠數據庫產品解決數據集約化問題;b.不能很好地在國內服務器能力不足的情況下匹配業務性能要求;c.擴展性不足,難以低成本滿足國內“多期建設”訴求,即相同的業務從小規模示范過渡到大規模應用。新興數據庫企業大多采用分布式數據庫技術路線,以全面應用改造方案為主,在切入存量市場的時候存在部分難點:a.提供的替換方案整體龐大,業務入侵性過高,應用修改量大,難以規?;鎿Q;b.語
89、法兼容性弱,體現在對被替換產品的語法、數據類型兼容性弱,需要大量人工介入;c.功能兼容性弱,體現在對被替換產品的內置函數、存儲過程兼容性差,尤其是大部分分布式數據庫產品將存儲過程分布式化的能力,需要重構應用。針對上述問題,下文通過“從市場需求層映射到產品特性的方法”提出對數據庫產品能力的要求,提供一種解決“魚和熊掌不可兼得”問題的思路,如下圖所示:-38-圖 4:數據庫產品能力的要求二、二、數據庫關鍵技術概覽數據庫關鍵技術概覽數據庫管理系統作為能夠使用戶定義、創建、維護和控制訪問數據庫的軟件系統,其整體架構與技術路線不斷深化發展,如今呈現 NewSQL、分布式、HTAP、serverless、
90、湖倉一體、內存技術、超融合與流式處理、云原生等技術現狀。1.1.NewSQLNewSQL從數據庫與數據應用需求相適應的角度切入,我們可以將眾多不同類型的數據庫按演進過程劃分為 SQL、NoSQL 與 NewSQL 三類。最初的數據庫系統是為了解決基于文件系統的數據應用面臨的各種困難和挑戰而誕生的。主要面對的是數據應用對于共享、可靠、一致、高效、安全、低冗余的數據訪問需求。這一時期,在關系模型基礎上,支持事務機制,提供 SQL 訪問接口的關系型集中式數據庫紛紛涌現,典型的如Oracle、DB2 等商業數據庫產品以及 MySQL 和 PostgreSQL 等開源系統。狹義來說,SQL 是關系型數據
91、庫提供的極具用戶粘性的查詢語言,但是在此上下文中,用 SQL 特指傳統的集中式關系型數據庫。此類數據庫成為這一時期數據管理軟件中 one-size-fit-all 的最終形態。但是,隨著無線互聯環境的日趨成熟,大數據浪潮隨之而來,各種大數據應用紛紛出現。大規模高速并發流量不-39-斷累積海量數據,加之大數據應用對不同類型數據的高速處理需求,使得集中式數據庫難以有效應對。因此,這些新型數據應用亟需分布式的系統解決方案,也對數據庫系統在高可擴展、高可用等特性上提出了新的需求。這一時期的數據庫都是分布式形態,除了在支持的數據類型(如鍵值、文檔、圖模型等)以及分布式特性上需要“加法”,由于其主要面對的
92、是互聯網應用,因此在嚴格事務語義、SQL 接口等特性上也采取了部分“減法”。數據庫內部降低了對復雜數據業務的支撐能力,將諸如維護訪問一致性的困難轉移到了應用開發層面。但是由于釋放了傳統關系型數據庫的諸多約束,這一時期的數據管理系統呈現爆發式的發展態勢,該時期涌現的數據管理產品統稱為NoSQL 數據庫,典型的如鍵值數據庫 Redis、文檔數據庫 MongoDB、圖數據庫 Neo4j 等。之后,隨著大數據生態的日益完善和在不同應用領域的深入使用,特別是在關鍵業務領域,在滿足高擴展和高可用的前提下,數據應用對于數據強一致性和既有應用透明對接的需求愈發強烈。在這一時期的初期,傳統關系數據庫系統也通過分
93、庫分表以及具有分布式服務能力的中間件等方案,盡力適應新的數據應用需求,典型的如 PostgreSQL XC 項目等。但是此類方案并非數據庫原生的分布式解決方案,特別當集群規模不斷增大時,開發與運維的復雜度都呈現指數級增長趨勢。因此,雖然類似 PostgreSQL XC 項目的方案具有與既有應用和成熟生態高度兼容的優勢,但是,從架構先進性上來看,此類方案存在結構性限制,其各方面的天花板都受到底層技術的制約,屬于一種過渡性技術方案。所謂原生的分布式數據庫解決方案是指在數據庫系統設計時,采用存儲與計算分離的設計思想,在其內部實現對數據分片、強一致多副本復制、嚴格事務、SQL 接口、高可用、高可擴展等
94、功能和特性的支持,此類原生分布式數據庫被稱之為 NewSQL 數據庫。以 Spanner 為代表的Share-nothing 架構以及以 Aurora 為代表的 share-storage 架構是 New SQL 類數據庫目前最主要的兩種架構形式。這兩種形式都支持存算分離,但是在擴展能力上有所差異。Share-storage 架構的系統大多只提供共享存儲層的水平擴展能力,而由單一讀寫實例和若干只讀實例構成的計算引擎層則不具備寫并發能力。針對此問題,很多系統在后期通過引入Multi-Master 多主架構,在一定程度上為寫引擎提供了寫并發能力。有的核心設計思想是借助無鎖的共享寫節點的異步寫方式,
95、推動多寫計算節點的事務完成,計算節點之間需要協調和回滾發生沖突的事務。有的則是基于共享緩存層以及多版本一致性模型和鎖機制完成沖突事務的解決。但是,上述改進目前還存在沖突檢測互斥粒度過大、極致的水平寫擴展能力有限等架構性難題。Share-nothing 架構則在擴展性上具有良好的表現能力,計算引擎和存儲引擎理論上都可以線性的水平擴展。這種架構下,對用戶完全透明的分區必然會引入分布式事務,也是影響系統性能的重要因素。除了在兩階段提交協議上進行各種優化,有的系統也給用戶提供了可定制的分區規則,業務端可以根據應用場景和數據特征,將特定訪問所需的數據劃分在特定的單分區內,利用規則約-40-束分布式事務的
96、發生。但是這種方式無疑也提高了數據應用開發的門檻,需要業務層做仔細謹慎的設計,否則就可能產生不可預估的性能問題??傮w來說,從 NoSQL 全新迭代設計的 share-nothing的 NewSQL 數據庫,系統組件層次清晰,耦合程度低,但是與既有應用的兼容和生態的建設需要不斷的打磨。這種全新架構的產品具有很高的上限,還需要更多的成長時間。此外,share-storage架構的數據庫天然和云具有親和性,但是又存在被某一廠商綁定的潛在問題,Share-nothing 架構的數據庫則有更靈活和獨立的部署策略??陀^來說,除了具有完整理論支持的 SQL 關系型數據庫外,NoSQL 和 NewSQL 數據
97、庫其實并沒有嚴格意義上的定義。它們代表一種數據管理系統隨數據應用需求而演化的階段性分類。特別是對于 NewSQL 類系統,它們既存在一些公認的特征,而不同系統又都基于不同的設計假設和偏好場景,具有獨特的技術特性和優勢。例如,Spanner 利用獨有的物理時鐘系統 TrueTime 實現了分布式事務,解決了全球級跨區域的數據一致問題;TiDB 在承載 spanner 設計哲學的基礎上,利用開源方式進化成為 HTAP 數據庫;Aurora 基于“網絡是數據庫瓶頸”的假設,提出了 log isdatabase 的設計哲學;PolarDB 則根據網絡環境變化的事實觀察,認為瓶頸將由網絡轉向軟件棧,利用
98、新硬件驅動的用戶態設計模式提出了一系列關鍵技術;OceanBase 在不斷強調水平擴展的設計目標下,又回頭重新審視極致的單機性能的重要性,提出單機分布式一體化的演化思想;YaoBase 則在讀寫分離架構下,通過內存計算加速的增量聚集系統架構實現了高性能事務。目前各種 NewSQL 類系統“道”相似而“術”不同,而不同的技術路線必然會導致此類系統在系統性能、適用部署模式(On-Promise 與 On-Cloud)、研發和維護成本、使用者代價以及可靠性與穩定性上都存在差異,任何一個系統都不是“銀彈”,需要結合應用的實際需求進行考量。圖 1:TiDB 的 HTAP 架構-41-圖 2:PolarD
99、B 新硬件賦能的架構圖 3:OceanBase 單機分布式一體化架構-42-圖 4:YaoBase 內存計算加速的增量聚集架構我們認為,應用需求的驅動是數據庫演化的最直接動力,不同階段的數據庫也在通過螺旋式的迭代演化,不斷融合最核心的功能?,F階段來看,NewSQL 是具有架構先進性的,基礎架構決定了上層功能,不同具體產品形態又各具特色并在不同場景中彰顯不同優勢,NewSQL 數據庫也正在試圖將以往階段數據庫系統的重要特征不斷吸收交匯,試圖再次以 one-size-fit-all 的姿態獨領數據管理領域。當然,未來是百花齊放還是一枝獨秀,還有待市場、技術和時間的相互驗證。2.2.分布式分布式2.
100、12.1 分布式數據庫出現的背景分布式數據庫出現的背景數據庫系統有確定的功能集嗎?數據庫系統有明確的邊界嗎?如果有人問這兩個問題,答案都是否定的。數據庫管理系統是一種非常復雜的軟件系統,它的形態和邊界是不停變化的,在適應持續迭代的硬件環境和不斷變化的用戶需求的過程中,數據庫系統也不停地變化著自己?;仡櫄v史上成功的系統,數據庫系統的功能總是在競爭中發展、完善,成為更好的支撐業務的底座。Oracle 公司的 Oracle 數據庫系統真正對外是 1979 年,發軔之始,Oracle 就面對 Ingres的競爭。兩家公司在哪種語言才能最好的代表關系數據庫而拼命發展自己的路線。如果說圖靈獎獲得者 E.F
101、.Codd 的關系代數是燈塔,那么數據庫公司里的軟件工程師們就是與驚濤駭浪搏斗的水手們,是在這些勇士的手中,SQL 功能被不斷的豐富,SQL 的執行性能被不斷的提升,終于成為支撐了半個世紀數據技術發展的主流解決方案。Oracle 公司經歷的激烈競爭還有很多,有些競爭不僅差點擊跨 Oracle,而且改變了 Oracle系統,也改變了整個業界對于關系數據庫系統的認知。Sybase 系統經過 2 年的低調研發,從 1987年開始進入市場,以更強的 OLTP 處理能力橫掃客戶。Oracle 面對 Sybase 的競爭,也持續不斷-43-的優化 OLTP 場景的性能,并且積極發展了 Client/Ser
102、ver 的運行能力。在此之前,應用程序要和數據庫系統運行在同一臺機器上,這種“集中式”的使用方式被認為是更高效的,經這一役,關系數據庫處理 OLTP 的性能獲得了極大提升,Client/Server 的“分布式”運行方式獲得了市場的認可,成為了業界主流?;ヂ摼W興起發展的這些年里,分布式技術得到了極大的拓展和實踐。硬件環境擺脫了對于專用高端硬件的依賴,越來越多的刀片服務器成為了新主流。將分布式技術應用在數據庫系統內核中,是新的分布式數據庫系統的目標?;诜植际郊夹g的數據庫系統,具有功能、拓展性等多方面的優勢,數據庫的存儲和計算能力不再受單一服務器的限制?;诜植际降募夹g,在數據庫內部能夠維持副本
103、之間更好的一致性,進而提供更好的數據庫服務的連續性?;诙嗯_服務器的集群,數據庫也能利用更多的硬件資源提供更強大的數據分析能力。在分布式數據庫發展的第一階段,新的系統為了突出分布式的優勢,研發精力自然的放在高可用、擴展性等分布式數據庫特有的功能上,而這類功能也充滿了技術上的挑戰,需要研發團隊跨過從理論到技術再到產品的多種難關。這時候的分布式數據庫,有其架構帶來的獨特優勢,但是在功能的全面性上有所欠缺,使用者可能只會把分布式數據庫定位成傳統數據庫的補充。隨著分布式數據庫的持續迭代,在繼續加強擴展性和高可用等優勢功能的同時,從市場的實際需求出發,解決了很多數據庫使用者原本關心的功能、性能等特性問題
104、,作為分布式數據庫代表的OceanBase,已經步入成熟階段,成為全場景的數據庫系統解決方案,可以更方便地讓不同的應用集成分布式數據庫。2.22.2 成熟分布式數據庫的標志成熟分布式數據庫的標志分布式數據庫系統成熟有兩個重要的標志:功能完備,運行效率優秀。下面分別從這兩個方面詳細聊一聊。(1 1)功能完備功能完備數據庫系統是在實踐中逐漸成長完善的軟件系統,功能集是相當的龐大。數據存儲、數據修改、數據查詢、數據管理等不同方面,都有各種類型的業務訴求。數據存儲方面,以 OceanBase 為例,分布式數據庫在已經擁有非常高效的存儲壓縮的基礎上,在最新的迭代中也支持了更多的字符集。同時,對大對象的支
105、持也是 OceanBase 一個很大的突破,同類的其他分布式數據庫對大對象支持得都不夠友好。應用開發中,雖然不是所有業務都會依賴大對象,但是總有一些業務場景比較依賴大對象功能。OceanBase 現在可以提供對大對象功能的全面的支持。并且,在大對象功能的基礎上,還支持了 JSON、GIS 等復雜數據類型,這類數據通常-44-都會在一個元素中存儲比較多的內容,如果沒有大對象能力在底層做支撐,還真是不好用。數據修改方面,OceanBase 支持了任意大小的事務,在應用的數據導入、數據訂正、數據維護等流程中,應用開發者或者數據庫管理員不時會在一個事務中修改大量數據。這種使用方式,對于傳統數據庫來說不
106、是難事,對于新的分布式數據庫來說,因為事務模型發生了很大改變,支持大事務都是很大挑戰。當 OceanBase 支持了任意大小事務后,使用者再也不用操心一個事務修改的數據量是否過大。OceanBase 還全面支持了各種重整數據的 DDL 功能,比如修改主鍵、修改分區鍵、重新定義列類型等等。再結合 OceanBase 之前就支持在線的后建索引的能力,OceanBase已經具備了完善的對于數據維護操作的能力。對于新業務和變化很快的業務,Schema 會隨著業務發展不停的變化,有了重整數據的各種 DDL 的支持,用戶就能很方便得使用 OceanBase 來承載這種經常變化的業務場景。數據查詢方面,Oc
107、eanBase 在語法上兼容 MySQL 和 Oracle,支持了從大量瑣碎的函數到存儲過程等重量級功能。同時,OceanBase 的查詢優化器、執行器也都不斷迭代,任何數據庫的查詢優化和改寫能力都來自實踐經驗的不斷積累,業界比較公認的 Oracle 的查詢優化能力是很強的,目前的 OceanBase 的查詢優化器已經達到了 Oracle 的同等水準。OceanBase 的執行器的并行執行和向量化執行能力也已經是成熟和高效的引擎,可以很好的支持大數據量的查詢,這是新興的 HTAP 系統才具備的能力,OceanBase 這方面的能力已經超過了傳統的數據庫系統。數據管理方面,數據庫系統里通常都存儲
108、了用戶的關鍵業務數據,用戶使用數據庫系統不僅只是運行一個實例進行數據操作,還為了備份、安全、監管,進行各種數據管理操作。比如,定期備份所有的數據,或者在異地搭建一個從庫等。對于數據庫系統來說,備份數據和搭建從庫都有物理和邏輯兩種方式,物理備庫和物理從庫才擁有保證數據的一致性和應對所有業務場景的普適性。OceanBase 是分布式數據庫中最早支持了物理備份恢復和物理從庫的系統,使用 OceanBase 可以讓數據庫管理員非常方便的完成各種數據管理的任務。(2 2)運行效率優秀運行效率優秀數據庫系統為什么要重視運行效率?數據庫系統作為底層基礎軟件,其與生俱來的使命就是更好的利用硬件來完成數據庫的各
109、種功能。作為大規模部署的通用軟件,軟件自身的每一點運行效率的提升都能帶來巨大的生產效率的提升和生產成本的下降,所以,所有的專業數據庫系統都在不停的優化運行效率。相比于其他分布式數據庫,OceanBase 的整體性能非常優秀。而且,OceanBase 在單機部署時,與傳統的單機數據庫相比,OceanBase 的性能也非常優秀。也許有人會有疑問,分布式數據庫為什么要重視單機性能?性能優化的本質是盡可能發掘出硬件的極致,在一臺服務器上的操作-45-與跨機的操作走不同的硬件,天然有不同的特性,當然需要針對不同的特性進行優化。換個角度看分布式系統。分布式系統是由網絡連接的一組服務器上工作的系統。這里的網
110、絡指的是以太網。但很容易被忽視的事情是服務器內部也是由若干個網絡有機結合的一個系統。CPU利用內存控制器把數據通過消息從內存中加載到 CPU 的 Cache 中。CPU 利用 IO 控制器通過消息把數據從硬盤加載到內存中。CPU 的核心之間通過消息交換訪存的信息和 Cache 的信息。每一處都類似一個小網絡不停地進行信息的交換。從運行效率角度看,以太網比機器內的網絡具有很長的傳輸距離、更低的傳輸功耗,但是操作復雜、延遲大。當不同特性的硬件擺在數據庫系統設計者的面前時,設計者一定要考慮怎么更好地利用不同層次的硬件能力,更加高效的實現數據庫的特性。OceanBase的單機分布式一體化架構核心就是讓
111、OceanBase系統在一臺機器上運行開銷與傳統單機數據庫是類似的,同時讓 OceanBase 還具備分布式的擴展能力,支持利用多臺服務器進行數據存儲和服務能力的擴展。OceanBase 的一體化架構的核心就是讓系統以機器為單元組織數據庫的管理結構,能在一臺機器上通過本地操作和本地引用完成的事情就放在一臺機器做,盡量減少跨機的操作與跨機的結構。通過在保證擴展性的同時,還能把一臺服務器的硬件能力發揮到極致,OceanBase 可以給到使用者從一臺很小規格的機器到多臺服務器組成的集群都能高效運行的數據庫系統。2.32.3 從一體化到一站式從一體化到一站式基于分布式技術構建的數據庫系統,其能力上限遠
112、大于傳統的單機數據庫系統。隨著社會數字化進程的加速,市場對于數據庫系統的需求也是越來越多。在一體化架構的加持下,OceanBase已經具備了傳統單機數據庫的主要功能,并且還擁有比傳統單機數據庫更優異的性能,有能力承載各種業務場景的對數據庫系統的需求?,F在的數據庫系統的功能集愈發豐富,從之前的僅僅解決某一種業務模型的需求,演變到集實時交易處理與在線分析查詢能力于一體的綜合系統。分布式數據庫系統已經成長為能力強大的綜合性系統,用戶可以在一個系統內既承載業務的事實交易,又進行數據模型的轉換,再進行挖掘數據價值的查詢分析,讓數據在一個系統內流轉,一站式的解決用戶從數據產生、到數據轉換、再到數據消費的一
113、系列操作,在帶給業務便利性的同時,進一步降低數據處理的成本。3.3.HTAPHTAP3.13.1 技術背景技術背景(1 1)商業層面商業層面。陳舊的報告、缺失的數據、缺乏高級分析以及完全缺乏實時分析對于任何需要新見解以在商業客戶時代保持競爭力的企業來說都是一種無法忍受的狀態。-Forrester。-46-隨著業務需要的發展和數據庫技術的發展,使得數據庫產品需要具有同時處理 AP 和 TP 的能力,需滿足:(1)負載隔離能力,AP 負載不會影響 TP 負載;(2)數據的新鮮度要高,AP 可以訪問最新的 TP 數據。因此,基于 HTAP 的能力可以簡化業務系統的架構。AP 和 TP 的能力由統一的
114、系統對外提供,由此帶來:(1)業務架構簡單化;(2)具有一定的擴展能力;(3)系統技術棧簡單,運維方便等等優勢。產生 HTAP 用戶側的需求或者訴求如下:(1)事務數據及歷史數據的集成;(2)理解用戶需求的超維度數據分析的需要;全局視角來看數據,方能看清事物的本質。(例如:從手機的位置信息,用戶的填表所獲得信息,社交媒體所獲得富媒體信息);(3)企業運行所需的商業分析的實時性需求。(2 2)技術層面技術層面。以下技術的發展進一步的推動了 HTAP 技術的快速發展及在業務層面的落地。列存技術列存技術:該種數據存儲模型下,只需要讀取分析計算所需的屬性即可,由此可以節約寶貴的 IO 和 memory
115、 資源。同時,列存模型也屬于 CPU Cache 友好型。但是,該模型有一個問題:其在將結果返回用戶的時候,或者在上層算子進行計算的時候需要重構記錄(Tuple)。in-memoryin-memory 技術技術(包括:distributed in-memory):當執行 Analytical Processing(AP)的時候,可以將 AP 所需數據加載內存中,甚至可以將所需的表的數據全部加載至內存,獲得急速的處理速度。最后,為了保證系統 crash 的時候可以正確且快速的完成 recovery,需要將內存中的數據持久化至磁盤中??蓴U展的架構可擴展的架構:(scale-out architec
116、t):水平擴展架構的發展,分布式鎖技術的成熟,記錄的分布式管理。當然分布式對于 HTAP 來說,只是一個充分條件,而非必要條件。數據壓縮數據壓縮(data compression)。分層存儲架構分層存儲架構(tiered storage):為能夠以最大的性價比對用戶提供高性能,分層存儲架構應運而生。例如:使用 DRAM,NVME,SSD,HDD 來構成分層存儲架構。將對于計算實時性有要求的數據加載至 DRAM 中進行計算,以獲得實時計算結果。如果計算過程復雜,中間結果集較大,可將中間結果集保存至 NVME 中,這樣既可以保證數據的實時性,又可以支持更大的數據量,以獲得較高的性價比。同樣,SSD
117、 和 HDD 也起著同樣的作用。3.23.2 發展歷程發展歷程HTAP 數據庫的興起和發展是在 2010 年代,有三條技術路線,分別是單機數據庫,云數據庫,NewSQL,SAP HANA 是以內存數據庫為主的單機架構,MySQL 在 2021 年發布的-47-Heatwave 雖然在分析能力上是個 MPP 的架構,但 MySQL 本身還是單機版的,Google AlloyDB參考了 AWS Aurora 的架構,做到了青出于藍的效果。NewSQL 的分支鼻祖是 Google Spanner,但同為 NewSQL 架構的 TiDB 持續在 Real Time HTAP 投入巨大,TiDB 早期解
118、決了 MySQL分庫分表的問題就面臨用戶的在線分析需求,在 2018 年 TiSpark 的引入,2020 年 TiFlash 架構完成了 HTAP 架構的閉環,再到 2021 年 5.0 版本 MPP 能力,這個能力通過 TiDB Cloud 向所有云上用戶輸出,在 5 年時間完成了 Real Time HTAP 產品能力的四連跳。圖 1:主流 HTAP 數據庫大事件與 2014 年 HTAP 剛剛提出來的內存數據庫架構大不相同,當前最有四個代表性的新一代HTAP 數據庫,我們會發現一些共性:首先新一代 HTAP 數據庫都應對的是互聯網和數字化催生的更大數據量,更低延遲,更低成本的新一代需求
119、,其次,新一代 HTAP 數據庫無論路徑如何,都采用了分布式架構,行列混存,低延遲的 Log 復制機制,并通過云端的擴展獲得了準 PB 級別的擴展性,很多還借助了 ML 的學習能力來提升查詢的效率,最終都實現了以全托管的模式給用戶提供一個簡單而強大數據庫的使用體驗。合久必分,分久必合,新一代 HTAP 數據庫在云端,以一種簡化而強大的數據庫能力為用戶提供秒級的實時交易和查詢體驗,已經是一種公認的潮流。3.33.3 典型廠商典型廠商及架構對比及架構對比國外國外:SnowFlake(Unistore)、Google(AlloyDB)、Oracle(MySQL HeatWave)、SingleSto
120、re、SAP HANA、Microsoft SQL Server、Aurora(Parallel Query)等。國內國內:OceanBase、TiDB、StoneDB、PolarDB、GaussDB、TDSQL-H 等。-48-(1 1)AuroraAurora ParallelParallel QueryQuery熟悉 Aurora 架構的讀者清楚,Aurora 最早的版本是基于 MySQL 的,Aurora 的理念是“Log is Database”。Aurora 主要是靠存算分離和共享存儲來提升系統的擴展性,在 OLTP 方面,主庫和從庫采用 Log 在共享存儲層的同步機制來保證從庫的
121、數據及時更新;在 OLAP 方面,Aurora 基于 MySQL 5.6 和 5.7 兼容版本都支持并行查詢,2019 年,AWS 基于 Aurora 上推出并行查詢(Parallel Query),借助 Aurora 的存算分離架構,Parallel Query 可以把大規模查詢的負載下推給 Aurora 存儲層,而 Aurora 計算節點可以繼續為事務服務,這樣就可以在一個 Aurora 數據庫中互不干擾地運行事務和分析負載。Aurora 解決混合負載的辦法主要是采用存算分離的架構特點,充分借助云存儲層的擴展性;但 Aurora 一寫多讀的架構在寫入擴展性方面存在瓶頸,造成在 OLTP 上
122、面的性能很容易達到上限。對于大多數 MySQL 用戶來說,遷移到Aurora 可以體驗到云端 OLTP 性能和擴展性得到一個巨大的提升。Aurora Parallel Query 也提供了 MySQL 架構的并行版本,但無論是 OLTP 的寫瓶頸,還是缺少列存支持的 Parallel Query,都在 OLTP 和 OLAP 方向留下兩個不小的遺憾,是帶有缺憾的 HTAP 解決方案。圖 1:Google Cloud AlloyDB-49-(2 2)GoogleGoogle CloudCloud AlloyDBAlloyDBGoogle AlloyDB 是基于 PG 協議的,總體采用類似 AWS
123、 Aurora 的共享存儲架構,通過存算分離和共享存儲來提升系統的整體擴展性。從 AlloyDB 官方的架構演進圖可以看到,AlloyDB的擴展性和 HTAP 能力都是靠智能存儲引擎“Intelligent Database Storage Engine”OffLoad 數據計算節點的 IO 來實現的,而這一層“智能存儲引擎”是圍繞 LPS 通過 Log、Cache 和 Shared Block Storage 來實現的。在 OLTP 的寫操作,主庫通過 WAL 機制加速,在 OLAP 的讀操作,可以應用可以從從庫的 Buffer Cache、Ultra-fast Cache、智能存儲層依次并
124、行地去讀取數據,可以自適應地決定資源的分布,無論讀寫,都可以解決 IO 瓶頸、熱點、Block Write 等瓶頸,并借助 AI 算法可以不斷地學習數據放置的方式。AlloyDB 增加了針對OLAP 的列存引擎,這使得 OLAP 的分析能力大幅增強,不過這個主要是靠內存和緩存來完成的,由于 OLTP 和 OLAP 都采用的是一個跨 Region 的共享存儲,所以 OLAP 永遠讀到的都是最新的數據,這是 HTAP 能力一種非常好的實現方式。Aurora 的共享存儲從根本上是一個服務 OLTP 的引擎,沒有提供列存引擎,Aurora ParallelQuery 還是要通過下推利用多節點從行存中
125、Query 數據。而 AlloyDB 是在 Aurora 的架構上為共享存儲的 Log 服務機制增加了 AI 的能力和列存引擎,在 OLAP 處理方面會帶來很大的提升,但是 OLTP 的單寫機制是否有足夠的擴展性有待真實場景檢驗。AlloyDB 的出現給 PG 的用戶帶來一個云上 HTAP 加強版,這對于 PG 用戶來說是一個福音。無論是 Aurora 還是 AlloyDB 都是 AWS 和 GCP 的專有服務,用戶只有成為 AWS 和GCP 的用戶才有可能使用。此外,AlloyDB 在付費的透明度方面針對 Aurora 做了很大的改進,算是青出于藍了。-50-圖 2:AlloyDB 的改進(
126、3 3)MySQLMySQL HeatwaveHeatwave,增加列存外掛引擎和,增加列存外掛引擎和 MLML 的大號的大號 MySQLMySQL圖 3:MySQL HeatwaveMySQL 在原有架構上增加了一個列存引擎 Heatwave,成為了一個 MySQL 統一入口的分析引擎外掛,主要解決 MySQL 用戶的規?;樵兊膯栴}。從系統架構上看,用戶的 SQL 請求由系統判斷是去 MySQL 自身的 InnoDB 還是 Heatwave,大規模的查詢可以下推給Heatwave 多節點并行計算,再返回結果,可以將查詢提升一到兩個數量級,處理的同時Heatwave 和 InnoDB 互不干
127、擾,不影響 InnoDB 側的事務處理和 OLTP 查詢。Heatwave 雖然大大提升了查詢能力,但 InnoDB 本身的擴展性依然有瓶頸,OLTP 的吞吐量依然很容易達到上限,造成 OLTP 的擴展性僅限于 MySQL 原有的處理能力,無法滿足MySQL 用戶對OLTP 大規模擴展性的需求。(4 4)TiDBTiDB HTAPHTAP,獨立列存引擎設計,基于分布式,獨立列存引擎設計,基于分布式 NewSQLNewSQL 的跨云的跨云 HTAPHTAPTiDB 是 2015 年在 GitHub 開始發布的 NewSQL 數據庫,其架構的靈感來源是 GoogleSpanner/F1,兼容 My
128、SQL 協議,在 GitHub Star 數超過 31000+;在 TiDB 2017 年的早期版本 就開始嘗試支持 HTAP 的能力,并分別在 2019 年發布了 TiSpark,2020 年發布了列存引擎 Ti Flash,其行列混存的 Real Time HTAP 架構論文(此處嵌入論文鏈接)是對 NewSQL架構的一次創新,2021 年 TiDB 5.0 支持了 TiFlash 的 MPP 版本,從而使得 TiDB 的Real-Time HTAP 變成了在 OLTP,OLAP 雙向擴展能力的 Real-Time HTAP 數據庫;2022年 5,經過一年的預覽后,基于 TiDB HTA
129、P 數據庫能力的全托管服務 TiDB Cloud 正式全球商用,成為以全托管模式支持 Real-TimeHTAP 數據庫服務。-51-TiDB HTAP 的架構如下圖:TiDB 采用計算存儲分離的分布式架構,TiKV 采用行存,TiFlash采用列存,通過 Raft 協議同步數據,行列存之間保持強一致的數據讀取。用戶層面使用 TiDB 數據庫,一個訪問入口,一份數據,只要寫 SQL 就行了,不用去考慮業務是 OLTP 還是 OLAP。TiDB HTAP 提供的 OLTP 與 OLAP 能力在架構設計上是完全對等的,各自都可以根據業務的規模實現規?;瘮U展,在實時性與一致性前提下 OLTP 和 O
130、LAP 是完全隔離的,互不干擾和影響。圖 4:TiDB 負載分離TiDB 列存引擎的 MPP 執行器對窗口函數的框架性支持,內存消耗被分布式分擔,批處理場景的處理性能較為突出。TiDB Cloud 已經在 AWS 和 GCP 上面提供服務,用戶可以構建跨云構建 HTAP 數據架構,避免了單一云廠商的鎖定。本文初版寫完的時候,Data Cloud 的領導者 Snowflake 也加入了 HTAP 的行列,他們發布的 Unistore 一看名字都是行列混存的路子,大家都知道 Snowflake 之前的主要領域是把 云上數據庫倉庫服務,重點在偏向 OLAP 的分析領域,用的也是列存引擎,此次 Uni
131、store 的發布主要是通過新發布的 Hybrid Table 增加了對行存的支持,一方面支持的交易類型的應用,另一方面讓實時分析可以在不移動數據的情況下,分析來自交易應用,分析引擎,和原有 Snowflake 數據源的數據。Snowflake 在 HTAP 的用戶價值角度也強調了一個數據棧,不移動數據,同時支持在線交易和實時分析。講了那么多比較,現在用一張表來看這幾個主要HTAP 數據庫的特點,此表格對HTAP數據庫的關鍵能力做了一個粗顆粒的對比。產品名產品名GoogleGoogle AlloyAlloy DBDBAWSAWSParallelParallelQueryQueryMySQLMy
132、SQLHeatWaveHeatWaveTiDBTiDB HTAPHTAP架構特點存算分離共享存儲存算分離共享存儲存算分離行列混存存算分離行列混存NewSQL-52-OLTP 規?;悄艽鎯懫款i寫瓶頸多讀多寫列存/MPP(HTAP 必選項)支持/Memorycache 的列存不支持支持/MPP支持/MPP一個入口(HTAP 必選項)是是是是一套架構(HTAP 必選項)兼容 PG兼容 MySQL兼容 MySQL兼容 MySQL互不影響(HTAP 關鍵能力)不影響不影響不影響不影響AI 能力(HTAP 加分項)有無有有多云/云中立否否否是開源大數據集成是否是是表 8:HTAP 數據庫的關鍵能力對比
133、新一代 HTAP 數據庫最關鍵的指標是什么?它和數據倉庫,數據湖靠什么來區分?前面這個分析表從各個不同角度分析了 HTAP 數據庫應該具備的關鍵能力,從結果上看,HTAP 數據庫和數據倉庫,數據湖最簡單的劃分是什么?答案只有一個,Latency,下面一張圖把HTAP 能力的 Operational databases 和數據倉庫,數據湖做了區分,回到本文開頭的“秒回”這個詞,無論具備 HTAP 能力的 Operational Database 采用了那些技術組合,最終的效果就是要“秒回”,而數據倉庫總體來說是秒到分鐘級別的,而數據湖的數據訪問都要分鐘到小時級別了。圖 5:HTAP 能力的 Op
134、erational databases 和數據倉庫,數據湖的區分-53-3.43.4 選擇選擇 HTAPHTAP 產品的維度產品的維度(1 1)業務場景業務場景:首先,我們從業務場景的角度來討論如何選擇一款 HTAP 數據庫,主要有以下四個維度:業務類型業務類型業務所在的領域決定了產品底層技術棧的選擇。這個很好理解,比如電商這個業務場景所需要的技術棧和產品特點與傳統制造、CRM 等所關注的側重點就完全不一樣電商關注高并發、低延時、數據一致性和秒殺場景等等,而傳統制造商則對海量多樣化數據的處理和如何有效挖掘數據價值這些方面更加關注。在不同的業務類型下,選擇一款 HTAP 產品需要重點考察的是這個
135、業務類型需要哪一部分能力為主:TP 能力為主亦或是 AP 能力為主。對于電商系統需要更加注重其在 TP 方面的關鍵能力,例如:事務、數據一致性等等;而對于 CRM 系統,經銷存等等對 TP 能力則不會那么嚴苛,其可能更加看重 AP 的能力,在 TP 能力滿足其基本業務需求的情況下,哪款產品的 AP 能力更強,業務側可能會更傾向于選擇該款產品。而現有 HTAP 產品從技術實現路線上,基本可以分為這么兩類路線,其決定產品的基因:即側重于 TP 還是 AP?路線 1:以成熟的 TP 系統為基礎,在其上進行 AP 能力的擴展?,F有大部分 HTAP 數據庫產品均采用該種策略。為什么采用該種策略?其原因是
136、顯而易見的,TP 系統發展到現在其相較于AP 系統,更加成熟。例如:國內外的 OB,StoneDB,TiDB,Oracle MySQL Heatwave 和Google AlloyDB 等;路線 2:在 AP 系統的基礎上擴展其處理 TP 的能力。例如:Snowflake 等。這種路線,比較困難,但是成熟的科技公司會有更多的資源去做這個事兒,難度大,但是做出來了,也會是一大利器。端到端的解決方案能力:端到端的解決方案能力:對于業務開發相關人員,一個新產品或者解決方案的引入,自然希望不會給其帶來額外的工作負擔,并且最好能夠與其原有的技術棧相兼容,這樣對于原有業務系統的改動要求最少。但也不完全就是
137、為了讓干的活兒更輕松一些,因為,對于一個在線運行的系統,其對于穩定性的要求非常高,而新組件的引入往往會讓整個業務的不穩定因素增大。因此,如果不能夠保持原有的技術棧,則需要提供端到端的解決方案。例如:原系統采用的 ClickHouse 或者 ElasticSearch,如果需要替-54-換為 OB 或者 StoneDB,那么需要考慮原系統 ClickHouse 或者 ElasticSearch 上下游相關模塊接口兼容性,數據同步到 CK 或者 ES 的方式等等,這些解決方案都要提供出來。數據實時性要求:數據實時性要求:數據實時性的高低同樣也會影響到產品的選擇。當前現有的 HTAP 數據庫在 TP
138、 和 AP 之間的數據同步策略實現機制不盡相同。例如:有些云廠商通過 MySQL+Binlog+ClickHouse 的組合方式提供 HTAP 服務,從用戶的角度看似乎該服務具備了 HTAP 的能力,但實際上完全不是那么回事兒因為通過 Binlog 這種方式會有很多弊端,又如有廠商通過 TP+Redo+Raft+AP這樣的組合構成 HTAP 產品,其相較于前一種在數據的實時性上有了較大的提升,但也只是提供數據的最終一致性,同樣數據的實時性還是得不到保證;有的廠商則采用了基于 LSM-tree 實現的行列混存,這種可以基本保證對于數據實時性的要求;而像 MySQL Heatwave 和 Ston
139、eDB則提供了基于內存計算的強實時性的方案。HTAP 數據庫在產品具體實現的時候,其選擇的存儲方案會直接到影響架構的選擇:是一體化的架構?還是 TP 系統疊加 AP 系統的方案?架構的選擇則會直接決定數據同步策略和數據實時性的高低。技術能力:產品背后其公司所代表的技術實力也是業務方選擇一款產品的考量因素,例如:我們在下文第六點中給出的觀點。(2 2)性能)性能考量完業務場景相關的因素后,接下來需要考量的一個重要因素就是性能。不同于 TP 系的Benchmark TPC-C 或者 AP 系統的 Benchmark TPC-H,對于 HTAP 的性能測評一般不再使用這兩個傳統的方式來進行衡量。當前
140、大家更多地使用 TPC-H 來對其 AP 的能力進行評估,該種方法可以對其系統有一定的評價作用,但也存在著一定的弊端,那就是 TPC-H 無法全面地衡量一款 HTAP因為 HTAP數據庫的系統中會同時存在兩類負載:TP 負載和 AP 負載。兩類負載需要同時使用系統的 CPU 資源、IO 資源和網絡資源等等。對資源的競爭會導致兩類負載的相互干擾。因此,為了更好的衡量HTAP 數據庫,無論是學術界還是工業界,都逐漸提出了一些適用于 HTAP 數據庫的 Benchmark系統。這里也簡單提一下,除了具體的性能指標,例如:TPS、QPS、吞吐量等等,資源隔離性也是我們的重要考量。而資源隔離通常有兩種方
141、式:(1)通過系統手段(軟件)隔離。例如,通過 Cgroup的方式進行資源的管理;(2)通過物理手段進行隔離。例如,依據不同的負載類型 Route 到不-55-同引擎上,將 AP 查詢路由到列存引擎節點上,這樣可將 TP 負載和 AP 負載運行于不同的節點上,從而做到真正的物理隔離。(3 3)運維)運維運維的難度也需要我們認真考量。數據庫的運維不同于其它基礎系統,其對于 DBA 的綜合素質有比較高的要求。在系統長時間運行的過程中會遇到各種數據庫的使用、功能、性能等等問題。解決這些問題除了需要數據庫、操作系統和業務等多方面的知識,同樣也需要相關運維工具的支持。運維手段和運維工具可以高效的支持 D
142、BA 的運維工作。復雜的系統形態,會導致 DBA 的運維工作量增大,最直接的影響就是難以快速定位問題,增加了解決問題的耗時。(4 4)生態)生態生態是選擇一款 HTAP 數據庫的一個重要因素。當前有兩類生態:PostgreSQL 和 MySQL。選擇哪一種生態,會直接影響到后續圍繞數據庫所構成的整個技術棧。同時,業務也會從其自身的特點選擇相應的技術路線。例如:如果業務系統是基于 JSON 和 GIS 能力的話,那么多數的業務開發者可能更傾向于選擇 PostgreSQL 生態;如果是電商業務則更多的會選擇 MySQL 生態。具體來講,生態中的周邊工具、中間件和解決方案的完整性和豐富性非常重要。除
143、工具、方案外,社區參與的人數(不管是對開源的 HTAP 數據庫,還是對于商業或云上的 HTAP 服務,都需要考量該使用該服務的人群數量),更多的社區參與人數往往意味著社區比較活躍,那么,我們使用者遇到的一些問題就可以得到快速的響應。生態的繁榮也從另外一個側面反映出該技術路線獲得了相當多的上下游廠商的支持。(5 5)成本)成本成本是一個無法繞過的話題,一般企業/組織內的管理者對于成本的關注度往往是多于其他項的。如果想要使用一款 HTAP,需要考量的成本主要包括以下幾個方面:硬件成本、替換(遷移)成本、運維成本等:硬件成本:硬件成本:其中最主要包括:計算成本和存儲成本。在 StoneDB 實際的產
144、品 POC 過程中,遇到很多客戶實際的業務數據量在 100GB-1TB 內。如果采用一些現有的其他國產 HTAP 產品,由于這些產品對最小集群有要求,從而使得這些小廠商在使用 HTAP 服務時,必須付出比較高的集群硬件成本,這個是他們不愿意接受的。特別地,當需要替換現有 MySQL 數據庫的時候,目前的一些國產 HTAP 數據庫,基本都存在 MySQL 語法兼容性的問題,這導致遷移到新的業務系統上需要進行大量的修改,從而造成整體成本的飆升。如果廠商比較在乎這一部分的成本的話,StoneDB就是很好的選擇了。-56-替換成本:替換成本:需要能夠提供對于原系統的平滑遷移能力。對于業務侵入改動最小,
145、業務無需做修改即可平滑遷移到新的數據庫平臺。運維成本:運維成本:在第三點中我們討論運維問題,這里就不再詳細討論了。運維成本將會是系統穩定后,最主要的支出成本。(6 6)LTSLTS 支持性支持性對于 LTS(Long Term Support,長期支持版)支持性,這里又可以從兩個方面來討論。(1)商業 HTAP 數據庫(2)開源 HTAP 數據庫。無論對于商業數據庫還是開源數據庫都面臨某個版本的生命周期問題。商業數據庫相對來說,其售后服務有保障,但同時商業數據庫又面臨閉源和售后服務需要支付昂貴的服務費用等問題。而開源數據庫,其 LTS 的支持除了需要社區支持以外,也需要由其背后的公司來進行保證
146、。我們也很容易發現,一個成功的開源數據庫項目背后,通常都有一個成功的商業公司支撐。因此,無論是選擇哪類 HTAP 數據庫,都需要注意所選擇的產品的 LTS 支持性的問題。好了,以上就是我們總結的選擇一款 HTAP 數據庫需要考量的六大因素,也即:業務場景、性能、運維、生態、成本和 LTS 支持性,希望對于這六點的分析能給大家在做 HTAP 產品選型時提供幫助。3.3.5 5 新一代新一代 HTAPHTAP 在云端重構在云端重構新一代 HTAP 面對的市場需求和技術環境已經發生巨變,理論上,只要 MySQL 和 PG 的交易類應用有實時分析的需求就會需要 HTAP 的能力,隨著云基礎設施普遍應用
147、,“分布式云原生”正在重構企業數據架構,成為新一代 HTAP 的技術環境。HTAP 最早在 2014 年由分析機構 Gartner 提出,當時主要指以 SAP HANA 為代表的內存數據庫的混合負載能力,HANA 快是快,但數據量有限,最大的門檻是“貴且專有”,僅在使用 SAP 的 大企業有少量用戶,那一代 HTAP 并沒有真正擴展起來,也并沒有流行形成趨勢。直到最近幾年,互聯網“海量、實時、在線”的需求越來越廣泛,大量采用 MySQL 和 PostgreSQL開源數據庫的新一代企業需要提升對于熱數據的實時在線分析能力,這類需求遍布幾乎所有的互聯網企業,從事線上業務的數字化轉型企業。電商、游戲
148、、數字媒體、金融科技、網絡安全等互聯網和數字化業務,對于新鮮數據的實時分析能力直接決定了這些業務的生死存亡,秒甚至毫秒級的低-57-延遲成為他們提升消費者體驗的重要手段,實時營銷、實時風控等業務訴求變得更加普遍,這種新訴求催生了新一代 HTAP 的共同訴求:一個數據庫,一套架構,同時滿足 OLTP 和 OLAP 的低延遲數據處理且互不干擾,這個架構 Gartner 定義為 Augmented Analytics,IDC 稱為 ATP(Analytic Transaction Processing),Forrester 稱為 Translytical Data Platform,可見新一代 HT
149、AP 已經成為三大分析機構關注的焦點趨勢。下面重點拿幾個 HTAP 代表產品來看新一代 HTAP 技術架構的異同點,他們分別是 GCPAlloyDB,AWS Aurora Parallel Query,Oracle MySQL Heatwave 以及 TiDB??傮w來看,雖然各產品的具體實現雖有不同,但新一代 HTAP 架構有一些明顯的共性追求:以開源打底,借助了云端擴展性,追求一個入口,一套數據棧,可以將 OLTP 數據和 OLAP 數據實時同步,部分廠商 OLAP 的實現采用了類似 MPP 下推方式,達到 No Application Change、No SchemaChange、No E
150、TL,No data move 的四不效果,最大化減少對應用程序的改動。任何一種數據庫潮流都是“需求變化 技術變革 架構創新”三者融合的產物,HTAP也不例外。首先,在需求變化側,推動新一代 HTAP 的數據庫廠商在提到 HTAP 的時候都不約而同地用到 Operation 這個詞,借助熱數據實現運營級別的實時分析,獲得實時的洞察以支持運營動作的反饋,這是推動新一代 HTAP 走上舞臺中央的最大需求側變化。其次,在技術變革與架構創新側,云基礎設施的發展帶來了存算分離更為徹底的變化,這是技術變革帶來的新可能性,分布式理論與云計算、AI 算法的融合帶來了新一代的架構創新,這些都使得 HTAP 在云
151、端可以支持不同的云存儲,AI 等新技術,打造更有成本競爭力的創新。第三,這一輪 HTAP 的用戶群體和上一代內存數據庫 HTAP 的小眾貴族非常不同,這一代 HTAP 的用戶非常大眾化,幾乎采用MySQL 和 PG 開源數據庫的所有企業都可以借助新一代 HTAP 架構拓展OLTP 和 OLAP的能力范圍,都能用上一種不用修改應用,不用增加額外數據系統且擁有強大分析能力的數據庫。3.3.6 6 問題問題和和挑戰挑戰HTAP 是將 TP 和 AP 進行高度融合的產物,而非簡單的 TP 和 AP 相加:TP+AP HTAP。真正的 HTAP,而非 TP 與 AP 的疊加。(1 1)架構的選擇)架構的
152、選擇。Single system(即 One system)還是 Seperate system 的選擇當前更多是基于工程上的難度。目前不少產品均是在原有的 TP 系統之上,疊加了一個 AP 系統并使用某種數據同步工具將 TP 系統中的數據同步至 AP 系統中。Seperate system 雖然有其優點,但這種方案存在著許多不容忽視的問題,比如無法保證對事務的支持能力、數據的時效性,以及復雜的系統架構等(下文會有詳細的解釋)。相比之下,One system 不僅架構簡潔,對于事務的支持能力和數據的時效性等方面都能提供更好的保證。但是,One system 架構的技術難度相對較大,工程上也具有
153、一定的難度,同時還需要考慮 TP 和 AP 負載間的相互干擾等問題。-58-(2 2)查詢處理及數據導入引擎。)查詢處理及數據導入引擎。HTAP 數據庫首先需要解決的問題是高速的數據載入。全量數據的載入方案,保證海量數據快速準確導入。增量數據的更新方案,保證數據的時效性。(3 3)存儲方案。)存儲方案。高速存儲介質正在廣泛地應用到數據庫領域。(4 4)數據組織方案。)數據組織方案。選擇列存儲加行存儲(DSM+NSM),還是 PAX(Partition AttributesAcross)方案或者是其它方案。系統的整體性價比也是我們挑選產品的重要指標之一。(5 5)事務語義。)事務語義。無論是 T
154、P 部分還是 AP 部分都需要對事務進行完整的支持。(6 6)數據的時效性。)數據的時效性。需要保證 AP 系統所處理的數據均為當前最新版本的數據。(7 7)索引的支持索引的支持。如何能夠通過設置索引快速定位到需要更新的數據(尤其是在以列存且數據多為壓縮形式的情況下)也是需要解決的一個難題。(8 8)不同類型負載間的相互干擾。)不同類型負載間的相互干擾。系統需要能夠保證 AP 負載對 TP 負載無影響或者使得兩種類型負載間的影響最小化。4.4.S Serverlesserverless毫無疑問 Cloud 是數據庫領域最大的趨勢,從 Gartner 的報告可以看出,今年全球企業在Cloud 上
155、的投入已經超過了私有化數據中心的投入,并且每年的增速都非???。在數據庫領域中也有著同樣的趨勢,2019 年云上的數據庫服務(Database as a Service)還不到傳統數據庫的一半,但在 2022 年幾乎接近持平,可以預見 2023 年云數據庫的占比一定會超過傳統數據庫。所以,云是毋庸置疑的趨勢,在未來的數據庫產品中,Cloud 一定會變成數據庫服務的承載平臺。4.14.1 數據庫走向數據庫走向 ServerlessServerless近年來 Serverless 概念的熱度相當高,Gartner、Forrester 等知名咨詢機構對 Serverless投來關注的目光,AWS、阿里
156、云、騰訊云等云計算大廠也在不斷布局 Serverless 相關產品??梢哉f與 Serverless 的結合,再次為數據庫的發展添了把火。那么,Serverless 數據庫到底是什么,有何價值?更進一步,Serverless 會成為數據庫的未來形態嗎?想要理解 Serverless 數據庫,就要先了解數據庫的發展歷程。在早期,用戶普遍是自建數據庫。作為最傳統的數據庫應用方式,用戶在自己的機房中部署,不僅需要考慮物理部署和運維的方方面面,傳統數據庫的靈活性和可擴展性也很低,且價格昂貴、維護成本很高。隨著云計算的普及,數據庫上云成為應用主流。數據庫在云上以 PaaS 服務的形態、以租用服務的方式提供
157、,用戶不用再關心機房的物理部署。由于這個階段的云數據庫只是簡單地把-59-數據庫從本地遷移到云端,在架構上并沒有做太多改變,因此數據庫的彈性依然受限。為了解決這一問題,云原生數據庫出現了。由于云原生數據庫完全為云設計,讓計算、存儲資源完全解耦,使用分布式云存儲替代本地存儲,將計算層變成無狀態,從而能夠充分發揮云的優勢,具備彈性可擴展的特性,讓用戶不需要擔心日常業務擴容問題。但云原生數據庫也有自己的瓶頸,即不能按需自動縮放,也不能按更小粒度實現按使用量付費。當用戶遇到數據庫擴容的突發需求時,就只能根據業務實際使用情況手動調整數據庫容量大小。盡管這種方式的確可行,但卻會耗費大量的時間和成本。即使是
158、數據庫方面的專家,面對波動劇烈的應用,在兼顧性能及成本的情況下,要手動管理數據庫容量也并不是一件容易的事情。在此背景下,Serverless 數據庫出現了。由于具備完全自動化的擴容能力,Serverless 數據庫能夠隨著用戶業務的請求數的增加和減少,智能化的“膨脹”和“縮小”,實現資源的自動“吞吐”。當流量洪峰來臨時,可以自動調配資源支持;流量進入低谷時,則可以自動釋放掉資源,節約成本。這種能力正是 Serverless 理念的體現,將數據庫底層和業務不相關的部分抽象出來,為開發者提供直接的運行環境,讓開發者不需要關心服務器基礎設施,就可以直接調用函數平臺完成函數運行。服務器的邏輯和狀態也是
159、由服務提供方管理,服務只有在需要的時候才會自動伸縮,從而讓數據庫獲得了極致的彈性,且開發者不用再為復雜的底層基礎設施所困擾。4.24.2 ServerlessServerless 數據庫的價值數據庫的價值Serverless 概念的火爆,讓 Serverless 數據庫獲得了越來越多的關注。其實從開發者的角度不難理解,為什么 Serverless 數據庫一出現就受到了廣泛的追捧。一項名為“在你的組織內部到底是誰在選擇 Database”的調查顯示,架構師、開發者、DBA 三者作為數據庫軟件真正的用戶,日常工作時間中有 41%的時間都在做基礎設施維護,如買服務器、部署服務器、運維等等,只有39%
160、的時間在做業務創新。隨著數據架構越來越復雜,數據庫越來越多,每一種數據庫都有一套自己的技術,開發者要學習的東西也越來越多。要解決這種復雜性,釋放開發者的生產力,讓他們有更多的精力關注業務創新,Serverless 帶來的抽象就必不可少。抽象程度越高,開發效率越高。從傳統數據庫上云到云原生數據庫,已經一步步將云基礎設施能力以及數據庫內核層面能力抽象化,讓數據庫得以支撐高效的應用開發迭代。如今,Serverless在云原生基礎上進一步抽象,可以讓開發效率再次提升。Serverless 是云原生走向成熟之后演變出的開發模式,Serverless 數據庫是云原生數據庫發展的必然結果。對于所有創新的數據
161、庫公司來說,如果前兩年的門票是云原生,那么今年的門票就變成了 Serverless。-60-在高度的抽象下,Serverless 數據庫帶來的價值顯而易見:第一,創建便捷。第一,創建便捷。Serverless 數據庫的創建,用戶不需要關心任何部署細節,幾十秒內即可一鍵創建,召之即來,揮之即去。第二,自動縮放。第二,自動縮放。用戶不需要考慮基礎設施,Serverless 數據庫可以根據業務負載變化自動匹配。當業務吞吐達到一定程度,不用再停下來加服務器,系統會自動進行擴展;當業務峰值下降,系統能自動縮回,甚至縮到 0。第三,節約成本。第三,節約成本。Serverless 數據庫能夠提供更細粒度的計
162、費,按照實際使用付費,不使用則不計費。第四第四,和應用開發體驗深度整合和應用開發體驗深度整合。在過去數據庫只關心性能、穩定性等各種指標,很少從開發者使用的角度來設計。Serverless 的出現,讓數據庫開始真正從用戶角度出發,融入到現代的開發應用過程中,幫助用戶更快、更流暢的構建應用?;A設施層面,Serverless 部署的成本變得極低,極致的 Serverless 不用關心任何運維的細節。你可以通過代碼和 open API 控制這些集群的起停。在擁有更大規模的基礎設施時,這點是非常重要的。Serverless 在處理更復雜或更大系統的時候,能顯著減低復雜性;在成本控制層面,Serverl
163、ess 能夠真正按照資源的消耗量來去計費。對于開發者來說,想用數據庫的時候,只要招手它就來,不用的時候,也不用給錢,任何時候去訪問它,數據都在那兒,也能對外提供服務。在這樣的 Serverless 架構下,我們其實還能解鎖更多的能力、更多的可能性。舉個例子,S3 是 TiDB Serverless Tier 底下重度依賴的云對象存儲服務。用過 S3 的肯定都知道它便宜,可用性很高。更重要的一點是數據共享,比如大家都在用 AWS,A 用戶用 S3,B用戶部分數據也在 S3 上,比如說我想把我的數據共享給另外一個用戶的時候,既然都在 S3 上,那共享就變得很簡單。以前在私有環境下,你還需要把數據下
164、載出來拷給他,再上傳進去,然后才能做分析。如果是在數據量比較大的情況下,這幾乎是不可想象的。這種新架構的一種可能性就是真正能夠做到 Data Sharing,當然這里面肯定還涉及到包括隱私計算,各種各樣的安全性問題。但從技術底層來說,這種產品形態并非不可能了。另一種場景,比如說我想做一個區塊鏈的數據分析應用,但做這樣的應用,第一步你得把數據準備好。區塊鏈的數據其實也不小,經常是大幾百 GB 或幾個 TB 的數據。但如果在 S3 上有一個公共的數據集已經準備好了,那在云上 Serverless 用戶只需要在啟動的時候,加載這部分數據就好了。這些能力在云下是根本不可能完成的任務。-61-這些能力具
165、備后,數據庫的商業模式會變成什么樣子?預計數據庫作為一個軟件形態本身會消亡,而數據庫的平臺化、微服務化會取代原來的數據庫軟件形式。今天可以看到幾乎所有的數據庫廠商,都在云上提供服務,印證了這個理論正在變成現實。展望未來再往前一步,會發展成什么樣子?Serverless 其實是云上 Database Service 更進一步產品形態的體現?,F在用戶可能還需要去關注買多少個數據庫節點,買多少個集群,但是在未來,真正從開發者的角度來說,他所關心的應該只有數據操作的 API,這一層才是離業務更近的東西。另一方面,當 Serverless 在云上被提供后,數據共享、交換就變成了一個很自然或者很簡單的事情
166、,那時候可能會出現一個叫做 Datamarket 的新商業模式。數據庫應該做得更簡單,把開發者的體驗帶回從前。我們應該花更多的時間關注于業務的創新、關注于真正重要的事情,這些復雜的東西,就讓它簡單起來好了。未來真正重要的東西是什么?是流暢的開發體驗。這就是行業終極的前進方向,也是每一個基礎軟件提供商應有的擔當。5.5.湖倉一體湖倉一體分析型數據庫的出現可以追溯到上個世界的 70 年代末期,以 IBM 的 Db2 和甲骨文的 Oracle為代表,基于共享存儲架構的數據庫對業務的處理;早期企業數據分析場景較為單一,業務多源自于管理層固定報表,需被處理的數據均已結構化數據為主。因此,第一代的分析型的
167、數據業務是基于共享存儲架構的數據倉庫發展的。隨著 1984 年 Teradata 推出的基于其專屬硬件的無共享架構的 MPP 數據倉庫平臺開始,企業數據分析平臺逐步從少量的報表轉變為面向更多業務人員的批處理業務,并以 BI 報表形式進行可視化展示,并將報表數據用于業務的決策。因此,基于無共享架構的數倉倉庫拓展出了第二代數據倉庫業務。更多的 MPP 類數據庫如 Greenplum、Vertica 在分析業務處理上嶄露頭角,企業需要處理的數據類型依舊是結構化數據,但數據量出現了快速增長,達到了 GB 或 TB 級。隨著 2005 年以Hadoop 為代表的數據湖推出之后,伴隨著互聯網企業的興起,各
168、種結構的數據逐步被加入了分析平臺中,同時被分析數據的逐步增長,除去傳統的數據查詢、固定報表,第三代分析業務還涌現了大量的面向業務監測和洞察的自助式分析,還伴隨一定的時效性要求。通過對近年來數據分析的應用場景、數據以及計算環境等方面的分析,以及現有的分析型數據庫在應對這些變化時的不滿足,第四代的分析型數據庫已經向著增強分析性能、提升易用性、降低使用成本的方向發展。-62-在如此趨勢下,Databricks 于 2016 年推出 Delta Lake,旨在在數據湖上支持類似 DBMS的數據管理功能,而隨著 Databricks 于 2020 年率先在業內提出 LakeHouse 的概念,湖倉一體概
169、念由此開始興起。Snowflake 同步推出了數據云產品,在其云上數據倉庫的基礎上增加了數據湖的功能。亞馬遜云科技基于 Amazon S3 構建數據湖,繞湖集成數據倉庫、大數據處理、日志分析、機器學習數據服務實現智能湖倉。國內在此技術背景下,同樣不甘示弱,星環推出了 ArgoDB 數據庫,加強數據湖和數據倉庫技術相結合,在同一平臺中,避免數據移動,將原始的、加工清洗的、模型化的數據,共同存儲于一體化的“湖倉”中,既能面向業務實現高并發、精準化、高性能的歷史數據、實時數據的查詢服務,又能承載分析報表、批處理、數據挖掘等分析型數據集市業務,實現“湖倉集一體”。星環科技湖倉集一體化的方案可以給用戶的
170、業務提供:(1)統一訪問接口,最大程度上降低數據湖、數據倉庫、數據集市業務過程中業務接口的調整;(2)統一元數據管理,可以在精準的ACL 控制下,實現按需展示湖倉集內的相關元數據的統一查詢;(3)統一存儲管理,對使用者屏蔽不同數據源的數據存儲,降低業務數據管理難度;(4)增強實時數據處理,使得湖倉集業務數據能夠得到高效處理;(5)無縫銜接 AI 技術,幫助業務挖掘更多數據價值。圖 1:星環科技湖倉集一體化方案6.6.內存數據庫內存數據庫隨著數字化發展,高并發、低時延的應用需求日益增強,客戶對信息系統的計算能力要求越來越高。由于摩爾定律減緩及存儲能力得到極大提升,傳統信息系統的計算力將面臨新的挑
171、戰。數據庫與 CPU、操作系統一直被認為是 IT 領域的三個核心,數據庫是關鍵信息基礎設施重要組成部分,是承載與加工數據的關鍵,如何提升數據庫算力以滿足數字化時代對應用快速響應的需求也將成為-63-數據庫發展的重點。我們知道,在計算機硬件系統中,CPU 最快,一個時鐘周期不到 0.5 納秒,訪問內存速度在100 納秒級別、訪問固態硬盤約 50-150 微秒、訪問硬盤約 1-10 毫秒。顯然,內存訪問速度依然快于固態盤、硬盤千倍、十萬倍。所以,CPU 直接訪問內存是減少 CPU 對硬盤訪問、實現數據庫應用低時延的有效辦法。據統計(https:/ 年代至今,內存每兆字節的價格已經下降了 9 個數量
172、級,DRAM 內存芯片價格在 2022 年上半年同比就跌了 30%,目前比較便宜的 16GB DDR4 內存僅需 69 元,而這種內存在幾年前還是 3、4 百元。由此可見,在數字化應用發展需要更高的算力的同時確保算力提升的重要組成部分的內存,其價格已經在驚人的下降。這兩種趨勢的并存,不得不讓我們相信,充分利用內存技術是提升數字化應用算力的有效途徑。內存數據庫是一種主要依靠內存來存儲數據的數據庫管理系統,內存數據庫把整個數據庫放進了內存中。而傳統數據庫是使用磁盤讀寫機制,通過增加內存緩沖池,或者共享內存技術,達到最小化磁盤訪問。相較于傳統數據庫,內存具備更極致的讀寫速度,性能比傳統的磁盤數據庫有
173、數量級的提升。從下圖可以看出,內存數據庫與傳統數據庫對數據訪問是有顯著區別的,基于內存數據庫的查詢,無需判斷數據是否已經在內存中,無需在內存和磁盤之間換入換出數據。傳統磁盤數據庫系統的數據組織、訪問方法、查詢處理算法的設計都針對減少磁盤訪問次數與有效利用盤存儲空間,甚至犧牲 CPU 時間來減少 I/O 次數(如查詢處理有大量中間數據),而內存數據庫的設計則主要考慮如何有效地利用 CPU 的時間和內存空間。圖 1:內存數據庫工作原理-64-內存數據庫充分利用內存技術,極大降低 CPU 訪問存儲的時延,內存數據庫和傳統數據庫一樣,在異常掉電時可以保證數據得持久化。因為,內存數據庫仍使用持久性存儲在
174、發生故障時提供回退。日志按數據庫事務捕獲所有更改,數據和撤消日志信息在常規保存點-Save Point 自動保存到磁盤,在數據庫事務的每個 COMMIT(等待磁盤寫入操作結束)之后,日志也會連續同步保存到磁盤,發生電源故障后,可以像基于磁盤的數據庫一樣,通過重播自上次保存點-Save Point以來的重做日志,重新啟動數據庫,正常返回到其上一個一致狀態。最近幾年,內存數據庫技術發展很快,內存數據庫技術也趨向成熟。目前比較常見的內存數據庫有美國 Oracle 公司的 Timesten、德國 SAP 公司的 SAP HANA,以及國內科藍軟件的 SUNDB數據庫等。事實上,SAP HANA 與科藍
175、軟件的 SUNDB 數據庫技術上是同源的,但各自都在新的技術路線上進行發展遞進??扑{內存數據庫經過多年的技術積累,并會同國內頂尖研究機構進行升級,已經完全融入了國產化信創生態系統。內存數據庫特有的內存計算機制可以確保數據庫核心事務處理的延時短、交易穩定,從而更加適應交易型數據庫需要具備的特性,而這也是國產化數據庫的核心難點所在。相對于目前市場常見的分析型數據庫,交易型關系數據庫技術門檻更高,金融、電信、能源交通等行業的關鍵領域離不開交易型數據庫,這些領域直接關系到我們國家的信息安全??扑{軟件 SUNDB 數據庫是 100%擁有知識產權國產化數據庫,是我國目前為數不多的高性能、高穩定、高可靠的交
176、易型關系數據庫。綜上所述,一方面,隨著移動互聯網飛速發展,高并發、低時延的應用需求強勁,另一方面,內存硬件價格多年來在不斷下降,內存變得更加“平民化”,已經不再是“奢侈品”。內存數據庫由于省去了磁盤讀寫的開銷,在性能上比基于磁盤存儲的傳統的數據庫有數量級的提升,今后革命性創新的 CXL 協議將使內存數據庫的發展優勢更加凸顯。故此,我們堅信,內存數據庫發展是數據庫技術發展的趨勢,是突破企業關鍵基礎設施算力瓶頸的重要途徑。7.7.超融合與流式數據處理超融合與流式數據處理7.17.1 談傳統數據庫與流計算模式的有機融合談傳統數據庫與流計算模式的有機融合國務院近日發布的 關于構建數據基礎制度更好發揮數
177、據要素的工作意見,也被業內稱為“數據二十條”,在新二十條的指導下,為充分發揮我國數據規模和豐富應用場景優勢,國產數據庫面臨的挑戰,主要有以下兩個方面:(1 1)簡化融合)簡化融合數字化深化帶來技術需求的多元化,與之對應的產品方案也呈同樣態勢。如果能從統一管理的角度簡化使用,通過單一平臺提供所需能力,無疑對用戶非常有吸引力。AntDB 數據庫全新推出-65-的超融合架構,在統一框架下,實現了交易、分析、流處理等多種數據處理能力的融合,用一款產品為客戶帶來“一站式”的數據管理服務。(2 2)實時性)實時性數據更多參與企業決策、驅動業務變化。一些數據在業務發生后不久具有很高的價值,隨著時間的推移,數
178、據的價值會逐步降低。因此,數據的處理速度變得尤為重要,實時處理的關鍵價值之一在于能夠更快地提供數據洞察。AntDB 數據庫通過內核級的數據流式處理,使傳統數據庫與流計算模式有機的融合,大幅降低實時業務架構的復雜度,給 DBA、BI 工程師帶來便利,進一步減低人們使用數據的門檻。7.27.2 超融合架構,打造分布式數據庫新紀元超融合架構,打造分布式數據庫新紀元談國產數據庫,必談分布式與云計算能力。上一個十年,隨著國內金融、互聯網行業高速發展,帶來的數據規模龐大,查詢復雜度高、關聯度高等業務需求。相比于集中式數據庫,分布式數據庫具有平滑擴展、高可靠、高可用、低成本等關鍵特性和顯著優點;而數據庫等基
179、礎軟件的服務方式向云化發展,有利于降低數據庫運維成本,靈活調度資源。在下一個十年,“數智化轉型”是推動經濟社會從“量增”到“質變”的快速路。用戶對數據庫的需求日益精細化,從技術底層支撐多業務的系統架構,將越來越受到企業側的青睞。在此背景下,多引擎數據庫的融合能力開始出現,HTAP、湖倉一體、流批一體等都是這個趨勢的先行者,即超融合。圖 1:亞信科技 AntDB 數據庫超融合框架-66-亞信科技 AntDB 提出了全新的“超融合”理念,即將多引擎、多能力融合在一起,滿足企業越發復雜的混合負載場景與混合數據類型業務需求。AntDB 的超融合框架,能夠充分利用分布式數據庫引擎的架構優勢,在 HTAP
180、 概念上進行進一步拓展,將時序存儲、流處理執行以及向量化分析等多引擎進行統一架構封裝。在同一個數據庫集群支持多種業務模型,支持多樣化的數據需求,大大降低業務系統的復雜性,實現統一框架下的“一站式數據管理”。7.37.3 流式處理引擎,顛覆流式處理引擎,顛覆 5050 年未變的數據庫內核年未變的數據庫內核(1 1)流式處理的概念)流式處理的概念2001 年 9 月 11 日,美國世貿大樓被襲擊,美國國防部第一次將“主動預警”納入國防的宏觀戰略規劃。而 IBM 作為當時全球最大的 IT 公司,承擔了大量對于基礎支撐軟件研發的任務。其中 2009 年正式發布的 IBM InfoSphere Stre
181、ams,就是全球最早真正意義上的商業化流數據處理引擎之一,通過對實時產生數據預先定義好處理邏輯后,隨著每一個事件的發生執行相應的處理與判定程序。流式處理機制直接被后期的 Apache Storm、Spark Streaming、Flink 等流處理框架所借用,應用于大量實時互聯網類型的業務中,對前方產生的海量事件進行實時預處理。Gartner 在 2022中國數據庫管理系統市場指南中,對其定義為:涉及對“事件”(event)的觀察和觸發,通常在“邊緣”采集,包括將處理結果傳輸至其他業務階段。流式處理將在未來五年中獲得更多關注。圖 2:Gartner 對于流/事件處理的定義(2 2)傳統部署架構
182、的痛點)傳統部署架構的痛點不論 Apache Storm、Spark Streaming、還是 Flink 等流處理框架的設計,都是將目光集中在“處理”本身。由于其自身不具備數據庫的能力,當需要與其他數據進行關聯、臨時存儲等互動時,則需要進行復雜的數據抽取。這使得大量的開發人員,還需要編寫復雜的 Java/C+/Scala代碼,用最傳統的方式對記錄進行一條條預處理,并且還需要經常從其他外部的緩存/數據庫中實-67-時調取額外數據進行手工關聯,對開發和運維的負擔極大。而數據庫作為信息的核心載體,在過去的半個世紀中其基本的設計理念完全沒有過大的改變,所有對于實時數據處理的能力,都是通過應用框架直接
183、建立在數據庫引擎之外的。真正與數據貼合最為緊密的軟件產品,在過去的 20 年中并沒有充分發揮自己的能力與優勢地位。因此因此,數據庫融入流式數據處理能力數據庫融入流式數據處理能力,是這幾年行業中提出的全新課題。亞信科技 AntDB 數據庫就是最具典型的代表,可以通過 SQL+觸發器對實時數據的處理邏輯與拓撲進行定義,也是國內為數不多的率先研發并具備“超融合+流式處理”能力的數據庫。在亞信科技 AntDB 發展的十幾年歷程中,我們看到運營商大量對核心數據處理加工的業務場景。這些需求中有些能夠很容易地使用傳統技術滿足,但還有一些一定需要采用流式計算等實時處理能力才能支持。(3 3)數據庫與流式處理的
184、有機融合)數據庫與流式處理的有機融合流數據處理模式與傳統數據庫的內核設計有著極大的區別。其核心本質在于,傳統數據庫架構設計中,應用與數據庫之間是“請求-響應“的關系,即業務發起 SQL 請求,數據庫隨即執行請求并返回結果。而流處理內核則是“訂閱-推送“的模式。通過預先定義好的數據處理模型,對數據承載的業務“事件”進行處理,之后將處理后的結果推送給下游應用進行展現或入庫。因此在流式數據實時處理領域,亞信科技 AntDB 做了大量從零開始的創新性探索與研究,于2022 年底推出 AntDB-S 流處理數據庫引擎,徹底將流式計算與傳統交易、分析型數據存儲進行了融合,讓用戶可以在數據庫引擎內,通過標準
185、 SQL 自由定義數據的結構以及實時處理邏輯。圖 3:亞信科技 AntDB 數據庫流式處理引擎的基礎架構-68-同時數據在數據庫內部的流對象、表對象之間自由流轉過程中,用戶可以隨時通過建索引、流表關聯、觸發器、物化視圖等方式對數據進行性能優化、數據加工、集群監控、以及業務邏輯定制。(4 4)功能優勢)功能優勢技術堆棧簡化技術堆棧簡化:在實時流事件的處理上,AntDB 流式處理一體引擎將大量的實時數據處理做到數倉內部,更進一步向通用事務靠攏。標標準準SQSQL L定義定義:傳統流處理方式對于SQL的處理很弱,還要寫大量業務代碼,而AntDB-S可以通過統一 SQL 語句進行處理,流的使用上更便捷
186、。統一數據接口統一數據接口:支持流批模式的轉換,AntDB 統一超融架構,實現了對外的接口統一,數據的采集與處理無需分開,流批都用 SQL 即可全部搞定。支持完整事務處理支持完整事務處理:傳統流處理過程中不支持數據的修改,AntDB-S 支持流處理中對數據的修改和事務操作。實時結果更準確實時結果更準確:通過分布式事務的 ACID 特性,解決實時流數據處理中,數據容災和一致性的問題,可以精確判斷數據故障點,完成流事件的矯正計算和重統計。7.47.4 實時數據平臺,快速實現企業全鏈路實時化實時數據平臺,快速實現企業全鏈路實時化引入數據倉庫、數據挖掘、HTAP 等先進理念,通過實時數據應用平臺來裝載
187、龐大的信息量,進行實時分析處理,克服數據處理過程中的困難,是當下各企事業單位、互聯網、金融,政務等行業核心系統建設的重點。AntDB-S 流式數據庫可以被應用于實時數倉、實時報表、實時告警、異步交易等業務場景,用戶可以通過直接使用簡單 SQL 創建復雜的流式數據處理業務邏輯,輕松替代 Apache Storm、Spark Streaming、Flink 等傳統流式處理引擎。圖 4:亞信科技 AntDB 數據庫新一代流式處理引擎-69-譬如說,對于實時統計報表來說,所有的統計指標項都可以通過 SQL 命令做到監測實時變化數據。而對于實時告警來說,所有的告警記錄都能夠被數據庫在毫秒級推送給前端應用
188、,而不需要應用定時從告警表中反復循環查詢。在對傳統流式引擎替代的過程中,AntDB-S 可以幫助用戶節省大量的開發與測試資源,同時數據的安全性與 ACID 也完全依托于其底層的 AntDB 數據庫,從根本上保證數據的一致性與安全可靠。除此以外,AntDB 數據庫所支持的全部高可用、容災、多租戶、鑒權授權、分布式、事務等能力將會完全被 AntDB-S 所繼承,幾十倍降低用戶對流式業務的開發與維護成本。圖 5:亞信科技 AntDB 數據庫功能特點7.57.5 典型業務場景典型業務場景實時營銷實時營銷:實時捕獲所需的業務信息和數據,向用戶主動推動即時的數據統計和分析服務。風險監測與實時預警風險監測與
189、實時預警:根據不同業務系統的風險監測需要,提供了各自的預警規則,適用于銀行、警務、交通、城市安全治理等場景。精細化營銷精細化營銷:助力行業客戶建立營銷數據庫,以數據挖掘和數據分析的結果為依據使營銷過程標準化、高效化。數據共享價值數據共享價值:消除數據孤島,通過實時數據安全計算,實現多方數據的可用不可見、數據不動價值動,打造智能化、可視化、規范化的數據共享與管理。8.8.云原生數據庫云原生數據庫“四化四化”權威市場研究機構 Gartner 預測,中國數據庫行業將加速增長并逐步向云端遷移。未來四年,中國數據庫行業向公有云遷移的速度將超過全球平均水平。2022 年云數據庫營收數據將占據數據庫整體市場
190、的半數以上。根據 IDC 報告顯示,未來四年中國數據庫行業向公有云遷移的速度甚至會超越美國。2021 全年中國公有云關系型數據庫規模達 15.4 億美元,同比增長 49%。在云數據庫時代到來之際,引領中國云數據庫創新的阿里云,再次做好了持續領跑的卡位。阿里云預測數據庫整體將向“四化”方向發展:云原生化(資源解耦、Serverless 化)、平臺化-70-(基于云構建數據平臺能力、OpenAPI 標準化)、一體化(處理分析一體化、離在線一體化、集中分布一體化、多模處理一體化)、智能化(AI for DB 簡化運維、In-DB ML 挖掘數據價值)。8.18.1 云原生化云原生化從早期的資源解耦,
191、到現在的無服務化(Serverless)都是云原生化的重要體現。歷經十年的發展,目前阿里云已進入 全面云原生深度用云 階段。全面云化的同時,阿里云數據庫與新型軟硬件充分融合,例如面向倚天 710、CIPU、飛天操作系統等深度優化,性價比提升達到 30%以上,單位算力功耗降低 60%以上。數據庫云化深度賦能用戶數智轉型能力,驅動云上用戶從資源消耗向能力獲取轉變,加速數據業務上云;推動資源解耦、資源池化、Serverless 等核心能力真正轉化為用戶的價值。(1 1)OLTPOLTP 數據庫云原生化數據庫云原生化數據庫云原生化最顯著的技術架構特征是將一體運行的數據庫模塊進行拆解。云原生數據庫是通過
192、計算存儲分離,使用分布式共享云存儲替代本地存儲;并采用物理復制技術,解決傳統云上托管 RDS 的一寫多讀架構帶來的存儲無法擴展、binlog 復制造成讀延遲大的問題,典型代表為PolarDB 云原生數據庫。PolarDB 充分利用計算、內存、存儲三層解耦和 Serverless 相關技術,可實現秒級彈性伸縮(2 秒內節點內變配,01000 核全場景無感秒級彈性),集群內保障數據全局強一致且性能線性增長,對比傳統架構 Serverless 成本再降低 60%。PolarDB 還利用功能節點(多寫節點、分析節點、內存節點)快速轉換能力支持多態,滿足按需架構部署,可實現跨機,跨區,跨域等多種模式的數
193、據一體化,滿足全球部署以及冷熱分離能力。(2 2)OLAPOLAP 數據庫云原生化數據庫云原生化對于 OLAP 數據庫,存儲計算分離、資源歸一化同樣是云原生、Serverless 化的基礎,典型代表為阿里云 AnalyticDB(以下簡稱 ADB)。在此基礎上,ADB 引入分布式或者單機 Cache 解決帶寬的問題;通過計算算子(Shuffle、Scan)分離,讀寫負載分離,保證性能穩定。對于 Meta、負載均衡、接入層等非計算存儲資源進行池化,配合智能化的資源分配策略,實現按需計費及按財務預測計費等,幫助用戶最大化降成本。同時利用多云、多租戶解決超大用戶的資源應用效率提升問題。(3 3)云原
194、生管控技術云原生管控技術云數據庫要實現 Serverless、按需彈性、按量計費能力,需要有底層的支撐平臺來提供精細化的資源調度能力。為了支撐 Serverless 產品形態,阿里云數據庫的云原生管控 DBaaS 在底層實現了實例 CPU、內存的實時(最快至 2 秒內)彈性能力;同時,為了實現跨云、跨平臺的統一-71-資源調度,DBaaS 的底層資源調度技術構建了統一化資源調度和交付平臺,實現基于 Cgroup、Docker、Pod 運行態上物理機和云原生資源的統一化資源調度和交付的平臺能力。8.28.2 平臺化平臺化阿里云數據庫的全新品牌“瑤池”涵括關系型數據庫、NoSQL 數據庫、分析型數
195、據庫、數據庫生態工具等版塊,包含 PolarDB、RDS、ADB、Lindorm、MongoDB、DMS 等產品家族,為企業提供覆蓋實時處理與存儲、分析和發現、數據開發與治理的一站式數據管理與服務。數據庫發展到今天,必須基于云平臺構建具備一站式數據管理與服務能力的數據庫產品矩陣,才會有生命力和未來,阿里云數據庫平臺化的核心就是幫助客戶減少業務煙囪。(1 1)一站式管理平臺)一站式管理平臺為了應對數據管理服務多樣性,阿里云數據庫結合云平臺,構筑了一站式的數據管理服務能力,一站式在線數據管理平臺帶來的最大變化是企業能夠用數據庫的方式進行大數據量的管理。DMS統一管理數據庫和數據倉庫,讓數據自由流動
196、。與傳統數據集成不同,DMS 可以在源端數據庫DDL 或擴縮容等運維變更對鏈路無感知,并且內置 ETL 能力縮短數據鏈路,同時還可通過跨庫查詢將源端數據庫的表直接作為數倉 ODS 層參與計算,免去數據物理搬遷的問題,真正實現按需建倉、敏捷分析。DMS 還支持靈活的任務編排和數據開發、報表展示。(2 2)可觀測性)可觀測性可觀測性,隨著云原生方向演進,平臺組件服務化后,整體業務監控運維和服務調用關系復雜化,阿里云數據庫結合阿里云基礎設施,基于全球可觀測性標準,構建了一整套完善的可觀測性方案。通過自動埋點機制,對現有代碼庫進行無侵入式埋點,最大限度地減少對業務代碼的改動。(3 3)OpenAPIO
197、penAPI 標準化標準化OpenAPI 是云服務開放的重要窗口,沒有 OpenAPI 的云服務將很難被客戶的系統所集成,既影響了用戶體驗,也制約了云廠商本身的發展。阿里云數據庫制定了一系列 OpenAPI 規范,與國際標準看齊,統一思路來解決各產品線之間 API 設計標準不一,風格混亂,開發不足、不完整,定義以及文檔描述不夠清晰等。(4 4)平臺軟硬件協同)平臺軟硬件協同在軟硬協同方面,阿里云 PolarDB 采用了領先的硬件技術,包括使用先進的 3DXpoint 存儲介質的 Optane 存儲卡、NVMe SSD 和 RoCE RDMA 網絡。同時面向新硬件實現了軟硬一體優化,打造了貫穿整
198、個 IO 鏈條各個層次的深度優化軟件棧,是云廠商中第一個基于這些先進硬件一-72-體化的存儲引擎。如 PolarDB 采用了 Alibaba 自研先進的 Aliflash V5 SMART-SSD,可有效卸載數據壓縮、加解密等 CPU 計算負載,提供高性能的透明數據訪問,降低軟件適配工作量。(5 5)平臺安全可信)平臺安全可信云平臺安全對于用戶至關重要,全加密數據庫是體現數據庫安全能力的關鍵技術。阿里云在全加密數據庫領域屬于業界第一梯隊,是業界唯一具備跨產品(包括 PolarDB、RDS、AnalyticDB)和多 TEE 架構(包括 Intel SGX、自研 FPGA 神盾卡、Dragonf
199、ly Enclave)全加密特性的云廠商,已實現商業化輸出。其中自研的領先技術發表于 VLDB、SIGMOD 等數據庫領域頂級學術會議,并獲得了 IEEE ICDCS 2020 國際分布式計算與系統會議全場唯一的最佳論文獎。在可信存儲領域,具備多用戶數據可驗證能力,通過中心化架構保證了系統的高性能,該特性也已集成至阿里云自研數據庫產品 Lindorm 中。8.38.3 一體化一體化近年來,數據庫領域出現諸多“一體化”概念,如“湖倉一體”、“流批一體”、“存算一體”、“處理分析一體化 HTAP”等等,其中“存算分離”的分布式數據庫架構已經成為云原生數據庫架構事實標準。對于“集中分布一體化”,阿里
200、巴巴集團副總裁、阿里云智能數據庫事業部總負責人李飛飛表示,“我們的客戶并非是 0 或 1 選擇,他們需要的是平滑地從集中式到分布式的過渡,根據業務場景和業務負載,可以自動的在集中式和分布式之間進行切換,業務和客戶不需要再做痛苦的選擇?!蹦壳?,阿里云在事務處理和計算分析一體化、集中分布一體化、離在線一體化、多模數據處理一體化、多引擎融合一體化等方面有諸多創新,取得了很好的應用效果。(1 1)離在線一體化)離在線一體化離線的大數據數據倉庫與在線的分析型數據庫數據倉庫融合,我們稱之為離在線一體化。近年來隨著在線的數據倉庫(如阿里云的 ADB)Serverless 能力提升,擴展能力大幅提升,利用 O
201、SS等廉價存儲實現低成本化,在保證在線處理能力基礎上,集成離線的大數據數據倉庫能力,實現一體化融合。在線數據倉庫從存儲與計算獨享節點并行處理以在線查詢為主的模式發展為支持離線ETL、在線查詢的云原生離在線一體化數據倉庫,可以一體化解決數據倉庫 ODS、DWS、ADS等各層的清洗、查詢需求,做到從業務數據庫與埋點同步到離在線數據倉庫后,一體化滿足客戶數據業務需求。(2 2)集中分布一體化)集中分布一體化集中式和分布式結合架構,將 shared-storage/shared-everything 架構(共享存儲/共享狀態)與 shared-nothing(無共享架構)相結合,可兼顧大多數場景下 O
202、LTP 的高并發處理能力,并-73-支持跨 Shard 數據分片的分布式處理能力。阿里云云原生分布式數據庫 PolarDB 在共享存儲架構基礎上,混合存儲層面在云原生共享存儲基礎上,引入彈性并行計算技術,滿足復雜查詢的線性擴展性要求。最終,PolarDB 通過分布式、混合存儲、智能調度等多項技術,即可以滿足業務在單個數據庫實例內部實現混合事務分析處理(HTAP)的訴求,也可以擴展為多個實例的分布式架構實現更大規模數據的讀寫能力。(3 3)多模數據處理一體化)多模數據處理一體化在數據密集性場景中,業務往往需要同時處理結構化、半結構化、非結構化多種數據,而傳統使用多種數據庫組合解決的方式,存在技術
203、架構復雜、學習成本高、資源碎片化、運維困難等痛點。阿里云云原生多模數據庫 Lindorm,在統一的分布式文件系統之上,重點研發了多模一體化存儲和處理能力,其能夠同時支持寬表、時序、流、對象、時空等多種數據模型,并支持使用統一視圖和 SQL 訪問進行數據管理,可以大幅提升業務存查多種結構數據的效率。(4 4)多引擎融合一體化)多引擎融合一體化2014 年 Gartner 在報告中第一次提出混合事務分析處理(HTAP),以打破 OLTP 和 OLAP 之間的隔閡,既可以應用于事務型數據庫場景,亦可以應用于分析型數據庫場景,實現實時業務決策。近年為滿足混合事務分析處理(HTAP)的述求,HTAP 數
204、據庫應運而生,OLTP 和 OLAP 數據庫均通過彌補其不足,實現 HTAP 能力,但較多場景下,OLTP 和 OLAP 從架構設計層面會存在“魚與熊掌不能兼得”的情況,只能通過損失性能或其他能力實現 HTAP 兼容。今年 AWS reinvent2022 亞馬遜利用 Aurora 和 Redshift 結合,實現跨產品 HTAP 能力,用戶層面實現統一入口,實現無感 HTAP 數據庫融合,帶來全新 HTAP 體驗。Oracle 也退出了 OLTP 和 OLAP 數據庫融合一體化方案,國內廠商阿里云數據庫利用 PolarDB 和 ADB 實現數據庫融合一體化,給用戶帶來極致性能,無感 HTAP
205、 一體化體驗,提供多引擎融合同步查詢,統一計費等能力。8.48.4 智能化智能化智能化的范疇很大,阿里云數據庫強調將智能化與“一站式數據管理與服務”融合:一是融合AI 能力的數據庫自治服務,提升運維效率與體驗;二是數據庫內置機器學習功能,無需移動數據即可進行模型訓練、生成推理和預測,目標是讓數據庫“更好用“。圍繞上述方向,以功能,運維和內核的智能化為手段,結合分布式系統的最新進展,通過不斷技術創新,呈現給用戶智能化的數據庫,讓用戶解放腦力與體力,輕裝上陣,“八仙過海,各顯神通”。(1 1)AIAI forfor DBDBAI for DB 的代表產品為數據庫自治,目標是簡化數據庫的運維。自治技
206、術基于全量 SQL 的-74-大數據能力,深度融合人工智能和專家經驗,形成可觀測與可控制的自閉環。實現實時異常檢測、案例中心、異常自愈、自動優化、智能調參、自動彈性、智能壓測等自治能力。目前已經基本實現主流引擎全覆蓋(關系型、NoSQL),覆蓋度業界領先,并具備差異化優勢。(2 2)DBDB forfor AIAIDB for AI 的產品方向為 In-DB Machine Learning,目標為挖掘數據價值。精選和數據庫應用緊密相關的 AI 場景,把相應的 AI 支持作為數據庫內置服務能力,統一且簡化數據和模型的存儲,AI 的運維管理和服務。阿里云目前已支持的產品形態包括 PolarDB
207、for AI 和 Lindorm in-DB 時序分析,利用數據庫引擎內置 SQL 語法支持,SQL 抽象屏蔽繁雜數據流轉過程等技術,滿足客戶日益增長的數據價值挖掘需求。9.9.多模數據庫多模數據庫隨著業務數據量不斷增長的同時,數據結構也變得越來越靈活多樣,數據不再局限于規整的結構化數據,半結構化、非結構化數據在數據域處理中的占比逐年上升,因此對不同模態的數據進行智能化數據處理的需求越來越迫切。中國信通院在數據庫發展研究報告(2021 年)中指出,在后關系型數據庫階段,數據結構越來越靈活多樣、業務類型越來越復雜多變,為應對此類現狀,越來越多的用戶選擇通過多模型數據庫實現“一庫多用“,將各種類型
208、的數據進行集中存儲、查詢和處理,滿足對結構化、半結構化和非結構化數據的統一管理需求。此外,中國信通院在數據庫發展研究報告(2022 年)中再次將多模數據管理列為九大數據庫關鍵技術之一,報告中指出,隨著理論創新和技術突破,以及新場景、新應用的不斷涌現,數據庫經歷了層次、網狀、關系、對象、鍵值、文檔、圖等數據模型的發展,當前多模數據管理得到廣泛關注。圖 1:多模數據庫發展歷程-75-Gartner 對多模數據庫的定義如下,多模數據庫是指在一個數據庫管理系統中包含了多個數據引擎,關系型和/或非關系型(例如文檔、圖、鍵值、時序、寬列)。它們為不同的持久性類型提供了一種通用的訪問機制,每種持久性類型都針
209、對所使用的數據的性質進行了優化。在 2022 年Gartner 發布了中國數據庫管理系統供應商甄選,列舉了中國數據庫市場的 48 位供應商候選名單,并將每個廠商的產品按照關系型和非關系型/多模兩大類 8 個細分子類進行歸類,幫助中國市場企業用戶更全面地了解各廠商及其產品情況。在多模數據庫領域,星環科技 ArgoDB、阿里云Lindorm、武漢達夢 DMCDB、巨杉數據庫 SequoiaCM 四款產品上榜。多模數據庫支持靈活的數據存儲類型,將各種類型的數據進行集中存儲、查詢和處理,可以同時滿足應用程序對于結構化、半結構化和非結構化數據的統一管理需求,大幅度簡化運維,節省開發成本。國外比較有代表性
210、的多模數據庫主要是以文檔存儲為主的 MarkLogic、ArangoDB、CosmosDB 等,國內也逐漸涌現選擇多模技術路線的數據庫產品,如上面提到的星環科技 ArgoDB,基于多模型統一架構,實現了多模數據庫的“四個統一”:統一的 SQL 編譯引擎、統一的計算引擎、統一的存儲管理系統和統一的資源管理,支持關系型存儲,寬表存儲、搜索引擎、事件存儲、圖存儲、鍵值存儲、時序數據存儲等 10 種數據模型,滿足多種數據模型處理場景和復雜業務需求。例如在反欺詐場景中,傳統反欺詐解決方案由于不同數據模型分散存儲在不同的數據庫(例如關系型數據庫和圖數據庫)等原因,在實際業務中需要大量數據轉換操作,應用實施
211、成本高,實時性有待提高。ArgoDB 可將關系型數據和圖數據庫進行統一存儲,用戶只需通過一個 SQL 即可關聯查詢分析關系型數據和圖數據,在數據免搬遷、減少人工操作的同時,提升業務效率。圖 2:星環科技 ArgoDB 與傳統跨模型分析應用方案對比-76-10.10.時序數據庫時序數據庫數字中國發展報告(2021)和“十四五”數字經濟發展規劃等政策對數字技術自主創新、加強數字基礎設施建設等信創和信息安全的指導意見,強有力地支撐和推動了作為信創產業核心品類數據庫的新一輪國產替代和發展浪潮。而隨著大數據時代逐步走向成熟階段、多模數據存儲一體化逐漸成為大趨勢,不同類型數據的存儲、處理與分析技術也在逐步
212、細分化發展以實現廣度上的統一融合與深度上的持續挖掘,使得專業的應用場景能夠持續以點精準突破從而帶動面的發展。隨著物聯網、車聯網和工業互聯網等的迅速發展,各類應用產生的時序數據量呈爆炸式增長,并具有海量性、關聯性、時效性、實時性等特征。尤其是在工業互聯網領域,工業和信息化部近 2年印發了一系列發展規劃,例如在工業互聯網創新發展行動計劃(20212023 年)中提出,到 2023 年,我國工業互聯網新型基礎設施建設量質并進,新模式、新業態大范圍推廣,產業綜合實力顯著提升;新型基礎設施進一步完善、融合應用成效進一步彰顯、技術創新能力進一步提升、產業發展生態進一步健全、安全保障能力進一步增強。據中國信
213、通院統計分析,截止 2022 年 6 月,全球時序數據庫有 51 個,在非關系數據庫中占比 18.2%。根據 DB-Engines 官網數據庫流行度曲線顯示,在過去 2 年里,時序數據庫流行度高居榜首,可見市場對時序數據庫的關注和相應需求的迫切。在墨天輪數據庫流行度排名中,截止2022 年 6 月底,中國有 36 個時序數據庫產品參與排名。由此可見,時序數據庫正處于高速發展階段,時序數據技術逐步走向成熟,競爭激烈。圖 1:DB-Engines 近兩年各模型數據庫流行度趨勢圖-77-時序數據庫作為非關系型數據庫中的細分類型,且基于國家政策與行業發展在物聯網和金融數字創新領域的持續推動與強勁需求,
214、當前已逐步成為重點發展和首要突破的對象之一。尤其在金融行業,大量時序數據每分每秒都在呈指數級增長,且隨著更多金融市場參與者逐步推進數字化進程,更多種類的時序數據也在不斷地增加,因而對高并發的數據寫入、多維度的海量數據存儲以及多類型的高效數據處理、分析與計算要求日漸提高。時序數據庫有幾點重要的技術發展方向,如具有分布式架構,能夠靈活擴展,以滿足海量時序數據庫的存儲和計算要求;超高的數據壓縮能力,大幅降低企業硬件存儲成本;更強的數據導入、存儲和計算性能,并且基于分布式特性能夠線性擴展,以滿足更大數據量、更高的分析要求;此外,為了更高效的滿足多種應用場景,需要能夠支持豐富的 API 接口,如支持 C
215、+與 Java 語言開發接口,RESTful API 等,并且能夠支持包括 OPC-UA/DA,MQTT 等多種標準化通信協議,從而更好地支持多樣化端傳感器的數據采集工作,像在金融量化領域,還需支持 Python API,并提供了對分布式文件系統格式數據的讀取與入庫支持,極大降低了從數據層到應用層的數據流轉技術門檻,使更多的金融領域數據工作者能夠快速上手。國外比較典型的廠商有 InfluxDB,Kdb+等,國內代表的廠商有如云廠商騰訊云 CTSDB,濤思數據 TDengines、智臾科技 DolphinDB 等。其中,濤思數據和智臾科技是專門做時序數據庫的廠商,也有如阿里云 Lindorm、星
216、環科技 ArgoDB 這種多模數據庫來支持時序數據的存儲計算,此外,星環科技也推出了單獨的分布式時序數據庫產品 Timelyre,基于星環夯實的大數據技術底座,針對金融行業對海量、高頻的時序數據存儲、處理和分析以及大量衍生因子的計算、策略回測的需求,通過嚴謹的技術框架搭建與靈活、高可用的語言體系支持,支持高吞吐實時寫入、時序精確查詢、多維檢索等多功能時序數據庫產品,可以有效支撐金融量化場景中海量因子計算、復雜策略回測的場景。11.11.實時數據庫實時數據庫和通用數據庫不同之處在于,實時數據庫技術不止是數據庫,而是工業技術、實時技術、數據庫技術以及先進的 IT 技術深度融合的產物,是一套包括數據
217、采集、數據存儲、數據計算和數據可視化的工業數據管理系統,管理工業數據從生產到應用的全生命周期,是工業信息系統的工業數據管理底座,是工業數字化、信息化和智能化的基礎核心基礎軟件。11.11.1 1 實時數據庫是工業數字化建設的核心實時數據庫是工業數字化建設的核心實時數據是工業名詞,統一表示強實時屬性工業系統、過程或行為隨時間變化的數據。作為數據庫系統發展的分支之一,實時數據庫主要但不限于不斷更新的快速變化的實時數據及具有時間限制的工業事務處理。因此,和其他通用數據庫不同之處在于,實時數據庫技術不止是數據庫,而是-78-工業技術、實時技術、數據庫技術以及先進的 IT 技術深度融合的產物,是一套包括
218、數據采集、數據存儲、數據計算和數據可視化的工業數據管理系統,管理工業數據從產生到應用的全生命周期,是工業企業信息系統的工業數據管理底座,是工業數字化、信息化和智能化的基礎核心軟件。實時數據庫專門解決工業實時數據采集、存儲和應用問題,融合各種先進技術和優化架構設計,通過提高效率來處理大規模實時數據的同時帶來系統性能的提升,包括更精準的數據采集、更高的容納率、更快的大規模查詢、更好的數據壓縮以及更有效率的數據應用支撐。圖 1:實時數據庫簡介新一代實時數據庫管理系統創新融合了工業數據采集技術、中斷觸發技術、自動化控制技術、內存庫技術、關系庫技術、行列存儲技術、多核并行技術、安全通信技術、高效實時檢索
219、技術等等,在國外壟斷的核心技術領域突破了卡脖子重圍,實現了完全的自主創新,通過用戶共創,完成了大量實踐和長期檢驗,在提高工業數據管理能力的同時,為企業數字化、信息化和智能化做出了重大貢獻。11.211.2 實時數據庫發展歷程實時數據庫發展歷程實時數據庫最早期的研究始于上世紀 80 年代的英國,四十余年發展過程中,經歷了早期實時數據庫、標準實時數據庫、新一代實時數據庫三大階段。早期實時數據庫階段(1980-2000)的實時數據庫代表產品為西門子、ABB 等工業自動化廠商,該類產品當時較好地解決了生產線實時數據采集、就地存儲的問題,但在廠級異構數據采集、數據匯總集中和海量數據容納、大規模復雜查詢及
220、靈活數據應用支撐方面存在明顯不足。標準實時數據庫階段(2000-2020)以 OSI、Instep、庚頓數據、麥杰等為代表,該階段技術脈絡逐步清晰、解決方案架構趨于穩定、應用領域極大豐富,進一步拓寬了數據采集范圍,同時極大提升了數據容納能力和支持復雜業務的查詢計算能力,成為以流程工業為代表的生產監控領域-79-標準配置。中國實時數據庫起步較晚,但 21 世紀初由于國家層面將實時數據庫作為與操作系統同一級別的軟件鼓勵支持,同時趕上了 20 余年來中國流程工業聲勢浩大的信息化浪潮的推動,中國實時數據庫產業得以快速高質量發展,以庚頓數據為代表的實時數據庫廠商開啟了新一代實時數據庫階段(2020 至今
221、),該階段由于數據規模爆炸增長、數據采集難度提高,工業企業深水區的數據應用進入全面數字化和智能化階段,大型工業集團化應用日益增多,工業企業生產連續性、工業安全以及智能化應用需求不斷提升,實時數據庫技術路線呈現多樣化和融合化發展。隨著全球市場格局劇烈變革,工業數字化轉型不斷進入核心業務深水區,我國工業企業進入通過新型工業技術和數字化技術實現高質量和低碳化發展目標的發展新階段,5G、云計算等新興技術快速發展,傳統實時數據庫的應用系統紛紛優化升級,我國實時數據庫產業正在迎來重大發展機遇。11.311.3 實時數據庫關鍵技術研究現狀及問題實時數據庫關鍵技術研究現狀及問題實時數據庫管理系統作為涵蓋工業數
222、據采集、數據管理及數據應用的軟件系統,其整體架構與技術路線不斷深化發展,在端云采集同在、集控式與分布式并存、邊緣計算與云平臺共處等應用趨勢驅動下,國內外在海量數據存儲機制、實時事務管理策略、分布式并行處理技術等關鍵技術領域的研究一直火熱,其理論更為成熟,實踐場景更為豐富,以流程工業為代表的核心應用領域成果尤為突出。(1 1)海量數據的存儲機制海量數據的存儲機制實時數據庫包括內存數據庫和歷史數據庫,內存索引機制和外存索引機制必須深度融合才能真正提升讀寫性能,滿足不斷升級的應用需求。ARTs_EDB 系統提出兼有 AVL 樹和 B+樹優點的 SB樹作為其內存索引機制,并利用基于時間點的方法實現了一
223、種新的時態索引技術。GDREAL 實時歷史數據庫針對性能瓶頸,提出新的儲存機制Z 樹,有效提升了磁盤存儲性能。由于高效的查詢算法對于內存實時數據庫的性能至關重要,??诿嫦蚬I控制領域數據和業務的哈希索引算法及接口設計具有更強的適應性和更高的效率。此外,考慮到實時數據庫基于測點的存儲結構特征,綜合 B+樹與哈希索引與一致性哈希索引的方法能夠有效提升數據查詢效率。實時數據庫在組織存儲文件格式時,極其重視數據壓縮算法的研究,以應對實時數據庫在生產環境面臨海量數據存儲的挑戰。在實時數據庫領域中,數據壓縮技術主要有兩類,無損壓縮和有損壓縮。無損壓縮以通用壓縮理論為基礎,采取哈佛曼算法等經典的壓縮算法,如
224、 InStep 公司的eDNA 實時數據庫;而有損壓縮則更多地考慮了工業實時數據的特征,采取特殊舍點的算法,著名的有損壓縮算法是 OSI 公司的 PI 實時數據庫使用的旋轉門壓縮算法;麥杰數據庫在時間維度上-80-有更全面考慮,綜合定制采樣頻率、例外報告、和矢量線性壓縮三種措施;庚頓數據將數據壓縮劃分為存儲前的定制采樣頻率、例外報告,和存儲后死區壓縮算法、可行域有損壓縮算法(自研)、兩階段無損壓縮算法,綜合壓縮比超 1000:1。此外,低成本的存儲是實時數據庫需要解決的一個主要問題,對數據進行分級存儲,從使用不同存儲介質,以及減少數據的副本數等方面,解決如何在保證數據查詢性能的前提下,降低數據
225、的存儲成本。對于實時數據庫來說,多級存儲表示:CPU 寄存器-內存-SSD 固態硬盤-HDD 機械硬盤-磁帶/光盤存儲,實時數據庫把各種不同存儲容量、存取速度和價格的存儲器按照層次結構組成多層存儲器,并通過管理有機的組合成為一個整體,使所存放的數據按照時間層次分布在各種存儲器中,同時隨著數據不斷增長將數據從高速存儲向低速存儲持續遷移,在每一級存儲可以掛載多存儲路徑,實現存儲空間的在線擴容。近年來非易失性內存等信息存儲硬件開始普及,基于這類新型硬件的實時數據庫的內部處理邏輯、算法等需要重新設計,實時數據庫技術可借此進一步發展和完善。(2 2)實時事務的管理策略實時事務的管理策略事務是指必須原子地
226、執行的一個或多個數據庫操作的集合,集合中的所有操作或者都執行,或者都不執行。實時數據庫的事務則兼具傳統數據庫事務與實時任務兩者的特征,必須同時實現數據一致性和定時限制。因此,實時事務的管理策略與傳統事務存在顯著差異,通常包括事務調度和并發控制兩項內容。事務調度的目標是滿足定時限制事務的比率最大化,即讓盡可能多的事務處理在截止期之前完成。目前國內外的實時數據庫中最為常用的是基于優先級的事務調度策略,包括基于事務截止期來指派優先級的截止期最早最優先策略、基于空余時間(事務可推遲執行的時間估算)來指派優先級的空余時間最短最優先策略、通過價值函數來指派優先級的價值最高最優先策略、通過價值密度函數(事務
227、期望化值與所需執行時間的比值)來指派優先級的價值密度最大最優先策略、基于事務執行歷史日志的調度策略和廣義截止時間最優策略等。上述事務實時調度策略有著各自的化勢應用場景,但是能夠結合國防軍事領域特點的事務調度策略研究則相對不足。并發控制的目標是通過規范多個并發事務的執行順序來避免它們之間的相互干擾,防止數據庫狀態一致性的破壞。實現并發控制的傳統技術包括鎖協議、時間戳和有效性確認其中兩階段鎖是最經典的鎖協議之一,但是在基于優先級的事務調度過程中會產生“優先級倒置”等問題。為解決上述問題,高優先級兩階段鎖對傳統的兩階段鎖協議進行了改進,在發生“優先級倒置”時能夠中止低優先級事務而確保高優先級事務及時
228、獲得相應資源。分布式環境下的并發控制(分布式鎖)目前尚沒有特別高效的方案,國外分布式系統已經廣泛應用的算法和實現包括 Paxios、Raft、Zookeeper 等。-81-(3 3)分布式并行處理技術分布式并行處理技術在當前最流行的分布式框架 Hadoop 中,不同的調度算法對于其性能有極大的影響。目前常用的作業調度算法主要包括先進先出調度算法、公平份額調度算法和計算能力調度算法,其中應用得最廣泛的是先進先出調度算法。支撐 Hadoop 框架的兩個核心技術是源自 Google File System的 HDFS 和 MapReduce。MapReduce 模型適用于批量處理任務,但計算實時性
229、不高。對于實時計算任務,流式計算框架擁有更為針對性的設計,典型地包括 Twitter 公司開源的 Storm 框架、Linkedi 公司開發的 Samza 框架和 UC BERKELEY 大學研究的 Spark 流式框架。用于分布式環境下實時性要求嚴格而計算精確度要求稍低的應用場景。然而,工業領域有著豐富的數據查詢與處理場景,例如流程圖監控頁面的實時數據展示,面向報警管理與優化的數據挖掘分析等,需要系統能夠同時提供分布式查詢、實時訂閱、實時與非實時并行計算等多種能力。如果簡單地將上述并行處理技術進行集成和拼裝,而缺乏對流程工業數據處理場景的深入分析,將導致系統復雜而低效,無法滿足應用的實時性和
230、可靠性要求。因此,該方向尚存在大量研究工作有待開展。分布式實時數據庫的服務橫型包含分布式存儲服務、分布式計算服務和網絡通信服務三大分布式服務群。同時,基于工業互聯網的跨地域數據傳輸與服務接口訪問使得分布式實時數據庫的開放性日益提升,信息安全問題也逐漸成為分布式實時數據庫系統設計過程中必須重點考慮和投入的方向,對應的網絡信息安全和用戶訪問認證技術成為隔離系統外部和內部的重要安全屏障。除此之外,組態管理服務用于對系統組態配置信息和工廠模型信息迸行統一管理和發布。事務管理服務參與全生命周期流程,將全局任務與分布式服務節點進行緊密連接,確保任何涉及多服務節點的任務能夠完整、有序、正確地執行,并在調度過
231、程中盡可能滿足其實時特性。進入二十一世紀,隨著國家鼓勵發展實時數據庫等基礎軟件的鼓勵以及數字化轉型、雙碳目標等國策的出臺,國內實時數據庫系統研究和應用不斷深入,國產實時數據庫軟件取得長足進展,其功能和性能在電力、化工、冶金、煙草、軍工、新能源等眾多行業的重大項目中不斷得到驗證,逐步實現了對國外軟件的趕超。雖然實時數據庫管理系統屬于核心基礎軟件,但目前大部分國產實時數據庫軟件針對自主可控CPU 和操作系統進行優化不足,軟件在一些功能的技術實現上使用通用但更依賴 CPU 計算能力的方法,CPU、IO 設備等硬件能力不足。因此,如果想要真正滿足大工業市場海量傳感器數據實時存儲和處理的需求,尤其核電應
232、用等態勢感知、裝備運行狀態監控等高級數據應用領域的特殊需求,目前大部分國產數據庫管理系統還需要更進一步。針對以上問題,以庚頓數據為代表的實時數據庫廠商例近年來不斷突破創新,海量順序和亂序數據的高性能寫入、海量實時和歷史數據的原始及聚合查詢、廣泛適配國產硬件設備和操作系統以及如何實現實時數據庫更高可靠性和安全性等領-82-域均進行了大量深入的研究與創新應用,取得了豐碩的成果和市場回報。11.411.4 中國實時數據庫市場發展趨勢中國實時數據庫市場發展趨勢對大型工業企業而言,精準、快速掌握數字化轉型進程中產生的各種數據和信息,可以進一步保障生產穩定、業務優化、設備健康和能耗降低,而這些正是企業獲得
233、高質量發展的關鍵驅動力。充分發掘工業數據價值的企業,才能最大限度釋放工業數據生產力,幫助工業用戶在激烈的市場競爭中搶占主動、獲得先機。隨著 5G 技術、高性能電池技術的發展和低成本傳感器的普及,工業數據呈現爆炸式增長,流程工業的工業數據資源日益豐富,但企業對數據的掌握和應用沒有跟上數據增長的速度,大部分工業數據并沒有得到有效的共享和利用,數據收集和整理的時間占比過大,真正被發掘并運用到企業的日常運營中的數據不到三分之一。因此,流程工業迫切需要海量工業數據的整體解決方案,更加高效地、精準地、實時地采集需要的工業數據,同時對這些數據進行整合分析并及時共享給各業務部分的數據使用方,以期創造更新的增長
234、極。數據已然成為現代流程工業數字化轉型的核心,真正實現工業數據的采集、存儲并幫助建立工業數據分析和應用平臺挖掘工業數據價值,成為驅動實時數據庫行業面臨的挑戰和機遇。實時數據庫開發的理念是為了實現工業監控及工業數據分析應用,其數據讀取以及存儲壓縮能力作為核心功能一直在升級迭代。為滿足工業企業更高標準要求,突破原有應用場景限制,開辟新的增量市場,實時數據庫廠商需要在技術層面上需要實現更多種信息技術的深度融合,尤其要和邊緣計算結合互補;為了降低企業應用難度,提升使用感受,需要高度統一協議接口,進一步提高系統一體化水平。(1 1)融合與統一,實時數據庫技術創新不能停融合與統一,實時數據庫技術創新不能停
235、與各類信息技術的高度耦合,邊緣計算將算力下沉。實時數據庫當前采集頻率已經突破毫秒級,超越了多數設備數據采集需求的上限。雖然性能已經達到單體設備采集標準,但是設備數量未來幾年將快速增長,與物聯網、云計算、邊緣計算等不同技術橫向融合是提升自身價值的重要途經,其中以邊緣計算與實時數據庫的相關性最強。當數據過于龐大,集中化的處理方式很難響應實時的數據分析需求時,需要通過邊緣設備實時響應的處理并反饋,采取這種分級處理的方式能夠有效提升時效性數據的價值,同時減輕存儲系統的負擔。尤其在離散制造業當中,行業碎片化程度高且呈橫向分布,應用邊緣計算技術可以更契合離散制造系統實時工業軟件開發。-83-圖 2:實時數
236、據庫的技術創新系統一體化程度提升,軟件協議接口統一化。硬件上,設備由企業采購,但是不同品牌的智能制造設備數據測點反饋的數據真實性、時效性會略有不同;軟件上,目前不同實時數據庫產品適用的開發平臺或多或少存在限制,接口標準眾多難以高度統一,激化設備和軟件數據對接問題。對實時系統的一體化成為企業、設備提供商、實時數據庫提供商的統一需求。(2 2)更強大,更成熟,實時數據庫產品升級迫在眉睫更強大,更成熟,實時數據庫產品升級迫在眉睫功能升級,應用場景增加。實時數據庫目前主要還是應用于傳統大型工業例如火電廠、核電廠、煉鋼廠等,這些行業實時數據的并發量和處理量已經處于金字塔頂端,印證了實時數據庫核心功能已經
237、具備“向下”兼容的能力,例如汽車、家具、食品等行業??山Y合云平臺技術,突破現場控制監控的瓶頸,賦能于更多的場景當中。最大程度實現工廠自動化生產,實現無人化“黑燈工廠”減少企業人力成本,提高生產效率。更完整成熟的實時數據庫產品。相較于通用的時序數據庫,完整的實時數據庫產品更適用于工業制造領域。制造業企業與互聯網公司相比,缺少專業研發優化人員,更多是使用者的身份,對產品的首要需求是高穩定、可維護。工業智能生產采用的架構比較類似,擁有相對成熟的體系,標準化、成熟度高的實時數據庫產品更契合工業需求。成熟的實時數據庫產品需要提供標準的數據挖掘模式,對于基本的過程參數、不同工序之間一些標準的產品無需企業進
238、行進一步開發應用。-84-(3 3)市場規模急速膨脹,資本進入最佳時機市場規模急速膨脹,資本進入最佳時機中國工業實時數據庫市場經歷了二十多年的發展,至今一直處于穩步增長狀態,但是增速較為緩慢,應用動機基本出于行業領頭企業“嘗鮮”使用、制造標桿工廠的想法,未能得到深度開發應用,但是在工業數字化從口號進階至國家重要發展方向后,給市場注入一陣強心劑。工業場景中,80%以上的監測數據都是實時數據,過去企業沒有重視保存歷史數據,如今對數據價值挖掘及應用的需求和實際使用的情況之間存在巨大缺口,市場有很大上升空間,預計至 2025 年達到 269億元的規模。以數據為核心競爭力的意識將在制造業中蔓延滲透至大大
239、小小各個細分行業,未來大量應用實時數據庫成為必然趨勢。(4 4)產品國產化替代大勢所趨產品國產化替代大勢所趨隨著大數據時代的來臨,數據成為企業的重要戰略資源,數據的隱私性和安全性是企業在選擇實時數據庫時的重要考量因素。特別是工業數據,具有其他行業不具備的特征。與互聯網大數據不同,工業數據雖然規模龐大,但是大多為有效數據,數據價值密度高,對企業而言具有絕對的商業價值。工業數據主要來源于各類傳感器設備對環境和生產流程的監測,多種類數據并發量巨大,數據類型異常龐雜。工業制造是國家發展的重要依靠,特別是在高精尖領域,對數據泄露采取零容忍態度,數據機密性強。中國實時數據庫研發起步較晚,初期階段更多借鑒國
240、外的優秀技術和經驗,導致海外品牌在中國市場中占據了先機。近幾年在產品性能方面,本土產品奮起直追,甚至實現彎道超車,卻在營銷層面存在薄弱環節,暫未打破壟斷局面,但海外產品靈活性不足及數據隱私兩個主要驅動因素暗示著國產化替代浪潮的到來。在保證數據安全的前提下使用性能優秀、維護便捷、成本更低、接口協議更開放的產品是每一個理性的中國企業都會做的選擇,本土化產品的迅速崛起讓中國企業看到了新方向。(5 5)頭部效應驅動實時數據庫再上層樓頭部效應驅動實時數據庫再上層樓工業實時數據庫不同于時序數據庫等通用數據庫,在生產線的運行時間可長達數十年,且價格高昂,是企業實時系統的核心構成。在初期選擇階段企業會進行再三
241、考量,安裝使用后不會輕易更換。替換周期長、成本高或造成未來市場產生頭部效應。對實時數據庫有迫切需求的更多是中大型工業企業,產品應用一步到位和可持續運行是首要考量因素。實時數據庫未來的市場將屬于擁有絕對產品競爭力的優秀企業。但目前市面產品質量層次不齊,市場中得到認可的產品來自十幾家不同的實時數據庫企業,由于缺乏統一的對比標準和長時間的調教優化,部分國產產品在基本功能上仍存在缺陷。例如在數據點采集存儲方面,不少廠商在數據采集過程中存在數據不穩定、數據斷包的現象;服務器兼容性、-85-可靠性和穩定性不足,導致經常性停運維修;數據檢索能力弱,進行歷史數據定位提取時發生目標屬性類型不匹配的情況。實時數據
242、庫是典型的長期主義市場,爬坡周期長,產品成熟慢,用戶共創程度高,成熟穩定性要求高,需要不斷優化調節和歲月的沉淀。研發具有自主知識產權的實時數據庫系統具有重要的意義,實時數據庫系統的設計與結構的開發尤為重要,開發流程繁瑣,需要時間的沉淀來對產品進行反復的優化調試。前期設計開發包含概念結構設計、邏輯結構設計、物理設計,對接入層、存儲層、計算層、平臺層以及應用層多層面的開發。后期運維調試階段,則需要根據行業特定需求進行實時數據庫優化調整,產品的成熟度與工程支持人員的專業度及工業知識沉淀程度決定維護調試周期的長短。12.12.圖數據庫圖數據庫1 12 2.1.1 背景背景圖數據庫是一種使用圖結構對數據
243、進行查詢和存儲的數據庫。目前,主流工業級圖數據庫是以屬性圖形式存儲圖數據。屬性圖的圖結構由點、連接點的邊以及點和邊所擁有的屬性構成。使用圖結構可以更加靈活地對客觀世界數據進行建模。圖結構中的點可以用于關聯客觀世界的實體,客觀實體屬性就可以作為點的屬性;圖結構中的邊可以用于表征客觀世界實體之間的各類關系,客觀關系的屬性則可以作為邊的屬性。為應對數據快速增長對圖數據庫查詢和存儲性能上帶來的挑戰,主流圖數據庫都是基于分布式架構設計實現的。根據多家行業研究機構的歷史數據和分析,圖數據庫的受關注程度和熱度基本呈現上升趨勢,圖數據庫技術的發展也正在經歷去泡沫化并向健康發展的階段過渡。國內外眾多行業也在陸續
244、布局圖數據庫的應用,并且在未來幾年內,圖數據庫技術還會吸引更多企業、公司進行業務應用方面的投入。在國內,圖數據庫發展勢頭迅猛,主要受到幾個方面的影響。首先,國家持續推動各行業、領域進行數字化轉型,并且大力推動、支持技術領域自主創新,從而擺脫國外技術“卡脖子”的困境。國家的政策強有力地激發國內企業對于圖數據庫這項新興技術的投資和研發,并不斷激發各個行業、領域對于圖數據庫技術的應用探索;其次,圖數據庫作為一項新興的數據存儲管理系統,因為其靈活的建模能力和優異的關聯關系查詢性能,尤其是在諸如政府、金融、通信、推薦、社交等對海量數據分析需求旺盛的行業或領域受到了較高的關注和應用,極大地推動了圖數據庫技
245、術在國內的認知和應用程度。在國際環境不穩定的大環境下,圖數據庫廠商也在積極響應國家自主創新的號召,不斷深耕領域技術,持續突破技術難關,為自研技術打好穩固的地基。星環科技結合自身大數據技術儲備,通-86-過自主研發,不斷打造優質產品,為用戶提供優質服務。StellarDB 圖數據庫作為其大數據平臺生態中的一個重要組成部分,同其大數據平臺一同適配多種國產軟硬件,加強技術自主可控能力。政府機構、金融行業、通信行業、交通行業等若干類行業中,部分業務呈現出數據量增速快、增量大的特點,并且這些行業還具有基礎數據量大的特點,因此也對圖數據庫存儲能力提出了更高的要求。比如在星環科技的 StellarDB 圖數
246、據庫某落地案例中,該客戶實際存儲已經達超萬億點邊數據量。圖數據庫不僅是圖數據存儲的倉庫,還要提供完備圖查詢能力的系統。工業級圖數據庫需要處理不同數據量場景下不同規模數據查詢的業務請求,因此需要快速處理簡單或短查詢,以及及時響應復雜或長查詢的能力。這些能力可以賦能于諸如股權穿透分析、深度關聯關系分析等場景。比如星環科技的 StellarDB 圖數據庫除了具備支持大規模并行處理,毫秒級的查詢響應能力,而且在其某客戶現場環境下支持 12 層深度關聯關系查詢的秒級響應。工業級圖數據庫不僅通過優化復雜數據操作的性能、提供優質內置圖算法等形式提升其在大規模圖數據集計算、分析能力,還通過支持數據的實時增刪改
247、查、事務等能力提升其在交易型處理場景中的能力。這些能力的提升,可以為客戶提供更加友好的開發、應用平臺。星環科技 StellarDB圖數據庫也在其上半年發布的 4.0 版本中,提升了其分布式圖查詢能力和實時數據操作能力,從而提升了該產品在 HTAP 場景的表現。1 12 2.2.2 圖數據庫簡介圖數據庫簡介圖數據庫是非關系型數據庫的一種,采用圖這種數據結構來進行數據存儲,將世界萬物的實體映射為圖上的點,關系映射成圖上的邊。圖表達力極強且非常簡潔,圖在表達事物關系上相比傳統關系型數據庫有千倍性能提升。此外,隨著信息化、數字化建設的不斷深入,當前數據呈現爆炸式增長,數據之間的關聯關系越來越重要,對數
248、據進行關聯分析將挖掘出巨大的數據價值。圖數據庫的應用場景非常多,而知識圖譜是最為基礎的底層應用場景,知識圖譜在數據組織形式上和圖數據庫天然契合,能夠充分利用圖模型在存儲和查詢的優勢為多行業提供知識服務。1 12 2.3.3 圖數據庫模型圖數據庫模型圖數據庫按照數據模型劃分主流的圖數據庫可以分為 RDF 圖數據庫和屬性圖圖數據庫。RDF圖數據庫表達方式非常簡潔、具有極強的靈活性和可擴展性、并且采用 W3C 定義的 OWL 和SPARQL 國際標準體系來進行知識表示和查詢,非常適合知識圖譜的應用以及知識推理的場景,代表 RDF 圖數據庫有 Virtuoso、gStore、Jena 等。屬性圖數據庫
249、對知識表示更加直觀且更接近RDB,非常適合大圖分析等場景,代表屬性圖圖數據庫有 Neo4j、Tigergraph 等。-87-圖數據庫按照底層存儲模式可分為原生和非原生兩種產品。原生圖數據庫是專門針對圖存儲進行了底層設計和優化,支持高效的圖分析算法和查詢,常用的底層數據結構為鏈表、B+樹、LSM樹等來存儲圖數據,代表圖數據庫有 Neo4j、Tigergraph、gStore。非原生大部分依賴關系型數據庫等數據庫來存儲數據,然后用存儲引擎將數據以圖數據的邏輯進行管理,代表圖數據庫有 Titan、JanusGraph。1 12 2.4.4 圖數據庫發展狀況圖數據庫發展狀況圖 1:圖應用成熟度發展圖
250、圖數據庫以圖論為理論基礎,使用圖模型,將關聯數據的實體作為頂點存儲,關系作為邊存儲,解決數據復雜關聯查詢問題。賦能各行業從數據資源到數據資產的價值轉化。業務驅動技術,技術帶動業務,所以本章節從業務和技術兩個角度說明圖數據庫的發展狀況。從業務角度,最開始的時候圖的應用主要集中在參考數據領域,比如說知識圖譜、產品圖譜等各種各樣的知識圖譜。這種基于一些事實關系的數據是非常典型的相對靜態數據,數據量較小,隨著業務的發展,業務需要增加基于交易數據的維度進行分析,交易數據的數據量比較大,且動態增加,所以這個時候對圖數據庫的數據處理能力、橫向擴展能力的要求也會越來越高;再往后,更加成熟的圖應用就不僅局限在靜
251、態的關系數據和交易數據,還會增加各種各樣的事件和行為數據的分析,事件和行為數據的增長量是井噴式的,通常會形成 TB 級、PB 級的海量數據。在圖應用成熟度這個發展歷程中,先是管理企業的或者說是我們自身的核心數據,變成進行交易數據分析,最后升級為進行事件和行為的分析,隨著這樣的圖應用的成熟度發展,對底層的圖數據庫技術的要求也是在逐步發展的。從技術角度,圖數據庫發展至今可分為三個階段:第一個階段是在 2007 年左右,該階段的特點是部署簡單且底層原生存儲,原生圖存儲指同時滿足原生圖存儲(native graph storage)和原-88-生圖處理(native graph processing)
252、兩個要素,即使用專門適用于圖數據庫的存儲結構,底層存儲就是以免索引鄰接的數據結構存儲,在存儲層實現免索引鄰接,不依賴于第三方的存儲組件,如 Neo4j。隨著 2013 年左右,大數據時代的到來,漸漸的就無法承載大量的數據了,因此 graph2.0時代應運而生,該時代以分布式圖數據庫為代表,使用非原生圖存儲,即底層使用非圖的存儲結構,在處理層近似實現免索引鄰接,依賴于第三方的存儲組件,如 RocksDB、HBASE 等。該階段的圖數據庫擴展性好,但因為非原生的架構導致查詢性能,尤其是深鏈查詢性能不高。且該階段產品的圖計算主要依賴于第三方開源計算引擎,如 Spark GraphX,圖數據庫本身不能
253、提供圖計算能力,在計算的時候需要通過 ETL 將全量數據加載到內存中,在內存中模擬圖結構進行計算,當底層數據發生變化時,需要重新通過 ETL 加載全量數據到內存,這種架構導致產品使用的局限性,只適用于 T+1 的離線分析場景,無法滿足業務對實時計算的要求,如 JanusGraph。第三代圖數據庫采用分布式+原生的架構,兼顧第一代圖數據庫的原生架構和第二代圖數據庫的分布式架構。即滿足業務的快速的查詢能力,又兼顧水平擴展能力,同時能夠智能化地輔助商業決策,如 Galaxybase、Tigergraph。國際主流圖數據庫以開源為主,開源比例占到 60%以上,但是也隨著商業化進展的不斷深入,各大開源廠
254、商也逐漸將圖數據庫完全開源變為內核模塊開源,更多功能需付費使用。圖數據庫廠商主要由行業垂直廠商、高校產學研團隊、傳統數據庫廠商、互聯網大廠組成。行業垂直廠商專注于圖數據庫的研發以及圖數據庫在知識圖譜領域的應用實踐,例如 Neo4j、Tigergraph、Nebula、Galaxybase 等;高校產學研團隊主要是從學術界出發,從理論到產品落地,然后逐漸開展商業化應用,例如 gStore、PandaDB 等;傳統數據庫廠商關注到圖數據庫的發展趨勢,不斷彌補自己在圖數據庫方面的能力,例如 Oracle Graph、IBM Graph 以及達夢(蜀天夢圖);互聯網大廠由于內部業務的需要也組建了專門的
255、圖數據庫團隊,并且逐步由內部能力提供向外部賦能,例如 Twitter Flock DB、Facebook TAO、阿里 GDB、百度 HugeGraph。圖數據庫面向知識圖譜的應用在各個行業均有結合點,但是受限于不同行業的信息化建設階段不同,目前主流的應用行業在金融、公安,市場占比近 40%。隨著政務行業、醫療、電網等能源行業的信息化建設不斷推進,其知識圖譜應用也在逐步加深,而且政策方面對政務大數據利好,將進一步深化政務行業的知識圖譜應用。主要的應用形式分為兩個,一個是構建專家知識圖譜,將專家知識沉淀下來,然后對于數據進行分析和匹配,得到相應的分析結果,該類知識圖譜存儲的數據量較少,主要應用在
256、交通、制造業等領域;一個是存儲真實數據的行業知識圖譜,通過行業內的多源異構數據構建知識圖譜,然后在該知識圖譜中進行查詢、關聯分析得到結果,該類知識圖譜存儲數據量較大,主要應用在金融、公安等領域。1 12 2.5.5 測試標準測試標準-89-圖數據庫是未來數據管理的發展趨勢之一,通過圖數據庫測試來評估圖數據庫能力至關重要?,F如今,圖數據庫測試方案多種多樣,但存在各種弊端。所以需要一個權威、真實、公平的圖基準測試。關聯數據基準委員會(LDBC,Linked Data Benchmark Council)是由 Oracle、亞馬遜、Intel、螞蟻金服等軟硬件巨頭,Neo4j、TigerGraph、
257、創鄰科技、海致星圖、Ultipa、TuGraph(阿里,原費馬)等國內外主流圖數據庫廠商,倫敦大學、愛丁堡大學、希臘研究與技術基金會等國際知名學術組織等組成的非贏利機構,是全球圖數據庫領域唯一的第三方、非贏利、權威測試標準制定與發布機構,在行業內有著很高的影響力。LDBC 提供了公平、公正、公開的圖基準測試標準,LDBC 圖基準測試以圖模式查詢中常見的瓶頸點(Chock Points)出發,從聚合、連接方式、數據訪問方式、表達式計算、子查詢優化、并行化、圖特征計算、更新操作八項維度出發,基于相同的標準、相同的數據集、相同的測試工具,全面考察圖數據庫的性能、高可用、并發等能力。(1 1)LDBC
258、LDBC 對圖模式查詢的瓶頸點設計對圖模式查詢的瓶頸點設計聚合:包括排序、并行排序、TopK 排序等,比如追蹤資金流向業務中,找出最近 10 次轉賬;連接方式:包括深度優先遍歷(Depth First Search)、廣度優先遍歷(Breadth FirstSearch)的圖遍歷方式,比如追蹤資金流向業務中,找出 5 跳內的轉賬鏈路;數據訪問方式:包括隨機查詢的能力,比如根據 id 查找頂點,根據頂點找到鄰居,獲取鄰居的屬性信息;表達式計算:包括公共子表達式復用的能力,比如統計杭州一天的交易總量;子查詢優化:包括一個查詢內相同或相反的計算,合并到一個子查詢的能力、不同查詢間,復用子查詢結果的能
259、力、一個查詢內復用子查詢的能力;并行化:包括在大量查詢的情況下,使用緩存子查詢的能力;圖特征計算:包括基于圖遍歷重用之前找過的路徑的優化能力、基于查詢兩點間路徑的優化能力、基于查詢兩點間不帶權最短路徑的優化能力、多個圖查詢組合查詢的能力等;更新操作:包括對頂點、邊以及屬性的增刪改查操作。(2 2)LDBCLDBC 圖基準測試內容圖基準測試內容LDBC 圖基準測試主要包含三大類,總共 29 項測試,通過這 29 項測試,考察圖數據庫產品-90-是否有能力解決常見的圖模式查詢瓶頸點。交互式插入更新 II(Interactive insert updates)8 項交互式簡單查詢 IS(Intera
260、ctive short reads)7 項交互式復雜查詢 IC(Interactive complex reads)14 項(3 3)LDBCLDBC 圖基準測試方式圖基準測試方式LDBC SNB 提供了標準的測試工具,相當于黑盒測試工具,測試方無需自己實現測試工具的邏輯,確保測試方式一致。如下圖 LDBC 圖基準測試流程所示,黃色是測試者需要準備的內容:即查詢語言,適配工具和測試的圖數據庫產品,LDBC 的官方會提供數據生成器與測試驅動的工具,包含了數據生成、樣本生成、正確性驗證、性能測試的功能,在整個測試過程中,LDBC 審計員會全程審計測試過程,嚴格記錄每一個過程的日志和結果并公開,是一
261、套非常完善的基準測試流程。圖 2:LDBC圖基準測試流程1 12 2.6.6 發展前景發展前景圖數據庫及其在知識圖譜行業的應用整體來看還處于市場爆發前期,但是其關注度無論是學術界還是產業界都在逐年增加,DB-Engines 中數據庫流行度排行榜中圖數據庫一騎絕塵,保持高速增長。在學術界圖相關的關注度明顯增長。-91-圖 3:DB-Engines各模型數據庫流行度趨勢變化圖圖 4:主流圖數據庫論文數趨勢圖圖數據庫及知識圖譜行業的發展目前還是以行業結合應用為主,但是存在著圖數據庫及知識圖譜應用廠商對行業理解不深,而行業專家對圖數據庫和知識圖譜技術了解不夠,導致了應用結合點的分裂,還需要圖數據庫和知
262、識圖譜技術的不斷深入普及和市場導入。-92-1 12 2.7.7 技術技術趨勢趨勢(1 1)趨勢一:圖)趨勢一:圖 HTAPHTAP 技術技術HTAP 是能同時處理 OLTP 和 OLAP 兩種業務的混合處理系統,以打破 OLTP 和 OLAP 之間的隔閡,既可以應用于事務型數據庫場景,也可用于分析性數據庫場景?;趧撔碌挠嬎愦鎯蚣?,在同一份數據上保證事務的同時支持實時分析,省去了費時的 ETL 過程。在圖數據庫中,OLTP 指對頂點、邊以及屬性的增刪改查。主要評價指標為:吞吐量、響應時間;OLAP 分為兩種,第一種是全圖的算法,使用全量數據進行圖運算,比如 Louvain、PageRank
263、等。衡量指標為圖算法的豐富性、易用性。第二種是局部算法,使用部分子圖數據完成運算,比如最短路徑、K 跳查詢等。衡量指標為吞吐量、響應時間。HTAP 指綜合 OLTP 和 OLAP 的第二種情況。如下圖所示,用戶端發起請求,通過消息中間件轉化成流的形式進入系統。圖平臺解析請求中的數據,將數據對應的操作(CURD)實時應用到圖數據庫中。然后就可以調用對應的圖計算代碼段,對剛剛處理的這條數據進行相關的計算操作(以新插入或更新的點為出發點、一定深度的鄰居節點)。計算完成后的結果,可以實時寫入到各個點邊類型的屬性中去,也可以選擇一部分作為算法調用的結果返回給客戶端。實時寫入到各個點邊類中的屬性,是立刻查
264、詢可見的,可以在前端界面等查詢結果的地方展示,也可以被實時的用到后續請求的相關計算中來。圖 5:圖數據庫數據處理過程(2 2)趨勢二:)趨勢二:Graph+AIGraph+AI 技術技術圖數據庫會與人工智能進一步融合成為未來人類智慧的“新基建”。梅特卡夫定律表明,網絡價值取決于網絡中可以建立的連接的數量。同理,數據要發揮它的最大價值,一定要打通數據間的連通性。圖數據庫作為高效聯通孤立數據點的技術,是引爆數據價值的關鍵要素。認知的基礎是知識,而創新的來源是跨知識點之間的連接??梢韵胂?,隨著區塊鏈等技術的發展、數據確權及相關政策法規的成熟,未來圖數據庫發揮價值的一種形態是通過技術與數據結合將龐大知
265、識圖譜及基于它的認知計算能力作為基礎設施服務提供給多方調用和查詢,又通過多方的使用反饋進一步完善系-93-統本身。在未來的商業中,知識也會像今天的水電煤一樣隨用隨取,用戶無需再關心底層到底是哪一種數據庫,用的是什么計算引擎,只需專注于查詢和調用自己需要的知識并將知識推理的結果運用于當前的業務場景創造商業價值就好。圖和圖數據庫技術管理關聯數據并定義關系,通過應用領域相關知識增強 AI 的性能,圖技術提供了一種有效的技術手段來實現復雜 AI 應用程序的開發。至少在四個主要區域,圖可以為 AI提供領域相關知識:首先是知識圖譜,它為決策支持提供領域相關知識/上下文(例如智能問答)并且幫助明確答案適合于
266、該特定情況(例如在多雨駕駛條件下的自動車輛)。其次,圖提供更高的處理效率,因此借助圖來優化模型并加速學習過程,可以有效的增強機器學習效率。第三種,基于數據關系的特征提取分析可以識別數據中最具預測性的元素,基于數據中發現的強特征所建立的預測模型擁有更高的準確性。第四種,圖提供了一種為 AI 決策提供透明度的方法,這使得通過 AI 得到的結論更加具有可解釋性。(3 3)趨勢三:圖)趨勢三:圖+聯邦學習技術聯邦學習技術圖神經網絡(Graph Neural Network)相比于傳統的機器學習算法,在復雜圖結構數據上有著不可比擬的優勢。圖神經網絡能夠更好的提取數據之間的特征,如藥物發現、社交網絡、推薦
267、系統和交通建模等,近些年來圖神經網絡技術正在如火如荼的發展。而數據作為機器學習的“燃料”,數據的好壞、數據量的大小直接決定機器學習的訓練效果。而數據的獲取存在諸多的困難,一方面企業難以獲得模型訓練所需要的大量數據,另一方面,因為用戶隱私、法律限制、商業競爭等問題,造成數據流通困難,“數據孤島”現象普遍存在,所以催生出圖聯邦學習這一項技術,旨在保證用戶隱私和公司數據的前提下,更好的發揮數據作為機器學習“燃料”的重要作用,圖聯邦技術作為兩者的交叉學科,未來存在廣泛的應用前景,通過圖神經網絡和聯邦學習相結合,更好的推動社會生產力的發展和保障人民財產安全,任重而道遠。但目前圖數據庫在機器學習領域還沒有
268、被廣泛采用,主要有如下原因:一是目前的文獻中,缺乏對各種圖聯邦設置和任務的統一表述,使得專注于基于 SGD(隨機梯度下降)的聯合優化算法的研究員難以理解圖+聯邦學習技術的基本挑戰。二是現有的聯邦庫并不支持不同的數據集和學習任務以衡量不同的模型和訓練算法,鑒于圖數-94-據的復雜性,在聯邦學習環境下訓練圖神經網絡的動態與訓練視覺或語言模型有較大差異。三是面向模擬的聯合訓練系統對于跨語境的大規模私有圖數據集的聯合圖神經網絡研究來說是低效的、不安全的。未來應該設計一個聯邦學習系統和圖神經網絡基準,包括開放的數據集、基線實現、可編程的API 等,都集成在一個大的系統中,供研究人員探索圖+聯邦學習交叉的
269、重要問題。系統應支持更多的圖數據集和圖神經網絡以適應不同的應用,可能的應用包括但不限于傳感器網絡和時空預測,不斷的優化迭代系統,進一步加快大型圖的訓練速度;設計先進的圖聯邦算法,提高數據集上的準確性,解決圖聯邦下的安全和隱私挑戰;組織數據競賽、建立合作生態、人才培養等。(4 4)趨勢四:圖數據庫處理時序數據技術)趨勢四:圖數據庫處理時序數據技術未來圖數據庫的發展,將出現具備時序數據處理能力的圖數據庫。5G 以及 IoT 的興起催生了大量的時序數據,這些數據蘊藏著豐富的人、設備、車輛等的流動變化的關聯數據。要基于這些流動變化的關聯數據作出實時精準的商業決策,就需要底層的數據存儲與計算能力的支撐。
270、傳統的流式大數據處理技術框架雖然可以進行實時數據處理,但缺乏針對圖數據的關聯分析能力,無法對圖處理任務進行語義解析,也無法執行多層查詢等圖計算?,F有的圖計算框架雖然具備以內存存儲圖數據進行圖表達能力,但僅能執行預定義的圖任務,不知此動態追溯查詢,無法基于指定時間窗口下的歷史數據進行圖處理,靈活性較低。圖計算引擎可以對圖結構進行查詢,但這些圖查詢不具備原生的時序分析能力,需要進行原始數據的遍歷搜索運算,時空開銷大,且缺乏高性能支持。時序數據一般具備以下 3 個特點:一是抵達的數據幾乎總是作為新數據被記錄;二是數據通常按照時間順序抵達;三是時間是一個主坐標軸(即可以是一個規則的時間間隔,也可以是不
271、規則的)。時間序列數據累計速度非??欤ū热缫惠v物聯網汽車每小時能收集 25GB 數據。)常規的數據庫在設計之初并非處理這種規模的數據,關系型數據庫處理大數據集的效果非常糟糕。圖數據庫目前雖然可以很好的處理大規模數據集,但是仍然需要借鑒時序數據庫技術,提升處理大規模數據集的性能,包括更高的入庫性能、更高的容納率、更快的大規模查詢以及更好的數據壓縮。未來圖數據庫需要能夠更好的支持空間、時間維度的數據查詢和處理。具備時空高效的大規模時序圖構建、任意時間窗口的圖數據動態追溯查詢、基于分布式計算的算法查詢、支持原生時序語義表達的圖查詢語言設計。(5 5)趨勢五:大規模圖數據的分布式管理系統)趨勢五:大規
272、模圖數據的分布式管理系統隨著社交網絡、知識圖譜等領域研究的發展,越來越多的圖數據被發布了出來。比如,在社交-95-網絡中,美國 Meta(原 Facebook)公司在全球擁有超過約 29 億活躍用戶,這些用戶可相互關聯與通信,并形成大規模圖結構社交網絡;德國的萊比錫大學和柏林自由大學合作從維基百科上抽取結構化數據形成的知識圖譜 DBpedia 已將近有 24 億。針對上述大規模的圖數據集,如何有效地進行分布式管理就成為了一個重要問題。為此,學術界和工業界當前已經構建了不少高效的分布式圖數據管理系統。這些圖數據的分布式數據管理系統可以分為兩類:基于大數據處理平臺的分布式管理系統和自定義的分布式圖
273、數據管理系統?;诖髷祿幚砥脚_的分布式圖數據管理系統基于大數據處理平臺的分布式圖數據管理系統基于大數據處理平臺的分布式圖數據管理系統利用現有大數據處理平臺進行圖數據分布式存儲。典型的大數據處理平臺包括 Hadoop、Spark 等等。這一類方法因為使用了已有大數據處理平臺,所以有很好的可擴展性、容錯性,也能更好結合已有的大數據生態。但是現有大數據處理平臺整體讀寫性能先對于單機硬盤還是低很多,所以這些基于大數據處理平臺的系統的查詢性能都相對比較低。典型基于大數據處理平臺的分布式圖數據管理系統有 JanusGraph、GraphScope、DP2RPQ等。其中,JanusGraph 是一個常用的
274、圖數據管理系統。它的存儲系統可以建立在 Cassandra、HBase、BerkelyDB 等多種存儲系統上,同時支持適配 Elasticsearch、Solr、Lucene 等多個索引技術。因為支持基于多種大數據處理平臺的存儲系統,JanusGraph 可以和大數據生態結合的非常好,也支持和 Spark 結合做一些大型的圖計算。GraphScope 是阿里公司開發的一個開源圖計算引擎,可以支持交互式查詢引擎、圖分析引擎 FLASH、圖學習引擎。在數據交換與存儲層,GraphScope 采用分布式內存數據管理系統 Vineyard,用以支持管理數據的分區、元數據等以及為上層應用提供本機零拷貝的
275、數據讀取。天津大學團隊基于分布式圖計算系統 GraphX 開發了分布式 RDF 圖數據管理系統 DP2RPQ。DP2RPQ 支持基于 GraphX 來處理正則路徑查詢。自定義的分布式圖數據管理系統自定義的分布式圖數據管理系統另一類分布式圖數據管理系統是基于分布式環境中各個機器自身的文件系統來設計實現分布式圖數據存儲。這類系統首先將圖數據劃分成多個子圖,然后這些子圖分布到不同機器上進行管理。所以它們性能往往能做到比基于大數據處理平臺的分布式圖數據管理系統高。但是它們的可擴展、容錯也要自己實現,所以這些方面往往不及基于大數據處理平臺的分布式圖數據管理系統。典型自定義的分布式圖數據管理系統有 Neo
276、4j 的分布式版本、TigerGraph、gStore 的分布式版本、GSmart 等。Neo4j 是目前最流行的圖數據庫系統。它目前的分布式版本就是在其基于各個機器自身文件系統的單機版基礎上開發的。Neo4j 分布式版本包含 Core Servers 和 ReadReplicas 兩類計算節點。Core Servers 主要負責寫數據,并通過 raft 協議提供事務保證;而 ReadReplicas 只負責讀數據,分擔集群讀負載壓力。TigerGraph 也是一個著名的圖數據庫系統。其的-96-分布式版本將大圖按照頂點進行一致性 hash 切分成若干分片,然后將邊與其起點存儲在同一個計算節點
277、。然后,每個計算節點只負責存儲一個分片的一個副本,并支持其上的圖存儲和圖處理?;趪a自主可控的單機 RDF 圖數據管理系統 gStore,湖南大學和北京大學研發了相應的分布式版本。該研究主要討論了如何通過設計良好的圖數據劃分策略來減少查詢處理時間。該研究提出了一種新的圖數據劃分方法最小屬性劃分,來降低圖數據劃分過程中跨多個子圖的邊上的屬性數量。這樣劃分的子圖分布到不同機器上之后,如果一個查詢不涉及跨子圖邊上的屬性,那么這個查詢就可以避免跨機器通信,進而實現降低通信代價。GSmart 是國家超級計算長沙中心基于 CPU+GPU的異構融合并行計算體系結構所設計的分布式 RDF 圖數據管理系統。G
278、Smart 將所有 RDF 圖數據上的查詢操作都轉化成了稀疏矩陣運算,然后利用 GPU 來優化這些稀疏矩陣運算。(6 6)趨勢六:查詢語言統一)趨勢六:查詢語言統一目前,圖數據庫市場查詢語言不一,包括 Gremlin、Cypher、SPARQL 等,也有使用自己開發定義的查詢語言。用戶在業務中使用圖數據庫時學習成本高,對圖數據庫產品的推廣帶來一定的阻礙。同時,國際上 ISO/IEC 的 GQL 制定耗時 4 年,與當前圖數據庫市場的發展速度嚴重不匹配。如何解決這一問題已是廠商與用戶共同關注的問題。(7 7)趨勢七:圖數據庫與圖處理引擎融合)趨勢七:圖數據庫與圖處理引擎融合現今非原生圖數據庫只能
279、提供較簡單的圖查詢進行實時查詢,不能獨立完成復雜的全圖迭代計算,需要與圖處理引擎結合,增加了額外的處理過程,加重了系統負擔。當前,分布式圖數據庫支持了更大規模的數據,同時通過優化保證了查詢的高性能,未來與圖處理引擎深度融合從而為用戶提供更簡單、更復雜的計算能力是圖數據庫廠商的研發方向。(8 8)趨勢)趨勢八八:無代碼無代碼/低代碼的平臺低代碼的平臺為了進一步降低圖數據庫的使用門檻,方便具有各種背景的圖數據庫使用者使用圖數據庫,圖數據庫廠商也都在提升其產品使用的友好程度。例如通過為圖數據庫可視化工具提供諸如自定義查詢一鍵執行、可視化查詢語句配置等功能。1 12 2.8.8 面臨面臨挑戰挑戰圖數據
280、庫技術面臨的挑戰依然很多。上文提及的諸多需求和發展趨勢,也同樣為圖數據庫技術提出了諸多挑戰,除此之外,淺談以下幾點:(1)動態圖。圖數據的更新可能是實時的、涉及大數據量的,諸多實時性場景對新增數據參與計算分析的結果有較高的實效性要求,這是其中一個挑戰。-97-(2)超級節點。盡管超級節點的處理方案有很多種,但其任然是圖查詢、圖計算中不可回避的問題。(3)超大規模圖數據可視化。在圖數據庫使用過程中,可視化工具擔任了圖數據分析探索的重要角色,對于超大規模圖數據進行合適的可視化,也是未來圖數據庫需要應對的挑戰之一。1 13 3.搜索引擎搜索引擎搜索引擎數據庫是一類專門用于數據內容搜索的 NoSQL
281、數據庫,是非結構化大數據處理分析領域中重要的基礎支撐軟件。近年來,中央出臺多項信創相關政策,大力支持信創產業持續發展,努力實現國產替代。數據庫作為信息系統的核心和信創基礎軟件的重要部分,將迎來重大發展機遇。在數據量的爆炸式增長浪潮中,非結構化數據占據了總數據量的大部分,搜索引擎數據庫作為非結構化大數據處理分析領域中重要軟件,伴隨著搜索引擎系統的發展也逐漸發展起來。2022 年 11 月 17 日,中國信通院組織召開了“搜索型數據庫”技術研討會,討論了搜索型數據庫的市場前景、技術趨勢、應用場景、發展態勢等議題,搜索型數據庫的數據安全問題日益受到業界的關注,標志著我國對搜索引擎數據庫領域的國產替代
282、關注度將逐漸提升。據東方證券-計算機行業深度報告預計,搜索引擎數據庫未來具有廣闊的市場前景,到 2025 年中國搜索引擎數據庫市場將達到 32 億元。圖 1:東方證券計算機行業深度報告搜索引擎數據庫發展歷程從全球范圍來看,國外搜索引擎數據庫發展較早,國外開源產品 Elasticsearch 是目前搜索引擎數據庫領域的龍頭產品,并占據了相當大的市場份額。Elasticsearch 在過去幾年內,數據泄露事件頻發,甚至一個月被曝 6 次數據泄露。去年,受美國出口管制的巴林,暴露的 Elasticsearch集群中近 200 萬條信息被泄露,包含有關人員的敏感信息。而作為美國出口管制重點對象的俄羅斯
283、,近幾年發生多起 Elasticsearch 數據泄露事件。根據 Group-IB 報告顯示,2021 年網絡上暴-98-露的 Elasticsearch 實例超過 10 萬個,約占 2021 年暴露數據庫總數的 30%。Elasticsearch 開源版本是不具備數據保護功能的,看似免費,但不安全。用戶必須付費獲得 Gold+許可才能獲得相關的安全保護功能,且不同的安全功能對應不同的收費標準。2021 年初,Elastic 公司決定將這款開源軟件的 Apache License 2.0 變更為雙授權許可,即 Server Side Public License(SSPL)和 Elastic
284、License。其核心條款是“如果將程序的功能或修改后的版本作為服務提供給第三方,那么必須免費公開提供服務源代碼”。這意味著不法分子可以獲得其源代碼并研究其漏洞,給企業用戶帶來巨大的安全風險。此外,Apache 軟件基金會和 GitHub 官網都有公開說明,產品和技術受到美國的出口法律和法規限制,受美國出口管制的俄羅斯在近期俄烏事件中將這方面風險徹底暴露,警示我們要擺脫被科技制裁風險的唯一出路就是要自主研發,實現真正的自主可控。國內搜索引擎數據庫產品獲得關注較少,國產替代產品少,墨天輪排行榜上兩大搜索引擎數據庫產品,星環科技 Transwarp Scope 和有百度開源的 Tera。Trans
285、warp Scope 是星環科技自主研發的企業級分布式搜索引擎,通過工信部源代碼掃描測試,并于 2019 年上榜由信息技術應用創新工作委員會編制的國產軟硬件技術圖譜。Scope 可提供 PB 級海量數據的交互式多維檢索分析服務,支持百萬級高并發和毫秒級低延時檢索業務,覆蓋模糊匹配,精確查詢,多維檢索等各類檢索類場景,滿足數據檢索多樣化需求。此外,在國產化生態適配方面,Scope 已完成與主流信創生態廠商的適配互認工作,支持適配長城飛騰、華為泰山、龍芯等服務器架構,同時滿足麒麟,UOS 等操作系統,根據星環科技官方信息顯示看,Scope 在 ROI、擴展性、穩定性、安全性、數據讀寫/恢復/一致性
286、等全面超越開源 Elasticsearch,滿足信創要求和國產化替換需求。圖 2:Transwarp Scope與Elasticsearch性能對比-99-1 14 4.數據庫安全數據庫安全1 14 4.1 1 數據庫安全數據庫安全背景背景2020 年以來,全球經濟傳統經濟增長放緩,數字經濟成為了經濟增長的切入點與發動機,國家也將發展數字經濟提升到戰略高度。相較于傳統產業,數字經濟的發展更依賴數據,因此數據安全成為了一項重要議題。2021 年 9 月 1 日起,中華人民共和國數據安全法正式實施生效,是我國第一部有關數據安全的專門法律。數據安全法是針對我國數字經濟發展現狀與未來出臺的一部數據領域
287、的基礎法律,明確定義了“數據”等相關概念,確立了數據分級分類管理的原則,風險評估、檢測預警與應急處置等各項基本制度,對開展數據處理活動時應履行的各項義務做出了規范。數據庫是組織、存儲和管理數據的計算機基礎軟件,保護數據庫安全是數據安全最為重要的一環。數據安全法的實施在法律層面為數據庫安全提供了保障,也對保護數據庫安全提出了更高規格的要求,同時明確了在數據處理過程中組織、個人應盡的義務與責任。圖 1:數據安全法總結構現在越來越多開發者、數據庫管理員、企業領導者意識到,確保數據庫的安全應該是他們最重要的目標之一。一方面,數據庫中存儲的數據對企業在市場中保持競爭優勢至關重要,一旦發生數據泄露將造成難
288、以挽回的損失;另一方面,當今黑客們正在構建更隱蔽更復雜的工具,發展地下市場,目的是竊取數據以謀取非法利益,而存儲著大量數據的數據庫通常是黑客們的“最佳”入侵對象。近年來,已有多起數據泄露事件發生,這些事件的起因或是運維疏忽導致的風險,或為數據庫存在漏洞,但都給企業的經營、聲譽、信用造成巨大打擊。2019 年 2 月 12 日,美國郵件服務商VFEmail 受到黑客攻擊,公司積累了二十多年的數據和備份全部被刪除;2019 年 1 月 22 日,美國一家網上賭場集團泄露了超過 1.08 億筆投注信息,泄露源頭在于 Elasticsearch 服務器沒有密碼保護,不需要身份驗證,從而被黑客入侵。這些
289、事件警示我們,數據始終處于泄露的風險之中,-100-只有時刻注意、重視數據庫安全,采取多種措施保護數據庫,才能防患于未然,杜絕數據泄露。據不完全統計,2022 年中國共發生 14 起重大數據安全事件,具體事件及詳情見下表。時間時間20222022 年國內重大數據安全事件年國內重大數據安全事件簡介簡介4 月初大亞圣象郵箱系統遭黑客入侵,肇事者入侵該公司租用的微軟公司郵箱系統,偽造假電子郵件冒充該公司管理層成員,偽造供應商文件及郵件路徑,實施詐騙,涉案金額約 356.9 萬美元(約人民幣2275.49 萬元)。4 月國家安全機關破獲了一起為境外刺探、非法提供高鐵數據的重要案件。上海某信息科技公司銷
290、售總監王某等人在利益驅動下,非法收集、向境外公司提供涉及鐵路 GSM-R 敏感信號等高鐵數據。6 月 21 日媒體報道大學生學習軟件“超星學習通”的數據庫信息被公開售賣,超 1.7 億條信息疑遭泄露。當日下午,學習通回應經十余個小時排查,到目前為止還未發現明確的用戶信息泄露證據。鑒于事情重大,已經向公安機關報案,公安機關已經介入調查。7 月國家互聯網信息辦公室依法對滴滴全球股份有限公司開出人民幣 80.26 億元的巨額罰款。經查實,滴滴公司共存在 16 項違法事實,包括違法收集用戶手機相冊中的截圖信息 1196.39 萬條、過度收集乘客人臉識別信息 1.07 億條、年齡段信息 5350.92
291、萬條、職業信息 1633.56 萬條、親情關系信息 138.29 萬條、“家”和“公司”打車地址信息 1.53 億條等。此外,滴滴公司被發現存在嚴重影響國家安全的數據處理活動,給國家關鍵信息基礎設施和數據安全帶來嚴重風險隱患。8 月上海隨申碼數據庫或泄露,4850 萬用戶的數據,包括用戶姓名、手機號碼、身份證號、隨申碼的顏色、UUID(通用唯一識別碼),在暗網以 4000 美元價格拍賣。8 月底據北京市朝陽區人民檢察院裁定,2020 年至 2021 年,劉某、姜某某、吳某某在多家國內醫院內,多次通過技術手段秘密接入醫院內網數據庫,獲取大量藥品編碼、數量、金額、單位等藥品數據后出售,違法所得人民
292、幣 200 余萬元。9 月國內一“黑客”利用木馬病毒非法控制逾 2000 臺計算機,入侵 40 多家國內金融機構的內網交易數據庫,非法獲取交易指令和多條內幕信息,進行相關股票交易牟利,非法所得人民幣 183.57 萬元。9 月據官方通報,西工大郵件系統遭境外組織入侵,竊取該校關鍵網絡設備配置、網管數據、運維數據等核心技術數據,系美國國家安全局所為。美國安局其下屬的特定入侵行動辦公室(TAO)在 4 月之前,已經對中國國內網絡目標實施了上萬次攻擊,控制了數以萬計的網絡設備,并成功竊取超過140GB 的高價值數據。-101-10 月初據香港媒體報道,香格里拉酒店集團的網絡系統受到黑客攻擊,其中 3
293、 家位于中國香港,造成香港酒店 29 萬個人資料泄露。香港安全專家表示:通過技術分析,黑客可能通過傳送電郵,在超鏈接中加入“釣魚程式”,竊取酒店系統內的資料。10 月經國內網警偵破,麻某利用自身黑客技術,在 2022 年 4 月侵入國內某醫療機構微信公眾號系統竊取數據,半年多時間非法獲取該計算機系統數據 10 萬余條,而后在境外黑客論壇兜售,非法獲利1500 美元。11 月初據臺媒報道,臺灣地區政府系統遭黑客入侵,黑客在國外論壇公開出售 2300 萬中國臺灣民眾數據,打包價 5000 萬美元。12 月 11 日蔚來汽車確認,因服務器配置錯誤導致百萬條用戶信息泄露,并遭受 225 萬美元等額比特
294、幣的勒索。聲明顯示,遭竊取數據為 2021 年 8 月之前的部分用戶基本信息和車輛銷售信息。表 9:2022 年中國重大數據安全事件一覽表1 14 4.2.2 數據庫安全技術數據庫安全技術在數據庫發展過程中,一系列工具、控制和措施被設計完善用以保護數據庫的機密性、完整性和可用性,及其安全性。中國信通院關系型數據庫安全專項評測設置了五大項安全基礎能力,包括用戶標識與身份鑒別、訪問控制、數據存儲安全、數據通信安全和安全審計,共計 29 個測試項,為各行業組織評估關系型數據庫產品的安全能力提供參考。圖 1:關系型數據庫安全能力標準框-信通院-102-此外,隨著國家對數據監管要求的提高和企業安全意識的
295、不斷增強,數據庫安全技術在逐步完善的同時也推出了更高的要求。用戶標識與身份鑒別用戶標識與身份鑒別:身份鑒別是數據庫安全的基礎,通過驗證用戶身份判斷其能否連接至數據庫。數據庫應支持口令驗證、操作系統驗證等多種鑒別方式,并提供完備的口令管理體系。訪問控制訪問控制:數據庫訪問控制要求用戶在對數據庫進行操作前必須先得到對應授權,是保護數據的前沿屏障。常見的訪問控制模型有自主訪問控制、強制訪問控制等。數據存儲安全數據存儲安全:攻擊者可能繞過數據庫應用,直接竊取存儲在硬盤中的數據,因此保護數據存儲安全是重中之重,其中數據加密(包括數據文件、備份、日志等)是保護數據安全的最佳實踐。數據通信安全數據通信安全:
296、保護數據的通信安全要求數據在傳輸過程中加密,能夠發現傳輸數據是否被篡改。安全審計安全審計:數據庫安全審計確保管理者能夠監控用戶對數據庫的操作,并快速檢測數據庫中的漏洞。以星環科技分布式交易數據庫 KunDB 為例,為應對各方面安全性挑戰,KunDB 構建了完備的安全體系,并通過了信通院關系型數據庫安全專項評測。通過口令管理、多種身份認證方式保障數據庫認證安全,并提供了 DAC、MAC 的訪問控制模型,使權限控制更為靈活;此外,為防止黑客竊取明文數據,KunDB 提供了全面的數據加密功能,包括數據文件存儲加密、通信加密、備份加密、日志加密等;而 KunDBA 平臺提供了數據審計功能,協助管理者精
297、準定位操作,管理數據庫中可能存在的漏洞。1 15 5.數據庫中間件數據庫中間件1 15 5.1.1 何為何為數據庫數據庫中間件中間件中間件(Middleware),是指處于操作系統、數據庫與應用系統之間的軟件,用來屏蔽、擴增強、擴展底層技術細節及能力,為應用系統提供更為簡潔、友好的應用訪問能力,以其自身的復雜性換來了應用程序開發的簡單。廣義中間件的定義是非常寬泛,比如解決系統間網絡通信的消息中間件、提供分布式環境下統一配置的注冊配置中心、應用服務訪問的網關、訪問數據庫的數據庫中間件、集成平臺等等,都屬于中間件的范疇。中間件的功能特點及其自身定位,決定了中間件的多樣性。從類別上看,中間件可大致分
298、為基礎支撐類中間件、應用集成類中間件、平臺類中間件以及數據類中間件,可參考如下圖。目前業內還沒有比較標準及權威的劃分方式。-103-圖 1:中間件的分類數據庫中間件數據庫中間件作為重要的一種中間件產品,在過去一二十年伴隨互聯網應用的興起而發展起來的,幫助很多互聯網企業有效地解決了分布式、大規模、經濟性、可用性及管理類等諸多問題,也其中誕生很多優秀的中間件產品。這類技術從本質上將是基于數據庫產品之上,通過增強、擴展器能力解決原有數據庫有所短板的應用級解決方案。雖然其中會用到一些數據庫實現技術,但從本質上講并不是一個數據庫系統。1 15 5.2.2 中間件發展現狀分析中間件發展現狀分析從中間件產品
299、發展來說,目前仍處于一個快速更新、快速發展的階段。隨著數字化轉型深化,企業對底層數據基礎設施提出了更高的要求。中間件產品位于底層基礎設施與應用系統之間,起到很好地承上啟下作用。伴隨著云計算、大數據、物聯網、數據治理等各類新興技術的快速發展,中間件產品的應用范圍和功能被快速擴大,并由于中間件產品的兼容性、共性支撐等核心價值點,其產品價值得以快速提升,并被賦予重要的產業價值。(1 1)中間件商業發展空間中間件商業發展空間從市場側表現來看,中間件市場呈現穩定高速發展中。下圖來自計世資訊2021-2022 年軟件基礎設施(中間件)市場發展趨勢研究報告數據,在 2021 年國內中間件行業市場總體規模達到
300、 88.7 億元,同比增長 11.7%。整體來看,過去幾年雖然由于疫情等原因,實體經濟對中間件投入有小幅放緩,但中間件的市場規模仍然保持了 10%左右的增速。圖 2:2019-2021 年中間件市場總體規模-104-(2 2)中間件賽道資本投入)中間件賽道資本投入從資本層面上看,來自于中間件的項目頗受資方認同,一大批以開源項目為代表的中間件產品融資走向商業化。這其中包括:2021 年 2 月,網關中間件 Apache APISIX 背后的開源商業化公司“支流科技”宣布完成百萬美元 Pre-A 輪融資。2021 年 5 月,數據庫中間件 ShardingSphere 團隊成員組建的商業公司“Sp
301、hereEx”完成數百萬美元天使輪融資。2021 年 10 月,基于 Apache Pulsar 的初創企業 StreamNative 宣布獲得 2300 萬美元 A 輪融資。2021 年 11 月,面向 IoT 與 5G 場景消息與流處理的開源基礎軟件供應商 EMQ 宣布完成 1.5 億人民幣的 B 輪融資。從海外來說同樣如此,例如 2021 年 6 月,消息系統 Apache Kafka 背后的公司 Confluent在納斯達克上市。Confluent 在 2020 年 4 月的最后一輪風險投資中估值為 45 億美元,一年后在上市首日估值超過 100 億美元等。(3 3)數據庫中間件發展)
302、數據庫中間件發展具體到數據庫中間件賽道,行業整體呈現一家獨秀的局面。如下圖是根據第三方平臺-墨天輪收集的數據庫中間件得分對比。以 Apache ShardingSphere 及對應公司 SphereEx 公司的商業產品,表現尤為突出;此外幾家來自于互聯網公司的中間件產品也在發展中,但相對有些滯后。圖 3:墨天輪中間件流行度排行榜得分-105-1 15 5.3.3 數據庫中間件數據庫中間件發展趨勢發展趨勢數據庫中間件,自誕生以來,早期更多是用來解決來自互聯網、電商平臺的業務規模問題。其核心能力定位于解決大規模的數據分片問題。因此也誕生了一大批開源數據庫中間件,很好地解決了企業問題。伴隨著近些年來
303、數據庫碎片化的趨勢,這其中部分產品很好地迎合了這一發展趨勢,不再拘泥于單一業務、單一功能,而是快速擴展其功能外延。提供諸如數據安全、流量治理、接入網關、異構混算等能力,逐步將數據庫中間件平臺打造為企業的數據基礎服務,形成所謂的“OneDB”的概念。滿足企業對異構數據庫乃至異構數據基礎平臺的統一納管、治理、服務的訴求。相信作為中間件家族的核心產品,數據庫中間件未來將在業務化、一體化、云化、標準化、插件化方面繼續發展,作為企業數字基礎設施的核心關鍵組件。1 16 6.數據庫數據庫兼容性兼容性從中興、華為等一系列高新科技企業被美國制裁,到俄烏沖突事件爆發后,西方各國相繼宣布制裁俄羅斯,以 Oracl
304、e、IBM、微軟、SAP 為代表的科技巨頭暫停在俄服務,這一系列動作敲響了加速國產化替代的警鐘。數據庫作為提供數據存儲與處理能力的基礎軟件,是信息系統的基礎、信息安全的基石,因此,數據庫自主可控和國產化替代已經刻不容緩。Oracle 數據庫發展較早,在國內市場內占領了一定先機,企業經過信息化的長期積累和革新,基于 Oracle 開發了大量的系統業務。為了能夠適配新的國產數據庫產品,必須對應用代碼進行大量修改,各數據表的數據類型、函數、語法規則需要進行系統、全面的改造,這就要求新的國產數據庫對 Oracle 數據庫能夠有很好的兼容性支持,降低遷移的代碼改造成本。而中國信通院數據庫發展研究報告中表
305、示,“國內關系型數據庫產品中多數是基于 MySQL 和 PostgreSQL 二次開發的”。因此,這些產品對 MySQL、PostgreSQL 兼容性較好,但沒有體系化的兼容 Oracle,尤其是 PL/SQL 方面。體系化的兼容 Oracle,首先要關注 Oracle 的重點功能。以 Oracle 12c 版本為例,主要功能包括:多租戶、RAC、Data Guard、備份和恢復、在線對象重建、FLASHBACK、自動負載管理、結果集緩存、內存引擎、安全加密和審計、存儲過程、管理調優和測試工具、分區表、OLAP、壓縮、并行處理、數據復制、全文索引、空間數據、XML 等??梢詫?Oracle 的
306、這些能力分為以下幾類,以此實現對 Oracle 的體系化兼容:1 16 6.1.1 數據語法兼容數據語法兼容兼容 Oracle 數據庫的數據類型,其難點一方面在于對 Oracle 特有的數據類型的支持,例如ROWID 和 ROWNUM,需要國產數據庫廠商對此進行兼容開發改造。另一方面就是相同數據類型的不同定義,比如 Oracle 中的 Date 類型可以精確到時分秒,而其它數據庫則是精確到年月日。-106-為了兼容這種差異,一般是通過提供兼容性開關,開啟 Oracle 兼容開關后,將用戶定義時寫的Date 類型在底層轉換成例如 Timestamp 的類型,可以直接精確到秒級。兼容 Oracle
307、 數據庫的語法,這方面需要投入大量細致的工作,以提高語法的兼容覆蓋度。一類是對 Oracle 特有語法的支持,例如 Merge into 可以將兩個表進行合并,國產數據庫需要通過封裝其它方法盡可能高效率地實現該語法的功能。另一類是 Oracle 語法的差異,例如很多數據庫支持對存儲過程的實現和調用,而 Oracle 支持三種形式調用存儲過程:call 加存儲過程、exec加存儲過程、直接調用存儲過程,需要對這類語法差異進行兼容改造。1 16 6.2.2 核心功能兼容核心功能兼容Oracle 的開發設計中會采用 PL/SQL 來完成內核之外的功能,也會應用現有的 PACKAGE 來實現業務邏輯。
308、國產數據庫需要實現 PL/SQL 的結構、基本語句、子程序、觸發器、異常等語法,并覆蓋常用的 PACKAGE 內容,以實現對 PL/SQL 功能的兼容。在實際使用中,Oracle 的 PL/SQL還會承載復雜的業務邏輯,因此對復雜 PL/SQL 的高效執行也是該功能可用性的關鍵點。此外,Oracle 的主要功能還包括對數據庫對象的創建和管理,Oracle 的主要數據對象有表、約束、分區、視圖、索引、同義詞、外鍵、觸發器等。國產數據庫廠商需要對比這些數據庫對象和自身的差異,一方面需要對數據庫對象實現全面覆蓋,另一方面需要關注這些對象的特性和限制,以及執行時的效率。1 16 6.3.3 運維管理兼
309、容運維管理兼容Oracle 為了方便運維管理做了多種視圖,需要對常用的視圖和運維命令進行兼容,包括 all視圖、dba 視圖、user 視圖等。此外 Oracle 提供了豐富的運維工具,如功能強大的 Oracle Enterprise Manager 運維平臺,其提供了多種可視化的運維功能包括備份恢復、高可用管理、存儲管理、性能分析和優化、安全管理、監控告警等,需要國產數據庫廠商在自身的運維系統中實現這些功能,保障實際業務生產中數據庫可運維性的兼容需要。1 16 6.4.4 業務能力兼容業務能力兼容對業務能力的兼容往往是容易被忽略的。比如一條相同的 SQL 在 Oracle 下正常執行,但是業
310、務遷移到國產數據庫后,由于優化器執行器的差異,這條 SQL 產生了低效率的執行計劃,性能差需要業務手動對 SQL 進行改造。類似的情況,差異還可能是由國產數據庫自身引入的,比如需要指定 Shardkey、需要創建主鍵和全局索引,這些差異的引入都可能會導致業務能力上的不兼容,因此需要提供遷移工具負責將 Oracle 里的字段類型和對象自動轉換成國產數據庫的對象。-107-此外,由于不同數據庫的架構和部署方案的差異,比如 Oracle 的 RAC 架構提供了高可用的能力,需要國產數據庫廠商提供替代的高可用能力的兼容性方案。從容災的角度考慮,最好能提供國產數據庫和Oracle 之間的異構數據庫同步能
311、力,既可以在業務遷移切換的過渡環節提供安全性,也能在業務平穩運行后提高系統的容災能力。1 16 6.5.5 生態工具兼容生態工具兼容驅動是應用程序訪問數據庫的接口,它與編程語言密切相關,對于 Oracle 支持的多種數據訪問接口包括 OCI、OCCI、ODBC、JDBC、.NET、OLE DB、Python、PHP 等,國產數據庫廠商應支持多種數據庫訪問接口,兼容 Oracle 開發生態。在實際的業務使用中還會用到各類數據庫相關工具,例如性能測試工具、可視化開發工具、數據導入導出工具等,因此國產數據廠商需重視產品生態工具的建設,降低 Oracle 用戶使用的門檻。星環科技分布式交易數據庫Kun
312、DB高度兼容Oracle語法,支持VARCHAR2/NVARCHAR2、NUMBER 等全部常用數據類型,支持控制語句、集合、動態 SQL、子程序、預定義包、錯誤處理等全部PL/SQL語法。并通過自研創新的過程語言編譯技術及中間優化語言TIR,支持復雜PL/SQL程序,執行性能比解釋執行提升一個數量級。圖 1:星環自主原創PL/SQL編譯器原理-108-在 Oracle 數據庫對象、DML、函數、系統視圖、內置包、驅動等方面,KunDB 做到了常用功能的兼容,滿足大部分業務的遷移需求。此外,KunDB 適配 Oracle 應用開發生態,支持基于Oracle 的業務直接或者通過中間件框架連接 K
313、unDB,包括 Java、.NET、C/C+等語言開發的應用,尤其是針對 C/C+應用提供兼容 Oracle 的 OIC/OCCI 驅動,來保障業務的平滑遷移。KunDB還提供了開放的數據生態,通過全局事務日志可與異構系統實時同步,可應用在實時數倉建設、Oracle 和 KunDB 雙數據庫系統并軌運行回切等場景。圖 2:星環KunDB數據庫兼容情況三、中國數據庫標準現狀三、中國數據庫標準現狀1.1.國內數據庫行業發展簡述國內數據庫行業發展簡述我國的數據庫(在本文中,數據庫系統管理軟件簡稱為“數據庫”)行業經歷了理論化、市場化、自主化三個階段,分別是基于上世紀八十年代國家工程開啟的理論化實驗室
314、階段,上世紀九十年代末本世紀初伴隨改革開放和信息化建設興起的數據庫市場化階段,近五年由于“科技戰”和“貿易戰”帶來的產品自主化階段。在不同的歷史階段中,人們對數據庫的認知有較大變化:早期數據庫作為與戰略研究和載人航天等項目并列的高尖端項目,在高校和科研院所中萌芽;隨著時間推移,我國加入 WTO 開啟市場化經濟后,信息化建設起步。引入了國外較為先進的信息化路線和軟件使用方式后,數據庫被認為是信息系統底層最重要的支撐基礎軟件并以商品的方式進行市場化。在此階段,選用國外成熟數據庫軟件產品是信息化建設的主要路線;近期,受國際形勢劇烈變化影響,我國各行各業對基礎科學-109-和數據管理的安全性及技術連續
315、性提出了較高的要求。數據庫作為“基礎軟件皇冠上的明珠”,其核心技術的自主性和可迭代性的需求是行業演進的首要方向。2.2.數據庫標準概況數據庫標準概況標準是人們對重復性的事、物、概念做出的統一規定,在國家標準 GB/T 20000.1-2014標準化工作指南 第 1 部分:標準化和相關活動的通用術語中,標準被定義為:“通過標準化活動,按照規定的程序經協商一致制定,為各種活動或其結果提供規則、指南或特性,供共同使用和重復使用的一種文件?!薄皵祿臁痹缙谑亲鳛橐粋€非計算機術語被提出的,直到上世紀六十年代才被具象化為“數據庫管理系統”一款計算機軟件。經歷了短暫的層次模型和網狀模型階段后,數據庫于 19
316、70年被 E.F.CODD 在A Relational Model of Data for Large Shared Data Banks一文中正式過渡為關系模型,并經歷了漫長的探索和實踐才形成了標準。3.3.國外數據庫標準發展及現狀國外數據庫標準發展及現狀3.13.1 國外數據庫標準化背景國外數據庫標準化背景在 E.F.CODD 定義了關系型數據庫的特征后,人們紛紛以當時先進的軟硬件技術開始研發基于計算機的數據庫軟件,其中 IBM 公司作為早期的研發主力,除了開發出了第一款關系型數據庫原型軟件 System R 外,還定義了針對該軟件的“結構化的英文查詢語言(Structured Engli
317、shQuery Language)”即 SEQUEL(1973),后續改名為 SQL。在后來的近 10 年間,IBM 并未在關系型數據庫中投入過多精力,直到 1970 年末期?!瓣P系軟件公司(Relational Software,Inc.)”,即后來的 Oracle 公司,開發出了一款基于 SQL 語言的關系型數據庫軟件,并轉售給了美國軍隊,后又在 1979 年基于 VAX 計算機開發出了商業版的 Oracle v2.0 并大獲成功,開啟了關系型數據庫的商業化時代。此時,IBM 才開始研發基于 System R 的 SQL/DS、DB2 等關系型數據庫軟件,并與 Oracle 同臺競爭。不過
318、,無論是 Oracle 還是 IBM 都基于 SQL 語言來操作各自研發的數據庫,這也為后面 SQL 語言的標準化奠定了良好的基礎。3.23.2 國外數據庫標準化依據國外數據庫標準化依據從國外的數據庫演進路線可以看出,各家數據庫企業研發出的關系型數據庫產品已經從事實上遵從了A Relational Model of Data for Large Shared Data Banks中提出的關系型數據庫12 條準則,包括信息準則、保證訪問準則、統一的數據子語言、數據的物理獨立性、數據邏輯獨立性、數據完整的獨立性、分布獨立性等。其中“統一的數據子語言”準則的具體含義是:一個關系數據庫管理系統可以具有
319、幾種語言和多種終端訪問方式,但必須有一種語言,它的語句可以表示-110-為嚴格語法規定的字符串,并能全面的支持各種規則。這條準則就提供了讓數據庫的查詢語言標準化的前提-通用性和重復性。3.33.3 國外數據庫標準化體系國外數據庫標準化體系經過近 10 年的商業化實踐,數據庫的架構、實現在不停演進,但是 SQL 語言則被固定了下來,于 1986 年被 ANSI 組織采納并作為通用標準,命名為 SQL-86。次年,ISO 組織將其列為國際標準并囊括在 ISO/IEC JTC 1 的信息技術版塊中,取標準號為 ISO/IEC 9075。自此,SQL 語言正式被列為數據庫的國際標準。具體來看,SQL語
320、言歷經了SQL-86、SQL-89、SQL-92、SQL:1999、SQL:2003、SQL:2006、SQL:2008、SQL:2011、SQL:2016 等版本的迭代。從 SQL-86 的單獨標準擴充到 SQL:2016的 9 個系列標準,SQL 語言在不斷完善中,下圖列出了截止 2022 年 12 月份,首次出現的 SQL系列標準的時間和版本:圖 1:SQL語言標準發展歷程除了 ISO/IEC 9075 的 SQL 標準外,還基于此衍生出了 ISO/IEC 13249 系列標準用于定義SQL 多媒體和應用程序包。其目的是統一典型的訪問數據庫的應用程序,如文本、圖片、數據挖掘和空間數據。4
321、.4.國內數據庫標準發展及現狀國內數據庫標準發展及現狀4.14.1 國內數據庫標準化背景國內數據庫標準化背景我國數據庫相關標準起步并不算晚,早在 1991 年機電十五所對 ISO/IEC 9075:1989(SQL-89)進行了采標,編撰了 GB/T 12991-1991信息處理系統 數據庫語言 SQL。但遺憾的是,國內數據庫行業在接下來的一段時間中仿佛失去了活力。從 1991 年至 2006 年的 15 年間,國內沒有一家機構或者單位進行過數據庫方面的國際標準采標或者原創標準的編制,GB/T-111-12991-1991 也是在 2008 年才進行了第一次更新,替換為了 GB/T 12991
322、.1-2008 信息技術數據庫語言 SQL 第 1 部分:框架。在當時,SQL 國際標準已經迭代了 3 次,系列標準也擴充到了 14 部分,最重要的規定 SQL 語法(Syntax)的 ISO/IEC 9075-2 標準至今并未采標發布。我國數據庫安全方面的標準也是在 2006 年才首次制定(GB/T 20273-2006信息安全技術 數據庫管理系統安全技術要求)。早期由于我國對數據庫產品研發、理論研究以及相關標準編撰制定的不重視,極大影響了目前的數據庫市場的自主性和原創性。4.24.2 國內數據庫標準體系國內數據庫標準體系國外市場相對成熟和固化,數據庫使用方式相對自由,數據庫使用者對數據庫產
323、品的實現方式和原理并不是很關心,所以標準體系聚焦在數據庫的使用與訪問層面(SQL 語言)。國內數據庫起步較晚,從產品成熟度和使用者信任度來說并不能完全匹配市場要求,所以我國的標準規范要求更聚焦在數據庫產品本身(技術要求與規范)。國內目前的數據庫方面標準呈現多而散,體系化弱的態勢。具體來看,截止 2022 年 12 月份,國內已發布數據庫標準分類(關系型)及歸口組織如下圖所示:圖 1:國內數據庫標準分類(關系型)及歸口組織總結來說,國內標準體系呈現如下的狀態:基礎標準時效性不足基礎標準時效性不足對標國外數據庫標準體系,國內數據庫的基礎類標準(國標、行標)更新和修訂頻率較低,除了安全類的數據庫技術
324、要求外,SQL 標準、術語標準等已超過 10 年未更新。-112-標準耦合性較高標準耦合性較高國內的各個團體編制的標準耦合性過高,不同的數據庫標準規范有大量重復要求。雖然業界對數據庫的應用場景存在不同訴求,但是標準的編制應該更多從技術通用性出發,例如 ISO/IEC9075 的 SQL 標準可以覆蓋到所有使用 SQL 語言的數據庫。配套標準較少配套標準較少數據庫是一款商品化程度較高的產品,除了對產品本身的技術要求外,還需要對數據庫的訪問(接口)、同步、遷移等進行規范性要求。5.5.國內數據庫標準發展方向及建議國內數據庫標準發展方向及建議5.15.1 基礎標準編制和修訂從快基礎標準編制和修訂從快
325、國內數據庫產品技術要求、檢測規范、術語定義、接口規范等基礎類標準滯后、匱乏,導致如果想編制更多的外部標準和流程規范標準無標可依。建議建議:統一各個數據庫編制團體的力量,先對陳舊標準進行修訂。如果有基礎類的國際標準優先進行采標。5.25.2 標準編制有的放矢標準編制有的放矢標準的目的是規范市場,引導市場。首要是明確標準的讀者和適用者,然后分析讀者的市場需求,再將需求轉化為行業通用的標準條款或者說明,最后編撰標準引導和規范市場。國內目前有不少標準的編撰出發點是“為標準而標準”,需要提高標準編寫者的覺悟。建議建議:把標準條款以“解決問題”的方式進行梳理,如果出現條款或者乃至整個標準不具備解決具體市場
326、問題的情況,這一類標準應該杜絕。5.35.3 技術型標準人才培養技術型標準人才培養國內數據庫標準編制方面的人才較為欠缺,從廠商角度來看,大部分企業更關注技術和市場本身,不太具有將其抽象成較為通用標準的能力,也對標準的意義與標準的撰寫方式較為陌生;對標準機構來說,數據庫屬于門檻較高的基礎軟件產品,不僅僅涉及技術,還涉及市場或更多因素,所以可能難以把控標準的適用性與通用性。建議建議:由企業或者有標準化需求的單位組織技術人員或者解決方案專家培訓標準撰寫的相關能力,了解標準體系、標準意義等。-113-四、四、數據庫數據庫服務服務及及智能運維智能運維1.1.數據庫服務數據庫服務1.11.1 數據庫服務的
327、過去、當下與未來數據庫服務的過去、當下與未來數據庫是支撐企業信息化發展的核心技術之一,信息化的高速發展離不開數據庫的高效運行與安穩易用,但確保數據庫系統的高效運行也是一項較為專業的技術需求,因此,數據庫服務一直以來都是眾多企業、用戶的重要需求之一。在國內信息化高速發展的近三十年內,商業數據庫 Oracle 在國內一直作為眾多企業信息系統的重要支撐,其穩固、安全、易用、高效等特性已經被認可,與此同時,MySQL 數據庫作為互聯網行業發展的重要支撐也已經被廣泛應用,這些商用、開源數據庫經過這些年的發展與沉淀,已經成為國際上眾多數據庫中實力強勁的一員。但眾所周知,即使是站在數據庫領域的頂端,這些數據
328、庫也仍然存在著很多運維、運行方面的問題,需要大量專業的服務支撐,以保證其能夠真正的高效運行與安穩易用。在國產數據庫高速發展的當下,越來越多的企業開啟數據庫國產化之路,而在這個過程中,無論是原有數據庫的快速替換,還是各種新型數據庫的運維支撐,都產生了大量的專業服務需求和人才需求,數據庫服務也成為擺在企業面前的重要問題。事實上,Oracle 之所以在全球取得數據庫強者的市場地位,并不是僅僅是依賴其技術能力,人才與服務支持在其中起著關鍵的作用。截至目前,只要是成功的數據庫,無論是 Oracle、MySQL 或者 PG,在技術上都會采取開放的策略,通過數十年技術、知識、經驗的傳播,培養大量的技術人員、
329、技術愛好者、社區力量和生態環境,使第三方技術公司具備了提供相關數據庫服務的能力,構建完整“產品-服務-人才”的生態鏈,從而強力的支撐了企業的數據庫服務需求。生態的繁榮使得市場上有大量熟悉數據庫的開放人員和運維人員,各種技術問題可以通過社區、群組討論等方式形成技術熱度與成熟解決方案,這也使得企業在選型時更偏向于尋找熱度高,成熟度好,技術儲備充足的數據庫。這種完整生態的構成對數據庫本身和產業的發展起到很強的推動作用。對于當下的國產數據庫產業而言,生態問題同樣無法繞開,事實上,相比于成熟的商業數據庫和開源數據庫,國產數據庫更需要重視生態,特別是服務體系與人才體系的完善與充實。在近幾年,數據庫國產化的
330、步伐越來越快,這種急迫性進一步倒逼了對服務市場的迫切需求。需要知道的是,國產數據庫的使用不但不會降低技術服務的門檻,反而會大幅增加企業對于服務的依賴。首先,由于數據庫本身能力的差異,國產數據庫的使用往往需要引入更多的服務器數量,特-114-別是當采用了分布式架構的數據庫后,其數據庫環境與架構復雜度大幅增加。無論從需求數量上看,還是從運維難度上看,國產數據庫都會使運維支撐服務的工作量和難度大幅增加;其次,從供給側看,熟悉國產數據庫并具備基本數據庫服務能力的技術人員相對匱乏,成熟的解決方案與技術資料也很難獲取,這使得企業在選擇國產數據庫之后,在后續服務上有很大的缺口急需填補。1.21.2 服務服務
331、+的強需求的強需求在當下,在國內企業面臨數據庫選擇時,很難將單一數據庫的選擇作為企業信息化發展的決策,因此,同時采用多種國產、開源數據庫作為企業信息系統的支撐已經是普遍共識和行為。無論企業使用日益成為趨勢的云上數據庫,還是保持原有的服務器模式部署數據庫,都會存在多種數據庫并行運維的情況,這也進一步增加了服務深度、服務廣度、服務專業度等多維度的需求。以上種種表明,對于多種數據庫并存共用的企業而言,不但單一數據庫服務的專業需求在增加,而且需要能夠同時支撐多種數據庫的服務需求。目前國產數據庫生態還未健全、技術人才嚴重不足的情況下,單純的人力服務已經無法適應和滿足企業的需求,必須采用更為有效且具備一定
332、自動化處理能力的方式來實現數據庫的專業服務。因此,當國內數據庫產業的多元、異構、國產、開源成為必然的趨勢時,伴隨而來的,也就是數據庫服務形態的轉換,數據庫服務將從單純的人工服務,逐漸轉向新的服務+方式,即自動、智能數據庫服務平臺+高專精服務專家的模式,形成類似 8+2 模式的支撐體系,即八成以上的運維支撐僅需自動化平臺,剩余兩成的專業需求(如架構規劃設計、選型、優化、疑難問題處理)由專業人員支撐。實際上,無論是云數據庫廠商還是傳統數據庫服務商,都已經開始構筑能夠提供自動化、智能化、多元數據庫支撐的數據庫運維平臺。在此趨勢和背景下,以實現數據庫全生命周期管理的標準化、自動化和智能化為目標,構建一
333、站式數據庫管理平臺已成為未來國內數據庫產業發展和企業數據庫服務的剛需。標準化作為多元異構環境下統管統控的基礎,以業界最佳實踐作為理論依據和落地準則,從管理模式、管理架構、管理功能、資源供給、訪問權限等多方面實現統一化和標準化,屏蔽多元異構下各類型數據庫所帶來的管理上的差異,并通過標準化在平臺內以模版、流程、權限等方式的落地,實現數據庫運管制度和規范的軟件化,徹底解決了原來有規范但難保持、難核驗的問題,為后一步深度的數據庫管理打造一個統一的標準底座。自動化是以軟件代替人工以極大提高效率和準確度的必備動作,也是數據庫管理能力的核心所在,在標準化的基礎上,通過自動化實現數據庫的自動部署、自動監控告警、自動巡檢、自動SQL 審核、自動高可用切換等高頻運維工作,區別于單一系統時的運管系統,復雜多樣的管理對象是對自動化最大的挑戰,要求數據庫管理平臺的構建者具備豐富的多類型數據庫運維管理經驗,-115-