《Gartner:原生分布式數據庫引領數據管理技術發展趨勢白皮書(17頁).pdf》由會員分享,可在線閱讀,更多相關《Gartner:原生分布式數據庫引領數據管理技術發展趨勢白皮書(17頁).pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、原生分布式數據庫 引領數據管理技術 發展趨勢 原生分布式數據庫正在成為企業核心系統升級首選2 2 原生分布式數據庫引領 數據管理技術發展趨勢 變化移動互聯網蓬勃發展根據中國工業和信息化部發布的2021年前三季度通信業經濟運行情況的 數據顯示,截至2021年9月末,三家基礎電信企業的移動電話用戶總數達16.4億戶。其中,5G手機終端連接數達4.45億戶,與2020年末相比凈增2.47億戶。與此同時,中國5G網絡建設步伐加快。截至9月末,移動電話基站總數達969萬個,同比增長5.7%,比上年末凈增37.7萬個。其中,4G基站總數為586萬個,占比為60.4%;5G基站總數115.9萬個,占移動基站
2、總數的12%。此外,三家基礎電信企業發展蜂窩物聯網終端用戶13.64億戶,比上年末凈增2.29億戶,其中應用于智能制造、智慧交通、智慧公共事業的終端用戶占比分別為17.5%、16.6%、22.4%,智慧公共事業終端用戶同比增長25.5%,增勢最為突出。隨著全球移動互聯網的快速發展,不僅帶來更多的終端數量,與此同時,基于移動互聯網將產生諸如智慧公共事業等更加廣泛的智能應用。人工智能類的非結構化數據應用(如:人臉識別等),需要強大的數據計算能力。傳統基于小型機的數據庫技術,難以滿足存儲和計算這些海量數據的要求,亟需新一代的數據處理技術來破解困局。移動互聯網的蓬勃發展不僅帶來豐富的業務種類(如:手機
3、購物、短視頻、移動社交等),而且明顯延長了業務服務時長(用戶隨時在線、隨時使用),這對數據庫系統的高可用提出了更加迫切的要求。OceanBase發布了原生分布式數據庫引領數據管理技術發展趨勢。由螞蟻集團提供的編輯內容與Gartner的分析結果相互獨立。Gartner的所有調研報告的版權均為Gartner,Inc.所有。2021 Gartner,Inc.保留所有權利。所有Gartner資料在本出版物中的使用均已獲得授權。使用或者出版Gartner的調研報告并不表示Gartner認可OceanBase的產品和/或策略。未經Gartner事先書面許可,不得以任何形式復制或分發本出版物。本出版物中 包
4、含的信息均取自公認的可靠來源。Gartner不對此類信息的準確性、完整性或適當性作出任何保證。并且不對此類信息中的錯誤、遺漏或不適當承擔任何責任,也不對此類信息的任何解讀承擔任何責任。此處表明的觀點隨時可能更改,恕不另行通知。雖然Gartner調研報告可能會討論相關的法律問題,但Gartner并不提供法律建議或法律服務,不應將其調研報告解釋為或用作法律建議或法律服務。Gartner是一家上市公司,其股東擁有的公司或基金可能與Gartner調研報告中涉及的實體有財務利益關系。Gartner的董事會成員可能包括這些公司或基金的高級管理人員。Gartner調研報告是由其調研機構獨立完成的,并沒有受到
5、這些公司、基金或其管理人員的介入或影響。如需了解Gartner調研報告的獨立性和完整性的詳細信息,請參閱其網站上的“獨立性和目標的指導原則”。內容 原生分布式數據庫引領數據管理技術 發展趨勢 2Gartner研究:如何規劃最佳多云和跨云部署數據管理 11 關于OceanBase 173 Curabitur at nibhConsectetuer adipiscing elit tortor lacus nonummy purus數據量爆發增長,數據挖掘需求增加隨著5G及IOT技術的發展,以人工智能、區塊鏈、云計算、大數據、邊緣計算等代表的新型技術興起,全球聯網設備數呈穩定增長態勢,萬物互聯成為
6、 全球網絡未來發展的重要方向。物聯網的發展,將帶動面向企業(to B)的產業互聯網的發展,進而產生類似指數級的數據爆炸式增長。如何存儲這些數據?如何挖掘這些數據的價值?成為擺在企業IT管理者面前的一道難題。與此同時,移動互聯網的蓬勃發展帶來了更多的業務種類、更長的服務時間,這些都對數據庫系統的高可用性提出了更加嚴峻的挑戰。IT基礎架構上云解決算力和存儲問題隨著移動互聯網的業務發展和數據量的飛速增長,企業的IT基礎架構面臨 更多挑戰。不僅要存儲這些海量數據,還要挖掘、計算出這些數據所包含的知識和隱藏的價值。上世紀九十年代,企業的業務種類很少,數據量更少,使用傳統數據庫產生報表就能完成基本的數據處
7、理和分析工作;進入二十一世紀初,互聯網等業務種類開始增多,數據量逐漸攀升,開始使用數據倉庫對數據進行匯聚和 分析;近年來,隨著企業業務與移動互聯網的緊密結合,業務量和數據量迅猛增長,借助云計算架構解決存儲和算力方面的問題成為明智之選。借助云計算技術,企業的IT基礎架構可以彈性伸縮地進行并行計算,在保證安全性的前提下,提供了更高的可靠性以及更低的價格。企業數據上云成為趨勢根據Gartner統計,“數據庫管理系統(DBMS)市場在2020年出現了17.1%的強勁增長,主要是由云數據庫平臺即服務(dbPaaS)增長約50%所驅動。這意味著在2020年,超過90%的DBMS增長來自dbPaaS?!?
8、Gartner還預測,“到2022年,75%的數據庫將被部署或遷移到云平臺,只有5%的數據庫會考慮本地部署?!?云計算好比是發電廠,在供電的發展歷史中,最初每個企業自己使用發電機發電,不僅要購買柴油等燃料,還要維修發電機、變電站等設備,培養專門的發電人員等,成本居高不下。后來,發電廠誕生了,每個企業只需要拉根電線,就可以按照使用的電量進行付費,不需要再去購買設備、購買燃料,更無需考慮運維成本。在數據計算的市場上,也將面臨類似的演變過程。企業不用直接購買服務器等硬件,就可以直接使用計算資源,并根據其所使用的存儲和CPU等資源的量進行付費。云計算不僅能夠幫助企業降低計算成本,根據需求隨意擴展算力,
9、借助專業人才保障數據安全,及時更新各種工具軟件,而且還能更快獲得計算結果。某電信運營商的數據倉庫已經收集了超過600PB容量的數據,自2010年起該運營商就展開研究和試點,將這些數據逐步遷移到云數據庫平臺之上。企業數據上云,無疑是未來IT架構的主要發展趨勢。挑戰目前,在數據處理的過程中,企業正在面臨諸多困境:首先,傳統數據庫的擴展能力在集群節點數量等方面有很大的局限性,數據量增長之后如何擴展系統能力是一大難題;其次,數據分布在不同的業務系統中,如何打通這些數據進行整合亦是困難重重;此外,傳統的數據分析工具價格偏高,且軟件升級不及時,如何選擇數據分析工具來提升數據分析能力是大多數企業必須面對的問
10、題。傳統的數據(倉)庫系統已經無法滿足當下數據量急速增長的處理要求。例如,某運營商曾經購買知名廠商基于小型機的數據倉庫產品,單點超過10PB容量,已經達到了其在全球的傳統數據倉庫的最大存儲容量。雖然該運營商耗費巨資,但是傳統數倉的處理能力并不能保證線性增長,在處理大量非結構化數據方面,尤其是在深度學習算法的人工智能應用方面更是無能為力。于此可見,傳統數據倉庫難以滿足當下企業數據處理容量不斷增長的需求,同時,由于這類數據倉庫系統建立在小型機的基礎之上,成本遠高于X86機器,不具備性價比方面的優勢。1 Gartner:2 Gartner:4 擴展能力不足數據量增長需要相應的存儲和算力支撐,因此對擴
11、展性的要求更高。為了應對可預知的流量洪峰,企業的數據庫系統需要具備擴展后再收縮的能力。隨著業務的不斷發展,數據庫系統也要不斷擴展,及時跟上業務發展的需要。前期企業可以采用小成本投入的方式,不必準確預估業務的未來發展規模。但后期隨著業務的快速發展,勢必提出更多數據庫設備擴展能力方面的需求。例如:二十年前,某電信運營商的業務以2G為主,業務比較單一,數據倉庫容量僅有10TB,分析形式以報表為主;引入4G后,業務范圍擴展了政企對 公業務、視頻內容業務、公有云業務、物聯網業務等,數據容量已超800PB。該運營商應用的數據分析技術包括數據挖掘、深度學習算法等,分析內容覆蓋客戶、產品、網絡等領域的方方面面
12、,因此,對大數據系統提出了迫切的擴展性要求。傳統的數據(倉)庫系統,需要擴展小型機服務器,不僅成本高昂,系統擴展的瓶頸也會越發凸顯,無法提供與設備和能力對應的擴展曲線。數據孤島受制于傳統數據庫架構擴展性不足等缺陷,為了滿足業務需求,企業往往 需要采用多套不同類型的數據庫,導致業務數據分布在眾多業務系統的數據庫中,彼此割裂,合并困難,形成一座座數據孤島。數據孤島問題,不僅意味著數據管理困難,以及高額的維護成本,還有巨大的數據治理成本。在數據孤島面前,各個業務部門給出的數據定義口徑差異巨大,導致數據分析結果常常大相徑庭,因此,企業管理者常常無法得到準確的數據分析結果。某電信運營商構建數據倉庫系統的
13、初衷,就是為了整合各個業務系統的數據,形成企業級大數據中心,不僅要解決數據不一致的問題,通過數據各個維度整合更要發揮數據分析的顯著價值。例如:財務系統計算某個寬帶產品的收入,與計費系統計算該寬帶產品的收入情況對不上,根本原因是兩者的定義口徑不一致。數據整合之后,口徑統一,計算時段相同,其計算結果就能達成一致,降低了企業管理方面的數據困惑。分析能力欠缺隨著數據量的快速增加,數據分析能力顯得越來越重要。對于傳統的結構化數據而言,EXCEL報表足以滿足大部分人的使用需求。隨著競爭的加劇,數據挖掘等分析需求顯著增長。引入非結構化數據后,會對深度學習等人工智能算法提出更高的要求。這些數據分析需求,都會對
14、系統的算力提出更高要求。數據分析技術從傳統的數據庫,發展到數據倉庫,進而發展到原生分布式數據庫,數據處理能力也在逐步提升!2021年10月26日,中國信通院發布的2021-2022中國人工智能計算力發展評估報告指出:AI與云的融合是必然趨勢,預計到2025年,中國人工智能服務器公有云的占比將超過50%,預示了數據庫云化的發展趨勢。向公有云遷移困難企業在前期的信息化建設過程中,產生了很多以傳統數據庫為基礎的各類信息化系統,涉及多個業務領域。同時,很多企業或多或少地構建了自己的傳統數據(倉)庫系統。這些歷史形成的數據庫系統,向云數據庫遷移將十分困難。雖然云服務提供數據庫服務,但是對于多數企業而言,
15、為了保證產品交付的一致性,實現靈活的管理,無法使用通用數據庫,只能基于云基礎自建云數據庫,導致投入巨大。另外,很多企業在向云數據庫遷移的過程中,擔心被單個云產品綁定,導致后期云數據庫升級成本過高、工具綁定成本過高等一系列問題。企業進行數據遷移的成本將十分巨大,不僅涉及到數據模型的重新梳理,而且涉及業務合規性、數據安全性、系統兼容性等相關問題。從技術的角度出發,傳統數據庫的云遷移路線可以采用“私有云混合云多云”的實現路徑。國內的大型企業前期一般會采用私有云的模式,保障數據的安全性;中小企業后續會采用混合云(私有云+公有云)提升業務的擴展能力,降低系統投資的成本;最終,大部分企業會過渡到多云的環境
16、,從而降低自身信息化成本支出,快速適應業務領域的各種變化。5 從戰略發展的角度來看,企業現在就需要提前考慮云服務的遷移規劃,而原生分布式數據庫是目前為止數據庫系統理想的目標架構。某電信運營商,歷經近10年時間,才完成主要數據從數據倉庫到云分布式數據庫系統的遷移工作,期間涉及數據模型重塑、數據處理流程重建、業務系統改造、數據治理體系調整等各類繁雜的工作。趨勢對企業信息系統底層的基礎設施進行“云化”之后,給上層的數據庫系統 帶來了新的挑戰和機遇,只有更好地將底層資源池化、資源解耦的優勢發揮出來,才能給用戶帶來高可用、可拓展、彈性計算等方面的優勢。目前的云數據庫大多是基于開源軟件進行二次開發,企業在
17、遇到相關產品問題時,很難獲得持續的技術支持,后期的運維成本很高。市場上比較新的云數據庫雖然基于云原生進行存算分離,但仍屬于集中式數據庫“分庫分表+中間件”的模式,在向其遷移的過程中會涉及大量的應用軟件修改工作,而且同樣面臨著被云數據庫廠商綁定的風險。而原生分布式數據庫基于分布式理論設計,在構架之初就假定整個服務需要多個節點共同配合完成,并假設任意一個節點都不可靠。因此,原生分布式數據庫運行在多個數據節點之上,可配置多個數據副本,它采用一致性協議保證了全局事務的一致性,是適應云環境的新一代數據庫產品,為企業核心系統升級提供了更好的選擇。從市場反饋來看,原生分布式數據庫正在成為企業核心系統升級的首
18、選。高可用,可擴展原生分布式數據庫繼承了云計算的特點,具有多個數據副本,采用了share-nothing的技術架構,因此具有很好的異地容災能力。通過配置數據副本的存儲位置,實現機架級容災、機房級容災、以及城市級容災。針對金融監管要求的“兩地三中心”容災方案,利用原生分布式數據庫的架構優勢能夠輕松應對,并且做到數據無損失。增加和刪除節點是原生分布式數據庫的常規操作,只需要一條命令即可對數據庫集群的規模進行修改,滿足不同的負載需求。原生分布式數據庫支持按需增加節點,且無數量限制。得益于各個節點的對等性,數據庫集群的讀寫性能隨節點數量的增加幾乎呈線性增長。多地域,多部署形態原生分布式數據庫可跨地域部
19、署,同一數據庫集群的節點分別部署在不同地域,每個地域就近訪問數據。在提升性能的同時可滿足數據的跨地域容災需求,降低數據丟失的風險。作為面向企業級的數據庫產品,原生分布式數據庫的安裝部署不依賴特定的服務器硬件,既提升了硬件選配的靈活性,又能降低了硬件的選購成本。此外,原生分布式數據庫支持裸金屬安裝、私有云部署、混合云部署和多云部署?;旌县撦d在數據處理的分類中,有面向交易處理的OLTP(On-Line Transaction Processing)和面向分析處理的OLAP(On-Line Analysis Processing)兩種處理類型。受制于數據庫技術的革新未能跟上大數據分析的發展需要,交易
20、型系統和分析型系統走向了兩個不同的方向。目前,多數客戶使用兩套系統分別支撐交易系統與分析系統,不僅造成了大量的數據冗余,同時增加了系統的復雜度和運維難度。原生分布式數據庫使得兩者的融合成為可能,在同一套系統中同時支持兩種業務負載成為原生分布式數據庫的重要發展方向。面向混合負載的應用場景,原生分布式構架從以下幾個方面入手:大集群可擴展:原生分布式架構可以靈活拓展,動態分配資源,按需擴展集群的規模。集群的計算資源可以進行動態分布,從而改善整個分布式數據庫系統的負載情況。多樣的存儲形態:數據管理系統中始終存在數據的“行存”與“列存”之爭,即數據是按照“行”進行存儲還是按照“列”進行存儲。借助其多數據
21、副本的特點,可以將一份數據同時進行“行存”和“列存”,或者呈行列中間態存儲,后續根據數據操作的特點進行匹配,提升性能。借助向量化執行引擎:向量化執行引擎本質上是一種批處理模型。在高并發場景中,可以把大量的請求合并,改為調用批量接口。這種批處理減少了CPU的中斷次數,可以更加合理地利用資源。資源隔離:交易操作的實時性要求往往大于分析操作,分布式數據庫利用其節點間的資源隔離,以及進程間的資源隔離技術,有效解決了兩種負載的沖突問題。6 多租戶在互聯網和大數據的雙重推動下,業務系統變得更加多樣和復雜,無論是種類還是數量與從前相比都有顯著提升,這就需要大量的數據庫實例進行支撐。實例數量的增加意味著管理難
22、度更高,隨之而來的是管理成本的 攀升?!霸啤睍r代基礎構架的顯著特征之一是資源池化,從大的資源池中快速創建可用服務,按需擴展和收縮,才能滿足靈活的業務需求。資源池化能夠降低所管理的實體數量,同時增加服務的靈活性。多租戶是數據庫池化的有效解決方案。原生分布式數據庫能夠將一個大的數據庫集群按邏輯分隔成多個租戶,每個租戶等同于傳統數據庫的一個實例。集群管理員在創建租戶的同時,指定租戶能夠使用的硬件資源,在運行過程中可以對租戶使用的資源在線擴展和收縮,達到動態調節的目的。租戶間的數據訪問是完全隔離的,對應用程序而言,和使用傳統的單實例數據庫并無差別。如此,多個業務共用一套數據庫集群而互不影響,企業只需維
23、護少量的幾個集群就能滿足所有的業務需求,大大降低了管理成本和運維難度。云時代,多租戶特性是大型數據管理系統最重要的能力之一。透明兼容性大部分行業經過企業信息化的長期積累與革新,在企業內部積累了大量的業務系統。憑借數據庫的透明兼容能力,原有業務系統只需進行小幅修改,甚至無需修改,就可以運行在目標數據庫上。其透明兼容能力主要體現在 以下幾個方面:數據庫語法兼容,透明的分布式能力,以及透明的擴縮容 能力。傳統的企業級數據庫產品提供了強大的能力,協助開發者更加便捷地構建應用程序,但同時也導致應用設計過度依賴數據庫功能的問題。應用程序若要適配新的數據庫產品,必須對應用代碼進行大量修改,將原數據庫語法轉換
24、成新語法。作為新一代數據庫,原生分布式數據庫盡可能兼容當下流行的數據庫產品的語法和功能,包括其擴展編程能力,比如Oracle提供 存儲過程,觸發器,OCI,Pro*C等功能,MySQL也提供過程語言。有了強大的數據庫兼容能力,既有應用系統的數據庫代碼無需要修改就能輕松適配。原生分布式數據庫的每個節點都提供一致的讀寫能力,節點數量沒有上限,整個數據庫集群對外提供統一的服務,應用系統不用關注其內部結構,也無需進行分布式改造,和使用傳統數據庫并無區別。由于原生分布式數據庫屏蔽了分布式的復雜結構,能夠實現透明的擴縮容能力,因此使應用不受 影響。具備數據庫語法兼容、透明分布式和透明擴縮容能力的原生分布式
25、數據庫,把復雜結構留在了數據庫內部,為應用提供了極大的便利。7 案例案例1-中國工商銀行股份有限公司2020年9月,中國工商銀行的重要業務系統對公(法人)理財系統完成從大型主機到分布式架構改造,順暢運行在企業級原生分布式數據庫 OceanBase之上。對公(法人)理財系統是工商銀行的重要業務系統,支撐著企業客戶萬億級資產,此前一直運行在大型主機的架構之上。OceanBase為工商銀行搭建了橫跨“兩地三中心”的分布式集群,以“五副本+主備模式”提升系統的高可用水平,為業務連續性提供強力保障,并且在保證系統性能和穩定性的前提下有效降低了投入成本。案例2-中華聯合財產保險股份有限公司2021年初,中
26、華財險車險系統在全國27個省市區上線國產原生分布式數據庫OceanBase。此次系統轉型升級,涉及交易、運營和后臺等多個方面,涉及7個險種、100多個業務系統(包括25個核心業務)的重構,是保險行業有史圖1:“兩地三中心”架構資料來源:OceanBase以來第一次基于混合云模式構建核心保險業務系統。中華財險后續還將在農險、理賠等多個業務上線 OceanBase。借助螞蟻集團分布式架構SOFAStack+mPaaS+OceanBase的保險業務整體解決方案,中華財險全面提升IT基礎設施支撐能力,并實現RPO(Recovery Point Objective,復原點目標)=0,RTO(Recove
27、ry Time Objective,復原時間目標)30秒的機房級別容災能力。在遷移過程中,依托OceanBase的OMS(OceanBaseMigration Service,OceanBase遷移服務)數據遷移服務,中華財險業務系統的SQL程序幾乎無需改造,在保證“服務不停,數據不丟”的同時,最大化地降低了數據遷移的時間和成本,提升運行效率。其OMS遷移服務原理如下圖所示。8 案例3-中國移動通信集團山東有限公司中國移動山東分公司是OceanBase的重要應用客戶之一,是第一個在 核心計費系統中全部使用國內企業級數據庫解決方案的運營商,其基于 OceanBase原生分布式數據庫的核心計費業務
28、系統已于2021年5月正式 上線,是螞蟻集團自研數據庫在非金融領域的重要合作伙伴。以OceanBase為代表的新一代原生分布式數據庫無單點瓶頸,可線性、在線擴展和收縮,可以更好地解決業務擴展性難題。從主要項目的業務指標來看,自該系統上線后,山東移動計費系統處理效率明顯提升,詳單處理時長從7分鐘縮短至5分鐘,處理效率提升了30%;數據由原有的7T壓縮為0.7T,不僅降低了存儲投入成本,整體硬件和維保成本也大幅下降。通過在三個不同的物理數據中心分布式部署OceanBase的服務節點,組成了一個跨越多數據中心的分布式數據庫集群,實現RPO=0的機房級容災,從而具備了任一機房損毀而數據不丟失、數據庫服
29、務不間斷的原生容災能力。從實施效果來看,OceanBase基于Paxos協議和分區等技術整合多套分散系統,對多機房部署實現高可用和容災,因此業務遷移后不再需要搭建災備系統。通過OceanBase性能無損的數據高壓縮比,分區、讀寫分離、LSM等技術提升了OLTP事務效率;通過高兼容性和OMS遷移服務,保障了多個核心業務系統的平滑遷移,核心數據庫源系統數據類型、對象、存儲過程只需經過少量修改便能達成應用適配,僅在1小時內便完成了從原有數據庫系統到OceanBase原生分布式數據庫系統的切換,真正實現了一站式數據庫無損切割。為進一步節約成本,OceanBase數據庫使用普通PC服務器替代線下小型機+
30、集中式存儲等傳統架構,相比原有的架構幫助山東移動大幅降低了硬件 成本。圖2:中華財險系統架構資料來源:OceanBase9 OceanBase簡介OceanBase 100%自主研發,連續8年穩定支撐雙11,創新推出“三地五中心”城市級容災新標準,是全球唯一在TPC-C和TPC-H測試上都刷新世界紀錄的國產原生分布式數據庫,具備高可用、高擴展、高兼容、易管理、部署靈活、高性價比等特點,已助力400余家行業客戶實現核心系統升級。OceanBase數據庫可應用于關系國計民生的金融、政府、電信和能源等主要行業的核心業務系統。2020年10月2日,據權威機構國際事務處理性能委員會(TPC,Transa
31、ction Processing Performance Council)官網披露,中國螞蟻集團自主研發的原生分布式關系數據庫OceanBase,在被譽為“數據庫領域世界杯”的TPC-C基準測試中,打破了由美國公司Oracle(甲骨文)保持了9年之久的世界紀錄,成為首個登頂該榜單的中國數據庫產品。2021年6月1日消息,螞蟻集團100%自主研發的原生分布式數據庫OceanBase正式對外宣布開源,并成立OceanBase開源社區,社區官網 同步上線,300萬行核心代碼向社區開放。開源是基礎軟件走向成熟和通用的最佳途徑,同時也將創造更開放、更有活力的基礎軟件開發環境和人才培養環境,實現企業和開發
32、人員的雙贏。自創立至今,經過十一年的技術沉淀和打磨,螞蟻集團通過開源打造了一款大家都可以用的分布式數據庫,從而普惠更多的企業和個人開發者。從企業應用角度出發,OceanBase的五大典型特點值得特別關注:作為新一代原生分布式數據庫,較傳統數據庫產品更具“跨代”優勢;具有可靠性/安全性/一致性等顯著特點:提供跨域多個副本,借助Paxos協議保證了事務的一致性,實現跨地域無損容災,并在銀行和電信等行業擁有部署案例;通過開源其源代碼,降低了客戶的安全疑慮。圖3:山東移動系統架構資料來源:OceanBase10 具有OLTP與OLAP融合的數據庫優勢:通過大集群、高并發、向量化、資源隔離等技術,提供混
33、合負載解決方案。支持多租戶構架:可將當前多個數據庫實例,并入一套數據庫集群的多個租戶中,降低管理難度。透明高兼容:提供Oracle和MySQL兩種兼容模式;應用無需進行分布式改造;集群能夠在線擴縮容,不影響業務應用。在人工智能等技術突飛猛進、數據量飛速增長的大背景下,原生分布式數據庫是未來數據處理的發展趨勢,而OceanBase為企業級客戶提供了這樣一種經過行業市場實踐驗證的產品。目前,越來越多的企業選擇OceanBase作為核心系統升級的首選。資料來源:OceanBbase1111 如何規劃最佳多云和 跨云部署數據管理許多公司越來越多地使用多個云服務提供商,因此不應再將云基礎設施選擇作為事后
34、補救措施。數據和分析領導者可利用本調研報告規劃 多云和跨云部署,確保云資源得到最佳利用。概述主要發現 Gartner最近的一項調查顯示,在使用公有云的受訪者中,76%使用了多個云服務提供商(CSP)。通過使用可能不符合公司主要云戰略的其他廠商,通常即會系統性地出現多云架構。在云端監控使用情況和成本可能很困難,當使用多個CSP時,此類挑戰會進一步加劇。CSP產品的生態系統成熟度各有不同,需要類似于本地平臺的集成工作。在多云和跨云場景中使用時,還需考慮網絡延遲、數據傳輸問題和性價比優化的復雜性。獨立軟件廠商(ISV)通??商峁┰撇豢芍鉀Q方案,這對獨立的CSP服務構成了挑戰。建議對于計劃使用多個C
35、SP的數據和分析領導者:謹慎部署多云和跨云架構。不要限制多云的使用。制定云使用和部署政策,以防止使用 非戰略性云產品和出現不受控制的支出。使用云監控和優化工具(用于預算制定、資源 分配和延遲控制)追蹤不同云的使用情況,以避免不受控制的支出,并確定可能需要對其采取補救措施的架構痛點。根據用例的具體優化需求,選擇您的跨云或 多云部署層。這通常需要在優化與靈活性之間進行權衡。如果您正在考慮跨多個云主動集成數據,可以評估一下ISV產品,這些產品擴展了CSP本身所提供產品的廣度和范圍。在評估中,不要忽視新興跨云CSP的能力。戰略規劃設想到2023年,對數據管理的云偏好將減少廠商的規模,而多云的增長將增加
36、數據治理和集成的 復雜性。到2023年,云數據庫管理系統(DBMS)的收入將占DBMS市場總收入的50%。到2025年,50%的獨立DBMS廠商將停止運營,致使客戶調整戰略并遷移回其戰略性DBMS供 應商。前言多云和跨云數據管理部署很普遍:Gartner于最近的2020年7月和8月開展的云部署調查發現,在企業機構使用公有云的受訪者中,76%表示其公司正在使用多個CSP。1使用多個云部署選項會在性價比優化、資源分配、數據治理、元數據管理和數據集成方面面臨挑戰。區分“多云”和“跨云”的概念很重要,前者是指使用多個云環境,后者涉及主動在各個云之間開展數據管理、實時數據訪問、元數據訪問和數據傳輸(見圖
37、1)。有關云部署場景的進一步說明和完整分類,請參見注釋1以及了解云數據管理架構:混合云、多云和跨云。隨著公司使用的云服務提供商數量增加,管理這些提供商的復雜性也隨之增加。這可能會帶來負面影響,例如與數據延遲有關的性能問題、計劃外成本超支或數據輸出費用,以及數據集成難度。公司如何克服這些挑戰?Gartner研究:圖1:多云與跨云12 我們建議采取以下三點對策:制定深思熟慮的云部署戰略 追蹤所有云提供商的使用情況(包括支出)同時考慮以CSP為中心和以ISV為中心的方法分析精心規劃您的云架構與采用“統一戰略”進行部署的理念不同,多云和跨云架構正在系統性地逐漸成形,而這種現象越來越常見。根據Gartn
38、er最近的一項云部署調查顯示,63%的公司會使用由一個主要CSP提供的服務,同時也會使用其他云提供商提供的服務;13%的公司會使用多個提供商提供的服務并且沒有主要提供商。調查結果得出,76%的公司會使用多個云提供商提供的服務(見圖2)。雖然許多公司采用單一云提供商的戰略,但鑒于 以下因素,這些公司幾乎不可能嚴格遵循這一 戰略:許多公司都在使用SaaS產品,并借此創造了另一個具有獨立云基礎設施和數據持久層的封閉式云環境。云服務易于部署,可由業務部門而非集中的 IT部門加以實施,我們通常將這種部門稱為“影子IT”。隨著并購活動的發生,公司會繼承現有的基礎設施,從而導致不經意間使用多個云。其他CSP
39、的單點解決方案通常具有特定的優勢或功能。公司可能會決定使用一個由CSP提供的開發或可視化工具,而數據則來源于或駐留在另一個CSP中。隨著公司的任意部門開始使用次級CSP后,多云環境便會應運而生。這些公司可能還需要處理跨云數據管理問題,同時還存在一些關于跨云數據集成需求的具體問題。這些問題包括性能和延遲、數據治理(包括安全、加密和數據主權)以及財務治理問題。在跨云環境中,不僅財務治理更具挑戰性,而且肯定會產生數據傳輸費用??缭茢祿芾砩刑幱谄鸩诫A段,但隨著眾多公司發現自己身處多云環境,并根據具體情況尋求方法統一環境時,跨云數據管理可能會變得愈發普遍。WeLab即是出于監管方面的考慮而使用跨云的一
40、個早期例子,這是中國香港的一家數字銀行,其使用Temenos Transact和NuoDB在亞馬遜云科技和Google Cloud平臺上部署了核心銀行業務解決方案。2關于跨云數據管理普及程度究竟會發展到哪個階段,目前尚不明確。數據和分析領導者必須接受這一新現實,并制定政策以降低風險和復雜性。對于大多數公司而言,問題在于何時使用多個CSP,而非是否使用。盡管存在這些難題,但多云數據管理可確??煽啃?、成本效益和地理定位,并可降低因廠商鎖定而產生的風險。當效益大于復雜度時,公司便應采用多云部署。務必要注意,多云并不應是單獨存在的戰略,而應該成為公司整體云戰略的一部分。如果您公司的主要CSP不支持您所
41、需的數據管理功能,您可以使用次級CSP提供的服務,并考慮使用ISV,管理不同CSP之間的工作負載。如果使用次級CSP提供的服務所帶來的效益不明朗,領導者應注意優先使用主要CSP。默認情況下,任何新計劃都應圖2:多云基礎設施的使用情況1313 使用主要CSP提供的服務。如果使用非主要CSP提供的服務,您應在自己的預算范圍內采取這些計劃,并自行承擔風險,而且可能得不到公司的全面支持。領導者應該宣傳這種做法。對數據和分析領導者的建議:不要限制多云的使用。恰恰相反,應根據云使用和部署情況制定政策,確保經過深思熟慮后再做選擇。遵循首選的主要云提供商戰略,并要求提供使用非戰略性云資產的合理依據。設置新項目
42、的默認標準,確保使用主要云提供商。使用工具追蹤不同云的使用情況數據源和應用在不同云提供商之間分布得越多,對監控的需求就越大。數據和分析領導者應追蹤數據在數量和方向上的流動情況,因為這會影響延遲時間和性能。如果不積極主動地監控公司云資源的使用情況,則很容易造成超支。將先前在本地運行的工作負載改為在云中運行后,可能會導致成本激增。云服務的成本模型與本地服務的不同,前者將進一步加強了對強有力監控的需求。隨著更多的云提供商參與進來,各個云的復雜性迅速增加,而可見性則急劇下降。了解如何使用多個云提供商提供的服務非常重要,一些工具可幫助您直觀地感受這些云的性能和成本。相關云監控和優化示例工具包括:Appt
43、io Cloudability、Datadog、Densify、Novetta CloudTracker和VMware CloudHealth。數據洞察示例工具包括:Unravel和Acceldata。理想情況下,您需要監控不同云的支出和使用情況。此外,數據流與業務流程、數據創建速度、數據的使用/重復使用方式,甚至地理區域都有內在聯系。監控不同云的使用情況有可能會發現效率低下的問題,您應該循序漸進地修復這些問題。這也是關注元數據的好機會,因為其可助您深入了解數據資產之間的關系以及數據在整個公司中的使用情況。對數據和分析領導者的建議:制定有關追蹤多個云的支出和使用情況的政策。此舉將有助于了解云資
44、源的使用情況、不受控制的支出情況以及非戰略性云產品的使用情況。實施監控工具以管理多個云的資源消耗情況,減少成本超支。使用單一管理平臺監控工具,確保遵循數據治理和安全政策。使用CSP產品作為您的數據管理平臺CSP基礎設施及在其上運行的服務是全新的數據管理平臺。這些平臺由以下部分組成:支持基礎設施即服務(IaaS)計劃的一般基礎設施。公共服務層,例如可用于實施數據管理的 云對象存儲,管理對象則為諸如平臺即服務(PaaS)的跨云服務。為滿足特定需求而設計的原生CSP孤立點解決方案,例如數據庫平臺即服務(dbPaaS)。在云基礎設施上運行的第三方ISV單點解決 方案。CSP側重于在原生CSP環境中管理
45、數據,但其近期在推動更多地納入本地基礎設施,并對將數據管理功能擴展到其他云的興趣與日俱增?;谌萜鞯姆椒ň捎没旌显坪投嘣品椒?,例如Amazon EKS Anywhere、Microsoft Azure Arc、Google Cloud Anthos和IBM Cloud Pak for Data,使企業機構能夠將本地數據連接到其CSP,并管理本地或其他云中的數據基礎設施,甚至可以訪問其他云中的數據。借助這些服務,公司能夠在同一地方管理其所有數據,包括常見的安全和治理政策、監控、彈性伸縮和現代化的持續集成/持續交付(CI/CD)工作流。CSP提供的云服務可擴展到本地環境中,從而打造統一的現代數據
46、管理平臺,而無需再管理單獨的本地環境和云環境。通常由數據集成廠商提供的數據虛擬化工具是公司實現跨云架構訪問、集成和共享數據的另一種方式。此外,許多CSP也在以云數據生態系統的形式 提供更加統一的數據管理體驗。這些舉措旨在統一大多數CSP提供的眾多單點解決方案,將“需自行組裝”體驗轉變為統一的單一產品體驗。云數據生態系統的早期相關示例包括:Microsoft Azure Synapse Analytics、IBM Cloud Pak for Data、Oracle Cloud Infrastructure的Autonomous Database和Google Cloud Dataple。當集成位
47、于多個云中的數據管理環境時,集成的客戶端終結點將歸入數據管理堆棧內的三個組件中(見圖3)14 在數據管理堆棧中,這些層分別為:對象存儲層 這是最為大眾所了解的與數據相關的層 每個云中的每項數據服務都可對本地云對象存儲作讀寫數據操作,無論其為原生CSP產品還是第三方ISV產品:如果數據能在這一層有效地分布,則幾乎可以根據用例選擇任意云服務以交付此類數據。因此,使用云對象存儲可極大地提高靈活性。理想情況下,這些解決方案應能夠管理復制哪些數據以及復制到何處,并通過僅移動已更改的數據執行優化措施,以避免不必要的輸出成本。相關示例廠商包括:Equalum、HPE Ezmeral和WANdisco。DBM
48、S層 利用分布式DBMS(可創建分布在云間的邏輯集群)提供額外的優化。然而,由于使用單一廠商可能無法處理所有用例,因此該層缺少靈活性。DBMS層包含可跨多個云,按地理位置不同實施分布式集群的數據管理平臺:由于實體數據中心之間的距離,對于跨多個云的數據,在DBMS層執行跨云數據管理的主要問題可能是延遲和一致性問題。不過,這些架構可同時支持局部讀/寫功能與全局讀取功能,并強制執行數據主權政策。相關示例廠商包括:Apache Cassandra/DataStax、CockroachDB、MongoDB、NuoDB和YugabyteDB。應用層 包括跨云查詢數據或訪問數據所需的組件:在應用層執行跨云數
49、據管理的最大問題可能是數據延遲和性能問題。由于此原因,針對此層,大部分情況下會在此部署某種緩存層。對于這種方法最準確的描述為將數據集成推遲至用戶使用時。這 方 面 的 示 例 包 括 數 據 虛 擬 化 工 具(如Denodo)或商業智能查詢引擎(如Microsoft Power BI)。而另一個示例便是SAP,其業務流程分布在不同的云中并 通過應用實施互操作。例如,在中國,其供應鏈在阿里云上運行,在北美則是 在亞馬遜云科技(AWS)上運行。對數據和分析領導者的建議:考慮使用CSP提供的服務,如Microsoft Azure Arc、Google Cloud Anthos、IBM Cloud
50、Pak for Data和Amazon AWS Outposts,促進 公司以現代化方式管理本地基礎設施。圖3:跨云部署選項1515 選擇跨云部署層時,在優化與靈活性之間進行權衡,并考慮個別用例的具體需求。將云對象存儲擴展到多個云作為默認跨云部署層的解決方案,可提供最大程度的靈活性。使用應用或DBMS層可能更適合于滿足特定的需求。不要低估運行多個云環境帶來的額外復雜性??赡苄枰褂貌煌墓δ芎凸ぞ叨啻螌嵤┩唤M策略。使用ISV提供的云不可知解決方案,但能認識到其正面臨CSP的挑戰與歷來一直關注管理CSP原生數據的CSP不同,ISV側重于云不可知解決方案。ISV將CSP視為目標或數據源,并且大多
51、數ISV可成功支持多種平臺。這些ISV方法目前正面臨著來自原生CSP產品的中期挑戰。ISV需要突出其現有的差異化,以保持現有的競爭優勢。這種差異化集中體現在兩個主要方面:多云的可移植性前景(以及在跨云環境運行架構的可能性)??赡鼙仍鶦SP產品更為成熟的差異化核心 產品。DevOps變革簡化了公司部署軟件的方式。容器和Kubernetes正引領將可移植性標準化的進程,許多ISV正在這些基礎設施上構建其云可移植解決方案。大多數情況下,我們可能高估了云可移植性的前景。從一個CSP遷移到另一個CSP的影響要比云不可知廠商能夠提供的單一組件所產生的影響要大得多。如果多云可移植性戰略能夠提供比本原生CS
52、P產品更重要的商業價值,則使用ISV提供的服務較為合理。隨著原生CSP產品日趨成熟,對ISV而言,保持差異化的核心產品將變得越來越困難。CSP能夠利用與底層基礎設施緊密集成的優勢,而ISV產品則不具備這一特點。ISV可能難以支持不斷變化的CSP平臺,這需要大量的開發工作并精心制定戰略。雖然CSP對ISV構成巨大的挑戰,但ISV目前可在各種領域提供更為成熟的數據管理解決方案,包括數據集成、主數據管理和元數據管理???在 數 據 集 成 方 面 作 為 示 例ISV的 包 括:Informatica Cloud和Talend Data Fabric,這些ISV可替代AWS Glue和Microso
53、ft Azure數據工廠等CSP產品。又如,Collibra和Alation等元數據管理ISV可與AWS Glue和Microsoft Azure Purview等CSP解決方案展開競爭。在近期和 中期,由于這些ISV單點解決方案比CSP產品 更為成熟,其將繼續發揮重要作用。CSP也開始部署多云和跨云戰略,此舉將減少對ISV的需求。例如,Google BigQuery Omni可以在AWS或Azure中部署容器化計算,查詢第三方CSP對象存儲中駐留的數據,并通過在Google Cloud平臺中運行的BigQuery返回這些結果。Microsoft Azure Purview是多云數據治理和元數
54、據工具的另一個示例。很明顯,CSP正在挑戰ISV在多云/跨云市場上的地位。盡管CSP希望所有數據都位于其云中且永遠不會再遷移,但如果情況并非如此,CSP亦希望在管理數據方面發揮積極作用。對數據和分析領導者的建議:如果ISV產品提供的功能或范圍超出原生CSP產品的功能或范圍,或者多云/跨云需求非常重要,則應使用ISV產品。在使用結合ISV和CSP產品的半CSP原生生態系統時,需要為更復雜的集成做好規劃。這必然會增加集成、治理和財務治理的復雜性及支出。依據1 Gartner開展的“2020年云終端用戶購買行為研究”旨在了解技術領導者如何處理購買、續訂和使用云技術的相關問題。這項調查于2020年7月
55、和8月通過網絡在線開展,受訪者來自美國、加拿大、英國、德國、澳大利亞和印度。共有850名受訪者參與了此項研究,其中724名受訪者表示其公司正在使用公有云、混合云或多云基礎設施。在這724名受訪者中,24%表示只使用一個提供商提供的服務;13%使用多個提供商提供的服務且沒有主要提供商;63%則使用多個提供商提供的服務并擁有一個主要CSP。這項研究由Gartner基礎研究團隊主導。此研究結果并不代表全球調查結果,也不代表整個市場,而是本調查所涉及目標國家的簡單平均結果2 NuoDB:WeLab利用多云功能獲得優勢,您也可以做到!Temenos。主要術語縮寫詞匯CSP 云服務提供商ISV 獨立軟件廠
56、商16 注釋1:混合云、多云和跨云分類市場上有關這些術語的定義和含義并不明確。廠商通常會將其產品稱為“多云”產品,即指這些產品可在多個云上運行。Gartner接受這一定義,但我們認為這種說法并不完整。以下是我們所使用的定義:混合云 指可跨越本地和云環境實施部署,可以進一步細分為以下兩種情況:跨混合云的架構 跨越本地和云環境的單一邏輯部署組件。在圖4中的標記為“1”。特定于用例的混合云 其中不同的組件按照其開發生命周期的功能(例如,開發、測試、生產)進行細分。在圖4中的標記為“2”。多云 一種服務或產品,在多個云服務提供商基礎設施上運行,也可以在本地運行。在圖4中的標記為“3”??缭?數據作為邏
57、輯應用部署的一部分在云服務提供商之間集成或交換。在圖4中的標記為“4”。這些定義也可以結合使用。例如,“跨云架構”是指單一應用的邏輯部署,其中的組件部署多個 云上,并定期在云間交換數據。圖4:混合云部署的四種核心場景同樣,“特定于用例的多云”是指在一個云中部署開發環境,在另一個云中部署生產環境。您無法使用“特定于用例的跨云”,因為在特定于用例的場景中,數據不會在不同環境之間主動交換。資料來源:Gartner研究簡報G00750997,Nina Showell、Adam Ronthal,2022年8月6日1717 OceanBase由螞蟻集團自主研發,創新推出了“跨三大地區的五項IDC”災難恢復標準。OceanBase是全球唯一一個在TPC-C和TPC-H基準測試中均打破世界記錄的本原生分布式數據庫。OceanBase 具有高可用、高可擴展、高兼容、易管理、部署靈活、高性價比等特點,已助力400余家行業客戶實現 核心系統升級,并連續8年穩定支撐雙11全球購物節提供穩定支持。關于OceanBase