《阿里云:云時代的數據庫技術趨勢(2022)(136頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:云時代的數據庫技術趨勢(2022)(136頁).pdf(136頁珍藏版)》請在三個皮匠報告上搜索。
1、封面頁(此頁面將由下圖全覆蓋,此為編輯稿中的示意,將在終稿 PDF 版中做更新)掃碼關注阿里云數據庫視頻號 掃碼關注阿里云數據庫公眾號 阿里云開發者“藏經閣”海量電子手冊免費下載 卷首語 阿里云數據庫率先提出云原生數據庫 2.0概念,通過打造云原生一站式的數據管理與服務,旨在為用戶提供:更快、更穩、更安全、更好用的數據庫產品。本峰會將邀請數據庫學術界領軍人物為您介紹云時代的數據庫發展趨勢;行業權威人士就相關數據庫行業標準進行深入解讀;技術大咖帶來 Serverless、云原生HTAP 等前沿技術介紹;標桿客戶與您分享云原生數據庫的最佳實踐;開源社區及高校學術負責人與您共論數據庫的開源生態建設與
2、人才培養。目錄 一、開場致辭.6 二、云時代的數據庫技術趨勢.7 三、數據庫行業的 Serverless 標準發布與解讀.15 四、生而不凡:PolarDB 將云原生進行到底.22 4.1 生而不凡:PolarDB 將云原生進行到底.22 4.2 PolarDB 在典型行業的最佳實踐.31 五、云原生的一體化透明分布式數據庫.34 5.1 云原生一體化透明分布式數據庫.34 5.2 良品鋪子核心系統云原生實踐.42 六、云原生數據倉庫:加速業務數據化,數據價值化.47 6.1 云原生數據倉庫:加速業務數據化,數據價值化.47 6.2 云原生數據倉庫 AnalyticDB 重磅發布.51 6.3
3、 AnalyticDB MySQL 湖倉版在 B 站的最佳實踐.56 七、多模融合:讓海量數據存得起、看得見.60 7.1 Lindrom 多模融合:讓海量數據存得起,看得見.60 7.2 小米大數據運維管理體系的建設與實踐.67 八、簡單易用的一站式數據管理與服務.76 8.1 簡單易用一站式數據管理與服務.76 8.2 DMS 一站式能力.80 九、云數據庫 RDS 的最新功能與最佳實踐.86 9.1 云數據庫 RDS 重磅功能發布與最佳實踐.86 9.2 歡聚集團 RDS 實踐.96 十、云原生智能化 DBaaS.101 十一、達摩院加持下的數據庫前沿技術.108 十二、云原生數據庫的場
4、景化解決方案.117 12.1 云時代數據庫應用最佳實踐.117 12.2 多來點云原生數據庫多活實踐.122 十三、打造世界級云原生數據庫開源社區.128 一、開場致辭 6 一、開場致辭 致辭嘉賓:李飛飛,阿里巴巴集團副總裁、阿里云數據庫產品事業部負責人、ACM 和 IEEE 會士(FELLOW)感謝大家在這個特殊時期,能夠排除困難來到現場,參加 2022 云棲大會云原生數據庫峰會。阿里云數據庫團隊也為本次峰會做了非常充分的準備,不同于往屆論壇形式,為方便大家更集中的觀看、學習和分享,本次峰會把分享內容集中放在一個論壇內,不再設置其他分論壇。昨天我也在一個會上分享了關于阿里云數據庫領域產品的
5、發展趨勢,這就是“四化”,即云原生化、平臺化、一體化和智能化。云原生化:即 Serverless,計算和存儲分離。平臺化:是基于云平臺構建數據庫系統和核心能力;以及數據庫產品提供標準的 API,在未來的很多場景中,用戶是基于 API 構建更加豐富的數據庫使用場景。一體化:是指將多業務場景引擎進行數據無縫共享。智能化:結合 AI 技術,讓數據更加智能,便于使用。如果將以上“四化”結合起來,可以看到一個明顯的趨勢:數據的平臺化。通過數據的平臺化,提供一站式數據管理服務。這是我們對行業的一個思考。接下來我們會有豐富的內容呈現,希望大家多多點評,并提出寶貴的意見。愿我們一起將數據庫技術和產品做得更好。
6、謝謝大家!二、云時代的數據庫技術趨勢 7 二、云時代的數據庫技術趨勢 作者:杜小勇,中國人民大學明理書院院長、中國計算機學會理事、數據庫專委會資深委員 數據庫的發展主要受三種因素驅動。其一,數據模型的發展會帶來數據或管理系統的變化,此外底層體系架構的變化和應用需求的驅動也會帶來數據庫系統的巨大變革。東數西算工程,指通過構建數據中心、云計算、大數據一體化的新型算力網絡體系,將東部算力需求有序引導到西部,利用西部較好的自然條件構建數據中心,建構全國性的算力網絡。我們有理由相信,東數西算會改變中國的算力格局。東數西算里“數”主要為解決當前普遍存在的數據孤島問題。二、云時代的數據庫技術趨勢 8 數字經
7、濟是當下的核心話題,其主要目的在于釋放數據價值。網絡界的著名定律梅特卡夫定律告訴我們,節點越多,連接越多,則價值也會越大。數字經濟背景下,參與共享和協同的數據越多,數據價值也可以得到更大的增長。因此,數字經濟的核心任務即在于打破數據孤島。由于大家“不會、不愿、不想”,使得數據之間的共享和協同異常困難。因此,跨域、高效、安全的數據共享與協同是未來的剛需,這也催生了跨域數據管理。我們希望算力網絡上的數據庫之間能夠實現有效、安全的數據共享。二、云時代的數據庫技術趨勢 9 跨域可以從三個方面進行解讀。第一,跨空間域。兩個數據集在物理空間上是遠距離的,通過算力網絡進行連接,主要問題在于網絡的不確定性。第
8、二,跨管轄域。每個數據庫都有自己的數據模型,不同數據模型之間如何進行數據交換和共享是一大挑戰。第三,跨信任域。每個數據庫系統之間并不是完全相互信任,如何保障數據安全是主要問題。二、云時代的數據庫技術趨勢 10 當前,很多大廠采用了三地五中心的分布式架構來支持跨空間域的需求。這其中存在資源浪費,也存在安全性問題。需要解決的問題在于如何在廣域網的基礎上實現跨域的有效數據管理,會面臨網絡的不穩定和數據傳輸延時等挑戰。通常專用網絡的時延為 10 微秒,數據中心內網絡時延大概為百微秒級別,而跨空間域網絡的時延大約需要 10 毫秒甚至更高。在較高時延下,如何實現傳統的分布式數據管理是一大挑戰。其次,相比于
9、專用網絡和局域網,跨域網絡抖動會更嚴重,網絡傳輸的時延也會發生數量級的變化。二、云時代的數據庫技術趨勢 11 跨空間域數據管理的挑戰覆蓋了數據庫管理的方方面面,比如存儲管理、查詢處理、事務管理等。而目前,跨空間域的數據管理技術已經取得了一定的進展。比如通過避免跨域數據訪問來解決存儲管理的問題;通過減少數據傳輸量解決查詢處理的問題;事務處理方面包括減少傳輸次數、減少數據傳輸量以及降低服務執行的不確定概率等。未來,隨著不確定性網絡向確定性網絡轉變,相關研究也一定會取得更大進展。二、云時代的數據庫技術趨勢 12 跨管轄域數據管理方面,主要需解決不同數據模型之間的數據統計管理和交互。上世紀 80 年代
10、,數據庫領域提出了聯邦數據庫的概念,為了解決公司在并購過程中出現的問題,也提出了相關的概念,這些概念在今天也有不同的呈現,比如企業數據中臺等場景也有類似的要求。當前,跨管轄域數據管理面臨的挑戰主要為面向異構數據的統一高效查詢以及多源異構數據的即席語義融合。目前的語義融合多為根據特定任務,offline 構建,可能要花費數月才能完成。我們期待有一種新的技術來支撐 ad-hoc 語義融合。當前,跨管轄域的數據管理技術也已取得一定進展,比如統一查詢、質量提升以及高時效。二、云時代的數據庫技術趨勢 13 企業、機構為了數據保護形成相對獨立的域稱為信任域,信任域之間的數據共享存在障礙。在此背景下,如何實
11、現可信的共享、安全的計算以及隱私的保護是重中之重。解決方案主要分為事前、事中、事后。事前包括跨域用戶的訪問,事中主要包括基于區塊鏈的合約執行以及面向隱私保護的計算技術,事后主要為審計技術等。二、云時代的數據庫技術趨勢 14 相關方面的研究也已取得一定的進展,比如基于密碼學、新硬件以及統計學的解決方案??缬驍祿芾肀尘跋?,如何將技術統一應用起來,仍然存在諸多挑戰。數據要素跨域、高效、安全共享協同催生了跨域數據管理,也為數據管理帶來了全新挑戰。三、數據庫行業的 Serverless 標準發布與解讀 15 三、數據庫行業的 Serverless 標準發布與解讀 作者:姜春宇,中國信通院云計算與大數據
12、研究所主任 Serverless 是指構建和運行應用程序無需管理服務器的概念,描述了一種更細粒度的部署和模型,將應用程序打包成多個功能,上傳至平臺并執行,以響應確切的要求。Serverless 很重要的一點在于無需要關心應用運行的資源,而 Serverful 需要考慮資源的分配和底層資源的實現;計費方式上,Serverless 按照使用情況計費,可以實現毫秒級計費,且快速伸縮無感知。而 Serverful 為小時級計費,以及彈性伸縮需要較長時間。Serverless 能夠帶來最極致的彈性,其演進經歷了四個階段:第一階段:在自己的機房構建數據庫。第二階段:PaaS 平臺的服務,可以購買服務,這也
13、是基本的云端數據庫的特征。第三階段:云原生數據庫,資源的池化能力和彈性能力大幅提升。第四階段:無服務數據庫,擁有極致的彈性、極致的性價比和極致的無感知。三、數據庫行業的 Serverless 標準發布與解讀 16 2020 年,全球 Serverless 服務市場營收 400+億,其中中國 Serverless 服務市場營收 60+億,占全球市場的 14%,而國內的數據庫市場份額占全球 5%,說明我國Serverless 的市場能力較為優異。傳統數據庫的容器架構與 Serverless 架構結合,使云原生數據在彈性、自動化方面具有極大的創新價值,Serverless 提供了極強的彈性伸縮能力。
14、Serverless 技術中,資源的池化和彈性的擴展緊密相關,首先要實現資源的池化,才能實現極致的彈性。而資源池化最核心的點在于存儲資源的池化,存儲計算分離以后,在存儲層面為上層輸出的計算提供了彈性。數據計算池無需做任何牽引,用戶的業務數據不受影響。此前,存儲計算互相耦合的時候,存儲和計算無法分別擴展,因為數據庫是一種特殊的形態,存儲層需要規劃。因此如果不解耦,則無法分別擴展。實現池化后,需要對運行的應用和負載進行多維度的監控,包括 CPU、內存、連接數等,達至閾值以后自動伸縮,進行資源調度。因此未來 Serverless 很大的競爭空間在于誰能夠提供更高效的資源調度,比如秒級。為了更多地降低
15、用戶成本,提升云上資源的利用率,云原生數據庫需要將內存與計算節點進行深度解耦,實現 CPU+內存+持久化存儲的三層解耦模型。三、數據庫行業的 Serverless 標準發布與解讀 17 Serverless 的另一關鍵技術為高可用。在擴展過程中,單臺機器經常出現擴展的瓶頸,需要進行跨服務器、跨硬件擴縮容。而此過程中,業務需要正常運行,因此,高可用至關重要,它包含四個特性:第一,自動切換能力。當前業界主要有兩種解決方案,一是集群各個節點通過一致性協議的去中心化解決方案;二是利用云原生數據庫中心化共享存儲的分布式鎖解決方案。第二,熱備節點。熱備節點是一個資源弱化版的 RO 節點,同時也是一個更接近
16、主節點、隨時準備接班的災備節點。相比普通的只讀節點,它保留有限的讀服務,預留更多的 CPU 和內存資源去優化切換速度。第三,鏈接保持。對于遷移時的空閑鏈接,可以引入中間件 Proxy,利用 Proxy的鏈接技術保證用戶鏈接不中斷。第四,無損事務續傳。對于切換瞬間正在執行的事務,一方面 Proxy 無法從數據庫內核中找回原有事務的上下文,另一方面新主會將未提交的懸掛事務回滾,釋放這些事務持有的鎖。在該種場景下,鏈接保持會失效。數據庫內核還需提供無損事務續傳的能力以解決這一缺陷。三、數據庫行業的 Serverless 標準發布與解讀 18 云原生數據庫必須提供全局強一致的事務讀寫能力,才能使事務一
17、致性的 RO 節點替 RW 節點透明地分擔用戶負載。那么,高性能的能力如何體現?需要將計算層面的算子進行分離,將讀寫分離,將寫操作做成單獨的服務,承接大吞吐量的寫操作。另外,引入新的硬件解決性能瓶頸。單一的 CPU 或者某一種計算芯片擅長處理的任務不一樣,因此我們需要新的硬件類型比如 GPU、FPGA 等來進行優化,使性能進一步提高。三、數據庫行業的 Serverless 標準發布與解讀 19 Serverless 的低成本體現在除了計算和存儲以外的資源,元數據、接入層、負載均衡、優化器等一系列服務也進行池化,使得部署、切換、彈性的過程非常高效快速,降低使用的門檻和成本。Serverless
18、數據庫的應用場景非常豐富。比如稅務系統每年固定時間段的報稅會使得應用特別繁忙,而其余時間多為閑置狀態,此類可變多負載場景可以通過 Serverless 技術實現資源的彈性。雙十一期間流量難以預估,此類不可預測的工作負載也特別適合 Serverless 無感的極致彈性。大型企業可能有上千個數據庫實例,同時感知這些數據庫實例資源的使用情況難度極大,因此,可以使用 Serverless 彈性無感的自動化能力,通過監控實現自動伸縮。再比如大型軟件可能有成千上萬的客戶在使用,每一個客戶都是一個租戶,底下又掛了數據庫實例,同時管理成千上萬個數據庫實例是個巨大的挑戰,此時也特別適合使用 Serverless
19、。三、數據庫行業的 Serverless 標準發布與解讀 20 Serverless 數據庫的發展趨勢大多與資源的池化、資源的標準化等相關。比如屏蔽底層的數據庫操作,提升易用性,業務人員無需考慮數據庫如何部署、如何啟動。比如計算資源標準化,統一底層資源。原先自建的機房和服務器會面臨很多不一樣的問題,而使用了 Serverless 云原生數據庫以后,即可實現標準化,統一使用,統一調度。計費方式也更加精確,按需計費,解耦以后計算資源的顆粒度非常小,計算時長從原先的小時或天變為秒級。擴縮容無感,實現更快的業務反應,以及更快的資源調度,實現極致的資源利用率也是未來的發展方向。三、數據庫行業的 Serv
20、erless 標準發布與解讀 21 數據庫引入 Serverless 技術后,具備智能彈性擴縮容能力,能夠隨著用戶業務的請求數的增加和減少,自動“膨脹”和“縮小”,實現資源的智能“吞吐”。另外,隨著資源池化能力的進一步釋放,在同一數據中心內,計算、內存和存儲資源的三層解耦逐漸從理論走向實際,成為云原生數據庫資源管理的新趨勢。我們相信,Serverless 白皮書的發布是 Serverless 技術前進的起點。也相信阿里這樣的企業會沿著這條路徑不斷前進,不斷提供更極致的彈性、極致的性價比和極致的性能。四、生而不凡:PolarDB 將云原生進行到底 22 四、生而不凡:PolarDB 將云原生進行
21、到底 作者:楊辛軍,阿里巴巴集團研究員、PolarDB for MySQL 產品部負責人 賈新華,阿里云數據庫事業部資深產品專家 4.1 生而不凡:PolarDB 將云原生進行到底 PolarDB 誕生 5 周年,已經成為較為成功的商業數據庫,線上運行核數突破 500000核,擁有全球 80+可用區。PolarDB 是基于 MySQL 與 PG 的升級版數據庫,因此對 MySQL 與 PG 實現了完全兼容。另外,PolarDB 注重于云原生數據庫的發展,因此在云原生方面做了很多研究,我們每年都會在頂會發表論文,將研究成果與大家共同分享。四、生而不凡:PolarDB 將云原生進行到底 23 上圖
22、為 PolarDB 的最新架構圖,依然堅持了模塊化建設的路徑。PolarDB 在存算分離以及物理復制方面已經非常成熟,因此逐漸開始往另一層次發展,今年我們發布了很多新的節點,包括 HTAP 節點、X-engine 節點、多寫節點、AI 節點等。很多節點可以進行自由搭配和轉換,以適配客戶需要的應用場景。也實現了 Scale Out 與 Scale Up 兩個方向的彈性伸縮。PolarDB 是共享資源的數據庫,對資源硬件非常關注。我們充分利用新硬件實現軟硬一體化,將硬件的紅利分享給用戶。四、生而不凡:PolarDB 將云原生進行到底 24 今年,PolarDB 實現了兩個硬件的升級。其一為 Sma
23、rt-SSD,它是基于 FPGA 的 SSD存儲。通過 Smart-SSD 進行數據的壓縮后可實現 2.0-3.0 的壓縮比。左下角的性能圖顯示,使用 Smart-SSD 后,相比于線上的云盤保持著非常大的優勢。同時,因為我們可以做數據壓縮,使用戶成本降低 60%。所以我們有機會將存儲售價降低 50%,讓利給用戶。另一個硬件升級是將 RDMA 網絡升級到 100G,通過 RDMA 實現了 PolarDB 的高性能全局強一致性,能夠使各類節點更穩固,能夠搭建更大的架構供更豐富的場景使用。也保證了不管在哪個節點或節點之間存在多少 latency,都可以成功地讀到寫入。通過 RDMA 的升級,性能提
24、高了近 63 倍。四、生而不凡:PolarDB 將云原生進行到底 25 PolarDB HTAP 新推出了 In-Memory Column Index 功能。物理復制將數據從一個節點復制到另外一個節點時,實現了行列轉換,將行存的數據轉換為列存。通過執行算子與執行器對列存性能進行了分析,如右圖所示,效果顯著。行存方面,PolarDB 發布了 ePQ 并行查詢新特性。其中 e 代表彈性,ePQ 可以實現節點之間的并行查詢。左圖為 4 個 32 節點的并行查詢,結果顯示整體執行時間較 MySQL 提升 60 多倍,單條執行時間最大提升 150 倍。右側為對 60 億+大表的分組聚集,執行時間小于6
25、0s,而實現并行查詢之前,耗時約 8h。四、生而不凡:PolarDB 將云原生進行到底 26 PolarDB 正式商業化發布“庫表級多寫”。在分庫分表的場景下,可以對一個節點、多個表進行 scaling。每個表有一個主節點,一個節點管理多個庫、表,庫表級多寫的優勢在于可以共享 shared-everything 架構,每個節點都可以看見所有數據,因此,增加節點或減少節點時無需對數據進行遷移,擁有極佳的彈性能力,可輕松對節點做增減,無需進行數據的重復遷移。另外,它實現了多主互備,每個節點都是另外節點的備節點,備節點也可以成為主節點,提高了備節點的利用率。四、生而不凡:PolarDB 將云原生進行
26、到底 27 另外,我們實現了行級多寫的灰度發布。利用 Polar Fusion 實現了事務、鎖、緩存信息的全局協調。上圖為阿里云 PolarDB 與友商的對比,PolarDB 多寫在沖突寫和無沖突寫場景下均具有非常大的優勢。PolarDB 即將支持全球就近寫,可以在全球范圍內,通過并行的物理復制技術,實現兩秒以內的延遲。能夠支持表級別的就近寫,數據會進行雙向同步,保證數據的全局一致性。四、生而不凡:PolarDB 將云原生進行到底 28 X-Engine 基于 LSM 架構,能夠保證非常高的壓縮率??梢詫?X-Engine 與 InnoDB并行插入,數據可以在兩個引擎之間自動流動。因此,用戶可
27、以針對數據的冷熱自行分配數據在何處。使用 X-Engine 進行壓縮后,淘寶圖片庫實現了近 6 倍的壓縮,淘寶交易訂單壓縮近 3 倍,性能方面相較于標準集群版略有不足但是相近。四、生而不凡:PolarDB 將云原生進行到底 29 PolarDB 的 Serverless 不僅支持縱向、單節點地彈,也支持橫向、跨節點地彈,實現了極致彈性,包括熱備節點、斷點續傳、連接保持等。上圖可以看出,PolarDB Serverless 能夠根據壓力自動增加 PCU 數量,從而自動提升 QPS。壓力停止后,PCU 逐漸降低。單節點規格達到上限后,可通過自動增加只讀接節點來應對突發壓力,提升性能。四、生而不凡:
28、PolarDB 將云原生進行到底 30 PolarDB 一直在性能方面進行持續優化。通過云原生架構全路徑的深度優化、高性能存儲的引擎優化以及高性能索引 PolarIndex 大幅提高了性能。DDL 方面我們也在持續改進。并行 DDL 使得建索引的速度提升 15-20 倍。同時,我們正在實現 Multiversion Dictionary,可實現 Instant DDL,無需實現全表的重建,通過 Dictionary 的改變即可生效。四、生而不凡:PolarDB 將云原生進行到底 31 4.2 PolarDB 在典型行業的最佳實踐 游戲行業痛點與 PolarDB 的實踐:版更期間備份時間大于 1
29、 小時,以及玩家經常丟失裝備,需要快速找回。而PolarDB 支持秒級備份以及庫表級、行級的閃回,可以大幅縮短版更時間,從小時級降低至分鐘級。游戲設備越來越充足,裝備信息越來越多,導致大部分字段長度可能超過 1 M,非常影響更新性能。通過 PolarDB 對 BLOG 字段實現專項優化,裝備更新性能提升 5 倍。游戲活動較為頻繁,而活動會導致負載快速變化。PolarDB 支持多主架構,能夠大幅縮短縮短滾服合服時間,實現分鐘級快速的響應。游戲往往全球發行,導致部分玩家登錄速度過慢。而 PolarDB 的 GDN 能夠實現業務就近訪問,使效率提升 40%以上。四、生而不凡:PolarDB 將云原生
30、進行到底 32 零售行業往往有供應鏈、銷售以及運營分析,系統均獨立構建且系統之間的構建較復雜??梢酝ㄟ^ PolarDB 的 IMCI 特性,免去復雜架構,實現實時分析,無 ETL、更穩定。SaaS 行業租戶多且租戶量會快速變化,PolarDB 提供的 Serverless 能力可以根據實際使用來分配資源,使成本降低約 60%。另外,SaaS 場景下多租戶之間會共用資源,導致互相影響,PolarDB 提供了多主架構,實現了租戶資源的嚴格隔離。另外,零售行業會存在百萬級的 DDL,而 PolarDB 提供了高性能的 DDL,包括秒級DDL、并行 DDL 等,可在海量表的情況下實現 DDL 時性能無
31、抖動、業務無堵塞。四、生而不凡:PolarDB 將云原生進行到底 33 泛政府行業也存在幾個關鍵痛點:首先,需要自研數據庫,而 PolarDB 數據庫代碼自研率超 80%,可滿足各種合規方面的要求,使供應鏈更安全;同時,升級傳統商業數據庫較為復雜,風險不可控,而 PolarDB 提供了高度兼容 Oracle 的能力,能夠使成本顯著降下,此外,PolarDB提供了一系列工具鏈與方法論,使升級過程可控、可管理。其次,泛政府行業合規要求同城、異地容災,而 PolarDB 提供了兩地三中心容災,既可以實現同城的高可用,也可以實現異地的高可用;另外,泛政府行業正在做數據大集中,要求高擴展,而 Polar
32、DB 單機可擴展 100T 共享存儲以及 32 計算節點,可以免去分庫分表,實現業務無侵入。五、云原生的一體化透明分布式數據庫 34 五、云原生的一體化透明分布式數據庫 作者:黃貴,阿里云數據庫事業部資深技術專家、PolarDB-X 產品部負責人 羅軼群,良品鋪子 CIO 5.1 云原生一體化透明分布式數據庫 分布式數據庫概念已經誕生幾十年,早期更多只是作為研究對象,直到 2000 年左右才真正走向應用,主要用于各大企業尤其是互聯網企業解決擴展性、高并發、高吞吐等訪問問題。直到近幾年,分布式數據庫才真正在商業化應用中投入使用。如今分布式數據庫有效解決了很多問題,比如在新零售、電商、在線教育等場
33、景下,解決了在線交易系統高并發讀寫問題;在傳統行業制造業、政企、交通、能源等場景下,解決了海量數據大集中問題;在對于容災有著非常高要求的金融領域場景下,解決了跨地域高可用問題。商業化應用過程中,分布式數據庫仍然面臨著很多問題,主要包括以下幾個方面:第一,兼容性。能否與傳統數據保持兼容。第二,使用門檻。是否必須要有足夠大體量才用使用?能否像使用單機數據庫一樣簡單方便?第三,擴展能力。數據擴展以后,面臨跨數據分片,分布式事務是能否保持高性能?五、云原生的一體化透明分布式數據庫 35 第四,運維復雜度。分布式數據結構較復雜,涉及到集群化部署以及多個節點之間交互,如何控制運維復雜度?PolarDB-X
34、 是非常典型存儲計算分離分布式架構。GMS 是元數據管理中心。CN 是狀態計算節點,負責解析與執行。DN 用于存放數據節點。CDC 是全局一致 Binlog 組件負責輸出,與 MySQL 兼容、全局一致的日志內容。整個 PolarDB-X 架構在云平臺上,因此稱為云原生分布式數據庫。五、云原生的一體化透明分布式數據庫 36 PolarDB-X 具有三個顯著特點:兼容原生 MySQL 生態。一體化透明分布式,可以像使用單機數據庫一樣使用,無需了解過多分布式概念。具有非常強大企業級能力。比如高可用能力,RPO=0 情況下也可實現跨地域高可用;比如 HTAP 能力,可同時支持兩種負載;另外,針對企業
35、對于數據安全要求也做了大量工作。實際上要做到一個產品 100%兼容另外一個產品難度極大,因為原有產品會不斷地發展迭代。因此我們做兼容性的原則主要針對企業級用戶需求和側重點對大部分能力和語法實現了兼容。另外還實現了生態上的兼容,以保證原有使用 MySQL 數據庫的用戶能夠非常方便地、透明地遷移到分布式數據庫上,無需修改應用,也無需修改數據結構,可以完整無縫對接到原有生態上。五、云原生的一體化透明分布式數據庫 37 為了實現生態兼容,我們開發了 CDC 全局一致 Binlog 組件,能夠提供完全兼容單機 MySQL 的 Binlog,無縫接入現有生態工具同步到下游生態。同時,PolarDB-X 也
36、可以作為 MySQL 的備節點,利用 MySQL Replication 組成高可用架構。一體化的重要方向是集中分布式一體化。分布式數據庫在商業應用過程中,并不是所有用戶都在一開始就具有大體量、高并發的需求,大多是隨著業務發展逐漸出現大體量的需求。因此,PolarDB-X 提供了兩種不同形。一種為標準版,集中式形態,100%兼容單機 MySQL,具有更低的使用成本,另一種為企業版,用戶可以從標準版平滑升級到分布式企業版形態。五、云原生的一體化透明分布式數據庫 38 為了在分布式層面提供更好的單機體驗,我們提出了透明式的概念,其中的重要能力為 AUTO 模式,可以在創建數據庫時指定數據庫為自動模
37、式,數據庫會根據容量大小做自動分區,無需主動干預。但同時也保留了手工分區的能力,更好地契合業務。另外,PolarDB-X 提供了在線與歷史歸檔數據一體化,可以通過事先設置數據過期規則,自動將歷史數據歸檔存儲到 OSS。在線數據與歷史數據可以通過統一的 SQL語法、統一的接入點進行訪問。目前歷史歸檔數據相對在線數據存儲成本最多下降了有 20 倍。這個功能目前已經在公有云版本上線。五、云原生的一體化透明分布式數據庫 39 分布式架構并不是銀彈,無法解決所有問題,也存在設計上的相應代價。從架構上來看,即便是在單機系統上,即便只有 2 個 NUMA 節點,跨 NUMA Node的訪問也會使性能下降至少
38、 1 倍。而到了分布式系統上,總線變為網絡,一旦涉及到遠程訪問,性能更是會出現急劇下降,比如單個全局二級索引,寫入性能下降 30%。這個是分布式系統帶來的非常顯著的代價。想要透明式的體驗必然會導致性能不達預期,要想保持性能需要精心設計數據分布規則,小心地限制使用特性。為此,PolarDB 推出了表組的概念。根據業務特點,自動將有相近統一的分區鍵組合到同一個表組中。具有相同業務屬性的表往往具有事務關聯性,原本需要做分布 五、云原生的一體化透明分布式數據庫 40 式跨數據分片的事務處理變為可以在單機上進行,有效消除了分布式事務帶來的開銷。且我們實現了自動化表組聚合,無需過多的人工干預。當然也支持人
39、工指定規則,更好地利用特性,更好地優化。數據分區以后帶來的顯著問題在于數據分布不均,包括數據量不均衡以及訪問不均衡導致出現局部數據熱點。識別到熱點以后,PolarDB-X 可以通過一些操作在不影響業務運行的情況下打散熱點,讓系統變得更平緩,從而實現分布式系統處理高并發的請求。五、云原生的一體化透明分布式數據庫 41 要做好分布式系統的運維,對運維人員以及數據架構均有極高的要求,必須了解服務系統的概念,而且分布式系統本身的系統復雜性較高,分析異常時面臨的鏈路較長。PolarDB-X 構建了可實時觀測的運維平臺,能夠對異常數據進行非常密集的監控,通過分析實時洞察 SQL 執行過程中的耗時、線程瓶頸
40、,并顯示熱力圖,運維人員可以直觀地查看每個分區上的訪問熱度如何。還可進行診斷分析,包括規劃分析、空間分析以及死鎖分析。還會做系統關聯,分析全鏈路每個階段的耗時、性能指標以及系統整體運行情況,最后根據系統運行情況做實時優化,比如對性能有瓶頸的問題自動推薦索引。通過以上手段,能夠更有效地定位問題,更有效地分析數據,從而得到更平滑的體驗。對于分布式系統,在運維過程中的一個非常典型的問題是能否做實時的數據字典定義。對于數據量非常龐大的數據表而言,對表結構做定義往往會牽涉到大規模的數據遷移工作,會對系統造成極大沖擊。因此,我們設計了 Online DDL,所有 DDL 均在線,不影響業務運行。同時盡可能
41、做并發的數據結構修改、數據搬遷以及復制,有效降低對系統的沖擊,提升整個數據搬遷的過程。五、云原生的一體化透明分布式數據庫 42 5.2 良品鋪子核心系統云原生實踐 從 2006 年的第一家門店,到 2016 年首次在紐約時代廣場亮相,再到 2020 年 A 股高調上市,良品鋪子已經成為終端零售行業的龍頭企業,業務覆蓋 19 個省份、100多個城市,擁有線下門店 3000+,每年營業額破百億。在不同時間、不同地段、不同門店,良品鋪子的促銷活動都可能會不一樣。我們是典型的以客戶為中心的智能門店,通過對采購信息的實時抓取以及對采購流程的靈活調度,來得出每一家門店在什么時間點、什么的樣客戶需要什么樣的
42、產品,背后的 POS 業務系統支撐了該套邏輯。五、云原生的一體化透明分布式數據庫 43 POS 系統本質上是一個集會員、交易、商品庫存于一體的中臺業務模型,通過統一的接口服務以及統一的數據傳輸服務,實現門店之間的數據共享以及門店與中心的數據流轉。新零售重新定義了人物入場關系,一切以人為中心,而這一點恰好是良品鋪子最核心的企業文化。引入全新的技術也好,投入業務改造也好,我們的最終目的是希望全面提升人的體驗。所謂內外兼修,內外是指店內與店外或線上與線下,我們希望通過數字化的形式打通線上與線下,為用戶提供更便捷的購買體驗,比如線上購買,線下提貨。我們希望實現渠道協作。門店在新零售架構下起著非常重要的
43、紐帶作用,不僅僅關聯了用戶與商品,也關聯了門店與中心。因此,提供一個一體化完整的解決方案對于多渠道協作至關重要。最后,我們希望精準營銷,建立智慧門店。智慧門店恰恰也是良品鋪子最重要的戰略目標與發展趨勢。它為我們帶來的不僅僅是營收增長,更多的是幫助我們更精確地了解客戶,為客戶提供更有價值的商品。五、云原生的一體化透明分布式數據庫 44 為了滿足業務訴求,我們對數據庫的選型提出了幾點要求:第一,簡單易用。只有簡單易用,才能真正意義上滿足業務高速迭代的訴求,才是業務創新的基礎。作為用戶,我們并不希望引入全新的技術是以付出特別高的學習成本為代價。第二,海量與靈活。要做統一管理,做多渠道協調。面對企業的
44、全量數據,如何保證存得下、算得動以及保證數據安全性?因此對數據庫的彈性能力及高可用能力都提出了更高的要求。第三,穩定。POS 系統是直接面對客戶的 2C 業務,它的崩潰會對企業造成直接的損失與不可估量的社會負面效應,因此,穩定是選型中的最大考量?;谝陨峡紤],最終我們選擇了 PolarDB-X。它孵化于阿里巴巴集團內部,在零售行業摸爬滾打多年,有著非常豐富的行業經驗與解決方案,成熟穩定。五、云原生的一體化透明分布式數據庫 45 POS 的核心業務系統通過微服務的方式打造成多個業務域,每個業務域都運行在相應的 PolarDB-X 集群。通過 PolarDB-X 提供全局的 BinLog 能力,可
45、以將數據實時一致地同步到下游分布式數據庫,完成更復雜的報表操作或數倉操作。大促到來時,依托于 PolarDB-X 的云原生彈性很好地支撐業洪峰的到來。該套架構已在良品鋪子穩定運行多年,經歷了多次大促考驗,日均交易量突破 100萬,數據庫響應時間始終保持在 3 毫秒以內。PolarDB-X 今年發布了很多有意義的功能,比如數據自定義存儲、數據冷熱分層等,幫助我們更有效地利用存儲資源,更好地節約存儲成本。五、云原生的一體化透明分布式數據庫 46 PolarDB-X 不僅提供了 MySQL 協議的兼容,也提供了 Binlog 周邊生態的兼容,為用戶屏蔽了分布式技術所帶來的技術門檻,真正實現了像使用單
46、機數據庫一樣簡單地使用分布式數據庫。在我們引入 PolarDB-X 后,支撐了峰值單日調用 9000 萬次,接口性能提升 20%。我們業務 7*24 小時在線,從未發生過因數據故障而引發損失。另外,PolarDB-X 提供的云原生能力和分層能力,也幫助我們大幅降低了成本。最后,良品鋪子希望與阿里云數據庫繼續合作,為新零售信息化建設繼續添磚加瓦。六、云原生數據倉庫:加速業務數據化,數據價值化 47 六、云原生數據倉庫:加速業務數據化,數據價值化 作者:林亮,阿里巴巴集團研究員/OLAP 產品部負責人 薛菲,阿里云數據庫事業部高級產品專家 陳浩,嗶哩嗶哩 Bilibili 資深數據開發專家 6.1
47、 云原生數據倉庫:加速業務數據化,數據價值化 數據倉庫旨在幫助企業實現業務數據化與數據價值化。數據在經濟生活各個領域中持續發揮著重要作用。海量數據被創造出來,數據規?;?、多樣化、實時化、智能化的趨勢日漸明。截至 2020 年,全球數據規模已達到 79ZB,且根據 IDC 預測,截至 2025 年,數據將增長 230%。數據格式愈發多樣化,有結構化數據、半結構化數據與非結構化數據,數據可能來自數據庫,也可能來自日志或者其他存儲,而這些來自不同源、不同類型的數據不斷增加了企業數據分析的成本。另一方面,數據的實時化趨勢日趨明顯。到 2025 年,將有 30%的數據是實時數據,69%的企業將實時與敏捷
48、作為未來企業數字化升級中面臨的 top 5 的挑戰與訴求。六、云原生數據倉庫:加速業務數據化,數據價值化 48 一系列數據變化也帶來了整體智能化分析趨勢的增長。預期在 2023 年,將有 33%企業采用智能分析,預計截至 2025 年,將有 60%基于傳統數據構建的模型將會被替代。伴隨著以上趨勢,數據處理架構也會變得更加復雜。傳統數據架構存在復雜的搭建與運維問題,數據被存儲在多種不同的系統中,很難很好地解決企業在數據分析過程中面臨的高可用、高可靠和容災等問題。企業希望能夠有一套開箱即用的數據解決方案,不用陷入高昂的數據成本與復雜的內容中。另一方面,更多數據開始在平臺上匯總,企業希望能夠利用該優
49、勢,滿足自身不斷增長的數據規模與處理能力的需求。六、云原生數據倉庫:加速業務數據化,數據價值化 49 阿里云的云原生數據倉庫 AnalyticDB 數倉版正是基于以上需求應運而生,它既能夠支持實時分析,也能夠支持海量數據處理,能夠幫助企業快速構建起云原生數倉并且一體化支持存儲與分析。通過數據庫與大數據技術一體化,實現了高吞吐的實時增刪改、高性能的分析,同時支持復雜 ETL,與上下游生態高度兼容,方便企業構建數倉。得益于云的特性,AnalyticDB 天然具有彈性,能夠為客戶提供最高性價比的方案。AnalyticDB 具有六大核心競爭力,同時具備數據庫的易用性與大數據規模,能夠幫助客戶最高節省
50、90%的數據搭建成本。核心競爭力一:存儲計算分離,計算支持分時彈性,能夠很好地適應波峰波谷的業務場景。波峰到來時,資源可以自動彈出,很好地滿足業務需求,同時也降低了使用成本。核心競爭力二:存儲冷熱分層,支持智能自適應分層。熱數據被存儲在高性能的介質中,提升了查詢性能;冷數據被存儲在低廉的介質上,降低了存儲成本。核心競爭力三:計算資源組隔離,保障重要、穩定的計算任務。計算資源可以被彈性分配到資源組織中,也可以根據自己的需要實現物理資源上的隔離,重要業務不會被臨時或異常任務影響。不同的任務可以路由到不同的資源組織中,使得一套系統可以支撐不同業務類型的處理需求。六、云原生數據倉庫:加速業務數據化,數
51、據價值化 50 核心競爭力四:計算混合負載調度,支持離在線一體。降低了計算資源成本,同時降低了開發復雜度。核心競爭力五:計算按需啟停,降低整體閑置資源的浪費。核心競爭力六:生態高度兼容,全流程傳統數倉升級方案,方便用戶構建對跨庫與跨工具的組合方案。今年,AnalyticDB 在云原生與企業級特性上進一步提升,PostgreSQL 版本實現了重大升級,在性能、彈性、企業級能力與安全性上都得到了大幅提升。六、云原生數據倉庫:加速業務數據化,數據價值化 51 彈性上,支持按需啟停、按使用付費以及秒級計費。企業級分析能力上,支持了存儲過程,也支持了更多場景化分析能力。安全性上,支持了行級安全策略以及更
52、多加密算法,希望能夠滿足企業日益增長的安全性方面的需求。然而,該方案依然存在加工與分析鏈路上的割裂,導致時效性的降低。9 月麻省理工科技報告提到,大多數企業已經在考慮統一數據分析架構,并認為這對企業的數據策略至關重要。智能分析的挑戰始于數據架構,企業希望有一套完整、統一的平臺能夠支撐靈活與高性能的分析場景。因此,我們希望能夠統一數據分析處理的流程,從抽取、加工、存儲、分析的全鏈路讓數據處理流程更簡單、易用、實時、敏捷與高性價比,為此今年底我們將發布一款新的產品形態。6.2 云原生數據倉庫 AnalyticDB 重磅發布 六、云原生數據倉庫:加速業務數據化,數據價值化 52 傳統企業在實現數據鏈
53、路時需要四個步驟,分別為抽取、加工、存儲與分析,抽取、加工一般在數據庫完成,存儲、分析一般在數據倉庫完成,中間存在巨大的鴻溝。新一代的 AnalyticDB 湖倉版正式公測發布,它能夠實現全鏈路、端到端的數據處理與數據分析一體化,為用戶提供數據湖的規模以及數據庫的體驗,其特性可以用1024 來總結?!?”指一份數據,離線數據和在線分析數據一體化,無需煩惱一致性和時效性?!?”指 0 度靈活彈性,彈得好,彈得起,彈得快,資源成本降低 30%以上?!?”指 2 種模型,離線處理和在線分析一個引擎兩種模型,可以一站式完成計算,自動智能切換?!?”指 4 個統一。包括統一計費單位、統一數據管道、統一數
54、據管理與統一數據訪問,使得整體開發體驗更順滑,預期提高開發效率 30%以上。六、云原生數據倉庫:加速業務數據化,數據價值化 53 一份全量數據存儲在對象存儲上。對象存儲的特點是低成本與高吞吐的讀取,且一份全量數據可避免數據冗余,無需存儲兩份,節省存儲成本,也能滿足一致性與時效性的要求。內部存儲可以直接使用 BSP 引擎進行追加寫與粗糙讀的交互,較好地滿足離線處理的要求,實現低成本的目標。存儲交互與數倉 BSP 的交互完全隔離,因此較好地實現了數據處理與數據分析的一致性。在線分析在一份存儲的基礎上,增加了 IO 加速節點 EIU,數據存儲在 EIU 中可以實現高并發、高性能的實時增刪改操作。在計
55、算節點有自動的全數據多級倒排索引,可以通過智能緩存的方式下推,使得在實時數據存儲上得到更好的性能。靈活彈性可以總結為彈得好、彈得起、彈得快。AnalyticDB 提供了兩種彈性策略,分別是分時彈性以及按需彈性以滿足不同負載。分時策略適合在線分析業務,客戶可以設定波峰、波谷的時間,提前部署資源。按需策略適合數據處理、離線處理、機器學習等,可以更好地貼合業務負載,實現更極致的彈性。彈得起指需要資源時,云廠商能夠提供足夠的資源。我們通過神龍+ECS+ECI 布置了三層資源網絡,可實現客戶 99%以上的彈性資源交付率。另外處理能力秒級擴展,基于資源池化后通過緩存加速等技術實現。六、云原生數據倉庫:加速
56、業務數據化,數據價值化 54 AnalyticDB 的融合引擎可以支持兩種模式,分別是 MPP 與 BSP,其中 MPP 能夠實現及時分析,latency 較快;而 DSP 更適合 long running、對容錯具有一定要求的數據處理。另外兩種模式可進行自動切換,比如以 MPP 模式運行時,系統會自動檢測該任務是否更適合 DSP,如果是,則自動切換為 DSP。未來,我們計劃對一個任務中的不同算子智能地進行 MPP 與 BSP 分布,以實現資源鞏固,幫助客戶提升資源利用率。AnalyticDB 實現了一份數據,無論數據是存儲在湖內租戶還是倉內租戶,對客戶而言都是同一張表,因此我們實現了統一管理
57、與統一的權限訪問。另外,也會開放存 六、云原生數據倉庫:加速業務數據化,數據價值化 55 儲的 Storage API,可以對存儲實現統一訪問,外部開放的數據引擎比如 Spark、Presto 也可以通過 Storage API 直接訪問數據倉庫里的數據,而無需騰挪數據。AnalyticDB 的使用場景覆蓋了新零售、游戲、金融以及汽車制造業,主要應用于 CDP用戶數據平臺、用戶行為分析以及營銷全流程平臺。我們已經與很多客戶建立了深入合作。六、云原生數據倉庫:加速業務數據化,數據價值化 56 金融領域的深萬宏源證券,使用了 ADB 替換了傳統數倉,實現了整體數據平臺的升級,成本下降 50%,整體
58、性能提升 100%,平穩遷移 25000+任務和百 TB 級數據。波克城市通過 ADB 實現了秒級分析萬億級游戲行為的日志數據。6.3 AnalyticDB MySQL 湖倉版在 B 站的最佳實踐 1.公司及業務介紹 貓耳 FM 是嗶哩嗶哩旗下專注于二次元 ACG 音頻賽道的一款 APP 應用,對標喜馬拉雅、網易云音樂、荔枝 FM。平臺內容包括中日廣播劇、有聲漫畫、有聲小說、電臺、聲優直播、配音活動等二次元及泛二次元音頻內容。其主要業務是與相關作品版權方合作,將國內市場火熱的 IP 制作成廣播劇、火山漫畫等音頻形式,最后由用戶在平臺上進行付費收聽,完成商業閉環。六、云原生數據倉庫:加速業務數據
59、化,數據價值化 57 目前,該平臺每月數據增長量將近 8TB。平臺通過數據為產品及運營決策提供支持。例如,運營部門需要客戶活躍、留存率、APP 停留時長、付費轉化率等指標指導日常運營決策;財務部門需要月度、年度的周期性支出及營收情況,用于對賬、審計;產品部門則需要數據進行 A/B 測試,評估不同產品方案效果。其次,搭建推薦系統需要基于用戶的搜索、點擊、收聽、付費等行為構建用戶畫像,并向用戶推薦廣播劇、主播等。最后,在業務運行過程中還會經常會遇到一些用戶惡意行為,需要進行風控攔截,比如 IOS 用戶充值退款問題,賬號出租共享行為以及活動期間的刷榜行為等。直接在業務路上進行分析會導致業務庫 CPU
60、 飆升,影響業務,造成請求響應超時,頁面加載不出來等問題。隨著數據量的增長、報表需求的增多,直接在業務路上進行聚合分析的方式已經行不通,需要搭建專門的 OA 系統作為技術支撐。2.歷史架構及挑戰 2018 年,該平臺搭建了離線數倉,并使用該數倉進行實時在線分析。但由于是首次構建,技術能力有限,該數倉處于摸索階段,暫時解決了短期爆款輸出的問題。該歷史架構存在的問題比較明顯,一是分析時效性差,部分離線 ETL 任務無法在 T+1內運行完成,依賴這些任務的下游節點報表產出也發生滯后。另外一些日志數據導入到離線數倉的過程中,數據的拷貝超過 24 小時。六、云原生數據倉庫:加速業務數據化,數據價值化 5
61、8 另外,資源無彈性。凌晨時段是任務運行高峰期,但由于機器人數量固定,大量任務推進等待程序調動,CPU 處于滿負荷運行狀態,任務無法及時運行完成。統計用戶年度收聽報告期間,統計用戶最長收音時段數據的任務運行超過 24 小時,產品驗收測試進度滯后。最后,運維成本高。服務故障時,需要進行數據排查報重并進行修復。其維護過程中數據開發及 BI 系統中斷需要一個小時以上,遇到比較異常的主線問題時,系統不可用往往會持續一天以上的時間。3.湖倉版架構及優勢 將離線數倉遷移到 ADB 湖倉版主要基于以下幾個優勢。首先,ADB 湖倉版可以根據任務繁忙程度對資源進行彈性伸縮。離線 ETL 任務主要發生在 0 點到
62、 5 點,這段時間資源需求高,資源彈性可以使資源更充足,避免任務因為等待資源而大量堆積。另外進行臨時的修復數據時,可根據資源需求進行彈性伸縮,及時釋放資源,降低使用成本。另外,測試分析、收益統計,需要實時反映最新的收益情況。但由于合作方的分成模式比較復雜,會有按固定比例分成、按訂單量梯度分成、按時間梯度分成等。使用離線數倉處理達不到實時要求,在線分析性能存在統計的瓶頸。六、云原生數據倉庫:加速業務數據化,數據價值化 59 ADB 通過 DTS 數據傳輸服務,數據入倉后可以實現一份數據同時在線分析和離線處理的需求,訂單數據可以實現毫秒級增刪改,面對查詢時能在數秒內完成響應,極大提高時效性。最后,
63、ADB 可根據數據掃描量自動優化執行模式,智能選擇執行模式,加速任務的運行。ADB 時效性高,可用于在線特性。貓耳 FM 業務中,除收益統計后臺需要實時分析反映最新的交易情況,在廣播劇的打賞主板中也用到了這一特性。在廣播劇打賞主板,基于 ADB 應對復雜查詢的特性,榜單的更新周期從小時級別提高到秒級,提高客戶參與積極性,提升用戶的停留時長及付費轉化率。另外,在直播業務中,平臺可以對中獎概率進行實時監控。如果中獎的概率超出預設值,運營可以及時收到報警的通知,進行調整或下架,控制成本收益。這一特性也用于監測活動期間的刷榜行為,直播間管理人員可以及時予以處置,避免榜單排名的異常變動。七、多模融合:讓
64、海量數據存得起、看得見 60 七、多模融合:讓海量數據存得起、看得見 作者:張為,阿里巴巴集團研究員/NoSQL 產品部負責人 劉志杰,小米大數據運維負責人 7.1 Lindrom 多模融合:讓海量數據存得起,看得見 過去 20 多年,互聯網電商業務數據經歷了快速增長,從傳統處理結構化數據的 OLTP數據庫時代過渡到處理海量半結構化、非結構化數據的互聯網業務平臺新時代。新時代對大容量、高性能、低成本的海量數據處理平臺的需求急速增長。針對阿里巴巴電商業務,尤其是雙十一數據海量增長和快速處理分析的需求,阿里巴巴開始自研數據庫技術。2009 年,Tair1.0 內存數據庫上線,支撐了電商交易的核心企
65、業場景,在數十億的 QPS 峰值下時延保持亞毫秒級別;2011 年,Lindorm1.0數據庫平臺上線,支撐了阿里巴巴全系列業務在線大數據場景,在百 PB 存儲下保持毫秒訪問和極致低成本。今天,隨著網絡技術進步以及對傳感器技術的深入使用,各行各業數字化推進使得海量大數據的生產呈現出與以往更不一樣的特征,同時對于高性能、低成本、大容量 NoSQL 數據庫系統需求增加。七、多模融合:讓海量數據存得起、看得見 61 因此,阿里巴巴將誕生于電商互聯網平臺的大數據技術,以 Lindorm、Tair 為代表,結合阿里云上計算環境,推出一系列云上 NoSQL 數據庫產品。2019 年,阿里云與MongoDB
66、 強強聯手,推出云上文檔數據庫;2020 年,自研海量多模數據庫 Lindorm在阿里云正式上線;2022 年,自研內存數據庫 Tair 在阿里云正式上線。Lindorm 的誕生記錄了數據庫針對時代場景的挑戰和變遷。從 70 年代開始,數據庫的技術發展經歷了三個階段,第一個階段以關系型數據庫為代表,主要支撐企業和政府的關鍵業務數據。以處理結構化數據為主,處理的級別在 GB 級別,Oracle、DB2、MySQL 等都是常見的關系數據庫產品。2000 年開始,隨著互聯網技術的發展,更多的業務對數據的管理和分析提出不一樣的挑戰。日志和文檔等不同類型數據的產生,使得存儲和處理半結構化數據、非結構化數
67、據的非關系型數據庫蓬勃發展,Bigtable、MongoDB、Redis、ElasticSearch等都是非關系型數據庫的典型代表,數據生產達到 TB 級別。當下,隨著萬物數字化和各類傳感器飛速發展,IDC 預測到 2025 年全世界 90%的數據將是以傳感器生產的 IoT 數據為主。該數據的類型豐富多樣,包括各式各樣的傳感器數據,例如圖片、聲音、GPS 等,數據量可達到 EB 級別。因此,需要能夠融合處理海量異構數據,并且提供極致低成本的原生多模數據庫,這就是 Lindorm 誕生的原因。七、多模融合:讓海量數據存得起、看得見 62 Lindorm 具備三個特性:第一:Lindorm 是一種
68、多模超融合的數據庫,云原生地支持各種異構數據類型,包括半結構化和非結構化數據,如寬表、時序、時空等。Lindorm 存儲多種異構數據的同時,還能實現數據的在線分析和在線檢索,向用戶提供統一 SQL 接口。第二:性能和成本的極致平衡。Lindorm 是云原生的數據模型,它是典型的存儲計算分離架構,可以讓存儲和計算事件實現獨立彈性伸縮。Lindorm 可無縫集成多種不同類型的存儲,如對象存儲、云盤存儲、本地物理盤存儲,還能綜合管理不同類型存儲服務的 IO、性能及成本。針對海量數據在 Lindorm 的存儲,Lindorm 通過對數據冷熱進行識別和分離,將不同級別的數據自適應到不同類型的存儲上。以上
69、特性讓 Lindorm 實現高性能的同時降低了成本。第三:Lindorm 具備開源生態兼容的特性,可全面兼容各種開源體系,用戶可零成本適配,支持 HBase、Cassandra、OpenTSDB、S3、HDFS、Kafka 等多種接口,使云下的大數據負載低成本、無縫地遷移至云上的多模數據庫生態。七、多模融合:讓海量數據存得起、看得見 63 Lindorm 多模融合架構分為三層。第一層為存儲融合。主要解決海量數據在云原生大數據環境下的存儲效率問題,能夠將云上存儲能力無縫融合,降低用戶對海量數據的管理和存儲成本。針對新時代產生的海量數據,Lindorm 作為云原生多模數據庫,能夠無縫地幫助用戶管理
70、多種不同層級的存儲介質,包括本地盤、云盤、云上對象存儲等,用戶可以將多種存儲介質無縫呈現在一個存儲池里,可根據特性自動將多種異構數據分配到不同的存儲介質上。同時,Lindorm 由完全云原生的分布式文件系統作為底座,能夠獨立彈性擴縮存儲容量。我們將不同存儲介質的能力與 Lindorm 數據的負載做了自動適配,能夠在不同級別上支持高效的壓縮與編碼。比如,可以通過糾刪碼 EC 算法,將副本冗余系數降低至 1.25,可以根據自適應壓縮算法,最小化數據的存儲。七、多模融合:讓海量數據存得起、看得見 64 第二層為結構融合。用戶在管理多組異構 IoT 或者萬物互聯網數據時,能夠無縫地將多種異構數據通過一
71、個平臺系統進行管理,從而解決運維效率復雜度的問題。比如針對時序、時空數據,用戶往往需要采用不同的大數據系統針對每種負載獨立構建數據服務,在應用層將多種數據服務的交互進行統一管理。而且 Lindorm 提供了靈活的表格模型,比如 Lindorm 寬表既能支持傳統關系型數據庫的 Schema 結構化數據,也可以通過增加動態鏈,向文檔靈活增加 Schema 結構數據。寬表類型模型之外,Lindorm 還支持多種其他異構數據存儲引擎,比如支持 JSON 的實時讀取與處理,支持時序數據的融合分析,以及支持非結構化數據 Blob 類型的存儲和調用等。通過將多種異構數據在一個數據庫系統進行綜合管理,用戶將無
72、需分別構建多種數據庫系統,大幅降低了用戶對于海量異構數據的運維管理成本,簡化了用戶系統架構。第三層為多種負載計算融合。解決用戶在處理分析多種異構數據時需要綜合運用到多種計算能力以及開發復雜系統的應用問題。通過 Lindorm 底下內置的多種數據分析引擎,比如傳統 Lindorm 寬表引擎、數據搜索引擎、時空分析引擎、批量離線計算引擎等,分別處理不同類型的異構數據,同時無縫拉齊各種數據鏈路,使得異構數據可以流轉,被引擎拉起的多種異構數據可進行融合分析。七、多模融合:讓海量數據存得起、看得見 65 傳統的開發模式需要構建多個數據服務,需要與多個數據服務器進行復雜交互,而通過 Lindorm SQL
73、 引擎,用戶只需與 Lindorm 一個系統打交道,極大簡化了開發數據應用的成本,大幅提高開發效率。Lindorm 能夠融合多種特性的云上存儲介質,能夠智能識別用戶在不同的負載里對冷熱數據的訪問模式。Lindorm 能夠智能識別用戶對于冷熱數據的需求,將不同的冷熱數據分散到不同的存儲介質上??梢杂每焖賶嚎s算法將熱數據存儲到高性能存儲介質上,經過智能識別以后可以實現冷熱數據的轉換,將冷數據進行深度壓縮,最大化降低用戶的存儲成本,同時最大化用戶的性能。以上一切工作均在存儲引擎內部完成,用戶無需再手動分別處理冷數據與熱數據。七、多模融合:讓海量數據存得起、看得見 66 Lindorm 實現了 Sea
74、rchIndex 加速檢索分析。數據寫入以后進入寬表引擎,用戶只需經過簡單配置,即可啟動 Lindorm 的搜索引擎,為用戶寫入的數據創建全量與增量索引,用戶無需再額外構建一套搜索服務,也無需將數據流轉,可以在內部完成全局內容檢索,大幅簡化了用戶應用的開發流程。物聯網時代最典型的應用是車聯網數據,無數汽車無時無刻不在向車聯網數據中心上傳車機數據,包括車輛運行狀態、時空位置、車輛攝頭以及雷達等數據,數據量極大并且具有明顯的異構特征。而我們可以通過 Lindorm 提供的不同引擎,在同一個系統中處理與分析不同類型的車聯網數據,大幅簡化了車聯網應用的開發流程,開發、運維的效率均有大幅提升。七、多模融
75、合:讓海量數據存得起、看得見 67 可觀測場景下的數據包括 tracing、logging 和 metrics 等幾種不同類型,傳統方式下,我們需要使用不同的數據處理系統針對幾種不同類型的數據進行處理,比如tarcing 需要使用寬表數據庫,logging 使用搜索引擎,metrics 使用時序數據庫。而有了 Lindorm 后,通過一個系統即可對三種數據統一進行融合管理與處理,并且無需區分三種系統,無需使用三種不同的接口與語言交互,只需統一使用 SQL 即可一站式完成監測場景的應用開發。Lindorm 提供了 HBase 的平滑遷移方案。通過高速數據通道 LTS,能夠將客戶已經建立的 HBa
76、se 集群雙向同步與遷移至云上 Lindorm 數據庫。并且 Lindorm 支持使用 HBase 的客戶端或 Lindorm 客戶端無縫訪問遷移到 Lindorm 上的數據,且存儲成本降低 50%,性能吞吐提高 300%。7.2 小米大數據運維管理體系的建設與實踐 1.大數據運維數字化轉型 七、多模融合:讓海量數據存得起、看得見 68 小米業務架構主要分為三層。第一層,IaaS 層。包含 IDC、公有云、網絡等。第二層,PaaS 層。大數據作為 PaaS 層核心,向下對接基礎資源,向上承接業務需求,幫助業務沉淀數據資產、提升數據效率。第三層,SaaS 層。包含手機、IOT、汽車等數百個核心業
77、務。小米大數據服務架構立足于 X86 和 ECS 之上,自下而上分為四個層級。數據采集層:主要采用自研 Talos 實現。數據存儲層:包含各類自研及開源主體,如文件存儲的 HDFS、KV 存儲的Pegasus 和 Hbase、對象存儲 FDS 等等。七、多模融合:讓海量數據存得起、看得見 69 數據計算層:使用 YARN 作為統一資源管理服務器,并基于 YARN 提供多種批處理和流處理引擎。此外 OLAP 引擎進一步滿足數據檢索和機器查詢的需求。數據平臺層:又稱數據工廠,提供一站式的數據開發和數據管理功能。隨著小米業務的不斷發展,目前小米大數據服務涵蓋國內外 20 多家的機房區域,達到了千家集
78、群、數萬節點的規模。數據總量接近 EB 存儲,每日計算作業約 30 萬。小米的運維轉型面臨了諸多挑戰。傳統運維管理方式和服務快速發展之間的矛盾日益突增,具體表現在服務的質量、成本、效率各個方面。大數據服務場景多,差異化極大,運維復雜度持續增加。數據孤島導致數據難以被高效利用,數據分析、決策、執行效率低。運營單核心發展導致標準化流程落地難,局部出現了“多人多面”的現象。七、多模融合:讓海量數據存得起、看得見 70 輕舟是小米大數據中長期規劃戰略的代稱,其主線是通過建設全能的基線能力,打造極致的承運能力,以實現全生命周期的管理。輕舟架構包含兩層。一是基線能力層,包含數據集市和發布中心兩部分。二是垂
79、域能力層,完整覆蓋服務生命周期,包括服務的創建、運營和消亡。輕舟一體化數據集市主要用于解決實踐中的數據孤島問題,在數據源和數據使用方之間搭建數據集市。在數據集市上制定了數據管理規范,并對數據進行分層次處理,通過一條調度同時實現數據的存儲和使用。該方案具有以下兩個優點:統一數據運維體系。解決數據孤島問題的同時,降低了數據使用門檻。目前,該數據方案應用于所有的大數據運維服務中。數據場景閉環。歷史數據方案以人為中心,最新的數據方案則是以數據場景為中心,降低了計算復雜度。七、多模融合:讓海量數據存得起、看得見 71 輕舟發布中心通過調度編排加低代碼的模式,實現了工作流的靈活定義。依托于模板實現 SOP
80、 固化和沉淀,完成去人工化。如圖所示,該方案針對各種執行底層以及自定義腳本進行統一池化管理,在各個面板上定義了多種區域,如循環區、單次執行區等等。目前該方案已經推廣到所有的大數據服務中,發布效率提升 30%以上。輕舟運營中心結合數據和 AutoOps 理念,重點解決了管理過程中經驗化程度高的問題。目前已經覆蓋了 95%上的大數據服務,大幅降低管理成本。該方案在一定程度上實現了對數據的進一步分析及全場景的容量檢測。除此之外,該方案還配有巡檢、配置等多個模塊。七、多模融合:讓海量數據存得起、看得見 72 2.大數據技術架構實踐 小米核心數據鏈路以Talos為核心。原始數據通過Hive或其他形式統一
81、進入到Talos中,后端轉儲模塊實時處理 Talos 中的數據,并將數據接入到其他數據集中,以供進一步分析和使用。目前,該數據方案已經廣泛推廣,小米業務中超過 50%的數據都是通過該方案進行處理。小米最新的數倉架構是由 Iceberg、Spark、Flink 構成的一套離線實時數倉。原始數據通過核心鏈路到達離線湖倉中,并在湖中不同數倉層級之間完成 Flink 或 Spark建設。七、多模融合:讓海量數據存得起、看得見 73 同時,小米 OLAP 引擎提供直接查詢核心數據功能。目前,該數倉方案能夠達到分鐘級延遲。相比 Kappa 和 Lamdba,架構復雜度明顯下降,數據存儲能力提升明顯。HDF
82、S 實踐中一般使用機械盤、固態盤等存儲方式進行數據耦合和數據區分。小米為了壓縮數據成本,提升數據性價比,使用 HDFS Tering 網絡數據分類架構來實現冷熱數據分層。如圖,后臺 Mover 程序讀取冷數據,存儲在阿里云 OSS 上,同時更新 Mover 云數據。目前,該方案已經完整用于線上,冷數據量超過 200P,冷數據成本降低 80%。七、多模融合:讓海量數據存得起、看得見 74 為支撐小米 IOT 戰略,滿足業務海量數據檢索的需求,小米研發了 SDS。然而,該方案存在以下三個方面的問題。隨著小米業務不斷發展,數據規模持續擴張,內部架構問題逐漸暴露。數據鏈路較長,排查問題困難,開發維護成
83、本高。SDS 支持物聯網持續數據的場景能力較差,開發功能不完善。Lindorm 兼容開源系統協議,滿足架構需求。同時,Lindorm 過程存儲以及 SLA 協議可以徹底解決系統內歷史回流問題。Lindorm 在小米內部測試結果出色,符合業務需求。七、多模融合:讓海量數據存得起、看得見 75 完成選型和測試后,以低成本實現 SDS 到 Lindorm 的轉換需要以下三個步驟。第一步,打通 IDC 數據鏈路,完成 SDS 和 Lindorm 的雙向流通。第二步,保持 SDS 和 Lindorm 數據同步更新,提供了 SDS 定制 Proxy 以最小化運營成本。第三步,將流量和 SDS 切換到 Li
84、ndorm 上。目前,整套方案在持續的運營當中。小米團隊在過去參與了許多大數據事件,如云原生存儲建設、跨機房改造等。八、簡單易用的一站式數據管理與服務 76 八、簡單易用的一站式數據管理與服務 作者:付大超,阿里云數據庫事業部資深技術專家、DMS 和 DTS 產品部負責人 胡航麗,阿里云數據庫事業部高級產品專家 8.1 簡單易用一站式數據管理與服務 市場報告顯示,2025 年將有 75%數據庫遷移到云上,將有 30%數據是實時數據,到 2024 年末數據保護法將會保護到 75%人口。整體趨勢可以總結為上云、實時以及安全。我們認為,庫倉一體是未來趨勢。因為核心數據從數據庫產生,而實現庫倉一體化可
85、以降低用戶使用成本。八、簡單易用的一站式數據管理與服務 77 用戶開發數據應用時,需要與數據庫之間進行交互,比如建表和組件、進行數據庫變更操作等。最后通過程序將數據寫入到生產庫,比如數據庫、存儲系統?;谏a庫數據會進行集成與預加工,比如進行同步,遷移、進行 ETL,然后數據會流向AP 系統,在 AP 系統進行分析之后,數據又向下游流動,通過數據服務最終提供給數據應用。這個過程中會產生一系列語言數據和操作行為,操作行為最終會沉淀為數據資產。上述流程中會存在幾個痛點:第一,規范無法落地。將規范真正有效地落地到可度量的產品功能上與書面規范存在非常大差距,并且落地后穩定性問題突出。第二,集成加工復雜
86、。數據庫產品非常多,數據要在數據庫產品之間或存儲之間進行流動,需要一系列技術的支撐。無論是批量集成還是實時集成,數據流動本身就是很大的問題。并且同時會引起更多的使用成本、運維成本以及診斷成本。第三,多個工具使用切換。庫表設計、傳輸、加工、分析等,它們的購買成本、使用成本、運維成本本身就是對客戶的巨大考驗。第四,數據治理困難。數據安全保護法難以真正落地,安全合規問題突出。八、簡單易用的一站式數據管理與服務 78 基于以上痛點,阿里云推出了一站式數據管理與服務 DMS。針對規范無法落地的問題,我們抽象了數據庫 DevOps。通過研發系統、訪問控制等一系列技術來解決問題,比如研發人員無需獲取到數據庫
87、的用戶名和密碼,也可進行數據庫表的設計、開發、變更等一系列流程。針對集成加工復雜問題,我們推出了數據傳輸與加工,通過集成數據傳輸、遷移、同步、訂閱等能力,實現了異構數據庫端到端的實時數據傳輸,并且過程中進行 ETL,解決了數據自由流動問題。針對多個工具切換的問題,我們抽象出了數據服務應用功能,提供了一鍵寬表、一鍵報表、一鍵 API 等服務,解決了數據使用的復雜問題。另外,推出了邏輯數倉功能,同時結合 ADB 引擎,使功能更強大、更易用。針對數據治理困難,我們與達摩院合作實現了數據知識庫構建、隱私脫敏、可信計算、全加密數據庫等一整套流程,建立了事前、事中、事后的方法論,并且將能力沉淀到數據庫安全
88、中心,希望能為用戶解決安全問題。八、簡單易用的一站式數據管理與服務 79 接入層,無論是 SQL 還是 API 都可以被集成,調用層支持彈性,核心模塊層支持Scale Up 和 Scale Out。比如做數據集成時往往速度較慢,單進程無法滿足性能要求時,可以為其申請規格。底層的引擎層集成了數據庫所有核心產品的能力。DMS 滿分通過了信通院認證,底層 DTS 引擎從 2011 年開始服務于異地多活架構。我們擁有 50+自研技術,并且擁有 17 項專利沉淀。通過不斷從客戶問題中抽象出場景,最后變為產品能力。八、簡單易用的一站式數據管理與服務 80 為了避免數據庫的數據泄露風險,我們實現了訪問控制技
89、術,同時通過授權管理實現了庫、表、鏈甚至行級別的審批和授權。無論是人員入職、離職或轉崗,都不會發生數據泄露。數據安全包括敏感數據識別、分類、脫敏等。我們通過數據庫安全技術,能夠做到真正的分類分級。我們將數據法案內置于該能力中,用戶可以直接選擇并使用。我們也實現了 DTS 實時數據解析加工,提供了實時日志解析和遷移的能力。并通過Schema MCC 專利技術,保證用戶 DDL 時鏈路不會出現問題。通過大量應用的積累,我們沉淀了一系列基于數據的智能技術。比如通過 Schema Matching 技術判斷兩個列之間是否有關系。對敏感列進行加工生成新列之后,新列的對應狀態會基于血緣進行傳播,解決了一系
90、列衍生問題。通過數據和機器學習解決數據和報表之間的匹配問題,能夠自動推薦應該選擇什么樣的報表,并一鍵生成報表。8.2 DMS 一站式能力 在數據庫開發過程中,絕大多數公司都會遇到或正在遇到以下問題。比如數據庫研發規范只落在紙面,并未實際執行,導致數據庫故障一直發生;比如很多數據庫上線過程中的 SQL 優化、Review 都需要依賴 DBA 集中執行,導致研發效率非常低下;比如企業中很多人員擁有數據庫賬號和密碼,導致數據庫泄露。同樣的問題在十幾年以前已經困擾著阿里巴巴。八、簡單易用的一站式數據管理與服務 81 因此,2010 年我們自研了 DMS,發布了第一大模塊 DevOps 能力,通過 40
91、0+研發規范、全流程變更管控等一系列能力有效降低了 90%以上的數據庫管理成本,并且能夠最大限度地保證研發的高效率。DevOps 于 2013 年在公有云上發布,企業可以基于 DMS 靈活的自定義流程和自定義權限能力構建自己專屬的 DevOps 解決方案,提升企業的研發效率、穩定性和安全等。讓數據流動是避免數據孤島的有效手段。而數據流動一直以來都是一個難題,存在異構、時延、一致性等問題。阿里云的 DTS 數據傳輸服務為數據的流動提供了支持。DTS 是全球首款公有云上發布的數據傳輸服務。它融合了阿里集團內部的高性能環境、高穩定性的數據傳輸要求以及阿里云上十幾萬客戶多元多端的數據流動能力,能夠解決
92、數據異構傳輸、遠距離傳輸、弱網絡傳輸以及數據一致等問題。八、簡單易用的一站式數據管理與服務 82 從數據中挖掘價值是每個企業在新時代下面臨的機遇,也是巨大挑戰。DMS 通過邏輯數倉的能力降低了數據服務與應用的門檻。傳統方式下,如果要查看某一類商品在某個城市賣出的單數,需要將需求提交提給BI 工程師,最快速度下也需要一到兩周時間才能將報表產出。但是在 DMS 下,只需要通過兩條 SQL 即可分鐘級地產生報表。八、簡單易用的一站式數據管理與服務 83 如果沒有數據安全,則所有其它能力都沒有意義。DMS 提供了全鏈路的數據安全能力。比如事前會提供自動數據分類分級、細粒度到行列級別的權限管理能力;事中
93、會提供實時動態脫敏、隱私計算等能力;事后會提供審計、數字水印溯源等能力。以上所有能力不僅服務于阿云數據庫,同樣服務于自建數據庫,也可以服務于他云的數據庫。另外,我們針對企業的高頻場景提供了一站式產品化解決方案。八、簡單易用的一站式數據管理與服務 84 我們提供了 GAD 全球多活數據庫,為容災國標五級、低延時的全球就近訪問等場景提供了開箱即用的能力;提供了一站式企業級備份平臺 DBS,能夠滿足企業多源多端統一備份、基礎數據備份、日志備份、異地備份、歸檔等需求,甚至可以提供備份數據的查詢。通過數據歸檔結合邏輯數倉,使得對歸檔數據與在線未歸檔數據能像在一張物理表上一樣去使用,解決了歸檔場景下數據查
94、詢難的問題。針對商業數據庫遷移的需求,我們提供了一站式解決方案,從評估、改造、遷移到最終的割接,開箱即用。八、簡單易用的一站式數據管理與服務 85 DMS 已經為 100 萬+用戶提供了服務,包括開發、測試、運營等。我們持續關注體驗和交互的簡單易用,因此我們在過去一年中優化了 128 項體驗,同時不斷上線極簡模式,不斷探索基于機器學習的智能推薦能力。未來,我們也將在簡單易用上不斷前進,持續為用戶提供一站式的數據庫管理服務。九、云數據庫 RDS 的最新功能與最佳實踐 86 九、云數據庫 RDS 的最新功能與最佳實踐 作者:彭祥,阿里云數據庫事業部資深技術專家、RDS 產品部負責人 許鴻斌,阿里云
95、數據庫事業部高級產品專家 孔祥發,歡聚集團聚時譯高級研發經理 9.1 云數據庫 RDS 重磅功能發布與最佳實踐 1.整體介紹 阿里云 RDS 伴隨著阿里云的成長而成長,經歷了不同的發展階段,從最初的腳本化運營方式發展到平臺化、商業化。在產品能力上逐步支持了 OpenAPI、PostgreSQL、SQLServer 等多種引擎。阿里云 RDS 在過去幾年中經歷了智能化演進,比如通過 DAS 的機器學習能力支撐智能決策,通過性能參數調優、MySQL 治理等來提升引擎產品的能力。2021 年,阿里云 RDS 進行了架構升級,全向云原生演進,充分將阿里云底層的 IaaS 資源服務能力通過 PaaS 服
96、務的進行透傳。并在此基礎上進行了創新,包括 Serverless、ECS 等。九、云數據庫 RDS 的最新功能與最佳實踐 87 阿里云 RDS 從過去基于物理機隔離的架構逐步朝著 All On Ecs 的方向演進,將 PaaS的產品能力構建在 IaaS 資源服務能力上,再基于 ECS 以及 ESSD 實現存算分離架構進行資源解耦,為產品能力帶來了極大的提升,比如可基于快照秒級恢復以及計算和存儲獨立擴容和縮容的能力。在計算存儲分離架構的基礎之上,構建了基于 K8s 的集群調度系統,將引擎產品容器化部署到 ECS 服務器上。在分層管控架構之上,我們構建了自己的 Serverless 產品能力。使用
97、統一的管控架構支撐了四款不同產品,包括 MySQL、PostgreSQL、MariaDB 以及 SQL Server。除了硬核技術以外,我們也通過多種產品能力幫助開發人員提高開發效率。2.產品趨勢及技術解讀 九、云數據庫 RDS 的最新功能與最佳實踐 88 數據庫在傳統的 RDS 階段,計算節點和存儲容量都需要預設,比如通過運維人員根據業務需求進行手動配置,計算規格有限,嚴重限制了業務開發人員的開發效率以及 DBA 的運維效率。云原生 RDS 能夠利用 DAS 產品進行智能化調度,智能化預測產品或用戶業務需要多少資源量,可以自動進行伸縮。而 RDS Serverless1.0 和 2.0 階段
98、希望客戶無需關心資源,計算規格和存儲容量都能夠隨著業務量的發展進行擴縮容。傳統 RDS 架構下,運維人員需要根據業務的波峰波谷進行手動擴縮容,難以精準預計,極易出現資源浪費或資源儲備不夠的情況。同時,傳統 RDS 架構下,資源伸縮的范圍有限,無法完全滿足業務需求。而在 Serverless 架構下,計算規格和存儲容量能夠隨著業務波峰和波谷進行彈升彈降,極大提升了運維人員的工作效率。同時,可以對資源進行更精細化、更準確的配置,節約了大量成本。九、云數據庫 RDS 的最新功能與最佳實踐 89 RDS Servereless 產品為業務帶來了以下核心競爭優勢:資源配置可隨著業務負載實現秒級彈性伸縮。
99、按需使用,按量計費。構建在內核功能的創新之上,實現了內核 BP Online Resize 優化,彈得更穩。支持 RESTful API 訪問機制。只需一個 endpoint 即可通過 RestAPI、HTTP 協議進行訪問和操作,配置數據庫資源。我們實現了 RDS On 倚天 ECS,包括底層 CPU 架構、ECS 機器,到上層數據庫的全棧資源,并實現了軟硬協同優化,使得 RDS On 倚天 ECS 的性能、穩定性等各個方技術指標看齊并超越最新一代的 X86 機型。平均性能提升 10%,性價比提升 25%,并實現了 0 成本的應用適配。九、云數據庫 RDS 的最新功能與最佳實踐 90 從過去
100、的 RDS 遷移到 ECS 架構后,存在大量穩定性問題,需要持續不斷地創新、深度優化才能使新架構的產品競爭力看齊過去物理機形態的能力。我們對 Binlog 體系進行了改造,實現了 Binlog In Redo 模式,將原先事務提交commit 的兩次 IO 操作降為一次,大幅提升寫操作的吞吐。同時,對 Binlog 的寫模式也進行了深入調整。RTO 是眾多數據庫使用者最關心的核心指標。RDS 產品過去在 RTO 上做了大量優化。比如大事務 Recovery 優化,從過去的需要小時級降至秒級;同時,對 Buffer Pool 進行了并行初始化優化,提升了 RTO 指標,對 Reo 的核心組件進行
101、了深度優化,提升了產品能力。3.產品功能發布 我們一直在思考,能否有這樣一種產品形態,既能夠兼顧實例的整體可用性,同時又能夠最大范圍實現降本增效。因此,阿里云推出了 RDS MySQL 的新形態RDS MySQL 集群版。集群版相比于之前的高可能架構存在兩點頗為明顯的變化。九、云數據庫 RDS 的最新功能與最佳實踐 91 集群版支持同時掛載多個從節點,這意味著會有多個備庫,同時所有備庫將開放給業務訪問,以實現資源的最大化利用,降低成本。集群版不僅提供了最高 4 個 9 的全球最高等級 SLA 服務保障,同時還通過內置的 MySQL 主復制技術結合內置的 Paxos 分布式協議算法,確保數據多點
102、性,確保數據永不丟失。以最小成本實現數據庫服務的可用性以及數據可靠性最高級別的保障,是 RDS MySQL 集群版的最大競爭力。RDS 通過一系列產品功能的矩陣,實現了整體業務的降本增效。九、云數據庫 RDS 的最新功能與最佳實踐 92 在計算節點上,支持了基礎版的只讀實例,針對有明顯使用時間的業務,在業務停用之后可以同步暫停 RDS 實例,實例暫停期間不收取任何計算節點費用,需要時又可以快速將它拉起用于生產業務。存儲節點部分也進行了核心優化。依賴云盤能力,支持了從 PL0 到 PL3 全等級的云盤矩陣,同時可以根據線上業務的吞吐需求,在 PL0 到 PL3 之間隨時進行無損的在線變化。存儲流
103、量層,通過數據庫內部的核心技術實現了云盤縮容能力,可以根據業務數據量的變化實現云盤存儲空間分配以及降本。不論是計算節點實例暫停還是存儲節點的可升可降,我們始終希望業務的不同階段都可以在 RDS 上獲得最優的資源成本與解決方案。RDS 與數據庫備份產品 DBS 深度集成之后推出了新特性:急速備份及恢復能力。數據庫物理的備份中,往往會涉及到跨存儲介質的數據傳輸以及恢復,耗時耗力。而通過 RDS 極速備份及恢復能力,可以實現對全量及增量的物理備份和文件實時自動合成快照備份。進行數據恢復時,可以通過快照秒級掛載實現數據的快速恢復,大幅度縮短數據恢復時長。此前恢復 1T 數據大約需要 4 小時,而現在僅
104、需 30 分鐘,數據效率恢復提升達 88%。九、云數據庫 RDS 的最新功能與最佳實踐 93 同時,也支持了針對單庫單表級別的恢復能力,該能力可大范圍應用在諸如游戲等多租戶,需要單庫單表回檔的場景,讓線上業務以最快速度回檔到正確狀態。RDS 的可觀測性體驗也得到了增強。首先提升了更多資源監控指標,客戶可以針對RDS 實例進行更全面的掌控。其次支持了全局視角的自定義監控大盤,可以根據多實例、多時間點、多監控進行數據的聚集、展示以及對比分析。針對最為常用的指標比如資源、空間、鏈接、慢 SQL 等,支持定期的常態化自動巡檢,會定期給出報告,發布告警,用戶可對全局運行狀態實現全面掌控。九、云數據庫 R
105、DS 的最新功能與最佳實踐 94 PostgreSQL 被譽為全球最先進的開源數據庫,而 RDS PostgreSQL 通過插件的能力擴展了其使用場景。我們發布了 Ganos 時空引擎插件,可應用在高新地圖、路徑規劃等場景;發布了全加密數據庫插件,可以實現從內存到磁盤全鏈路最高等級的加密;發布了 PASE 高維項目插件,可應用于圖像識別、AI 機器人等場景;發布了Babelfish 插件,可以實現對 SQL Server 數據庫的兼容以及對商業數據庫的替換。以上插件能力的加持使得 RDS 在 AI、時空、加密等場景上具備了更好地為業務提供服務的基礎能力。4.最佳實踐 從線上真實數據可以看到,S
106、erverless 已經廣泛應用于資源波動、具備不確定性負載的場景中,比如運維及開發環境、IDC 到云上容災環境、音視頻不定時轉碼、多人在線協同辦公系統等。以上場景均具備一個共同特征:業務間斷不連續,但在業務高峰期對數據庫性能有著極高要求。RDS Serverless 通過秒極彈升、按需付費的能力,可以很好地滿足此類場景的需求。在業務低峰期,可以保持在較低水位線運行,而在業務高峰到來時,又可以快速彈升以應對業務流量。大幅降低了資源成本,最高降本 70%,真正實現了增效并且降本。九、云數據庫 RDS 的最新功能與最佳實踐 95 Babelfish 具備了 SQL Server 商業引擎語法的兼容
107、能力。在 RDS 上啟用 Babelfish插件之后,即可通過 SQL Server 語法以及 PG 語法同時對數據庫進行訪問,以開源數據庫引擎的能力以及成本實現商戶數據庫引擎的能力,進而將商業數據 SQL Server 替換,使得數據庫采購成本下降 60%-70%。RDS 砥礪前行,經歷了十年發展之后,無論是從最底層的軟硬協同一體化,還是數據庫最核心的內核優化,亦或是最上層集群 MySQL 形態的推出,始終致力于讓每一個客戶獲得更快、更穩、更安全、更好用的數據庫使用體驗。九、云數據庫 RDS 的最新功能與最佳實踐 96 9.2 歡聚集團 RDS 實踐 歡聚集團成立于 2005 年,并于 20
108、12 年在納斯達克上市。集團從泛娛樂直播切入,孵化出電子競技游戲直播,并深度布局電商、金融、教育等行業,是一家綜合創新的全球化科技互聯網公司。集團深入本地化耕耘產品內容和社交生態,持續為用戶構建基于興趣的社交互動全球化社區,實現全球業務的健康可持續增長,為用戶創造更大價值。在該業務背景下,降本提效成為重要的技術考核標準。1.現狀和挑戰 九、云數據庫 RDS 的最新功能與最佳實踐 97 公司現狀和挑戰主要有以下三個方面。IDC 自建。由于業務隔離,平臺共享資源能力弱,資源利用率低。另外,計算和存儲綁定導致項目風險高。多年積累導致生態落后,迭代成本高。開源版本,固定規格。相比商業版本或定制化版本,
109、存在性能損失。另外,版本升級風險高,固定規格使得規模預判強依賴于業務,成本陡增。專業 DBA 運維。人力成本高,工作量難以均衡。業務滿意度低,人員流動性高。運維過程中,人重度參與,響應周期長,人力成本高。2.選型和演進 選型過程中,我們主要考慮了 IDC 自建和 RDS 兩種方案。IDC 自建:可定制性高,穩定性好,權限豐富。RDS:性價比高,生態完善,能夠提供完善的運維治理。域名監控完備,經受過各個行業考驗。在數據合規性方面,能夠提供完善的安全審計方案。九、云數據庫 RDS 的最新功能與最佳實踐 98 選型之后,演進過程經歷了以下三個階段。階段一:ECS 自建階段?;?ECS 搭建開發者集
110、群,完成基于后臺的承載。優點在于資源彈性增強,資源共享性提高。存儲與計算分開,適用于測試環境和業務驗證。缺點在于其運維、生態需要自建,只適用于初期階段。階段二:RDS 基礎/高可用版階段。能夠滿足業務的高并發和高可用,提供完善的監控和數據治理方案,實現資源基本彈性。階段三:Serverless MySQL 階段。通過設置 CPU 區間,實現資源彈性極致,應對波峰波谷明顯的場景。3.實踐落地 九、云數據庫 RDS 的最新功能與最佳實踐 99 確定選型之后,需要將數據從自建 IDC 遷移到 RDS,并且實現業務平滑遷移。首先,連接自建網絡與云上網絡,使用 DTS 產品完成數據雙向同步。同步完成后,
111、在兩者間增加 Lvs proxy。接著,在應用層面通過 Lvs proxy 連接數據。應用數據連接完成后,進行切換,完成后下線自建 IDC。集成 DAS 能夠對 RDS 的健康維度進行監控,并且補充界面展示。九、云數據庫 RDS 的最新功能與最佳實踐 100 Serverful 中 DB 暴露在所有應用下,VM 與 DB 通過連接池保持連接。Serverless 下 FAAS 訪問 DB 需要通過 RESTAPI,鑒權通過 RAM/AK/SK。RDS 實踐達到增效降本的目的,運維人效提升 70%至 80%,投入成本減少 40%至50%。十、云原生智能化 DBaaS 101 十、云原生智能化 D
112、BaaS 作者:周方圓,阿里云數據庫事業部資深技術專家、DBaaS 產品部負責人 1.阿里云數據庫 DBaaS 簡介 云數據庫誕生之前,用戶往往需要自建數據庫或由供應商負責搭建數據庫,但用戶需要對數據管理與數據庫管理進行全權兜底,這對于用戶來說是不小的挑戰。云原生數據庫誕生之后,用戶可以將專業的事情交給更專業的云數據庫來實現,比如可以通過 DMS 進行一站式數據管理,通過 Open API 用戶控制臺購買云數據庫實例。而 DBaaS 相當于云數據庫的操作系統,可以通過 DBaaS 加數據庫內核快速實現商業化和服務化。DBaaS 已經通過信通院數據庫管理平臺滿分認證,也能夠幫助基于 DBaaS
113、的產品快速通過認證。十、云原生智能化 DBaaS 102 提效是當前大多數企業的關鍵詞。對于企業而言,降本增效訴求強烈;對于開發人員而言,平臺多、種類多,需要對開發效率進行提效;另外伴隨著規模越來越大,運維成本也越來越高,運維也急需提效。2.云原生 DBaaS 全面升級 Serverless 化是大勢所趨。DBaaS 提供了彈性設備的基礎設施,為產品快速實現Serverless 化提供平臺支撐。十、云原生智能化 DBaaS 103 DBaaS 本身已經掌握了所有數據供決策中心使用,將策略下發,節點根據用戶負載的預測進行調整即可。但我們無法 100%準確地進行預測,當有突發情況發生時,節點也需要
114、有秒級彈升能力,實現治標且治本的效果。如果有端側的實際操作與中心策略不吻合,則會將此類情況上傳到決策中心,中心根據反饋進行學習與調整。為了實現秒級彈性,我們將調度系統與資源池進行聯動,得益于阿里云資源池的優勢,能夠快速從資源池獲得大量資源,并且在不需要資源時可快速釋放??梢栽诒U?SLA 的前提下,能夠實現最快速度、最小成本的彈性。DBaaS 通過其彈得快、彈得細、彈得穩以及彈得廣的特性,幫助用戶解決了資源的效率問題。十、云原生智能化 DBaaS 104 另外,伴隨著開發架構的復雜化,開發效率問題也日益凸顯。而提升效率最簡單的解法即解耦。我們將 DBaaS 的組件進行了非常詳細的梳理,抽取出核
115、心部分組成非常輕量的架構,以保證核心功能可快速運行起來,在本地實現分鐘級拉起。需要開發核心功能時,可以直接在本地進行快速調試。另外,各種組件可按個人需求插件化接入,實現快速開發。十、云原生智能化 DBaaS 105 基于 DBaaS 構建數據庫服務時,如果只需要開發數據庫內容,則無需加入其它組件,可以快速迭代、快速更新。如果需要與備份服務聯調,則通過配置的方式加入相應模塊即可。另外,DBaaS提供了從開發到自動化測試到部署的全平臺、端到端到CI/CD流水線,使得應用能夠快速實現開發、測試、部署、上線。我們也構建了非常強的可觀測能力。比如可以根據提供的數據,快速搭建 Top 結構的展示。優秀的可
116、觀測能力在一定程度上解決了從開發、部署到運維過程中的問題。十、云原生智能化 DBaaS 106 3.AI 助力數據庫智能化管理 而隨著運維規模愈發龐大,單純的 Dashboard 和告警也不再能夠滿足業務需求。因此我們需要通過 AI 助力數據庫的智能化。我們將可觀測系統與調度、運維等系統打通,實現閉環,實現了端到端的、可觀測的運維體系。十、云原生智能化 DBaaS 107 過去幾年,我們在線上積累了大量操作經驗,問題規模越來越大時,操作規則也越來越多,每天產生了近千億次異常檢測。而海量數據正是機器學習的基礎,因此,我們與達摩院強強聯合,推出了數據庫智能管理的能力,且該能力與國內相比存在兩年多的
117、技術代差。同時,我們將技術經驗整合成大量論文,發表在頂會期刊,分享給業界。據統計,70%的數據庫性能問題由 SQL 導致,70%受訪 DBA 認為 SQL 優化是最耗時的工作。因此,我們將內部能力產品化后推出了數據庫自治服務 DAS。比如數據庫在第一分鐘時出現慢 SQL 導致服務下線,則 DAS 可自動在 1 分鐘內對數據庫進行限流,限流之后用戶服務即可恢復,從感知到修復僅需不到 2 分鐘。同時,DAS 還可對慢 SQL 原因進行分析,比如發現原因為索引建立不合理,則可自動對索引進行優化,然后自動解除限流,一定程度上從原先的治標轉變為了治本的效果。另外該種情況下,如果得到用戶授權還可自動進行擴
118、容;如果未得到授權則會建議用戶進行擴容。我們希望通過云原生、智能化的 DBaaS,讓用戶的使用更簡單,讓阿里云數據庫更快、更穩、更安全、更好用。十一、達摩院加持下的數據庫前沿技術 108 十一、達摩院加持下的數據庫前沿技術 作者:汪晟,阿里巴巴集團資深技術專家、達摩院數據庫與存儲實驗室系統與安全方向負責人 達摩院數據庫存儲實驗室自 2018 年成立以來,一直致力于面向云時代構建原生的數據庫管理系統,希望通過技術創新為企業客戶帶來更高質量、更高價值的數據庫管理服務,最終讓企業客戶數據能夠無縫、安全、智能、自由流動。目前,達摩院數據庫與存儲實驗室主要聚焦于全域多模、安全可信、智能自治、混合負載幾個
119、研究方向。同時,我們也將研究成果真實落地到了阿里云各個數據庫產品之中,為企業客戶帶來全新的體驗。1.全域多模 近年來,智能位置技術發展非常迅速,主要運用于自動駕駛、智能物流、增強現實等場景之中。相信未來,這些面向全空間的位置服務將會深入融入到我們工作生活的方方面面。面向全空間場景,需要管理的數據類型越來越多,數據規模也越來越大。因此,如何更好地管理數據、存儲數據便成為了的更大挑戰。十一、達摩院加持下的數據庫前沿技術 109 達摩院打造了孿生全空間數據管理引擎 Ganos,將全空間數據管理能力融入到云原生數據庫管理層中,在業界首個提出了融合了空天地、地上下、室內外全模態數據的混合存儲、查詢與分析
120、計算服務。上圖列出了 Ganos 的十大功能引擎。比如處理車輛行駛數據會使用到軌跡引擎,處理建筑模型數據會用到表面網格引擎,不同引擎組合在一起解決了現實生活中非常復雜的模型表達與數據操作問題,也實現了全空間數據在數據庫內部的超融合計算。十一、達摩院加持下的數據庫前沿技術 110 Ganos 發布了全新 5.0 版本,支持了視算一體化 3D 全空間數據處理,主要包含三個核心能力的突破?;诒砻婢W格、三維實景與體網格構建了 3D 全空間模型,使得城市全域傳輸的復雜場景得以在 Ganos 中進行表達。在數據庫內支持了全空間計算能力,比如拓撲關系計算、交并差集計算,使得全空間的復雜計算相比于傳統中間件
121、的方式提升了 50 到 100 倍。支持了全空間擴展存儲,可以將部分數據存儲于成本更低的 OSS 空間,使得庫內數據容量降低 50%。除了功能升級,Ganos 也與阿里云數據可視化平臺 DataV 進行了深度融合,相比于傳統的數字與孿生系統有了全面升級,包括全空間、可計算、真孿生。真孿生指使用實體模型取代傳統的靜態切片,使得數據真正能夠動起來,能夠實時進行計算與分析。2.安全可信 近年來,企業數字化進程不斷加快,數據已經成企業的重要資產。同時,數據安全法、個人信息曝光法紛紛出臺,國家對數據安全的重視度越來越高。在如此嚴峻的形勢下,企業如何在允許數據在不同系統與組織之間流動使用的同時,還能保障數
122、據資產的安全,成為了現在數據庫管理系統面臨的巨大挑戰。十一、達摩院加持下的數據庫前沿技術 111 達摩院打造了下一代數據庫安全可信體系,在業界首個提出面向全生命周期數據密態管理理念,通過創新技術更好地保障企業數據資產的機密性、真實性與隱私性。數據庫安全可信體系包括以下幾項核心能力:第一,全鏈路敏感數據保護。能夠讓業務敏感數據比如客戶個人信息在進入整個應用鏈路最初即進行加密,在后續任何子系統中都看不到數據明文,只有授權的角色方能看到動態脫敏后的數據。十一、達摩院加持下的數據庫前沿技術 112 第二,全密態數據庫。密文數據進入數據庫以后無需解密,可直接在密文上進行數據查詢、分析與計算,實現企業數據
123、資產的可用不可見。第三,防篡改能力。對真實性要求很高的數據,比如存證數據、合約數據等,可通過防篡改能力驗證數據真實性,并且追溯任何對數據的操作和修改歷史。第四,隱私計算引擎。企業可以將自己的數據資產與第三方數據資產進行跨組織融合分析,在不泄露任何一方數據隱私的前提下,利用數據進行計算,得到需要的結果。同時也實現了企業資產的共用不共享。全鏈路敏感數據保護以及全密態數據庫的研究成果已經發表在今年的數據庫頂會VLDB,防篡改數據能力也是首批通過信通院防篡改測評的產品,隱私計算目前已覆蓋所有常用功能。依托于阿里云數據庫 DMS 平臺,我們將創新安全能力以及數據庫經典的安全能力統一管理,為用戶提供了覆蓋
124、數據全生命周期的安全保護與隱私保護體系。我們的產品通過通過了各項安全資質的認證,同時也在積極與各個權威機構協作,推行各個行業的數據安全標準,密切關注數據與安全行業的發展。十一、達摩院加持下的數據庫前沿技術 113 3.智能自治 近年數據庫技術與人工智能技術不斷碰撞,催生了兩種新技術,其一是 AI for DB,用 AI 的能力更好地提升數據庫使用體驗;其二,DB for AI,通過 DB 能力更好地挖掘數據蘊含的價值。達摩院在 AI for DB 方向打造了國內領先的數據自治技術,也促成了行業標準,是首批通過信通院數據庫系統智能化標準的廠商之一??梢岳每捎^測能力,通過分析自動執行數據庫的運維
125、操作,將客戶從復雜的運維工作中解放出來,將更多精力聚焦在業務本身。比如,時序分析算法在數據庫內提供了時序算子,在相同準確率的情況下,性能優于競品 1000 倍以上,且使用非常方便。DB for AI 方面,我們在數據內提供原生的 AI 算法,能夠將數據與 AI 算法統一進行管理,相比于傳統的將數據導出到外部的方式更簡單、更高效?;趦戎玫?AI 算法也提供了比如數據庫知識咨詢、實體關系識別、ID Mapping、NL2SQL 等各種 AI 解決方案。NL2SQL 技術在耶魯大學 Spider 測評被評為全球準確度第一,執行速度 10 倍于競品。我們也在公開數據集上進行了測試,超過 80%的測試
126、任務效果會優于其他方案。十一、達摩院加持下的數據庫前沿技術 114 根據預測,2023 年到 2025 年,全球將有 75%的數據庫實例運行在云上,大規模的云上實例更加速了數據庫自治的需求。我們打造的 AI for DB 能力已經服務于超過70 萬數據庫實例。DB for AI 方面,達摩院聯合 PolarDB,發布了首款 DB 數據庫原生的服務 Polar4AI,可以在 PolarDB 內搭建更高要求的 AI 應用,比如可一鍵搭建數據庫知識咨詢、風險控制、金融服務、搜索推薦等。同時內置了 MLOps,使用戶能夠通過聲明式 SQL 的方式方便地管理 AI 任務,也可以幫助用戶將自然語言的任務需
127、求自動轉化為數據庫的執行 SQL。十一、達摩院加持下的數據庫前沿技術 115 目前,Polar4AI 能力在很多復雜場景之下已經達到商業要求,因此阿里云數據庫已經采用了該技術,幫助用戶更高效、更快捷地管理數據資產。4.系統內核 分布式一致性協議通常需要通過 Paxos/Raft 協議保證不同節點之間對整個數據庫的運行狀態達成共識。傳統方式下,一般要求數據操作必須嚴格按照順序存儲。而達摩院創新采取了分布式亂序存儲的方式,規避了順序存儲帶來的性能瓶頸。相同規格下,吞吐可提升 7 倍。分布式數據要提供原子性,則需要引入分布式事務處理機制。傳統的 2PC 機制在高吞吐、高并發、高沖突的情況下,很容易出
128、現性能瓶頸。而達摩院對該場景進行了優化,避免寫操作被回退,大幅降低了性能瓶頸出現的概率,吞吐提升 30%到 100%。十一、達摩院加持下的數據庫前沿技術 116 近年來,HTAP 數據庫的架構演進迅速,經過探索我們發現,基于共享存儲與 in-memory 列存的架構方案相比傳統方案,在彈性伸縮方面存在明顯優勢。該方案在內存上采取了行列轉存設計,使得 AP 節點構造時的效率大幅提升。數據庫算子硬件化方面,通過利用可編程交換機(硬件 SNA),將數據庫操作比如一致性協議、緩存、負載均衡等能力下推到網絡層,減少 DB 層、OS 層的計算任務,實現了降本增效。實驗室在潛心研究的同時,也持續不斷地在數據
129、庫學術界發聲。今年,實驗室聯合阿里數據庫產品團隊在數據庫三大頂會共發表論文 16 篇。值得一提的是,VLDB 2022 Industrial Track 全球共收錄 22 篇,其中阿里云數據庫 5 篇,也證明了達摩院的研究實力與學術影響力。未來,達摩院數據庫實驗室會繼續不斷探索數據庫領域的技術前沿,與阿里云數據產品服務一起相互促進,為企業源源不斷地提供技術能力,提升數據價值,為大家帶來更好地數據庫體驗。十二、云原生數據庫的場景化解決方案 117 十二、云原生數據庫的場景化解決方案 作者:李圣陶,阿里云數據庫資深解決方案專家 李巖,多來點高級技術總監 12.1 云時代數據庫應用最佳實踐 在數據庫
130、領域,全面上云已經成為行業共識。阿里的技術體系經歷了從 Oracle 到MySQL 到全面云原生化,外部企業的數據庫發展歷程亦如此。根據 IDC 報告,云數據庫市場在未來幾年會處于高速增長狀態?;谝陨蠑祿?,我們可以得出結論:全面上云已經成為各行業共識。上云過程中,阿里巴巴云數據庫為客戶提供技術、方案、服務三位一體的能力。阿里巴巴云數據庫是阿里巴巴最佳實踐的數據庫,是公共云上最大規模實踐的數據庫,提供了豐富的企業級特性,為企業上云提供全面支持。十二、云原生數據庫的場景化解決方案 118 Gartner 與 Forrester 都給予了阿里云數據庫很高的評價。2020 年與 2021 年,阿里云
131、數據庫進入了 Gartner leader 象限。阿里云數據庫在國內第一、亞太第一、全球第四,且市場份額高達 25%。阿里巴巴提供了全面的開源數據庫托管服務,包括 RDS,包括 Postgre。在該方向上,我們通過平臺化的能力,對內核 bug 修復、功能增強、云原生彈性能力、大規模運維技巧以及穩定性保障均提供了很好的支持。另外,阿里自研產品比如 PolarDB、ADB、Lindorm 等產品,均針對各行各業在數據庫場景的特殊需求輸出了更高能力,為客戶提供能力增強。同時,基于數據庫的內核能力,我們通過平臺化向上支持了各行各業的解決方案,賦能各行各業??傮w 十二、云原生數據庫的場景化解決方案 11
132、9 來說,我們通過單品能力以及多品聯合的能力打造孵化能力,并持續承接行業熱點動態以及高端客戶的需求,實現更多產品,為客戶提供更好的支持。降本增效一直是各行各業的長期訴求。阿里云提供了 Lindorm,通過深度優化 ZSTD算法,實現了數據壓縮比 8-10 倍的降低,為客戶在存儲方面實現大規模降本。Tair產品利用非一致性內存的架構,將成本將至一半,同時性能損失僅 10%,替代了高價格的內存型產品,提供了高并發 KV 型。通過阿里云的 Serverless,用戶不再需要購買規格實例,而是按需取用,按量付費,能夠提供秒級彈性伸縮。最后,通過 MyBase 產品將平臺超賣以及資源部署規劃的能力開放給
133、廣大客戶,進一步幫助客戶節省資源。十二、云原生數據庫的場景化解決方案 120 核酸系統具有三個核心訴求:1)能夠應對突發的核酸檢測要求,提高核酸檢測效率。2)對核酸異常人員能夠識別其行動軌跡以及密接人員,需要很強的分析能力。3)核酸系統數據能夠在全國內流動。以上三個訴求帶來了巨大的挑戰,包括高并發挑戰、實時分析挑戰以及數據流動挑戰。而我們通過 PolarDB-X、ADB、DTS、DMS、DAS 幾款產品,實現了 560 萬人次/小時的檢測能力以及結果最快一小時內發布。新能源車企有大量數據需要上報到車廠平臺或國家監管平臺。數據上報能否及時寫入,考驗著系統的秒級寫入能力;大規模數據量能否存得下,也
134、考驗著存儲成本的優化能力;數據存存儲后如何進行分析、如何反向賦能業務,考驗著平臺對于大規模數據的加工能力。我們采用 Lindorm 和 ADB,完美解決了車聯網場景的痛點。十二、云原生數據庫的場景化解決方案 121 數據庫上云國產化的背后并不是簡單的國產化自主管控訴求,而是我們看到了從芯片到操作系統到數據庫基礎軟件斷控的風險。因此,很多頭部企業、國家重要行業都需要數據庫上云國產化的可控的解決方案。阿里云數據庫產品體系提供了全面國產化芯片到國產化操作系統到國產化數據庫全棧的自主可控能力,通過了國家信通院權威認證。我們通過 PolarDB、ADB、DTS 三套體系為國產化的自動可控提供從端到端的解
135、決方案。十二、云原生數據庫的場景化解決方案 122 國家稅務系統使用了全棧阿里云稅務產品,解決了自然人報稅、稅務報表產生、查稅、分析、離線數據存儲以及從國家到地方各級省市的稅務流動問題。另外,為了保證稅務系統穩定,我們實現了跨城市的異地多活。該系統性解決方案全面展示了我們一站式的數據庫解決方案理念,通過一體化、平臺化、端到端的數據庫產品,為國稅系統支撐了 7.8 億自然人、20PB 數據量以及150+業務種類的實時分析。12.2 多來點云原生數據庫多活實踐 1.嘩啦啦高速發展的業務挑戰 嘩啦啦公司是國內頭部餐飲系統服務商,為商戶提供安全可信、一體化、全鏈路餐飲 SaaS 服務。2021 年,該
136、平臺交易總額超 7000 億人民幣,行業大盤中占比 15%。服務餐飲商戶超 40 萬家,日活躍店鋪數近 40 萬。公司研發人員超 1500 人,技術支持人員超 1000 人。公司當前 IT 現狀如下:第一,混合多云多數據中心。公司主要采用阿里云服務,并依托視頻互聯機房,建立了本地數據中心。第二,核心業務。公司提供超 3600 個服務,月均構建超 9 萬 3 千次,月均服務上線超 8 萬 1 千次。十二、云原生數據庫的場景化解決方案 123 第三,數據庫。擁有包含超 1500 臺頂配服務器的數據庫,范圍涵蓋 MySQL、Redis、TiDB、MongoDB、ClickHouse、Doris 等。
137、嘩啦啦高速發展階段面對的業務挑戰需要多活來解決,主要得益于多活的以下幾個優勢:能夠應對核心業務故障。能夠應對整個機房級別故障的需求。能夠實現業務單元化。能夠實現客戶端就近接入。2.云原生與異地多活解決方案 嘩啦啦多活架構的設計原則主要遵從以下四個方面。十二、云原生數據庫的場景化解決方案 124 業務內聚。盡量使單個下單在一個機房內完成,不要跨機房調度??捎眯詢炏?。發生故障切換機房時,優先保證系統可用性。數據保護。在數據可用的情況下,保護數據的完整性。業務感知。需要對代碼進行一些改造。建設異地多活存在諸多挑戰。流量管理難度高。需要具備多維的分流能力、動態調整能力。數據同步策略復雜。實現遠距離數據
138、同步,對同步性能、帶寬有很高的要求,同步策略無法深入壓測和調研。切換數據質量保障難。數據切換時需要檢查所有數據狀態,對技術及經驗要求較高。多數據中心統一管控難度大。自行開發多數據中心統一管控平臺需要對接眾多基礎設施,大量增加研發成本。而阿里云原生方案具備以下四點優勢:云數據庫的高可用性。能夠實現自動化秒級故障切換,數據庫更加敏捷和有彈性,能夠實現分鐘級擴展,相比自建數據庫性能明顯提升。同步工具成熟。DTS 在嘩啦啦使用深入,且對數據庫多活場景充分適配。數據質量保障。阿里云在數據保證方面有許多可靠性驗證及深度的系統實驗。一體化解決方案。有統一管理和路由規則,實現從多活建站到容災演練能力全覆蓋。十
139、二、云原生數據庫的場景化解決方案 125 當前嘩啦啦采用 DTS+RDS 為用戶提供產品化的全球多活數據庫能力,主要優點在于。產品化組件使用大幅降低實施成本及運營成本。提供低延時的全球就近訪問能力。提供延時接口支持業務單元切換。對后續架構進一步拓展、統一平臺建設提供能力支持。嘩啦啦基礎云平臺的技術組件包括技術點主要有。GZS,多活數據庫。主要管理訂閱的業務單元、商務 ID、客戶 ID 等。API Route。能夠針對網關層進行切入,針對業務單元進行遷移。SOA proxy&DAL??刂茢祿L問邏輯。十二、云原生數據庫的場景化解決方案 126 DTS。最底層技術組件,是阿里云提供的數據復制服務。
140、嘩啦啦整體云原生技術體系包括:POS、訂單、支付、商城、會員、供應鏈、小程序及其他。業務承載下層為 K8s,其上還有三個主要部分。資源整理平臺。包括資產管理、數據庫管理、配置管理、中間件管理、審批審計等功能。研發效能平臺。面向產研,具有 CICD、服務治理、立體觀測、告警服務、流程管理、應用商店等功能。穩定性平臺。包括告警、流量管理、流程管理、應用商店、經驗平臺、IT 平臺等。3.嘩啦啦后續的技術演進規劃 嘩啦啦后續技術規劃包括以下三個方面。十二、云原生數據庫的場景化解決方案 127 IT 基礎設施全面云化,全面采用公有云。應用全面云原生化。全面改造成云原生數據庫,使得平臺可以靈活運用,并易于
141、管理。業務全球多活。從兩地三中心到三地五中心,針對海外進行整體的基本建設。十三、打造世界級云原生數據庫開源社區 128 十三、打造世界級云原生數據庫開源社區 作者:王遠,阿里云數據庫產品事業部資深技術專家、架構部負責人 1.數據庫業界發展趨勢:全面擁抱云原生 數據庫是非常經典的技術。早在上個世紀 70 年代,其基礎理論已經相對成熟,80年代開始了商業化進程。此后每隔十年均有代表性產品出現,但是云計算的出現加速了數據庫技術的發展。從能力上來看,數據庫從承載在線業務逐步向一站式數據處理平臺演進,從結構化數據模型逐步向非結構化、半結構化的全數據模型處理能力演進。云計算也推著數據庫架構向著云原生演進,
142、使得數據庫系統在面對不同工作負載時能夠降低數據移動,提升數據庫的處理效率。同時,實現了資源池化與資源解耦,使得每個數據庫都能滿足高并發、高擴展與高性能方面的需求。十三、打造世界級云原生數據庫開源社區 129 數據庫系統的分布式架構階段有兩個演進方向。其一,共享存儲架構。該架構下,計算節點沒有狀態,擴展能力極強。同時,使用體驗與單體數據庫非常接近,對用戶非常友好。但問題在于存儲與網絡存在上限,擴展存在理論瓶頸。其二,分布式架構。每個節點自帶計算與分析資源,擴展能力在理論上沒有上限。但局限性在于節點增加與刪除均會引起數據重分布,擴展效率較低。同時,系統執行效率受限于數據分布規則與業務使用場景之間的
143、適配程度,因此,使用門檻較高。而云原生時代,以上兩種架構實現了相互融合。在資源結合的基礎上,計算、內存、存儲等各種資源擴展都不再是瓶頸。數據庫的處理能力也在不斷增長,融入了各式各樣分布式處理模式,包括 BSP、MPP 等,這也決定了云原生數據庫的應用范圍會越來越廣泛。因此,在開源社區的建設過程中,我們需要堅定地堅持開源技術方向,要始終堅持以云原生為指導。2.阿里云數據庫整體開源策略 開源的第一原則為兼容生態。數據庫作為基礎軟件,下連基礎設施,上連應用,無法脫離生態而存在。MySQL 和 PostgreSQL 是當前數據庫的兩大生態,因此,我們的開源 PolarDB 也會堅定地擁抱這兩大生態。十
144、三、打造世界級云原生數據庫開源社區 130 開源的第二原則為遵循全面的開源模式。數據庫作為一個重要軟件,其穩定性和可靠性是用戶最關心的因素。而我們將云產品直接開源,在于希望為用戶提供一款具備企業級特性、成熟穩重的產品。另外我們也希望將阿里多年在數據庫上的積累回饋給社區,讓越來越多用戶與開發者參與到云原生數據庫的共建中。十三、打造世界級云原生數據庫開源社區 131 3.PolarDB 云原生開源產品系列 PolarDB-X 兼容了 MySQL 生態,PolarDB for PostgreSQL 兼容了 PG 生態。PolarDB-X 由四個部分組成。上面部分是元數據服務,負責元數據維護,提供全局
145、授時服務等。十三、打造世界級云原生數據庫開源社區 132 下面部分分別為存儲節點集群、計算節點集群以及全局日志節點。計算與存儲完全分離,計算集群無狀態,同時,計算集群主要承擔 SQL 執行、分析事務等工作。存儲節點集群的主要特點是通過 Paxos 保證數據的強一致性,特別適用于對數據強一制性、安全性有要求的場景。日志集群最主要的特點在于與 MySQL 的 Binlog 100%兼容,能夠方便地接入現有的MySQL 數據鏈路,平順地為下游系統提供業務數據。PolarDB for PG 是基于共享存儲的架構,采用一寫多讀的模式。PG 是一款非常優秀的數據庫,擁有極強的 SQL 處理能力,因此被很多
146、傳統企業所選擇。但互聯網時代下,傳統企業需要進行業務創新,因此也希望 PG 能夠擁有應對互聯網行業特性的能力,比如有足夠的彈性應對洪峰流量。而 PolarDB for PG 很好地滿足了該類需求。PolarDB for PG 與 PG 實現了 100%兼容,PG 擁有的插件化能力,PolarDB for PG 一樣可以實現??梢酝ㄟ^ PG 插件支持高級能力,比如分布式能力、時序時空能力等。十三、打造世界級云原生數據庫開源社區 133 PolarDB-X 與 PolarDB for PG 兩款產品均原生接入 K8S 系統,這也意味著只要用戶與開發者的基礎生產環境里有 K8S 系統,即可很方便地通
147、過 K8S 部署、管理、調度、運維開源 PolarDB。同時,用戶也可以基于 K8S 根據自己的需求開發平臺。一年來,PolarDB 發布了諸多企業級特性,包括查詢的增強、安全加密、歸檔、容災、審批等。未來,我們也會持續將云上產品的企業級特性不斷增強,同時會堅定地堅持國產化和生態兼容。十三、打造世界級云原生數據庫開源社區 134 4.開源數據庫社區運營及生態建設 我們希望打造一個技術社區。因此社區的決策機構是技術委員會。在技術委員會的帶領下,我們希望通過建立用戶組的方式不斷擴展 PolarDB 在垂直技術領域的深度應用。目前,社區已經成立了 11 個 SIG,包括自然語言處理、異構硬件適配、查
148、詢加速等。我們希望通過 SIG 推動開源 PolarDB 與場景結合更加緊密,讓越來越多人能夠平順地使用開源 PolarDB。同時,社區會面向開發者與用戶定制深度技術內容,幫助業務與開發者更好地了解 PolarDB。我們會定期邀請 PolarDB 用戶,為大家分享使用PolarDB 過程中遇到的問題以及最佳實踐。十三、打造世界級云原生數據庫開源社區 135 此外,我們希望打造全棧的伙伴體系,與重點行業的客戶共同成立云原生數據庫適配中心,并基于適配中心打造行業專屬的開源數據庫。比如,我們與韻達成立了數據中心,已經落地了數據中臺的核心業務模塊訂單打單系統。后續,希望有越來越多的優秀企業與阿里云合作
149、,共同打造行業專屬的開源數據庫。同時,我們也會通過社區幫助合作伙伴培養所需要的數據庫人才。一年以來,我們已經打造了 10+基礎課程,學習人次超 150 萬。上圖展現了我們理想中未來 PolarDB 開源生態的全景,包括東南西北四個方向。其中,南向主要適配芯片、操作系統等;北向會與經典應用集成,對行業運營提供支撐;西向主要與伙伴、用戶一起打造完善的人才培養體系;東向會與更多具有 PaaS屬性的軟件實現適配,比如數據流入流出工具、數據管理工具、數據安全以及各種中間件。十三、打造世界級云原生數據庫開源社區 136 PolarDB 用戶已經非常多,涉及千行百業,對高性能、高擴展、復雜分析等極限類應用場景提供了非常好的支持。未來,希望有越來越多用戶與開發者加入我們,貢獻代碼,貢獻技術力量,一起打造屬于中國人的、有世界級影響力的云原生開源數據庫社區。