《中國計算機學會:數據中心Diskless架構白皮書(29頁).pdf》由會員分享,可在線閱讀,更多相關《中國計算機學會:數據中心Diskless架構白皮書(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、 中國計算機學會(CCF)信息存儲技術專業委員會 白皮書中國計算機學會(CCF)信息存儲技術專委會主編單位天翼云科技有限公司、中國電子云、中科馭數(北京)科技有限公司、華為技術有限公司、深圳大普微電子科技有限公司、北京大禹智芯科技有限公司、深圳云豹智能有限公司、上海云脈芯聯科技有限公司、珠海星云智聯科技有限公司、成都北中網芯科技有限公司、國科微電子股份有限公司、北京憶恒創源科技股份有限公司、北京得瑞領新科技有限公司聯合編寫發布單位數字經濟時代來臨,我們的社會每時每刻都在產生大量的數據。隨著數據的爆發式增長,我國的數據中心也迎來蓬勃發展。龐大的數據規模,需要高效可靠的存力和算力來支撐。數據中心作
2、為承載存力和算力的基礎底座,數據中心的性能、效率、可靠性等已經成為國家綜合競爭力的體現。近年來,我國數據中心的建設規模不斷擴大。與此同時,碳中和已經成為全球的共識和使命,在全國一體化大數據中心、“東數西算”等戰略的要求下,如何應對建設需求的激增,同時滿足綠色低碳的要求,實現數據中心的可持續發展和高質量演進,是擺在我們面前的重大命題。存儲、計算、網絡是數據中心的關鍵組成部分,只有讓數據存得好、算力算得快、網絡傳得穩,三者協同有序發展,才能充分發揮數據中心的潛能。然而在實際建設過程中,不少數據中心經常采用通用服務器、計算和存儲一體化建設的方式,由于數據和CPU算力生命周期不一致,產生了存力效率不佳
3、、算力無法充分發揮等資源浪費問題。這本白皮書系統地梳理了數據中心架構轉型的背景和挑戰,提出了一種新的數據中心架構模式數據中心Diskless架構。文中詳細介紹了Diskless架構的定義和關鍵技術,以及典型場景下的應用實踐和未來的發展趨勢。Diskless架構通過存儲、算力資源的徹底解耦和池化共享,實現了數據中心架構的扁平分層和靈活組裝,提升了資源利用率和數據處理的效率。我們相信這是一次非常有意義的探索,這份研究對于相關決策部門、企業界、學術界具有很好的啟示和參考意義。數字化、智能化的未來正在加速到來,期待在政府、高校院所、企業等“政產學研用”多方力量的共同努力下,數據中心產業布局及生態將不斷
4、優化,迎來綠色高效發展的新階段。序言鄭緯民中國工程院院士執行摘要 1 Diskless架構產生的背景 1.1 新的業務挑戰催生了對Diskless架構的需求 1.2 IT技術的發展為Diskless架構奠定了基礎 2 Diskless架構與關鍵技術 2.1 Diskless架構 2.1.1 存儲模組 2.1.2 算力模組 2.1.3 網絡模組2.2 關鍵技術 2.2.1 場景化數據縮減 2.2.2 數控分離 2.2.3 盤芯協同 2.2.4 高通量網絡 2.2.5 網存協同 3 Diskless架構應用場景 3.1 互聯網&云行業應用 3.2 高性能計算HPC行業應用 4 業界創新實踐5 技術
5、挑戰與機遇展望 5.1 技術挑戰 5.2 機遇展望 參考文獻 010304 0609101111111212121313131415181922232324目錄CONTENTS數字時代來臨,人類產生的數據量以驚人的速度增長,數據成為新的生產要素。數據中心作為數字經濟的引擎,為千行百業的數字化轉型提供源源不斷的動力,數據中心的高效運轉對經濟社會的發展起到關鍵作用,成為衡量國家競爭力的重要指標。近年來,我國數據中心規??偭看蠓S升,投資增長逐年加快。經濟高速增長的背后,對可持續發展的要求也越來越高。在新基建、東數西算等國家政策及企業降本增效需求的共同驅動下,數據中心的綠色高質量發展成為焦點。歷史上
6、每一次IT基礎架構的重大變革,都離不開需求變化的推動。隨著云計算、大數據、AI等新技術的加速創新,眾多新興業務場景大量涌現,其中,云和互聯網行業存儲和處理的數據量占比最大,構建了我國最大的IT基礎設施平臺。在實際應用中,當新的數據應用出現的時候,為了快速部署和嘗試新業務,企業通常采用最簡單的應用與本地盤耦合的服務器一體化架構?;诜掌鞑渴鸫鎯Φ娜诤霞軜?,將計算、存儲、網絡等資源統一管理和調度,具有彈性的橫向擴展能力。然而,計算、存儲等硬件資源發展速度不均衡,算力生命周期和數據生命周期的差異越來越大,導致傳統IT架構存在擴展不靈活、資源閑置、利用率低下等問題,且無法滿足業務數據共享訪問的需求。
7、新的數據中心架構要走向何方,是值得關注和思考的問題??v觀現代計算機體系的演進歷程,IT基礎架構演變的脈絡是不斷分層解耦的。從計算機誕生伊始的存儲與計算緊耦合的大型機時代,再到磁帶、軟盤、磁盤、閃存盤時代,可以清晰地看出,存儲脫離服務器、與計算分離的基本形態逐漸成型并發展成熟,系統的效率、擴展性、靈活性在一次次存儲與計算的協同變化中不斷延展。歷史上,計算、網絡、存儲等硬件技術的不斷發展,一直是數據中心基礎架構演化和進步的重要基礎。今天,面對新型數據中心在容量利用率、存力效率等方面的挑戰,高性能盤框、專用數據處理器(DPU等)、遠程直接內存訪問(RDMA)、CXL協議等新型硬件技術的發展,為IT基
8、礎設施的重構提供了技術基礎,以滿足新型數據中心能夠兼顧資源利用率、可靠性、性能、效率等眾多訴求。執行摘要01在新業務挑戰、硬件技術快速發展等多重因素驅動下,Diskless架構正在迅速興起。數據中心Diskless架構由無盤化的服務器、極高存力密度的存儲系統、專用數據處理器和高通量的數據總線組成。服務器本地盤拉遠,構成無盤化的服務器和遠端存儲池,在資源利用率、存儲資源高效共享、多場景靈活部署、網存算協同等方面具有顯著優勢。相較于傳統存算分離架構,Diskless架構是更為徹底的存算解耦:它打破各類存算硬件資源的邊界,組建彼此獨立的硬件資源池,真正實現各類硬件的獨立擴展及靈活共享;Diskles
9、s架構是更細粒度的處理分工:它突破傳統以通用CPU為中心的處理邏輯,使數據處理等CPU不擅長的任務被專用加速器、DPU等替代,實現能效比最優的硬件組合。Diskless架構為云和互聯網等應用帶來高資源利用率、高可靠、高性能等價值。例如,虛擬化場景,服務器本地盤拉遠,可虛擬化計算資源顯著提升;數據庫、大數據場景,Diskless為計算提供池化大內存,加速數據處理效率;容器場景,外置存儲將上層容器與下層存儲分離,容器靈活的特點得以充分發揮;高性能計算場景,Lustre/GPFS等文件系統使用新型NVMe大盤替換本地盤,資源池化共享、按需擴展,提升了系統資源使用效率。不同企業的創新實踐推動著Disk
10、less架構的應用。盤框廠商通過盤芯協同提供直通盤框;系統廠商卸載數據本地布局與應用協同提供加速和增強能力;網卡廠商通過網存協同,向下構建新的存儲基礎設施層,向上通過DPU生態編程框架構建生態,基于Diskless架構全面創新的產業大潮正在涌來。未來,在國家東數西算工程等戰略的持續推進下,全國一體化大數據中心、智算中心為代表的新基建將獲得持續投入,我國數據中心的建設步入快車道。從國家頂層布局來看,為推動數據中心綠色高質量發展,國家將支持推動數據中心的技術創新和模式創新,推動關鍵技術的研發和規?;瘧?,為數據中心產業布局不斷優化指明了方向。對云和互聯網等新業務而言,數據快速增長的挑戰與降本增效的
11、訴求將長期共存,數據中心采用高效集約、分離池化的Diskless架構趨勢不可阻擋,數據中心產業變革的新機會正在到來。02Diskless架構產生的背景0103數字化、信息化的發展推動了新業務的加速創新。以云和互聯網為例,為了應對激增的海量數據,主要采用基于服務器部署分布式存儲服務的融合方式構建存儲。這類系統雖然解決了一些效率問題,但仍存在不少痛點。首先,從容量利用率來看,存算一體的系統面臨如下挑戰:Diskless架構產生的背景04數據保存周期與服務器更新周期不匹配。新興業務的海量數據需按照其生命周期策略(例如810年)保存。而在基于服務器的存儲系統換代周期由處理器的升級周期(例如35年)決定
12、。兩者之間巨大的差異導致系統資源大量浪費,增加數據遷移丟失風險。性能可靠與資源利用率難以兼得。分布式存儲系統大致可以分為性能型存儲和容量型存儲。性能型存儲通常采用三副本模式,空間利用率僅為30%左右。容量型系統為了提升空間利用率,通常采用跨節點EC(Erasure Code)方式,EC計算過程中的讀寫重構在消耗主機CPU資源時,還會消耗大量網絡資源,影響系統性能。此外,單位存儲介質容量不斷變大,給業務可靠性和性能帶來極大挑戰。存儲系統通?;贓C解決單盤故障,但隨著單盤容量不斷變大,不僅故障恢復的時間變長(例如1TB的NL-SAS盤傳統RAID重構需要10小時),故障重構也會對主業務造成影響,
13、增大二次故障的概率。1.1新的業務挑戰催生了對Diskless架構的需求圖1 分布式存儲資源利用率云和互聯網分布式存儲系統存儲資源利用率低常采用多副本方式保證可靠性不同系統煙囪式構建存儲,無 法跨系統池化存儲IP網絡服務器CPUCPU服務器CPUCPU服務器CPUCPU服務器CPUCPU服務器CPUCPU性能可靠性影響大EC計算過程中讀寫、重構等 消耗大量網絡資源。系統重構 效率低下,重構時間長。Diskless架構產生的背景其次,從算力和IO效率的角度,應用為獲取數據所繳納的“數據中心稅”(datacenter tax)日益嚴重,IO處理受“三大稅”制約而無法充分發揮:在主機側,服務器內的C
14、PU為處理網絡及存儲IO請求,需要消耗高達30%的算力,由于通用CPU并不擅長數據處理運算,導致其能效比低下;在存儲側,傳統存儲協議面向HDD介質設計,協議厚重,協議的處理導致帶寬損失20%以上;更進一步,存儲系統內部架構仍以CPU為中心,數據路徑無法直通盤,大量CPU算力和內存通道被數據通路浪費,導致時延增加20%。05最后,新興應用具有走向全局流動的容器化趨勢。應用從無狀態化向有狀態化擴展,基礎設施提供的服務需要在全局資源內靈活部署,在任意地方發放和調度,這就對基礎設施提出了“算力無處不在、存儲無處不在”的訴求。而當前IT基礎設施里,存儲系統通?;跇I務煙囪式構建,數據共享度低。IT基礎設
15、施圍繞特定業務建設,計算、存儲資源無法全局分層池化,難以滿足數據跨業務共享的訴求,限制了應用的全局分布式化??偟膩碚f,傳統的存算一體架構會帶來資源浪費、性能可靠性不足、存力效率不佳等問題,進而制約算力的發揮。另外,應用彈性受到基礎設施資源的限制,亟需新的數據架構來改善,進一步加速了Diskless架構的發展。06Diskless架構產生的背景計算機體系不斷發展,Diskless架構應運而生從現代計算機體系的發展歷史來看,IT基礎架構是不斷分層解耦的。以存儲為例,最早的存儲內置在服務器中,由于網絡帶寬的限制,為減少網絡傳輸中的損耗,人們自然而然的把計算和存儲耦合在一起。但由于單個服務器容量有限,
16、存儲容量十分受制于服務器空間。直到直連存儲DAS(Direct-Attached Storage)的出現,盤從服務器獨立出來,才解決了擴展不便的問題。后來,借助網絡技術的創新,數據的傳輸不再受物理邊界的限制,再加上存儲也面臨跨設備傳輸共享的需求,相應地出現了SAN(Storage Area Network)和NAS(Network Attached Storage)網絡存儲??梢哉f,計算、存儲和網絡等底層技術的發展,推動了數據中心基礎架構的分層解耦,促使數據中心走向資源池化的新型架構,Diskless架構正是在這一背景下誕生。面對數據中心在容量利用率、存力效率、算力能效比、可靠性等方面的挑戰,
17、專用數據處理器、新型網絡遠程直接內存訪問(RDMA)、CXL協議、高性能盤框等新型計算、存儲和網絡技術的發展,為數據中心走向Diskless架構提供了技術基礎。1.2IT技術的發展為Diskless架構奠定了基礎HDD+SCSISSD+SCSI/NOFSCM+CXL/UBUSIT技術棧趨勢:存算逐步解耦組件集中池化&可靠池化&可靠&共享內存的池化&可靠&共享新型盤框創新活躍算力走向異構本地盤走向Diskless應用走向severless內存做大池化共享介質和系統走向融合創新2計算機體系架構正在解構1時間線1.JBOD計算機體系架構ApplicationCPUMemoryFilesystemRA
18、IDDiskNIC圖2 存儲和計算分層解耦2.SANSCSIRAIDMem3.NAS、Object新的數據架構SCSIFilesystemMemorylessDiskless部件形態靈活組裝RAIDMem底層介質網絡技術演進Server算力多樣化多樣的應用推動生產進步,同時也在消耗驚人算力,應用對數據量和時延的不同需求讓計算朝多樣化方向發展。不同的應用需要不同的算法,特定的算法需要特定的算力來處理。比如,人工智能領域涉及較多的矩陣或向量的乘法和加法,專用性高,對算力消耗過大,就不適合用通用CPU進行計算。當前,摩爾定律演進變緩,通用CPU執行網絡和存儲功能,極大地占用了服務器端計算資源,CPU
19、性能瓶頸制約著傳統以CPU為中心的軟件的發展。未來的計算,數據將在最合適的地方以最合適的算力來處理。例如,網絡數據在DPU上近網處理,AI計算在GPU上被執行,神經網絡模型在NPU上訓練。如今,業界涌現出越來越多的數據處理單元(Data Processing Unit,DPU)和基礎設施處理單元(Infrastructure Processing Unit,IPU)專用芯片,在數據流處理路徑上取代通用處理器,采用專用處理器異構計算成為技術發展的一種趨勢。專用數據處理器可以釋放通用處理器算力,用于服務更適合的場景,顯著提升系統整體能效比。網絡高速化網絡技術決定了系統的響應速度以及吞吐能力,也決定
20、了系統資源池化的能力范圍。過去,萬兆IP網絡滿足了HDD等慢速介質的池化,催生了塊、文件、對象共享存儲訪問協議;RoCE(RDMA over Converged Ethernet)協議加速了SSD池化,催生了NoF(NVM Express over Fabric)存儲高速訪問協議;CXL(Compute Express Link)等新型總線型網絡使網絡時延降到亞微秒級別,正促使著內存型介質池化,讓CPU、GPU和其它加速器之間實現高速高效互聯,從而滿足高性能異構計算的要求。另外,數據的爆發增長促使網絡端口帶寬從25G、100G邁向200G、400G時代,高速網絡帶寬的快速演進支撐了存儲跨節點計
21、算過程中的數據高效讀寫和重構,減少了網絡資源的消耗,使系統容量和性能得以兼顧。Diskless架構產生的背景07高效存儲系統為解決服務器本地盤資源利用率低的問題,很多廠商推出EBOF高性能盤框。其不具有復雜企業特性,注重采用NoF等新型的數據訪問標準,以提供高性能存儲。Diskless架構可借助這些高性能盤框實現對本地盤的替換,將服務器本地盤拉遠構成遠端存儲池,實現真正意義上的存算解耦,提升存儲資源利用率。另外,傳統架構以CPU為中心,一方面,CPU和內存之間存在一堵“內存帶寬墻”,即CPU搬移數據受到內存帶寬制約,因此,業界的趨勢是在近CPU側產生更大吞吐的第一級內存池,以解決內存帶寬問題。
22、另一方面,IO要經過計算、網絡、存儲的多層協議轉換,產生了“IO時延墻”,目前主流的發展方向是基于CXL等高速內存網絡實現獨立的內存池。內存拉遠池化,可以解決本地內存容量和時延的問題,從而提升存力效率。08Diskless架構產生的背景Diskless架構與關鍵技術0209APPAPPAPPDockerAPP計算節點卸載本地布局面對前文提出的新業務的痛點與挑戰,借助計算、網絡和存儲等硬件技術的創新,數據中心Diskless架構正在迅速興起。傳統數據中心體系架構是典型的多級分層架構,從服務器到網絡到存儲,每一層都獨立圍繞CPU、內存、總線、硬盤等組件構成的完整計算機系統。與傳統存算分離架構相比,
23、Diskless架構并不局限于將CPU和外存解耦,而是將服務器本地盤拉遠,構成無盤化的服務器和遠端存儲池。因此,它徹底打破各類存算硬件資源的邊界,將原有架構的多級分層資源進行徹底解耦池化和重組整合,形成新的扁平分層,簡化了數據基礎設施架構。同時,Diskless架構將通用CPU不擅長的任務卸載到各種專用處理器上,使硬件的組裝更為靈活,從全局角度實現了硬件資源的最優組合。存儲模組、算力模組和網絡模組共同構成Diskless架構的三大分層,為Diskless架構提供高容量極簡盤框、本地存儲拉遠池化、無盤化服務器、新型網絡靈活組裝等幾大新興能力。2.1Diskless架構 圖3 傳統存算分離架構與D
24、iskless架構對比CPU本地性能盤CPUMEMMEM本地性能盤開源分布式存儲層ServerCPU業務場景計算域Server存儲域Server辦公虛擬化ServerCPU應用交換機網絡高通量數據總線(內存型總線、直連總線、IP總線、Optical總線)基于新型極簡共享存儲的Diskless架構底座CSIDPU內存池模組CXL/PCleCSIDPU內存池模組RDMACSIDPU閃存池模組NoFCSIDPU閃存池模組NoFCSIDPUHDD池模組NoFCSIDPU溫冷介質模組NoFMEMMEM云硬盤.虛擬化ServerServer本地性能盤本地性能盤內容拉遠池化,大內存加速應用KV、arrowC
25、XL分布式DB數據庫服務數倉/搜索服務計算節點MySQL HadoopSparkKVM/Docker內存拉遠計算節點KVM/Docker云主機 云桌面計算無盤化直通存儲模組file、blockNOF辦公虛擬化直出容器FS和分布式EC,卸載本地布局fs、blockRDMA容器存儲直播/點播云硬盤去本地盤KV/memClientLocaIFS存儲型模組拉遠池化共享特性極簡EC/壓縮10Diskless架構與關鍵技術Diskless架構中,存儲型模組主要以EBOF、EBOM(Ethernet Bunch of Memory)、EBOD(Ethernet Bunch of Disk)等新型盤框形態存在
26、。RAID、大比例糾刪碼算法等傳統存儲能力下沉到新型盤框中,構成“盤即存儲”的大盤技術,對外通過NoF等高速共享網絡提供塊、文件等標準存儲服務,可減少冗余資源開銷比例。此外,還可通過基于芯片加速的場景化數據縮減技術提供更多數據可用空間。這類新型盤框對傳統磁盤陣列的冗余池化技術和數據縮減技術進行了高度集約化和小型化,將服務器的本地盤和內存拉遠進行池化共享,有效支撐了傳統數據中心向極簡分層的Diskless架構演進。2.1.1 存儲模組 Diskless架構將數據存儲和訪問等操作從通用處理器剝離,卸載到以DPU為代表的專用處理器將上,相比通用處理器,能以更低的功耗處理更多的數據,從而釋放CPU算力
27、、提升算力能效比。此外,這類專用處理器還具備即插即用、即換即用等優勢,在硬件使用上更為靈活。Diskless架構引入DPU等專用處理器后,算力池化是必然選擇,將打破傳統以CPU為中心的服務器架構,由此提升數據密集型應用的效率。此外,特定的數據操作可由專用硬件加速器進行進一步加速,如糾刪碼、加密壓縮、網絡通信等。2.1.2 算力模組 網絡模組需要解決遠程訪問硬盤和內存的帶寬和時延問題,滿足Diskless架構下多種場景池化接入的訴求。當前,服務器本地盤可通過NoF高速網絡拉遠到EBOF盤框,實現SSD池化;下一步,內存資源池可通過CXL等新型總線型網絡構建PB級共享大內存,為業務提供更大的共享內
28、存空間。2.1.3 網絡模組 Diskless架構與關鍵技術11構建在新型數據架構上的新興應用,主要關注數據的性能效率和容量效率,再輔助簡單特性實現和應用的協同備份等訴求。Diskless架構改變了各類硬件資源的組合形式,其遠近關系、松緊耦合的變化催生了一系列圍繞該架構的關鍵技術。2.2關鍵技術數據縮減能力下沉到存儲模組,存儲系統可以使用變長相似重刪、數據壓縮壓緊等算法融合進一步提升縮減率率,提升數據存儲密度,有效減少對性能的影響。此外,隨著場景化數據縮減技術的發展,針對不同場景的數據特征,可使用不同的數據縮減技術。例如,針對基因、醫療等場景,可通過多幀圖片聚合壓縮、多波段數據合并壓縮等實現更
29、高縮減率;在數據保護場景,可通過變長或相似性重刪獲得更高縮減率,進一步提升了可得容量空間。2.2.1 場景化數據縮減 傳統存儲以CPU為中心設計,數據讀取、寫入都要經過CPU,使CPU成為系統性能的瓶頸,無法滿足新興應用越來越高的性能訴求。存儲IO處理可基于IO直通等技術,數據處理路徑可從智能網卡、DPU直通到盤,實現前端卡到后端介質的快速直通,構建極簡的快速數據訪問路徑,從而減少IO路徑CPU的參與,時延和吞吐挑戰理論極限。2.2.2 數控分離 12Diskless架構與關鍵技術通過介質和控制芯片深度協同可獲得端到端最佳TCO(Total Cost Ownership),實現存儲模組的效率突
30、破。通過多芯整合,實現盤控制器芯片、系統控制器芯片、框管理芯片的統一整合,既可以大幅提升效率,又能明顯地降低成本和能耗;通過介質融合、制造工藝整合,能夠實現極致成本的大盤。以冗余設計為例,新型存儲型模組直接集成介質顆粒,僅在框一級構建一層大比例EC的池化空間,輔助專有芯片卸載加速,可以簡化原有的盤內、框內等多層冗余設計,有效改善資源利用率。2.2.3 盤芯協同 根據部署場景及多樣化網絡敏捷和自適應性的業務需求,存算模組間的網絡連接可以選用CXL Fabric、NoF、IP等多協議進行組網。網絡連接可以選用直連模式或是池化模式。直連模式下,網卡資源被設備獨占使用;池化模式下,網卡資源池化,被多個
31、設備共享使用,可以提供更經濟的使用效率??鐧C架通信通常使用RoCE網絡。傳統RDMA連接數受限,可通過無連接等技術,解耦連接狀態和網絡應用,解決大規?;ヂ摰臄U展性問題,從而實現大型數據中心幾百臺服務器之間的高效互聯,達到數萬的連接規模。2.2.4 高通量網絡 智能網卡和DPU是服務器的數據出入口,充分利用好智能網卡和DPU的硬件卸載和加速能力,可縮短IO訪問的響應時間,提升IO效率。一方面,智能網卡和DPU可以實現網絡處理、虛擬化、容器的卸載,從而實現高吞吐和低時延網絡和存儲服務,降低主機數據處理開銷,提升IO訪問效率。具體來說,DPU可支持NoF存儲協議及RoCE網絡協議卸載,使遠程訪問達到
32、與本地存儲相近的性能;同時,DPU通過硬件輔助虛擬化或半虛擬化技術,實現虛擬化存儲訪問的性能提升。另一方面,DPU可實現存儲層EC、壓縮、加解密的卸載,通過集成硬件的數據校驗、數據壓縮、數據加解密等后端計算加速單元,實現網絡線速的數據盤前處理,提高帶寬利用率并降低處理延時,并降低系統整體功耗和成本開銷。2.2.5 網存協同 Diskless架構與關鍵技術13Diskless架構應用場景0314EBOD660+HDD660+TapeRADOSCeph-LIBRADOS分布式EC計算域云視頻業務容器存儲存儲服務器APP場景二存儲模組為計算提供池化大內存,KV接口加速應用場景三存儲模組提供文件接口和
33、大比例分布式EC,卸載本地布局互聯網業務平臺通常承載視頻、圖片、數據庫、AI分析、大數據等業務場景,在傳統云架構中,IAAS層存儲基于服務器本地盤,搭載Ceph分布式文件系統。Diskless架構在云和互聯網的應用主要有三種典型場景:一是針對虛擬化業務,直接將服務器本地盤拉遠,用Diskless存儲模組替代分布式開源存儲集群的物理硬盤層。二是為數據庫、大數據等需要極熱數據處理的業務提供大內存、Key-Value接口,加速數據處理;三是針對容器等新業務場景,為Ceph等分布式應用直接提供文件語義,并支持將溫熱數據分級到更冷的EBOD等機械硬盤存儲模組中,提升存儲效率。隨著NoF技術成熟,以亞馬遜
34、、Meta、Nvidia等廠商為代表的異構算力演進成為數據中心架構演進的熱點:以計算為中心的架構轉向以數據為中心,通過資源池化和共享的方式提升資源利用率、可靠性及擴展性,幫助企業降本增效、快速迭代,加速業務創新。3.1互聯網&云行業應用圖4 云和互聯網的三類典型Diskless應用場景服務器Block分布式存儲布局CephLustre服務器Block池化SSD/HDD盤場景一計算域存儲域存儲模組替換計算/存儲的本地SSD/HDD盤云硬盤NOF/IP網絡辦公虛擬化服務器BlockKVM/Docker云主機云桌面服務器BlockNOF網絡RAID池化NVMe SSD盤壓縮分級計算域CXL網絡NOF
35、/IP網絡RAID硬壓縮冷熱分級分布式DB數據庫服務數倉/搜索服務內存型介質內存型介質EBOF660660KVStore池化內存盤(EBOM)服務器KVM/DockerMySQLKV/FS服務器HadoopKV/FS服務器SparkKV/FSClientClientClientClientClientLocaIFSLocaIFSDockerAPP存儲服務器存儲服務器存儲服務器APPAPPDiskless架構應用場景1516Diskless架構應用場景虛擬化場景虛擬化技術在云計算中長期占據主導地位。虛擬化場景引入Diskless架構后,實現了真正意義上的存算分離,極大提升業務部署的靈活性。首先,
36、借助Diskless架構,可以加速存儲虛擬化,使得存儲架構完全池化并實現按需的彈性伸縮。其次,Diskless架構將存儲后端從服務器上完全剝離并卸載到DPU上,服務器作為存儲前端僅需保留必要的客戶端或驅動,并通過高速網絡實現互通。再次,Diskless架構提升了虛擬化災備能力,存儲后端多副本、EC等技術可以很好地處理數據遷移、備份和恢復,而虛擬機僅需獲取存儲后端地址即可實現存儲的重連。數據庫場景在數據庫領域,借用diskless理念,將計算節點和存儲分離,并將冷熱數據分層存儲在不同類型的存儲介質上,既實現了存儲數據的讀取共享,提升了效率,也節約了成本。在功能上,把數據庫的Redo log等處理
37、下放到存儲層,通過將數據庫的一部分數據處理能力下沉到存儲,在有數據的地方完成近數據處理,可以降低數據庫處理流程中的網絡IO,提升整體性能。此外,Diskless架構可以匹配數據庫實例在計算層的服務化、容器化,實現故障后整個資源池的均衡調度,提升系統可靠性。大數據場景大數據平臺的數據隨著時間推移,訪問熱度會大幅降低,將不同訪問熱度的數據存儲在不同類型的存儲上,將大幅提升存儲性能。Diskless架構通過專用冷熱存儲替換本地盤,實時熱數據與性能較好的數據節點相匹配,存儲在大內存盤框中溫冷數據則存儲在高密存儲硬件上,從而提高集群性能;計算存儲獨立擴展,可避免投資浪費;EC算法替代多副本模式,可提升資
38、源利用率;一份數據多集群共享,可減少重復存儲、消除數據墻;計算節點無狀態,可提升系統可靠性,單個故障不影響集群整體性能。Diskless架構應用場景17容器場景在容器等云環境下,應用的跨節點漂移需要云環境的存儲插件和存儲協作支持。在傳統存算一體架構中,容器與本地PV強綁定,當容器漂移時,原本的PV受限于架構無法直接跟隨,容器在其他節點重啟后,無法獲取到原PV中的數據,造成數據丟失。由此可見,存算一體的架構無法適應容器彈性、敏捷的特性。Diskless架構通過向分布式應用直接提供文件語義,將上層容器與下層存儲分離,實現數據的共享,漂移后數據仍可跟隨,從而幫助用戶更靈活地使用容器。同時,外置存儲提
39、供EBOF和EBOD兩種類型存儲,在存儲側實現冷熱數據的自動分級,可提升存儲效率,節省用戶開支。Lustre/GPFS等高性能面向對象的并行文件系統,被廣泛應用于超級計算平臺。全球超過60%的超級計算機使用了Lustre文件系統。以數據為中心(Data Centric),通過數據流驅動計算的架構成為一個重要的發展趨勢。Diskless架構下,Lustre/GPFS使用“盤即存儲”的新型NVMe大盤替換本地盤,可實現資源的池化共享、按需分配和擴展,從而提升資源利用率,降低整體成本,同時還可以隔離故障,簡化運維管理。另外,從可靠性的角度,由于Lustre的多個OSS缺少副本機制,一個客戶端或節點發
40、生故障時,存儲在該節點上的數據在重新啟動前將不可訪問,此時Diskless架構的高可靠優勢就更加凸顯了。3.2高性能計算HPC行業應用圖5 HPC場景Diskless架構計算集群以太網交換機管理服務器.InfiniBand交換機元數據服務器對象存儲服務器對象存儲服務器Scale-OutLustre/GPFS并行存儲系統NVMe盤框NVMe盤框18Diskless架構應用場景0419業界創新實踐眾多企業在IT技術棧不同層次的創新整合,加速了Diskless架構在業界的應用進程。盤框型廠商面向整框能力擴展,提供直通盤框能力,以EBOF/JBOF等典型形態存在,主打性能優勢。盤框型廠商推出的EBOF
41、盤框特點是全硬化,盤框內僅做NVMe到NVMe over Fabric的轉換,全硬化的IO路徑使得性能可以做到極致,單框支持千萬級的IOPS,典型廠商有:西部數據、國科微電子、大普微科技、憶恒創源、得瑞領新等。以西部數據的OpenFlex Data24 EBOF盤框為例,Data24將上層存儲控制功能完全放在前端服務器上實現,包括卷管理、RAID、EC糾刪碼等,同時通過低延遲以太網光纖網絡將NVMe的價值延伸至多個主機,是對Diskless架構的有力嘗試。1.盤框型廠商:通過盤芯協同提供直通盤框系統型廠商的優勢是具備軟硬結合的專業存儲能力,在EBOF/JBOF等高速盤框的基礎上,嘗試卸載部分數
42、據本地布局(如NFS客戶端、EC、數據縮減等存儲能力)。除了對上提供標準的塊語義,還可提供文件、KV等語義,進而實現與上層分布式軟件的2.系統型廠商:卸載數據本地布局與應用協同提供加速和增強能力圖6 三類廠商在IT技術棧不同層次的創新整合提供直通盤框主打性能和成本集成KV卸載本地FS、NFS客戶端增強DPU生態編程框架應用虛擬化&中間件存儲布局層存儲硬件層盤框型廠商系統型廠商網卡型廠商專注做框,以EBOF/JOBF主打性能+成本在NOF盤框基礎上,嘗試卸載部分布局實現協同加速或特性增強以DPU Fabric為中心上下擴展,構建新的存儲基礎設施層DPU提供直通/RAID/壓縮能力,直接盤框20業
43、界創新實踐協同加速或特性增強。典型廠商有:華為、VAST Data等。以華為微存儲為例,微存儲作為一個標準存儲組件,可以被數據中心集成,通過基于NoF+技術的高通量網絡連接Diskless服務器,可為數據中心提供共享的高速可靠存儲資源池。同時借助數據縮減、EC糾刪碼等能力,進一步提升資源利用率,降低數據中心存儲的機柜空間和能耗占用。網卡型廠商以DPU(Data Processing Unit)fabric為中心上下拓展,向上進行生態構建,實現對CPU的算力卸載和數據路徑上的IO加速。DPU方案將數據處理能力卸載在DUP卡上,DPU支持NVMe over Fabric卸載、支持加密等安全能力卸載
44、,通過部分能力卸載,可降低對上層生態的要求,與前述盤框型廠商和系統型廠商的EBOF或微存儲等結合實現端到端解決方案。典型廠商有:英偉達、英特爾、中科馭數、云豹智能、大禹智芯、北中網芯、星云智聯、云脈芯聯等。英偉達的BlueField系列DPU和中科馭數的KPU,通過硬化的芯片能力實現對網絡處理、安全和存儲能力卸載,同時實現網絡虛擬化、硬件分離資源池化等基礎設施服務,為云端、數據中心帶來加速、安全的基礎設施。3.網卡型廠商:通過網存協同,向下構建新的存儲基礎設施層,向上通過DPU生態編程框 架構建生態根據IDC的預測,數據中心對彈性靈活的分離池化架構需求將以每年近60%的速度增長,2023年市場
45、規模將達到34億美元。未來數據中心采用高效、集約的分離池化Diskless架構趨勢不可阻擋。業界創新實踐21技術挑戰與機遇展望0522算力、網絡和介質等底層技術的變化,為數據中心帶來從以CPU為中心的緊耦合架構、向存算分離的Diskless架構變革的新機會。未來,Diskless架構將會圍繞Server無狀態化、DPU網存協同、存儲盤芯協同、大內存池化、低時延內存語義訪問等技術進行持續探索。然而,構建這類系統并充分發揮其潛在效率,也面臨技術、生態等方面的挑戰,需要產業界、學術界專家共同探索解決。首先,計算和存儲之間的數據訪問接口及標準主要采用“主-從”請求響應模式,并以傳輸塊存儲語義為主。但隨
46、著內存盤、計算型盤、智能網卡異構算力的快速發展,內存訪問語義、計算協同存儲語義等方面的表現能力出現不足。其次,如何與已有生態應用結合,最大限度地發揮各種基礎設施地潛力;如何設計更高效的應用服務框架與上層應用協同等,也是一個長期而艱巨的任務。5.1技術挑戰根據中國信通院2022年的數據,近年來,中國數據中心機架規模穩步增長,截至2021年底,我國在用數據中心機架規模達到520萬架,近五年年均復合增速超過30%,其中大型數據中心占比達到80%。同時,在國家雙碳、東數西算等戰略要求下,對數據中心綠色低碳、節能減排的訴求越來越高。算力的高速增長下,如何避免因存儲、網絡等限制造成算力浪費的問題?受功耗預
47、算和碳排放配額限制,如何建設綠色集約的數據中心基礎設施?這些都將成為未來新型數據中心面臨的關鍵挑戰??梢灶A見的是,在眾多等行業先行者的推動下,Diskless架構將憑借靈活的架構、精細化的資源利用率、綠色低碳的能耗比等優勢,幫助數據中心破解上述難題,在我國宏大的數字化進程下,迎來最佳的歷史發展機遇。5.2機遇展望技術挑戰與機遇展望231.舒繼武.(2022).新型存算分離架構技術展望.中國計算機學會通訊第11期2.Jean S.Bozman,Katherine Broderick.(2010).Server Refresh:Meeting the Changing Needs of Enter
48、prise IT with Hardware/Software Optimization.IDC3.Tao Zhang,Aviad Zuck,Donald E.Porter,Dan Tsafrir.(2017).Flash Drive Lifespan is a Problem.HotOS4.Svilen Kanev,Juan Pablo Darago,Kim Hazelwood,Parthasarathy Ranganathan,Tipp Moseley,Gu-Yeon Wei,David Brooks.(2015).Profiling a warehouse-scale computer.
49、ISCA5.華為.(2021).智能世界2030報告.智能世界2030論壇6.華為.(2021).計算2030.智能世界2030論壇7.Jeff Denworth.(2022).Building The Storage Ecosystem For HyperScale.vast data.https:/ Weiner,et al.(2022).TMO:Transparent Memory Offloading in DatacentersC.ASPLOS9.Brad Reger.DPUs Empower New Storage Architecture for NVMe-oF Targets.Flash Memory Summit 202210.阿里云.(2022).什么是PolarDB.阿里云.https:/ Aurora.Amazon.https:/ Kubernetes Authors.(2022).Kubernetes Documentation:Volumes.Kubernetes.https:/kubernetes.io/docs/concepts/storage/volumes/參考文獻24參考文獻