《中國信通院: 數據中心超融合以太技術白皮書(2022年)(20頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院: 數據中心超融合以太技術白皮書(2022年)(20頁).pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、編制說明本白皮書在撰寫過程中得到了多家單位的大力支持,在此特別感謝以下顧問專家、參編單位和參編人員:顧問專家(排名不分先后)中國信息通信研究院云計算與大數據研究所所長 何寶宏華為數據中心網絡領域副總裁王武偉參編單位(排名不分先后)華為技術有限公司、中國信息通信研究院(云大所)參編人員(排名不分先后)郭亮、張磊、王少鵬、李軍、林藝宏、潘洋、孟柯、戴慧辰、劉世興、孫聰、邱奔、龔翔宇、郝杰、胡秀麗編制說明01目錄Contents編制說明01前言/概述103數據中心網絡發展趨勢與挑戰206數據中心超融合以太代際演進308數據中心超融合以太技術410網絡級負載均衡算法,釋放AI算力4.110端網協同擁塞
2、控制實現存儲算力優化4.212數據面快速收斂,提供分布式數據庫高可靠算力4.313網絡架構創新,構建E/10E級超大規模算力集群4.415業務級SLA保障,實現數據中心一張網4.517總結和展望519目錄02我國政府持續強化算力產業政策引導,加強算力產業生態構建,推動算力基礎設施向綠色低碳、智能敏捷、協同一體方向發展。黨的二十大報告中,提出加快發展數字經濟,促進數字經濟和實體經濟深度融合,打造具有國際競爭力的數字產業集群。2021年5月,國家發展改革委、中央網信辦、工業和信息化部、國家能源局聯合印發全國一體化大數據中心協同創新體系算力樞紐實施方案,提出加快實施“東數西算”工程,圍繞國家重大區域
3、發展戰略,根據能源結構、產業布局、市場發展、氣候環境等,在京津冀、長三角、粵港澳大灣區、成渝、貴州、內蒙古、甘肅、寧夏等地布局建設全國一體化算力網絡國家樞紐節點。為了統籌推薦新型數據中心發展,支撐全國一體化算力網絡建設,2021年7月,工業和信息化部發布新型數據中心發展三年行動計劃(2021-2023),提出構建以新型數據中心為核心的智能算力生態體系,構建具備高技術、高算力、高能效、高安全特征的新型算力基礎設施。政策和市場需求雙重驅動,全球數據總量和算力規模保持高速增長態勢,中美算力規模占比位居全球前列。中國算力白皮書(2022年)數據顯示,截止到2021年底,全球算力總規模達到521EFlo
4、ps(FP32),其中通用算力為398EFlops(FP32),智算算力為113EFlops(FP32),超算算力規模為10EFlops(FP32)。隨著數字化轉型進程的深入推進,未來一段時間,全球通用算力、智算和超算算力均將保持增長態勢。美國、日本、歐盟及中國等世界主要國家和經濟體是全球算力市場的主要參與者,世界主要國家算力規模如圖1所示。其中,中國和美國在國際算力市場中占有較大的市場份額,目前中美兩國在算力領域處于領先優勢,算力基礎設施規模占比位居世界前列。前言/概述前言/概述103數字經濟時代,算力成為推動各行業數字化轉型,賦能經濟蓬勃發展的重要引擎,同時也成為衡量國家綜合實力的重要指標
5、,世界主要國家和經濟體強化算力產業政策引導,為算力產業及相關技術發展提供重要引導。2019年11月,美國發布國家戰略性計算計劃提出開發、拓展并提升國家的計算基礎設施和生態系統。2020年9月,歐盟對“歐洲高性能計算共同計劃”進行了升級,重點發展下一代超級計算,強化歐洲數字主權。2022年6月,日本政府公布了“數字田園都市國家構想”基本方針,重點提升日本城市高速互聯通信光纖線路覆蓋率,并加強數據中心建設。前言/概述04圖1 全球主要國家算力規模及三類算力分布圖在全球數字經濟高速發展,算力競爭日趨激烈的市場環境中,我國算力產業發展步入快車道,市場規模不斷提升,算力應用場景不斷拓展。從算力規模上來看
6、,近年來我國數據中心規模不斷增長,通用、智算、超算算力均取得了不同程度的發展。根據工信部的數據,截至今年6月底,我國在用數據中心機架總規模超過590萬標準機架,服務器規模約2000萬臺,算力總規模超過150EFlops,位居世界第二。在數據存儲方面,中國存力白皮書(2022年)顯示,2021年我國存儲容量已達800EB,出貨量年均增速達到50%。從算力市場規模來看,中國綜合算力指數(2022年)顯示,截止到2021年底,我國算力核心產業規模達1.5萬億元,關聯產業規模超過8萬億元。而超算中心、智算中心、通用計算中心等多樣化的算力基礎設施底座正在加速建成,并在推動產業數字化轉型、豐富居民生活、保
7、障人民生命健康以及服務國家重大科技研發等諸多領域發揮出重要作用。計算、存儲和網絡是算力基礎設施的重要組成,對支撐數字經濟發展意義重大。ODCC(開放數據中心委員會)聯合中國信通院、國家市場監管重點實驗室(能效水效及綠色化)共同開展“算力強基行動”,以期通過測試加快推進計算、存儲、網絡等各類產品的技術創新和應用推廣。數據來源:中國算力白皮書(2022)0美國通用算力(EFLOPS)中國日本德國英國加拿大法國韓國印度荷蘭意大利俄羅斯聯邦澳大利亞巴西新加坡中東和北非其他地區東歐其他地區西班牙波蘭瑞士其他新興亞太地區瑞典墨西哥臺灣印度尼西亞拉丁美洲其他地區以色列香港愛爾蘭比利時捷克共和國南非奧地利丹麥
8、泰國馬來西亞芬蘭撒哈拉以南非洲其他地區沙特阿拉伯土耳其20406080100120140160180智能算力(EFLOPS)超算算力(EFLOPS)前言/概述05圖2“算力強基行動”等級評估體系圖3 木桶效應數據中心網絡是實現數據傳輸的重要通道,也是推動數據中心算力服務能力升級,實現算力充分釋放的關鍵。數據中心網絡主要負責連接用戶終端以及數據中心內部的計算、存儲等設備,保障數據通信網絡鏈路上高效、安全的傳輸。數據中心網絡可分為數據中心內部網絡、數據中心間網絡以及數據中心到用戶的網絡,數據中心內部網絡側重保障數據在計算、存儲等設備間的高效傳輸,以此促進計算和存儲效率提升,為業務的高效處理提供基本
9、保障;數據中心間網絡以及數據中心到用戶的網絡重點保障數據在通信網絡中能夠高速、敏捷、安全可靠的傳輸。中國綜合算力指數(2022年)報告中明確指出計算、存儲和網絡是算力最重要的組成部分,在數字經濟發展新時期,要更加關注構建集算力、存力和運力于一體的數據中心。網絡設備算力水平無法滿足要求而引發的“木桶效應”,可能會拉低整個數據中心的實際算力水平。因此,要提升數據中心算力服務能力,就需要進一步提升數據中心網絡性能。計算通用服務器AI服務器邊緣服務器超融合一體機存儲磁盤陣列全閃陣列分布式存儲磁帶庫存儲.網絡交換機光模塊網絡os無損架構.其它液冷操作系統中間件應用軟件.數據中心網絡發展趨勢與挑戰206I
10、DC分析報告顯示以太網是當前以及未來數據中心的主要技術,當前數據中心以太網占比已經接近95%。隨著RDMA等技術在以太網的應用,預測未來數據中心以太網占比將持續擴大,以太網將向高性能計算網絡和存儲網絡擴展,形成統一的高性能算力承載網。面對數據中心高性能算力需求,傳統的有損以太網已經無法滿足要求。為了保障 RDMA的性能和網絡層的通信,對算力承載網提出高吞吐、低時延、零丟包等高性能要求。面向更高算力訴求的應用時,算力集群對高性能的數據承載網絡提出了全新的挑戰:未來,隨著人臉識別、智能駕駛、智能家居等智能化應用場景的不斷涌現,AI智算算力將得到進一步發展,算力規模將快速提升。AI場景海量參數在同步
11、過程中需要網絡在參與計算的各個服務器之間進行數據的高效傳遞,其典型特征是流的數量較少,單流量以100MB到幾個GB的大流為主。流量在網絡上傳輸更加容易出現由于網絡HASH負載分擔不均而導致的吞吐下降的問題,從而引發AI訓練性能整體下降。網絡負載分擔不均問題是當前業界的一個重大的難題,Google就曾指出在其數據中心中存在多級HASH不均問題導致10K規模組網下整網吞吐低于25%的問題 。業界主流的負載分擔算法均存在性能問題,不適用于AI訓練場景。例如,HASH適用于流數量較多的場景,不適用AI帶寬大流數少的場景,會造成嚴重的負載分擔不均;Flowlet Switching算法不適用于AI這種連
12、續大帶寬的流量模型場景;Packet-based HASH需要接收端對流進行重組排序,否則亂序會導致性能急劇下降。Jupiter Rising:A Decade of Clos Topologies and Centralized Control in Googles Datacenter Network11挑戰一:AI算力訓練流量密集,網絡吞吐低成為瓶頸數據中心網絡發展趨勢與挑戰數據中心網絡發展趨勢與挑戰數據中心是數據存儲和計算的集散地,數據存儲和處理廣泛分布和共享于數據中心的各個角落,及時信息共享需要依賴連接存儲和計算單元的網絡。為了節省投入,計算和存儲網絡、以及管理網絡融合部署成為業界新
13、的嘗試。存儲和計算、管理三個網絡平面融合,最高可以節省接近50%的網絡投資。網絡融合帶來的是業務流量融合,不同業務流量之間,會出現互相干擾,導致計算性能得不到釋放。如何同時保障計算和存儲業務流量公平混合調度,使得算力能夠有效釋放,這將對網絡帶來新的挑戰。挑戰五:存算網絡融合,計算和存儲相互影響SLA難保障07與日俱增的高算力需求需要高效的大規模算力集群支撐,算力集群擴大一倍,任務拆分數量為原來的2倍,以Ring-Allreduce為例集合通信時通信次數為原來2倍。同時網絡規模擴大一倍,網絡擁塞概率增加,網絡擁塞導致的計算效率下降更加凸顯。在現有傳統的集群應用中,服務器端和網絡互相隔離、能力互不
14、感知,網絡只作為傳遞數據的管道使用,針對以太網盡力轉發機制,網絡容易成為擁塞瓶頸,導致計算效率下降,而傳統的網絡擁塞控制技術無法讓算力得到充分釋放。因此,如何有效利用網絡資源,借助網絡的全局視角,改進算力通信網絡的擁塞控制,提升算力通信效率,成為新的挑戰。挑戰二:網絡擁塞導致動態轉發時延大,影響計算和存儲通信效率數據中心物理鏈路數量隨網絡規模的擴大成倍增長,同等帶寬1:1收斂,3級Clos架構物理鏈路數量為單歸接入端口數量的3倍,即要滿足16K接入,需要48K根線纜,96K個光模塊。由于光模塊器件或線纜損壞所導致的鏈路故障幾乎無法避免。當鏈路故障發生時,傳統收斂技術依賴控制面的動態路由協議進行
15、信息交互和重新選路,收斂時間長,實際部署的大規模DCN網絡的路由收斂時間甚至達到秒級乃至10s。因為鏈路導致的網絡故障對業務穩定性產生負面影響,數據丟失導致IO歸零,計算任務重啟等,會造成在線實時敏感類業務性能的嚴重下降,影響業務體驗。挑戰三:網絡故障收斂時間長,影響計算和存儲業務性能和穩定性算力需求倍增,需要更大規模網絡支撐。隨著網絡規模向10萬節點演進,傳統的3層Clos架構已經無法支撐如此規模的網絡擴展,想要擴大規模需要采用4層Clos架構。但是,提升網絡架構層級將導致網絡節點增加,并由此帶來網絡時延的增加,如在3級Clos架構中,計算節點間交互需要經過5個網絡節點,4級Clos網絡架構
16、,則需要經過7個網絡節點,相比原來2層Clos的3個網絡節點,網絡時延增加了2倍多,無法滿足并行計算效率要求。挑戰四:傳統網絡架構無法支撐超大規模算力集群數據中心超融合以太代際演進3推動以太網演進從而搭建先進網絡架構的時代已然來臨,以太網正在從“盡力而為”的連通型網絡 向提供“確定性SLA”的性能型網絡演進。以太網將變得更具競爭力,服務于需要卓越性能的新興市場,這包括高性能計算和存儲網絡。產業數字化推動數據中心發展,推動數據中心網絡不斷演進,根據不同發展時期數據中心可以總結為幾個階段:虛擬化階段、云化應用階段、算力服務化階段。虛擬化階段,數據中心為辦公、郵件、web門戶網站等提供虛擬化基礎設施
17、,實現數據大集中,計算和存儲資源池化。此時數據中心傳統以太網,在帶寬、時延、可靠性方面都無法滿足高性能計算和存儲的要求,數據中心高性能存儲需要承載在FC專網,而超算中心高性能互聯則通過IB專網承載。通用計算以太網,高性能存儲FC網,高性能計算IB網絡,分別通過三種不同網絡技術承載,需要各自獨立管理維護。數據中心云計算技術的快速采用助長網絡中對以太網交換需求的增長,隨著以太網400GE以太技術的商用,及800GE標準的發布,使得以太在帶寬上已經超越IB,無損以太技術逐漸成熟,高性能網絡開始往無損以太邁進。數據中心超融合以太代際演進08眾所周知,標準以太網絡采用盡力而為的工作機制,天然有丟包的特性
18、對存儲的性能穩定性帶來了極大的影響。以太網為什么會丟包呢?當多臺服務器向一臺服務器同時發送大量報文,報文數量超過交換機的承受能力時,丟包就產生了。此時數據需要重傳,這種返工帶來的結果就是傳輸效率的降低。盡力而為網絡已然成為了過去,高性能應用正在數據中心融合。在這一背景下,數據中心網絡需要重構以實現高吞吐、低時延、高可靠性、強可擴展性。數據中心超融合以太代際演進數據中心云化應用階段,數據中心為移動互聯網、網上銀行、政務云化等提供敏捷智能的服務應用,推進數字化轉型。隨著存儲介質從HDD到SSD的提升,存儲服務化以及RDMA技術在數據中心的廣泛應用,對數據中心網絡在帶寬、吞吐、時延上提出新的要求。數
19、據中心智能無損技術,滿足全閃存以及RDMA的性能要求,并通過零丟包、高吞吐、低時延的無損網絡實現通用計算、存儲網絡技術融合,數據中心網絡開始邁入無損以太網時代。與傳統計算和存儲網絡兩種不同技術、兩套管理系統、分散管理的煙囪式架構相比,無損以太網絡技術實現數據中心存儲網絡以太化,實現計算和存儲網絡技術統一,運維統一。隨著機器視覺、語音識別、自然語言處理、自動駕駛等AI應用需求爆發,在數據中心算力服務化階段,GPU/NPU算力開始規?;渴?,數據中心朝E級/10E級更大規模算力互聯演進,算力網絡進入100G/200G接入400G高速互聯時代。在面向更高算力訴求的應用時,新算力集群對網絡提出了諸多全
20、新的挑戰。通過超融合以太技術的應用可有效應對未來算力應用需求,具體來看,超融合以太技術具備四大優勢,一是可通過網絡架構創新滿足超大規模網絡擴展,二是可通過全網負載均衡技術實現AI算力100%釋放,三是可通過端網協同減少算力冗余通信,四是可通過全新的智能擁塞控制算法,實現計算網絡和存儲網絡融合混合調度。超融合以太技術的提出為數據中心網絡發展指明了方向,也成為應對未來超大規模算力集群高性能算力需求的重要解決方案。超融合以太技術以實現數據中心網絡融合充分釋放算力為目標,通用計算、存儲、高性能計算統一承載在0丟包以太網技術棧上,打破傳統分散架構限制,實現從三張網到一張網的融合部署,統一網絡架構,推動無
21、損網絡向超融合網絡架構演進,實現算力網絡融合。未來算力無處不在,網絡無處不達,數據中心可實現算力解構,并成為算力與網絡融合一體化服務,數據中心的發展將逐步進入到多云多中心異構算力統一協同計算,全國一體化大數據中心時代。數據中心云算力、邊緣算力、終端算力通過網絡感知算力,統一編排,將計算任務分解成不同的子任務,通過網絡統一調度以后,發放給不同的算力節點進行計算,充分利用全網算力資源,實現一體化服務。09圖4 數據中心網絡代際技術演進網絡架構接入帶寬平均時延可靠性應用加速網算融合端網協同納秒微秒毫秒網算分離在網計算亞秒級毫秒級秒級收斂多云融合一張網超融合以太三張網全以太三張網三種技術800GE40
22、0GE200GE100GE25GE10GE跨DC融合有損無損超融合超融合以太無損以太傳統以太數據中心超融合以太技術4新的算力,對網絡提出了新的訴求,下一代數據中心需要超融合以太技術給新算力進行新的賦能,以應對新的挑戰。10AI集群訓練過程中,參數通過高速互聯網絡在不同的服務器間進行同步交互,這些通信流量具有共同的特征:流量成周期性、流數量少、流量長連接、并行任務間有強實時同步性要求,通信效率取決于最慢的節點,并且AI集群訓練場景下,傳輸的數據量較大。上述的流量特征導致網絡較易出現負載分擔不均、整網吞吐下降的問題,從而影響AI集群訓練的性能。當前網絡均衡的主流技術有三種,逐流(Flow-base
23、d)ECMP均衡、基于子流flowlet均衡和逐包(Pack-et-based)ECMP均衡。逐流ECMP均衡,是當前最為常用的負載均衡算法,基于流量的五元組進行HASH負載均衡,在流鏈接數量較多的場景下適用,它優勢在于無亂序,劣勢在于流數量較少時,例如AI訓練場景下,存在HASH沖突問題,網絡均衡效果不佳?;谧恿鱢lowlet均衡技術,它依賴于子流之間時間間隔GAP值的正確配置來實現均衡,但由于網路中全局路徑級時延信息不可知,因此GAP值無法準確配置。同時,該技術存在接收端側亂序的問題。逐包(Packet-based)ECMP均衡,理論上均衡度最好,但實際在接收端側存在大量亂序問題,現實中
24、幾乎無使用案例?,F有創新的網絡均衡技術NSLB是面向AI訓練場景量身打造的,根據該場景下的流量特征,將搜集到的整網信息作為創新算路算法的輸入,從而得到最優的流量轉發路徑,實現AI訓練場景下整網流量100%的均衡度和AI訓練性能的提升。利用12臺GPU服務器(每臺服務器包含1塊型號為Tesla v100S PCIe 32GB的GPU卡),4臺華為交換機組成2級CLOS網絡(其中2臺交換機作為接入層交換機,每臺下掛6臺服務器,使用100GE單端口接入,2臺交換機作為匯聚交換機,每臺與接入層交換機之間使用6個100GE端口互聯)的AI訓練集群,運行開源Tensorflow深度學習平臺上的VGG16深
25、度學習網絡模型。以下為采用NSLB技術運行單計算任務和多計算任務時,AI訓練性能的提升結果。網絡級負載均衡算法,釋放AI算力4.1數據中心超融合以太技術數據中心超融合以太技術11圖5 Ring算法場景,運行單個計算任務,AI訓練集群性能圖6 Ring算法場景,運行兩個計算任務,AI訓練集群性能Ring算法場景,運行單個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,AI訓練集性能最高提升113.41%。Ring算法場景,運行兩個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,AI訓練集性能最高提升57.29%。單任務Ring算法性能(images/s)batch sizef
26、low-matrixecmp hash 3010002000300040000.00%20.00%40.00%60.00%80.00%100.00%120.00%2924.664321682187.12flow-matrix相對于ecmp hash 3提升百分比1202.631318.91872.2697.56326.8733.72%82.40%51.22%57.29%29.13%113.41%2193.57多任務Ring算法 性能(images/s)NSLB相對于ecmp hash 3提升百分比多任務Ring算法性能(images/s)batch size多任務Ring算法 性能(image
27、s/s)NSLB 任務10500100030002500150020000.00%10.00%20.00%30.00%40.00%50.00%60.00%70.00%6432168多任務Ring算法 性能(images/s)NSLB 任務2多任務Ring算法 性能(images/s)NSLB 總多任務Ring算法 性能(images/s)ecmp hash 3 任務1多任務Ring算法 性能(images/s)ecmp hash 3 任務2多任務Ring算法 性能(images/s)ecmp hash 3 總15.50%1414.29980.46594.76593.221187.9836738
28、8.26755.26503.61265.1238.51650.31324.16326.15976.85710.331410.52700.191957.311397.21101.61332.662434.262811.4938.77%12高性能計算、AI模型訓練等應用場景,以及數據中心網絡/云網絡在架構上的發展(資源池化),均要求網絡傳輸排隊時延和吞吐上的進一步性能提升。例如,為了保證性能損失在5%以內,數據庫集群系統要求至少40Gbps的吞吐和3us的網絡RTT。為了達到極低時延的傳輸,應當盡力降低網絡設備上的排隊時延,同時維持接近瓶頸鏈路滿吞吐。端網協同擁塞控制技術采用“端(智能網卡)網(交
29、換機)”配合的方式達到交換機上的近似“零排隊”時延,使得端到端傳輸時延接近靜態時延。早期端到端擁塞控制方案都屬于被動控制,即源端在擁塞發生前總是盲目地提高發送速率,而發送速率的提高又可能導致網絡中排隊的產生,形成擁塞。擁塞情況反饋到源端后,源端才會被動地降低發送速率。但是,由于反饋總是存在一定的時延,因此被動擁塞控制總是會導致網絡在擁塞和非擁塞狀態之間震蕩。瓶頸鏈路上總會存在隊列,造成顯著的排隊時延。端網協同主要根據網絡可用帶寬,調整端側發送速率,這種源端與交換機之間的密切配合使網絡中的隊列近乎為空,同時能保持接近100%的利用率。根據實驗室測試,采用典型擁塞場景啞鈴狀拓撲,在瓶頸鏈路上存在2
30、00條長流時,多種算法在瓶頸鏈路上造成的排隊時延(微秒),瓶頸鏈路帶寬為100Gbps,長流的RTT為20微秒??梢钥吹?,和當前業界主流的協同算法相比,端網協同算法C-AQM能夠把排隊時延控制得極低,接近于0,同時瓶頸鏈路達到接近100%利用率。端網協同擁塞控制實現存儲算力優化4.2數據中心超融合以太技術基于端網協同CAQM算法可以在滿吞吐條件下實現亞us的時延抖動,大幅降低動態時延。N=20050%-ile90%-ile90%-ile99.9%-ileC-AQM0.1550.2380.3210.401HPCC3.0236.6628.2049.094DCQCN116.612121.82125.
31、48127.131數據中心超融合以太技術13隨著業務發放速度的不斷加快,以及引入了VM、容器等虛擬化技術,網絡流量的不確定性增加。而當前運維手段有限,仍然依靠傳統網管和命令行方式進行查看、監控,分鐘級的網絡監控已經無法滿足業務秒級體驗保障的要求,往往被動感知故障。故障發生后,定位仍主要依賴專家經驗,利用多種輔助工具,逐段定界、逐流分析、抓包定位,效率十分低下。網絡故障收斂慢對業務穩定性產生的負面影響,尤其會造成高性能數據庫類業務性能的嚴重下降。傳統的鏈路故障收斂技術依賴于網絡設備控制面軟件的協議通告感知故障,隨后根據拓撲變化重新算路并下發新的路由;此方式依據規模的不同其收斂時間會從幾百毫秒到幾
32、十秒級;如此長時間的數據丟包足以對高性能業務產生嚴重影響,特別是容易觸發端側協議RTO而出現斷流。以數據庫業務為例,鏈路故障下依賴傳統動態路由協議收斂,數據庫IO出現了幾秒跌零情況,導致業務會有幾秒鐘的無響應,如下圖所示。為了解決上述故障收斂慢的問題,提出了一種基于網絡設備數據面的鏈路故障快速自愈技術,稱為DPFF(Data Plane Fast Failover)。該技術基于轉發芯片的硬件可編程能力構建。DPFF從傳統的基于控制面軟件協議的收斂方式演進到基于數據面硬件極速感知故障和快速換路的收斂方式,并且基于數據面硬件實現遠程通告和快速換路,可達到亞毫秒級(2臺服務器,2臺交換機作為匯聚交換
33、機),利用vdbench 測試套件,客戶端服務器與存儲陣列建立兩個連接,每連接8個qp,并發訪問8個SSD磁盤。通過拔光纖模擬鏈路故障。256KB message size,16 threads,write IO,觀察鏈路故障發送后的IOPS指標。測試結論:DPFF方案下鏈路故障對IOPS性能幾乎沒有影響,而OSPF協議收斂方案下IOPS出現多秒跌零情況。利用Benchmarksql測試套件進行在線事務處理模型的測試,又稱TPC-C測試。統計每百毫秒周期內完成的在線事務的數量,通過查看該數量值的變化測試收斂性能對業務性能的影響。模擬鏈路故障,重復測試4次,觀察在線交易事務受影響情況。圖8 不同
34、收斂方案下的存儲性能影響對比DPFF VS OSPF 不同收斂方案下的存儲性能影響對比存儲IOPStime(s)1234567891011125000100001500020000250000DPFFOSPF數據中心超融合以太技術15測試結論:DPFF收斂方案比傳統的OSPF收斂方案在鏈路故障下,每100ms周期內完成交易事務數量下降減少60%80%。網絡架構創新,構建E/10E級超大規模算力集群4.45G、萬物互聯智能時代產生海量數據,智能訓練大模型部署,國家新一代超級計算中心的規劃建設爆炸式增長的算力需求與實際算力增長速度之間存在巨大鴻溝。在后摩爾時代,通過構建大規模并行計算集群滿足不斷增
35、長的算力需求,如10E級計算集群其計算服務器規模達到20萬以上。計算集群網絡傳統采用CLOS架構,以業界常見的64口盒式交換機為例,3級CLOS架構,最大可支持6.5萬服務器接口,不滿足10E級計算集群規模訴求。如果增加網絡層數則會帶來網絡跳數增加,通信時延不滿足業務需求。圖9 GuassDB集群鏈路故障下DPFF和OSPF收斂性能對比測試GuassDS集群鏈路故障下DPFF和OSPF收斂性對比測試每100毫秒完成在線交易事務的數量每100毫秒統計點123456789101112131415162004006008001000120014000OSPF-1OSPF-2OSPF-3OSPF-4O
36、SFF-1OSFF-2OSFF-3OSFF-4數據中心超融合以太技術16采用12臺GPU服務器,每臺服務器2塊GPU卡,型號Tesla v100s;2塊CX6-Dx網卡,網卡是100G單端口接入。OSU MPI Benchmark測試AllReduce集合通信操作,DF相對FT組網,任務完成時間最高提升39.47%,總體提升21.63%。業界針對該問題開展了多樣的架構研究和新拓撲的設計。直連拓撲在超大規模組網場景下,因為網絡直徑短,具備低成本、端到端通信跳數少的特點。以64口盒式交換機構建10萬個節點超大規模集群為例,傳統的CLOS架構需要部署4層組網,端到端通信最大需要跨7跳交換機。使用無阻
37、塞直連拓撲組網,端到端交換機轉發跳數最少只3跳,交換機臺數(整體投資)下降40%。圖10 拓撲圖圖11 OSU AllReduceCoreCore交換機SpineSpine.LeafLeaf.POD1PODWSpineSpineLeafLeaf服務器交換機服務器OSU AllReduce平均完成時間(us)FTDF10.00020.0030.0040.0050.000.00%10.00%20.00%30.00%40.00%50.00%432816641282565121024204840968192DF相對于FT性能提升百分比數據中心超融合以太技術17OSU MPI Benchmark測試Al
38、ltoall集合通信操作,DF相對FT組網,任務完成時間最高提升56.53%,總體提升49.71%。圖12 OSU alltoall隨著高性能網絡的全以太化發展,超融合以太網絡同時承載計算、存儲、管理和虛擬化等多種業務流量。為了追求更極致的性能,不同業務流量之間,極易出現互相干擾現象,競爭網絡側有限的端口轉發資源。不同業務追求目標不同,對網絡的訴求不同。同時,不同業務的流量模型不同,網絡流量隨著時間迅速變化,需要網絡能夠迅速捕獲流量特征以實現網絡自優化。為了解決這個難題,提出超融合智能無損網絡方案,將業務級SLA智能保障技術引入到交換機中,用iLoss-less智能無損算法代替專家經驗,對網絡
39、流量的變化進行基于隊列級捕獲和預測,實現細粒度動態差異化優化。結合不同業務的流量變化情況以及業務特征,實現不同業務流量差異化動態優化保障。業務級SLA保障,實現數據中心一張網4.5OSU alltoall平均完成時間(us)FTDF20000.000.0040000.0060000.000.00%20.00%40.00%60.00%42132816641282565121024204840968192DF相對于FT性能提升百分比圖13 方案展示圖數據中心超融合以太技術18圖14 寫混跑/讀混跑流量測試根據實驗室測試,采用3臺華為交換機組成2級Spine-Leaf組網,每臺接入層交換機下掛16臺
40、100GE服務器,Spine與每個Leaf之間采用4個400G互聯(1:1收斂)。在計算和存儲benchmark流量混跑的測試環境下,智能無損算法相比于傳統算法配置,在保持存儲持平前提下,能夠有效降低計算任務的總體完成時間,在測試場景中實現最高20%以上的計算時延降低。InteIMPI疊加存儲1M寫混跑流量測試總時延并發數雙隊列靜態ECN雙隊列AIECN100000000020000000030000000040000000050000000064并發128并發256并發InteIMPI疊加存儲1M寫混跑流量測試總時延并發數雙隊列靜態ECN雙隊列AIECN1000000000200000000
41、30000000040000000050000000064并發128并發256并發深度神經網絡算法隊列最優流-隊列映射細粒度 差異化 智能無損算法逐流業務感知配置總結和展望5總結和展望19隨著數字產業智能化向智能世界發展,未來數據中心將朝著多云異構算力演進,要構建強大的算力,需要各類資源高度協同,深度融合。根據國家“東數西算”、“東數西存”和“構建全國一體化大數據中心”戰略的推行,未來數據中心網絡目標是實現多中心互聯,實現全國一張網,算力觸手可及。網絡提供的運力管道就像人體的“血管”,各個數據中心就像人體的“器官”,海量的數據就像“血液”在這套由網絡組成的“循環系統”上迅速的傳遞到數據中心,再由各數據中心處理完成后又快速的傳遞到“四肢”,支撐起“國家一體化大數據中心”這個巨人在數字經濟時代的跑道上向前狂奔。未來將會多維度與各類資源協同,共同打造開放、自主的超融合以太算力網絡。全面提升網絡性能,通過網絡全棧技術的持續創新,為新算力賦能,釋放更高算力,助力“高算力、高安全、高效能、高可靠”的新型數據中心建設。