《中移智庫:新一代智算中心網絡技術白皮書(2022)(26頁).pdf》由會員分享,可在線閱讀,更多相關《中移智庫:新一代智算中心網絡技術白皮書(2022)(26頁).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、新一代智算中心網絡技術白皮書(2022 年)中國移動2022 年 11 月發布目目 錄錄前 言.31.智算中心發展情況.41.1.政策形勢.41.2.產業趨勢.41.3.技術趨勢.52.智算中心網絡發展趨勢.63.智算中心網絡關鍵技術.93.1.超大規模網絡關鍵技術.93.1.1.新型拓撲.93.1.2.高效能 IPV6 演進.103.1.3.智算中心間網絡連接.113.2.超高性能網絡關鍵技術.123.2.1.自適應路由.123.2.2.靜態轉發時延優化.133.2.3.端網協同.143.2.4.在網計算.173.2.5.DPU 卸載.193.2.6.智能 ECN.203.2.7.基于信元交
2、換的網絡級負載均衡.223.3.網絡可靠性及智能運維關鍵技術.233.3.1.數據面故障感知與恢復.233.3.2.基于意圖的網絡仿真校驗.233.3.3.智能運維閉環網絡.244.總結和展望.25術語與縮略詞表.26前前 言言2022 年 2 月 18 日,國家正式啟動“東數西算”工程,突顯了數字經濟在國家發展中的戰略地位。IDC 預測,數字經濟的占比將持續增加,到 2022 年,全球 65%的 GDP 將由數字化推動;在中國,到 2025 年,在新基建等戰略驅動下,數字經濟占 GDP 的比例將超過 70%。數據在未來企業的成長過程中扮演越來越重要的角色,對數據價值利用的深度將決定企業數字化
3、轉型高度。而算力是數字經濟發展的基礎設施和核心生產力,是國家經濟發展的重要基礎設施。據2021-2022 全球計算力指數評估報告顯示,計算力指數平均每提高 1 個百分點,數字經濟和 GDP 將分別增長 3.5和 1.8。算力網絡是聯接算力供給端和需求端的重要橋梁,也是未來經濟發展的重要衡量指標之一?!八懔橹行?,網絡為根基”,網絡貫穿算力的生產,傳輸和消費全流程,一張具有超大帶寬、超低時延、海量聯接、多業務承載的高品質網絡是關鍵。本白皮書主要研究智算中心發展情況、智算中心網絡發展趨勢以及滿足智算中心發展需求的智算中心網絡關鍵技術,希望通過在超大規模網絡關鍵技術、超高性能網絡關鍵技術、超高可靠網
4、絡關鍵技術以及網絡智能化關鍵技術等方面的探索,為未來面向智算中心的新型網絡架構提供參考。本白皮書由中國移動通信研究院牽頭編制,聯合編制單位:華為技術有限公司、上海云脈芯聯科技有限公司、中科馭數(北京)科技有限公司、中興通訊股份有限公司等。本白皮書的版權歸中國移動通信研究院所有,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應注明來源。1.智算中心發展情況智算中心發展情況1.1.政策形勢政策形勢當下,新一輪科技革命方興未艾,各行各業開啟全面數字化。大數據、云計算、人工智能、區塊鏈等數字化技術落地應用,對計算能力提出更高要求。算力,與經濟社會發展的聯系愈發密切,成為驅動產業變革
5、的新興動力。信息技術浪潮推動人類社會由“電力時代”邁向“算力時代”,以算力為根基的智能化數字經濟世界即將來臨。為打造經濟發展新高地、應對國際激烈競爭、搶抓戰略制高點,近年來,黨中央、國務院高度重視數字經濟發展,推動算力相關技術研發,加快部署各類算力中心。2020 年 4 月 20 日,國家發展改革委首次明確新型基礎設施范圍,將智能計算中心作為算力基礎設施的重要代表納入信息基礎設施范疇。隨著 AI 產業化和產業 AI 化的深入發展,智算中心受到越來越多地方政府的高度關注并開展前瞻布局,已成為支撐和引領數字經濟、智能產業、智慧城市、智慧社會發展的關鍵性信息基礎設施。中國智能算力占全國總算力的比重也
6、由 2016 年的 3%提升至 2020 年 41%,預計到 2023 年智能算力的占比將提升至70%。2021 年 5 月 24 日,國家發改委等四部門聯合發布了全國一體化大數據中心協同創新體系算力樞紐實施方案,明確提出布局全國算力網絡樞紐節點,啟動實施“東數西算”工程。今年 2 月,“東數西算”上升為國家戰略,國家發改委等部門確定了 8 個國家算力樞紐節點,并規劃了 10 個國家數據中心集群。政策方面的扶持和激勵,特別是東數西算工程的全面啟動,給智算中心的快速發展注入了強大的助推劑。智算中心承載以模型訓練為代表的非實時性算力需求尤為適合實施東數西算,以智算中心為算力底座,在我國東西部地區開
7、展人工智能領域的算力協同合作,“東數西訓”將是我國推動東數西算工程落地的重要場景之一。1.2.產業趨勢產業趨勢近年來,自動駕駛、生命醫學、智能制造等領域發展迅速,隨之而來的是超大規模人工智能模型和海量數據對算力需求的不斷提高,智算中心建設正當其時。工信部數據表示,截至 2021 年底,我國在用數據中心機架總規模達 520 萬標準機架,在用數據中心服務器規模 1900 萬臺,算力總規模超過 140 EFLOPS。全國在用超大型和大型數據中心超過 450 個,智算中心超過 20 個。據不完全統計,從 2021 年 1 月 1 日到 2022 年 2 月 15 日,全國共有至少 26 個城市在推動或
8、剛剛完成當地智算中心的建設,其中投入使用的有 8 個,包括南京、合肥等地的智算中心。除了這些投入使用的,全國至少還有 18 個城市簽約、開工、招標、計劃建設智算中心項目,包括深圳、長沙的項目都已經開工建設。其中幾個典型的智算中心規模如下:8 月 30 日,阿里云宣布正式啟動張北超級智算中心。該智算中心總建設規模為 12EFLOPS(每秒 1200 億億次浮點運算)AI 算力,將超過谷歌的 9 EFLOPS 和特斯拉的 1.8EFLOPS,成為全球最大的智算中心,可為 AI 大模型訓練、自動駕駛、空間地理等人工智能探索應用提供強大的智能算力服務。在 WAIC2020 大會期間,商湯科技宣布,上海
9、“新一代人工智能計算與賦能平臺”臨港超算中心啟動動工。該算力中心占地面積近 80 畝,總投資金額超過 50 億元人民幣,一期將安置5000個等效8000W的機柜。算力中心建成并投入使用后,總算力規模將超過3700PFLOPS,可同時接入 850 萬路視頻,1 天即可完成 23600 年時長的視頻處理工作。南京智算中心采用浪潮 AI 服務器算力機組,搭載寒武紀思元 270 和思元 290 智能芯片及加速卡。目前已運營系統的 AI 計算能力達每秒 80 億億次(AI 算力遠超傳統數據中心提供的基礎算力供給),1 小時可完成 100 億張圖像識別、300 萬小時語音翻譯或 1 萬公里的自動駕駛 AI
10、 數據處理任務。1.3.技術趨勢技術趨勢隨著算力經濟的發展,以及人工智能產業越來越成熟,各種專用算力芯片在市場上也是呈爆發式發展趨勢,對應的智能算力在總算力中的占比也在逐漸提高,傳統的通用算力占比在下降。在新一代智能算力集群中,由各種算力協同一起完成一個大規模復雜的計算任務,各種類型的資源首先需要池化,如存儲資源池、GPU 資源池等。服務器作為算力的主要載體,開始踏入了更高速的車道。以 AI 為核心的算力需求激增,多元異構算力增速超過通用算力成為主流。越來越多的行業使用人工智能技術分析、挖掘日常海量數據,以圖像、語音、視頻為主的非結構化數據導致深度學習模型的規模和復雜性不斷增加。到 2030
11、年,以 GPU、NPU 等為代表的智能算力增長近 500 倍,遠超 10 倍增速的通用算力,成為全球算力主流。隨著摩爾定律逼近極限,以 CPU 為主的通用計算性能提升放緩,為保證數據處理效率,GPU、DPU、FPGA 等異構加速芯片將有望取代 CPU 成為智算中心的主算力。存儲系統實現應用數據的持久化,向應用提供數據訪問服務。隨著社會智慧程度的提高,海量數據收集、分析、處理帶來的挑戰越來越大,智算中心必須解決好數據“存得下、讀得出、用得好”的問題。需要多方面的提升存儲能力,首先,存儲介質由單一的 HDD 向 SSD、SCM、HDD 等異構存儲介質演進,采用高速存儲協議 NVMe,滿足上層多樣化
12、的數據存儲需求;其次,需要提升數據存取效率,重點解決處理器內部、處理器和內存、內存和外存以及服務器之間等不同層級數據存取的效率問題,包括提升 L1、L2、3 的 Cache 緩存能力、構建大規模持久內存池、引入 RDMA/DMA 協議等,實現端到端數據存取加速,最終實現降低訪問時延、大幅提升傳輸效率的目的;最后,傳統集中式存儲在彈性擴展能力等方面存在力不從心,基于通用硬件構建的分布式存儲快速發展。2.智算中心網絡智算中心網絡發展發展趨勢趨勢在過去十年,數據中心網絡技術經歷了兩個發展階段:(1)虛擬化時代(2020),以應用為中心,提供遠程服務:各類敏捷智能的微服務應用的發展,推進了企業的數字化
13、轉型。在這一階段,分布式和虛擬化技術替代了大型機、小型機,滿足了當時企業業務擴展帶來的彈性需求,通過 ESXI/OPS/Docker 等虛擬化技術,實現生產系統上云,推動數據中心高速發展。(2)云化時代(NOW),以多云為中心,提供云化服務:多云之間算力無損調度需求,推進了云化計算和算力網絡發展。在這一階段,出現了資源池化技術,把計算和存儲資源分離,再規?;幣藕驼{度,提供了超大規模的計算和存儲資源池。GPU 高速發展、算力普惠,帶來算力中心集約化建設,數據中心正從“云化時代”轉向“算力時代”。傳統數據中心,面向傳統的計算處理任務,或離線大數據計算,以服務器/VM 為池化對象,網絡提供 VM/
14、服務器之間連接,聚焦業務部署效率及網絡自動化能力。智算中心是服務于人工智能的數據計算中心,包括人工智能、機器學習、深度學習等需求,以 GPU 等AI 訓練芯片為主,為 AI 計算提供更大的計算規模和更快的計算速度,以提升單位時間單位能耗下的運算能力及質量為核心訴求。智算中心將算力資源全面解耦,以追求計算、存儲資源極致的彈性供給和利用,以算力資源為池化對象,網絡提供 CPU、GPU、存儲之間總線級的高速連接,如圖 2-1 所示。智算中心網絡作為連接 CPU、xPU、內存、存儲等資源重要基礎設施,貫穿數據計算、存儲全流程,算力水平作為三者綜合衡量指標,網絡性能成為提升智算中心算力的關鍵要素,智算中
15、心網絡向超大規模、超高帶寬,超低時延、超高可靠等方向發展。圖 2-1 池化總線級智算中心網絡系統級端網協同體系創新是智算中心高性能網絡性能提升關鍵,端側通過智能網卡硬件卸載網絡協議棧,提升網絡規模及處理性能,網側構建低時延、高吞吐的高速通道。如圖2-2 所示,智能網卡與網絡設備協同工作,優化擁塞控制算法、網絡態勢感知、動態路徑切換、端到端帶內遙測等能力,打造極致的網絡性能與運營能力。圖 2-2 端網協同的下一代高性能網絡體系新一代智算中心將從數據中心的內部做體系化創新,從以往的以云為中心,進入以 AI為中心的體系架構。元宇宙、生命科學等超大算力需求呈現爆發式增長,超大算力中心、異構算力協同應運
16、而生。但新一代智算中心網絡當前還面臨四大關鍵挑戰:1、超大規模網絡隨著 AI、5G、IoT 等技術的爆炸式發展,海量數據流的產生和多元化的應用場景為智能計算產業帶來發展機遇。在這一過程中,基于 CPU 架構和工藝提升的創新日益趨緩,已無法滿足新場景下多樣化算力快速增長的需求,算力提升的核心動力正從 CPU 擴展到以NPU(Neural-Network Processing Unit,嵌入式神經網絡處理器)、VPU(Vector Processing Unit,矢量處理器)、GPU(Graphics processing unit,圖形處理器)等為代表的計算單元。XPU直出以太等技術持續發展使得
17、計算/存儲資源實現解構。未來會出現融合以太、總線、信元技術的超融合網絡,滿足計算/存儲/內存池化需求。智算中心內節點的數量將增長 10 倍,從現在的十萬臺服務器增長到百萬臺 XPU 互聯。2、超高性能網絡當前 AI 應用已采用 GPU 甚至專用 AI 芯片,計算速度相比傳統 CPU 提升 1001000 倍之多。同時 AI 應用計算量也呈幾何級數增長,算法模型向巨量化發展,人工智能模型參數在過去十年增長了十萬倍,2025 年向百萬億參數模型演進,訓練數據集規模百倍增長。同時,存儲介質 SSD 訪問性能較傳統 HDD 已提升 100 倍,而采用 NVMe 接口協議的 SSD(簡稱 NVM 介質)
18、,訪問性能相比 HDD 甚至可以提升 10000 倍,在存儲介質大幅降低的情況下,網絡時延占比從原來小于 5%上升到 65%左右,這意味著存儲介質有一半以上的時間是空閑通信等待。如何降低計算通信時延、提升網絡吞吐是新一代智算中心能夠充分釋放算力的核心問題。3、超高可靠網絡算力資源邊緣部署逐漸成為產業趨勢,自動駕駛、智能工廠、機器協作、遠程醫療等2B 行業蓬勃發展,對業務高速切換數據不中斷等提出新的可靠性要求。百毫秒乃至秒級網絡故障對集中式存儲、分布式數據庫等業務會造成影響,如 OLTP 在線交易類業務,網絡故障時交易都失敗,甚至會影響節點狀態,降低系統可靠性,出現分鐘級的業務中斷。業務中斷會給
19、企業及社會帶來重大損失,新一代智算中心超高可靠能力不可或缺,故障收斂性能需提升至亞毫秒級。4、智能化網絡LinkedIn 最新數據顯示,網絡故障持續增加:人機接口變為機器與機器間的接口,網絡不可視;網絡、計算和存儲邊界模糊,定界困難;數據海量,網絡故障難以快速定位和隔離。同時,由于應用策略及互訪關系日益復雜,傳統的網絡運營和運維手段已無法適應智算中心網絡的發展,需要引入新的智能引擎,依托大數據算法,對應用流量與網絡狀態進行關聯分析,及時準確地預測、發現、隔離網絡故障,形成網絡采集、分析、控制三位一體的閉環系統。同時,依托 Telemetry 以及邊緣智能等技術,網絡設備數據可實現信息的高速采集
20、和預處理,主動上報智能引擎,為業務網絡提供自愈能力,實現新一代智算中心網絡智能化。3.智算中心網絡關鍵技術智算中心網絡關鍵技術3.1.超大規模網絡關鍵技術超大規模網絡關鍵技術3.1.1.新型拓撲新型拓撲5G、萬物互聯的智能時代產生海量數據,算力要求快速增長,算力擴容成本高昂,需要支持超大規模組網實現集群高速互聯。當前智算中心網絡通常采用 CLOS 網絡架構,主要關注通用性,無法滿足超大規模超算場景下低時延和低成本訴求,業界針對該問題開展了多樣的架構研究和新拓撲的設計。如圖 3-1 所示,直連拓撲在超大規模組網場景下,因為網絡直徑短,具備低成本、端到端通信跳數少的特點。64 口盒式交換機 Dra
21、gonfly 最大組網規模 27w 節點,4 倍于 3 級 CLOS全盒組網。以構建 10 萬個節點超大規模集群為例,傳統的 CLOS 架構需要部署 4 級 CLOS組網,端到端通信最大需要跨 7 跳交換機。使用 Dragonfly 直連拓撲組網,端到端交換機轉發跳數最少減少至 3 跳,交換機臺數下降 40%。同時,通過自適應路由技術實時感知網絡流量負載,動態進行路由決策,充分利用網絡鏈路帶寬,提升網絡整體吞吐和性能。圖 3-1 CLOS 和直連拓撲組網架構圖3.1.2.高效能高效能 IPv6 演進演進隨著機器學習、人工智能大模型的快速發展,AI 訓練集群內的節點數量及所需的 IP 地址越來越
22、多。同時業務應用逐步采用容器、Serverless 等部署方式大大提升了智算中心內計算資源的虛擬化比例,導致智算中心內需要的 IP 地址數量呈指數級上升。但是全球可供分配的 IPv4 協議地址已經枯竭,所有的運營商不能再申請到公網的 IPv4 地址池。這將促使為移動終端和固定終端申請 IPv6 地址,以支撐各種業務的開展,實現萬物互聯和智能連接。傳統數據中心通常采用 VxLAN 技術提供多租戶及跨 TOR 的子網內 IP 地址互通能力,若智算中心網絡采用 IPv6 Over IPv6 的 VxLAN 隧道將會在原始 IPv6 報文基礎上增加 7074字節的封裝。雙層 IPv6 報文頭導致報文封
23、裝成本上升、轉發能效下降,假設原始 IPv6 報文(僅包含 IPv6 基本頭)轉發能效為 1,如圖 3-2 所示,對于 Payload 長度小于等于 256 字節的報文,IPv6 VxLAN 封裝的轉發能效出現明顯下降。圖 3-2 IPv6 和 IPv6 VxLAN 轉發能效對比圖智算中心 IPv6 網絡中,報文無需添加 Underlay IPv6 頭部封裝,僅需增加一個 IPv6 擴展頭(12 字節)的封裝成本,網絡轉發能效遠超 IPv6 VxLAN 封裝、接近原始 IPv6 報文,如圖 3-3 所示:圖 3-3 高能效 IPv6 轉發能效對比圖智算中心網絡存在業務多租戶及安全等要求,不同業
24、務、不同安全級別、不同租戶間的業務根據需要進行隔離/互通控制。智算中心 IPv6 網絡中,通過 IPv6 擴展頭攜帶租戶標識、安全組標識及業務信息,可以支持智算中心內及跨智算中心的租戶隔離/互通、微分段及業務鏈能力。3.1.3.智算中心間網絡智算中心間網絡連接連接隨著國家東數西算戰略的推進以及越來越多的分布式算力協同場景的出現,AI 算力已經不再局限于單一的智算中心內部,更多的新型計算任務需要依賴“橫向互聯”和“縱向延伸”的多智算中心協同完成,通過跨智算中心網絡連接在邏輯上形成算力層面的超級虛擬智算中心。智算中心之間的長距連接成為影響業務性能的關鍵。為了支撐高效的數據搬移,相較于普通廣域網,互
25、聯網絡提出了更高的要求:1、超高的帶寬利用率。大管道是算力時代的標配。核心算力中心間幾百 G 甚至上 T 的鏈路將帶來超高的成本。充分利用帶寬,減緩擴容節奏,將成為超長距連接的首要目標。2、超低的丟包率。極少丟包甚至零丟包將極大減少丟包重傳帶來的帶寬資源消耗,在高帶寬利用率的同時,保證有效吞吐,提升數據搬移效率。然而,現有網絡技術面臨多方面的挑戰,無法滿足算力網絡需求:(1)上千公里的長距,帶來超長的鏈路傳輸時延,網絡狀態反饋滯后,現有的傳輸層協議擁塞控制算法存在不足:基于丟包的 Cubic 算法在長距傳輸表現出低的帶寬利用率、同時丟包較多;TCP BBR(Bottleneck Bandwid
26、th and Round-trip propagation time)算法雖然能獲得較高的帶寬利用率,但丟包率較高。(2)超長距傳輸連接數少時,容易損失吞吐。(3)超長距光纖傳輸無法避免錯包。(4)超大的帶寬時延積 BDP(Bandwidth Delay Product)容易發生擁塞丟包。要想實現無損流控,設備接收端緩存需要大于 BDP,這也對網絡設備提出了更高要求。此外,接收端的緩存也會由于丟包導致接收數據塊不連續,無法提交給應用,而快速消耗,進而影響吞吐。為了應對超長距傳輸的挑戰,滿足高性能算力互連要求,新一代智算中心內部網絡應具備如下的典型能力:(1)傳輸層協議可硬件卸載,支持超長距的
27、RDMA。(2)吞吐能力接近瓶頸鏈路帶寬。(3)支持加密傳輸。同時,考慮到智算中心間網絡引入了大延時和大抖動,智算中心內的無損網絡方案無法做到及時的擁塞控制和流量調整,需要新的技術方案解決。智算中心之間的互聯網絡可以看作是智算中心內部無損網絡的延伸,DCI 網絡引入了大延時和大抖動,僅靠智算中心內部的網絡方案無法做到及時的擁塞控制和流量調整,需要承載網提供長距無損或者一定的確定性能力,目前業界的研究方向有全光網絡直連、廣域確定性承載網絡、智算中心與承載網智能協同,空心光纖等。引入空芯光纖,不僅可以實現容量距離積的大幅提升,更可大幅降低約1/3 的傳輸物理時延、并提高時間確定性,為構建低時延時間
28、保證光互聯網絡提供基礎支撐能力。3.2.超高性能網絡關鍵技術超高性能網絡關鍵技術3.2.1.自適應路由自適應路由傳統數據中心網絡通常采用最短路徑算法指導流量轉發。對于均勻隨機流量,吞吐率和延遲均可達到最優,如遇到持續大象流,最短路徑會非常重載,而非最短路徑處于空閑狀態。圖 3-4 自適應路由轉發示意圖如圖 3-4 所示,自適應路由的目標是提升整網的有效吞吐以及網絡韌性,能夠快速感知網絡鏈路負載狀態變化,識別出關鍵擁塞路徑,快速調整網絡轉發路徑,做到毫秒/亞毫秒級別的鏈路快速切換,動態選擇輕載鏈路進行轉發,滿足超高性能網絡的可靠性要求。3.2.2.靜態轉發時延靜態轉發時延優化優化應用時延=計算操
29、作的步數*每步時延,過大的網絡延時則直接影響系統性能,嚴重浪費系統算力。從引起時延的性質來看,網絡設備轉發時延主要有兩部分構成:靜態時延、動態時延。靜態時延是指網絡設備硬件轉發固有的時延,目前隨著轉發設備的硬件能力提升,靜態時延已下降到微秒級,一般都小于 1us。動態時延是指多打一流量造成網絡設備的端口隊列擁塞,隊列深度增大帶來的隊列時延,也包括因隊列緩存溢出丟包,導致業務報文重傳帶來的延遲。如圖 3-5 所示,轉發芯片主要有如下模塊構成,Serdes、PHY/MAC、上行包處理(PP)、緩存管理(BM)、下行包處理(PP)等,報文轉發必須經過這些模塊。各模塊時延分布大致為:Serdes 30
30、ns,PHY/MAG 300ns(含 FEC),PP 400ns,BM 100ns(直通轉發),各轉發芯片模塊劃分和實現存在差異,該時延分布僅供參考。為進一步降低報文靜態轉發時延,可以針對各模塊進行低時延設計優化。圖 3-5 數據中心交換機轉發芯片模塊構成PHY/MAC 模塊高速接口物理鏈路誤碼率高,需要通過 FEC(前向糾錯)技術實現糾錯。FEC 糾錯技術需要收齊一定長度的 bit 流(碼字)后才能開始糾錯處理,這個會帶來時延的增加,RS(544,514)FEC 應用在 50G 單 lane 接口時的解碼延時為 148ns,時延相當大。為了降低FEC 糾錯時延,業界引入了更短的碼字,如 RS
31、272-FEC 相對 RS544-FEC 只需要收齊一半的bit 流就可以開始糾錯處理,解碼時延可以減低一半,RS272-FEC 相對 RS544-FEC 糾錯能力下降,只能在鏈路誤碼率較低的場景使用。為了支持更廣泛的場景應用,在保證接口可靠性的同時追求更低的時延,新的接口形態和編碼算法有待進一步探索。包處理(PP)模塊不同業務(L2/L3/VxLAN)包處理模塊內處理流程差異較大,VxLAN 出入隧道轉發相對基本 L2/L3 轉發會多查一些轉發表,如隧道終結表、隧道封裝表,這些額外的處理會帶來報文處理模塊時延的增加。要降低包處理模塊的時延需要簡化業務部署,關閉報文轉發路徑上不需要的子模塊,避
32、免部署 VxLAN 業務,設備上未部署下行 ACL 時,可以考慮關閉下行 ACL 功能。包處理模塊內存在較多的查表(MAC 表/FIB 表)過程,主要表項因為容量較大普遍采用算法查找,查表深度也會影響轉發時延。為了追求更低的時延,需要探索更好的并行查表設計,高效的查表算法。3.2.3.端網協同端網協同3.2.3.1.端網協同流控端網協同流控由于網絡中流量的隨機性以及路徑的多樣性,擁塞的出現不可避免。網絡出現擁塞后,會造成排隊時延增大(排隊長/丟包高/觸發 PFC 等)、網絡利用率低(欠吞吐)等影響,導致應用性能出現惡化?,F在有很多擁塞控制手段,通過不斷調整端側發送的速率,最終達到進入的網絡的容
33、量盡量逼近網絡的承載量,來解決網絡中的擁塞問題。當前,主要從帶寬、時延、收斂速度、公平性等角度評價不同算法。傳統的擁塞控制以被動擁塞控制為主,即收到擁塞信號后被動探測式地調整速率,典型的 如 DCQCN 算 法,發 送 端 根 據 接 收 到 的 ECN 標 記 報 文,利 用 AI/MD 機 制(additive-increase/multiplicative-decrease,線性增速乘性降速)調整發送速率。由于 1 個比特的 ECN 信號無法定量地表示擁塞程度,發送端設備只能探測式地調整發送速率,導致收斂速度慢,性能較差。目前,業界典型的優化思路分為兩類:一類是更加精細化的被動控制,如
34、HPCC(High Precision Congestion Control,高精度擁塞控制),利用相比 ECN 更精細的信息,提高調速的準確率,避免長時試探;第二類是提前預留/主動分配式的主動控制,如HOMA(一種接收端擁塞控制算法)等,主動為后面的包做資源預留以及分配,避免擁塞的發生。但是當前主流的優化思路仍然在端側實現,仍然需要至少 1 個 RTT 的響應時長,同時針對網絡中存在的多擁塞點問題,仍然需要多個周期才能收斂。因此需要一種新型的端網協同的擁塞控制算法,網絡提供的更精細信息以及更主動的控制,端側更精準的調控速率,實現滿帶寬、低時延、快速收斂、公平性優等目標,有效提升網絡的傳輸效率
35、,保障大規模分布式 AI 任務的高效完成。在 200 打 1 場景下,不同網絡擁塞控制算法對應的緩存排隊時延如表 3-1 所示??梢姸司W協同時的擁塞控制效果最好。時延(時延(us)端網協同端網協同 CCHPCCDCQCN50%-ile0.1553.023116.61290%-ile0.2386.662121.8299%-ile0.3218.204125.4899.9%-ile0.4019.094127.131表 3-1 端網協同擁塞控制算法與業界擁塞控制算法仿真實驗數據對比目前業界為滿足不同業務場景需求,會開發一些定制化的擁塞控制算法,通過與數據中心交換機協同工作,滿足精細化的流量擁塞控制需求
36、,這就對網卡的可編程能力提出新的要求。DPU 具備靈活的網絡業務配置能力和可編程的擁塞控制算法開發能力,是實現端網協同,網絡流量細粒度調度管理的首選。3.2.3.2.RoCE 協議改進協議改進RoCEv2 協議作為業界主流遠程直接內存訪問(RDMA)協議,存在三大限制,對網絡傳輸性能有比較明顯的影響:(1)每連接單路徑的限制。RoCEv2 協議每個 RC 都映射到唯一的一對五元組。故障情況下,會導致流量跌落多、流量中斷時間長;整網負載均衡性差,導致網絡帶寬利用率降低;更容易產生擁塞,不能調路,造成時延性能劣化。(2)硬件 RC 連接數的限制。RoCEv2 將協議棧卸載到網卡中,其中也包括應用通
37、訊的連接關系數據庫,但受限于網卡芯片內的表項空間限制,芯片內的連接數有限,當連接數超過某個數量的情況下,就會發生網卡芯片與主機內存的連接表交換,從而導致網絡傳輸性能下降。(3)Go Back N 重傳能力的限制。RoCEv2 協議為保障可靠傳輸,協議棧實現了重傳機制,目前典型的重傳機制是 Go Back N 重傳,即發生丟包后,從上一次確認接收的位置之后進行全量重傳,而不是僅針對丟棄的報文進行有限重傳。這也是當前 RoCEv2 依賴開啟 PFC反壓的主要原因,由于丟包后重傳的代價巨大,需要依賴 PFC 反壓盡量杜絕網絡上的丟包。(4)大 QP 規格下流控機制限制。在 QP 數量較多的場景下,基
38、于公平輪詢原則,單個 QP 調度時間周期比較長,造成 QP 的 CPN 反饋、QP 升速和降速不及時,從而造成流量控制不精準。RoCEv2 的這些限制已經越來越廣泛的被業界所認知,同時業界也在針對以上限制進行不斷的改進,與上述限制相對應,RoCE 協議需在以下方面進行優化改進:改進 1,支持每連接多路徑的能力優化。所謂的每連接多路徑是指,可以基于多個五元組的會話進行數據包的傳輸,連接上的數據可以分擔到多個不同的五元組。這樣的好處,首先是可靠性的提升,在智算中心 fat-tree 組網存在充分的等價路徑的前提下,任意一個單點故障只會影響部分路徑的轉發,但不會導致整個連接都中斷,從而可靠性得到提升
39、。同時網絡均衡性會提高,可以使得網絡的利用率得到改善和提高,從而提高 RoCE 傳輸的性能。AWS 已經將多路徑技術應用到其自研的協議 SRD 中,并在流量收斂性能上得到了顯著的優化。改進 2,從 RC 模式往連接數依賴更小的模式演進。目前基于 RC 的通訊是為每一對需要通訊的 QP 建立、維護一組連接,因此導致了連接數的規模巨大,限制了組網規模,影響了性能。針對這塊有兩種思路:思路 1,不提供更粗粒度的傳輸服務,這方面 AWS 的 SRD就是基于此思路的嘗試,協議棧不提供面向連接的保序傳輸可靠傳輸能力,硬件協議棧僅負責可靠報文傳遞,保序這類復雜的服務由驅動軟件完成;思路 2,進行連接的層次拆
40、分優化,構建連接池,實現連接的動態共享,Mellanox 的 DC 技術就是此思路的代表。改進 3,從 Go Back N 往選擇性重傳優化。Go Back N 重傳是一種簡單的重傳方式,所以在早期芯片資源受限的情況下硬件卸載的協議棧選擇此方式來實現重傳,加上有 PFC 加持,一般來說丟包概率非常低(在 PFC 參數配置合理的情況下,一般只會在出現鏈路錯包,鏈路故障的情況下才會發生丟包),芯片實現 Go Back N 重傳不失為一種合理的選擇。但隨著 RoCE 組網規模不斷增加,引發對 PFC 風暴整網流量驟停的擔憂,同時半導體工藝的提升幫助網卡硬件芯片能夠實現更為復雜的協議,RoCE 的重傳
41、方式將會逐漸從 Go Back N 的全量重傳演進到選擇性重傳。改進 4,基于大 QP 組的擁塞控制。將兩個節點間共享同一轉發路徑 QP 資源歸為一個QP 組,如圖 3-6 所示,可以通過五元組或引入帶內遙測機制進行識別。一個大 QP 組內所有的信息可以實現共享,如 CNP 反饋信息、速率信息、令牌信息等,在大 QP 組內,實現各個 QP 的速率快速精準控制。當網絡出現擁塞或恢復時,QP 組根據自身策略進行速率調整,策略包括:(1)每個小 QP 單獨計算自己的速率,匯總到大 QP 組。QP 組計算一個調整比例系數,告知各個小 QP。(2)QP 組計算出來組速率,分解到各個小 QP,然后告知各個
42、小 QP 具體的速率值。圖 3-6 QP 與 QP 組映射關系當 RoCE v2 協議延伸到更復雜的超長距互聯網絡時,問題將變得更為復雜。當單一的技術手段無法滿足需求的時候,嘗試將 AI、PFC、ECN、TDM 等多種技術手段進行融合將是一種必然的選擇,采用智能化多維度分析調度的手段才能達到最佳的效果。3.2.4.在網計算在網計算近年來,隨著深度學習、高性能計算等一批新型應用負載的需求量大增長,導致分布式系統規模越來越大,例如我國的超級計算機太湖之光已達到千萬核級別。在計算機科學領域,有一條著名的經驗法則,叫做阿姆達爾定律,代表了并行計算之后效率提升的能力。根據阿姆達爾定律,并行系統的加速比受
43、限于串行部分(即無法通過并行加速的部分)的性能。系統規模增大,系統內各節點之間的協同開銷也隨之增大,加劇了無法通過并行計算加速的串行計算部分的占比。算力需求的爆炸式增長促進了計算產業的繁榮,例如,過去 8 年,英偉達 GPU 算力增長了 317 倍并持續提升。與算力指數級增長不匹配的是,決定并行計算中串行部分的網絡帶寬增長卻是線性的。數據中心網絡帶寬從過去的 10Gbps/25Gbps 發展到現如今主流的40Gbps/100Gbps,增長速度遠遠落后于算力增長。因此,兩者之間的差距鴻溝,需要系統級的網絡-應用協同設計才能跨越。典型的網絡-應用協同設計涵蓋了高性能計算與深度學習領域廣泛使用的集合
44、通信操作,包括 AllReduce 全規約和 Broadcast 廣播。高性能計算(High Performance Computing,HPC)是指利用聚合的算力來解決復雜的、大規模的科學計算問題,如天氣預測、數學建模、物理分析等,其中涉及到多個算力節點之間的小規模數據集合通信操作(mpi incast 現象)。對于小規模數據來說,網絡的轉發時延是其集合通信時間的主要組成部分,因此網絡通信效率將會影響 HPC 應用的完成時間。但是隨著聚合算力的規模不斷增長、計算復雜度的增加,集合通信中數據交互的次數也會有明顯的增長,網絡通信效率對 HPC 應用完成時間的制約作用也越來越明顯。如圖 3-7 所
45、示,以目前較流行的集合通信操作 mpi ring all-reduce 為例,需要 2(N-1)次的數據交互才能完成,其中 N 為參與的節點數量。深度學習同樣需要調用 AllReduce 操作進行梯度聚合,且每個節點的傳輸數據量是深度學習模型尺寸的 2(N-1)/N 倍,當 N 比較大時,傳輸量接近原始模型尺寸的 2 倍,相當于額外增添了網絡帶寬的負擔。圖 3-7 集合通信操作 AllReduce 示意圖近年來,隨著可編程交換機的興起和部署,利用在網計算壓縮數據流量,提升計算傳輸效率成為一個有效的提升分布式系統的方法。在集合通信原語中,Reduce 和 AllReduce 含有計算的語義,因此
46、可以使用在網計算進行加速,減少了數據交互次數和入網數據量。組播是分布式計算系統中最常使用的通信模式之一。例如,超算系統 Mira 中,MPI_Bcast原語的執行時間占 MPI 通信總時間的 14%,時間占比在 MPI 集合通信原語中僅次于MPI_AllReduce。當前 MPI_Bcast 普遍采用應用層組播的方式實現組播通信,即在應用層多次調用下層單播,將數據重復發送多次,從而使得多個目的節點都能獲得源節點的數據。由于數據被重復發送,應用層組播任務完成時間大于數據量與通信帶寬之比??煽拷M播技術利用交換機完成組播報文的復制分發,以網絡層組播替代應用層組播,避免了相同數據的重復發送,使得組播任
47、務完成時間逼近理論最優值(即數據量與帶寬之比),相比于應用層組播任務完成時間有約 50%的減少。3.2.5.DPU 卸載卸載DPU 作為一種新型可編程異構計算處理器,為高帶寬、低延遲和數據密集型新型智算場景提供計算引擎,與 CPU 和 GPU 一起成為智算中心的三大支柱。DPU 作為智算中心內部資源互聯的網絡端點,是連接異構算力資源,加速數據在 CPU 和存儲及網絡之間的移動,實現異構算力間數據高速互聯互通的關鍵設備。為了更好的支持智算中心網絡,聚合智能算力,提供高性能彈性可伸縮的智能計算能力,DPU 在可以從以下幾個方面提升端網協同的網絡加速能力。NVMe-oF 卸載基于 NVMe 原生提出
48、的 NVMe-oF(NVMe over Fabric)可以使 NVMe 從支持本地存儲(DAS)發展為支持網絡存儲(NAS)且無需轉換其他存儲協議,在網絡存儲中延續保持NVMe 存儲訪問低時延、高吞吐的特點。隨著存儲介質從機械硬盤逐漸向固態硬盤轉變,存儲介質的訪問延時從毫秒量級縮短到幾十甚至幾微秒,使得存儲性能瓶頸從存儲介質、網絡傳輸逐漸轉移到主機側對存儲網絡協議棧的處理。傳統方式下,主機側 CPU 至少需要運行三層協議棧才能將報文從網卡轉發出去。通過DPU 對 NVMe-oF Initiator 和 NVMe-oF Target 端進行卸載加速,能夠有效解決存儲性能遇到的瓶頸,在基于 DPU
49、 的存儲架構中主機側只負責發出存儲命令,即只需要運行一層存儲協議棧。其他協議棧將卸載到 DPU 中執行,降低主機端 CPU 的占用率,是在分布式高性能存儲高速發展的趨勢下的必然。根據實現方式不同,NVMe-oF 的加速方案可分為分為半卸載與全卸載兩種。半卸載指將原運行在主機端的存儲協議棧卸載到 DPU 中的 CPU 核心中處理,結合 DPU 的專用加速單元如加解密、壓縮解壓縮實現存儲的加速。DPU 存儲全卸載仍然將運行在主機端的存儲協議棧轉移到 DPU 中執行,但 DPU 中的 CPU 核心負責配置存儲控制器的參數,例如,IO 隊列數、隊列深度、可并發命令數等。在 DPU 存儲全卸載的模式下,
50、主機發起的存儲命令將直接通過 DPU,經由網絡卸載引擎直接轉發出去。類似的,接收網絡傳來的數據直接經過后端 DPU 的存儲加速單元寫入主機內存,進一步降低存儲訪問延時同時提高存儲訪問的并行度。NVMe-oF 在 DPU 上實現卸載加速的基礎是實現 NVMe 設備虛擬化和 RoCEv2 的大規模連接能力,考慮 NVMe-oF 的性能最大化,需要在 NVMe-oF Initiator 和 Target 同時實現卸載加速。同時,NVMe-oF 的存儲服務能力也是必不可少的,如存儲數據壓縮/解壓縮、加密/解密、RAID 和糾刪碼(Erasure Code,EC)等。GPU Direct RDMA 能力
51、在當前GPU的算力能力下,100Gbps或更大的數據量才能夠充分發揮單個GPU的算力。在這樣的發展趨勢下,基于 RDMA 協議的 GPU Direct RDMA 技術,在 DPU 與 GPU 通信的過程中,可繞過主機內存,直接實現對 GPU 內存的讀寫能力,并且 DPU 上全硬件實現的RDMA 能夠支持單流百 G 以上的數據收發能力,進而實現了 GPU 算力聚合并且最大化提升了 GPU 集群算力。GPU Direct RDMA 技術已經是當前算力資源總線級互聯高性能網絡的主流技術。3.2.6.智能智能 ECN智算中心網絡同時承載計算、存儲和管理等多種業務流量。不同業務追求目標不同,對網絡的訴求
52、不同。傳統方式的 ECN 門限值是通過手工配置的,存在一定的缺陷。首先,靜態的 ECN 取值無法兼顧網絡中同時存在的時延敏感老鼠流和吞吐敏感大象流。ECN 門限設置偏低時,可以盡快觸發 ECN 擁塞標記,通知源端服務器降速,從而維持較低的緩存深度(即較低的隊列時延),對時延敏感的老鼠流有益。但是,過低的 ECN 門限會影響吞吐敏感的大象流,限制了大象流的流量帶寬,無法滿足大象流的高吞吐。結合了 AI 算法的無損隊列智能 ECN 功能可以根據現網流量模型進行 AI 訓練,對網絡流量的變化進行預測,并且可以根據隊列長度等流量特征調整 ECN 門限,進行隊列的精確調度,保障整網的最優性能。如圖 3-
53、8 所示,支持智能 ECN 的設備會對現網的流量特征進行采集并上送至 AI 業務組件,AI 業務組件將根據預加載的流量模型文件智能的為無損隊列設置最佳的 ECN 門限,保障無損隊列的低時延和高吞吐,從而讓不同流量場景下的無損業務性能都能達到最佳。圖 3-8 數據中心交換機轉發芯片模塊構成1.Device 設備內的轉發芯片會對當前流量的特征進行采集,比如隊列緩存占用率、帶寬吞吐、當前的 ECN 門限配置等,然后通過 Telemetry 技術將網絡流量實時狀態信息推送給 AI 業務組件。2.AI 業務組件收到推送的流量狀態信息后,將根據預加載的流量模型文件對當前的流量進行場景識別,判斷當前的網絡流
54、量狀態是否是已知場景。如果是已知場景,AI 業務組件將從積累了大量的 ECN 門限配置記憶樣本的流量模型文件中,推理出與當前網絡狀態匹配的 ECN 門限配置。如果是未知的流量場景,AI 業務組件將結合 AI 算法,在保障高帶寬、低時延的前提下,對當前的 ECN 門限不斷進行實時修正,最終計算出最優的 ECN 門限配置。3.最后,AI 業務組件將符合安全策略的最優 ECN 門限下發到設備中,調整無損隊列的ECN 門限。4.對于獲得的新的流量狀態,設備將重復進行上述操作,從而保障無損業務的最佳性能。無損隊列的智能 ECN 功能可以根據現網流量模型進行 AI 訓練,對網絡流量的變化進行預測,并且可以
55、根據隊列長度等流量特征調整 ECN 門限,進行隊列的精確調度,保障無損業務的最優性能。3.2.7.基于信元交換的網絡級負載均衡基于信元交換的網絡級負載均衡基于流的轉發負載分擔衍生出很多擴展的負載分擔方法,比如 ECMP(equal costmultipath)、UCMP(unequal cost multipath),前者不同的路徑之間在進行負載均衡選擇時完全等價,后者不同的路徑在進行負載均衡時會有差異化的權重,至于權重的設定則是可以由控制面邏輯計算而設定。但是不論是何種衍生擴展,他們都存在共同的限制。網絡設備在接收到一條流進行轉發時,此流經過 hash 計算確定一個轉發路徑,若不發生網絡路徑
56、的變化,此流所有的報文都將持續在確定的路徑上轉發。由于 Hash 計算本身就是一個范圍收斂的計算,會導致不同的流選擇的路徑會有重疊,一般來說網絡中流的數量要遠遠大于路徑的數量,通過大量流的疊加,一般來說可以保障網絡上各個路徑使用相對均衡;但若在網絡中流大小極其不均衡、流的數量有限的情況下(一般流的數量規模低于路徑數*103就認為流的數量少),不同路徑疊加后的流量壓力就容易產生較大偏差,這就是大家經常說的負載分擔不均衡。針對小規模、大小不均衡流的負載均衡問題,一直是困擾網絡數據面轉發的難題。在 AI/ML 的應用中,GPU 或其他類型的 AI/ML 計算單元之間他們有著非常簡單的通訊關系(流的數
57、量非常少);并且由于他們有著極高的計算能力,導致一對通訊單元間的數據吞吐極高(單個流很大,所需的網絡帶寬極大),這就導致在這樣的應用中存在極端的負載分擔不均衡,而且這種不均衡一旦引發網絡丟包,就會對整體 AI/ML 的任務完成時間帶來顯著的負面影響。圖 3-9 信元轉發負載分擔示意圖如圖 3-9 所示,在基于信元交換的網絡級負載均衡機制下,接收端設備接收到報文后,會將報文拆分成的若干信元,信元會基于目的端發送的調度信令選擇空閑的鏈路進行轉發,到的目的后,信元被重新拼裝成報文發出設備。在這樣的機制下,不同于流轉發,一個固定的流僅能利用單條路徑,交換機 A 和交換機 C 之間的所有鏈路都可以利用,
58、而且是動態的基于微觀負載實時調整的均衡利用。信元交換本身并不是一項嶄新的技術,在目前廣泛應用的框式設備中,線卡芯片與網板芯片之間的流量交換普遍都采用了信元交換的技術,以實現機框內無阻塞交換。不過信元交換以前主要應用在框式設備系統內部,往往都是各個交換機設備廠商自定義的信元格式和調度機制,不具備跨廠商互通的能力。此項技術可以進一步擴展,應用到整個網絡上,是解決智算中心網絡負載均衡問題的方向之一。3.3.網絡可靠性及智能運維網絡可靠性及智能運維關鍵技術關鍵技術3.3.1.數據面故障感知與恢復數據面故障感知與恢復故障收斂是網絡保障連通性的重要手段,整個流程依次為:故障感知,即網絡設備檢測故障是否發生
59、;故障傳遞,即網絡設備間互相通告故障信息;故障恢復,即網絡設備重新計算流量路徑并引流至新路徑。早期網絡故障收斂過程全部依賴控制面,即通過輪詢或中斷感知物理故障,通過協議?;顧C制感知鏈路層以上故障,再由控制面路由協議完成故障傳遞與處理,所有流程均需要軟件參與,典型場景收斂性能為秒級。后來為提升故障收斂性能,業界引入 BFD(雙向轉發檢測)等檢測技術來提升故障感知性能,采用 FRR(快速重路由)來提升故障處理性能,其共同特征是將部分故障收斂過程由數據面硬件卸載,降低網絡故障場景控制面參與并獲得顯著的收益,典型場景的故障收斂性能提升至百毫秒量級。然而隨著網絡基礎帶寬的持續提升,以及 AI 計算、高性
60、能存儲業務對可靠性的更高要求,百毫秒量級的收斂性能已無法滿足業務發展的需求,需進一步降低故障收斂控制面參與度,將故障收斂流程硬件卸載,完全由數據面感知、傳遞、處理故障,提升故障收斂性能至亞毫秒級。3.3.2.基于意圖的基于意圖的網絡仿真校驗網絡仿真校驗基于意圖的網絡,本質是圍繞用戶的意圖,借助 AI 和大數據技術,將用戶意圖轉換為網絡系統可理解、可配置、可度量、可優化的對象及屬性,實現網絡設計和運維操作。由意圖生成的網絡,在下發到物理網絡前,理論上是一個邏輯網絡,疊加實際的網絡數據后,就具備了網絡仿真和演算能力。網絡仿真演算技術的本質,首先是通過對于網絡配置層面、資源層面和轉發層面的建模,形成
61、一張和現網行為無限接近的虛擬網絡。然后,在這張虛擬網絡通過形式化的數學方法,快速的驗證網絡是否能夠提供可承諾的 SLA,包括連通性、隔離性、必經路徑、轉發黑洞、策略一致性、時延丟包。網絡仿真的關鍵價值在于驗證,包括在線配置仿真驗證、離線配置仿真驗證和事后驗收。實際的驗證過程是以現網配置、拓撲和資源信息作為輸入,通過網絡建模和形式化驗證算法,基于現網仿真剩余網絡資源是否足夠、呈現詳細的連通性互訪關系、數字化模擬用戶重大意圖的執行、驗證意圖的預期效果、分析和評估變更對原有業務影響,并持續驗證原始業務意圖是否已經被滿足,進而保障客戶網絡可靠性。3.3.3.智能運維閉環網絡智能運維閉環網絡當前數據中心
62、網絡運維處于工具輔助、人工決策階段。傳統運維流程存在多個人工斷點,首先,人工匯總各個維度的信息判斷當前狀態是否正常,該信息的來源非常單一,一般主要來自設備自身上報的日志/告警信息以及管理系統采集的性能 KPI 數據閾值告警;其次,NOC監控人員檢測到網絡異常,需要通過工單通知網絡維護人員,網絡維護人員在進行人工的問題定位;最后,網絡維護人員基于定位的結果,基于對整體網絡的理解給出應急恢復措施以及影響評估。整體的故障處理流程較長,并且依賴運維人員的能力,業務影響較大。作為人工智能在運維領域的創新應用,智能運維已成為智算中心應對復雜技術架構、嚴苛運行要求等一系列挑戰的必然選擇。圖 3-10 智算中
63、心智能運維流程圖如圖 3-10 所示,智能運維主要通過網絡健康度、智能故障定位引擎及智能故障恢復引擎等三個模塊提供故障預防到故障定位,再到故障閉環的智能保障能力。其中,(1)網絡健康度模塊主要對智算中心的物理硬件、網絡鏈路、運行協議、網絡業務及業務流量進行整體的監控,通過 Telemetry 機制,整合網絡配置數據、表項數據、日志數據、KPI性能數據及業務流數據,實時發現網絡中各個層面的問題,同時,利用機器學習算法,對網絡設備的行為從空間、時間維度挖掘網絡狀態、流行為預測進行預測,提前發現風險。(2)智能故障定位引擎通過對多維數據的關聯分析,從時間相關性、空間相關性進行關聯分析,給出故障的根因
64、。(3)智能故障恢復引擎綜合故障節點及故障類型給出不同的隔離/恢復預案,并且會根據故障節點當前承載的業務情況,給出隔離/恢復的影響范圍。未來新一代智算中心應從網絡可靠性、網絡一致性、網絡容量、網絡性能、網絡穩定性等多個維度全面分析和評估智算中心網絡中可能存在的風險,在網絡故障發生之前,根據不同的風險類型提供影響分析及優化建議。4.總結和展望總結和展望新一代智算中心網絡是一個很大的新課題,新協議、新架構、新設備形態、新技術的出現,必然給智算中心網絡帶來全新的升級。本白皮書從智算中心發展情況、智算中心網絡演進趨勢和智算中心網絡關鍵技術三個方面,開展了相關研究,以期拋磚引玉,更盼得到更多同行的參與和
65、討論。中國移動也希望按照高價值優先、先易后難的原則,逐步推動智算中心網絡關鍵技術成熟與落地,我們期盼與眾多合作伙伴一起,匯聚行業力量,共同打造高效、開放、解耦的新一代智算中心網絡。術語與縮略詞表術語與縮略詞表英文縮寫英文縮寫英文全稱英文全稱中文全稱中文全稱BDPBandwidth Delay Product超大的帶寬時延積OTNOptical Transport Network光傳送網RDMARemote Direct Memory Access遠程直接數據存取AIArtificial Intelligence人工智能VxLANVirtual eXtensible LocalArea Netw
66、ork虛擬擴展局域網PPPacket Process包處理BMBuffer Management緩存管理PSParameter Server參數服務器HPCHigh Performance Computing高性能計算DPUData Processing Unit數據處理單元NVMeNVM Express非易失性內存主機控制器接口規范NVMe-oFNVMe over Fabric基于網絡的非易失性內存主機控制器接口規范DASDirect-Attached Storage直連式存儲NASNetworkAttached Storage網絡附屬存儲ECNExplicit Congestion Notification明確的擁塞通知PFCPriority-Based Flow Control基于優先級流量控制MLMachine Learning機器學習ECMPEqual Cost Multipath等價多路徑UCMPUnequal Cost Multipath非等價多路徑ICTInformation and CommunicationsTechnology信息與通信技術KPIKey Performance Indicator關鍵績效指標NOCNetwork Operations Center網絡操作中心CCCongestion Controlled擁塞控制