《紫金山實驗室:2024智算網絡技術與產業白皮書(85頁).pdf》由會員分享,可在線閱讀,更多相關《紫金山實驗室:2024智算網絡技術與產業白皮書(85頁).pdf(85頁珍藏版)》請在三個皮匠報告上搜索。
1、版權聲明版權聲明本白皮書版權屬于紫金山實驗室及其合作單位所有并受法律保護,任何個人或是組織在轉載、摘編或以其他方式引用本白皮書中的文字、數據、圖片或者觀點時,應注明“來源來源:紫金山實驗室等紫金山實驗室等”。否則將可能違反中國有關知識產權的相關法律和法規,對此紫金山實驗室有權追究侵權者的相關法律責任。主要編寫單位:主要編寫單位:紫金山實驗室、北京郵電大學、華為技術有限公司、中興通訊股份有限公司、中移(蘇州)軟件有限公司、中移(杭州)信息技術有限公司、天翼云科技有限公司、上海郵電設計咨詢研究院有限公司、北京交通大學移動專用網絡國家工程研究中心、浙江大華技術股份有限公司、科大訊飛股份有限公司、蘇州
2、盛科通信股份有限公司主要編寫人員主要編寫人員(排名不分先后(排名不分先后):黃韜、汪碩、高新平、肖玉明、徐鹍、李振紅、時定兵、趙芷晴、楊彩云、韓紅平、黃文浩、袁輝、胡秀麗、鄭曉龍、徐峰、龔翔宇、吳濤、符哲蔚、陸振善、張佳瑋、谷志群、李和松、段威、陸詩瑩、賈玉、趙怡、成偉、王俊杰、羅遠、劉靜、馬玉寅、彭天皓、呂宵雙、楊志逵、劉耀華、史銀妹、劉文斌、王國棟、周春旭、張濤I前言當前,以生成式人工智能為代表的通用人工智能技術在全球范圍內引起了廣泛關注,并以前所未有的速度、廣度與深度催動經濟和社會發展,掀起了新一輪科技革命與產業變革。在人工智能產業發展過程中,智算網絡發揮了基礎性支撐作用。業界基于高性能
3、網絡構建算力集群,從而突破單點算力的性能極限,實現智算中心內外的算力協同與數據交互,并進一步打破智算中心的煙囪式孤立局面,實現更大規模的算力互聯,為 AI 技術發展與科技創新提供強有力的支撐。智算算力互聯的實現依賴于一個能夠支持高性能計算任務的網絡環境,這要求智算網絡必須具備超大帶寬、超低時延、零丟包和穩定可靠的數據傳輸能力,以確保數據傳輸的及時性、完整性與準確性,從而滿足智算業務對算力資源的按需取用與高效利用需求,并支持面向未來多樣化智算應用場景提供定制化的網絡服務。針對上述挑戰,本白皮書首先系統性梳理了當前智算網絡領域的政策背景、產業動態以及技術發展脈絡,并深入探討了未來智算產業對網絡能力
4、的核心訴求,分析了高性能智算環境在網絡帶寬、時延、抖動、丟包等方面存在的挑戰,由此引發對智算集群內與集群間核心支撐技術的討論,涉及新型網絡架構、超寬可編程轉發、負載均衡、光電融合組網與路由、廣域 RDMA 等關鍵技術。隨后,結合智算網絡產業的典型案例,闡釋了上述關鍵技術在智算基建建設中的應用。最后針對智算網絡提出了技術與產業發展建議,旨在為行業從業者、II決策者及研究者提供一定參考,以推動智算網絡技術的創新與應用。III目錄前言.I目錄.III一、智算網絡技術與產業發展概況.1(一)政策態勢.1(二)產業形勢.3(三)技術趨勢.6二、智算產業對于網絡的核心要求.11(一)網絡帶寬要求.11(二
5、)網絡時延要求.11(三)網絡抖動要求.12(四)網絡丟包要求.13三、智算集群內網絡關鍵技術.15(一)新型網絡架構.15(二)超寬可編程轉發技術.22(三)無損網絡技術.26(四)網絡負載均衡技術.40(五)端網協同的 NetMind 跨層通信架構.46四、智算集群間網絡關鍵技術.50(一)光電融合組網與路由技術.50(二)廣域擁塞控制技術.53(三)廣域 RDMA 技術.57IV(四)新型低損光纖技術.60五、智算網絡產業典型案例.64(一)天翼云昇騰智算項目.64(二)紫金山新型無損數據中心項目.67六、智算網絡技術與產業發展建議.71七、總結與展望.73附錄 A:術語與縮略語.75參
6、考文獻.771一、智算網絡技術與產業發展概況一、智算網絡技術與產業發展概況近年來,全球對智能算力的需求急劇增長,推動智算服務進入新一輪爆發期。據統計,2022 年全球智能算力規模已達 142 EFLOPS,并預計 2030 年將達到 16 ZFLOPS,年均增速超 80%,這種增速奠定了智能算力將成為全球算力規模增長主要驅動力的地位。在此背景下,本章將圍繞智算政策態勢、產業形式與技術趨勢等方面展開深入分析。(一)政策態勢(一)政策態勢隨著全球科技革命與產業變革的加速,我國高度重視數字基礎設施的建設,尤其在智能計算領域。國家通過“十四五”國家信息化規劃明確了未來幾年加強數字基礎設施的基調,特別是
7、智能算力基礎設施的建設,將成為推動經濟高質量發展的核心支撐。(1)加強政策引導與支持加強政策引導與支持2017 年,國家工信部頒布了促進新一代人工智能產業發展三年行動計劃(2018-2020 年),明確指出要將人工智能與制造業深度融合,并推動智慧工廠的發展;同年,國務院發布了新一代人工智能發展規劃,提出要構建以人工智能為主攻方向的創新機構,并逐步增加在該領域的投入;2021 年發布的新型數據中心發展三年行動計劃(2021-2023 年)和“十四五”數字經濟發展規劃指出,要推動智能計算中心有序發展,打造智能算力、通用算法和開發平臺一體化的新型智能基礎設施,提供體系化的人工智能服務;2023 年2
8、是 AI 大模型元年,該年兩會報告中多次提及 ChatGPT 等大模型的人工智能詞匯,并提出了關注數據安全與提升產業質量的核心建議和提案;2024 年,政府工作報告中首次提出開展“人工智能+”行動,標志著人工智能向大規模落地應用發展的態勢。(2)加快數字基礎設施建設)加快數字基礎設施建設在“十四五”國家信息化規劃指導下,我國正在加快建設泛在智聯的數字基礎設施體系,包括部署高速可靠的 5G 網絡與大規模衛星互聯網,以及建立全國一體化大數據中心。上述措施已在多地實施,顯著提升了區域間的數據處理能力與網絡響應速度,為經濟社會數字化發展提供了強有力的支撐。此外,還優化了全國互聯網骨干直聯點并加快了 I
9、Pv6 的規模部署,新建了國家級互聯網交換中心提升網絡效率與數據處理能力。通過發布系列政策,加強智算設施的建設與升級,支撐新感知和新算力設施的快速發展。(3)強化規劃與管理)強化規劃與管理國家發改委發布的通知中指出,必須制定跨地域、跨系統的數字基礎設施建設規劃,以確保東西部算力協同發展。通過優化資源配置與推動區域平衡發展,使國內多個地區實現了更為高效的數字基礎設施管理。為加強統籌監測,引導東西部算力協同發展,構建全國一體化算力體系,政策已著力制定跨地域、跨系統的數字基礎設施建設規劃。通過加大對智算資源的規劃投資,確保各地區、各行業的數字化轉型需求得到有效滿足。(4)推動數字化產業升級)推動數字
10、化產業升級3各地方政府正在積極搶占智算先機,推動產業的數字化升級。例如,北京正在建設亦莊等 E 級智能算力高地,并計劃到 2027 年實現智算基礎設施軟硬件產品的全棧自主可控;上海在推進“算力浦江”智算行動實施方案,打造高質量智算發展格局;貴州通過與華為云、科大訊飛等企業合作,推動盤古、星火基礎大模型在本省落地,并建立公共數據目錄“一本賬”,力爭在數據訓練與行業大模型培育方面取得領先優勢。(二)產業形勢(二)產業形勢我國正在積極推進智算網絡標準化進程,以滿足人工智能與高性能計算需求。國內智算產業鏈涵蓋從核心技術研發、資源整合到廣泛應用的全鏈條。各大云服務商和電信運營商正在加速構建 AI 大模型
11、與智算平臺,以提升業務流程的智能化水平和效率。在國內標準化方面,中國通信標準化協會正在主導國內的智算網絡標準化工作。當前階段主要集中在互聯互通與基礎支撐方面,系統化地推動智算網絡的總體技術要求、無損協議、廣域網能力要求、存算一體、設備平臺互聯互通、安全等標準化研究進程。2023 年,中國聯通、中國電信、信通院、紫金山實驗室圍繞下一代網絡演進(NGNe,Next Generation Network Evolution)在 SG13 啟動智算立項;在國際標準化方面,智算網絡的標準化工作主要由 ITU 和 IETF 等國際組織推動。為滿足人工智能和高性能計算(HPC,High Performanc
12、eComputing)對智能算力需求的急速增長,2023 年 7 月,Linux 基金4會聯合 AMD、Arista、博通、思科等公司共同成立了超以太網聯盟(UEC,Ultra Ethernet Consortium),該聯盟旨在通過改進以太網技術的物理層、鏈路層、傳輸層和軟件層,提升其轉發性能,同時兼容當前以太網生態。此外,全國各地正在推進智算中心的建設。據統計,目前全國超過 30 個城市正在建設或提出建設智算中心,建設總數超 100 個,總投資規模超百億元。這些項目的建設主體包括政府機構、三大電信運營商以及部分互聯網企業。典型的智算中心包括中國電信京津冀大數據智能算力中心、阿里云張北超級智
13、算中心、騰訊長三角(上海)人工智能先進計算中心、南京智能計算中心等,其中 12 個位于“東數西算”八大樞紐。2024 年,武昌智算中心、中國移動智算中心(青島)、華南數谷智算中心、鄭州人工智能計算中心、博大數據深圳前海智算中心等也已相繼開工或投產使用。圖 1-1 我國智算中心及大模型分布5我國智算產業鏈已形成完整的上游核心技術研發、中游資源整合服務到下游廣泛應用的鏈條:(1)上游產業是智算的技術源頭與核心支撐,包括芯片、軟件及硬件供應商。目前,AI 芯片領域呈現多元競爭格局,GPU 和 FPGA因其高技術壁壘,已形成穩固的寡頭壟斷市場;與同時,TPU、NPU等 ASIC 芯片嶄露頭角,如華為昇
14、騰 NPU 和阿里平頭哥 NPU,憑借其在吞吐量、能效及算力等方面的突出表現,已在 AI 領域得到大量應用。(2)中游產業是智算資源的整合者與服務提供者,主要由云服務商、電信運營商及第三方數據中心服務商組成。云商及科技公司利用技術積累,提供大模型及平臺服務,一方面將部分傳統數據中心改造為專為人工智能設計的智算中心,另一方面加速構建 AI 大模型。IDC服務商則依托云網資源,深度參與智算建設。例如,中國電信已推出息壤智能計算平臺,提供智算、超算、通算等多元化算力服務,為大模型訓練、無人駕駛、生命科學等領域提供軟硬件一體化解決方案,其 RDMA 吞吐能力高達 1.6Tb。(3)下游產業涵蓋互聯網、
15、交通、金融、工業等眾多行業用戶。通過引入智算技術,實現業務流程智能化、產品與服務創新以及決策支持優化,推動行業數字化轉型與智能化升級。例如,百度文心大模型助力浦發銀行與泰康保險在投資決策、理賠信息檢索等業務中提升效率;華為盤古大模型為國家電網提供智能電力巡檢解決方案;小鵬汽車在烏蘭察布設立了自動駕駛智算中心“扶搖”,基于阿里飛天智6算平臺,擁有 600 PFLOPS 算力,使自動駕駛核心模型訓練速度提升近 170 倍。圖 1-2 智算產業鏈(三)技術趨勢(三)技術趨勢(1)AI 模型參數規模模型參數規模將超將超百萬億,超長序列成為主流標配百萬億,超長序列成為主流標配從 2024 年 AI 行業
16、的發展趨勢來看,大模型 Scaling Law 依然保持旺盛生命力,萬億甚至百萬億參數規模的大模型成為必然趨勢。以OpenAI 為例,其下一代模型 GPT-5 的參數規模將達到 2 萬億以上,而更遠期的 Q*系列模型將采用多模態自我演進訓練機制,使模型訓練不再局限于有限的人類數據,實現從數據驅動向算力驅動的轉變。同時,超長序列也逐漸成為未來模型的主流標配,以 Sora 為例,視頻生成場景需要使用長達百萬長度的序列,例如 60 秒的視頻需要 1M的序列長度、10 分鐘視頻則需要 10M 序列長度,這標志著序列長度將成為衡量模型能力的重要指標。7模型規模與序列長度的急速遞增推動了對算力的高需求,也
17、激發了企業在智算基礎設施領域的投入。例如,Tesla 計劃在 2024 年投入100 億美元建設 AI 算力集群,而微軟聯合 OpenAI 啟動的星際之門項目更計劃投資 1000 億美元,打造數百萬 GPU 規模的算力集群。圖 1-3 AI 大模型的發展趨勢(2)以太)以太推動推動智算網絡開放互聯,百萬卡集群成為共識智算網絡開放互聯,百萬卡集群成為共識在產業界共同努力下,智算網絡呈現出兩方面的演進趨勢:一是以太將成為智算網絡開放互聯的基礎,二是百萬卡集群規模成為行業共識。行業正逐步認識到以太網在 AI 與 HPC 場景中的強勁生命力。更多的 GPU 廠商選擇以太作為其算力芯片的 IO 接口形態
18、,如 IntelGaudi 及眾多國產芯片商。同時,中國移動牽頭的全調度以太網技術體系(GSE),以及由海內外頭部廠商組成的超級以太網聯盟,正在8突破基于以太網構建超大規模高性能 AI 集群的技術瓶頸。事實上,“以太網或 InfiniBand”這道命題已經有了答案,以太已成為構建超大規模開放互聯網絡的技術基石。其次,百萬卡集群將成為未來幾年智算行業發展的重要方向。隨著模型規模逐漸逼近甚至超過人腦水平,相應的 AI 集群規模也將從之前的千卡或萬卡級別,迅速發展到十萬卡甚至百萬卡規模。2024年是百萬卡集群需求元年,并將在未來數年內持續推動智算網絡技術的發展與創新。(3)融合將成為智算網絡演進的主
19、路徑)融合將成為智算網絡演進的主路徑從宏觀技術發展趨勢來看,“融合”將成為智算網絡演進的關鍵驅動。其中,總線與網絡的融合、電互聯和光互聯的融合是兩大重要技術趨勢。首先,傳統的總線技術(如PCIe、NVlink)和網絡技術(如Ethernet、Infiniband)之間的界限將變得更為模糊,總線網絡化和網絡總線化的趨勢將同步進行??偩€網絡化指傳統總線技術將借鑒網絡大規模擴展的經驗和技術特性,以實現更大規模的垂直擴展。而在網絡總線化趨勢下,傳統網絡技術也將借鑒總線技術低延遲和高可靠特性,以進一步提升互聯性能并擴展新應用場景。因此,總線與網絡技術的融合將成為未來數年內智算網絡發展的主要趨勢之一。9圖
20、 1-4 英偉達的總線和網絡技術其次,電互聯和光互聯的技術融合將推動智算網絡在架構和成本方面的革新。若按當前算力芯片的發展速度來看,IO 密度與功耗將成為難以突破的瓶頸。對此,OCS 光交換機和基于硅光的 CPO/OIO技術將在組網架構與單比特功耗等方面深刻影響未來數年智算網絡的發展??梢灶A見,未來智算網絡將緊密融合電互聯與光互聯技術,優化網絡架構與功耗成本,以達到極致的應用效果。圖 1-5 電互聯技術和光互聯技術的融合(4)新型大容量網絡芯片將成為智算網絡發展的基石新型大容量網絡芯片將成為智算網絡發展的基石隨著智算業務對高速互聯需求的持續攀升,新型大容量網絡芯片正處于高速發展階段,呈現如下趨
21、勢:10容量持續增長,單比特功耗容量持續增長,單比特功耗不斷不斷降低。降低。過去 10 年,以太網交換芯片的容量從百 G 迅速提升到 51.2T,增長近 100 倍,且單比特功耗下降 90%以上。在 AI 驅動下,未來網絡芯片預計將迅速突破 100T容量,單比特功耗將進一步降低。同時,400G/800G DPU 網卡需求也將迎來井噴。面面向向 AI 場景優化場景優化將將成為網絡芯片發展的基本要求成為網絡芯片發展的基本要求。過去兩年中,實現面向 AI 場景優化已成為新一代網絡芯片的重要特征,并將在未來五至十年內推動網絡芯片的更新迭代。典型技術包括超低延遲、故障預測、智能流分析引擎、基于容器/包的
22、負載均衡、在網計算等。業務場景融合業務場景融合正正成為新型網絡芯片的成為新型網絡芯片的發展發展方向方向。當前,總線網絡化和網絡總線化趨勢明顯,下一代芯片需要綜合考慮總線和網絡兩個場景的需求,以實現架構統一和網絡極簡目標。11二、智算產業對于網絡的核心要求二、智算產業對于網絡的核心要求(一)網絡帶寬要求(一)網絡帶寬要求網絡帶寬是 AI 大規模訓練中的一個關鍵要素。以深度學習為例,訓練復雜的神經網絡模型可能需要處理 TB 級甚至 PB 級的數據。為保證訓練效率,網絡高帶寬對存儲設備、計算節點和內存之間的快速數據傳輸至關重要。尤其是在分布式訓練場景下,多個計算節點之間需頻繁交換大量中間結果與梯度信
23、息,若帶寬不足則將產生數據傳輸瓶頸,進而影響訓練速度。目前,主流 AI 訓練平臺通常采用高帶寬的網絡連接,如 10Gbps、40Gbps 甚至更高的帶寬,以滿足大規模數據傳輸需求。隨著 AI 模型復雜度和數據規模的持續增加,未來對網絡帶寬的需求將進一步提升。網絡帶寬對于 AI 推理同樣至關重要。推理過程通常需要快速響應用戶請求,并在短時間內返回結果。例如,在自動駕駛、實時視頻分析等場景中,系統需要在毫秒級的時間內處理和傳輸大量數據。即使采用邊緣計算方式,仍需高帶寬網絡來實現用戶與數據中心間的大體量數據傳輸,特別是在多邊緣節點協同工作的情況下,該需求尤為突出。此外,隨著多模態技術的快速發展,大量
24、圖像、聲音、視頻、傳感等數據的傳輸,也對 AI 推理所需網絡帶寬提出了更高要求。(二)網絡時延要求(二)網絡時延要求低時延是支撐 AI 大模型分布式訓練的關鍵要素。分布式訓練要求12在多個計算節點之間頻繁交換數據,若網絡時延過高,則將導致數據傳輸速度減慢,進而影響整體訓練效率。特別是在同步訓練模式下,所有計算節點必須等待最慢節點的數據傳輸完成,才能進行下一輪計算。因此,網絡時延的增加將直接導致訓練時間的延長。另外,隨著AI 模型的復雜度與參數規模持續增加,其對低時延網絡的需求將更為迫切。低時延對于 AI 推理同樣重要。推理過程通常要求快速響應用戶請求,并在短時間內返回結果。例如,在智能客服系統
25、中,需對用戶提問實現秒級反饋;在自動駕駛系統中,車輛需要實時處理傳感器數據,并做出及時的決策,任何延遲都可能導致嚴重后果。此外,隨著 AI技術發展及應用擴展,其對時延的需求將進一步嚴苛化,因此攻克低時延技術成為打造智算網絡的一項核心挑戰。(三)網絡抖動要求(三)網絡抖動要求通算與智算在流量特征方面存在顯著區別。通算中心的特征是流數量多(通常超過 10W),但以小流為主,通信模式通常為點對點。相比之下,智算中心的特征為流數量少(通常低于 10K),但以周期性突發的大流為主,通常采用集合通信的模式,且流間存在同步效應。該同步效應對網絡的抖動/長尾延遲極為敏感,可能引發大量 GPU 資源空轉的問題。
26、然而,控制網絡抖動相比平均時延更具挑戰性。即使在無擁塞丟包的情況下,不合理的負載均衡與隨機排隊也可能引發抖動劣化,導13致應用性能下降。相關測試數據表明,在 AI 場景中,相比傳統基于流的負載均衡技術,采用逐包負載均衡可顯著減低時延抖動,同時可提升 40%的任務完成時間(JCT,Job Completion Time)增益。因此,有效控制時延抖動是 AI 高性能網絡的重要需求,通過合理的技術手段可彌補當前網絡抖動控制能力的不足。圖 2-1 抖動帶來的性能代價(四)網絡丟包要求(四)網絡丟包要求網絡丟包在 AI 大規模訓練中是一項極其重要的問題。分布式訓練要在不同計算節點間頻繁交換數據,若發生丟
27、包則將導致數據傳輸失敗,進而影響模型訓練的準確性。尤其在同步訓練模式下,任一節點的數據丟失都可能導致整個訓練過程的中斷,嚴重拖累訓練進度。為減少丟包對訓練的影響,需采用高可靠性的網絡技術與協議,同時優化網絡拓撲結構,增強網絡設備穩定性,并在出現問題時快速進行路徑切換,保證數據傳輸的連續性。網絡丟包同樣會對 AI 推理性能產生影響,因為推理過程需要時14響應用戶請求,若發生丟包則將導致數據傳輸失敗,進而影響推理結果反饋的及時性。例如,在自動駕駛系統中,傳感器數據的丟失可能導致系統無法正確識別路況,進而影響車輛安全行駛。綜上所述,智算網絡的發展與應用亟需高帶寬、低時延/抖動、輕丟包的網絡支持,并通
28、過不斷創新與發展智算集群內與智算集群建的網絡互聯技術,為 AI 技術的研究與應用提供強有力的支撐。為探索上述要求的解決方案,本白皮書將從智算集群內與智算集群外兩個維度展開技術分析,詳細闡述新型網絡架構、無損網絡、負載均衡等集群內關鍵技術,以及光電融合組網與路由、廣域擁塞控制、廣域 RDMA 等集群間關鍵技術。15三、智算集群內網絡關鍵技術三、智算集群內網絡關鍵技術(一)(一)新型網絡架構新型網絡架構在 AI 大模型訓練場景中,GPU 數量與模型訓練時長通常呈正比關系。多卡訓練可極大縮短訓練時間,尤其對于千億級甚至萬億級參數規模的大語言模型,智算集群需支持萬卡及以上的并行能力。智算集群內網絡架構
29、的優劣對 GPU 服務器內外的集合通信存在極大影響。因此,設計大規模、高可靠、低成本、易運維的優質網絡架構,對于滿足大模型訓練的大算力、低時延和高吞吐需求具有重要意義。(1)Clos 網絡架構網絡架構胖樹(Fat-Tree)Clos 無阻塞網絡架構由于其高效的路由設計、良好的可擴展性及方便管理等優勢,成為大模型訓練常用網絡架構。對于中小型規模的 GPU 集群網絡,通常采用 Spine-Leaf 兩層架構,如圖 3-1 所示。對于較大規模的 GPU 集群則使用三層胖樹(Core-Spine-Leaf)進行擴展組網,由于網絡的層次增加,其轉發跳數與時延也相應增加。圖 3-1 Spine-Leaf
30、兩層 Fat-Tree 組網架構16GPU 服務器接入分為多軌和單軌兩種方式。圖 3-1 為多軌接入方式,其 GPU 服務器上的 8 張網卡依次接入 8 臺 Leaf 交換機,該方式集群通信效率高,大部分流量經一級 Leaf 傳輸或者先走本地 GPU 服務器機內代理再經一級 Leaf 傳輸。圖 3-2 為單軌接入方式,1 臺 GPU服務器上的網卡全部接入同一臺 Leaf 交換機,該方式集群通信效率偏低,但在機房實施布線中有較大優勢。此外,若 Leaf 交換機發生故障,多軌方式所影響的 GPU 服務器數量將多于單軌方式。圖 3-2 Spine-Leaf 兩層 Fat-Tree 單軌組網架構業內典
31、型的大模型組網架構有騰訊星脈與阿里巴巴 HPN 網絡。星脈網絡采用無阻塞胖樹(Fat-Tree)拓撲,分為 Cluster-Pod-Block三級。如圖 3-3 所示,以 128 端口 400G 交換機為例,其中 Block 為最小單元,各 Block 包含 1024 個 GPU,各 Pod 支持最大 64 個 Block,即 65536 個 GPU。多個 Pod 構成一個 Cluster 集群,支持 524288 個GPU。17圖 3-3 騰訊星脈 Cluster-Pod-Block 組網架構阿里云大模型訓練網絡(HPN,High-Performance Networking)引入一種雙平面
32、兩層架構,如圖 3-4 所示。每臺 GPU 服務器配置了 8個 GPU,對應 8 個 NIC,各 NIC 提供 2200Gbps 帶寬,并上行連接到不同 Leaf 設備,形成雙平面設計,從而避免單 Leaf 故障對訓練任務的影響。若交換機為 128 端口,每臺 GPU 服務器分別上行連至 16臺 Leaf,組成一個 Segment(包含 1024 個 GPU)。每臺 Leaf 預留了額外 8200G 端口接入 GPU 服務器,便于 GPU 服務器發生硬件等故障后可快速替換。Spine 層面連接多個 Segments 組成一個 Pod,每臺Leaf 上行有 60400G 端口連接 Spine,因
33、此一個 Pod 可容納 15 個Segments,即 15360 個 GPU。對于更大規模的訓練任務,則會涉及到 Core 層面的連接進而組成算力規模更大的 GPU 集群。阿里根據其訓練任務流量特性,選擇 Spine-Core 之間采用 15:1 的收斂比設計,集群可支持 245760 個 GPU。18圖 3-4 阿里巴巴 HPN7.0 組網架構如圖 3-5 所示,MIT 和 Meta 團隊提出了 Rail-Only 大語言模型網絡架構設計。相對于三層 Fat-Tree 組網,其剔除了 Spine 層交換機實現網絡架構精簡,僅使用一層 Rail 交換機用于高帶寬域內 GPU 卡之間互聯,其中每
34、個高帶寬域內 256 個 GPU 都通過 NVLink Switch 進行連接。Rail-Only 將網絡轉發路徑跳數減小為 1,從而有效降低業務時延,并節約大量的網絡設備建設成本。如圖 3-5 所示,為實現 32768個GPU的組網,三層Fat-Tree總共需要1280臺交換機,即512臺(648)Leaf 交換機、512 臺(648)Spine 交換機和 256(644)臺 Core 交換機,而 Rail-Only 組網僅需 256 臺 Rail 交換機,可極大降低網絡建設成本。19圖 3-5(a)三層 Fat-Tree 與(b)Rail-Only 組網架構對比(32768 GPUs)(2
35、)Dragonfly 網絡架構網絡架構傳統 Clos 樹形架構作為主流的智算網絡架構,重點突出其普適性,但在時延與建設成本方面并非最優。在高性能計算網絡中,Dragonfly 網絡因其較小的網絡直徑與較低的部署成本被大量使用。如圖 3-6 所示,Dragonfly 網絡分為 Switch 層、Group 層和 System 層。其中,Switch 層包含一臺交換機,并通過終端鏈路接入 p 個計算節點;每個 Group 層包含 a 個 Switch,各 switch 通過 a-1 條本地鏈路與其它a 個設備節點進行全連接;每個 System 層包含 g 個 Group,各 Group通過 h 條
36、全局鏈路與其它 Group 內設備節點進行全連接。為實現負載均衡,通常取值:a=2p=2h。在組網性能方面,以 64 端口交換機為例,20Dragonfly 可支持超過 27 萬個 GPU 卡,相當于三層 Fat-Tree 架構所容納 GPU 數量的 4 倍以上,而交換機數量及傳輸跳數可降低 20%。盡管 Dragonfly 網絡可提供較高的性價比與更低的傳輸時延,但 GPU集群每次擴展都需重新部署鏈路,因此其可維護性相對較差。圖 3-6 Dragonfly 組網架構(3)Group-wise Dragonfly+網絡架構網絡架構當規模需求超過十萬卡時,最直接的組網方式是引入無收斂三層Fat-
37、Tree 架構。以單端口為 400G 的 51.2T 盒式交換機為例,三層盒盒盒組網,最大支撐 50 萬+節點組網。然而此架構存在以下兩個主要問題:1、系統復雜度,三層組網的負載均衡、擁塞控制等網路技術的難度和復雜度將大幅提升;2、成本和功耗,對比二層 Fat-Tree 組網網絡成本和功耗開銷提高。為了應對以上兩個挑戰,在此場景下可以有兩種架構選擇:架構一為第二層帶收斂的三層 Fat-Tree 架構,即下圖中 L2 層交換機的下行帶寬:上行帶寬為 N:M(NM)。在同等規模下此架構可降低 L3 層的設備數量,節省成本和功耗。21圖 3-7L2 帶收斂的三層 Fat-Tree 架構示意圖架構二為
38、 Group-wise Dragonfly+(GW-DF+)直連架構。如下圖所示,每個 Pod 內設備通過二層 Fat-Tree 架構互聯。Pod 間,同位置或同號的 L2 設備兩兩直連。以單端口為 400G 的 51.2T 盒式交換機為例,此架構最大可支持 20 萬+節點規模。如果 L2 替換為框式交換機,規??沙?100 萬。圖 3-8 Group-wise Dragonfly+(GW-DF+)直連架構示意圖對比二層 Fat-Tree 架構,此架構可大幅提高組網規模;對比三層Fat-Tree 架構,此架構可節省一層交換機帶來的成本和功耗開銷;對比傳統 DF+架構,此架構可避免上下設備繞行,
39、簡化路由復雜度和提22升系統效率(4)Torus 網絡架構網絡架構Torus 網絡架構是一種完全對稱的拓撲結構,具備低時延、低網絡直徑等特性,適合集合通信使用,可顯著降低建設成本。圖 3-7 呈現了一維邊長為 3 的 Torus 及二維邊長為 3 的 Torus 網絡。Torus 網絡環面拓撲特性可使得其在鄰居節點之間擁有最優通信性能。然而,Torus 網絡擴展可能涉及拓撲重新調整,且維護復雜度較高。圖 3-9 一維與二維 Torus 網絡(二)(二)超寬可編程轉發技術超寬可編程轉發技術超寬可編程轉發技術是一種高度靈活、可定制的網絡轉發技術,可在不同層級上進行數據處理與轉發,包括物理層、數據鏈
40、路層、網絡層和應用層等。這種靈活性使得它在智算網絡中具備廣泛的應用前景,可適應不同應用場景需求,并應對未來網絡及應用需求的發展變化。超寬可編程轉發主要采用 RoCE 網絡方案,當前以博通Tomahawk 5 芯片的白盒交換機為主流,轉發容量可達 51.2Tb/s,支持64800G/128400G/256200G端口接入以及多種流量調度策略(如23逐包負載分擔、全局負載分擔等)。當前國內 OTT 廠商(阿里、騰訊等)、運營商(中國移動等)以及紫金山實驗室,都在積極自研基于Tomahawk 5 芯片的白盒交換機,構建布局智算中心超寬無損網絡解決方案。英偉達同時提出了基于RoCE與IB的產品方案,其
41、InfiniBandNDR Quantum-2 交換機當前只支持 64400G,相對于業界最新 RoCE交換機,其性能上存在一定劣勢。而 Spectrum-X 以太網交換機轉發容量已達 51.2Tb/s,支持 64800G/128400G 端口接入,與博通同處業界領先水平;國內廠商以華為為例,自研芯片盒式交換機轉發容量達到 12.8Tbps,可支持 32400G 端口接入,并提出全局負載均衡(NSLB,Network Scale Load Balance)調度方案,以實現智算中心網絡超寬無損承載??删幊剔D發的實現主要涉及控制面、轉發面的可編程操作:(1)控制面可編程:實現集中化的流量調度)控制
42、面可編程:實現集中化的流量調度控制面主要對底層網絡交換設備進行集中管理,包括狀態監測、轉發決策以及調度數據平面流量??刂泼婵删幊碳夹g的發展將引入如下優勢:i)白盒交換機采用類似服務器的網絡操作系統,可利用現有的服務器管理工具實現網絡自動化,支持對開源服務器軟件包的便捷訪問,實現在交換機上使用與服務器完全相同的配置管理接口,從而加快技術創新;ii)將傳統交換機的專有網絡環境轉變為更通用的環境,有助于高效地拓展與管理網絡服務,提升白盒交換機的可編程性和網絡可見性;iii)通過 API 和控制器,在交換機的網絡操作系統中實現網絡功能的按需編寫(如網絡分流器),從而減少每個交換機24上的硬件部署,實現
43、對網絡的集中管理和監控。在智算網絡場景中,低熵大流量可能導致負載不均衡問題,進而影響大模型的訓練效率。對此,業界提出了控制面與 AI 平臺聯動的解決方案,實現對網絡的整體感知與高效承載。例如,紫金山實驗室提出了集中化流量調度方案,構建網絡控制器與 AI 平臺的協同任務調度機制,設計任務流量模型,制定策略路由并下發至白盒設備,通過集中化調度顯著提升整網鏈路的帶寬利用率,實現高達 97%以上的有效吞吐。圖 3-10 集中流量調度方案架構圖集中化流量調度方案操作步驟如下:白盒部署上線,開啟 ZTP 下載版本及基礎配置,實現 Underlay配置自動化部署;AI 平臺創建任務,并將任務模型下發至網絡控
44、制器;控制器解析任務模型,規劃流量路徑,并通過策略路由下發25至白盒設備;Leaf 策略路由生效,指導業務流量均勻轉發;AI 平臺刪除任務,并將任務刪除事件下發至網絡控制器;控制器下發刪除任務至白盒設備,刪除任務對應的策略路由。(2)轉發面可編程:實現自定義的節點轉發邏輯轉發面可編程:實現自定義的節點轉發邏輯除了控制面可編程,數據面的可編程同樣重要。然而,傳統的網絡芯片采用固定的流水線方式,包括固化的報文頭解析、轉發邏輯以及報文封裝,導致整個處理過程無法更改。因此,許多新協議或新特性難以通過靈活編程得以快速實現。圖 3-11 傳統芯片的固定流水線圖 3-12 基于 PISA 架構的可編程流水線
45、PISA(Protocol Independent SwitchArchitecture)架構的引入使得硬件芯片具備了可編程能力。PISA 架構涵蓋解析器、逆解析器、匹配和動作表、元數據總線等組件。解析器將報文轉化為元數據,逆解析器將元數據轉化為報文發送,匹配和動作表用于操作元數據并實現26所需的轉發邏輯。數據面程序使用高級語言 P4 編寫,經由 P4 語言編譯器進行編譯后在 PISA 設備上運行。數據面可編程已在網絡各個領域得到了廣泛應用?;?PISA 架構的“帶內網絡遙測”可實時收集數據面的轉發路徑、時延、抖動、擁塞等信息,為網絡可視化和智能運維提供數據基礎;基于 PISA 架構的“傳輸
46、層負載均衡”實現了四層負載均衡器的功能,解決了軟件負載均衡器所面臨的帶寬性能瓶頸,以及硬件負載均衡器面臨的高成本等問題;基于 PISA 架構的“應用加速卸載”針對網絡應用性能問題,采用協議無關的 P4 語言及底層可編程硬件,實現網絡應用性能優化與關鍵功能卸載,例如 VNF 卸載等。(三)(三)無損網絡技術無損網絡技術RDMA 技術相比傳統網絡具有顯著優勢,其實現了內核旁路機制,允許應用程序直接與網卡進行數據讀寫,無需操作系統和 TCP/IP協議棧的介入,可將數據傳輸時延降低至 1s。此外,RDMA 的內存零拷貝機制允許接收端直接從發送端的內存讀取數據,大幅減少了CPU 負擔,提高了 CPU 效
47、率。雖然,RDMA 技術顯著降低了服務器側處理時延,提升了計算和存儲效率,但同時會加劇網絡擁塞,從而引發如下問題:增加網絡處理時延以及導致業務丟包。業務丟包引發的重傳將進一步增加時延,嚴重影響計算和存儲效率。因此,需要構建無損網絡技術體系,為RDMA 提供低時延、零丟包與高吞吐的網絡承載環境。27無損網絡技術旨在確保網絡不丟包的情況下實現高吞吐轉發,其中包括流量控制、擁塞控制及負載均衡等。由于原生 IB RDMA 技術依賴于專用且昂貴的網絡設備,加之從網絡設備和線路的利舊角度考慮,基于以太網的 RoCEv2 技術將擁有廣闊的應用前景。在 RoCEv2網絡中,業界通常采用 PFC(Priorit
48、y-based Flow Control)技術來處理擁塞場景下的丟包和重傳時延問題,提高計算和存儲效率。然而,過多的 PFC Pause 可能降低吞吐量,甚至引發 PFC 死鎖。為在低時延、無丟包網絡中提高吞吐量,業界進一步引入 ECN(Explicit CongestionNotification)和 DCQCN(Data Center Quantized Congestion Notification)技術。ECN 用于感知設備內部的隊列擁塞情況,并配合 DCQCN 調整發送端速率。無損網絡技術旨在確保網絡不丟包的情況下實現高吞吐轉發,其中包括流量控制、擁塞控制及負載均衡等。由于原生 IB
49、 RDMA 技術依賴于專用且昂貴的網絡設備,加之從網絡設備和線路的利舊角度考慮,基于以太網的 RoCEv2 技術將擁有廣闊的應用前景。在 RoCEv2網絡中,業界通常采用 PFC(Priority-based Flow Control)技術來處理擁塞場景下的丟包和重傳時延問題,提高計算和存儲效率。然而,過多的 PFC Pause 可能降低吞吐量,甚至引發 PFC 死鎖。為在低時延、無丟包網絡中提高吞吐量,業界進一步引入 ECN(Explicit CongestionNotification)和 DCQCN(Data Center Quantized Congestion Notificatio
50、n)技術。ECN 用于感知設備內部的隊列擁塞情況,并配合 DCQCN 調整發送端速率。28下文將圍繞無損網絡中的流控、擁塞控制等技術展開詳細闡述:圖 3-13 無損網絡關鍵技術(1)流控技術流控技術流量控制是保障網絡零丟包的基礎技術,其提供了一種作用于接收方的機制,由接收方來控制數據傳輸速率,以防止高速的發送方壓倒慢速的接收方。本節主要介紹流控相關技術,以及如何解決 PFC死鎖問題。1)PFC 技術技術PFC 是對 Pause 機制的一種增強,其原理如下:當下游設備發現其接收能力低于上游設備發送能力時,會向上游設備發送 Pause 幀至以暫停流量發送,并在等待一定時間后恢復發送。傳統以太 Pa
51、use 機制是針對整條鏈路的流量暫停,而 PFC 支持在一條鏈路上創建 8 個虛擬通道,各虛擬通道對應一個優先級,從而支持單獨暫?;蛑貑⑷我馓摂M通道,同時允許其它虛擬通道流量的無中斷傳輸。292)PFC 死鎖死鎖PFC 死鎖是指當多個交換機之間因為環路等原因同時出現擁塞,各自端口緩存消耗超過閾值,而又相互等待對方釋放資源,從而導致所有交換機上的數據流都永久阻塞的一種網絡狀態。正常情況下,PFC 中流量暫停只針對某一個或幾個優先級隊列,不針對整個接口進行中斷,每個隊列都能單獨進行暫?;蛑貑?,而不影響其他隊列上的流量。然而,在某些特殊情況下,如鏈路故障或設備故障時,在路由重新收斂期間可能會出現短暫
52、環路,導致出現一個環形依賴緩存區。如下圖所示,當 4 臺交換機都達到 PFC 門限,則將同時向對端發送 PFC 反壓幀,此時拓撲中所有交換機都處于停流狀態,整網吞吐量將變為零。雖然經過修復可使短暫環路很快消失,但其造成的死鎖不是暫時的,即便重啟服務器中斷流量,死鎖也無法自動恢復。圖 3-14 循環緩沖區依賴形成 PFC 死鎖3)PFC 死鎖監測死鎖監測服務器網卡故障可能引發其不斷發送 PFC 反壓幀,網絡內 PFC反壓幀進一步擴散,導致出現 PFC 死鎖,最終導致整網受 PFC 控制的業務癱瘓。30圖 3-15 服務器網卡故障引起 PFC 風暴并形成 PFC 死鎖一旦出現 PFC 死鎖,若不及
53、時解除,將威脅整網的無損業務。無損以太網為每個設備提供了 PFC 死鎖檢測功能,通過如下過程對PFC 死鎖進行全程監控,當設備在死鎖檢測周期內持續收到 PFC 反壓幀時,將不予響應。死鎖檢測如圖 3-14 所示,Device2 的端口收到 Device1 發送的 PFC 反壓幀后,內部調度器將停止發送對應優先級的隊列流量,并開啟定時器,根據設定的死鎖檢測和精度開始檢測隊列收到的 PFC 反壓幀。圖 3-16 開啟死鎖檢測 死鎖判定31如圖 3-15 所示,若在設定的 PFC 死鎖檢測時間內該隊列一直處于 PFC-XOFF(即被流控)狀態,則認為出現了 PFC 死鎖,需要進行 PFC 死鎖恢復處
54、理流程。圖 3-17 死鎖判定 死鎖恢復在 PFC 死鎖恢復過程中,會忽略端口接收到的 PFC 反壓幀,內部調度器會恢復發送對應優先級的隊列流量,也可選擇丟棄對應優先級的隊列流量,在恢復周期后恢復 PFC 的正常流控機制。若下一次死鎖檢測周期內仍然判斷出現了死鎖,那么將進行新一輪周期的死鎖恢復流程。圖 3-18 死鎖恢復流程 死鎖控制若上述死鎖恢復流程未起作用,仍然不斷出現 PFC 死鎖現象,32則可強制進入死鎖控制流程。比如,在設定的時間段內,PFC 死鎖觸發次數達到某一閾值,則認為網絡中頻繁出現死鎖現象,存在極大風險,此時進入死鎖控制流程,設備將自動關閉 PFC 功能,需用戶手動恢復。圖
55、3-19 頻繁出現死鎖可關閉 PFC 功能4)PFC 死鎖預防死鎖預防PFC 死鎖預防是針對 Clos 組網的一種解決方案,通過識別易造成 PFC 死鎖的業務流,并修改隊列優先級,從而改變 PFC 反壓路徑,避免 PFC 反壓幀形成環路。如下圖所示,某業務流沿 Server 1 Leaf 1 Spine 1 Leaf 2 Server 4 路徑轉發數據,正常轉發過程不會引起 PFC 死鎖。然而,若 Leaf 2 與 Server 4 間出現鏈路故障,或 Leaf 2 因某些原因未學習到Server 4 的地址,均將導致流量不從 Leaf 2 下游端口轉發,而從 Leaf2 的上游端口轉發。此時
56、,Leaf 2 Spine 2 Leaf 1 Spine 1 就形成了一個循環依賴緩沖區,當 4 臺交換機的緩存占用都達到 PFC 反壓幀觸發門限時,都會同時向對端發送 PFC 反壓幀停止發送某個優先級的流量,將形成 PFC 死鎖狀態,最終導致該優先級的流量在網33絡中被停止轉發。圖 3-20Clos 架構下的 PFC 死鎖PFC死鎖預防功能中定義了PFC上聯端口組,用戶可將一個Leaf設備與 Spine 相連的接口(如圖 3-21 中 Interface 1 與 Interface 2)都加入 PFC 上聯端口組。一旦 Leaf 2 設備檢測到同一條業務流從屬于該端口組的接口內進出,即說明該
57、業務流是一條高風險的鉤子流,易引起 PFC 死鎖現象。圖 3-21 PFC 鉤子流為解決該問題,如下圖所示,當 Device 2 識別出從 Device 1 發來的一條鉤子流后,Device 2 會修改該流的優先級及其 DSCP 值,使其34從其它隊列轉發(即從隊列 a 轉移至隊列 b),若該流在下游設備Device 3 處發生擁塞并觸發 PFC 門限,則將對 Device 2 的隊列 b 進行反壓使其停止發送流量,而不會影響到隊列 a,進而避免形成循環依賴緩沖區的可能,防止 PFC 死鎖的發生。圖 3-22 PFC 死鎖預防原理5)點剎式)點剎式 PFC傳統 PFC 需要較大的緩存來保證不丟
58、包和不欠吞吐。在長距數據中心互聯場景中,兩個數據中心的入口設備間距離很遠,若一端設備出現緩存擁塞,從該設備發送 PFC 反壓幀給對端設備到停止接收對端設備發來流量的時間差內,設備需要有足夠的緩存空間吸收這段時間內對端設備發來的流量,以保證長距無損。在緩存空間大小和帶寬一定的情況下,點剎式流控依靠短周期、高頻率、持續少量調節流量發送與暫停的機制,能夠比傳統 PFC 支持更長距離的長距無損場景。點剎式流控通過周期性掃描無損隊列的緩存占用情況,計算一個周期 t 內需要上游設備停止發送流量的時長 tstop。若 tstop0,則通過向35上游設備發送帶反壓定時器的 PFC 反壓幀,控制上游設備在對應周
59、期內停流時長 tstop后再發送流量。(一個周期時長為 t,t 遠小于兩設備間的單向轉發時延,即 0tstopt)圖 3-23 點剎式流控工作原理圖無損隊列的Headroom緩存空間用于存儲本隊列發送PFC反壓幀之后到停止接收上游設備發送的報文這段時間內收到的報文,以防這段時間內的報文被丟棄。根據上文對傳統 PFC 流控機制的分析,傳統 PFC 的反壓幀觸發門限值大小至少為 BPFC2TPFC,Headroom 緩存空間大小至少為 BPFC2TPFC,因此緩存空間占用至少需要 2(BPFC2TPFC)。(BPFC 表示接口帶寬,TPFC 表示兩端設備之間的單向轉發時延)點剎式流控沒有反壓幀觸發
60、門限,當緩存占用超過閾值 threshold時,點剎式流控開始生效。從一個周期結束時發送反壓幀到該反壓幀控制的流量發送到本設備需要經過的時長為 2TABS,為保證無損隊列 無 丟 包 且 不 欠 吞 吐,Headroom 緩 存 空 間 大 小 至 少 需 要BABS2TABS,因此緩存空間占用至少為 BABS2TABS+threshold。36為了達到最小緩存支持最大長距的效果,建議閾值threshold設置為0,此時點剎式流控的緩存空間占用約為 BABS2TABS。(BABS 表示接口帶寬,TABS 表示兩端設備之間的單向轉發時延),相對于傳統 PFC,TABS 可以支持更大的傳輸時延,即
61、支持更長的距離。(2)擁塞控制技術擁塞控制技術擁塞控制是指對進入網絡的數據總量進行控制,使網絡流量維持在可接受水平的一種控制方法。其與流量控制的區別在于,流量控制作用于接收者,而擁塞控制作用于網絡,典型技術如 ECN。1)ECN 技術技術ECN 在接收端感知到網絡中發生擁塞后,通過協議報文通知發送端降低發送速率,從而在早期避免擁塞而產生丟包。為使接收端能夠感知網絡擁塞,IP 報文中定義了 ECN 字段,并由中間交換機修改ECN 字段以實現對接收端的擁塞通知。根據 RFC 791 定義,IP 報文頭 ToS(Type of Service)域由 8 比特組成,其中比特 05 為 IP 報文的 D
62、SCP(Differentiated Services Code Point),比特 67 為 ECN 字段,如圖 3-21 所示。協議對 ECN 字段進行了如下規定:ECN 字段為 00,表示該報文不支持 ECN。ECN 字段為 01 或者 10,表示該報文支持 ECN。ECN 字段為 11,表示該報文的轉發路徑上發生了擁塞。因此,中間交換機通過將 ECN 字段置為 11,以通知接收端本交換機處發生了擁塞。37圖 3-24 IP Precedence/DSCP 字段當接收端收到ECN字段為11的報文時,表明網絡中發生了擁塞,則向發送端發送協議通告報文,發送端在收到通告報文后,則降低報文發送速
63、率,避免網絡中擁塞加劇。當網絡中擁塞解除后,接收端不會再收到ECN字段為11的報文,則停止向發送端發送協議通告報文,因此發送端收不到協議通告報文,則認為網絡中無擁塞,并會恢復報文的發送速率。2)AI ECN無損隊列的動態 ECN 門限可根據網絡流量 N 對 1 的 Incast 值、大小流占比來動態調整,從而在避免觸發 PFC 流控的同時,盡可能兼顧時延敏感小流和吞吐敏感大流。然而,現網中的流量場景復雜多變,傳統動態 ECN 門限功能難以覆蓋所有場景。對此,AI ECN 功能被提出,其則可根據現網流量模型進行 AI 訓練,從而對網絡流量的變化進行預測,并根據隊列長度等流量特征調整 ECN 門限
64、,進行隊列的精確調度,保障整網的最優性能。如下圖所示,設備會對流量特征進行采集并上送至 AI 業務組件,AI 業務組件將根據預加載的流量模型為無損隊列設置最佳ECN 門限,保障無損隊列的低時延和高吞吐,讓不同流量場景下的無損業務性能38都能達到最佳。具體操作如下:圖 3-25 無損隊列的 AI ECN 功能實現 Device 設備內的轉發芯片對當前流量特征進行采集,如隊列緩存占用率、帶寬吞吐、當前 ECN 門限配置等,然后通過Telemetry 技術將流量實時狀態信息推送給 AI 業務組件。AI 業務組件收到流量狀態信息后,根據預加載的流量模型文件對當前流量場景進行識別。若為已知流量場景,AI
65、 業務組件將基于大量的 ECN 門限配置記憶樣本,推理出與當前網絡狀態匹配的 ECN 門限配置。若為未知流量場景,AI 業務組件將結合 AI 算法,在保證高帶寬、低時延的前提下,對當前的 ECN 門限不斷進行修正,最終計算出最優的 ECN 門限配置。AI 業務組件將符合安全策略的最優 ECN 門限下發至設備,39設備完成無損隊列的 ECN 門限調整。對于獲得的新流量狀態,設備將重復上述操作以保障無損業務的最佳性能。同時,與擁塞管理技術(隊列調度技術)配合使用時,無損隊列的AI ECN門限功能可實現網絡中TCP流量與RoCEv2流量的混合調度,在保障 RoCEv2 流量無損傳輸的同時實現低時延和
66、高吞吐。3)端網協同擁塞控制)端網協同擁塞控制高性能計算、AI 模型訓練、以及數據中心網絡,均要求網絡傳輸排隊時延和吞吐能獲得進一步提升。為達到極低傳輸時延,應盡可能降低網絡設備內的排隊時延,同時維持接近瓶頸的鏈路滿吞吐。對此,端網協同擁塞控制技術采用“端(智能網卡)網(交換機)”配合的方式實現交換機內“近零排隊”時延,進而使得端到端傳輸時延接近靜態時延。早期的端到端擁塞控制方案都屬于被動控制,即源端在擁塞發生前不斷嘗試提高發送速率,但這可能導致網絡排隊進而形成擁塞。在擁塞情況反饋到源端后,源端才被動降低發送速率。由于反饋存在一定的延遲,因此被動擁塞控制往往導致網絡在擁塞和非擁塞狀態之間震蕩。
67、相比之下,端網協同根據網絡可用帶寬來調整端側發送速率,這種源端與交換機之間的密切配合使得網絡中的隊列近乎為空,并且能夠保持接近 100%的帶寬利用率。根據實驗室測試:采用典型擁塞場景啞鈴狀拓撲,瓶頸鏈路帶寬為 100Gbps,瓶頸鏈路上存在 200 條長流,評估不同算法在瓶頸鏈路40上的排隊時延(s)。如下表可見,與業界主流擁塞控制算法 HPCC、DCQCN 相比,端網協同算法 C-AQM 能夠顯著降低排隊時延,同時使瓶頸鏈路達到接近 100%利用率。表 3-1 不同擁塞控制算法性能對比對比流數 200C-AQMHPCCDCQCN50%-ile0.1553.023116.61290%-ile0
68、.2386.662121.8299%-ile0.3218.204125.4899.9%-ile0.4019.094127.131(四)(四)網絡負載均衡技術網絡負載均衡技術在 AI 大模型場景中,業務流量呈現出大象流、低熵、同步效應等特征,并進一步導致傳統 ECMP 基于流的五元組哈希機制失效,其產生的哈希沖突將引發鏈路擁塞直至丟包,進而劣化集群的整體性能。針對該問題,業界提出了許多新型負載均衡技術,按照技術原理大致可分為兩類:基于網絡狀態感知的負載均衡技術,以及基于流切分技術的負載均衡技術,下文將對這兩類技術進行闡述:(1)基于網絡狀態感知的負載均衡技術)基于網絡狀態感知的負載均衡技術針對傳
69、統 ECMP 機制的不足,一種解決思路是將“網絡狀態”作為負載均衡選路決策的依據之一。這種“網絡狀態”可以是設備本地的負載狀態,也可以是“網絡全局”的負載狀態。該負載均衡技術的特點是保證同一流走相同路徑的基本特征,不會造成數據包的亂序41問題,其技術原理如下:基于本地負載狀態的均衡技術:區別于基于五元組 HASH 結果選路的傳統 ECMP 機制,基于本地負載狀態的均衡技術會讀取本地出接口的隊列、發包統計等信息作為報文轉發的依據,通過感知擁塞狀態的方式保持網絡流量分布的均衡性。典型技術是動態負載均衡(DLB,Dynamic Load Balancing),其基本原理是交換機在進行 ECMP 選路
70、時,不再隨機或者輪詢,而是通過出接口負載輔助選路,如選擇綜合負載最小的鏈路,也可通過隊列深度、接口帶寬利用率等作為擁塞程度的量化依據。這類負載均衡技術帶來的性能收益是當網絡存在等價多路徑時,使不同路徑上的負載更為均衡。圖 3-26 DLB 技術的整體效果 基于全局負載狀態的均衡技術:在相對復雜的多級網絡中,流量發送端通常無法感知網絡的全局狀態信息,這種狀態包括下游的擁塞狀態、網絡整體的流量分布及帶寬利用率等?;谌重撦d狀態的均衡技術的基本原理是先收集網絡全局狀態(狀態收集可通過集中式的網絡控制器或分布式的數據面協議實現),然后再基于全局狀態信息進行流量規劃,避免42局部擁塞的同時最大化整網的
71、吞吐性能?;谌值呢撦d均衡涉及到一些私有協議和算法的制定,目前尚缺乏統一的標準,大多為廠商私有化實現,典型技術方案如中興的智能全局負載均衡技術,其利用 AI 訓練可預測、周期性迭代的特點,控制器通過 API 接口被動接收 AI 調度平臺的流信息(如五元組、通信數據量等),通過集中 TE 算法將活躍的數據流均衡預規劃到 Fabric 網絡中,再下發配置到網絡設備以實現流量工程。圖 3-27 智能全局負載均衡基本原理此外,基于負載狀態的均衡技術通常和 Flowlet 負載均衡技術組合使用,例如網絡識別大象流,對大象流進行 Flowlet 切分后依據負載狀態進行均衡轉發。(2)基于流切分技術的負載
72、均衡技術)基于流切分技術的負載均衡技術另一種有效的負載均衡優化思路是將數據流切分為更小的單元,43不同單元可走不同的網絡轉發路徑,從而達到網絡負載均衡的目的。其優勢在于可實現更佳的負載均衡效果,但會引發數據包的亂序問題,因此需要額外引入亂序處理功能。按照切分的粒度不同,當前常用實現方式包括 Flowlet、容器、包、以及信元等?;?Flowlet 的負載均衡Flowlet 負載均衡用于解決數據中心網絡內流量不平衡問題。它通過將流量切分成更小的單位(即 Flowlet),然后在多條路徑上進行均衡分發。圖 3-28 Flowlet 的基本原理Flowlet 負載均衡的核心思想是利用流的規模與持續
73、時間來分割流量。當流量到達網絡設備時,設備會將其分割成多個 Flowlet,每個 Flowlet 包含一部分數據包。然后,設備會使用負載均衡算法將這些 Flowlet 分配到不同的路徑上進行傳輸。Flowlet 技術提出較早,是一種被普遍支持的負載均衡技術,但也存在其局限性。首先,為避免引入報文亂序,Flowlet 切分的時間間隔與流量模型緊密相關。但在實際應用中很難避免完全亂序,且Flowlet 自身并不提供亂序處理能力。其次,這種基于時間間隔的子流切分方式在特殊的流量場景中可能失效,如 AI 模型訓練場景等。44 基于容器的負載均衡基于容器的負載均衡是中國移動提出的全調度以太網技術的核心思
74、想,其引入了一個虛擬的報文容器概念。報文容器是一個邏輯上的定長單元,其容納的報文數量可依據業務報文長度的分布情況進行調整,要求至少能夠容納 1 個最長的業務報文,且總長度在芯片轉發能力和亂序能力允許的情況下盡可能短,以達到精細切分數據流、充分提高瞬間負載均衡度的目的。報文在轉發過程中僅依據 GSE 頭部的控制信息實現快速轉發,確保同一個容器內不同報文走相同的網絡路徑,不同容器的報文走不同的網絡路徑,在網絡出口再根據控制信息實現最小代價的亂序重排?;谌萜鞯呢撦d均衡技術希望在網絡的均衡度和報文亂序度之間尋找最佳的平衡。圖 3-29 GSE 容器調度的基本原理 逐包負載均衡技術在網絡流量轉發過程中
75、,包通常是最小的轉發單元,因此基于逐包的負載均衡技術理論上可達到最優的均衡效果,但同樣會面臨報文亂序問題。在典型的 AI 訓練場景,報文亂序處理通常由支持 RDMA45報文亂序重排的智能網卡實現,如 NVIDIABlueField 網卡等。圖 3-30 NVIDIA 逐包負載均衡的基本原理 基于信元交換的負載均衡技術另一種代表性的切分方式是將報文切分成更小粒度的信元,然后以信元為單位進行負載均衡。這種負載均衡技術相對特殊,其打破了以太網轉發的基本邏輯,本質上是一種全定制化的網絡方案,依賴特定的芯片硬件實現,典型的代表是分布式解耦機框(DDC,Disaggregated Distributed
76、Chassis)方案。DDC 通過網絡硬件將數據包切分成理論上等長的小信元,并在不同的上行鏈路進行負載均衡轉發,再由出口節點依據信元的控制信息進行報文重組和亂序處理。圖 3-31 信元交換的基本原理46該技術優勢是可實現近乎完美的負載均衡效果,技術成熟且有完善的國產芯片支持,如中興通訊適用于 DDC 的自研芯片可提供高達14.4T 的轉發能力;缺點是技術的落地依賴特定廠商的芯片組,整體方案相對較封閉。2022 年,由紫金山實驗室、中國電信研究院和北京郵電大學聯合發布的分布式解耦機柜技術白皮書,也研發了DDC 方案,并進行了部署實踐。先進哈希算法靜態 ECMP 由于只使用五元組進行哈希,由于哈希
77、因子少導致熵值低,因此可以納入更多的數據包字段作為哈希因子,例如 RDMA頭部中的 QP 對(Queue Pair)信息,甚至是用戶自定義的字段,以增加哈希熵值,從而實現更加均衡的負載分配。(五)(五)端網協同的端網協同的 NetMind 跨層通信跨層通信架構架構(1)NetMind 概述概述智算場景中網絡流量呈現出周期性、長流等特征,其體量隨著大模型規模擴大而快速增長,因此需要多種并行策略的組合使用,同時盡可能降低通信開銷。然而,傳統的并行與優化策略只針對單一主體,如網絡或 AI 模型,而未來智算網絡中應將兩者結合,實現網算協同的調度優化。對此,面向 AI 大模型集群的 MetMind 通信
78、架構被提出,其通過網算協同實現系統整體性能的提升,主要涉及兩個方向的協同:1)水平方向:)水平方向:從網到算:網絡向 NetMind 提供動態拓撲(除靜態網絡拓撲47外,還包括光模塊鏈路中斷、網絡資源占用情況等),再由NetMind 將全局拓撲提供給計算組件,進行拓撲親和計算。從算到網:由于 AI 大模型的流量規律特征明顯,因此可根據該規律提前部署網絡路由及 QoS 策略。具體而言,基于計算側通信需求,經由 NetMind 通告網絡進行主動均衡、拓撲調整及 QoS 資源分配等。從而確保計算側的調度、并行策略、通信算法執行時,AI 模型通信流量與網絡拓撲、當前鏈路狀態相匹配。2)垂直方向:)垂直
79、方向:根據 NetMind 提供的集合通信算法的適用區間和通信效率進行作業調度,并基于 NetMind 提供的建模求解優化策略提升自動模型切分的速度與效果。(2)NetMind 通信架構通信架構NetMind 旨在為 AI 大模型系統中的不同用戶提供統一框架以提升性能。如下圖所示,整個系統分為 NetMind Server 和 NetMind Client兩個核心組件。其中,NetMind Client 部署于每臺計算服務器的主機側,包含一個部署在計算節點 CPU 上的 Agent 進程。Agent 從 AI 作業進程調用的 NetMind Runtime 獲取到相關信息(如通信域、通信算子、
80、通信算法等),并統一上報至 NetMind Server。NetMind Server 作為一個進程部署在一個獨立的服務器內,負責聚合全局信息、與網絡側交互、以及提供各業務輔助決策模塊。48圖 3-32 NetMind 通信架構(3)業務輔助決策模塊)業務輔助決策模塊1)拓撲感知模塊)拓撲感知模塊首先,NetMind 分別從網絡側和計算側獲取到參數面物理組網拓撲、鏈路資源占用率和模型切分信息,在拓撲感知模塊中完成物理拓撲到模型通信域邏輯拓撲的映射。其次,基于該邏輯拓撲的分層關系,通過邏輯同號卡拆分解決同層 group 間不對稱、層內訓練卡數量非 2的冪次方等造成的低效率通信問題,并通過時分復用
81、原理解決分層間帶寬收斂的問題。2)NSLB 網絡均衡模塊網絡均衡模塊NetMind 從計算側聚合出以訓練任務為粒度的通信矩陣,再根據通信矩陣中每輪迭代的每個階段內各訓練卡間的通信關系,對網絡資源進行逐流的全局算路規劃,從而避免傳統 HASH 負載不均導致的鏈路利用率低以及訓練性能下降等問題。3)AI QoS 模塊模塊49NetMind 分別從網絡側和計算側獲取網絡狀態信息和模型訓練的并行策略、通信量等信息,并在 NetMind Server 應用感知 QoS 模塊中計算不同并行策略間流量的最優 QoS 調度方式,然后結合業務邏輯下發至網絡側,實現對 QoS 調度的動態控制,同時減少模型訓練過程
82、中不同并行策略的流量對網絡資源的競爭,以提升業務性能。4)OXC 拓撲調整模塊拓撲調整模塊針對智算場景中光電混合組網方案,先由 NetMind 感知計算側的模型切分策略、通信域信息、通信算子、通信算法等信息,隨后由光交叉連接(OXC,Optical Cross Connect)模塊基于靈活無損的拓撲工程技術,快速計算出符合當前業務場景的最優拓撲,并指導光路進行無損重構。同時,基于網絡級負載均衡(NSLB,Network Scale LoadBalance)模塊對流量進行全局路徑規劃,實現任務性能最優的流量路徑編排。50四、四、智算集群間網絡關鍵技術智算集群間網絡關鍵技術(一)(一)光電融合光電
83、融合組網與組網與路由技術路由技術當前廣域網在實現智算集群互聯時面臨設備成本與功耗高昂、容量受限、質量難承諾等挑戰,究其原因在于光傳送與數通領域長期獨立發展,未能形成有效合力。對此,廣域網技術體系應進一步面向光電融合演進升級,從傳統帶寬驅動的通道式網絡向業務驅動的光電融合定制化網絡演進。光電融合承載已成為智算網絡發展的必然趨勢:一方面,隨著相干光模塊的持續小型化與市場化發展,使得路由器可直接通過可插拔彩光模塊與光分叉復用器(ROADM,Reconfigurable OpticalAdd/DropMultiplexers)相連,無需配置大量波長轉換板卡,從而顯著節約部署空間、降低設備成本與功耗,如
84、圖 4-1 所示。此外,通過引入先進的高階調制、糾錯算法以及光放技術,使得單波容量與無電中繼傳輸距離得以提升;另一方面,業界在持續推動 ROADM 設備的軟硬件解耦與接口開放,并支持設備功能的軟件驅動,使得軟件控制的 IP+光融合網絡成為可能,從而極大提升系統靈活性與承載質量。因此,當前網絡形態正經歷從傳統 IP+WDM 的光電復合式組網向軟件定義IPoWDM 的光電一體化組網轉變。51圖 4-1 光電融合路由設備形態如圖 4-2 所示,融合網絡雖從設備形態上趨于一體化,但從邏輯角度仍分為電層與光層,其中電層對應 IP 路由器,負責數據包的匯聚轉發以及電層時隙(如 FlexE)的映射與交叉;光
85、層對應光纖、光模塊、ROADM、放大器等器件與設備,負責提供大容量、低時延傳輸通道與多波帶光交叉能力。在設備上線后,控制面會將其所有端口能力納入所在節點的資源池,并屏蔽底層技術細節,以一虛多或多虛一的方式為業務提供適配的資源粒度。在路由方面,融合網絡將形成如 4-2 左圖所示的光電一體化網絡拓撲視圖,其中 IP 層與光層節點間、光層節點間為物理鏈路(表征客觀存在的設備連接與光纖連接),IP 層節點間為虛擬鏈路(表征 IP 層連接,可動態建立或釋放),并針對不同網絡狀態與業務場景提供多元算路約束與拓撲權重(如時延優先、功耗優先等),支持光層直通與光電混合轉發等多種自適應傳輸模式。圖 4-2 光電
86、融合組網與路由技術光電融合網絡采用集中化控制方式,實現對全局光電資源的統一52編排與控制,提升網絡節點部署敏捷性與運維簡便性??刂破矫骈_放網絡可編程接口,其中南向接口控制轉發面骨干網絡設備,北向接口提供智算應用定制網絡能力的入口,從而實現智算應用與網絡的無縫集成。針對不同智算業務承載需求,光電融合控制平面提供多種網絡調度與規劃能力,支持快速業務部署、聯合故障規避、動態光電調度等功能,具體如下:圖 4-3(a)快速業務部署;(b)聯合故障規避;(c)動態光電調度(1)快速業務部署:傳統網絡中 IP 層與光層的調度規劃相對獨立,存在業務部署時耗長、資源利用低效、拓撲構建靜態化、流量分配不均衡等問題
87、,從而引入額外的建設投資與運維開銷。如圖 3-37(a)所示,通過采用光電融合路由技術,可實現高效的雙層協同規劃與快速業務部署。規劃方可將當前網絡配置數據導入編排系統,并根據智算業務需求選擇所需的算路因子,進行雙層一體算路。編排系統還可迅速響應業務需求變化,并快速調整端到端路由及光電資源配置策略,例如快速無損帶寬調整等。(2)聯合故障規避:傳統網絡中 IP 層與光層保護相互獨立,存在保護資源冗余的問題,進而增加網絡運營成本。此外,傳統網絡還面臨在同一個共享風險鏈路組(SRLG,Shared Risk Link Group)中部署主備路徑的風險,導致主備路徑同時遭受故障沖擊而造成業務中53斷。對
88、此,光電融合路由技術基于一體化拓撲視圖,一方面從全局視角統籌解決了保護資源冗余的問題,另一方面從根本上避免了主備路徑的相交問題。此外,光電融合網絡還基于數字孿生技術在虛擬環境中投射物理網絡拓撲及連接,并通過不斷模擬各類故障情況構建知識庫,訓練故障定位的 AI 模型,從而在發生故障時快速定位故障源,同時也可用于分析網絡的潛在薄弱點。(3)動態光電調度:傳統網絡更傾向于離線規劃與靜態調度,然而隨著業務場景多元化以及新舊業務請求更替頻繁化,使得網絡環境趨于高動態性,因此引入面向光電域的動態聯合規劃尤為重要。如圖 4-3(c)所示,一方面,通過推拉結合的方式監控網絡流量變化,并根據預設門限自動進行帶寬
89、擴縮容或流量遷移。另一方面,對于新生業務請求,支持在已有路徑中映射所需資源,或者快速觸發網絡新建光電路徑。(二)(二)廣域擁塞廣域擁塞控制控制技術技術隨著國家“東數西算”戰略的推進,東部數據可通過廣域網傳輸至西部智算中心進行處理,實現各地區間算力資源的優化配置。然而,廣域長距傳輸可能會對業務性能產生一定影響,這就要求引入擁塞控制技術以實現高效的數據搬移。下文將聚焦智算網絡場景,對傳統廣域擁塞控制技術面臨的新挑戰進行分析:高帶寬利用率:在長距傳輸中,帶寬利用率將直接影響數據傳輸效率和成本,提高利用率即可在單位時間內傳輸更多數54據,從而延緩擴容需求并降低成本;低丟包率:丟包會導致數據重傳,從而占
90、用額外帶寬資源并降低傳輸效率,該問題在超長距傳輸環境中尤為突出;傳輸延遲及網絡狀態反饋滯后:數千公里的傳輸距離引入不可忽視的傳輸時延,這使得網絡狀態反饋存在一定滯后性。傳統基于丟包的擁塞控制算法(如 Cubic 算法)在長距離傳輸中表現不佳,其帶寬利用率偏低且丟包率較高;光纖傳輸的錯包問題:超長距光纖傳輸中,錯包問題難以完全避免,這使得數據傳輸的完整性和可靠性面臨挑戰。為解決上述問題,本節將從傳輸層與鏈路層角度對廣域擁塞控制技術進行闡述。(1)廣域廣域 TCP 擁塞控制擁塞控制目前主流跨域傳輸算法均基于 TCP 協議實現,根據具體應用場景可分為跨智算中心傳輸和跨廣域網傳輸?,F有的一些擁塞控制算
91、法有 Cubic、BBR、PCC Vivace、Copa 等。Cubic 是當前 Linux 中默認的 TCP 擁塞控制算法,其將標準線性窗口增長函數修改為三次函數,以提高 TCP 在遠距網絡上的可擴展性。為應對長距傳輸面臨的高帶寬時延積問題,Cubic 將往返時延(RTT,Round-trip Time)大小與窗口增長解耦,實現公平帶寬分配和穩定廣域傳輸;BBR(BottleneckBandwidth and Round-trip Time)算法基于RTT和ACK進行傳輸控制,通過帶寬估計提升帶寬利用率并降低傳輸時延,其在 Google B4 骨干網絡中已部署應用;PCC Vivace 通過
92、結合 PCC 基本框架與機器學習55中的在線凸優化理論,提出了一種基于學習的網絡擁塞控制算法,通過調整發送端速率的調整方向、調整步長與調整閾值,解決擁塞控制問題;Copa 提出了三種具體的控制方式,能夠根據目標速率調整當前發送速率,并迅速將流量收斂至合適的公平速率。Copa 可有效應對長距傳輸中的交換機緩存限制,同時不影響存在交叉路徑的其它流量傳輸。上文針對端側的廣域擁塞控制機制進行了論述,下面將從算網協同角度出發分析多種新型擁塞控制機制,包括 Annulus、Gemini、GTCP、IDCC 等。為解決廣域網中長往返時延和智算中心交換機緩存有限的問題,Annulus 使用雙控制回路進行擁塞控
93、制。一條控制回路處理廣域網或智算中心內的流量瓶頸,另一條控制回路管理近源端廣域網和智算中心流量的共存問題,實現跨智算中心的擁塞反饋。在發送端,選擇雙控制循環中較低的發送速率作為實際發送速率,并通過第二條循環迅速感知智算中心內部的擁塞情況以做出快速反應;由于廣域網與智算中心內的擁塞信號存在差異性,因而單獨使用任一種信號都無法實現擁塞響應,對此 Gemini 整合 ECN 和延遲信號進行跨智算中心擁塞控制,實現了高吞吐的跨域傳輸;為解決智算中心內網和智算中心間網絡的異構問題,混合擁塞控制(GTCP,General TransmissionControl Protocol)將反應式和主動式兩種擁塞控
94、制進行結合。前者由發端驅動,通過不斷探測網絡可用帶寬,并在收到擁塞信號(丟包、時延增大、冗余確認報文等)后對發送速率進行調整。后者由收端驅動,通過令牌方式進行網絡帶寬“預留”,從而盡量避免擁塞發生。56GTCP 對智算中心內流量使用主動式擁塞控制,而對智算中心間流量先使用反應式機制探測網絡帶寬,當發端收到網絡 ECN 信號后切換為主動式擁塞控制,從而避免交換機上積累過多數據包;IDCC(INTand Delay based Congestion Control)是一種基于時延的跨域擁塞控制機制,通過帶內遙測與 RTT 分別測量廣域網與智算中心內的排隊時延,并通過比例積分微分(PID,Propo
95、rtional Integral Derivative)調控排隊深度,最終提升算力中心間吞吐量。(2)廣域鏈路流量控制)廣域鏈路流量控制為實現精細化調控,廣域流量控制技術正向細粒度化方向發展?,F有的一些流量控制機制有 BFC、Floodgate、CaPFC、P-PFC、GFC等。BFC(Backpressure Flow Control)提出了在交換機上維護各流狀態以實現逐跳的流量控制,交換機根據流標識的哈希值將數據包放入不同隊列,在哈希沖突較少時,各流可占據獨立隊列,從而減少隊頭阻塞帶來的影響;Floodgate 與 BFC 采用相似思想,但 Floodgate 是以目的 IP 地址為對象進
96、行隊列隔離,來對入播流量進行快速監測和控制。Floodgate 采用信令機制,下游交換機定期向上游發送累計信令值來通告隊列長度,以此控制上游交換機的發送和暫停;CaPFC(Congestion aware Priority Flow Control)是基于 PFC 的改進型流控機制,同時監測入隊列與出隊列的長度。當出隊列長度超過閾值后,對各端口進入交換機的數據包數量進行統計,從中選出值最大的入隊列來發送暫停幀。同時使用出隊列與入隊列長度進行流控,可快速地在交換機內部傳遞擁塞信息,以提升流控對擁塞的敏感程度;P-PFC57(Predictive PFC)指出瞬時的隊列長度難以完全反應當前擁塞情況
97、,對此提出使用隊列變化速率(即隊列長度隨時間變化函數的導數)與隊列長度相結合來進行流控,因為通過速率變化可以更快地發現擁塞的發生和解除,從而實現更高效的流量控制;GFC(Gentle FlowControl)是針對智算中心網絡死鎖問題的流控機制。區別于 PFC 完全暫停流發送的方式,GFC 基于預設函數從下游入隊列長度來推導上游發送速度并通知上游,因此盡可能避免了流被完全暫停,打破了死鎖發生條件,提高了無損網絡的健壯性。(三)(三)廣域廣域 RDMA 技術技術RDMA 是從 DMA 技術演進而來,最早由 IBTA(InfiniBand TradeAssociation)組織基于 InfiniB
98、and(IB)架構而提出。其允許計算機系統直接訪問遠程計算機內存而無需 CPU 參與,從而顯著減少通信延遲和 CPU 開銷,是一種高性能網絡傳輸技術。但由于原生 RDMA技術需要專用且昂貴的網絡設備才能運轉,這極大限值了其普及率,因此基于以太網的 RoCE、RoCEv2 和 iWARP 協議相繼出現,并在局域網中得到了廣泛應用。隨著國家推行東數西算、海量科學計算等應用場景,智算中心間的互傳數據呈爆發式增長,使得傳統網絡傳輸技術劣勢越發凸顯,因此 RDMA 從局域網邁向廣域網已成為一個重要趨勢。(1)廣域)廣域 RDMA 技術架構技術架構廣域 RDMA 技術為最大限度地利舊現有網絡設備與線路,因
99、此58在 IEEE802.3 基礎上使用 IP 協議進行傳輸,采用 RoCEv2 或 iWARP協議封裝 RDMA 數據載荷,具體應用架構如圖 4-4 所示。圖 4-4 廣域 RDMA 應用場景智算中心間基于現有廣域網進行互聯,采用廣域 RDMA 技術承載海量數據。RDMA 網卡(含 DPU)直接部署在物理機中,通過虛擬化等技術供虛擬機使用,以減少操作系統協議棧、Hypervisor 層的性能開銷。出于對廣域網復雜多變的傳輸環境及“盡力而為”的承載方式考慮,在廣域網上進行長距離 RDMA 傳輸容許輕微有損,以保證帶寬和時延的高要求。(2)廣域廣域 RDMA 技術技術原生 RDMA 是基于 In
100、finiBand 架構的網絡傳輸技術,不兼容現有主流的以太網網絡傳輸協議棧,因此在廣域 RDMA 傳輸上優先使用RoCEv2 或 iWARP 進行傳輸。RoCEv259RoCEv2 是基于 UDP 協議的 RDMA 傳輸技術,是由 IBTA 組織主導的一套 RDMA 傳輸協議,具體協議棧如圖 4-5 所示。RoCEv2 在廣域網上進行傳輸遵循 IBTA 組織定義的協議棧格式,可概括為 IB OverUDP,該結構決定了其可基于以太網協議進行傳輸。圖 4-5 RoCEv2 協議棧由于 UDP 的不可靠性,在傳輸過程中會面臨丟包問題,而且實驗顯示,進入廣域網后,RTT 隨著傳輸距離變長而增加,丟包
101、對RoCEv2 的吞吐的影響變得更大。因此 RoCEv2 需要承載于丟包較少的廣域網中,配合 Go-Back-N 或 SACK 機制來檢測丟包和重傳,并使用大緩存的網絡設備,以減少丟包概率。同時,為充分發揮 RDMA的高吞吐量傳輸優勢,還需及時感知網絡負載、擁塞等情況,及時調整網絡負載和流量控制等策略。此外,在廣域多路徑傳輸情況下,一方面需引入包括最大帶寬、最小時延、鏈路丟包率等在內的多因子算路機制來選擇最優路徑;另一方面需選擇合適的負載均衡技術,由于廣域網不同路徑間距離差別較大,會導致數據包傳輸時延差距過大,而基于逐包的負載分擔會給端側設備引入較大的亂序處理壓力,因此多路徑負載分擔技術推薦基
102、60于逐流機制。同時基于對大象流的識別,合理調整多路徑上的流量分布,并配合 PFC、ECN 及更精細的流級別擁塞控制算法等流控技術,可有效避免擁塞,提升傳輸效率。iWARPiWARP是由IETF組織發布的一套RDMA傳輸協議,區別于IBTA組織,其 iWARP 協議和 InfiniBand 無法兼容,具體協議如圖 4-6 所示。圖 4-6 iWARP 協議棧iWARP是基于以太網與TCP/IP協議的RDMA技術,由于iWARP并未指定物理層信息,因此能夠運行在任何使用 TCP/IP 協議的網絡上。由于 iWARP 基于 TCP 進行傳輸,對于質量較差的廣域網可優先選用此協議,通過 TCP 面向
103、連接的可靠傳輸機制,減少廣域網丟包,并配合 DCTCP 等擁塞控制算法,保證傳輸的高效性。(四)(四)新型低損光纖技術新型低損光纖技術為滿足不斷升級的算力業務需求,業界正在持續探索 200G/400G、61800G 及以上的高速光傳輸方案。同時,為滿足高速光傳輸下的超長距離、低損耗、低延時需求,部署新型超低損光纖也成為必然趨勢。(1)G.654.E 低損光纖低損光纖G.654.E 光纖兼具超低損耗和大有效面積特性,相較于常規的G.652 光纖,可顯著提高 100G、200G、400G 及未來更高速率網絡長距離傳輸性能。因此,G.654.E 光纖被公認為是下一代超高速長距離光傳輸性能優化的有效解
104、決方案。G.654.E 光纖屬于新型截止波長位移單模光纖,符合 G.654.E 標準。該標準由國際電信聯盟電信標準化部(ITU-T)于 2016 年 11 月發布,是 ITU-T G.654截止波長位移單模光纖光纜的特性的最新版。該標準自 1988 年發布以來,歷經多次修訂,其中包括 G.654.A、G.654.B、G.654.C、G.654.D,主要應用于海纜通信系統。同 G.654.A、G.654.B、G.654.C、G.654.D 光纖一樣,G.654.E 光纖具備超低損耗、大有效面積的特點,但其獨特優勢在于工作溫度、宏彎損耗等方面。前面四類光纖主要應用于溫度恒定在-12之間的海洋環境,
105、而G.654.E 光纖適用于陸上網絡,環境溫度可從-65變化至 85。此外,G.654.E 光纖可抵抗各類應力,具備極佳的抗彎性能,以應對陸地復雜環境中的環境壓力、彎曲應力、機械沖擊等。根據上述特點,G.654.E 光纖尤其適用于陸上長距離高速傳輸網絡:1)提高光信噪比值提高光信噪比值:光信噪比是影響光傳輸質量的重要參數之一。由于 G.654.E 光纖具有極小的宏彎衰減和大有效面積,能夠有效保持纖芯中的光功率,并使其更為分散地傳播,從而一定程度緩解光62信噪比隨傳輸距離降低的問題。2)延長無電中繼傳輸距離延長無電中繼傳輸距離:G.654.E 光纖增加了纖芯尺寸,由此實現了大有效面積,使得光纖可
106、傳輸更高的光功率。因此,與常規G.652 光纖相比,該光纖可將光傳輸距離延長 70%-100%。3)降低網絡部署成本降低網絡部署成本:單從光纖本身而言,G.654.E 比 G.652造價更高,但網絡部署并非只有光纖,因此整體成本反而會降低。這是因為 G.652 光纖的無電中繼傳輸距離較短,網絡中需部署更多的光中繼站,而 G.654.E 光纖則可有效減少中繼站數量與成本。(2)空芯光纖)空芯光纖傳統實芯光纖發展成熟、應用廣泛,但因基質材料的本征限制,如材料的吸收、色散、非線性等屬性,逐漸難以適應相關行業的發展。為突破傳統光纖的局限,業界提出了纖芯為空氣的空芯光纖(HollowCore Fiber
107、,HCF)??招竟饫w的結構相對于傳統光纖較為特殊,其通過特定的包層結構,可將光限制在空氣纖芯中進行傳輸,從根本上避免了由于在材料本征限制而引發的一系列問題。從組成結構而言,空芯光纖與傳統實芯光纖一樣,由纖芯、包層與涂覆層組成,區別在于纖芯與包層。傳統光纖是基于光的全反射原理實現光在玻芯中傳播,而空芯光纖的芯為空氣,由于空氣折射率低于包層介質折射率,因此不滿足全反射條件,需采用特殊設計的包層結構??招竟饫w包層是基于微結構的設計,通常由一系列微小的空氣孔構成,這些空氣孔沿光纖的長度方向排列,具有精確設定的孔徑大小、孔間距與周期。當光入射至纖芯與包層界面時,會受到包層中周63期排列的空氣孔的強烈散射
108、,這種多重散射產生相干,使得滿足特定波長與入射角的光波能夠回到芯層中繼續傳播。因而,通過該種結構,可在纖芯層的折射率低于包層的情況下,實現對光的引導與傳播??招竟饫w對于網絡傳輸可提供如下優勢:1)低延時特性低延時特性:根據光在折射率為 n 的介質中的傳輸速度公式vcn 可知,當介質折射率越大時,光傳輸速度越小。由于空氣折射率為 1,因此光在空芯光線中以光速傳輸,遠超在玻璃介質中的速度,從而可極大降低鏈路傳播時延(從 5s/km 下降至 3.46s/km)。2)超低損耗特性超低損耗特性:目前空芯光纖可實現 0.174dB/km 損耗性能,與現有最新一代實芯光纖性能持平。但空芯光纖在通信窗口理論最
109、小極限可低至 0.1dB/km 以下,低于普通實芯光纖的理論極限 0.14dB/km,從而支持更長距離的傳輸。3)低色散特性低色散特性:空芯光纖的傳輸介質是空氣,極大降低了材料色散帶來的傳輸損耗。一般而言,空芯光纖的材料色散要低于實芯光纖三個數量級。4)超低非線性特性超低非線性特性:空氣芯中光與介質的相互作用減弱,從而減少了非線性效應的產生,可比常規玻芯光纖低 34 個數量級,使得入纖光功率可大幅提高。業界設備廠家已基于這一特性展開相關光系統研究,如高階調制及高功率放大器技術等,預期至少可提升系統容量及傳輸距離 2 倍以上。64五五、智算網絡產業典型案例、智算網絡產業典型案例(一)(一)天翼云
110、昇騰智算天翼云昇騰智算項目項目1項目背景項目背景隨著生成式人工智能大模型的驅動與發展,教育、電商、游戲、影視、醫療、汽車等行業領域均產生了相關應用,如 ChatGPT、自動駕駛、智慧問診等。為了迎接 AI 時代,眾多云廠商除了提供通算算力服務外,正紛紛入局開拓人工智能市場,建設大規模 GPU 智算計算資源池。2網絡方案網絡方案本項目分為多個不同業務平面的物理組網,包括虛擬私有云(VPC,Virtual Private Cloud)網絡、參數面網絡、服務器 BMC 網絡、交換機管理網絡等,整體 AI 智算網絡方案主要針對參數面網絡進行設計。圖 5-1 天翼云智算網絡方案65GPU 服務器通過不同
111、的網絡接口連接至不同的網絡平面中,其中參數面網絡用于智算集群分布式訓練的參數同步,實現將多臺訓練服務器互聯并組建一張高帶寬、低延遲、無丟包的高性能網絡,滿足GPU 跨機互訪要求,進而形成 AI 訓練集群。(1)底層協議棧:)底層協議棧:支持 RDMA 應用的底層協議通常有 IB 和RoCEv2。本項目選用 RoCEv2,實現 RDMA 在以太網網絡中的傳輸,僅使用 IB 的“輕量級”傳輸層,從而降低設備成本和對 IB 網絡環境的需求。(2)無損以太網絡:)無損以太網絡:RoCEv2 使用 UDP 頭部來封裝 RDMA 相關協議棧內容,網絡上不僅可通過二層的 PFC pause 幀,還可通過三層
112、頭部字段中的 ECN 標記位,兩者結合保證流量在傳統以太網內的低時延、無損轉發。圖 5-2 天翼云智算集群內組網結構(3)硬件選型:)硬件選型:Leaf:華為 4 槽 CE9860 盒式交換機,搭配 8400GE66QSFP-DD 接口子卡;Spine:華為 8 槽 CE1680816 槽 CE16816 框式交換機,搭配 36400G QSFP-DD 接口業務板卡;GPU 服務器:芯片選用昇騰 910B。(4)組網設計:)組網設計:采用二層 Clos 架構,Spine 和 Leaf 之間采用 Full-Mesh 全互聯,運行 eBGP 協議組網;Leaf 交換機通過 32200G 端口下行連
113、接服務器,采用 Y型一分二線纜與服務器 200G 接口對接,共接入 4 臺服務器。其中,單臺服務器通過 8 個 200G 網口連接至一臺 Leaf交換機,8 個網口分別配置獨立的 IP 地址。Leaf 交換機通過 16400G 端口上行連接至 Spine 交換機,Spine 交換機端口扇出決定了 AI 集群規模。例如萬卡集群需要至少 313 臺 Leaf 接入,則選用 16 臺 16 槽的框式交換機,且單臺 Spine 設備的 400G 端口數大于 313。(5)負載均衡與擁塞控制:)負載均衡與擁塞控制:NSLB:AI 訓練場景存在大量跨 Leaf 流量,依靠傳統ECMP 無收斂組網已無法規避
114、流量沖突,本項目引入多路徑規劃解決全局負載均衡問題,對于突發極端擁塞場景,網絡側使能 PFC 兜底。HCCL(Huawei Collective Communication Library):基于昇騰芯片的高性能集合通信庫,提供單機多卡、多機多卡67集合通信原語,在 PCIe、HCCS 和 RoCE 高速鏈路實現集合通信功能,實現分布式訓練。當前,由于美國制裁禁令限制 NVIDIA 芯片對華銷售,云公司通過綜合評估國內芯片能力,以支持國產化芯片發展為目標,選擇打造基于華為昇騰算力的智算資源池,并采用上述網絡方案進行了萬卡集群建設,在長三角、京津冀規劃落地。3效益分析效益分析傳統通算算力需求已無
115、法滿足市場客戶發展需求,智算資源池成為 AIGC 重要的算力基礎設施。對此,云公司緊跟客戶需求,建設高性能、高可靠的智算算力基礎設施,并提供租賃服務降低客戶對智算算力的使用門檻與成本投入,從而推動 AI 市場蓬勃發展,提升核心產品競爭力。(二)(二)紫金山新型無損數據中心紫金山新型無損數據中心項目項目1項目背景項目背景人工智能技術被譽為“數字經濟發動機”,全球各國紛紛圍繞相關技術與產業展開積極布局。2023 年 2 月 24 日,國家科技部官員陳家昌發表講話,提到科技部已將人工智能視為我國的戰略性新興技術,國家各部門后續將在政策和資金上給予人工智能發展更多支持。2023年兩會報告中,ChatG
116、PT 等前沿科技詞匯頻繁出現,與會代表和委員們針對 AI 領域提出了多項發展建議和提案。其中,新型數據中心作68為支撐人工智能發展的核心基建,是實現制造強國、網絡強國的重要動能。在此背景下,紫金山實驗室基于自研自主可控可編程承載設備和網絡控制器,結合 RDMA、智能網卡、PFC/ECN 等技術,建設了集“存、算、訓、服、推”為一體的新型無損數據中心,支撐實驗室在未來網絡、工業互聯網、車聯網等領域的技術創新。2網絡方案網絡方案如圖 5-3 所示,新型無損數據中心采用 Fat-Tree 的組網架構,根據服務場景不同,分為人工智能高性能專區、工業互聯網專區和國產化專區。圖 5-3 新型無損數據中心組
117、網架構本項目有如下特點:(1)基于)基于自研自研可編程可編程交換機構筑多場景數據中心網絡交換機構筑多場景數據中心網絡69基于自研的六款白盒化硬件設備,覆蓋工業互聯網專區可編程數據中心網絡、AI 專區無損數據中心網絡、國產化專區數據中心網絡,為打造全場景端到端數據中心網絡奠定基礎,其優勢如下:建立開放標準的數據平面模型。使用開放標準的OpenConfig YANG 模型定義網絡設備數據模型,實現對網絡資源的統一調度和感知;支持大網級操作系統 CNOS 的集中控制。通過 RestFul、NetConf、P4 Runtime 等接口標準,動態部署和增刪UniNOS 中的網絡業務功能;異構廠商芯片支持
118、機制。統一轉發平臺和標準 SAI 接口,屏蔽底層硬件差異,增強數據平面可擴展性,支持多種可編程芯片。(2)基于)基于自研自研 INT 技術構筑網絡可視化平臺技術構筑網絡可視化平臺網絡測量是網絡管控的基礎手段和數據來源。按照測量方式的不同,傳統意義上的網絡測量可分為主動測量、被動測量和混合測量。帶內測量是近幾年興起的一種混合測量方法,通過路徑中間交換節點對數據包依次插入元數據的方式完成網絡狀態采集。相較于傳統網絡測量方案,帶內測量能夠對網絡拓撲、網絡性能和網絡流量實現更細粒度的測量?;诠I互聯網專區可編程數據中心網絡進行實施驗證,突破高精度網絡測量核心機制,基于帶內遙測技術研發可視化平臺,實現
119、數據面狀態信息的實時采集、分析和展示;支持網絡異常(擁塞、時延70過大)、丟包、事件(流產生和終止、時延變化)、隊列最大深度、平均深度、設備最大時延、平均時延、端到端時延等可視化功能。(3)基于)基于自研自研 OVS 實現智能網卡硬件卸載提升性能實現智能網卡硬件卸載提升性能在服務器端,虛擬交換機(vSwitch)在處理網絡流量時,會消耗大量的宿主機計算資源。為保證網絡數據的轉發性能,vSwitch 通常需要綁定多個 CPU 核來處理網絡流量,但這樣會消耗更多的 CPU資源,導致服務器的運行成本和能耗增加。為解決該問題,可將某些任務卸載到網卡上處理,從而釋放大量 CPU 資源,減少服務器的運行成
120、本和能耗,同時保證網絡流量的高效處理。具體而言,是指將原本在內核網絡協議棧中進行的 IP 分片、TCP 分段、重組、checksum校驗等操作,轉移到網卡硬件中處理,使得 CPU 的發包路徑更短、消耗更低,提高處理性能。此外,智能網卡實現的網絡加速有多種,除基本網絡功能外,還包括RoCEv2、VXLAN、OVSct功能、TF-vRouter虛擬路由、kTLS/IPSec 加速等技術。3效益分析效益分析新型無損數據中心已穩定運營四年,支撐紫金山實驗室科研任務的同時,積極向社會科研創新需求開放。目前已成功服務中國信通院、國家天文臺/紫金山天文臺/上海天文臺、中國電信炫彩公司、南京大學、北京郵電大學
121、、南京郵電大學、國家(深圳前海)新型互聯網交換中心、中科院南京信息高鐵、華為、浪潮等行業龍頭,并聯合華為、信通院斬獲 CCF HPC CHINA2022 超融合無損以太技術創新獎。71六六、智算網絡技術與產業發展建議、智算網絡技術與產業發展建議智算網絡作為新一代信息技術的核心支撐,正在加速對各行各業的數字化變革進程。為充分發揮其在經濟和社會發展中的重要作用,技術與產業的協調發展至關重要。本章節將從多個維度探討智算網絡的技術進步與產業推進路徑,旨在構建一個高效、智能、開放的智算網絡生態系統,助力實現未來社會的全面數字化轉型。(1)深化硬件創新與)深化硬件創新與技術技術優化優化硬件創新與技術優化是
122、智算網絡深入發展的基礎,應進一步:i)優化異構計算架構,聚焦于 CPU、GPU 和專用加速器(如 TPU、FPGA)的協同工作,提升整體計算效率,并優化硬件接口和數據傳輸路徑,提高算力資源利用率;ii)研發新一代高速互連技術,提升數據中心內外的通信效率,采用先進的可編程交換機與路由器技術,支持更高的數據傳輸速率和更低的網絡延遲;iii)發展超低損耗光纖技術,推廣使用 G.654.E 等超低損耗光纖,減少中繼站數量,降低整體部署成本,并延長無中繼傳輸距離;iv)探索高效存儲解決方案,提高存儲訪問速度和數據處理能力,優化存儲層次結構,減少數據在不同存儲介質之間的傳輸延遲;v)推進硬件加速器的集成與
123、優化,如 AI 推理加速器、加密加速器等,提升特定任務的處理性能,同時優化加速器的驅動和軟件棧,確保其高效運行;vi)注重能效優化,采用更高效的電源管理技術和冷卻方案,降低數據中心的能耗,提高硬件設備的長期運行穩定性。72(2)推進軟件與算法的智能化集成應用)推進軟件與算法的智能化集成應用軟件和算法的智能化是提升智算網絡性能的核心,應進一步:i)開發與推廣智能編譯器技術,實現代碼的自動優化,使其更好地適應不同硬件平臺。智能編譯器能夠根據特定的硬件架構調整代碼,提高執行效率與性能;ii)深入研究并行計算算法,挖掘多核處理和異構計算資源的潛力,優化并行計算算法,實現計算任務的高效并行處理;iii)
124、推進 AI 算法在資源分配和任務調度中的應用,以進一步提升系統性能,并支持適應不同的負載與任務需求,提升系統的整體效率;iv)研究先進的數據管理技術,包括數據去重、壓縮、加密等,以提升存儲效率和保障數據安全,同時減少存儲空間的占用、加快數據訪問速度。(3)催化標準化與開放性的行業實踐)催化標準化與開放性的行業實踐標準化和開放性是智算網絡技術發展的重要推動力,應進一步:i)推動行業標準的制定與推廣,鼓勵相關企業、科研機構和行業組織共同參與制定智算網絡的技術標準和規范,包括計算架構、通信協議、接口標準等,以確保不同設備和系統之間的兼容性和互操作性;ii)倡導開放硬件與軟件平臺,促進建立開源社區,鼓
125、勵企業和開發者共享資源,加速技術創新,降低開發成本;iii)推動互操作性測試與認證機制的建立,確保不同廠商的設備與系統能夠無縫協同工作;iv)呼吁政府和監管機構制定智算網絡的相關政策與法規,通過政策引導和激勵措施,推動行業朝著標準化和開放性的方向發展。(4)加大政府資金)加大政府資金支持支持,促進產業生態合作,促進產業生態合作73政府資金的投入對于推動智算網絡產業發展至關重要。通過增加財政預算、設立專項基金以及實施稅收優惠政策等方式,降低企業在智算網絡投資和運營的成本,并激勵更多企業與研究機構投身于智算網絡的技術創新與應用開發。同時,通過搭建跨行業合作平臺,促進不同領域企業間的資源共享和協同創
126、新,推動產學研用深度融合,加強智算網絡技術的研發和應用示范,以形成強大的產業生態,共同推動智算網絡產業的繁榮發展。七七、總結與展望、總結與展望中國智算網絡產業正站在新的歷史起點上,面臨著前所未有的發展機遇。在國家政策的引領與推動下,中國人工智能核心產業規模持續擴大,人工智能向大規模落地應用發展,業務發展呈現多樣化趨勢,智能算力需求急劇增加。從宏觀技術發展的趨勢來看,新型大容量網絡芯片將成為智算網絡發展的基石。同時,新型計算架構、高速傳輸技術、高效存儲也將發揮重要作用。在核心技術層面上,大模型的崛起正引領人工智能產業的發展趨勢,而以太網將成為構建超大規模智算集群的技術基礎,本文著重對集群內與集群
127、間的關鍵技術進行了詳細討論,這些技術對提升算力利用效率及優化數據傳輸具有重要意義。未來,智算網絡技術將繼續沿著高性能、高效率和智能化的方向演進,新型網絡架構、量子通信、邊緣計算等前沿技術有望進一步提升智算網絡的綜合性能。此外,隨著與人工智能、大數據、物聯網等產業領域的緊密結合,將形成更加豐富的智算服務生態系統,這種跨74界融合將促進不同技術領域之間的協作與創新,不斷擴展智算應用場景,持續為各行業提供更高效、智能化的解決方案,為中國數字經濟發展和智能化社會建設注入新動力。75附錄附錄 A:術語與縮略語:術語與縮略語中文名稱中文名稱英文縮寫英文縮寫英文全拼英文全拼基于瓶頸帶寬和往返時間的擁塞控制B
128、BRBottleneck Bandwidth and Round-trip Time背壓流量控制BFCBackpressure Flow Control擁塞感知的流量控制CaPFCCongestion aware Priority Flow Control光電合封裝CPOCo-packaged optics數據中心量化擁塞通知DCQCNData Center Quantized Congestion Notification分布式解耦機框DDCDisaggregated Distributed Chassis動態負載均衡DLBDynamic Load Balancing差分服務碼點DSCPDi
129、fferentiated Services Code Point等價多路徑ECMPEqual-Cost Multiple-Path顯式擁塞通知ECNExplicit Congestion Notification通用傳輸控制協議GTCPGeneral Transmission Control Protocol全調度以太網技術體系GSEGlobal Scheduling Ethenet華為集合通信庫HCCLHuawei Collective Communication Library空芯光纖HCFHollow Core Fiber高性能計算HPCHigh Performance Computin
130、g高精度擁塞控制HPCCHigh Precision Congestion Control高性能網絡HPNHigh-Performance Networking基于延遲的擁塞控制IDCCINT and Delay based Congestion Control任務完成時間JCTJob Completion Time下一代網絡演進NGNeNext Generation Network Evolution網卡NICNetwork Interface Card網絡級負載均衡NSLBNetwork Scale Load Balance光電路交換OCSOptical Circuit Switching
131、封裝內光學 I/OOIOIn-Package Optical I/O76光交叉連接OXCOptical Cross Connect基于優先級的流量控制PFCPriority-based Flow Control比例積分微分PIDProportional Integral Derivative協議無關交換機架構PISAProtocol Independent SwitchArchitecture預測型 PFC 流控P-PFCPredictive PFC服務質量QoSQuality of Service隊列偶QPQueue Pair遠程直接內存訪問RDMARemote Direct MemoryA
132、ccess可重構光分叉復用器ROADMReconfigurable OpticalAdd/Drop Multiplexer往返時延RTTRound-trip Time共享風險鏈路組SRLGShared Risk Link Group服務類型ToSType of Service超以太網聯盟UECUltra Ethernet Consortium虛擬網絡功能VNFVirtual Network Function77參考文獻參考文獻1“十四五”國家信息化規劃.2021-12.URL:https:/ 智算算力發展白皮書.2023-08.3中國移動通信研究院.新一代智算中心網絡白皮書.2022.4Gav
133、in.What is RDMA?RoCE vs.InfiniBand vs.iWARP Difference.2023-12.URL:https:/ 802.1Q.Data Center Bridging WG Online.URL:https:/www.ieee802.org/1/pages/dcbridges.html.6Zhang Z,Zhang J,Ma H,et al.,ADMIRE+:curiosity-exploration-driven reinforcementlearning with dynamic graph attention networks for IP/opti
134、cal cross-layer routing,49thEuropean Conference on Optical Communications(ECOC),2023.7S.Ha,I.Rhee,and L.Xu,“Cubic:a new TCP-friendly high-speed TCP variant,”in Proc.ACM,2008.8N.Cardwell,Y.Cheng,C.S.Gunn,et al.,“BBR:Congestion-based congestion control,”ACM Queue,vol.14,no.5,pp.50-83,2016.9M.Dong,T.Me
135、ng,D.Zarchy,et al.,“PCC Vivace:Online-learning congestion control,”inProc.USENIX NSDI,2018.10 V.Arun,and H.Balakrishnan,“Copa:Practical delay-based congestion control for theInternet,”in Proc.USENIX NSDI,2018.11 Saeed,Ahmed,Varun Gupta,Prateesh Goyal,et al.,“Annulus:A Dual Congestion ControlLoop for
136、 Datacenter and WAN TrafficAggregates,”in SIGCOMM,2020.12 Zeng,Gaoxiong,Wei Bai,Ge Chen,et al.,“Congestion Control for Cross-DatacenterNetworks,”IEEE/ACM Transactions on Networking,2022.13 Zou,Shaojun,Jiawei Huang,Jingling Liu,et al.,“GTCP:Hybrid Congestion Control forCross-Datacenter Networks,”in I
137、CDCS,2021.14 Goyal,P.,Shah,P.,Sharma,N.K.,et al.,“Backpressure Flow Control,”in NSDI,2022.15 Liu,K.,Tian,C.,Wang,Q.,et al.,“December.Floodgate:Taming incast in datacenter78networks,”in CoNEXT,2021.16 Avci S N,Li Z,Liu F,“Congestion aware priority fow control in data center networks,”inIFIP Networkin
138、g Workshops,2016.17 Tian C,Li B,Qin L,et al.“P-PFC:Reducing tail latency with predictive PFC in lossless datacenter networks,”IEEE Transactions on Parallel and Distributed Systems,2020.18 Qian K,Cheng W,Zhang T,et al,“Gentle Flow Control:Avoiding Deadlock in LosslessNetworks,”in SIGCOMM,2019.19 中興通訊.未來通信的光速之路.2024-03.20 Estrella.G.654.E新型光纖.2020-09.URL:https:/