《中國電信研究院:2024分布式智算中心無損網絡技術白皮書(34頁).pdf》由會員分享,可在線閱讀,更多相關《中國電信研究院:2024分布式智算中心無損網絡技術白皮書(34頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、分布式智算中心無損網絡技術白皮書智算網絡系列技術白皮書智算網絡系列技術白皮書分布式智算中心無損網絡分布式智算中心無損網絡技術白皮書版權聲明版權聲明本白皮書版權屬于中國電信股份有限公司研究院及其合作單位所有并受法律保護,任何個人或是組織在轉載、摘編或以其他方式引用本白皮書中的文字、數據、圖片或者觀點時,應注明“來源來源:中國中國電信股份有限公司研究院等電信股份有限公司研究院等”。否則將違反中國有關知識產權的相關法律和法規,對此中國電信股份有限公司研究院有權追究侵權者的相關法律責任。分布式智算中心無損網絡技術白皮書1編寫說明編寫說明主要主要編寫單位:編寫單位:中國電信股份有限公司研究院、中國電信股
2、份有限公司北京分公司主要編寫人員(主要編寫人員(排序不分先后排序不分先后):):傅志仁、雷波、顧鵬、葉平、王江龍、李聰、解云鵬、王學聰、李云鶴、冀思偉、劉宇旸、吳楠、張越、馬小婷、周舸帆、唐靜、王軼、張勇高級顧問(排序不分先后):高級顧問(排序不分先后):張文強(中國電信集團公司)羅銳(中國電信北京分公司)史凡(中國電信集團公司)胡芳龍(中國電信集團公司)撰寫團隊聯系方式:撰寫團隊聯系方式:中國電信股份有限公司研究院解云鵬010-分布式智算中心無損網絡技術白皮書2前言2024 年 3 月,政府工作報告中首次提出開展“人工智能+”行動,打造具有國際競爭力的數字產業集群。這意味國家將加強頂層設計,
3、加快形成以人工智能為引擎的新質生產力。隨著這一行動的深入推進,人工智能將在推動產業升級、促進新質生產力加快形成等方面發揮重要作用。隨著人工智能的浪潮來襲,以大模型為代表的 AI 方案逐步深入千行百業,算力需求日益攀升,智算基礎設施的重要性進一步凸顯。然而,在智算基礎設施建設過程中尚面臨組網、通信、能耗、成本等多重挑戰,行業要“以網強算”,通過無處不在的網絡資源,補齊單點算力規模不足的差距,夯實智算業務發展基礎。本白皮書聚焦 AI 大模型下智算業務的典型需求和特征,對分布式智算中心無損網絡方案、核心技術展開深入研究,并積極推動分布式智算中心互聯現網驗證。我們希望通過白皮書的研究與分析,得到更多同
4、行的參與和討論,同時也期盼與眾多合作伙伴一起攜手并進,匯聚行業力量,共同打造大規模、高帶寬、高性能以及智能化的 AI大模型分布式智算中心網絡。分布式智算中心無損網絡技術白皮書3目錄1.分布式智算中心無損網絡場景及需求.41.1.智算業務的典型需求和特征.41.2.分布式智算中心無損網絡場景.41.3.分布式智算中心無損網絡挑戰.61.4.業界研究概況.72.分布式智算中心無損網絡解決方案設計.92.1.方案設計原則.92.2.分布式智算中心無損網絡總體架構.102.3.方案技術特征.123.分布式智算中心無損網絡核心技術.143.1.異構網絡集合通信優化技術.143.2.網絡級負載均衡技術.1
5、63.3.精準流控技術.173.4.光模塊通道抗損技術.203.5.流可視化,全流丟包檢測技術.203.6.大帶寬傳輸技術.213.7.波長級動態拆建技術.223.8.高性能 WSON 技術.233.9.告警壓縮,根因識別技術.244.典型實踐.264.1.背景與需求.264.2.試驗概述.264.3.試驗結論.285.總結和展望.28附錄 A:術語與縮略語.30附錄 B:參考文獻.31分布式智算中心無損網絡技術白皮書41分布式智算中心無損網絡場景及需求分布式智算中心無損網絡場景及需求1.1智算業務的典型需求和特征智算業務的典型需求和特征從 Transformer 問世至 2023 年 Cha
6、tGPT 爆火,人們逐漸意識到隨著模型參數規模增加,模型訓練的效果越來越好,且兩者之間符合 Scaling law 規律。當模型的參數規模超過數百億后,AI 大模型的語言理解能力、邏輯推理能力以及問題分析能力迅速提升。例如,擁有 1.8 萬億參數的 GPT-4 在復雜問題的處理能力方面遠超 GPT-3,谷歌的 Gemini 大模型性能也超越其早期版本。但提升模型參數的規模和性能后,AI 大模型訓練對于網絡的需求也會發生巨大變化。在大模型訓練場景下,隨著參數規模從億級提升到萬億級別,算力需求呈現“爆發式”增長。據統計,20122022 年模型算力需求每年增長 4 倍,而 2023年后模型的算力需
7、求以每年 10 倍的速度增長。這意味著訓練超大 AI 模型需要數千/萬卡 GPU 組成的集群高速互聯。此外,機內 GPU 通信和機外集合通信將產生大量通信需求。例如,千億級參數的大模型并行訓練所產生的集合通信數據將達到數百 GB 量級。若要在極短時間內完成參數交換,將對 GPU 與 GPU 間、GPU 與網卡間、網卡與網卡間的超高帶寬互聯提出較高要求。網絡擁塞和丟包也會嚴重影響 GPU 計算效率,據實驗統計,0.1%的網絡丟包率就會帶來 50%的算力損失,因此提升通信性能可有效釋放智能算力。AI 大模型訓練/推理需要智算網絡具備超大規模、超高帶寬、超低時延、超高可靠等關鍵特征。如何設計高效的集
8、群組網方案,提升 GPU 有效計算時間占比(GPU 計算時間/整體訓練時間),對于 AI 集群訓練效率的提升至關重要。1.2分布式智算中心無損網絡場景分布式智算中心無損網絡場景超大規模 GPU 集群成為大模型訓練的必要條件,而算力需求的指數級增長對 AI 基礎設施帶來極大挑戰。在構建萬卡甚至十萬卡集群時,由于機房空間/電力不足、機房散熱等問題,智算中心單點算力規模建設受限。為破解智算基礎設施供給難題,中國電信踐行“以網強算”的技術路線,即利用無處不在的網絡資源彌補小規模智能計算的差距,再結合集中式的算力調度分布式智算中心無損網絡技術白皮書5策略,提升整網智算利用率。目前,“以網強算”已成為國際
9、格局和產業環境下中國最具優勢的發力點?!耙跃W強算”將多個智算中心互聯成一個大型虛擬智算集群,通過分布式智算中心無損網絡(也稱 RDMA 拉遠),實現區域內多智算中心協同計算,滿足更大規模的算力需求。目前,分布式智算中心無損網絡主要適用于兩類場景:算-算拉遠和存-算拉遠。(1)算算-算拉遠場景算拉遠場景我國單點智算中心規模普遍偏小,規模為 100-300PFLOPS 的小型智算中心占比超 70%,而規模超過 1EFLOPS 的大型智算中心僅占 25%,且多由云提供商及大型企業自建,集中在京津冀、長三角和粵港澳。算-算拉遠可以將區域內多個已經建成的智算中心的算力進行整合,從而無需建設超大規模集約型
10、智算中心就能夠訓練更大的模型。圖 1-1 多智算中心合一場景此外,單個智算節點往往會存在資源利用率不足、閑散算力資源浪費的問題。在算力使用過程中,租戶算力訴求與實際部署算力往往不一致,導致算力零散在本地,智算中心算力資源碎片化。如何把零散的資源整合起來,系統優化算力基礎設施,布局盤活機房,促進跨集群算力高效互補和協同聯動成為充分發揮算力的關鍵能力。算-算拉遠能夠充分利用碎片資源來執行合適的任務,提升系統利用率。圖 1-2 碎片資源整合場景分布式智算中心無損網絡技術白皮書6(2)存)存-算拉遠場景算拉遠場景高性能、高可靠存儲是公有云最基礎的服務之一。當前公有云中廣泛采用存算分離架構,即計算集群和
11、存儲集群可能位于 Region 內的不同 DC 中,而互連計算集群和存儲集群的網絡成為實現云存儲服務高性能和高可靠性的關鍵。存-算拉遠可以將 Region 內的計算集群和存儲集群無損互聯,滿足數據本地化需求,保障數據安全。1.3分布式智算中心無損網絡挑戰分布式智算中心無損網絡挑戰在探索跨智算中心構建超大規模智算集群過程中,算力和網絡均遇到了諸多問題和挑戰。首先,集群拉遠部署相比于本地集群部署在 DCN 協議面需要解決時延和丟包兩個難題。(1)拉遠增加網絡傳輸時延拉遠增加網絡傳輸時延:AI 訓練每輪迭代會通過集合通信進行參數同步,而集合通信內部存在多輪數據交互,以及多次跨長距通信。長距拉遠后,傳
12、輸距離每增加 10km,通信時延增加 10ms 左右,對 AI 大模型的訓練效率產生極大影響。(2)網絡網絡擁塞擁塞丟包丟包,使性能急劇下降使性能急劇下降:當前 AI 訓練采用 RDMA 協議,而RDMA 的高效率依賴于極低的丟包率。數據顯示,當網絡的丟包率大于 10-3時,RDMA 有效吞吐將急劇下降;2%的丟包率會使 RDMA 吞吐率下降為 0。因此,要使得 RDMA 吞吐不受影響,丟包率必須保證在十萬分之一以下,最好為零丟包。在長距拉遠場景下,當網絡出現擁塞時,若沒有在 RTT(往返時間)內及時緩解擁塞,就會發生丟包,導致一輪迭代訓練時間增加,大模型的訓練效率下降。圖 1-3 丟包影響
13、RDMA 吞吐分布式智算中心無損網絡技術白皮書7其次,集群拉遠部署和本地集群部署相比在傳輸網也需要解決高帶寬和穩定性難題。(1)超大帶寬超大帶寬、靈活組網保證長距拉遠算效靈活組網保證長距拉遠算效:在跨 DC 分布式訓練場景中,需要提供充足的互聯帶寬,并根據智算中心空閑服務器數量靈活組網,避免網絡擁塞,實現高效傳輸。(2)高可靠機制保證高可靠機制保證 AI 訓練的穩定訓練的穩定:檢查點(checkpoint)機制是 AI 訓練的必要需求,主要用于在訓練過程中保存模型的權重,以便在訓練中斷或模型更新時恢復訓練,從而提高訓練的效率和穩定性。網絡還需要具備抗多次斷纖能力,防止網絡故障引起 AI 訓練中
14、斷。(3)故障分鐘級故障分鐘級檢測及定位檢測及定位:模型訓練期間可能受施工震動、擠壓彎折、意外挖斷、接頭松動、老化等影響,從而導致光纜故障,訓練也會隨之中斷。為保證訓練的穩定,要求網絡具備故障時分鐘級自動檢測和定位、分鐘級提前預警的能力,以保證智算拉遠訓練時的高可用。針對以上難題,若要實現長距無損傳輸,需要協同優化 IP 層和光傳輸層技術,構建分布式智算中心無損網絡,實現多數據中心協同提供服務。在 IP 層,一方面可以優化集合通信算法,減少長距鏈路的流量傳輸,從而消除流量交疊現象;另一方面可以引入全局負載均衡和精準流控技術,實現多節點互聯網絡的無擁塞、高吞吐。在光傳輸層,一方面可以依托城域網或
15、區域網延伸覆蓋智算節點,并在資源不足區域新建 800G/1.2T 超大帶寬的互聯網絡,構建高品質光互聯;另一方面,可以提高網絡故障處理能力,實現高可靠、智慧化運維。1.4業界研究概況業界研究概況大模型推動智算基礎設施建設快速發展,但電力供應、機房空間成為大規模智算建設的瓶頸。業界正在積極探索將分布在多個智算中心的算力協同起來,進行跨 DC 的大模型分布式訓練。谷歌利用自研低成本、高性能 TPUv4 超級計算機(SuperPod)滿足大模型訓練/推理算力需求,其中每一個 SuperPod 可以提供 1 Exaflop 級(每秒百億億次浮點運算)的運算能力。目前,谷歌已經部署了數十臺 TPUv4
16、SuperPod,并完成跨多個數據中心的 Gemini Ultra 大模型訓練,此前 5400 億參數語言模型 PaLM分布式智算中心無損網絡技術白皮書8也是用 2 個 TPUv4 SuperPod 訓練的。OpenAI 與微軟也在計劃建設十萬甚至百萬級 GPU 卡的算力集群,以滿足 GPT-6 模型訓練需求。但由于電力受限,預計將 GPU 卡分布在幾個或幾十個地區,并利用開放 Ethernet 協議替換 IB 協議來實現跨區域 GPU 之間的互聯。Meta 宣布推出兩個具備 2.4 萬個 GPU 卡的 AI 集群,分別采用 RoCE 和 IB 協議,并在硬件、網絡、存儲、性能等方面進行深度優
17、化,以支持大語言模型如 Llama 3 的訓練。為了解決 AI 訓練集群造價昂貴問題,Meta又提出去中心化異構訓練,利用分布式、異構和低帶寬互聯的 AI 訓練資源來訓練基礎大模型,降低訓練成本。阿里提出“雙上聯+雙平面+多軌”的 HPN7.0 網絡架構,該網絡架構中單個Pod 規模已經達到 15K GPU,可滿足絕大多數 LLM 的訓練需求。為建設更大規模智算集群,設計了不同 Pod 之間通過核心層互連,從而在單個集群中支持超過十萬個 GPU 節點。目前,HPN7.0 網絡架構已經在阿里云上線運行 9 個多月,實踐表明 LLM 訓練的吞吐性能相比傳統數據中心網絡而言提升了 14.9%。百度智
18、能云基于 CENI 打造了跨廣域工業視覺大模型算網融合技術,依托百度自研昆侖芯以及百度文心視覺大模型,將算力、網絡、大模型和應用場景融合,實現行業大模型跨廣域精調、推理服務。測試結果顯示,在相距超 300 公里的兩地之間,該技術使行業大模型跨廣域推理效率提升42%。此外,NTT在Mitaka和Yokosuka之間通過全光子網絡(APN)搭建 LLM 遠程訓練測試環境,將訓練數據保存在企業本地,而使用數百公里外數據中心的 GPU 進行訓練,訓練效果與本地的訓練效果相近。圖 1-4 阿里 HPN7.0 架構當前單點智算中心算力規模受限、算力資源碎片化嚴重,難以承載大規模AI 訓練業務。采用跨 AZ
19、、跨 Region 的多個數據中心組成的 AI 訓練集群可有效分布式智算中心無損網絡技術白皮書9支撐十萬卡甚至百萬卡級別的 AI 訓練任務,同時提高資源利用率,是未來智算產業發展和探索的重要方向。2分布式智算中心無損網絡解決方案設計分布式智算中心無損網絡解決方案設計2.1方案設計原則方案設計原則分布式智算中心無損網絡是一種特別設計的網絡架構,通過全棧創新,旨在整合盤活閑散算力資源,實現算力高效互補和聯動,進而構建極致可靠的算力集群,為大規模分布式智能計算提供高性能、低延遲且無丟包的數據傳輸能力。這種網絡架構可以提供接近于本地智算中心網絡性能的計算效率和數據處理速度,對于支持大規模機器學習模型訓
20、練和高性能計算至關重要。分布式智算中心無損網絡在方案設計時,應遵循打造超大規模算力集群、提供高效穩定訓練能力、實現算網靈活調度供給以及堅持綠色低碳節能減排四大設計原則:(1)打造超大規模打造超大規模算力算力集群集群當前智算集群主要規模為單數據中心內的數千張計算卡,更大規模的萬卡乃至超萬卡集群建設尚處于初期階段。構建超大規模算力集群將進一步縮短大模型訓練時間,加速模型能力迭代。通過分布式智算中心無損網絡可以實現多節點算力協同,構筑超大規模的極致算力集群。(2)提供高效穩定訓練能力)提供高效穩定訓練能力大模型的計算量大、訓練時間長,訓練期間涉及節點間的頻繁交互,對網絡穩定性要求高。如果訓練期間網絡
21、出現不穩定,輕則將回退至上一個分布式訓練的斷點,重則可能要從 0 開始,會影響整個訓練任務進度,給客戶帶來重大損失。分布式智算中心無損網絡需要在支持大模型高效訓練的同時,保持長期訓練的穩定性。(3)實現算網靈活調度供給)實現算網靈活調度供給構建多 DC 算力集群靈活調度,實現算力高效互補和聯動。同時,通過應用服務、算力使能平臺和算力底座的深度適配,高效的算網調度及協同,實現訓練資源的按需分配,為用戶提供接近本地訓練的算力效率和靈活的算力供給能力。分布式智算中心無損網絡技術白皮書10(4)堅持綠色低碳節能減排)堅持綠色低碳節能減排通過分布式部署的算力集群分擔電力,實現電力與算力的最優配置,并通過
22、800G C+L 構建低時延、高帶寬的全光網絡,為智算集群提供超大帶寬的主干道,實現最優成本的 bit 傳輸和算力的綠色供給。2.2分布式智算中心無損網絡總體架構分布式智算中心無損網絡總體架構分布式智算中心無損網絡總體架構由多個單節點智算中心網絡組成,其中每個單節點智算中心網絡均包括多個業務區塊:AI 集群區、通用計算區、存儲區、帶外管理區、管理區、網絡服務區、接入區。每個區域負責特定的功能,區塊間通過核心交換區的核心交換機連接在一起構成單節點智算中心網絡,多個單節點智算中心網絡之間通過廣域互聯區互聯,構成分布式智算中心無損網絡,共同支撐起整個分布式智算中心的運行。分布式智算中心無損網絡總體架
23、構如圖 2-1 所示:圖 2-1分布式智算中心無損網絡總體架構AI 集群區集群區:包括 GPU、TPU 或其他加速器等高性能計算節點,用于智算集群分布式訓練時的參數交換。要求網絡具備大帶寬、高吞吐、無丟包能力,需要部署無損網絡。分布式智算中心無損網絡技術白皮書11通用計算區通用計算區:包括 CPU 等通用服務器,支持各種類型的應用程序和服務。提供標準的計算資源,用于運行非 AI 相關的計算任務,通常部署為 TCP/IP 有損網絡。存儲區存儲區:包括高速緩存存儲、塊存儲、對象存儲等多種存儲類型,用于存儲大量數據和模型文件。要求網絡具備高速大帶寬互聯能力,可按需部署無損網絡。管理區管理區:包括監控
24、系統、配置管理系統和安全控制系統。負責整體網絡的監控、配置和安全管理,通常部署為 TCP/IP 有損網絡。帶外管理區帶外管理區:用于管理計算節點和其他網絡設備的帶外接口。提供獨立于主網絡之外的管理通道,確保即使在主網絡出現問題時也能進行設備管理,通常部署為 TCP/IP 有損網絡。網絡服務區網絡服務區:提供防火墻、負載均衡、DNS、NTP 等網絡服務,保障網絡設備和服務的正常運行,通常部署為 TCP/IP 有損網絡。接入區接入區:是智算中心對外連接的主要入口。包括防火墻、負載均衡器等設備,用于連接外部網絡和提供安全防護,通常部署為 TCP/IP 有損網絡。廣域互聯區:廣域互聯區:包括路由器、O
25、TN 等設備。多節點智算中心通過具備高通量的聯算網關互聯,中間通過 OTN 全光網絡提供高品質的大帶寬連接,實現 AI集群訓練網絡的跨 DC 互聯互通,需要部署無損網絡。這些區域共同構成了分布式智算中心網絡架構,每個區域都承擔著特定的角色,通過相互協作確保整個分布式智算中心的高效運作。其中,構建 AI 集群之間的無損廣域互聯網絡是方案中的設計重點。通過提供物理隔離、全程資源獨享的高質量、低時延的波長級大帶寬管道,實現 DC 間的多方向任意互聯,并提供抗多次斷纖的能力,保證互聯的可靠性。在大帶寬的傳輸資源基礎上,智算中心出口通過聯算網關提供靈活的、易擴展的跨智算中心組網和長距無損、高吞吐、高可靠
26、的數據承載。AI 集群區網絡互聯架構如圖 2-2 所示:分布式智算中心無損網絡技術白皮書12圖 2-2AI 集群區網絡互聯架構AI 集群網絡架構從下到上分成四個層次:接入接入層層:由 Server Leaf 交換機組成,支持 AI 算力服務器的高密規模接入,上下行帶寬收斂比推薦 1:1。AI 訓練服務器每個接口采用獨立 IP,以獨立鏈路方式接入到 Server Leaf 交換機,不做鏈路捆綁。接入側支持光模塊故障保護機制,避免接入側鏈路故障導致訓練中斷。匯聚匯聚層層:由 Spine 交換機組成,下行接 Server Leaf 交換機,上行接 DCI Leaf交換機。Spine 交換機的數量決定
27、了本節點 AI 集群的總規模,根據訓練業務模型的選擇,匯聚層可以有一定的收斂比。集群出口集群出口層層:由聯算網關組成,作為 AI 集群的出口,聯算網關下行與多 Spine交換機進行全互聯,上行通過 OTN 和其他節點互聯。集群出口層也可根據業務模型的選擇進行收斂。此外,集群出口層采用算網協同、DC 間與 DC 內級聯精準流控等技術,實現網絡負載均衡和長距無損,為 AI 集群的高效訓練提供基礎網絡保障。廣域互聯層:廣域互聯層:不同智算中心節點之間采用 OTN 全光網一跳直達,全程無擁塞,無丟包。廣域互聯層提供單纖 96Tbps 的超大帶寬能力,利用高性能的 WSON技術和智能運維技術,保障智算高
28、可靠互聯,同時具備與業務聯動的波長級拆建能力,實現算網協同。通過這些設計,AI 集群網絡架構能夠在長距離、大規模的分布式計算環境中提供穩定、高效的數據傳輸能力,為大規模智算中心的高效運行提供堅實的基礎。2.3方案技術特征方案技術特征分布式智算中心無損網絡將智算中心無損網絡從數據中心網絡向廣域網延伸,方案具備長距無損、超大帶寬、超高可靠、彈性敏捷和智慧運維的特征。(1)長距無損長距無損:在大模型訓練過程中,采用 RDMA(遠程直接內存訪問)作為輸入輸出協議。由于 RDMA 對網絡擁塞和丟包非常敏感,即便是少量的丟包也會導致性能急劇下降。因此,底層網絡必須具備無損傳輸能力,確保數據傳輸過程中不會出
29、現擁塞或丟包現象,從而避免上層協議性能受損。分布式智算中心無損網絡技術白皮書13(2)超大帶寬超大帶寬:超大帶寬能夠確保大量數據在分布式智算中心之間快速傳輸,加速 AI 模型的訓練和推理過程。隨著數據量的增加,分布式智算中心之間需要高效同步數據和模型參數,這就要求網絡提供足夠的吞吐量,以避免網絡擁塞和性能下降。(3)超高可靠超高可靠:為了保證分布式智算中心之間的長期穩定訓練,防止網絡施工等外來因素導致的訓練中斷,傳輸網絡需要具備高可靠性。例如在網絡鏈路發生故障時能夠快速恢復,保證智算不中斷,任意二次故障帶寬不下降,以避免因鏈路中斷而導致的智算訓練回退和算力效率下降。(4)彈性敏捷彈性敏捷:分布
30、式智算中心無損網絡需要根據多租戶的不同需求,能夠靈活地組建不同規模和類型的集群組網。這意味著網絡需要具備彈性敏捷的按需拆建能力,能夠根據計算需求的變化快速調整,動態分配大帶寬資源。(5)智慧運維智慧運維:傳統網絡運維面臨同纜&同溝、誤碼閃斷等難題,導致保護機制失效和業務異常。分布式智算中心無損網絡需要具備智慧運維能力,能夠快速準確地定位和解決問題,提高故障定位的準確率,確保網絡的穩定運行。分布式智算中心無損網絡技術白皮書143分布式智算中心無損網絡核心技術分布式智算中心無損網絡核心技術分布式智算中心無損網絡在 IP 網絡層和光傳輸層都需要引入新的技術點,以實現長距無損、超大帶寬、超高可靠、彈性
31、敏捷、智慧運維等需求。關鍵的技術點總體視圖如下:圖 3-1 分布式智算中心無損網絡關鍵技術點3.1異構網絡集合通信優化技術異構網絡集合通信優化技術異構網絡集合通信算法針對異構網絡設備帶寬和時延不對稱(主要針對長距鏈路)的問題對智算業務流量進行調整,從而大幅度降低鏈路擁塞的可能性。在同構網絡場景下,業務流量具有高度的對稱性,每個節點承擔的帶寬業務壓力是相同的。而在異構網絡場景下,網絡設備的處理能力不同,因此業務流量也需要調整以適應新的網絡情景。例如減少長距鏈路上傳輸的數據量和傳輸次數,從而大幅降低長距鏈路擁塞的可能性。智算業務的通信模式為集合通信,其中最主要的是 AllGather 和 AllR
32、educe集合通信。集合通信的特點是所有主機都會進行相同的操作,如圖 3-2 所示。AllGather:多臺主機把數據的不同部分發給所有主機。AllReduce:多臺主機把數據的相同部分發給所有主機。然后所有目的主機都做一定的操作,例如求和、求最大值、求平均。圖 3-2 集合通信操作分布式智算中心無損網絡技術白皮書15針對這兩種集合通信,業界主流的集合通信算法包括 Ring 算法和Halving-Doubling(HD)算法。其中 Ring 算法通信模式簡單,每臺主機只需跟自己的鄰居通信;HD 算法通信模式較復雜,但通信次數比 Ring 算法少,靜態時延帶來的開銷小,因此對于小字節的通信效果更
33、佳。然而,無論是 Ring 還是HD,都是針對完全同構的系統設計的,集合通信的每個 Rank 行為一致,收發流量也一致。在長距拉遠場景下,網絡不再同構,跨長距的 GPU 通信時延要顯著高于 DC內的 GPU 通信時延,因此傳統算法將不再最優。下表總結了 Ring 算法和 HD 算法在拉遠場景下的跨長距通信次數和通信量。其中 S 是集合通信數據量,N 是參與集合通信的 GPU 數量。表 1 典型集合通信算法跨長距性能評估集合通信算法集合通信算法跨長距通信次數跨長距通信次數跨長距通信數據量跨長距通信數據量Ring2N2SHalving Doubling2log2NNS理想情況下,跨長距只需要進行一
34、次通信,并且傳輸的數據量為 S 即可?;谠撍悸?,設計出針對長距異構組網的集合通信算法框架,如圖 3-3 所示。新算法具體步驟如下:(1)將拉遠 DC 當做兩個獨立的子系統,在每個 DC 內先進行集合通信操作,集合通信算法可選用 Ring 或者 HD。(2)DC 內同步后,在每個 DC 中選取一個或者多個代表主機,然后對應的代表主機之間同步數據。例如選取 K 個代表主機(K N/2),則每個主機需傳輸S/K 的數據。這一步的通信在網絡上就是 K 個點對點雙向通信。(3)每個代表主機接收到對方的數據后,進行本地加和,再將加和后的結果在本 DC 內廣播/All Gather 分發出去。這樣就實現了
35、兩個 DC 之間的 AllReduce操作。分布式智算中心無損網絡技術白皮書16圖 3-3 跨長距集合通信算法架構圖 3-4 仿真了 S=1GB 時的 AllReduce 集合通信。在拉遠 100km 下,新算法相比傳統 Ring 算法的性能有所提升,且隨著規模增加,性能從 5%提升到 60%以上。新算法只經過一次跨長距通信,且跨長距通信數據量只有 S,均達到理論最優值。圖 3-4 新算法性能仿真在實際部署時,上述集合通信算法還需要結合網絡設備來通告拓撲信息。具體來說,網絡設備定期在鏈路層主動探測距離,構建并維護拓撲圖,該拓撲圖通過控制器下發到每臺服務器的集合通信庫。在每次執行集合通信時,根據
36、拓撲圖得到每個源端和目的端的距離,隨之運行搜索算法,找到效率最高的集合通信方式。3.2網絡級負載均衡技術網絡級負載均衡技術網絡級負載均衡主要解決智算業務場景下非故障、同構網絡的擁塞丟包問題。其中智算業務限定了網絡的流量模型是集合通信。同構主要指網絡設備的帶寬、時延具有對稱性和同步性,非故障場景指網絡設備不存在光模塊損壞、鏈路閃斷、慢節點等故障問題,此時網絡級負載均衡技術可以完美的將流量均衡分配到不同的網絡路徑,從而避免流量沖突。分布式智算中心無損網絡技術白皮書17智算業務流具有同步性高、流量大、周期性出現等特點。同一時刻,網絡里每條等價路徑上都有流經過,傳統基于 ECMP 哈希的負載均衡技術無
37、法做到所有路徑的完美均衡。就像把 8 個小球隨機放到 8 個盒子中,每個盒子恰好有一個小球的概率是很低的,總會有一些盒子里被放入多個小球(即鏈路擁塞),有些盒子沒有小球(即鏈路閑置)。圖 3-5 網絡級負載均衡技術如圖 3-5 所示,網絡級負載均衡技術可以通過統一規劃整網流量,讓所有路徑之間完美均衡無沖突,避免擁塞丟包。具體來說,首先網絡設備會收集業務的流量信息,并將其發給網絡控制器??刂破鞲鶕負?、流量信息,運行全局選路算法,給每條流都選擇合適的路徑,做到整網完美均衡無擁塞。最后,控制器將路徑信息再下發給網絡設備,由網絡設備作出路徑調節。3.3精準流控技術精準流控技術精準流控技術包含兩種方案
38、,一種是僅在交換機網絡中使能的精準流控 1.0方案,另一種是在跨多個智算中心時,由交換機+路由器端到端協同的精準流控2.0 增強方案。(1)精準流控)精準流控 1.0 方案方案交換機精準流控技術主要解決智算業務場景下故障丟包引起的業務性能下降問題。網絡級負載均衡可以在網絡正常的情況下做到整網無擁塞、無丟包。但在實際業務部署時,會出現一些異常場景,如光模塊閃斷、長距鏈路誤碼丟包、服務器側擁塞導致接收數據能力下降等等。這些異常都會產生負載均衡技術難以解決的擁塞問題,進而帶來異常丟包,影響訓練業務性能。分布式智算中心無損網絡技術白皮書18在出現網絡故障后,無論是鏈路故障還是服務器接收數據速率降低,網
39、絡有效吞吐都會下降,必然產生擁塞。但是,擁塞發生的位置不同,帶來的結果也不同。如果擁塞發生在數據中心內部,因為反饋時間較短,利用流控或者擁塞控制都可以很快抑制擁塞;而如果擁塞發生在跨長距鏈路上,此時反饋時間變長,設備緩存不足以接納鏈路在途數據包,從而發生丟包,如圖 3-6 所示。圖 3-6 近端擁塞和遠端擁塞帶來的影響不同交換機精準流控的思想就是當擁塞不可避免時,將原本在長距鏈路上的擁塞“轉移”至網絡第一跳設備上。具體來說,網絡設備通過檢查網絡狀態,例如端口隊列堆積信息、端口反壓情況,來判斷是否出現擁塞。如果出現擁塞,并且該設備不是擁塞流量的第一跳設備,那么就把擁塞信息通告給擁塞流量的第一跳設
40、備,也就是源 Leaf 交換機。隨后,源 Leaf 交換機根據擁塞程度運行算法,決定以多大比例對擁塞流量進行限速。最后,源 Leaf 交換機通過發送 PFC/CNP/其它流控協議報文,實現對流量的控速,如圖 3-7 所示。圖 3-7 交換機精準流控技術大模型訓練的流量具有周期性的特點,即同一條流如果在前一個周期出現擁塞,無論是鏈路故障導致的流量沖突,還是目的主機接收能力下降,這個擁塞在下一個周期還會出現?;谶@一特征,源 Leaf 交換機需要維護一張信息表,用于記錄哪些流會發生擁塞。這樣,當擁塞流后續周期性出現時,可以第一時間進分布式智算中心無損網絡技術白皮書19行控速,而不必再通過遠端擁塞點
41、通告后進行控速。因此,利用精準流控技術在第一周期獲取到整網擁塞信息后,后面所有周期都可以做到流量無損。(2)精準流控)精準流控 2.0 增強方案增強方案在多智算中心協同進行模型訓練時,擁塞和故障可能發生在網絡的任意節點或鏈路上,智算中心間距離的拉遠會導致傳輸時延增加,影響網絡狀態反饋的及時性。路由器與交換機通過精準流控技術相互配合,不僅能夠應對網絡中突發的擁塞挑戰,還能夠在長周期故障下保障業務性能不下降。同時基于流的反壓機制可以有效遏制擁塞和故障導致的反壓擴散,顯著提升整體網絡吞吐率。相較于傳統的 PFC 機制,路由器精準流控技術解決了 PFC 的頭阻、反壓風暴和死鎖問題,實現了從端口級流控到
42、數據流級流控的飛躍,其基于 IP 數據報文的五元組作為流識別粒度,實現了對網絡中每一條流的獨立監控與動態調整,將擁塞和故障帶來的影響最小化。在跨 DC 場景下,網絡環境更加復雜多變,路由器精準流控技術通過以數據流為單位的精準流量控制和精細化緩存調度,實現長距網絡環境下數據的無損傳輸,確保數據傳輸的連續性和完整性。對于長周期的故障情況,路由器精準流控技術的優勢更為顯著。它不僅能夠在故障期間通過精準流量控制,避免丟包現象,還能在限速策略上實現高度精準,包括數據流限速的開始與解除時間、限速速率的精確設定。從而確保網絡吞吐能力在故障期間仍能逼近極限物理帶寬,避免因限速不準導致的欠吞吐問題。面對數據中心
43、內高度動態的業務負載變化,路由器精準流控技術展現出極高的靈活性與智能性。其能夠根據實時網絡狀況動態調整流控策略,實現流量峰值速率的流級別的獨立控制和精準反壓,有效應對網絡中的突發流量,保障整體網絡的平穩運行,實現故障的有效隔離不擴散。此外,路由器精準流控技術引入的彈性級聯降速機制,進一步增強了網絡對突發情況的適應能力,提升了網絡的韌性。圖 3-8 路由器精準流控技術分布式智算中心無損網絡技術白皮書203.4光模塊通道抗損技術光模塊通道抗損技術網絡設備間的鏈路故障或模塊故障會導致訓練中斷。業界 400G/200G 光模塊年失效率達 46。據統計,萬卡集群平均每年發生 60 次光模塊故障事件,即平
44、均每 6 天就會發生一次。而分布式集群訓練規模比單智算中心訓練規模更大,面臨更嚴峻的由光模塊故障帶來的訓練中斷問題。大模型訓練過程中,會將中間狀態以 checkpoint 的形式持續記錄下來,每次訓練失敗時不需要重頭執行,而是加載最近的檢查點,并繼續執行。但是頻繁的網絡故障會使大模型訓練反復回滾 checkpoint,導致整體訓練效率低下。如圖 3-9 所示,激光器的失效率占比為 90%以上。200GE/400GE 短距 SR光模塊有四個通道,單激光器故障會導致整個鏈路故障,造成業務中斷。光模塊通道抗損技術可以在光模塊出現單通道故障時,通過降低模塊實際使用 lane 的數量,保證訓練任務不中斷
45、。圖 3-9 光模塊失效模式3.5流可視化,全流丟包檢測技術流可視化,全流丟包檢測技術ROCE 業務場景下,丟包會導致訓練性能大幅下降。因此,智算中心內通信以及跨智算中心長距通信都對 ROCE 業務報文的傳輸質量提出了較高要求,希望可以做到整機全流采樣、實時監控;且當鏈路丟包時,可以快速上傳丟包發生的位置、數量和時間。管理員可以快速感知丟包,判斷對網絡的影響性,并及時修復故障。全流丟包監測技術支持以下能力:(1)快速故障定位:隨流檢測,實時監控業務流的時延、丟包等指標;(2)可視化:流路徑可視化,網絡進行集中管控。分布式智算中心無損網絡技術白皮書21圖 3-10 ROCE 業務場景在分布式智算
46、中心長距組網場景下,計算服務器的接入 Leaf 作為統計的Ingress 節點和 Egress 節點,Spine 和 DCI leaf 做為 Transit 節點。Ingress:統計流的入口測量點。Ingress 節點根據報文特征識別業務流量,對業務報文進行流標記并全流統計,統計結果發送到分析器。Transit:統計流的中間測量點。Transit 節點識別在 Ingress 節點標記的流報文,并進行全流統計,統計結果發送到分析器。Egress:統計流的出口測量點。Egress 節點識別 Ingress 節點標記的流報文,并進行全流統計,且在出設備時剝除流標記。統計結果發送到分析器。全流丟包監
47、測技術還支持丟包統計和時延統計能力:丟包統計丟包統計:在某一個統計周期內,所有進入網絡的流量與離開網絡的流量之差,即為承載網絡在該統計周期內的丟包數。時延統計時延統計:在某一個統計周期內,指定的兩個網絡節點間,同一條業務流進入網絡的時間與離開網絡的時間之差,即為網絡在該統計周期內的時延。3.6大帶寬傳輸技術大帶寬傳輸技術提升單端口速率可以實現超大流量的高效、低成本傳輸,是智算互聯網絡的重要發展方向之一。目前滿足城域內 DC 互聯的中短距 800Gbps 端口技術已經基本成熟,現已部署在智算 DCI 百公里級互聯場景中,在滿足智算互聯百 T 級大帶寬需求的同時,降低了智算互聯的成本。未來需繼續探
48、索 1.2Tbps 端口速率,進一步降低單 bit 成本。分布式智算中心無損網絡技術白皮書22圖 3-11 單播速率不斷提升隨著長距傳輸系統由單波 400Gbps 向單波 800Gbps,甚至 1.2Tbps 演進,信號占用的譜寬不斷提升。為獲得更大的單纖系統容量,需要在傳統 C 波段的基礎上突破 L 波段相關技術,將頻譜資源擴展到 C+L 波段,實現更大的單纖容量(最高可達 96Tbps 超大帶寬),進一步滿足智算中心之間的海量數據傳輸需求。圖 3-12 C+L 波段提供更大容量3.7波長級動態拆建技術波長級動態拆建技術智算資源一般采用分時復用的方式租給不同的客戶,因此,需要在任意兩個算力中
49、心之間根據空閑 GPU 數實現帶寬彈性互聯。網絡需要匹配 GPU 數量,并根據距離、時延等不同約束,由業務側驅動建立不同方向的波長級連接,因此OTN 網絡需要具備波長級動態快速拆建能力(簡稱電驅光技術)。圖 3-13 帶寬分時復用的業務場景分布式智算中心無損網絡技術白皮書23電驅光技術有兩種典型場景:(1)波長級的電驅光,動態拆建光層波長;(2)ODU 級的電驅光,動態拆建電層交叉+光層波長?;阡浫氲臉I務需求(例如指定源宿站點/網元、路由策略、保護等級),并結合當前網絡拓撲和資源使用情況,電驅光技術可以提供以下能力:(1)業務跨層協同算路業務跨層協同算路:基于業務輸入的時延和路由分離約束,自
50、動計算滿足業務需求的多條 OCH 預開通路徑;(2)光電交叉同步創建:光電交叉同步創建:自動生成業務配置參數,包含但不限于:Client到 OCH、OCH 到 Fiber 的多層路由映射、波長頻率與頻寬配置、中繼端口配置等;(3)自動調測自動調測:基于業務跨層協同算路,自動調測開 OCH,并自動調優最佳性能狀態。3.8高性能高性能 WSON 技術技術傳統的 WSON 重路由時間為秒級到分鐘級,現網測試中容易發生概率性訓練中斷事件,影響智算業務。因此,需要進一步提升 WSON 的重路由能力,實現確定性的光層恢復能力。當前現網重要業務采用電層 SNCP+光層重路由,通過電層 SNCP 實現 50m
51、s 的保護能力。但在智算互聯場景下,帶寬為百 T 級別,電層 SNCP 要求冗余資源多,需要考慮光層的 50ms 保護能力。針對智算百公里級互聯場景,利用 WSON 50ms 技術可以在提供相同保護能力的情況下降低對資源的消耗。WSON 50ms 的關鍵技術包括轉控分離機制、資源共享選路算法、高速報文轉發技術、WSS 快速切波技術。(1)轉控分離機制:轉控分離機制:將路徑計算、資源分配與路徑建立解耦,故障時只進行路徑建立所需的最少操作,避免與網絡規模、業務數量的強依賴關系,提升特性應用的普適性。(2)資源共享選路算法:資源共享選路算法:全局統籌網絡資源,并確?;謴唾Y源可共享、零沖突且資源利用率
52、高。(3)高速報文轉發技術:高速報文轉發技術:恢復路徑建立涉及多個站點的交叉資源配置,傳統方法是通過逐跳 IP 軟轉發實現的,但軟轉發實現機制與 CPU 的處理性能、重路由時的繁忙程度、協議所需傳輸的跳數強相關。高速報文轉發技術通過使用專分布式智算中心無損網絡技術白皮書24有的協議報文轉發芯片,可達成 ms 級的傳輸性能,降低了對 CPU 和業務跳數的依賴。(4)WSS 快速切波技術快速切波技術:通過使用全新的快速液晶材料以及 LCOS 技術實現 ms 級的波長交叉切換能力。在鏈路故障時,WSON 可實現抗多次故障 50ms快速恢復。3.9告警壓縮,根因識別技術告警壓縮,根因識別技術當模型訓練
53、出現故障時,要求 10 分鐘內完成恢復。因此,需要提出高效的智慧運維技術,實現分鐘級的快速定位定界,防止 AI 算效長時間下降。隨著 OTN網絡規模的持續增長,一個網管下面管理的網元越來越多,傳統的 OTN 網絡故障處理面臨著更加嚴峻的挑戰。例如:告警數量劇增會帶來維護困難、根因告警識別困難、故障的定界/定位耗時費力、保護倒換等場景下因光層性能變化導致業務受影響等問題。目前,可以通過故障智能識別與余量預測來實現故障告警壓縮,通過故障根因識別與 OSNR 余量精準評估來實現運維自動化。(1)故障智能監控和識別基于設備內生智能識別模塊,將單網元內的告警標識出根因和衍生關系,上報管控系統,管控系統基
54、于實時的告警流、現網拓撲、保護配置等,形成故障傳播關系圖,在線推斷出故障相關的所有告警,并識別出根因告警。故障系統基于管控系統上報的智能 incident,進行跨域跨廠家的告警聚合和根因識別。圖 3-14 智能故障處理流程圖分布式智算中心無損網絡技術白皮書25(2)性能余量智能評估為提升光網絡加掉波效率、保障業務安全,可通過對每個光波長進行數字孿生建模,提前判斷系統是否可以順利實施該運維操作且保證不會中斷已有業務,從而保障加掉波、保護倒換等網絡運維與優化操作的順利完成。通過 QoT 模型對光傳輸系統的物理層損傷進行精確建模,如圖 3-16 所示,采用智能預測算法可以對 OCh 備路徑和加掉波場
55、景的 OSNR 余量及運維操作后的余量變化進行分析和預測,更直接準確地反映系統傳輸能力,并進行 OCh 劣化故障自動定界。圖 3-15 光網絡物理層智能 QoT 模型示意圖告警壓縮通過智能推理告警根因,大幅減少上報告警數量,提升現網問題定位效率;余量預測通過精準評估加掉波前的 OSNR 余量,提前預測加調波對現網波道的影響,降低了現網業務受損機率。分布式智算中心無損網絡技術白皮書264典型實踐典型實踐4.1背景與需求背景與需求2023 年以來,以大模型為代表的人工智能技術的發展已經進入了一個高速增長階段,對經濟社會發展產生了深遠影響。2024 年政府工作報告明確要求開展“人工智能+”行動,打造
56、具有國際競爭力的數字產業集群。北京數字經濟發展水平位列全球第二,其中人工智能企業約 2900 家,全國占比 28%,位列第一,智算需求旺盛,是全國的智算高地。為滿足未來北京市內及京津冀用算需求,以及解決單節點智算中心資源受限、不同智算中心資源使用不均衡等問題,中國電信率先在北京開展了分布式智算中心無損網絡試驗,驗證跨數據中心合池訓練的可行性,以提升區域內智算整體的供給效率。4.2試驗概述試驗概述本試驗利用 OTN 網絡零丟包、低時延、大帶寬的承載特點,通過全局負載均衡、長距無損流控等技術,使 RDMA 傳輸協議應用于廣域網。目前,已在現網開展了真實場景下百公里拉遠對大模型訓練的影響及穩定性測試
57、,并在全國率先完成基于高帶寬、低時延的全光 800G 超高帶寬傳輸。項目組從多拓撲、多模型、多故障等維度積極開展主流方案摸底測試,并對仿真驗證結果進行分析,積極探索優化創新?;诒本┤膺\力網規劃,項目組先后開展了現網機房的 64 卡以及 1024卡組網驗證。一階段在京津冀智算機房進行 80km/120km 繞行拉遠驗證,模擬了兩個數據中心組網,組網拓撲如圖 4-1 所示。二階段在武清、瀛海、永豐三機房開展百公里分布式大模型訓練,驗證當前分布式智算中心無損網絡解決方案在真實業務場景下的效果,并探索分布式智算集群對大模型訓練性能影響的關鍵因素,組網拓撲如圖 4-2 所示。在前期百卡、百公里拉遠驗
58、證基礎上,三階段在京津冀智算機房開展了千億參數、千卡規模 120km 兩點拉遠驗證,組網拓撲如圖 4-3 所示,本階段探索長距鏈路帶寬收斂情況下模型訓練的性能,目標是推動無損智算互聯網絡的技術進一步突破。系列試驗均驗證了在不同拓撲分布式智算中心無損網絡技術白皮書27中分布式智算中心無損網絡方案的有效性和穩定性。此外,模擬了多種試驗中可能出現的故障情況,以驗證方案在面對線路路障、服務器端口故障及其他異常情況時的韌性和恢復能力。模型選取方面,在百卡組網規模下開展了 LLAMA2-7B、LLAMA2-13B、LLAMA2-34B、中國電信啟明網絡大模型-14B、Bloom-7B、Baichuan2-
59、13B 四類百億參數模型的分布訓練驗證;在千卡組網規模下進行了 Qwen-70B、GPT-175B等模型的驗證測試。通過多模型驗證可以確保智算拉遠方案能適應不同硬件和軟件配置,提高方案的通用性和適應性。圖 4-1 京津冀智算機房 80km/120km 繞行拉遠驗證組網圖 4-2 武清、瀛海、永豐三地 IDC 機房拉遠驗證組網分布式智算中心無損網絡技術白皮書28圖 4-3 京津冀智算機房千卡 120km 繞行拉遠驗證組網4.3試驗結論試驗結論項目組利用分布式智算中心無損網絡方案整合 DC 機房資源,在全球首次解決了百公里長距跨機房大模型訓練難題。訓練效率方面,在不同組網拓撲下不同模型跨機房訓練均
60、可達同機房訓練性能的 95%以上,證明分布式智算中心無損網絡的可行性;網絡穩定性方面,分布式智算中心無損網絡可支持大模型一輪 5000 次迭代訓練任務,均完成超 12 小時、約 80w 條樣本數據的穩定性測試,具備支持大模型長期穩定訓練的能力。分布式智算中心無損網絡測試驗證及相關創新研究將助力多方小規模智算中心并聯成虛擬的大型智算中心節點,實現區域內智算中心協同計算模式,解決臨時性的大規模算力需求,推動端網算協同創新,解決供給與需求區域發展不平衡問題,促進京津冀戰略協同,快速推進智算中心建設,夯實新一代算力底座,為區域算力互聯網的建設打下堅實基礎。5總結和展望總結和展望面對新時代、新業態、新要
61、求,中國電信積極踐行“以網強算”的技術路線,打造面向智算業務的新型基礎設施,以高性能智算網絡作為提升集群算力性能的關鍵抓手,突破智能算力供給瓶頸。本白皮書從智算業務的典型需求和特征、分布式智算中心無損網絡方案、關鍵技術、典型實踐四個方面開展了相關研究。未來,隨著算力需求的持續增長,分布式智算中心無損網絡技術白皮書29分布式智算中心無損網絡將進一步依托國家項目“多模態智聯計算網絡技術研究與驗證”中的核心技術,在賦能智算基礎設施方面發揮更加重要的作用,為經濟社會發展注入新的動力。分布式智算中心無損網絡技術白皮書30附錄附錄 A:術語與縮略語:術語與縮略語英文縮寫英文縮寫英文全稱英文全稱中文全稱中文
62、全稱AIArtificial Intelligence人工智能DCNData Center Network數據中心網絡DNSDomain Name Service域名服務DWDMDense Wavelength DivisionMultiplexing密集波分復用ECMPEqual-Cost Multipath等價多路徑路由FLOPSFloating-point operations per second每秒浮點運算次數GPUGraphics Processing Unit圖形處理器HPNHigh-Performance Network高性能網絡IBInfiniBand“無限帶寬”技術IPIn
63、ternet Protocol網際互連協議LCOSLiquid Crystal On Silicon硅基液晶LLMLarge Language Model大語言模型NTPNetwork Time Protocol網絡時間協議RDMARemote Direct Memory Access遠程直接數據存取RoCERDMA over Converged Ethernet融合以太網承載RDMARSVPResource ReSerVation Protocol資源預留協議RTTRound-Trip Time往返時延TCPTransmission Control Protocol傳輸控制協議TPUTens
64、or Processing Unit張量處理器OCHOptical Channel光信道ODUOptical channel Data Unit光通道數據單元OSNROptical Signal-to-noise Ratio光信噪比OTNOptical Transmission Network光傳輸網WSONWavelength Switched Optical Network波長交換光網絡WSSWavelength Selective Switch波長選擇開關分布式智算中心無損網絡技術白皮書31附錄附錄 B:參考文獻:參考文獻1以 網 補 算,構 筑 智 算 時 代 新 底 座 EB/OL(
65、2024-5-50)2024-8-1.https:/.2Google.Gemini:A Family of Highly Capable Multimodal Models,2024.3Kun Qian,Yongqing Xi,Jiamin Cao et al.Alibaba HPN:A Data Center Networkfor Large Language Model Training,2024.4百度智能云.智算中心網絡架構白皮書R/OL(2023-6).5Microsoft.Empowering Azure Storage with RDMA,2023.分布式智算中心無損網絡技術白皮書1