1、面向面向新型新型智算中心智算中心的的以太以太網彈性通道網彈性通道(FlexLane)技術白皮書技術白皮書(2025 年)年)發布單位:中國移動通信有限公司研究院發布單位:中國移動通信有限公司研究院前言隨著以 ChatGPT、Deepseek 為代表的 AI 大模型崛起,算力需求呈指數級增長,全球正加速建設智算中心以應對這一挑戰。智算中心內部或智算中心間海量的數據交換,對網絡鏈路的可靠性提出了前所未有的要求。任何鏈路閃斷或中斷都可能導致 AI 訓練任務失敗,造成巨大的時間和資源浪費。然而,光模塊的成本與可靠性瓶頸以及大規模集群中鏈路數量的激增,使得已有技術難以滿足新型智算中心 AI 業務對可靠性
2、的需求。本白皮書面向新型智算中心逐漸以承載 AI 業務為主的演進訴求,提出FlexLane 鏈路高可靠技術構想。該技術基于高速接口多通道架構的現狀,打破原有固定組合,引入靈活多通道架構,通過降速運行實時有效的規避任何通道發生的故障,將鏈路可靠性提升萬倍以上(助力 AI 網絡互聯可靠性超越 5 個 9),保障 AI 訓練和推理業務不受影響。FlexLane 技術支持在現有設備上通過軟件升級快速部署,或升級硬件實現更優的性能,同時可支持主動降速,在鏈路輕載和空閑期間動態節能,為智算中心提供靈活、經濟、高效的可靠性保障。本白皮書旨在提出中國移動及產業合作伙伴對以太網鏈路高可靠 FlexLane技術的
3、愿景、架構設計和能力要求。希望能夠為產業在規劃設計智算中心網絡、網絡互聯高可靠相關技術、產品和解決方案時提供參考和指引。本白皮書由中國移動通信有限公司研究院中國移動通信有限公司研究院主編,中國信息通信研究院中國信息通信研究院、清華清華大學、北京郵電大學大學、北京郵電大學、華為技術有限公司、中興通訊有限公司、上海橙科微電華為技術有限公司、中興通訊有限公司、上海橙科微電子科技有限公司、新華三技術有限公司、銳捷網絡股份有限公司、蘇州盛科通子科技有限公司、新華三技術有限公司、銳捷網絡股份有限公司、蘇州盛科通信股份有限公司、朗美通通訊技術(深圳)有限公司、武漢光迅科技股份有限信股份有限公司、朗美通通訊技
4、術(深圳)有限公司、武漢光迅科技股份有限公司公司、思博倫通信科技思博倫通信科技(北京有限公司北京有限公司)、集益威半導體集益威半導體(上海上海)有限公司有限公司、成成都新易盛通信技術股份有限公司、索爾思光電、武漢華工正源光子技術有限公都新易盛通信技術股份有限公司、索爾思光電、武漢華工正源光子技術有限公司、上海云脈芯聯科技有限公司司、上海云脈芯聯科技有限公司聯合編撰。本白皮書不包含我國科技發展戰略、方針、政策、計劃等敏感信息。不包含涉密項目的背景、研制目標、路線和過程,敏感領域資源、數據,關鍵技術訣竅、參數和工藝信息。本白皮書的版權歸中國移動所有,未經授權,任何單位或個人不得復制或拷貝本建議之部
5、分或全部內容。目目錄錄1 背景與需求.12FlexLane 技術架構.62.1 技術目標.62.2 設計原則.62.2.1 兼容性原則.62.2.2 一致性原則.62.3 技術架構.63FlexLane 關鍵技術.83.1 故障隔離.83.1.1 軟件升級.93.1.2 硬件演進.103.1.3 技術效果.133.2 故障預防.143.3 動態節能.154 應用場景.164.1 智算中心.164.2 智算中心互聯.175 總結與展望.19縮略語列表.20參考文獻.21中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)11 1 背景與需求背景與需求近年來,人工智能
6、(AI)技術取得了突破性進展,特別是以 ChatGPT、Deepseek為代表的大語言模型(LLM)的興起,標志著 AI 進入了一個全新的發展階段。大模型通常擁有數千億甚至萬億的參數,中小模型通常也有十億參數以上,需要海量的算力進行訓練和推理。為滿足龐大的算力需求,智算中心作為 AI 發展的新型基礎設施底座,正加速在全球范圍內建設和部署。圖 1-1 傳統數據中心與新型智算中心流量模型對比傳統數據中心主要承載企業級應用,提供云服務,如 Web 應用、數據庫、存儲等。如圖 1-1 所示,這些應用的流量模式以南北向通訊為主,網絡的主要任務是保證客戶能夠及時可靠訪問服務器,以及服務器能夠快速可靠響應客
7、戶請求。用戶通過跳入云,每跳鏈路的可靠性為,則業務端到端可靠性為=1 1?(=2001,=3 時,6 102),單個服務器或鏈路的故障通常只會影響到部分客戶端,影響范圍相對有限。新型智算中心主要承載 AI 訓練與推理業務,部署大量服務器協同工作,流量模式與傳統數據中心不同,東西向流量特征明顯。在這種流量模式下,大量服務器共同承載 AI 任務并行計算,對網絡的可靠性提出了前所未有的挑戰。服務器之間邏輯連接的任何一條物理鏈路發生故障,都會導致數據同步失敗,任務中斷,造成大量時間和資源的浪費。如果承載 AI 任務的服務器之間共有條物理鏈路,每條鏈路的可靠性為,則 AI 訓練任務的可靠性為=1 1?1
8、FIT:Failure in Time of 109hours,在 109小時中發生故障的次數1。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)2 (=200,萬卡集群無收斂組網=15360 時,3 106),和傳統 DC 業務的可靠性比較,端到端的可靠性下降數千倍以上。根據 Meta LLama 3.1 萬卡集群公開的論文2,LLama 3.1 在為期 54 天的訓練期間共發生 466 次故障中斷,其中 GPU、網絡互聯和主機等故障占比靠前,其中因網絡設備和線纜問題造成網絡互聯故障共 35 次。光互聯鏈路在帶寬、延遲、傳輸距離等方面具備較大優勢,已在智算中
9、心得到廣泛部署,如圖 1-2 所示2。圖 1-2 智算中心互聯光鏈路類型主流高速接口 400G/200G 光模塊年失效率超 0.2%,千卡以上集群平均每年發生數十次光模塊故障事件。除了器件失效,設備側或配線架光纖端面臟污也會引發鏈路閃斷4,如圖 1-3 所示。2常見多?;騿文9饽K常為多通道架構,每通道含 CDR(時鐘數據恢復,Clock and Data Recovery),DSP(數據信號處理器,Digital Signal Processor)以及激光器等元器件。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)3圖 1-3 光模塊臟污遮擋鏈路發生中斷或閃
10、斷故障會對 AI 訓練和推理業務產生諸多影響5-8,主要體現在 AI 訓練的效率、穩定性和結果準確性,同時也威脅到 AI 推理的可用性、實時性和可靠性。根據業界當前情況,鏈路故障可能會導致小時級的業務中斷。IEEE802.3 標準以太網9面向接口性能最優設計,單一物理通道故障則整條高速鏈路失效。一個含個物理通道的標準高速接口故障的概率為:=1 1?。典型的單通道光模塊可靠性約為 1005001,則雙通道光模塊的標準接口(=2,=100)可靠性(1 小時內發生故障的概率)為:=2 100 1 109=2 107標準接口下的雙通道光模塊鏈路在一小時中發生故障的概率為:=122 1 2?2 =2 2
11、 107=4 107,中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)4圖 1-4 萬卡集群示例(10240GPU+15360 鏈路)如圖 1-4 所示,一個典型的萬卡集群無收斂組網,(GPU 總數為 10240,高速互聯鏈路總數 M 為 15360 條),組網中任一鏈路發生故障會導致網絡故障,每小時全網發生故障的概率為:=1 1?=15360 4 107=6.14 103根據當前常見大模型披露的訓練時間3,如表 1-1 所示,在一個萬卡集群內,使用標準接口進行大模型訓練,過程中發生鏈路故障的次數約為 222 次,無法滿足新型智算中心 AI 業務零中斷新需求。
12、表 1-1 使用標準接口進行 AI 大模型訓練期間發生鏈路故障次數接口類型_45(hour)_6標準接口1536010240約80%(典型值)334.48(Deepseek-R1)2.10839.80(LLama3.3 70B)5.163700.00(LLama3.1 405B)22.71有多種路徑可以實現 AI 業務零中斷。就提升光鏈路可靠性而言,可以在服務器與交換機、交換機與交換機之間廣泛部署 LAG 冗余技術,鏈路可靠性可提升千倍(光模塊年失效率 0.4%,光鏈路年失效率 0.8%,LAG 鏈路年失效率 0.0016%)。3DeepSeekAI 官方披露是 278.8 萬個 H800 小
13、時,LLama3.3 70B 的訓練時間是 700 萬個 H100 小時,LLama 3.1 405B 是訓練了 3084 萬個 H100 小時10。4_:AI 集群網絡并行計算線性度。5:萬卡 AI 集群網絡完成一次大模型訓練的時間,=_。6_:萬卡 AI 集群完成一次大模型訓練過程中發生鏈路故障的次數,_=_ 中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)5就高速光鏈路自身而言,單通道失效(器件失效、臟污)占比大,單通道失效阻塞整條鏈路,資源嚴重浪費。業界亟需探索新的可靠機制,支持抗單通道或少數通道故障,保障 AI 任務繼續運行。針對上述新型智算中心高可
14、靠承載 AI 業務的訴求,中國移動聯合業界合作伙伴提出彈性容錯 FlexLane 技術方案,在物理層引入靈活多通道架構,打破原有高速接口與物理通道的固定組合,在單通道或少數通道故障情況下,通過隔離任何故障通道降速工作,可有效提升鏈路可靠性百萬倍以上,確保 AI 任務不因網絡互聯故障而中斷。本白皮書的發布有望推動 FlexLane 技術的產業共識、技術成熟與商用落地,支撐智算中心的 AI 訓練和推理業務穩定運行與發展。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)62FlexLane 技術技術架構架構2.12.1 技術技術目標目標FlexLane 物理層方案更
15、便于實現高可靠、低時延、低開銷的保障能力,預期可避免網絡互聯故障,保障 AI 任務零中斷,滿足智算中心場景對網絡的要求。2.22.2 設計原則設計原則2 2.2.1.2.1 兼容性原則兼容性原則FlexLane 技術可以在網絡的不同層級位置實現。在物理層 PHY 單元實現時,要求兼容已有標準(例如 IEEE802.3),不影響標準已規范的功能與協議。在上層軟件實現時,要求兼容通用的網絡協議棧,并保持與現有應用的兼容性。FlexLane技術與上層可靠性方案,例如 RDMA 重傳、LAG 等可同時部署。2 2.2.2.2.2 一致性原則一致性原則面 向 標 準 規 范,例 如IEEE802.3規
16、范 的 高 速 以 太 網100GE/200GE/400GE/800GE/1.6TE 接口,提供一套 FlexLane 技術架構和協議。同一層次方案,要求協議一致,滿足互聯互通要求。2.32.3 技術架構技術架構本 白 皮 書 提 出 的 高 可 靠 方 案 部 署 層 級 架 構 如 圖 2-1(a)所 示,以200GE/400GE/800GE 為例說明,技術架構主要包括三個關鍵子系統:檢測功能、切換機制和交互協議,如圖 2-1(b)所示:中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)7圖 2-1 FlexLane 技術架構與部署層級交互協議:鏈路兩端通過
17、協議報文向對端通告故障隔離、故障恢復等操作。切換機制:管理物理通道的狀態(開啟/關閉)。當檢測到故障時,支持隔離故障通道;當檢測到故障通道恢復正常后,支持將故障通道恢復為正常工作通道。支持主動開啟或關閉部分通道實施故障預防策略(例如上層應用提前診斷出某通道即將發生故障),或動態節能。檢測功能:實時檢測各通道狀態。支持被動查詢或主動上報物理通道的狀態,含發光功率、收光功率、溫度、電流、電壓等信息。FlexLane 的協商協議、切換機制以及檢測功能都可以與更上層的管控系統進行交互,從而對通道的狀態進行監控,如查詢通道當前信號質量、通道當前狀態(正常工作/故障/恢復中)以及當前流量特征等通道管控操作
18、。應用接與控制平臺也可以主動對通道進行管理與控制,如下發指令關閉/開啟某通道。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)83FlexLane 關鍵關鍵技術技術FlexLane 的整體流程包含故障通道的檢測、故障通道隔離、故障通道恢復以及主動開啟或關閉通道,如圖 3-1 所示。圖 3-1 FlexLane 整體技術流程故障檢測:本端支持通道粒度的告警檢測。高速接口的任一通道發生故障時,立即觸發故障隔離流程。故障隔離:本端向遠端發送故障信息協議信令,通知遠端隔離發送側對應故障通道。同時啟動本地故障通道隔離流程,停止從故障通道接收信息。遠端收到故障信息協議信令
19、,停止往故障通道發送信息。故障隔離完成,接口降速運行。故障恢復:通道故障消失后,接收側向遠端發送故障消失的協議信令。本地和遠端啟動恢復流程,被隔離通道重新加入鏈路工作。此外,還需支持主動降速/升速模式,由管理或控制平面觸發 FlexLane 降速,主要用于如下場景:應用層檢測到某通道的信號正在劣化,提前下發降速指令規避故障發生;應用層預測到未來高速鏈路流量將會輕載甚至空閑,手工下發降速指令,關閉部分通道耗能元器件動態節能。3.13.1 故障隔離故障隔離針對現網情況,可考慮 FlexLane 的靈活部署策略,如圖 3-2 所示:近期通過軟件升級支持 FlexLane,可快速部署;面向未來,選擇在
20、高速接口硬件實現,可中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)9獲得最佳性能。圖 3-2 FlexLane 靈活部署策略3 3.1.1.1.1 軟件升級軟件升級FlexLane 軟件方案升級網絡設備和光模塊軟件,支持通道狀態查詢和上報,在不更換硬件的情況下實現故障通道隔離。故障檢測和通道隔離由上層軟件發起,如圖 3-3(a)所示,以四通道 400GE 高速接口為例,T1 時刻,Z 端發送側光模塊發生閃斷或中斷故障;T2 時刻,A 端上層軟件檢測到鏈路故障,通過接口查詢 PHY 芯片或者光模塊后獲取故障通道信息;T3 時刻,A 端上層軟件通過軟件協議通告故
21、障信息;T4 時刻,Z 端上層軟件根據故障信息,發送握手信息約定隔離完成的邊界,并在握手信息發送完成后將發送側接口重配置降速(例如降速為 200GE 運行),如圖 3-5(b)所示;T5 時刻,A 端上層軟件在握手信息接收完成后將接收側接口重配置降速。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)10圖 3-3 通道隔離軟件方案 400GE 降速為 200GE 流程示意當網絡設備上層軟件檢測到鏈路恢復,支持對端口進行重配置升速,恢復帶寬以獲得更佳的計算效率。3 3.1.2.1.2 硬件演進硬件演進FlexLane 硬件演進方案升級 MAC/PHY 接口,新增
22、物理層故障檢測能力。硬件方案的故障檢測、通道隔離和通道恢復流程由物理層 FlexLane 協議發起。(1)故障檢測通道故障類型可分為單通道故障(單向單通道故障和雙向單通道故障)、多通道復雜故障,其中單向單通道故障發生的頻率最高,如圖 3-4 所示。圖 3-4 單向單通道故障(典型故障)針對鏈路信號丟失故障(SF,Signal Failure),采用基于通道 AM 失鎖檢測方中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)11案(參考 802.3 CL 119.2.6.3,2022),如圖 3-5 所示,當檢測到某個通道連續個 AM 周期丟失鎖定(N 缺省 5)
23、,判斷該通道失效,進而引發鏈路 SF。圖 3-5 SF 故障檢測機制針對鏈路信號質量差導致的故障(SD,Signal Degrade),采用符號錯誤率(SER,Symbol Error Rate)統計方案(參考 802.3 CL 119.2.5.3,2022);或如圖 3-6 所示,統計各通道的 SER(缺省窗口 8192 個 FEC CW),當一個通道 SER 超過閾值時(缺省 5560 個 Symbol),認為該通道發生 SD 故障。圖 3-6 SD 故障檢測機制針對鏈路信號質量監測,可以基于光模塊狀態參數,例如溫度、電壓、電流、接收光功率、發送光功率,結合通道 SER 做統一預測和決策,
24、根據決策結果可以主動發起對存在風險的通道提前隔離。(2)故障隔離FlexLane 支持在檢測到故障發生后對故障通道進行隔離,避免故障導致 AI 業務中斷。故障隔離機制如圖 3-7 所示,以四通道 400GE 高速接口為例,T1 時刻,Z 端發送側的某一光模塊發生閃斷或中斷故障;T2 時刻,A 端檢測到 SF 或 SD 故障,立即隔離故障通道,并停止在所有通道上接收業務數據流;T3 時刻,A 端發送協議報文通告故障信息。T4 時刻,Z 端收到故障信息并對隔離故障通道,停止在所有通道上發送業務數據流。T5 時刻,Z 端發送握手信息約定故障隔離完成后業務恢復的切換邊界,并在握手信息發送完成后重新在正
25、常工作的通道上發送業務數據流。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)12T6 時刻,A 端在握手信息接收完畢后重新在正常的通道上接收業務數據流。圖 3-7 通道隔離硬件方案流程示意圖FlexLane 支持在通道發生劣化但未故障時進行主動降速,避免故障發生。當接收到上層應用(包括管理面和控制面)主動隔離某通道降速運行的命令,實施流程如圖 3-8 所示,以四通道 400GE 高速接口為例,T1 時刻,當 A 端的上層軟件檢測到某通道未來存在故障風險,決定對該通道實施主動隔離,執行降速操作,向 Z 端發送協議報文,通告關閉對應通道;T2 時刻,Z 端的上層
26、軟件收到通告報文,向 A 端發送握手信息約定主動關閉對應通道的切換邊界;T3 時刻,Z 端發送握手信息完成后,關閉對應通道,停止在該通道上分發數據流;T4 時刻,A 端接收握手信息完成后,關閉對應通道,停止在該通道上接收數據流。圖 3-8 主動升速/降速方案流程示意圖主動降速機制同時支持鏈路輕載或空載時,主動關閉部分通道,實施動態節能;當流量即將滿載或重載時,再全速運行。(3)故障恢復FlexLane 支持將故障消失的通道重新加入高速接口,恢復帶寬,獲取更高的運行效率。通道恢復的關鍵技術在于如何檢測隔離后通道的狀態,以及如何保證中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白
27、皮書(2025)13無損增加通道,以圖 3-9 為例說明,T1 時刻,Z 端在完成通道隔離后,持續向 A 端的故障通道上發送協議報文(例如發送 IDLE 碼塊);T2 時刻,故障消失,A 端可以接收到正常的協議報文(IDLE 碼塊),探測到通道的故障已消失;T3 時刻,A 端發送協議報文通告故障消失信息;T4 時刻,Z 端收到故障通道恢復的協議報文;T5 時刻,Z 端發送握手信息約定故障通道恢復成工作狀態的切換邊界(例如AM),并在握手信息發送完成后重新在正常工作的通道上發送業務數據流。T6 時刻,A 端在握手信息接收完成后重新在正常的通道上接收業務數據流。圖 3-9 通道恢復硬件方案流程示意
28、圖3 3.1.3.1.3 技術效果技術效果FlexLane 接口支持隔離任意故障通道降速運行,只有當接口中的所有通道都故障時,接口才會失效,一個含個通道的 FlexLane 接口故障失效的概率為:=1?典型的單通道光模塊可靠性約為 100500FIT,則雙通道光模塊的FlexLane 接口(=2,=100)可靠性(1 小時內發生故障的概率)為:=2=100 1 1092=1 1014FlexLane 接口下的雙通道光模塊鏈路在一小時中發生故障的概率為:=122 1 2?2 中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)14=2 1 1014=2 1014,如
29、圖 2-2 所示,一個典型的萬卡集群無收斂組網,(GPU 總數為 10240,高速互聯鏈路總數 M 為 15360 條),使用 FlexLane 接口,每小時全網發生故障的概率為:=1 1?=15360 2 1014=3.07 1010使用 FlexLane 或標準以太接口的集群網絡,在一小時內發生鏈路故障的概率如表 3-1 所示,使用 FlexLane 接口的集群網絡在一小內發生鏈路故障的概率比使用標準接口的情況下低 7 個數量級。表 3-1 標準接口與 FlexLane 接口鏈路可靠性接口類型標準接口15360100FIT2.00E-074.00E-076.14E-03FlexLane接口
30、1.00E-142.00E-143.07E-10根據當前常見大模型披露的訓練時間,如表 3-2 所示,在一個萬卡集群內,使用 FlexLane 接口進行大模型訓練,過程中發生鏈路故障的次數比使用標準小 7個數量級,AI 網絡光互聯部分的可靠性可達 6 個 9。表 3-2 使用標準接口和 FlexLane 接口進行 AI 大模型訓練期間發生鏈路故障次數對比接口類型_標準接口1536010240約80%(典型值)334.48(Deepseek)2.10839.80(LLama3.3 70B)5.163700.00(LLama3.1 405B)22.71FlexLane接口334.48(Deepse
31、ek)1.03E-07839.80(LLama3.3 70B)2.58E-073700.00(LLama3.1 405B)1.14E-063 3.2.2 故障預防故障預防FlexLane 支持在故障發生前關閉劣化通道,避免 AI 任務因故障發生中斷,實中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)15現無損的數據傳輸。當某通道信號逐漸劣化(如在一個時間窗內,錯誤符號率SER 超過特定閾值)但未觸發 SD 故障時,FlexLane 可以主動上報,并根據控制器或網管平面決策實施預防策略(例如重啟、重訓練等),避免 SD 故障發生。3 3.3.3 動態節能動態節能
32、FlexLane 的主動降速升速機制支持根據信道質量和流量變化,關閉或開啟接口中的通道。結合目前業界的商用部署情況,高速接口(MAC/PHY 和 SerDes)普遍占交換機主芯片能耗約 50%,當鏈路處于低流量場景時,可通過關閉部分通道的耗能元件(分布于 MAC/PHY、SerDes 和光模塊)降低能耗。新型智算中心場景下,AI 大模型訓練過程中的流量模型具有方波性,如圖3-10 所示,某 GPT-3 組網,GPU 之間網絡利用率約 5%,交換機之前網絡利用率僅 1%。AI 集群網絡在等待計算期間產生網絡互聯“空跑”能耗。圖 3-10 AI 大模型訓練網絡流量特征示意以支持四通道的 FlexL
33、ane 接口為例,PP 并行,在 GPU 服務器計算期間,互聯鏈路空閑,關閉三個通道保留一通道運行,接口能耗理論上7降低35.42.08+35.434=70.9%,主芯片能耗理論上可降低 50%70.9%=35.5%;DP 并行,在二層網絡設備互聯空閑期間,每鏈路關閉三個通道,接口能耗理論上降低2980029800+196.934=74.5%,主芯片能耗理論上可降低 50%74.5%=37.3%。7實際節省的能耗比例與器件能力及實施策略有關。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)164 4 應用場景應用場景FlexLane 技術可廣泛應用于移動承載、
34、園區、智算中心以及中心間互聯各種組網場景。對于移動承載等場景,連通性對網絡穩定運行影響大,實施 FlexLane 技術,可徹底規避由于通道相關的器件引發的連通性故障,一條含個通道的鏈路,使用 FlexLane 接口,可靠性由 提升至。對于智算中心或智算中心間互聯等場景,帶寬損失對計算任務影響較大,考慮鏈路帶寬損失,一條含個通道的高速鏈路僅支持降一通道的 FlexLane 策略(帶寬僅損失 1/N),端口的可靠性為,=1?2 2可靠性由 提升至(1)2 24 4.1.1 智算中心智算中心智算中心內服務器與網絡設備、網絡設備與網絡設備高速互聯,重點承載 AI推理與訓練任務,對延遲和帶寬要求高。AI
35、 任務普遍需多臺服務器并行計算,計算期間需頻繁交換大量梯度數據和模型參數,網絡閃斷或中斷會影響計算效率。服務器與網絡設備、網絡設備與網絡設備之間普遍部署短距高速光模塊互聯(通道),為了盡量不損失帶寬,每鏈路只支持降一條通道策略(帶寬降低 1/),如圖 4-1 所示,以典型 400G 光模塊(4 條 100G 通道)100m 多?;ヂ撴溌窞槔?,一個方向發生單通道故障,該方向降速為 300G,另外一個方向仍然維持400G 運行。當=4,=100,1 小時內發生故障的概率由=4 100 109=4 107降 低 至 2 2=6(100 109)2=6 1014。中國移動面向新型智算中心的以太網彈性通
36、道(FlexLane)技術白皮書(2025)17圖 4-1 智算中心內部互聯鏈路4.24.2 智算中心互聯智算中心互聯智算中心間出口網絡設備之間部署高速直檢光模塊互聯(通道)鏈路,如圖 4-2 所示。支持 FlexLane 技術后,互聯鏈路的任一通道的關鍵器件故障,都不影響連通性,如果只支持降一通道,則對帶寬影響也較??;如果支持降到一通道運行,則可靠性將大幅提升:以典型 400GE(4 條 100G 通道)10km 單?;ヂ撴溌窞槔?,支持三條通道故障隔離后,1 小時內發生故障的概率由 =4 100 109=4 107降低至4=(100 109)4=1 1028。如此,部署 1012條 400G
37、E 鏈路的超大網絡,宇宙年內不會發生因通道器件(LD、PD、TIA 和 Driver 等)故障而丟失連通性。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)18圖 4-2 智算中心間高速直檢互聯鏈路智算中心間出口網絡設備之間部署高速相干光模塊互聯(主機側通道,線路側單通道單纖)鏈路,如圖 4-3 所示的 400G ZR+示例,線路側單通道單纖架構無短距可靠性降倍問題(=),其次相干鏈路投資大,相干光模塊采用高品質器件以及高等級封裝,關鍵器件失效概率和灰塵遮擋概率??;主機側 4 通道,相比高速直檢鏈路,主機側電接口及接插件故障在相干鏈路故障總占比較大。FlexL
38、ane 技術可提升鏈路在主機側接口的可靠性,任一 SerDes 故障(例如接插件異常),FlexLane 可隔離故障并維持鏈路繼續運行。圖 4-3 智算中心間高速相干互聯鏈路中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)195 5 總結與展望總結與展望隨著 AI 大模型興起,智算中心成為全球算力基礎設施建設焦點。AI 業務對網絡鏈路可靠性要求極高,網絡互聯故障將導致任務中斷。本白皮書提出的FlexLane 技術,引入靈活多通道架構,將鏈路可靠性提升萬倍以上(助力 AI 網絡互聯可靠性超越 5 個 9),確保 AI 任務不因網絡互聯故障而中斷,大幅度提升 AI
39、基礎設施可靠性。FlexLane 聚焦現有鏈路挖潛,無需更換高品質光器件,具備低成本優勢,支持現有設備軟件升級部署,或新設備硬件集成,為互聯鏈路提供靈活、經濟和高效的可靠性保障,預計在智算中心內部及間互聯場景將獲得廣泛部署。FlexLane 技術與鏈路級重傳(LLR)技術結合,可實現高速互聯故障無損;鏈路降速信息實時上報至管理或控制平面,可實現全網調優。展望未來,FlexLane將持續演進,引導未來高速接口產業走向接口性能最優與可靠性并重,為多通道高速接口掃清障礙,助力智算中心網絡互聯邁向更大規模領域。FlexLane 主動降速機制,根據通道的信號質量主動隔離有風險通道,提前規避故障的發生;可
40、以根據流量變化,動態關閉部分通道,在網絡輕載或空閑時降低能耗,節能減排。FlexLane 是極佳的提升智算中心可靠性的低成本解決方案,為未來 1.6TE 及更大帶寬應用保駕護航,同時兼顧動態節能特性,有望與業界盡快達成共識,廣泛部署。中國移動面向新型智算中心的以太網彈性通道(FlexLane)技術白皮書(2025)20縮略語列表縮略語列表縮略語英文全名中文解釋AIArtificial Intelligence人工智能AMAlignment Marker對齊操作碼塊CDRClock and Data Recovery時鐘數據恢復DCData Center數據中心DSPDigital Signal
41、 Processor數據信號處理器FECForward Error Correction前向糾錯碼FITFailure in time of 109 hours十億小時發生錯誤次數GPUGraphic Processing Unit圖形處理器HBMHigh Bandwidth Memory高帶寬內存LAGLink Aggregation Group鏈路聚合LDLaser diode激光二極管LLMLarge Language Model大語言模型LLRLink Level Retransmission鏈路級重傳MACMedia Access Control Layer介質訪問控制層PCSPhy
42、sical Coding Sublayer物理編碼子層PDPhotodiode光電二極管PHYPhysical物理層PMAPhysical Medium Attachment物理媒介適配層RDMARemote direct memory access遠程直接內存訪問SDSignal Degrade信號劣化故障SERSymbol Error Rate符號錯誤率SerDesSerializer/Deserializer串行器/解串器SFSignal Failure信號丟失故障TIATrans-impedance amplifier跨阻放大器中國移動面向新型智算中心的以太網彈性通道(FlexLane
43、)技術白皮書(2025)21參考文獻參考文獻1 Texas Instruments.了解符合 IEC 62380 和 SN 29500 的功能安全時基故障基本 故障率估算.(2020).https:/ AI Meta.The Llama 3 Herd of Models.(2024).https:/ 中國移動.中國移動 NICC 新型智算中心技術體系白皮書.(2023)4 騰訊云.光纖端面驗證.(2020).https:/ Huawei.Atlas 800T A2 訓練服務器 維護與服務指南 15.(2024)6 OPT:Open Pre-trained Transformer Languag
44、e Models.(2022).https:/arxiv.org/abs/2205.010687 GPT-4煉丹指南:MoE、參數量、訓練成本和推理的秘密.(2023)8 Ali cloud.大模型訓練穩定性思考和實踐.(2024)9 IEEE.IEEE Standard for Ethernet.(2022).https:/www.ieee802.org/3/10 AI 大模型學習.20 條關于 DeepSeek 的 FAQ 解釋 DeepSeek 發布了什么樣的模型?為什么大家如此關注這些發布的模型?他們真的繞過 CUDA 限制,打破了 Nvidia 的護城河了嗎?.(2025).https:/ 中國移動.全調度以太網技術架構(GSE)白皮書.(2023)