《中國移動研究院:B400G以太網助力智算中心光互聯(2023)(19頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動研究院:B400G以太網助力智算中心光互聯(2023)(19頁).pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、B400G以太網助力智算中心光互聯程偉強中國移動研究院-基礎網絡技術研究所2算力成為數字經濟時代的核心競爭力AI大模型帶動算力成為數字經濟時代的核心競爭力。到2025年,我國算力規模將超過300 EFLOPS,智能算力占比達到35%;算力基礎設施將成為推動我國經濟轉型升級和培育新動能的重要力量2022年中國移動全球合作伙伴大會發布新一代智算中心網絡技術白皮書2023年5月2022年12月2023年8月2023年中國算力(基礎設施)大會發布中國移動NICC新型智算中心技術體系白皮書2023云網智聯大會發布面向AI大模型的智算中心網絡演進白皮書智算中心將成為支撐和引領數字經濟發展的關鍵信息基礎設施
2、,將有效促進AI產業化、產業AI化的進程國家發改委:全國一體化大數據中心協同創新體系算力樞紐實施方案2021年5月2022年7月工信部:加速推進高端芯片、新型數據中心等領域研發突破2022年1月國家發改委:我國將布局八大算力網絡國家樞紐節點 加快數字經濟發展2023年5月中央網信辦:以算力、賦能、產業發展互動 走出數字經濟特色化發展道路2023年10月工信部等六部門聯合印發算力基礎設施高質量發展行動計劃3單個流量:數量多、帶寬小、異步累積流量:抖動幅度較小,具有隨機性單個流量:數量少、帶寬大、同步累積流量:波峰、波谷效應明顯,具有周期性單個流量累積流量單個流量累積流量傳統DC流量模型智算中心大
3、模型(All-to-all)流量模型GPU停工等待其他GPU完成工作傳統DC與智算中心流量模型區別4面向大模型訓練,網絡成為AI算力瓶頸AI大模型以GPU集群分布式訓練為基礎,帶來大量節點間通信消耗,網絡成為AI算力“瓶頸”當前業界主流智算中心網絡技術被國外廠商壟斷,網絡芯片存在代際差距,網絡可能成為我國AI發展的“新卡點”集群有效算力GPU單卡算力*總卡數*線性加速比*有效運行時網絡可用性決定GPU集群穩定性2%的丟包就會使RDMA吞吐率下降為0網絡設備能力決定GPU集群組網規模芯片容量提升2倍,組網規模提高4倍網絡性能決定GPU集群算力加速比GPU集群性能 單GPU性能*N隨著GPU單卡算
4、力受限,以網強算成為提升大模型訓練效率的關鍵,探索以太網的新調度機制、新接口速率和新安全方案,提升智算中心網絡性能和整體算力水平5目錄以太網新調度機制GSE以太網新接口速率B400GE以太網新安全方案PHYSec6GSE技術體系-核心理念中國移動提出全調度以太網(GSE)技術架構,最大限度兼容以太網生態,創新基于報文容器(PKTC)的轉發及調度機制,構建無阻塞、高帶寬、低時延的新型智算中心網絡,形成標準開放的技術體系,助力AI產業發展從“局部”決策到“全局”調度從“流”分發到“報文”分發從盲發+被動控制到感知+主動控制將業務流拆分到不同“報文容器”轉發,提供逐“報文容器”負載均衡機制,提升帶寬
5、利用率從被動擁塞控制,到基于“授權請求和響應機制”的主動流控,最大限度避免網絡擁塞產生全局視野的轉發調度機制,實現集中式管理運維、分布式控制轉發,提高網絡可用性當前:逐流負載,鏈路利用率低、發生擁塞被動降速未來:逐報文容器轉發,鏈路負載均衡,全局調度,避免擁塞創新以太網轉發機制,實現三大核心機制轉變源leafSpineSpineSpine目的leaf213213213213213213擁塞擁塞21321321丟包丟包7報文容器以太報文報文容器1以太報文報文1報文2報文1長度報文2長度GSE HeaderGSE Header報文容器是區別于CELL轉發的一種核心轉發機制,該機制下以太網報文根據最
6、終設備或者設備出端口被邏輯分配并組裝成”邏輯等長”的虛擬報文容器,并以該”容器”為最小單元在交換網絡中傳輸源節點根據報文容器長度以及已經占用的字節數為到達該節點的報文分配相應的容器ID,并記錄其歸屬的報文容器編號及在該容器占用的字節數Packet基于確定長度的容器轉發提升多鏈路均衡性早期 鏈路速率低 長短包轉發差異性大切CellCell1Cell2Cell3報文容器將來鏈路速率高 總轉發帶寬增大 Cell相應增大組容器Packet1Packet28DGSQ+調度在輸入端口將發送到不同端口(或者優先級)的數據包虛擬成不同的隊列,并且彼此互不影響,解決HOL從Send-based到Receive-
7、based,避免網絡入向流量大于網絡容量,從源頭避免網絡擁塞GSE報文信令請求獲取信道資源INOUT無阻塞低時延 無損高帶寬vs逐流負載均衡 高時延 甚至 丟包容器負載均衡 長尾時延低,網絡利用率高低時延1000流量負載(%)報文時延非均勻到達模型下時延vs負載9負載均衡和重排序負載均衡方式 輪詢 隨機 基于擁塞感知每個轉發節點根據自身負載情況對PKTC進行負載均衡,且同PKTC內的報文轉發路徑相同,高精度負載均衡方式,消除網絡微突發,獲得轉發低延遲目的節點依照PKTC為單位進行容器間解亂序,同PKTC內報文嚴格保序容器間排序 大大降低排序壓力.GSFGSFGSPGSPGSP.容器1容器210
8、目錄以太網新調度機制GSE以太網新接口速率B400GE以太網新安全方案PHYSec11IEEE802.3 B400GE標準目標演進IEEE P802.3df&dj 800GE和1.6TE規范目標 以太速率 信號速率電通道50m MMF100m MMF 500m SMF2km SMF10km SMF40km SMFAUIBPCu800Gb/s100Gb/s800GAUI-8800GBASE-KR8800GBASE-CR88 pairs800GE-VR88 pairs800GE-SR88 pairs800GE-DR88 pairs800GE-DR8-2200Gb/s800GAUI-4800GBAS
9、E-KR4800GBASE-CR44 pairs800GE-DR44 pairs 800GE-DR4-2 4 800GE-FR44 800GBASE-LR4800Gb/s1 pair800GE-LR11 pair800GE-ER11.6Tb/s100Gb/s1.6TAUI-16200Gb/s1.6TAUI-81.6TBASE-KR81.6TBASE-CR81.6TBASE-DR81.6TBASE-DR8-2802.3df802.3dj802.3dj智算中心內光互聯智算中心間光互聯潛在繼續分化出子項目200G/lane 光+電BaselineD1.0D2.0D3.0800GE(4200G)1.6
10、TbE(8x200G)802.3dj2022202420232026+20252021D1.0D2.0D3.0100G/lane光+電800GE(8x100G)802.3df200G/lane電800G單波相干D1.0?/D2.0?800GE(1800G)1.6TE(2800G)?800GE(4200G)1.6TbE(8x200G)B400GE標準演進時間線12B400G以太網技術標準化進展 802.3df:單通道100Gb/s的800G以太網標準,目前已完成Task Force Review形成D3.1版本草案“IEEE P802.3df/D3.1,14 Nov.2023”,正在進行標準協會
11、(SA)范圍審查 802.3dj:單通道200Gb/s FEC采用低復雜度Hamming(128,120)內碼級聯RS(544,514)外碼;PMA邏輯層方案已確定,光層Baseline目前還未確定,仍處于技術討論階段,需要更長的時間完成方案收斂 802.3dj:面向10km和40km場景的單波800Gbps相干標準進展緩慢,800GE LR1已確定采用KP4+BCH的FEC方案,但O波動和C波段之爭逐漸白熱化;800G ER1采用相干已獲得業界共識,FEC和光層PMD方案尚未明確800Gbps以太網標準1.6Tbps以太網標準 802.3dj:1.6TE PCS/FEC方案已確定,電接口形態
12、包括16通道100Gbps(16AUI-16)和8通道200Gbps(1.6TAUI-8);1.6T 500m/2km PMD子層方案尚未明確,2km采用相干技術可行性更高 1.6Tbps LPO和CPO等技術已出現商用產品形態,在智算中心場景也將具有廣泛的應用潛力13推動800G 10km目標立項,確立相干技術路線中國移動積極參與并推動IEEE802.3df&dj工作組完成800G 10km目標立項,完成800G 10km相干技術路線確立,提交10余篇標準文稿需求文稿Application Requirement for Beyond 400GE from Telecom Operators
13、 Perspective 分析文稿提出B400GE需求,引領技術方向Towards consensus on a coherent based 800G 10/40 km specification800G 10km方案對比分析,凸顯相干方案優勢Consideration on 800Gb/s coherent solutions for 10km800G-LR1/ER1的GMP bypass方案分析標準文稿提出800G 10/40km發射和接收標準規范建議提出基于oFEC的800G 10km/40km規范建議提出800G-LR1/ER1與800ZR一致性規范建議標準文稿分析文稿Conside
14、rations on GMP bypass for 800G-LR1/ER1Update to oFEC-based single lambda baseline for 10km and 40km objectives標準文稿Alignment of 800GBASE-LR1 and 800GBASE-ER1with OIF800ZR Implementations-a baseline proposal14800GE(8100G)500m/2km高速接口測試本次測試800GE短距光模塊性能整體較為穩定,模塊功耗在15w左右和工作溫度在5060范圍仍有待優化空間;800GE光模塊與路由器設備
15、和測試儀適配性能良好,業界支持800GE設備廠家還較為單一測試拓撲:可插拔光模塊插入測試儀表進行環回測試測試內容:非成幀誤碼率、FEC功能、發射機頻率偏移、收發傳輸時延、通道時延偏差、固件功能等光模塊性能測試800GE光模塊性能測試800GE光模塊與路由器設備適配測試模塊類型A廠商B廠商500m500m2km500m500m非成幀誤碼率通道11.0e-096.5e-103.3e-091.1e-073.3e-06通道23.9e-101.6e-103.8e-082.3e-074.9e-06通道31.4e-109.6e-101.7e-084.3e-081.6e-06通道46.9e-118.4e-11
16、2.5e-084.9e-083.8e-06通道52.7e-092.4e-092.3e-084.8e-082.3e-06通道66.5e-106.0e-103.4e-086.1e-081.7e-06通道72.0e-084.5e-093.6e-084.6e-093.0e-07通道81.1e-101.0e-093.4e-086.9e-081.8e-06模塊時延傳輸時延 51ns52ns43ns92ns90ns時延抖動3ns 3ns 4ns 4ns3ns測試拓撲:路由器設備800G接口對接測試儀表進行互通測試測試內容:包括流量轉發功能、業務功能等設備能力測試注:802.3df規定的非成幀誤碼率BER 2
17、.4e415目錄以太網新調度機制GSE以太網新接口速率B400GE以太網新安全方案PHYSec16PHYSec:物理層加密,更低時延、更低開銷、協議透明199419952006NowL2物理層L3L4L5TimeTLS/DTLSMACSecPHYSecsoftwareSoftware+hardwareHardwareHardwareMACIPTCPMACIPMACMACCipher textCipher textCipher textCipher textRDMASecHardware2022MACUDPCipher textIPIPSec?智算中心基礎設施承載大量數據傳輸處理,安全訴求極高;
18、RDMASec、MACSec等安全方案在加解密帶寬開銷、時延、硬件支持等方面存在性能瓶頸,暴露的幀頭部信息仍存在安全漏洞PacketMACPCSPMAPMAPMDxAUIPHYSec光模塊加密接口芯片加密PacketMACPCSPMAPMAPMDxAUIPHYSecor探索新層次:將傳統密碼學思想應用到以太網物理層PHYSec,解決現有技術方案的安全漏洞與性能瓶頸,具有極低開銷、時延以及低功耗和成本等優勢17L1.5層PHYSec:基于“64B/66B碼塊”的PHY芯片實現MAC(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldi
19、stributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMAC(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMA光模塊SerdesPMDPMADencryptionSerdes光模塊Encryption技術優勢:安全功能硬化,高吞量 安全加密能力不占
20、用設備CPU資源,安全能力卸載 實現底層光通道不感知(OTN/SPN)的端到端數據加密加密后的64B/66B400GE400GE400GE400G OTN64B/66BGMPOTUOTUGMP64B/66BL1.5-PHYSec400GEL1.5-PHYSec18L1層PHYSec:基于“比特流”的光模塊實現MAC(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMA
21、C(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMAAM LockEncryption光模塊SerdesPMDPMAAM LockDencryptionSerdes光模塊技術優勢:安全功能可插拔、硬化,高吞量 無需升級設備硬件,即可具備安全加密能力 安全加密能力不占用主設備資源,安全能力卸載 實現端口-端口的鏈路級數據加解密AMAMAMAMVLane1VLane2VLane3VLane4400GEL1-PHYSecL1-PHYSec400GE19總結與展望 AI/ML帶來海量算力需求持續增長,新型智算中心網絡涉及技術領域多,國內外尚處在技術研究階段,創新機遇大,不確定性也大 GSE最大限度兼容以太網生態,凝聚產業力量,形成自主可控、標準開放的技術體系,成為產業共識 B400G高速接口標準和商用化進程相對穩定,須重點關注B400G相干技術實現復雜度,謹慎評估功耗成本等因素 以太網物理層高安全能力有待進一步增強,PHYSec將成為新的安全解決方案 業界共同推動B400G以太網技術成熟和商用,助力智算中心快速發展