《中國移動研究院:大模型時代智算網絡性能評測挑戰(18頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動研究院:大模型時代智算網絡性能評測挑戰(18頁).pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型時代,智算網絡性能評測挑戰中國移動研究院 2024.03 2目錄01智算中心網絡技術概況03智算網絡技術評測面臨的挑戰02全調度以太網技術創新3隨著算力需求的快速增長,AI基礎設施建設不斷布局,算與網成為AI算力重要基礎設施的兩大核心智算中心是以GPU芯片為核心的計算基礎設施和以高速以太網交換芯片為核心的網絡基礎設施的綜合體,智能算力需求激增推動計算與網絡基礎設施建設不斷布局算力需求激增,GPU是重中之重AI芯片市場規模不斷擴大,較2022年,2026年AI芯片規模提升4倍GPU技術快速發展,Nvidia即將推出H200,H200的算力是H100的2倍左右AI基礎設施GPU芯片為核心的算
2、力基礎以太網交換芯片為核心的網絡基礎GPU市場規模提升,對網絡設備需求激增,交換芯片的更新換代周期縮短至1.5年來源:Frost&Sullivan,中商產業研究院.來源:中商產業研究院,安信證券研究中心中國移動NICC技術架構基礎設施智算平臺ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeed存儲計算CPUGPU液冷高效供電機房配套冷卻水系統應用使能.跨架構編譯器算力抽象運行時算力原生裸金屬實例虛擬機實例容器實例 高速互聯計算總線內存池融合存儲全局統一存儲Hypervisor+AI開發框架網絡交換機高速以太網DPU注:New Intellige
3、nt Computing Center(NICC),新型智算中心 算和網是新型智算中心關鍵基礎設施算和網基礎設施倍受關注4網絡成為AI算力瓶頸,以網強算對我國更加重要AI大模型以算力集群分布式訓練為基礎,帶來大量節點間通信消耗,組網規模、網絡性能和可靠性決定集群有效算力,網絡成為AI算力“瓶頸”,以網強算成為提升大模型訓練效率的關鍵集群有效算力GPU單卡算力*總卡數*線性加速比*有效運行時網絡可靠性決定GPU集群有效運行時間2%的丟包就會使RDMA吞吐率下降為0網絡芯片容量決定GPU集群組網規模芯片容量提升2倍,組網規模提高4倍網絡芯片性能決定GPU集群算力加速比GPU集群性能 單GPU性能*
4、N5智算中心網絡用于連接CPU、GPU、內存等池化異構算力資源,貫穿數據計算、存儲全流程,網絡性能增強對提升智算中心整體算力水平具有關鍵意義;與通用云計算網絡不同,AI參數面網絡要求極高,是業界關注焦點智算中心網絡概況面向任務場景,以算力資源為池化對象網絡提供CPU、GPU、存儲之間高速連接面向業務場景,以服務器/VM為池化對象網絡提供VM/服務器之間連接通算中心As Is Data Center智算中心To Be Cluster Computing業務面管理面參數面存儲面智算中心網絡數據中心網絡IPMIIPMIIPMIIPMI數據面業務面IPMIIPMIIPMIIPMI管理面存儲面61243
5、Ring allreduce12431+21+23+43+41+2+3+41+2+3+41+2+3+41+2+3+4log?step1step2HD allreduceRing allreduceAllreduce:可以通過算法轉化為對分通信通信數據量Double,無多打一01237456012374560123745601237456特征:點到點通信,對分流量,無多打一 網絡同軌通信ALL Reduce:在主節點上進行Reduce(如sum、min)操作,通過Garther分發給所有節點,所有節點得到相同數據,一個典型的32卡 HD allreduce過程:Step1-3:通過總線完成機內8
6、卡通信Step4-5:通過網絡完成4臺服務器之間的通信AI訓練依賴典型集合通信原語7通用算力以CPU芯片為主,業務種類多流量小,業務間相互獨立;智能算力以GPU、Al芯片等人工智能芯片為主,通信關系固定,流數量少流量大,分布式訓練帶來大量節點的同步突發,木桶效應明顯單個流量:數量多、帶寬小、突發異步累積流量:抖動幅度較小,具有隨機性單個流量:數量少、帶寬大、突發同步累積流量:波峰、波谷效應明顯,具有周期性單個流量累積流量單個流量累積流量通算中心流量模型智算中心大模型(All-to-all)流量模型GPU停工等待其他GPU完成工作通算中心與智算中心流量模型差異性8通算中心與智算中心網絡差異性智算
7、中心組網方案端口速率方面:服務器端口10GE/25GE并存,匯聚層從40GE向100GE演進服務器網卡數量:一機雙卡設備關系:交換機設備之間部署MC-LAG組網形態:Leaf為盒式設備,Spine多為框式設備通算中心組網方案Spine交換機Leaf交換機服務器端口速率方面:服務器端口200GE/400GE,匯聚層400GE/800GE服務器網卡數量:一機八卡設備關系:交換機設備之間獨立組網形態:Leaf為盒式設備,Spine多為盒式設備業界主流通算中心與智算中心均采用spine-leaf架構,但兩者端口速率、組網方式、網絡協議均存在差異性9目錄01智算中心網絡技術概況03智算網絡技術評測面臨的
8、挑戰02全調度以太網技術創新10有效通信帶寬網卡/交換機組網物理帶寬任務同步產生“多打一”流量,擁塞導致時延、抖動增加 問題:傳統以太網源端發流不關注網絡情況及目的端接受能力,直接向網絡“推”流,產生多打一流量,導致網絡產生擁塞或丟包,導致GPU空閑,算力損失 問題:傳統流級負載均衡極易造成多個流哈希到同一條鏈路,造成部分鏈路擁塞,部分空閑,網絡利用率低,無法應對突發的網絡流量現有以太網協議基于流的負載分擔及擁塞控制機制,在AI模型訓練場景存在天然缺陷,導致網絡有效帶寬和時延受限In-cast流量問題一:基于流的負載均衡存在哈希極化問題問題二:被動擁塞控制導致GPU閑置606060100100
9、switchswitch當前智算中心網絡技術問題和挑戰 InfiniBand和RoCE存在各自問題,基于新型以太網構建開放、標準的生態,成為智算中心網絡技術演進方向11GSE鏈路層三大核心技術從“局部”決策到“全局”調度從“流”分發到“報文”分發從盲發+被動控制到感知+主動控制將業務流拆分到不同“報文容器”轉發,提供逐“報文容器”負載均衡機制,提升帶寬利用率從被動擁塞控制,到基于“授權請求和響應機制”的主動流控,最大限度避免網絡擁塞產生基于算網協同的全局視野轉發調度機制,實現集中式管理運維、分布式控制轉發當前:逐流負載,鏈路利用率低、發生擁塞被動降速未來:逐報文容器轉發,鏈路負載均衡,全局調度
10、,避免擁塞源leafSpineSpineSpine目的leaf213213213213213213擁塞21321321丟包GSE創新以太網轉發機制,基于三大核心機制轉變,實現高精度負載均衡、網絡層原生無損及低延遲12全調度以太網(GSE)技術體系框架部署自動化測試驗收自動化變更自動化運維自動化物理層高速光接口光交換低延遲FECPhySec鏈路層報文分發和重組機制調度機制鏈路級安全及容錯機制故障快速檢測網絡層新型組網拓撲新型組播/任播協議新型負載均衡機制傳輸層高可擴展的傳輸隊列/連接管理新型傳輸服務靈活報文/事務交付序設計高效可靠性機制網絡可視化 管 理 與 運 維 體 系GSE技術體系最大限度
11、兼容以太網生態,從四層(物理層、鏈路層、網絡層、傳輸層)+一體(管理和運維體系)等層級優化和增強,GSE體系架構最大限度兼容以太網生態,創新基于報文容器(PKTC)的轉發及調度機制,構建無阻塞、高帶寬、低時延的新型智算中心網絡,形成標準開放的技術體系,助力AI產業發展選擇性重傳亂序重排擁塞/流量控制擁塞算法擁塞檢測擁塞通告13全調度以太網(GSE)部署場景GSE協議可根據網絡設備和網卡能力,將方案各組件功能在網絡組件中重新分工,支持多種組網場景,為后續網絡建設和設備選型提供靈活的方案選擇場景一:僅網側運行GSE,網卡不感知場景二:部分功能下沉網卡,實現端網協同GSFGSFGSPLeaf網卡網卡
12、網卡計算卡計算卡計算卡GSP網卡網卡網卡計算卡計算卡計算卡SpineGSFGSFGSPLeaf網卡網卡網卡計算卡計算卡計算卡GSFGSPGSPGSP計算卡計算卡計算卡Spine網卡GSP和GSF角色均由網絡設備擔任,執行GSE頭解封裝、多路徑分發、端到端授權應答及報文排序傳統RoCE網卡,對網卡無額外要求適用于華為昇騰GPU生態系統源GSP、GSF由網絡設備擔任,執行、多路徑分發等功能網卡承擔部分GSP角色,負責GSE頭解封裝、授權應答和報文排序適用于英偉達及其他國產GPU生態系統14GSE部署優勢,更好匹配國產芯片能力采用逐包分發技術后,對leaf上行帶寬需求降低,同等芯片容量下,leaf上
13、行口的端口速率越小,組網規模越大,負載分擔鏈路更加散列,包均衡能力更優,更適配國產芯片大規模組網需求21316112288.AI服務器64218.AI服務器1218.AI服務器64218.AI服務器1218.group1group4.Spine(32*400G)Leaf(64*100G+16*400G)訓練網口1*100G1*400G21364112288.AI服務器64218.AI服務器1218.AI服務器64218.AI服務器1218.group1group16.Spine(128*100G)Leaf(128*100G)訓練網口1*100GLeaf上行400G組網情況Leaf上行100G組
14、網情況 同等芯片容量下,leaf上行端口速率為100G的組網規模較400G提升4倍,包均衡能力提升4倍組網規模:256臺GPU服務器,2K張GPU卡包均衡能力:每Leaf上行有16條負載分擔鏈路組網規模:1024臺GPU服務器,8K張GPU卡包均衡能力:每Leaf上行有64條負載分擔鏈路以Leaf、Spine交換容量為12.8T為例:15全調度以太網(GSE)推進計劃進展概況中國移動攜手中國信通院,聯合國內外三十余家主流互聯網,設備商、芯片商、高校院所聯合發起GSE推進計劃,推動智算中心網絡技術創新、標準完善和產業應用,打造高速無損、開放兼容的新型智算中心網絡技術體系 物理層:低時延Phy、P
15、hySEC、故障快速檢測、高速光接口、光交換等 鏈路層:基于報文分發和重組機制、調度技術、鏈路級安全及容錯等 網絡層:新型組網拓撲、新型組播/任播協議等;傳輸層:改進的RDMA、新型擁塞控制等 管理和運維體系:網絡可視化、可調試能力、多維自動化能力對標UEC,建議在CCSA成立國家層面的全調度以太網(GSE)推進委員會,工作范疇建議如下:2023.11云網智聯大會發布全調度以太網技術架構白皮書中國算力大會正式啟動全調度以太網(GSE)推進計劃中國網絡大會發布業界首款GSE原型系統2023.82023.92023.5ODCC冬季全會GSE特設組成立及第一次工作組會議技術標準技術標準聯合儀表廠家開
16、展合作,制定普適統一評估方法,開展互聯互通驗證聯合產業推動GSE方案成熟,形成開放統一的技術標準體系評估評估評測評測推動上下游產業支持,滿足后續部署需求,推動技術成熟與規模建設產業推動產業推動GSE設備A廠商&B廠商互聯互通測試2024.0216目錄01智算中心網絡技術概況03智算網絡技術評測面臨的挑戰02全調度以太網技術創新17智算網絡技術評測面臨的挑戰性能指標節點規模模型種類定制化模擬GPU實際的計算、周期性通信,測試結果是否可以客觀反映實際結果儀表是否能支持千卡級、甚至萬卡即模擬能力智算中心具有明顯的通信特征,且AI技術的快速發展推動算、網軟硬件技術的快速迭代升級,制定普適統一的智算中心網絡性能評測體系仍面臨諸多挑戰測試儀端口、規模是否能匹配網絡的演進速度能夠反映的新指標(有效帶寬、長尾時延等)基本的通信原語&通信原語不同的實現方式支持大模型的種類、測試工具迭代速度是否能匹配不同模型對網絡的性能評價標準能否歸一端網協同是趨勢,需同時兼做網卡和網絡私有擁塞控制協議、傳輸協議等優化,是否具備靈活的可編程能力和定制化功能感謝聆聽