《網絡驅動大規模 AI 訓練 - 阿里云可預期網絡 HPN 7.0 架構-席永青.pdf》由會員分享,可在線閱讀,更多相關《網絡驅動大規模 AI 訓練 - 阿里云可預期網絡 HPN 7.0 架構-席永青.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、網絡驅動大規模 AI 訓練阿里云可預期網絡 HPN 7.0 架構阿里云 資深網絡架構師 席永青席永青阿里云 資深網絡架構師,數據中心架構負責人團隊負責阿里云高性能數據中心網絡系統的整體架構設計和發展規劃主導阿里云AI智算網絡HPN7.0架構的設計和落地 高性能網絡系統進入可預期時代 GPU集群對網絡的關鍵要求 阿里云 HPN 7.0 架構 GPU centric 高性能網絡系統未來展望阿里云可預期網絡阿里云可預期網絡HPN7.0HPN7.0架構架構 高性能網絡系統進入可預期時代 GPU集群對網絡的關鍵要求 阿里云 HPN 7.0 架構 GPU centric 高性能網絡系統未來展望阿里云可預期
2、網絡阿里云可預期網絡HPN7.0HPN7.0架構架構from CPU centric to GPU centric網絡性能進入可預期時代:From Best-effort to the Predictable Network第一個10年第二個10年Now:AI Infrastructure經典網絡經典網絡SDNSDN 軟件定義網絡軟件定義網絡AIAI 計算定義網絡計算定義網絡信息化,傳統 IT 互聯互通互聯網應用 超大規模&彈性AI 大模型 大算力 可預期性能網絡以協議為中心設備黑盒,人肉運維IETF 定義互聯標準互聯網應用重新定義網絡系統互聯網應用重新定義網絡系統軟件定義網絡(SDN)設備白
3、盒解耦,運維自動化,SONiC 為代表的網絡開源生態AI AI 計算重新定義數據中心架構計算重新定義數據中心架構高性能智算網絡端網融合,計算/存儲和網絡協同生態:開放解耦與閉環并存AI AI 計算重新定義數據中心網絡架構計算重新定義數據中心網絡架構集群算力的關鍵要素集群算力的關鍵要素規模擴展的高性能持續可靠的穩定性100%80%60%40%200%網絡性能即算力網絡性能即算力計算計算通信通信通信通信同步同步1284096網絡是算力網絡是算力SCALESCALE OUTOUT的核心的核心102401024理論實際backwardUpdatebackwardUpdateLoad DataForwa
4、rdbackwardUpdateGPU0Load DataForwardGPU1Load DataForwardGPU2backwardUpdateLoad DataForwardGPU3average Grad 高性能網絡系統進入可預期時代 GPU集群對網絡的關鍵要求 阿里云 HPN 7.0 架構 GPU centric 高性能網絡系統未來展望阿里云可預期網絡阿里云可預期網絡HPN7.0HPN7.0架構架構PSWPSWASWASWNCPUPCIeNCPUPCIeNCPUPCIeNCPUPCIe單機多網卡,機內單機多網卡,機內8 8卡高速互聯卡高速互聯單機帶寬單機帶寬3.2T3.2TGPUGP
5、U directdirect RDMARDMA,超短,超短RTTRTT單網卡,無內部互聯單網卡,無內部互聯單機帶寬單機帶寬200G200G東西向東西向+南北向流量,長短南北向流量,長短RTTRTT傳統網絡集群設計不再適用傳統網絡集群設計不再適用AIAI計算計算傳統通用計算集群AIAI 大模型訓練集群大模型訓練集群互聯拓撲差異大傳統網絡集群設計不再適用傳統網絡集群設計不再適用AIAI計算計算成本、性能、穩定性、彈性擴展持續穩定的性能計算Service存儲Client計算同步通信提供計算存儲服務的通用計算,相對持續穩定的流量提供模型訓練的AI計算,高突發、高并發的流量最優的性價比與擴展性最優的性價
6、比與擴展性提升訓練效率,縮短訓練時間,提升訓練效率,縮短訓練時間,加速業務迭代加速業務迭代傳統通用計算集群AIAI 大模型訓練集群大模型訓練集群流量模型的網絡訴求差異大傳統網絡集群設計不再適用傳統網絡集群設計不再適用AIAI計算計算100k100k級別連接級別連接60+60+級別連接數級別連接數傳統通用計算集群AIAI 大模型訓練集群大模型訓練集群連接數差異大AAPPPPDD D DD D PPPPAA網絡協議/CCAPP網絡協議/CCAPP1HPN集群架構交換機/拓撲架構/路由HASH3監控運營系統監控/問題定位/資源編排端到端傳輸網卡/協議/CC2路車交通管理AIAI集群高性能網絡系統關鍵
7、要求集群高性能網絡系統關鍵要求AAPPPPDD D DD D PPPPAAAAPPPPDD D DD D PPPPAAAAAAincast流控快速適應多打一的高效帶寬利用網絡HASH的均勻性少量大流在網絡鏈路上的負載均勻性AAPPPPDD D DD D PPPPAAAADMA、0拷貝,協議棧帶寬和時延 單流e2e數據傳輸效率=12GG=12GG1236012360cross planeplane1plane2DDPPAAAA適合的集群物理架構帶寬、規模、千卡、萬卡層級,計算存儲AIAI集群高性能網絡系統關鍵要求集群高性能網絡系統關鍵要求 高性能網絡系統進入可預期時代 GPU集群對網絡的關鍵要求
8、 阿里云 HPN 7.0 架構 GPU centric 高性能網絡系統未來展望阿里云可預期網絡阿里云可預期網絡HPN7.0HPN7.0架構架構Infra網絡演進,from CPU-centric to GPU-centric2*10G2*25G2*50G2*100G8*100G8*400GCPUPCIeNICASWASWASWASWASWASWASWASWCPUPCIeNICCPUPCIeNICCPUPCIeNICG1G2G3G4G5G6G7G8NVLink1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T1.6T400G4
9、00G400G400G400G400G400G400GASWASWASWASWASWASW單機多網卡,3.2T及以上網絡帶寬機內GPU間高速互聯單機單網卡,最大2*100G網絡帶寬傳統通用計算集群AI智算集群N*800GScale up/Scale out液冷,100k+N*1.6T未來 AI Infra 網絡集群AI AI 計算網絡集群架構演進計算網絡集群架構演進阿里云阿里云HPN7.0HPN7.0 為為AIAI設計的高性能網絡架構設計的高性能網絡架構全球首個基于 51.2T Ethernet 交換芯片的高性能 GPU 互聯集群多軌+雙平面網絡拓撲,單層千卡 Segment,兩層萬卡,存算分
10、離/10萬+級規模超大集群自研 ACCL 通信庫,全局協同/拓撲感知400G RoCEv2 RDMA,自研 HPCC 流控Front-endFront-end 存儲存儲+VPC+VPC 網絡網絡Back-endBack-end GPUGPU 互聯網絡互聯網絡=12GG=12GG1plane1plane2123N23Ncross planeAAAADDPPFront-end 存儲+VPC網絡 400G RDMA 存儲 可用區共享存儲Back-end GPU互聯網絡 3.2T帶寬 單層千卡,兩層萬卡Tier1 千卡GPU,多軌+雙上聯Tier1 千卡GPU,多軌+雙上聯.Tier2 萬卡GPU,雙
11、平面模型視角模型視角GPUGPU集群視角集群視角Data阿里云阿里云HPN7.0HPN7.0 為為AIAI設計的高性能網絡架構設計的高性能網絡架構為大模型極致性能設計的HPN7.0架構集合通信提升最高超1倍模型訓練性能提升10%10.63%6.23%阿里云阿里云HPN7.0HPN7.0 為為AIAI設計的高性能網絡架構設計的高性能網絡架構HPN7.0被SIGCOMM24收錄AI網絡集群架構領域的首篇頂會論文架構設計細節將會在論文中詳述阿里云阿里云HPN7.0HPN7.0 為為AIAI設計的高性能網絡架構設計的高性能網絡架構極簡設計的硬件系統,模塊化架構標準UNP128x 400G,QSFP11
12、2 MSAPHYless設計,極致時延支持LPO光模塊,極致能耗S3IP OCM/BMC/Fans/機箱等標準模組快速使能multi-source,TTM開放生態,輕松演進RSCRSM 高性能網絡系統進入可預期時代 GPU集群對網絡的關鍵要求 阿里云 HPN 7.0 架構 GPU centric 高性能網絡系統未來展望阿里云可預期網絡阿里云可預期網絡HPN7.0HPN7.0架構架構AI 計算驅動云基礎設施架構變革From CPU-centric to GPU-centricGPU 高功耗驅動 IDC 基礎設施變革(風冷到液冷)服務器形態從 單機 單機多卡 Rack級多卡新型物理網絡拓撲/端網融
13、合架構:GPU 多卡互聯的 scale-up網絡(如NV switch)和 數據中心scale-out 網絡(如 RDMA)協同設計AI 并行計算對網絡高性能的需求驅動 高性能網絡協議演進AIAI基礎設施網絡架構基礎設施網絡架構 未來展望未來展望CPU 服務器CPU 服務器。以太網交換機CPU 服務器高性能網絡交換機GPUGPUGPUGPUCPU 服務器CPUCPU-centricCPU-centric獨立服務器部署,網絡連接 Scale Out風冷典型 20KW液冷典型 50KWGPU-centricGPU-centricRack 級優化 Scale Up,高性能網絡連接 Scale Out
14、Scale-Out傳統網絡Scale-Out高性能網絡inner X Switch/.Scale-Up內部互聯1624 獨立服務器AI RackAIAI基礎設施網絡架構基礎設施網絡架構 未來展望未來展望DC infra,from CPU-centric to GPU-centricGPUSRAMGPUHBMHost MemoryCPU DRAMGPUSRAMGPUHBMHost MemoryCPU DRAMin-boxscale upData/ckpt Memory/SSDGPUSRAMGPUHBMHost MemoryCPU DRAMGPUSRAMGPUHBMHost MemoryCPU D
15、RAMin-boxscale upData/ckpt Memory/SSDGPU direct RDMAEthernet scale outckpt storage RDMAEthernet scale outCPFSAIAI基礎設施網絡架構基礎設施網絡架構 未來展望未來展望scalescale upup +scalescale outout 網絡,網絡,融合設計融合設計通信框架容錯設計電力和物理布局規模,拓撲AIAI基礎設施網絡架構基礎設施網絡架構 未來展望未來展望10w+10w+算力級別的網絡集群,算力級別的網絡集群,100T100T網絡交換芯,新型網絡硬件系統網絡交換芯,新型網絡硬件系統