《通信行業AIGC系列之二十:通信網絡延續基礎算力的摩爾定律?-230615(42頁).pdf》由會員分享,可在線閱讀,更多相關《通信行業AIGC系列之二十:通信網絡延續基礎算力的摩爾定律?-230615(42頁).pdf(42頁珍藏版)》請在三個皮匠報告上搜索。
1、通信網絡延續基礎算力的摩爾定律?-AIGC系列之二十證券分析師:李國盛A楊海晏A0230518070003黃忠煌A0230519110001林起賢A0230519060002劉洋A0230513050006聯系人:李國盛SWS2023.6.15RESEARC#page#SWS口投資案件結論在AI領域,網絡的價值在于延續了集群算力的摩爾定律。1)吞吐帶寬與連接架構是算力性能不可忽視的決定因素2)芯片層面,高速c2c連接方案(如NVLink、CXL等)的推廣,是宏觀設備/數據中心層高速網絡、光網絡等需求爆發的底層邏輯。3)設備層面,單Soc性能提升+芯片“堆量”,不意味著算力集群整體性能的線性提升
2、;而Nvidia、Google、AMD、AWS等算力大廠正應用InfiniBand、OCS等新架構替代通用算力下的以太網,帶來增量網絡需求原因及邏輯系統復雜度、投資強度、整體性能提升效果三方面看,網絡設備與器件(包括交換機、光模塊等)在AI系統中的重要性顯著提升:NvidiaH100到GH200系統,官方標準配置下800G光模塊用量可提升30%-275%,同樣256GPU集群的交換機需求從不足50臺提升至150臺以上谷歌自研TPUV4背后,是矩陣計算、OCS光交換與更激進的光網絡設計。3D組網是TPUv4系統最大亮點,網絡起重要作用,導入全光交換、WDM等光通信技術后,算力與網絡需求同步提升。
3、AMD最新MI300體系和AWS自研Trn訓練芯片,同樣重視帶寬、拓展性的價值2#page#SWS投資案件有別于大眾的認識1)當前市場對AI算力、網絡、光通信空間的跟蹤,主要通過訂單預期、需求意向或歷史經驗的方式直接判斷。我們認為,除了對硬件進行拆解、進而直接測算單位算力/單位芯片對應的網絡需求之外,網絡架構本身對算力體系的深遠影響也應重視,通信網絡正在延續算力領域的摩爾定律,其價值不亞于算力本身。2)當前市場擔心,若假設算力需求總規模不變,則單位芯片或系統性能的大幅提升會導致硬件需求數量的減少。實際上,芯片或系統性能的提升的背后,吞吐帶寬與連接架構是不可忽視的關鍵因素,“網絡與算力同行”。且
4、在AI訓練、推理需求提升的產業早期,性能成本的優化、架構方案的多樣化均利于AI應用的放量,進而帶動算力總需求持續提升。風險提示信息技術選代產生新的網絡通信方案,可能顛覆已有路徑或格局。R#page#主要內容1.網絡的價值在于延續了集群算力摩爾定律2.Nvidia:H100到GH200,網絡價值隨增3.谷歌:TPUV4背后,是OCS與更激進的光網絡設計4.AMD、Amazon等:芯片亦持續選代5.結論、相關標的與風險提示ws了#page#BWS1.1芯片層面網絡:chip-to-chip場景,從PCIe到高速連接典型PCIe協議下的服務器架構(一)通用/傳統場景:PCIe是服務器內部通信的總線標
5、準,制約了電口CPU通信速率的提升。MemoryPCleendpoinRootComplexPCle ens經典的通用服務器內,CPU、圖形卡、硬盤驅動器、SSD、Wi-Fi、以太網PClPCle endpoin設備等主要基于PCIe(PCIexpress)PCle endpoint協議相互連接。PCle endpoint相較于4.0版本,PCIe5.0傳輸速度更PCIe endp高,16帶寬(雙向)從64GB/s提資料來源:Prodigy,申萬宏源研究升到了128GB/s;目前規范制定已送設備I/O帶寬每三年翻倍,PCIe目前主流5.0版本,已選代至6.0代至6.0版本,帶寬再翻倍。24異構
6、計算的初步創新:在PCIe物理架構和電氣接口的基礎上,英特爾等牽頭成立CXL聯盟并最新推出CXL2.0-3.0規范,用于AI、高性能計算等場景中CPU與GPU等的3083互聯,通過“內存池化”等方式優20起0化內存調用,進而提升系統整體性Time能。(據ComputeExpressLink官網)資料來源:PCI-SIG,申萬宏源研究#page#SWS1.1芯片層面網絡:chip-to-chip場景,從PCIe到高速連接我們認為,芯片層高速連接方案的推廣,是宏觀設備層面高速網絡、光網絡等需求的底層邏輯。(二)Nvidia代表,已對標PCIe推出NVLink解決異構計算與AI算力網絡瓶頸。NVLi
7、nk是Nvidia專門設計用于點對點鏈路高速互聯的網絡方案(例如GPUtoGPU連接)。據Nvidia白皮書,NVLink的開銷比傳統網絡更低。傳統網絡中復雜網絡功能(例如端到端重試、自適應路由、數據包重新排序等),在NVLink體系下可以在增加端口數的情況下進行權衡。此外,基于NVLink的網絡接口更加簡單,允許將應用程序層、表示層和會話層功能直接嵌入到CUDA本身中,從而進一步減少通信開銷。左圖:傳統GPU服務器基于PICe連接的架構,片間互聯依賴于PCIeSwitch右圖:此前NvidiaA100GPU為例,已兼用PCIe和NVLink解決片間網絡性能瓶頸CPUOCPU1CPUCPU電電
8、 電電中南 電口資料來源:Nvidia,申萬宏源研究#page#RWS1.1芯片層面網絡:chip-to-chip場景,從PCIe到高速連接NVIDIA在2016-2022年選代4代的NVLink滿足了其算力方案的兩大需求(專用連接方案解決專業問題),使GPU具有盡可能高的性能、使用專用協議和系統設計以實現更高的性能。據PCI-SIG及Nvidia技術文檔,目前的PCIegen5每通道僅為32Gbps,而NVLink每通道高達100Gbps、多個通道連接其GPU系統最新的NVLinkgen4下,每個H100GPU的連接數從上一代的12Links升級至18Links,每個GPU提供900GB/s
9、(7200Gbs)的雙向帶寬(bidirectional bandwidth )。H100GPU的NVLink可以貢獻900GB/s的帶寬x86x86X86x86PClPCIE20162017OZOZ2022V100-NVLink2A100-NVLink3P100-NVLink1H100-NVLink44NVLinks6NVLinks12 NVLinks18 NVLinks40GB/seach50GB/seach50GB/seact50GB/seachx820Gbaud-NRZx825Gbaud-NRZx45Gbaud-NRZx250Gbaud-PAM4160GB/s total300GB/s
10、total600GB/stotal900GB/stotal資料來源:Nvidia,申萬宏源研究#page#SWS1.1芯片層面網絡:chip-to-chip場景,從PCIe到高速連接此外Nvidia發布適用于超算服務器內部的NVSwitch芯片(最早2018GTC大會發布第一代,作用類似于交換機ASIC),進一步通過上述NVLink協議接口將多個GPU高速互聯到一起。據技術文檔,在H100芯片+NVLinkgen4協議這一代,Nvidia配套了NVSwitchgen3芯片方案,采用臺積電4N工藝,滿足GPU間的點對點連接,內嵌ALU使NVSwitch提供FP32的400GFLOPS計算吞吐,每
11、個芯片64個NVLink4接口。依據技術文檔,NVSwitch3芯片大小50mm*50mm,包括一個SHARP控制器,可并行管理多達128個SHARP組;內嵌ALU可幫助NVSwitch提供FP32的400GFLOPS計算吞吐,并且支持FP16、FP32、FP64和BF16等精度計算。NVSwitch3芯片提供64個NVLink4接口,每個NVLink4通道x2即200Gbps單向帶寬,單個芯片可提供64200Gbps=12.8Tbps(1.6TB/s)單向帶寬、或3.2TB/s雙工帶寬。Nvidia的NVSwitch芯片,本身起到了網絡交換機的作用onGPL32.PHNVLink彩13137
12、YOECNetworkSwitchPORTLogicPORT Logic新XBARHARE服京accele系彩福Source GPUDestination GPU中灣資料來源:Nvidia,申萬宏源研研究#page#RWS1.1芯片層面網絡:chip-to-chip場景,從PCIe到高速連接進一步,英偉達發布GraceHopper架構,將NVLink應用場景從GPUtoGPU拓展至GPUto CPU。Chip-to-chip的NVLink延伸至GPU與CPU互聯NVIDIAGrace Hopper Superchip因為芯片維度,制約AI算力性能釋放的因素,除了單個芯片的性能外,15696G8
13、H還包括片間帶寬(例如A100對比546GBA800)、內存調用機制等。GRACECPU除了相較于PCIe更高的帶寬,NVLink在GraceHopper架構下使CPU和GPU線程能夠“共享”訪問所有內存(GPU除了可以利用自身的GRACEHBM3內存,還可以借助NVLink訪問CPU的LPDDR5X內存)。最終,NVLink徹底打通了GPUtoGPU和GPUtoCPU之間的高速連接(右下圖),GPU可以以450LocalCPU GPUGB/s的速度拓展至最高至150TBGPU Peer GPU的內存,進而釋放出更強的超算性WIOIANGRACENVLINK能。(據技術文檔)GPU Peer
14、CPU資料來源:Nvidia,申萬宏源研究S#page#RWS1.1芯片層面網絡:chip-to-chip場景,從PCIe到高速連接(三)類似地,AMD的InfinityFabric也強化了chip內外部網絡連接的性能AMDInfinityFabric包括ScalableControlFabric(負責控制,類似大腦)和ScalableDataFabricHH病uaz/uebaAuaAeaWV晉uqeAIu!uI(電殺”驟筆)以最新的MI300系列為例,InfinityFabric用于內存共享機制:1)MI300A(CPU+GPU)3個5nm CPU dies (24個Zen4 cores,
15、Infinity Cache )InfinityFabric在AMDMI300系列中扮演重要作用6個5nm GPU dies CCNDA3 )CPUGPU搭載8HBM3總共128GB容量,UnifiedMemory架構(見右圖)AMD Instr2)MI300X(作為GPU,針對LLM場景)MI250Node192GBHBM3內存5.2TBps內存帶寬896GBpsInfinityFabric帶寬(可以類AMDnstinc比NVLink)MI300Node據AMD2023年6月新品發布會,MI300XertedcPu提供的HBM密度最高是NvidiaH100的2.4倍,其HBM帶寬最高是H10
16、0的1.6倍。資料來源:AMD,申萬宏源研究10#page#1.2設備層面網絡:InfiniBand、NVLink等正送代通用SWS算力下的以太網需求結合實際情況,我們認為:單SoC性能提升,不意味著算力集群整體性能的提升;單純“堆砌”集群芯片數量,而不優化網絡連接,集群性能提升很快就會遇到瓶頸。傳統云計算場景下,算力設備以同構計算和簡單的異構計算為主,通用的以太網很難滿足大規模GPU集群的連接需求英偉達解決集群性能瓶頸的方式Nvidia理解的網絡架構變化帶動集群性能繼續線性提升是引入InfiniBand網絡,并將AI集群整體性能TC2C場景下應用的NVLink延伸至設備間互聯。InfiniB
17、and+ NVLink據Nvidia,2020年公司以69億美元的價格收購網絡芯片廠商Mellanox,后者致力于數據中心InfiniBandInfiniBand和以太網互聯產品的研發。2022-2023年DGXH100SuperPOD集群完善,重要變化Cloud體現在NVLink從板上/片間互聯Ethernet走向不同Server或板卡的互聯,同時Nvidia也相應發布了NVLink交換機(Hotchip等公開資料)集群中GPU數量11資料來源:Nvidiia,申萬宏源研究#page#1.2設備層面網絡:InfiniBand、NVLink等正選代通用SWS算力下的以太網需求InfiniBan
18、d是一種專為RDMA(遠程直接內存訪問)設計的網絡RDMA主要用于解決網絡傳輸中服務器端數據處理的延退問題,能直接通過網絡接口訪問內存數據,無需操作系統內核的介入(相比于傳統TCP/IP),尤其適合在大規模并行計算機集群中使用。InfiniBand網絡需要使用專用的IB網卡和IB交換機。RDMA網絡可以直接通過網絡接口訪問內存數據Nvidia的InfiniBand設備覆蓋網絡適配器、DPU、交換機等傳統模式RDMA模式應用應用數帶避菜TCP/IP內核內核TCP/IPRDMA數據DPU網絡接口熱據網絡接口數據資料來源:華為,申萬宏源研究資料來源:Nvidia,申萬宏源研究以NvidiaH100為
19、例,其網絡架構的基礎是InfiniBandNDR400Gb網絡。據Nvidia技術文檔,MellanoxInfiniBandNDR產品是第7代的InfiniBand產品,利用100Gb/s的PAM4Serdes技術,實現了400Gb/s單端口傳輸帶寬。NDRInfiniBand交換機可以支持64個400Gb/s端口或128個200Gb/s端口,提供32個800GOSFP接口,是400G/800G網絡來源。12#page#1.2設備層面網絡:InfiniBand、NVLink等正選代通用SWS算力下的以太網需求NvidiaDGXH100系統為例:設備組網的基本原則GPU的通信以NVLink為基礎
20、,CPU/存儲的通信+跨集群通信以InfiniBand為基礎。NVIDIA的DGXH100服務器,每臺服務器擁有8個H100GPU、4個NVSwitch3,且相互連接。在服務器發布的同時,NVIDIA還發布了搭載2個NVSwitch3芯片的NVLink交換機,連同GPU服務器和NVLink4協議組成NVLink網絡。(一)H100GPU發布后,服務器架構變化較大:DGXH100:DATA-NETWORKCONFIGURATIONFul-BwIntra-Server NVLinInfiniBandAL8GPUs can simsly saturato18 NVLinks to other GPU
21、s withinLimitedonlybyver-subscription frgotherGPUs兩套網絡Half-BWNyLinkurate 18 NVLinks to GPUsNVLinkEquivalent offul-BwonAllReduce with SHARFReductioinA2AlBwisabalancewithserverMulti-Rail InfiniBand/EtheAL8GPUs canverisowndedicatedGb/sHCA/N3DUAQ0DGX H10013資料來源:英偉達技術文檔,申萬宏源研究#page#1.2設備層面網絡:InfiniBand、N
22、VLink等正送代通用SWS算力下的以太網需求DGXH100服務器架構:GPUTray中,擁有8xH100GPU+4xNVSwitch芯片,芯片端4-5-5-4共18組0SFP接口(基于NVLink)負責不同DGXH100服務器之間的連接。DGX H100 GPU Tray4NVSwitcheswith8xNVIDIAH100Tensor CoreGPUs4thgenerationNVlinknVIDIAnVIDIAMidplaneconnectivityPower.PCle.sensorsaCnVIDIAnVIDIAsignaling communicationsnVIDIAnVIDIAnV
23、IDIAnVIDIA5資料來源:英偉達技術文檔,g-depjp,申萬宏源研究#page#1.2設備層面網絡:InfiniBand、NVLink等正選代通用SWS算力下的以太網需求(二)NVLink交換機是H100體系的創新,也是800G光通信方案應用的亮點。Nvidia發布新的NVLink交換機,1U尺寸設計,32個OSFP接口的設計;和普通交換機不同,每臺NVLink交換機搭載2個NVSwitch3芯片,提供128個NVLink4接雙工帶寬6.4TB/s(單個NVLink4單向口(單個NVSwitch3提供64個NVLink4)200Gbps,128200Gbps=25.6Tb/s單向帶寬)
24、。NVLink交換機搭載了OSFP等接口DGX H100 SUPERPOD:NVLINK SWITCHNVLinkSwitchStandard1Ru19-inchformfactorhighlyleveragedfromnfiniBandswitchdesigDual NVLink4NVSwitchchips128NVLink4ports320SFPcages6.4TB/sfullduplexBWManagedswitchwithout-of-bandmanagementcommunication(customFW)16資料來源:英偉達技術文檔,HC34,申萬宏源研究#page#1.2設備層面
25、網絡:InfiniBand、NVLink等正選代通用SWS算力下的以太網需求據Nvidia設計,每套SuperPOD集群32臺服務器折合256個H100GPU,AI性能高達1EFlops;每套系統配18臺NVLink交換機,系統雙向帶寬57.6TB/s;(網絡需求增加)依照技術文檔推薦方案,每套系統的32臺DGXH100服務器中的400Gb/sConnectX-7網卡對外與IB交換機連接,用于連接多套SuperPOD系統。兩層NVSwitch芯片設計:一層交換芯片位于服務器內,二層交換芯片位于交換機內。128個L1層芯片(32臺服務器,每臺4個)+36個L2層芯片(18臺NVLink交換機,每
26、臺2個)。個集群內所有256個GPU的互聯,都通過NVLink和NVLink交換機單獨完成,不經過CX-7PCIe網絡。我們認為,從通信網絡角度看,DGXH100SuperPOD高算力、高吞吐升級的精髓,在于:將過去A100及之前用于服務器內部GPU高效連接的NVLink,外化到整個集群,借助新的NVLink交換機,搭建L1、L2兩層網絡,實現跨服務器、跨機柜的GPUtoGPU連接。即便是同樣的H100芯片底座,NVLink的加入可以顯著提升集群性能口A100口H100H100+NVLinkNetwork302520中中mgM.G5109HPCAl InferenceATraining資料來源
27、:英偉達技術文檔,申萬宏源研究注:縱軸為相較于A100的性能提升倍數。#page#BWS1.3IDC層面網絡:AI與通用云計算架構核心差異在于組網海圳回是王團區理“-因心中N(Zfat-tree是業界普遍認可的實現無阻塞網絡的技術,對于任意的通信模式,總有路徑讓他們的通信帶寬達到網卡帶寬,且用到的所有交換機都是相同的;fat-tree無帶寬收斂:傳統的樹形網絡拓撲中,帶寬是逐層收斂的,樹根處的網絡帶寬要遠小于各個葉子處所有帶寬的總和。而fat-tree則更像是真實的樹,越到樹根,枝干越粗,即:從葉子到樹根,網絡帶寬不收斂。尤其在訓練側,數據、算力以內部流轉為主,較多依賴內部徑向流量的統一高帶寬
28、。高速網絡設備/器件的需求量更大。超算胖樹架構網絡更扁平化,但帶寬更高Optical module rate evolutionA/HPC Cluster)胖樹架構下的負載均衡4PSoine益2200GE333333320192021ScenarioServerto LeafLeaftoSpine日m0090Bandwidt400G800G4mwthinrackDstance500m資料來源:OpenFlowbased Load Balancing forFat-TreeNetworkswithMultipathSupport,申萬宏源研究ModulesizeQSFP-DD/OSFPQSFP-
29、DD/OSFPLatency92nsEEEPMAlayer)92msIEEEPMAlayer)資料來源:MSA,申萬宏源研究19#page#主要內容1.網絡的價值在于延續了集群算力摩爾定律2.Nvidia:H100到GH200,網絡價值陸增3.谷歌:TPUV4背后,是OCS與更激進的光網絡設計4.AMD、Amazon等:芯片亦持續選代5.結論、相關標的與風險提示ws了D#page#水墨母科與能影圖OOTVBIPIAN“果ODIVICSWS200G為基礎。Nvidia的A100體系是典型的200G網絡結構。DGXA100的核心網卡MellanoxConnectX-6主要基于200Gb/sHDRI
30、nfiniBand網絡。因此底層網絡帶寬即200G。DGXA100服務器背板明確擁有8個用于Compute的200GQSFP56接口。另外擁有2個用于Storage的接口。據技術文檔,A100的DGXSuperPOD集群,服務器與交換設備數量之比大致在1:1左右A100SuperPOD設計單集群20臺DGXA100,搭配12臺用于Compute的IB交換機以及6臺用于Storage的IB交換機(IB交換機QM8790為40ports200Gb規格)。NvidiaA100SuperPOD實際組網情況店2車資料來源:Nvidia,申萬宏源研究#page#水墨根與OOTVBIPMN“,OOIVISW
31、S200G為基礎。:莫欣喜術墨等鮮(sndOIT)器OT攤aodadnsX9aHOOTV士香200G需求量共4014只線纜,對應約8000只光模塊(推薦型號為光方案的QSFP56),數量比例GPU:200G光模塊1:7(若有銅纜,則數量在此基礎上打折)。32XHDRCound ModeDGXA1005yste100GbEOSFPtoOSFPACVIDIA930-20000-0007-000StorCore Dc20xHDRDGXA1ODsystems1417ManageCat6cableStandardt6VariesStoPDUS8810GbEpNVDIAMC3309130-814SEPt.
32、CableDGXA10DSyste3374NIDIAMF1S00E200bps0sp56QM8790CablesritcheSUsNodesnd CablesCoreeaSpineLeafSpineCore568DGXA100Sys16016420singleSu)556Storge200Gbps0sP56NVIDIAMF1500-HxxE161040320324162420480484503220640644802.6ou896009612008249645注:在Nvidia技術文檔中推薦的組網方案下,140個DGXA100服中O828112011241120140(DGXSuperPoD)
33、務器集群線纜需求測算。1.UFMApplineiscotchesected to twi22資料來源:Nvidia,申萬宏源研究#page#2.2當前“算力之端”:英偉達H100的網絡架構與設備需RWS提升至400G/800G基準127個H100服務器(1016GPUS)的設備需求量測算在Chapter1中我們已經討論過,H100網絡架CounCaConnpmt1ned Model構基礎是InfiniBandNDR400Gb網絡+254100005NVLink800Gb網絡。32100Gp出國10SLCables一個標準的DGXH100SuperPOD由32臺DGXVriFoneDH100、8
34、個機柜組成。同時搭配8個Leaf交換機和etCables1GbpsDGXH1005Cat5e4個Spine交換機,均為IBNDR400。Gbp1Gbp16005CR5另外搭配若干Storage交換機、Management、10006512UFM、In-Band、Out-of-Band設備。與A100相1G005PDUs100bo比,H100主板接口明顯減少,尤其Compute接口DGXHI005DIA0-9I57-OOIORCables1.400Gbp由8個減少為4個,但單口總帶寬提升4倍至800GbNoR.A010oH010sucdao(服務器廠商定制版本也有8400G選擇)。theDGXH
35、100NIIAO-IPO0O0SystemosFp1同理于A100之測算,一個128DGXH100服務器uftobef.cooncton.p99集群(4xSuperPOD,實際127臺服務器,預留NVIDIA90-157X-OON10DRCabhs400Gbp1臺空位替換UFM)為例,搭載1016個GPU、32346元熱5NwWnaaNK0992L100H010.個Leaf交換機、26臺Spine交換機(InfiniBandQSFP112MDA980-91693-00NS00網絡需求);DO.6o.oN線纜數超2000條。1個SuperPOD對應8Leaf、4Spine;線纜數超500條。此外
36、In-Band、Out-of-Band交換機主要需要100G、400G網絡。資料來源:Nvidia,申萬宏源研究23#page#2.3GH200的設計精髓:最大化利用NVLink和InfiniBanSWS網絡,光連接更優先Nvidia DGX1x Hopper GPU(H100)+ 1x GraceCPU板卡=1GH200;GH200“超級計算機的硬件構成:更多的8xGH100+3xL1NVLink交換機+內部機柜、光纖、交換機。高速線纜=1組GH100陣列;256xGH100+96xL1NVLink交換機+內部高速線纜=32組GH100陣列;32組陣列+36L2NVLink交換機+24xIB
37、交換機等=1個DGXGH200集群25資料來源:Nvidia,申萬宏源研究#page#2.3GH200的設計精髓:最大化利用NVLink和InfiniBanSWS網絡,光連接更優先我們測算:DGXGH200同過去A100和H100系列服務器最大區別在于,將GraceCPU和HopperGPU封裝在同一塊板卡上,連同其他部件形成1U大小的“刀片服務器”,并將其通過內部線纜的方式和L1層的NVLink交換機封裝在一起,板卡與L1NVLink交換機的數量比例為8:3。一個DGXGH200集群內部包括256個GH200“板卡服務器”,對應了96臺L1NVLink交換機進一步引入L2NVLink交換機,
38、此處預計通過外部光纜+光模塊的方式進行連接。一個DGXGH200集群搭配36臺L2NVLink交換機。則GraceHopper下,NV網絡對800G光模塊的需求量:36(L2NV交換機)32(NV交換機接口數)X2=2304個,GPU:800G光模塊=1:9(較DGXH100方案提升30%-275%)。加之搭配的24臺IB交換機(預計是16+8的雙層fattree架構),預計額外需要32x24+256(IB網絡接口數,交換機側和服務器側)=1024個光模塊。以及BF-3等組網所需的額外較低速率光模塊。Fully Connected NVLink across 256 GPUsDLNVLinkC
39、ableJVDLDGXGH20026資料來源:Nvidia,申萬宏源研究#page#2.3GH200的設計精髓:最大化利用NVLink和InfiniBanSWS網絡,光連接更優先GH200體系的交換機需求,以256GraceHopper架構下NVLink和IB網絡共存片Grace CPU+H100GPU為例:96+36=132臺NVLink交換機(800G)24臺InfiniBand交換機(預計400G/800G)42臺以太網交換機(預計100G/200G,用于存儲、管理等相比“256GPUs的DGXSuperPOD集群,交換機用量不超過50臺”,GH200系統的交換機資料來源:Nvidia,
40、申萬宏源研究需求大幅提升。因此我們預計,Nvidia未來將越來越重視在AI體系中引入NVLink網絡,通過網絡連接來降低系統成本、提升整體性能:DGXH100服務器的架構設計,仍可見傳統PC與通用服務器一路沿襲的思路,例如motherboard、gputray等結構;而GH200則基于NVLink和AI需求對“芯片-設備-IDC”的網絡架構做了重新設計。從系統復雜度、投資強度、整體性能提升三方面看,網絡設備與器件(包括交換機、光模塊等)在系統中的重要性顯著提升27#page#主要內容1.網絡的價值在于延續了集群算力摩爾定律2.Nvidia:H100到GH200,網絡價值陸增3.谷歌:TPUV4
41、背后,是OCS與更激進的光網絡設計4.AMD、Amazon等:芯片亦持續送代5.結論、相關標的與風險提示ws了D#page#SWS3.1谷歌TPU:選代至v4,ASIC3D組網適配AI需求谷歌自研TPU可追潮至2014年;據谷歌論文(TPUv4:AnOpticallyReconfigurable提nd彎 (sbuppaquooddnsalempJeH 4IM bu!ue7ouue o nduoladns采用激進的全光組網方案。據歷代發布數據:TPUv1主要用于推理場景,單向架構,發布于2015年;TPUV2則定位于訓練場景,單板4顆芯片,64GHBM替代DDR3,InterconnectRou
42、ter提供4個ICILink做芯片互聯、分別496Gbps帶寬(類似NVLink),發布于2017年;TPUV3同樣單板4顆芯片,128GHBM,ICILink帶寬提升至656Gbps,發布于2018年;TPUV4的128GHBM帶寬升級至1200GBps,ICILink則選代為6路448Gbps。GoogleTPU演進至第四代TPUv2 boards =4 chipsTPUv3 boards=4chips9資料來源:Google,申萬宏源研究#page#SWS3.1谷歌TPU:選代至v4,ASIC3D組網適配AI需求3D組網是TPUV4最大特征,同樣重視網絡連接的價值。據谷歌文檔測算:一個T
43、PUV4板卡有4個芯片,一個TPUv4Pod由4096個芯片(1024個板卡)組成。個444的block有64個芯片(16個板卡,右下圖示),每個block有6個面(正立方體的6個面),每個面對外發送16個光連接,用于連接外部交換機,總共616=96個光連接;block上相對面的link連接同一臺交換機,因此64個芯片的光連接有96/2=48對,對應48臺交換機。不同于過去的平面組網,TPUV4組網方式是“3D立方體”組網為TPUV4設計的交換機是136136(128個業務端口+8個測試維護端口),因此上述48臺交換機可用于連接64個block(每個block有64個芯片)中的48對光連接+3
44、3X+33X+O3X+1OO30資料來源:Google,申萬宏源研究#page#SWS3.1谷歌TPU:選代至v4,ASIC3D組網適配AI需求TPUV4板卡我們認為,芯片角度ICILink起到了類似NVLink的作用,負責Chip-to-chip互聯以及板間互聯。在TPUV4一代,每個芯片對應6路ICILinks,每一路448Gbps帶寬,其中2路用于板卡上4個芯片的互聯,另外4路則用于對外的3D組網因此每個板卡上有44=16路外部ICILinks,以OSFPconnectors的形式嵌入在板卡側面(右圖紅框)。機柜角度看,右下圖是4096芯片、64機柜集群其中的8個機柜,每個機柜有16組服
45、務器(板卡),對應164=64個芯片(即1個機柜對應前述1個44x4的block)。4096芯片、64機柜集群其中的8個機柜1個Block(機柜)內部板卡之間的互聯使用無源銅纜連接;48個交換機、8組右圖所示的機柜、以及光纖與光模塊液冷模塊,共同組成了4096TPU芯片的集群。31資料來源:Google,申萬宏源研究#page#與網絡同行早期谷歌應用OCS主要用于解決云設備集群擴容中不同速率設備、網絡、敏捷性的兼容問題;后來應用于AI/HPC場景下數據中心內部主干網絡OCS優點在于其信號傳遞的過程中不涉及數據包路由或標頭解析,OCS只是將光從輸入端口反射到輸出端口,精度高、損耗小,而光信號是通
46、過WDM光模塊的電光轉換過程產生因此OCS光交換網絡與數據速率和波長無關,即使算力網絡基礎設施帶寬從100Gb/s升級到200Gb/s甚至直到1.6T及更高速率,OCS方案均可在主干層兼容。換言之,在OCS方案下光通信網絡的升級送代未必以傳統網絡芯片的帶寬和端口速率為瓶頸,可完全依據流量增長速度和成本經濟性進行選代。谷歌OCS方案仍然依賴光模塊產生光信號、借助光纖進行信號傳輸33資料來源:Google,申萬宏源研究#page#主要內容1.網絡的價值在于延續了集群算力摩爾定律2.Nvidia:H100到GH200,網絡價值陸增3.谷歌:TPUV4背后,是OCS與更激進的光網絡設計4.AMD、Am
47、azon等:芯片亦持續送代5.結論、相關標的與風險提示ws了#page#SWS4.1AMD:MI300系列2.5D-3D封裝,板上帶寬顯著增加AMDMI300A和MI300X服務器樣圖據AMD發布會,M1300系列方案內存容量與帶寬顯著提升:MI300X擁有192GB的HBM3、5.2TBps的帶寬和896GBps的InfinityFabric帶寬;AMDInfinity架構將8個MI300X加速器連接在一個系統中,提供合計1.5TB的HBM3內存。AMDMI300APU采用3D堆疊集成13個Chiplets資料來源:AMD,申萬宏源研究資料來源:AMD,申萬宏源研究36#page#SWS4.
48、2Amazon:自研Trainium芯片支撐Trn1等訓練云服務Amazon發布由自研芯片Amazon自研Trn系列訓練芯片Trainuim支持的AWSEC2Trn1;每臺Trn1最多可搭配16顆Trn13GHzTrainium芯片,芯片內NeuronB516/5P1632Link專用連接并搭配HBM內存,3.4PFLOPS3.4PFLOPS840TFLOPS調用800Gbps的ElasticFabricBAAdapter網絡接口,可橫向拓展512GB13.1TB/sec至1萬顆以上的Trainium芯片。HP進階版本Trn1n的EFA帶寬將達到768GB/sec800GbpsEFA1600G
49、bps。(發布會公開數據)TrainiumFSXa00口G000三電菜住國店37資料來源:AWS,申萬宏源研究#page#主要內容1.網絡的價值在于延續了集群算力摩爾定律2.Nvidia:H100到GH200,網絡價值陸增3.谷歌:TPUV4背后,是OCS與更激進的光網絡設計4.AMD、Amazon等:芯片亦持續選代5.結論、相關標的與風險提示ws了#page#SWS口4.結論與相關標的結合上文:1)系統復雜度、投資強度、整體性能提升效果三方面看,網絡設備與器件(包括交換機、光模塊等)在AI系統中的重要性顯著提升:NvidiaH100到GH200系統,官方標準配置下800G光模塊用量可提升30
50、%-275%,同樣256GPU集群的交換機需求從不足50臺提升至150臺以上2)谷歌自研TPUV4背后,是矩陣計算、OCS光交換與更激進的光網絡設計。3D組網是TPUV4系統最大亮點,網絡起重要作用,導入全光交換、WDM等光通信技術后,算力與網絡需求同步提升。3)AMD最新MI300體系和AWS自研Trn訓練芯片,同樣重視帶寬、拓展性的價值我們認為:在AI領域,網絡的價值在于延續了集群算力的摩爾定律。1)吞吐帶寬與連接架構是算力性能不可忽視的決定因素2)芯片層面,高速c2c連接方案(如NVLink、CXL等)的推廣,是宏觀設備/數據中心層高速網絡、光網絡等需求爆發的底層邏輯。3)設備層面,單S
51、oC性能提升+芯片“堆量”,不意味著算力集群整體性能的線性提升;而Nvidia、Google、AMD、AWS等算力大廠正應用InfiniBand、OCS等新架構替代通用算力下的以太網,帶來增量網絡需求39#page#SWS口4.結論與相關標的相關標的:中際旭創、華工科技、新易盛、天孚通信、劍橋科技、紫光股份、銳捷網絡、中興通訊等風險提示:信息技術送代產生新的網絡通信方案,可能顛覆已有路徑或格局。技術選代往往會產生新的通信方案。硅光/CPO/MPO/LPO/OCS等已經體現了光通信領域的新技術井噴,未來進一步的技術路徑更新和選擇也實際影響了網絡連接的需求。相關上市公司估值表PE2023/6/14
52、預測凈利潤證券代碼證券簡稱2024E收盤價(元)2023E2023E2024E總市值(億元)96.509.278.61600941.SH中國移動12,729.871.373.641,478.02601728.SH中國電信6.055,187.33309.10347.5716.7814.92寶信軟件45.65937.4125.5832.0136.6529.29600845.SH華工科技37.09372.9412.1015.5230.8224.03000988.SZ688777.SH中控技術90.08488.2510.9714.4044.5133.91紫光股份34.40983.8726.9933.1
53、336.45000938.SZ29.70億聯網絡457.8329.74300628.SZ36.2739.0915.3911.71星網銳捷22.807.459.2218.14002396.SZ135.1914.6615.05300308.SZ中際旭創129.551,040.0619.8669.1152.38新易盛65.80467.1312.5916.5837.1128.18300502.SZ銳捷網絡59.31336.997.5644.55301165.SZ10.1933.075.1086.3018.79600050.SH中國聯通1,622.03100.1416.20資料來源:Wind,申萬宏源研
54、究注:紫光股份、星網銳捷、中際旭創、新易盛、銳捷網絡、中國聯通凈利潤取Wind一致預測40#page#SWS信息披露證券分析師承諾本報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,以勤觸的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,并對本報告的內容和觀點負責,本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。與公司有關的信息披露本公司隸屬還可能為或爭取為這些標的提供服務。本公司在知曉索取有關披露資料或登錄義務??蛻艨赏ㄟ^compliances靜默期安排及其他有關的信息披露機構銷售團隊聯系人華東A組
55、陳陶021-華東B組謝文寬021-華北組李丹010-華南組李異15914129169IA股投資評級說明以報告日后的6個月內,證券相對于市場基準指數的張跌幅為標準,定義如下:買入(Buy)相對強于市場表現20%以上增持(Outperform)相對強于市場表現5%20%中性(Neutral相對市場表現在-5%+5%之間波動;持(Underperform)相對弱于市場表現5%以下。行業的投資評級以報告日后的6個月內,行業相對于市場基準指數的漲跌幅為標準,定義如下:看好(Overw行業超越整體市場表現的nt中性(Neutral)行業與整體市場表現基本持平;看淡(Underweight)行業弱于整體市場
56、表現。本報告采用的基準指數:滬深300指數港股投資評級說明證券的投資評級以報告日后的6個月內,證券相對于市場基基準指數的張跌幅為標準,定義如下買入(BUY)股價預計將上漲20%以上股價預計將上漲10-20%;增持(Outperform)持有(Hold)股價變動幅度預計在-10%和+10%之間減持(Underperform)股價預計將下跌10-20%;賣出(SELL):股價預計將下聯20%以上行業的投資評級以報告日后的6個月內,行業相對于市場基準指數的張跌幅為標準,定義如下:看好(Overweight)行業超越整體市場表現中性(Neutral行業與整體市場表現基本持平行業弱于整體市場表現??吹?/p>
57、Undereight)本報告采用的基準指數:恒生中國企業指數(HSCEI)構以及其中配的特多熱強,41#page#SWS法律聲明本報告由上海申銀萬國證券研究所有限公司(隸屬于申萬宏源證券有限公司,以下簡稱“本公司”)在中華人民共和國內地(香港、澳門、臺灣除外)發布,僅供本公司的客戶(包括合格的境外機構投資者等合法合規的客戶)使用。本公司不會因接收人收到本報告而視其為客戶。有關本報告的短信提示、電話推薦等只是研究觀點的簡要溝通,需以本公司http:/網站刊載的完整報告為準,本公司并接受客戶的后續問詢。本報告首頁列示的聯系人,除非另有說明,僅作為本公司就本報告與客戶的聯絡人,承擔聯絡工作,不從事任
58、何證券投資咨詢服務業務。共影科區的首工最研“森箱我驗我管參工業回了來臥”管出士看者導非作為或被視為出售或購買證券或其他投資標的的邀請或向人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告??蛻魬斂紤]到本公司可能存在可能影響本報告客觀性的利益沖突,不應視本報告為作出投資決策的惟一因素??蛻魬灾髯鞒鐾顿Y決策并自行承擔投資風險。本公司特別提示本公司不會與任何客戶以任何形式分享證券投資收益或分擔證券投資損失,任何形式的分享證券投資收益或者分擔證券投資
59、損失的書面或口頭承諾均為無效。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。本公司未確保本報告充分考慮到個別客戶特殊的投資目標、財務狀況或需要。本公司建議客戶應考慮本報告的任何意見或建議是否符合其特定狀況,以及(若有必要)咨詢獨立投資顧問。在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何提失負任何責任。市場有風險,投資需謹慎。若本報告的接收人非本公司的客戶,應在基于本報告作出任何投資決定或就本報告要求任何解釋前咨詢獨立投資顧問。本報告的版權歸本公司所有,屬于非公開資料。本公司對本報告保留一切權利。除非另有書面顯示,否則本報告中的所有材料的版權均屬本公司。未經本公司事先書面授權,本報告的任何部分均不得以任何方式制作任何形式的拷貝、復印件或復制品,或再次分發給任何其他人,或以任何侵狐本公司版權的其他方式使用。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記,未獲本公司同意,任何人均無權在任何情況下使用他們。42