《計算機行業新型智算中心改造系列報告一:網絡成大模型訓練瓶頸節點內外多方案并存-240505(24頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業新型智算中心改造系列報告一:網絡成大模型訓練瓶頸節點內外多方案并存-240505(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、請務必閱讀正文之后的免責聲明及其項下所有內容證券研究報告證券研究報告|2022024 4年年5 5月月5 5日日新型智算中心改造系列報告新型智算中心改造系列報告一:一:網絡成大模型訓練瓶頸,節點內外多方案網絡成大模型訓練瓶頸,節點內外多方案并存并存行業行業研究研究 行業專題行業專題 計算機計算機 人工智能人工智能投資評級:投資評級:超配(維持評級)超配(維持評級)證券分析師:熊莉021-S0980519030002聯系人:艾憲0755-請務必閱讀正文之后的免責聲明及其項下所有內容摘要摘要AIAI大模型訓練和推理拉動智能算力需求快速增長。大模型訓練和推理拉動智能算力需求快速增長。a a)模型迭代
2、和數量增長拉動)模型迭代和數量增長拉動AIAI算力需求增長:算力需求增長:從單個模型來看,模型能力持續提升依賴于更大的訓練數據量和模型參數量,對應更高的算力需求;從模型的數量來看,模型種類多樣化(文生圖、文生視頻)和各廠商自主模型的研發,均推動算力需求的增長。b b)未來)未來AIAI應用爆發,推理側算力需求快速增長:應用爆發,推理側算力需求快速增長:各廠商基于AI大模型開發各類AI應用,隨著AI應用用戶數量爆發,對應推理側算力需求快速增長。智算中心從集群走向超級池化智算中心從集群走向超級池化。智算中心是以GPU、AI加速卡等智能算力為核心,集約化建設的新型數據中心;隨著大模型普遍進入萬億規模
3、,算力、顯存、互聯需求再次升級,高速互聯的百卡“超級服務器”可能成為新的設備形態,智算中心將走向超級池化階段,對設備形態、互聯方案、存儲、平臺、散熱等維度提出新的要求。網絡互聯:節點內外多方案并存網絡互聯:節點內外多方案并存。1 1)節點內)節點內:私有方案以英偉達NVLink為代表,NVLink已經發展至第五代產品,同時支持576個GPU之間的無縫高速通信;開放技術方案以OAM和UBB為主,OCP組織定義了業內通用的AI扣卡模組形態(OAM)-基板拓撲結構(UBB)設計規范。2 2)節點間)節點間:主要方案為Infiniband和RoCEv2;Infiniband網絡主要包括InfiniBa
4、nd網卡、InfiniBand交換機、Subnet Management(SM)、連接件組成;RoCEv2網絡是一個純分布式的網絡,由支持RoCEv2的網卡和交換機、連接件、流控機制組成。InfiniBand在網絡性能、集群規模、運維等方面具備顯著優勢。投資建議投資建議:AI大模型的參數量和訓練數據量的快速增長,對數據中心的計算、存儲、網絡等提出新的要求,新型智算中心是產業發展趨勢;AI大模型需要部署在高速互聯的多個AI芯片上,數據樣本和模型結構被切分到多張卡或者節點上,卡間或節點間不僅有訓練數據通信,還有模型梯度的頻繁傳遞,對智算中心的網絡互聯提出新的要求,建議關注寶信軟件。風險提示風險提示
5、:宏觀經濟波動、下游需求不及預期、AI倫理風險等。9WbUbZbZfYaVaYbZ6McM7NtRpPpNrNeRoOqNkPqQzR8OmMzQxNtQmPwMnQmM請務必閱讀正文之后的免責聲明及其項下所有內容智算中心:從集群走向超級池化0101網絡互聯:節點內外多方案并存0202目錄目錄投資建議及風險提示0303請務必閱讀正文之后的免責聲明及其項下所有內容智能算力需求:訓練數據量智能算力需求:訓練數據量+參數量大幅提升,模型能力參數量大幅提升,模型能力“涌現涌現”訓練數據量訓練數據量+參數量大幅提升,模型能力參數量大幅提升,模型能力“涌現涌現”。根據2022年谷歌、斯坦福大學和Deepm
6、ind聯合發表的Emergent Abilities of Large Language Models,很多新能力在中小模型上線性放大都得不到線性的增長,模型規模必須呈指數級增長并超過某個臨界點,新技能才會突飛猛進。同時,模型的參數量和數據量在一定程度下是正相關的,因為:a)在小規模數據上訓練模型時,若模型參數量過大,可能出現過擬合情況;b)在大規模數據上訓練模型時,若不增加模型參數量,可能造成新的知識無法存放的情況。圖1:訓練數據大幅提升后,模型能力“涌現”資料來源:Jason Wei等著-Emergent Abilities of Large Language Models-Transac
7、tions on Machine Learning Research(2022)-P4,國信證券經濟研究所整理圖2:模型參數大幅提升后,模型能力“涌現”資料來源:Jason Wei等著-Emergent Abilities of Large Language Models-Transactions on Machine Learning Research(2022)-P27,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容智能算力需求:大模型訓練智能算力需求:大模型訓練+推理拉動智能算力需求快速增長推理拉動智能算力需求快速增長大模型訓練大模型訓練+推理拉動智能算力需求快速增長
8、推理拉動智能算力需求快速增長。a a)模型迭代和數量增長拉動)模型迭代和數量增長拉動AIAI算力需求增長算力需求增長:從單個模型來看,模型能力持續提升依賴于更大的訓練數據量和模型參數量,對應更高的算力需求;從模型的數量來看,模型種類多樣化(文生圖、文生視頻)和各廠商自主模型的研發,均推動算力需求的增長。b b)未來)未來AIAI應用爆發,推理側算力需求快速增長應用爆發,推理側算力需求快速增長:各廠商基于AI大模型開發各類AI應用,隨著AI應用用戶數量爆發,對應推理側算力需求快速增長。圖3:全球智能算力快速增長資料來源:中國算力發展指數白皮書(2022年&2023年,中國信通院)、國信證券經濟研
9、究所整理圖4:中國智能算力快速增長資料來源:2023-2024年中國人工智能計算力發展評估報告(IDC&浪潮信息)、國信證券經濟研究所整理0.23 0.45 52.50 0102030405060202120222030智能算力(基于FP32計算,ZFLOPS)75155.2259.9414.3497.1616.6812.51117.402004006008001000120020202021202220232024202520262027智能算力(基于FP16計算,EFLOPS)請務必閱讀正文之后的免責聲明及其項下所有內容智算中心:以智算中心:以GPUGPU、AIAI加速卡為核心的新型數據中
10、心加速卡為核心的新型數據中心智算中心是以智算中心是以GPUGPU、AIAI加速卡等智能算力為核心,集約化建設的新型數據中心。加速卡等智能算力為核心,集約化建設的新型數據中心。智算中心為AI大模型訓練、推理提供算力支撐,同時為AI應用提供算力服務、數據服務和算法服務;以中國移動推出了NICC新型智算中心為例,可分為“三層兩域”:基礎設施層:提供計算、存儲、網絡等硬件資源。智算平臺層:作為資源管理核心,提供裸金屬、虛機和容器等多樣化實例以及細粒度的資源池化能力;搭建算力原生平臺提供應用跨架構遷移能力。應用使能層:集成行業主流AI開發框架。智算運維域:負責對底層IaaS進行管理維護,確保系統穩定運營
11、。智算運營域:對接外部客戶,提供計量計費、訪問、交易等界面,對內根據上層任務進行資源編排調度。圖5:中國移動NICC新型智算中心的“三層兩域”架構資料來源:中國移動 NICC 新型智算中心技術體系白皮書,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容圖6:大模型參數規模增長速度超過摩爾定律,推動智算中心發展資料來源:生成式AI(State of Generative AI 2023)-啟明創投、未盡研究-P8、國信證券經濟研究所整理智算中心:從集群走向超級池化智算中心:從集群走向超級池化智算中心逐步從智算中心逐步從“集群時期集群時期”走向走向“超級池化時期超級池化時期”。隨
12、著AI大模型參數量增長,新型智算中心的建設既要考慮計算、存儲、網絡三大維度橫向協同,也應兼顧軟件平臺與硬件資源的縱向協同,聚焦于“新互聯”、“新算效”、“新存儲”、“新平臺”、“新節能”。智算中心發展推動力:模型參數量快速增長,對算力、顯存和互聯提出新的需求。集群時期(2022-2024年):數據及模型出現巨量化趨勢,千億級模型出現,對算力底座和拓展性提出更高要求。設備形態:GPU、AI芯片以扣卡模組為主,服務器形態多為8卡,DPU按需引入解決裸金屬管理、存儲加速等業務痛點;硬件資源開始按集群的方式部署?;ヂ摲桨福阂苑掌鞴濣c為界限,節點內采用高速計算總線,節點間采用100G/200G高速無損
13、網絡。存儲方面:原先獨立部署的文件、對象存儲逐漸向融合存儲演進,提升數據交互效率;平臺方面:具備池化算力分配能力,實現底層智算資源的細粒度分配、動態調度和一體化管理;同時,引入分布式并行訓練框架提升模型訓練效率;散熱方面:為配合高算力需求,散熱系統逐步從風冷向冷板式液冷過渡。請務必閱讀正文之后的免責聲明及其項下所有內容智算中心:從集群走向超級池化智算中心:從集群走向超級池化超級池化時期(2025年開始):大模型普遍進入萬億規模,算力、顯存、互聯需求再次升級,高速互聯的百卡“超級服務器”可能成為新的設備形態。設備形態:從單機8卡服務器逐步轉化為“超級服務器”,基于存算一體架構的大算力芯片將開始逐
14、步應用?;ヂ摲桨福簝炔看蛟旖y一的協議實現CPU、GPU、AI芯片、顯存、存儲等池化資源無縫連接;外部通過GSE等高性能交換網絡,達到極高吞吐、極低時延的系統算力。存儲方面:在“超級服務器”內支持內存池化技術,對外拓展支持全局統一存儲。平臺方面:構建基于算力原生平臺的跨架構開發、編譯、優化環境,屏蔽底層硬件差異,從軟件層面最大化使能異構算力融通,以應對日益割裂的智算生態。散熱方面:浸沒式液冷逐步落地。圖7:新型智算中心的發展路徑資料來源:中國移動 NICC 新型智算中心技術體系白皮書,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容智算中心:從集群走向超級池化0101網絡互聯:
15、節點內外多方案并存0202目錄目錄投資建議及風險提示0303請務必閱讀正文之后的免責聲明及其項下所有內容圖8:模型參數量(及模型訓練所需算力)增長顯著高于GPU內存和吞吐量的增長資料來源:Rishi等著-On the Opportunities and Risks of Foundation Models-arXiv(2022)-P97、國信證券經濟研究所整理網絡互聯:大模型訓練,網絡成為網絡互聯:大模型訓練,網絡成為AIAI算力瓶頸算力瓶頸分布式并行運算是發展趨勢分布式并行運算是發展趨勢。AI大模型需要部署在高速互聯的多個AI芯片上,主要由于:1)單芯片算力提升的速度明顯低于模型參數的增長速
16、率;2)巨量的模型參數和訓練數據,已經遠超單個AI芯片、單臺服務器的計算能力。傳統的中小傳統的中小AIAI模型模型:訓練模式多采用單卡運行或單節點內多卡數據并行,每張卡或節點上都有完整的模型結構,卡間通信主要用于傳輸訓練數據,因此通信需求不頻發,帶寬通常在幾十GB,傳統PCIe可滿足要求。AIAI大模型大模型:數據樣本和模型結構被切分到多張卡或者節點上,卡間或節點間不僅有訓練數據通信,還有模型梯度的頻繁傳遞;數據并行(DP):每計算設備(卡或節點)都有一個完整模型,將數據集拆分到多個計算設備同時訓練,在反向傳播中,各個設備上的梯度進行歸約操作求平均,再更新模型參數。模型并行(MP):1)流水線
17、并行(PP):將模型按照“層”拆分為多個Stages放在每個計算設備上,訓練過程是逐層順序計算,通信數據量比DP小,點對點互聯即可;2)張量并行(TP):將模型在“層”內進行切分,訓練過程中前向和反向傳播中都設計Allreduce,通信量大且頻繁,通常要求全互聯(FC)或交換拓撲(Switch)。圖9:不同的分布式并行策略及對應的卡間互聯要求資料來源:中國移動NICC新型智算中心技術體系白皮書、國信證券經濟研究所整理策略通信模式互聯拓撲,帶寬需求數據并行DPAllreduce環狀或全互聯,常規需求,幾幾十GB/s流水線并行PPP2P點對點相連,常規需求,幾十幾GB/s張量并行TPAllredu
18、ce環狀或全互聯,帶寬需求高,幾百GB/s請務必閱讀正文之后的免責聲明及其項下所有內容網絡互聯網絡互聯-節點內外多種互聯協議并存節點內外多種互聯協議并存智算中心內部網絡互聯可以分為節點內互聯和節點外互聯(此處以服務器為節點),節點內互聯包括處理器之間、處理器與外設及存儲之間互聯,節點外互聯主要指服務器之間互聯。計算體系多種互聯協議:自1978年intel開創x86體系以來,逐步衍生出各種物理特性、傳輸特性和功能特性不同的互聯協議。處理器之間:UPI、CXL、PCIe、NVLink等;處理器與外設及存儲之間:Pcie、CXL、NVLink、SATA、SAS、NVMe等;節點之間:Ethernet
19、、IB等。圖10:計算體系多種互聯協議資料來源:數據中心2030-華為,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容網絡互聯網絡互聯-節點內:私有方案以英偉達節點內:私有方案以英偉達NVLinkNVLink為代表為代表大模型場景,私有和開放技術方案并存大模型場景,私有和開放技術方案并存。針對傳統傳統的中小模型,PCIe技術方案已經非常成熟;面向大模型場景,基于扣卡模組的卡間高速互聯方案主要分為私有和開放技術兩大類,私有方案以英偉達NVLink為代表,開放技術方案以OAM和UBB為主。私有方案以英偉達私有方案以英偉達NVLinkNVLink為代表。為代表。2014年英偉達發
20、布第一代NVLink,旨在實現GPU芯片間低延遲、高帶寬的數據互聯,相較于傳統PCIe方案,CPU和GPU之間共享數據的速度大幅提升。傳統PCIe方案:PCIe由Intel 2001年推出,主要用于連接CPU和各類高速外圍設備,采用點對點的連接方式,平均3年迭代一次;在傳統PCIe方案中,GPU發出的信號要先傳遞到PCIe Switch,PCIe Switch中涉及到數據的處理,CPU會對數據進行分發調度,會引入額外的網絡延遲,限制了系統性能。NVLink方案:以P100方案為例,擁有4條NVLink,單條NVLink是一個雙向接口,包括32個鏈路,每個方向形成8個差分(采用基于差分信號線的高
21、速串行通信技術),單條NVLink提供40GB/s帶寬(通過將多個Sub-Link組成Port,實現GPU之間的快速數據傳輸),合計提供160GB/s帶寬。圖11:傳統PCIe技術方案資料來源:WikiChip、國信證券經濟研究所整理圖12:P100 GPU中有4個NVLink 1.0,總聚合帶寬達160 GB/s資料來源:WikiChip、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容圖14:NVLink已經發展到第五代資料來源:英偉達官網、國信證券經濟研究所整理圖13:NVLink拓撲結構發展資料來源:英偉達官網、國信證券經濟研究所整理網絡互聯網絡互聯-節點內:節點內:
22、NVLinkNVLink已經發展至第五代產品已經發展至第五代產品NVLinkNVLink已經發展至第五代:已經發展至第五代:第一代到第二代的演進主要是互聯拓撲的改變,從cube直連變為Switch交換拓撲;第三代在通過增加單卡的NVLink通道數提升點到點(P2P)帶寬,第四代通過完善多種協議內容,進一步實現C2C(Chip to Chip)、AI卡間以及服務器節點的統一連接;第五代帶寬大幅提升,同時支持576個GPU之間的無縫高速通信。NVSwitchNVSwitch:節點交換架構。:節點交換架構。NVSwitch是一種類似交換機的物理芯片(Asic),通過其接口可以將多個GPU高速互聯在一
23、起,實現所有GPU在一個具有全帶寬連接集群中協同工作。圖15:NVLink向更大帶寬、更多Link數迭代資料來源:英偉達官網、國信證券經濟研究所整理圖16:NVLink Switch迭代情況資料來源:英偉達官網、國信證券經濟研究所整理第二代第三代第四代第五代NVLink帶寬(單GPU)300GB/s600GB/s900GB/s1,800GB/s單GPU最大Link數6121818支持NVIDIA架構NVIDIA Volta architectureNVIDIA Ampere architectureNVIDIA Hopper architectureNVIDIA Blackwell archi
24、tecture第一代第二代第三代第四代單NVLink Domain內可直連GPU個數Up to 8Up to 8Up to 8Up to 576NVSwitch GPU-to-GPU帶寬300GB/s600GB/s900GB/s1,800GB/s加總帶寬2.4TB/s4.8TB/s7.2TB/s1PB/s支持NVIDIA架構NVIDIA Volta architectureNVIDIA Ampere architectureNVIDIA Hopper architectureNVIDIA Blackwell architecture請務必閱讀正文之后的免責聲明及其項下所有內容網絡互聯網絡互聯-
25、節點內:開放技術方案以節點內:開放技術方案以OAMOAM和和UBBUBB為主為主開放技術方案:開放技術方案:2019年OCP組織為降低整機廠家集成多家AI芯片的適配難度,發起開放加速器基礎設施項目(OAI),定義了業內通用的AI扣卡模組形態(OAM)-基板拓撲結構(UBB)設計規范,以8張OAM為一個整體,進一步定義了8*OAM的Baseboard的主機接口、供電方式、散熱方式、管理接口、卡間互聯拓撲、Scale Out方式。系統架構系統架構:OAM模塊承擔起單個GPU節點的AI加速計算能力,通過符合UBB v1.5base規范的基板完成OAM間的7P*8FC(全互聯)、6P*8HCM(混合立
26、方互聯)等高速互聯拓撲實現多OAM數據低延時共享,利用RDMA網絡部署實現對外拓展完成集群互聯,最大程度上發布OAM計算性能并降低通信帶寬限制。AIAI扣卡模組形態(扣卡模組形態(OCP Accelerator ModuleOCP Accelerator Module,OAMOAM):OCP-OAI定義了OAM的結構形態及互聯接口,以此促進跨加速器通信的可拓展性?;逋負浣Y構(基板拓撲結構(Universal BaseboardUniversal Baseboard,UBBUBB):UBB基板可以承載8個OAM模塊,形成一個AI加速計算子系統,尺寸為16.7*21英寸,可以放在19寸、21寸機
27、柜中。圖17:OAM的全互聯和混合立方互聯資料來源:開放加速規范AI服務器設計指南(浪潮信息)、國信證券經濟研究所整理圖18:UBB硬件布局和關鍵部件資料來源:開放加速規范AI服務器設計指南(浪潮信息)、國信證券經濟研究所整理全互聯混合立方互聯請務必閱讀正文之后的免責聲明及其項下所有內容圖19:加速比和RDMA技術資料來源:智算中心網絡架構白皮書、國信證券經濟研究所整理圖20:Infiniband網絡架構資料來源:智算中心網絡架構白皮書、國信證券經濟研究所整理網絡互聯網絡互聯-節點間:主要方案為節點間:主要方案為InfinibandInfiniband和和RoCEv2RoCEv2RDMARDM
28、A技術是降低卡間通信時間的關鍵技術。技術是降低卡間通信時間的關鍵技術。在分布式場景中,整體算力并不是隨著智算節點的增長而線性增長,而是存在加速比(通常小于1,由于存在卡間通信時間),RDMA技術可以繞過操作系統內核,直接訪問另一臺主機內存,從而大幅降低卡間通信時間。主要方案為主要方案為InfinibandInfiniband和和RoCEv2RoCEv2。實現RDMA的方式有Infiniband、RoCEv1、RoCEv2、iWARP,其中RoCEv1已經被v2替代,iWARP使用較少,目前主要方案為Infiniband和RoCEv2。圖21:RoCE網絡架構資料來源:智算中心網絡架構白皮書、國
29、信證券經濟研究所整理n 加速比通常小于加速比通常小于1:分布式場景,單次計算時間包括單卡計算時間:分布式場景,單次計算時間包括單卡計算時間+卡間通信時間;卡間通信時間;n 提升加速比:降低卡間通信時間是關鍵,關鍵技術是提升加速比:降低卡間通信時間是關鍵,關鍵技術是RDMA技術,其可以繞過操技術,其可以繞過操作系統內核,讓一臺主機直接訪問另一臺主機的內存;作系統內核,讓一臺主機直接訪問另一臺主機的內存;請務必閱讀正文之后的免責聲明及其項下所有內容網絡互聯網絡互聯-節點間節點間:InfiniBand:InfiniBand網絡核心組成網絡核心組成InfinibandInfiniband網絡主要包括網
30、絡主要包括InfiniBandInfiniBand網卡、網卡、InfiniBandInfiniBand交換機、交換機、Subnet ManagementSubnet Management(SMSM)、連接件組成。)、連接件組成。目前,英偉達是InfiniBand網絡方案和設備最主要供應商,其他供應商還包括intel、Cisco、HPE等。英偉達:英偉達:InfiniBand技術的主要供應商,提供各種InfiniBand適配器、交換機和其他相關產品;IntelIntel:InfiniBand另一重要供應商,提供各種InfiniBand網絡產品和方案;CiscoCisco:知名網絡設備制造商,也提
31、供InfiniBand交換機和其他相關產品;HPEHPE:大型IT公司,提供各種InfiniBand網絡解決方案和產品,包括適配器、交換機和服務器等。圖22:Infiniband網絡主要包括網卡、交換機、Subnet Management(SM)、連接件組成資料來源:智算中心網絡架構白皮書、英偉達、Mellanox、國信證券經濟研究所整理網卡交換機SM連接件InfiniBand網卡以英偉達為主;速率方面快速發展,200Gbps HDR已實現規?;虡I部署,400Gbps NDR開始商業部署;SB7800(36*100G)Quantum-1(40*200G)Quantum-2(64*400G)I
32、nfiniBand交換機上不運行任何路由協議;網絡轉發表是由SM進行統一計算并統一下發的;SM分為OpenSM(開源)和UFM(收費)兩種模式;SM通常部署在接入InfiniBand子網的一臺服務器上,一個子網內同時只能有一個SM工作,若多個設備配置成SM,則只有一個SM能成為主SM;專用線纜和光模塊專用線纜和光模塊請務必閱讀正文之后的免責聲明及其項下所有內容網絡互聯網絡互聯-節點間節點間:InfiniBand:InfiniBand網絡特點網絡特點-無損無損&萬卡拓展能力萬卡拓展能力原生無損網絡:原生無損網絡:InfiniBand網絡采用基于Credit信令機制,從根本上避免緩沖區溢出丟包。發
33、送端只有在確定接收端有額度能接受對應數量的報文后,才會啟動報文發送;每一條鏈路都有預置緩沖區,發送端一次發送的數據不會超過接收端可用預置緩沖區的大??;接收端完成轉發后會騰空緩沖區,并持續向發送端返回當前可用的預置緩沖區大??;通過該流控機制,可以確保發送端絕不會發送過量,網絡中不會產生緩沖區溢出丟包。萬卡拓展能力:萬卡拓展能力:InfiniBand的Adaptive Routing基于逐包的動態路由,在超大規模組網的情況下保證網絡最優利用。圖23:Infiniband網絡無損數據傳輸資料來源:智算中心網絡架構白皮書、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容網絡互聯網絡互
34、聯-節點間節點間:RoCEv2:RoCEv2網絡核心組成網絡核心組成RoCEv2RoCEv2網絡是一個純分布式的網絡,由支持網絡是一個純分布式的網絡,由支持RoCEv2RoCEv2的網卡和交換機、連接件、流控機制的網卡和交換機、連接件、流控機制組成,一般情況下是兩層架構。組成,一般情況下是兩層架構。連接件使用傳統光纖和光模塊即可,流控機制通常使用PFC、ECN和DCQCN。設備供應商設備供應商:1)交換機:支持RoCE交換機供應商較多,新華三、華為等占據主要市場份額。2)網卡:目前英偉達ConnextX系列網卡占據主要市場份額。圖24:RoCE網絡主要包括網卡、交換機、流控機制、連接件組成資料
35、來源:智算中心網絡架構白皮書、英偉達、Mellanox、國信證券經濟研究所整理網卡交換機流控機制連接件商用卡商用卡云廠商云廠商自研自研DPUDPU百度智能云太行DPU支持RoCE網卡的廠商較多,主流廠商為英偉達、Intel、Broadcom;以PCIe卡為主,RDMA網卡的端口PHY速率一般50Gbps起,當前可達400Gbps;以云廠商為代表的自研DPU也在蓬勃發展;國內的主流IDC交換機廠商包括華為、新華三等;交換機的核心是轉發芯片,目前市場上商用轉發芯片多為博通的Tomahawk系列芯片;交換機的端口從100Gbps逐步提升到400Gbps,轉發能力持續提升;傳統光纖和光模塊傳統光纖和光
36、模塊PFCPFC流控策略流控策略DCQCNDCQCN流控策略流控策略請務必閱讀正文之后的免責聲明及其項下所有內容圖26:InfiniBand和RoCEv2技術對比資料來源:智算中心網絡架構白皮書、國信證券經濟研究所整理圖25:InfiniBand的應用層端對端時延更低資料來源:智算中心網絡架構白皮書、國信證券經濟研究所整理網絡互聯網絡互聯-節點間節點間:InfiniBand:InfiniBand和和RoCEv2RoCEv2網絡方案對比網絡方案對比網絡性能:網絡性能:InfiniBand的端到端時延小于RoCEv2,但RoCEv2性能也滿足絕大部分智算場景的需要;集群規模集群規模:InfiniB
37、and在集群規模領域具備顯著優勢,可以支持萬卡集群(且性能基本不下降);RoCEv2單集群支持千卡規模(性能也基本不下降);運維方面運維方面:InfiniBand更成熟,包括多租戶隔離能力,運維診斷能力等;成本方面成本方面:InfiniBand成本更高,主要由于InfiniBand交換機價格較貴;供應商方面供應商方面:InfiniBand供應商主要以英偉達為主,RoCEv2的供應商較多。對比項對比項InfiniBandRoCEv2同集群端到端時延2us5us流控機制基于Credit的流控機制PFC/ECN,DCQCN等轉發模式基于Local ID轉發基于IP轉發負載均衡模式逐包的自適應路由EC
38、MP方式路由故障修復Self-Healing Interconnect Enhancement for Intelligent Datacenters路由收斂網絡配置通過UFM實現零配置手工配置請務必閱讀正文之后的免責聲明及其項下所有內容智算中心:從集群走向超級池化0101網絡互聯:節點內外多方案并存0202目錄目錄投資建議及風險提示0303請務必閱讀正文之后的免責聲明及其項下所有內容投資建議投資建議AIAI大模型訓練和推理需求推動新型智算中心建設。大模型訓練和推理需求推動新型智算中心建設。AI大模型的參數量和訓練數據量的快速增長,對數據中心的計算、存儲、網絡等提出新的要求,新型智算中心是產業
39、發展趨勢;AI大模型需要部署在高速互聯的多個AI芯片上,數據樣本和模型結構被切分到多張卡或者節點上,卡間或節點間不僅有訓練數據通信,還有模型梯度的頻繁傳遞,對智算中心的網絡互聯提出新的要求,建議關注寶信軟件。寶信軟件寶信軟件:隨著國家大力發展數據中心產業,公司借助十四五規劃和“東數西算”政策,將數據中心新建項目向華北拓展;公司對數據中心進行升級改造,從軟件、機柜的模塊集成、電池組優化供配、機房自然冷源利用等多角度進行優化和升級改造;同時,公司構建新型智算中心項目,支撐行業大模型及人工智能應用的建設發展。請務必閱讀正文之后的免責聲明及其項下所有內容風險提示風險提示第一,宏觀經濟波動。若宏觀經濟波
40、動,產業變革及新技術的落地節奏或將受到影響,宏觀經濟波動還可能對 IT 投資產生負面影響,從而導致整體行業增長不及預期。第二,下游需求不及預期。若下游數字化需求不及預期,相關的數字化投入增長或慢于預期,致使行業增長不及預期。第三,AI倫理風險。AI可能會生產違反道德、常規、法律等內容。請務必閱讀正文之后的免責聲明及其項下所有內容免責聲明免責聲明分析師承諾分析師承諾作者保證報告所采用的數據均來自合規渠道;分析邏輯基于作者的職業理解,通過合理判斷并得出結論,力求獨立、客觀、公正,結論不受任何第三方的授意或影響;作者在過去、現在或未來未就其研究報告所提供的具體建議或所表述的意見直接或間接收取任何報酬
41、,特此聲明。重要聲明重要聲明本報告由國信證券股份有限公司(已具備中國證監會許可的證券投資咨詢業務資格)制作;報告版權歸國信證券股份有限公司(以下簡稱“我公司”)所有。,本公司不會因接收人收到本報告而視其為客戶。未經書面許可,任何機構和個人不得以任何形式使用、復制或傳播。任何有關本報告的摘要或節選都不代表本報告正式完整的觀點,一切須以我公司向客戶發布的本報告完整版本為準。本報告基于已公開的資料或信息撰寫,但我公司不保證該資料及信息的完整性、準確性。本報告所載的信息、資料、建議及推測僅反映我公司于本報告公開發布當日的判斷,在不同時期,我公司可能撰寫并發布與本報告所載資料、建議及推測不一致的報告。我
42、公司不保證本報告所含信息及資料處于最新狀態;我公司可能隨時補充、更新和修訂有關信息及資料,投資者應當自行關注相關更新和修訂內容。我公司或關聯機構可能會持有本報告中所提到的公司所發行的證券并進行交易,還可能為這些公司提供或爭取提供投資銀行、財務顧問或金融產品等相關服務。本公司的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中意見或建議不一致的投資決策。本報告僅供參考之用,不構成出售或購買證券或其他投資標的要約或邀請。在任何情況下,本報告中的信息和意見均不構成對任何個人的投資建議。任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。投資者應結合自己的投資目標和財
43、務狀況自行判斷是否采用本報告所載內容和信息并自行承擔風險,我公司及雇員對投資者使用本報告及其內容而造成的一切后果不承擔任何法律責任。證券投資咨詢業務的說明證券投資咨詢業務的說明本公司具備中國證監會核準的證券投資咨詢業務資格。證券投資咨詢,是指從事證券投資咨詢業務的機構及其投資咨詢人員以下列形式為證券投資人或者客戶提供證券投資分析、預測或者建議等直接或者間接有償咨詢服務的活動:接受投資人或者客戶委托,提供證券投資咨詢服務;舉辦有關證券投資咨詢的講座、報告會、分析會等;在報刊上發表證券投資咨詢的文章、評論、報告,以及通過電臺、電視臺等公眾傳播媒體提供證券投資咨詢服務;通過電話、傳真、電腦網絡等電信
44、設備系統,提供證券投資咨詢服務;中國證監會認定的其他形式。發布證券研究報告是證券投資咨詢業務的一種基本形式,指證券公司、證券投資咨詢機構對證券及證券相關產品的價值、市場走勢或者相關影響因素進行分析,形成證券估值、投資評級等投資分析意見,制作證券研究報告,并向客戶發布的行為。國信證券投資評級國信證券投資評級投資評級標準投資評級標準類別類別級別級別說明說明報告中投資建議所涉及的評級(如有)分為股票評級和行業評級(另有說明的除外)。評級標準為報告發布日后6到12個月內的相對市場表現,也即報告發布日后的6到12個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深3
45、00指數(000300.SH)作為基準;新三板市場以三板成指(899001.CSI)為基準;香港市場以恒生指數(HSI.HI)作為基準;美國市場以標普500指數(SPX.GI)或納斯達克指數(IXIC.GI)為基準。股票投資評級股票投資評級買入 股價表現優于市場代表性指數20%以上增持 股價表現優于市場代表性指數10%-20%之間中性 股價表現介于市場代表性指數10%之間賣出 股價表現弱于市場代表性指數10%以上行業投資評級行業投資評級超配 行業指數表現優于市場代表性指數10%以上中性 行業指數表現介于市場代表性指數10%之間低配 行業指數表現弱于市場代表性指數10%以上請務必閱讀正文之后的免責聲明及其項下所有內容國信證券經濟研究所國信證券經濟研究所深圳深圳深圳市福田區福華一路125號國信金融大廈36層郵編:518046 總機:0755-82130833上海上海上海浦東民生路1199弄證大五道口廣場1號樓12樓郵編:200135北京北京北京西城區金融大街興盛街6號國信證券9層郵編:100032