《TMT行業深度報告:算力大時代AI算力產業鏈全景梳理-230614(99頁).pdf》由會員分享,可在線閱讀,更多相關《TMT行業深度報告:算力大時代AI算力產業鏈全景梳理-230614(99頁).pdf(99頁珍藏版)》請在三個皮匠報告上搜索。
1、 本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請務必閱讀正文之后的免責條款和聲明。證券證券研究報告研究報告行業深度報告行業深度報告 算力大時代,算力大時代,AIAI 算力產業鏈算力產業鏈全景梳理全景梳理 核心觀點核心觀點 生成式生成式 AI 取得突破,取得突破,我們對生成式我們對生成式 AI 帶來的算力需求做了上帶來的算力需求做了上下游梳理,并做了交叉驗證,可以看到下游梳理,并做了交叉驗證,可以看到以以 ChatGPT 為代表的為代表的大模型訓練和推理大模型
2、訓練和推理端均端均需要強大的算力支撐需要強大的算力支撐,產業鏈共振明,產業鏈共振明顯顯,產業鏈放量順序產業鏈放量順序為為:先進制程制造:先進制程制造-以以 Chiplet 為代表的為代表的 2.5D/3D 封裝、封裝、HBM-AI 芯片芯片-板卡組裝板卡組裝-交換機交換機-光模塊光模塊-液冷液冷-AI 服務器服務器-IDC 出租運維出租運維。綜合來看,大模型仍處于混綜合來看,大模型仍處于混戰階段,戰階段,應用處于滲透率早期,應用處于滲透率早期,AI 板塊中板塊中算力需求算力需求增長的增長的確確定定性較高性較高,在未來兩年時間內,算力板塊都將,在未來兩年時間內,算力板塊都將處于處于高景氣高景氣度
3、度階段階段,重點推薦重點推薦 AI 算力產業鏈各環節相關公司算力產業鏈各環節相關公司。摘要摘要 生成式生成式 AI 取得突破,實現了從取得突破,實現了從 0 到到 1 的跨越的跨越,以以 ChatGPT為代表的人工智能大模型訓練和推理需要強大的算力支撐為代表的人工智能大模型訓練和推理需要強大的算力支撐。自2022 年底 OpenAI 正式推出 ChatGPT 后,用戶量大幅增長,圍繞ChatGPT 相關的應用層出不窮,其通用性能力幫助人類在文字等工作上節省了大量時間。同時在 Transformer 新架構下,多模態大模型也取得新的突破,文生圖、文生視頻等功能不斷完善,并在廣告、游戲等領域取得不
4、錯的進展。生成式 AI 將是未來幾年最重要的生產力工具,并深刻改變各個產業環節,圍繞生成式 AI,無論是訓練還是推理端,算力需求都將有望爆發式增長。訓練和推理端訓練和推理端 AI 算力需求算力需求或或幾何倍數增長。幾何倍數增長。首先是訓練側,參考 OpenAI 論文,大模型訓練側算力需求=訓練所需要的 token數量*6*大模型參數量??梢钥吹綇?GPT3.5 到 GPT4,模型效果越來越好,模型也越來越大,訓練所需要的 token 數量和參數量均大幅增長,相應的訓練算力需求也大幅增長。并且,與 GPT4 相關的公開論文也比較少,各家巨頭向 GPT4 邁進的時候,需要更多方向上的探索,也將帶來
5、更多的訓練側算力需求。根據我們的推算,2023 年-2027 年,全球大模型訓練端峰值算力需求量的年復合增長率有望達到 78.0%,2023 年全球大模型訓練端所需全部算力換算成的 A100 芯片總量可能超過 200 萬張。其次是推理側,單個 token 的推理過程整體運算量為 2*大模型參數量,因此大模型推理側每日算力需求=每日調用大模型次數*每人平均查詢 Token 數量*2*大模型參數量,僅以 Google 搜索引擎為例,每 維持維持 強于大市強于大市 武超則 010-85156318 SAC 編號:s1440513090003 SFC 編號:BEM208 閻貴成 010-8515923
6、1 SAC 編號:S1440518040002 SFC 編號:BNS315 劉雙鋒 SAC 編號:s1440520070002 SFC 編號:BNU539 金戈 010-85159348 SAC 編號:S1440517110001 SFC 編號:BPD352 于芳博 010-86451607 SAC 編號:S1440522030001 崔世峰 SAC 編號:s1440521100004 劉永旭 010-86451440 SAC 編號:S1440520070014 楊偉松 SAC 編號:S1440522120003 范彬泰 SAC 編號:S1440521120001 發布日期:2023 年 06
7、 月 14 日 TMTTMT 行業深度報告 TMT 請參閱最后一頁的重要聲明 交換機交換機:與傳統數據中心的網絡架構相比,AI 數據網絡架構會帶來更多的交換機端口的需求。交換機具備技術壁壘,中國市場格局穩定,華為與新華三(紫光股份)兩強爭霸,銳捷網絡展現追趕勢頭,建議重點關注。光模塊:光模塊:AI 算力帶動數據中心內部數據流量較大,光模塊速率及數量均有顯著提升。訓練側光模塊需求與GPU 出貨量強相關,推理側光模塊需求與數據流量強相關,伴隨應用加速滲透,未來推理所需的算力和流量實際上可能遠大于訓練。目前,訓練側英偉達的 A100 GPU 主要對應 200G 光模塊和 400G 光模塊,H100
8、GPU 可以對應 400G 或 800G 光模塊。根據我們的測算,訓練端 A100 和 200G 光模塊的比例是 1:7,H100 和 800G 光模塊的比例是 1:3.5。800G 光模塊 2022 年底開始小批量出貨,2023 年需求主要來自于英偉達和谷歌。在 2023 年這個時間點,市場下一代高速率光模塊均指向 800G 光模塊,疊加 AIGC 帶來的算力和模型競賽,我們預計北美各大云廠商和相關科技巨頭均有望在 2024 年大量采購 800G 光模塊,同時 2023 年也可能提前采購。建議關注中際旭創、天孚通信、新易盛、華工科技、源杰科技、太辰光、光迅科技、光庫科技、中瓷電子、劍橋科技、
9、博創科技、聯特科技、德科立、仕佳光子等。光模塊上游光模塊上游光芯片光芯片:以 AWG、PLC 等為代表的無源光芯片,國內廠商市占率全球領先。以 EEL、VCSEL、DFB 等激光器芯片、探測器芯片和調制器芯片為代表的有源光芯片是現代光學技術的重要基石,是有源光器件的重要組成部分。以源杰科技、光庫科技為代表的國內光芯片廠商不斷攻城拔寨,在多個細分產品領域取得了年調用次數至少超過 2 萬億,一旦和大模型結合,其 AI 算力需求將十分可觀。隨著越來越多的應用和大模型結合,推理側算力需求也有望呈現爆發增長勢頭。根據我們的推算,2023 年-2027 年,全球大模型云端推理的峰值算力需求量的年復合增長率
10、有望高達 113%。算力產業鏈價值算力產業鏈價值放量順序放量順序如下:先進制程制造如下:先進制程制造-以以 Chiplet 為代表的為代表的 2.5D/3D 封裝封裝、HBM-AI 芯片芯片-板卡板卡組組裝裝-交換機交換機-光模塊光模塊-液冷液冷-AI 服務器服務器-IDC 出租運維出租運維。先進封裝先進封裝、HBM:為了解決先進制程成本快速提升和“內存墻”等問題,Chiplet 設計+異構先進封裝成為性能與成本平衡的最佳方案,臺積電開發的 CoWoS 封裝技術可以實現計算核心與 HBM 通過 2.5D 封裝互連,因此英偉達 A100、H100 等 AI 芯片紛紛采用臺積電 CoWos 封裝,
11、并分別配備 40GB HBM2E、80GB 的 HBM3 內存。全球晶圓代工龍頭臺積電打造全球 2.5D/3D 先進封裝工藝標桿,未來幾年封裝市場增長主要受益于先進封裝的擴產。先進封裝市場的快速增長,有望成為國內晶圓代工廠商(中芯國際)與封測廠商(長電科技、通富微電、甬矽電子和深科技)的新一輪成長驅動力。AI 芯片芯片/板卡封裝板卡封裝:以英偉達為代表,今年以英偉達為代表,今年二季度二季度開始釋放業績開始釋放業績。模型訓練需要規?;乃懔π酒渴鹩谥悄芊掌?,CPU 不可或缺,但性能提升遭遇瓶頸,CPU+xPU 異構方案成為大算力場景標配。其中 GPU 并行計算優勢明顯,CPU+GPU 成為目
12、前最流行的異構計算系統,而 NPU 在特定場景下的性能、效率優勢明顯,推理端應用潛力巨大,隨著大模型多模態發展,硬件需求有望從 GPU 擴展至周邊編解碼硬件。AI 加速芯片市場上,英偉達憑借其硬件產品性能的先進性和生態構建的完善性處于市場領導地位,在訓練、推理端均占據領先地位。根據 Liftr Insights 數據,2022 年數據中心 AI 加速市場中,英偉達份額達 82%。因此 AI 芯片需求爆發,英偉達最為受益,其 Q2 收入指引 110 億美金,預計其數據中心芯片業務收入接近翻倍。國內廠商雖然在硬件產品性能和產業鏈生態架構方面與前者有所差距,但正在逐步完善產品布局和生態構建,不斷縮小
13、與行業龍頭廠商的差距,并且英偉達、AMD 對華供應高端 GPU 芯片受限,國產算力芯片迎來國產替代窗口期。當前已經涌現出一大批國產算力芯片廠商:1)寒武紀:國內人工智能芯片領軍者,持續強化核心競爭力;2)海光信息:深算系列 GPGPU提供高性能算力,升級迭代穩步推進;3)龍芯中科:自主架構 CPU 行業先行者,新品頻發加速驅動成長;4)芯原股份:國內半導體 IP 龍頭,技術儲備豐富驅動成長;5)工業富聯:提供 GPU 芯片板塊組裝服務。行業深度報告 TMT 請參閱最后一頁的重要聲明 較大進展,國產替代化加速推進,市場空間廣闊。液冷:液冷:AI 大模型訓練和推理所用的 GPU 服務器功率密度將大
14、幅提升,以英偉達 DGX A100 服務器為例,其單機最大功率約可達到 6.5kW,大幅超過單臺普通 CPU 服務器 500w 左右的功率水平。根據冷板式液冷服務器可靠性白皮書數據顯示,自然風冷的數據中心單柜密度一般只支持 8kW-10kW,通常液冷數據中心單機柜可支持 30kW 以上的散熱能力,并能較好演進到 100kW 以上,相較而言液冷的散熱能力和經濟性均有明顯優勢。同時“東數西算”明確 PUE(數據中心總能耗/IT 設備能耗)要求,樞紐節點 PUE 要求更高,同時考慮到整體規劃布局,未來新增機柜更多將在樞紐節點內,風冷方案在某些地區可能無法嚴格滿足要求,液冷方案滲透率有望加速提升。目前
15、在 AI 算力需求的推動下,如浪潮信息、中興通訊等服務器廠商已經開始大力布局液冷服務器產品。在液冷方案加速滲透過程中,數據中心溫控廠商、液冷板制造廠商等有望受益,建議關注:英維克、高瀾股份、網宿科技、曙光數創等。AI 服務器:服務器:預計預計今年今年 Q2-Q3 開始逐步釋放業績開始逐步釋放業績。具體來看,訓練型 AI 服務器成本中,約 7 成以上由 GPU構成,其余 CPU、存儲、內存等占比相對較小,均價常達到百萬元以上。對于推理型服務器,其 GPU 成本約為2-3 成,整體成本構成與高性能型相近,價格常在 20-30 萬。根據 IDC 數據,2022 年全球 AI 服務器市場規模 202億
16、美元,同比增長 29.8%,占服務器市場規模的比例為 16.4%,同比提升 1.2pct。我們認為全球 AI 服務器市場規模未來 3 年內將保持高速增長,市場規模分別為 395/890/1601 億美元,對應增速 96%/125%/80%。根據 IDC 數據,2022 年中國 AI 服務器市場規模 67 億美元,同比增長 24%。我們預計,2023-2025 年,結合對于全球 AI 服務器市場規模的預判,以及對于我國份額占比持續提升的假設,我國 AI 服務器市場規模有望達到 134/307/561億美元,同比增長 101%/128%/83%。競爭格局方面,考慮到 AI 服務器研發和投入上需要更
17、充足的資金及技術支持,國內市場的競爭格局預計將繼續向頭部集中,保持一超多強的競爭格局。重點推薦:1)浪潮信息:全球服務器行業龍頭廠商,其 AI 服務器多次位列全球市占率第一;2)工業富聯:為英偉達提供 H100 等芯片組裝,以及 AI 服務器生產;3)紫光股份:子公司新華三 AI 服務器在手訂單飽滿,同時可以提供交換機、路由器等;4)中科曙光:高性能計算及國產化服務器龍頭;5)中興通訊:服務器業務快速增長;6)拓維信息:華為昇騰+鯤鵬核心合作伙伴;7)聯想集團:全球領先的 ICT 設備企業。IDC:在數字中國和人工智能推動云計算市場回暖的背景下,IDC 作為云基礎設施產業鏈的關鍵環節,也有望進
18、入需求釋放階段。在過去兩年半,受多重因素影響下,云計算需求景氣度下行,但 IDC 建設與供給未出現明顯放緩,2021 年和 2022 年分別新增機柜數量 120 萬架和 150 萬架,因此短期內出現供需失衡情況(核心區域供需狀況相對良好),部分地區上電率情況一般。所以 IDC 公司 2022 年業績普遍承壓。當前,我們認為國內IDC 行業有望邊際向好。隨著宏觀經濟向好,平臺經濟發展恢復,AI 等拉動,IDC 需求有望逐步釋放,疊加 2023新增供給量有望較 2022 年減少(例如三大運營商 2022 年新增 IDC 機柜 15.6 萬架,2023 年計劃新增 11.4 萬架)。展望未來,電信運
19、營商在云計算業務方面仍將實現快速增長,百度、字節跳動等互聯網公司在 AIGC 領域有望實現突破性進展,都將對包括 IDC 在內的云基礎設施產生較大新增需求,相關 IDC 廠商有望獲益,建議關注潤澤科技、寶信軟件、奧飛數據、數據港、光環新網等。行業深度報告 TMT 請參閱最后一頁的重要聲明 目目 錄錄 一、一、AI 有望明顯拉動算力基礎設施投資有望明顯拉動算力基礎設施投資.1 1.1ChatGPT 爆紅引發了人們對于人工智能發展的高度關注.1 1.2 人工智能需要強大算力支撐.2 1.3AI 算力產業鏈涉及環節較多,行業需求有望全面提升.3 二、二、AI 芯片需求爆發式增長芯片需求爆發式增長.5
20、 2.1 AI 大規模落地應用對 AI 芯片性能、數量提出全方位要求.5 2.2 英偉達龍頭地位穩固,國內廠商正逐步追趕.23 2.3 先進封裝成為高性價比替代方案,存算一體應用潛力巨大.30 三、三、AI 服務器滲透率快速提升服務器滲透率快速提升.40 3.1 AI 服務器是算力基礎設施最主要的硬件,訓練型主要成本來自于 GPU 芯片.40 3.2 AI 服務器市場規模有望保持高速增長,當前訂單飽滿.43 3.3 AI 服務器市場集中度有望提升,國內廠商呈現一超多強格局.45 3.4 全球服務器市場規模預計保持平穩.47 3.5 標的推薦.47 四、四、AI 正在推動高速率光模塊需求放量正在
21、推動高速率光模塊需求放量.49 五、五、AI 將會拉動交換機市場需求將會拉動交換機市場需求.59 六、六、AI 提升大功率提升大功率 IDC 機柜需求,液冷滲透率隨之提升機柜需求,液冷滲透率隨之提升.62 6.1“東數西算”統籌全國算力網絡建設,云計算需求可能將回暖.62 6.2 AI 大算力服務器需要高功率機柜,液冷或成必選項.64 6.3 人工智能算力需求有望推動海底數據中心規?;l展.68 七、海外大模型進展七、海外大模型進展.74 7.1 谷歌.74 7.2 微軟.79 7.3Meta.82 八、投資建議八、投資建議.86 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表目錄圖表目
22、錄 圖表 1:AIGC 發展歷程.1 圖表 2:國內外公司 AIGC 相關產品.2 圖表 3:GPT 模型示意圖.2 圖表 4:NVIDIA DGX A100 AI 服務器.2 圖表 5:全球算力規模及增速.3 圖表 6:我國算力規模及增速.3 圖表 7:全球 AI 服務器市場規模測算.4 圖表 8:中國 AI 服務器市場規模測算.4 圖表 9:光模塊和交換機速率演進示意圖.5 圖表 10:CPU+AI 芯片的異構計算.6 圖表 11:2021 年中國 AI 芯片市場規模占比.6 圖表 12:CPU 與 GPU 架構對比.6 圖表 13:NVIDIA GPU 主要產品線.7 圖表 14:NVI
23、DIA Fermi 架構至 Hopper 架構的變化.7 圖表 15:低精度比特位寬為 AI 計算帶來的好處.8 圖表 16:不同精度計算消耗的能量和硅片面積.8 圖表 17:NVIDIA 數據中心 GPU 支持的比特位寬變化.8 圖表 18:V100 中 FP32 硬件單元和 FP64 硬件單元的數量關系.8 圖表 19:專門的硬件單元 Tensor Core 加速矩陣乘加計算.9 圖表 20:A100 與 H100 的 FP16 Tensor Core 吞吐量對比.9 圖表 21:FP16 Tensor Core 與 FP8 Tensor Core 吞吐量對比.9 圖表 22:FP16 T
24、ensor 算力快速增長.10 圖表 23:FP16 Tensor 每單位核心的算力明顯優于 FP16.10 圖表 24:AI 訓練服務器需要更高的內存容量.10 圖表 25:NLP 負載中存儲和計算的能量消耗占比.10 圖表 26:GDDR 與 HBM 差異.11 圖表 27:語言模型的參數數量呈指數級增長.11 圖表 28:GPU 之間通過 PCIe 連接.12 圖表 29:GPU 之間通過 NVLink 連接.12 圖表 30:NVLink 1.0NVLink 4.0.12 圖表 31:NVSwitch 連接多顆 GPU.13 圖表 32:NVSwitch 支撐的 GPU 計算集群.13
25、 圖表 33:NPU 典型架構.14 圖表 34:麒麟 970 NPU 加速圖像識別.14 圖表 35:脈動陣列運行矩陣乘法的示意圖.14 圖表 36:谷歌 TPU 架構及其內部的脈動陣列.15 圖表 37:谷歌 TPU.15 圖表 38:Tesla FSD 搭載 NPU 模塊.15 圖表 39:AI 訓練與 AI 推理對比.16 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表 40:云端推理占比逐步提升.16 圖表 41:AIGC 引發內容生成范式革命.16 圖表 42:NVIDIA 云端訓練 GPU 與推理 GPU 參數對比.17 圖表 43:不同規模大模型所需的顯存容量估計.17
26、圖表 44:邊緣端 AI 推理芯片及其算力案例.18 圖表 45:大模型參數量及訓練所需 Tokens.18 圖表 46:神經網絡的前向傳播過程.19 圖表 47:神經網絡的反向傳播過程.19 圖表 48:不同大模型訓練過程中的算力利用率.19 圖表 49:全球大模型訓練所需算力/AI 芯片數量測算.19 圖表 50:大模型云端推理所需算力/AI 芯片數量測算(算力角度).21 圖表 51:大模型云端推理所需算力/AI 芯片數量測算(顯存角度).22 圖表 52:AI 芯片市場競爭格局.23 圖表 53:2022 年 AI 加速芯片市場份額.23 圖表 54:全球獨顯 GPU 市場份額.24
27、圖表 55:國內外主流圖形渲染 GPU 產品性能對比.24 圖表 56:2022 年人工智能加速芯片在云上部署情況.25 圖表 57:英偉達芯片在 AI 學術論文中的出現頻次.25 圖表 58:國內外主流 GPGPU 產品性能對比.26 圖表 59:谷歌 TPU v4 與英偉達 A100 性能指標對比.27 圖表 60:TPU v4 與英偉達 A100 在不同模型中的表現.27 圖表 61:國內外主流 ASIC 產品性能對比.28 圖表 62:CUDA 構建強大生態支持所有主流深度學習框架.29 圖表 63:CUDA 生態和 ROCm 生態對照.29 圖表 64:昇騰計算產業生態示意圖.30
28、圖表 65:寒武紀軟件開發平臺.30 圖表 66:每百萬門晶體管的成本在 28nm 后開始上升.30 圖表 67:先進制程芯片的研發費用大幅上升.30 圖表 68:Chiplet 有利于提升良率.31 圖表 69:用 Chiplet 技術的 7nm+14nm 的造價 vs 7nm.31 圖表 70:先進封裝的層次.31 圖表 71:先進封裝依據互連密度和性能排名.31 圖表 101:通用服務器與 AI 服務器的不同.41 圖表 102:GPU 與 CPU 產品特點.41 圖表 103:GPU 與 CPU 內部結構.41 圖表 104:AI 服務器訓練及推理區別.42 圖表 105:AI 服務器
29、產業鏈概覽.42 圖表 106:各類型服務器成本結構拆分.43 圖表 107:浪潮 AI 服務器售價及 GPU 成本占比估算.43 圖表 108:全球 AI 服務器市場規模測算.44 圖表 109:中國 AI 服務器市場規模測算.44 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表 110:2022 年上半年全球 AI 服務器市場份額.45 圖表 111:2022 年中國 AI 服務器市場份額.46 圖表 112:浪潮信息服務器產品體系.48 圖表 113:拓維信息研發體系.49 圖表 114:傳統三層網絡架構.50 圖表 115:葉脊網絡架構.50 圖表 116:英偉達 DGX A10
30、0 SuperPOD 采用胖樹網絡三層架構示意圖.50 圖表 117:英偉達 DGX A100 SuperPOD 系統示意圖.51 圖表 118:Mellanox HDR 200Gb/s Infiniband 網卡示意圖.51 圖表 119:DGX H100 服務器背板連接圖.51 圖表 120:NVLink 不同代際的升級 Roadmap.52 圖表 121:PCIe 不同代際的性能參數表.52 圖表 122:A100 和 H100 POD 采用 IB 和 NVLink 網絡的示意圖.53 圖表 123:GH200 的網絡連接示意圖.53 圖表 124:GH200 的網絡連接示意圖.54 圖
31、表 125:Intel 的 100G 硅光模塊示意圖.55 圖表 126:硅光、InP、體材料鈮酸鋰和薄膜鈮酸鋰調制器的對比示意圖.55 圖表 127:交換機發展示意圖.56 圖表 128:LPO 方案的優勢.56 圖表 129:光模塊廠商目前擁有的 800G 光模塊產品.57 圖表 130:北美云廠商資本開支(百萬美元).58 圖表 131:中際旭創股價復盤.58 圖表 132:微軟 Azure 的 DGX H100 AI 超級計算機系統.59 圖表 133:不同網絡架構的對比.60 圖表 134:2022 年全球前五大以太網交換機廠商.60 圖表 135:2021 年中國交換機市場份額.6
32、0 圖表 136:交換機發展示意圖.61 圖表 137:交換機內部 SerDes 功耗占比大幅提升.61 圖表 138:網絡部分的功耗在數據中心中占比大幅提升.61 圖表 139:CPO 可以降低功耗.62 圖表 140:CPO 所降低的功耗拆分示意圖.62 圖表 141:“東數西算”工程設立 8 個節點.63 圖表 142:“東數西算”工程設立 10 個集群.63 圖表 143:中國 IDC 標準機架規模.64 圖表 144:IDC 機房的各類消耗.64 圖表 145:我國數據中心能耗分布.64 圖表 146:液冷數據中心制冷架構示意圖.65 圖表 147:各類制冷方式情況梳理.65 圖表
33、148:浪潮信息液冷服務器產品.66 圖表 149:中興通訊全液冷數據中心項目獲獎.66 圖表 150:華北地區某數據中心節能改造示意圖.67 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表 151:數據港 Capex 支出構成.68 圖表 152:數據港 OPEX 支出構成.68 圖表 153:水下數據中心示例圖.69 圖表 154:中國海上風電裝機量(GW).70 圖表 155:海上風電經濟性指標測算.70 圖表 156:建設在海邊的水下數據中心.71 圖表 157:IDC 機房的各類消耗.71 圖表 158:我國數據中心能耗分布.71 圖表 159:水下數據中心與傳統陸上 IDC
34、部分指標對比.72 圖表 160:微軟 Natick 項目測試指標.73 圖表 161:微軟 Natick 項目第二階段水下數據中心.73 圖表 162:微軟 Natick 項目第二階段位置圖.74 圖表 163:不同大語言模型的預訓練數據集結構(%).75 圖表 164:Google 在分布式集群計算資源利用率方面處于相對領先地位.75 圖表 165:TPUv4 在多個下游場景中表現優于 A100.75 圖表 166:TPU v4 在 BERT 上表現優于 A100.76 圖表 167:TPU v4 在 ResNet 上表現優于 A100.76 圖表 168:目前學界/業界提升模型計算效率的
35、策略分類.76 圖表 169:OPT-175B survived 143K steps.77 圖表 170:Fine-tuning performance of the T5 Base,Large,and 11B on the GLUE dev set.77 圖表 171:SAM 提升了模型對標簽噪聲的穩健性,并優化了模型訓練效率.78 圖表 172:當模型性能超越一般人時,Alignment 成為挑戰.79 圖表 173:ZeRO 優化下實現顯存占用優化至基準方法的 26.2%.80 圖表 174:ZeRO-Offload 對 GPU/CPU 計算的切分.80 圖表 175:PipeDrea
36、m 結合模型并行、數據并行和流水并行降低通信成本.81 圖表 176:不同并行化策略下計算資源利用率情況(%).81 圖表 177:LoRA 只調試低軼的 A、B,預訓練權重保持不變.82 圖表 178:LoRA 調試下 GPT-2 模型實現訓練參數壓縮,同時性能優化.82 圖表 179:LoRA 調試策略下訓練參數大幅減少,同時性能與 Fine-tune 持平或更好.82 圖表 180:通過調整學習率,ResNet-50 mini-batch 訓練可實現 8K 內性能不損失.83 圖表 181:對于 AlexNet 網絡,不同層的權值和其梯度的范數的比值差異很大.83 圖表 182:LARS
37、 優化器主要根據范數的比值來調節每一層的學習率.83 圖表 183:W/O LARS 時 AlexNet-BN 8K 訓練存在性能損失.84 圖表 184:W/LARS 時 AlexNet-BN 8K 訓練不存在性能損失.84 圖表 185:LARS 優化器將 ResNet 50 無損訓練批量提升至 32K.84 圖表 186:LARS 與 LAMB 算法對比.85 圖表 187:LAMB 優化器訓練下 BERT 模型的訓練批量可擴展至 32K.85 圖表 188:GEM 算法.85 圖表 189:FSDP workflow.86 1 行業深度報告 TMT 請參閱最后一頁的重要聲明 一、一、A
38、I 有望明顯拉動算力基礎設施投資有望明顯拉動算力基礎設施投資 1.1ChatGPT 爆紅引發了人們對于人工智能發展的高度關注爆紅引發了人們對于人工智能發展的高度關注 人工智能(AI)是指由機器展示的智能,即計算機基于大數據模擬人腦的各項功能,例如推理、視覺識別、語義理解、學習能力及規劃與決策能力等。人工智能生成內容(AIGC)是指利用人工智能技術來生成內容,包括繪畫、作曲、剪輯、寫作等。AIGC 的萌芽可追溯到上世紀 50 年代,90 年代從實驗性向實用性逐漸轉變,但受限于算法瓶頸,無法直接生成內容,從 21 世紀 10 年代開始,隨著以生成對抗網絡(GAN)為代表的深度學習算法的提出和迭代,
39、AIGC 迎來了快速發展階段。圖表圖表1:AIGC 發展歷程發展歷程 數據來源:人工智能生成內容白皮書2022,中信建投 市場需求推動市場需求推動 AIGC 技術加速落地。技術加速落地。1)降低人力和時間成本:)降低人力和時間成本:AIGC 可以幫助人們完成許多繁瑣工作,從而節省人力資本和工作時間,并可以在相同的時間內產出更多內容。2)改善內容質量)改善內容質量。AIGC 被認為是繼專業生產內容(PGC)、用戶生產內容(UGC)之后的新型內容生產方式。盡管 PGC 和 UGC 的內容更具多元化、個性化,但受限于激勵措施和創作者自身因素影響,市場存在供給不足的現象。3)促進產業數字化,助力數字經
40、濟發展。)促進產業數字化,助力數字經濟發展。產業數字化是數字經濟的融合部分,是傳統產業應用數字技術所帶來的生產數量和效率提升,其新增產出構成數字經濟的重要組成部分,AIGC 為數字經濟提供了重要的數據要素。2 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表2:國內外公司國內外公司 AIGC 相關產品相關產品 數據來源:人工智能生成內容(AIGC)的演進歷程及其圖書館智慧服務應用場景,中信建投 ChatGPT 的的爆紅引發了人們對于人工智能發展的高度關注爆紅引發了人們對于人工智能發展的高度關注。2022 年 11 月 30 日,OpenAI 發布語言模型ChatGPT。該模型采用對話的
41、形式與人進行交互,可以回答后續問題、承認錯誤、挑戰不正確的前提、拒絕不適當的請求。ChatGPT 不僅在日常對話、專業問題回答、信息檢索、內容續寫、文學創作、音樂創作等方面展現出強大的能力,還具有生成代碼、調試代碼、為代碼生成注釋的能力。1.2 人工智能需要強大算力支撐人工智能需要強大算力支撐 以以 ChatGPT 為代表的人工智能應用在運行背后需要強大的為代表的人工智能應用在運行背后需要強大的算力支撐。算力支撐。OpenAI 在 2018 年推出的 GPT 參數量為 1.17 億,預訓練數據量約 5GB,而 GPT-3 參數量達 1750 億,預訓練數據量達 45TB。在模型訓練階段,Cha
42、tGPT的總算力消耗約為 3640PF-days,總訓練成本為 1200 萬美元,在服務訪問階段則會有更大消耗。圖表圖表3:GPT 模型示意圖模型示意圖 圖表圖表4:NVIDIA DGX A100 AI 服務器服務器 數據來源:OpenAI,中信建投 數據來源:NVIDIA,中信建投 IDC 數據顯示:數據顯示:2021 年全球人工智能年全球人工智能 IT 投資額為投資額為 929.5 億美元,預計億美元,預計 2026 年將增至年將增至 3014.3 億美元,復合億美元,復合年增長率約年增長率約 26.5%。2026 年中國市場 AI 投資預計將達 266.9 億美元,約占全球投資 8.9%
43、,居世界第二位,復合年增長率約 21.7%。未來五年,硬件將成為中國人工智能最大的細分市場,占人工智能總投資的 50%以上。IDC預測,2026 年,中國在人工智能硬件市場的 IT 投資將超過 150 億美元,接近美國人工智能硬件的市場規模,五 3 行業深度報告 TMT 請參閱最后一頁的重要聲明 年復合年增長率 16.5%。服務器作為硬件市場的主要組成部分,預計將占總投入的 80%以上。人工智能的發展將對算力提出更高要求,算力網絡基礎設施需求有望持續提升。人工智能的發展將對算力提出更高要求,算力網絡基礎設施需求有望持續提升。根據中國信通院數據,2021年全球計算設備算力總規模達到 615EFl
44、ops(每秒浮點運算次數),同比增長 44%,其中基礎算力規模為 369EFlops,智能算力規模為 232EFlops,超算算力規模為 14EFlops,預計 2030 年全球算力規模將達到 56ZFlps,平均年均增長 65%。我國智能算力規模持續高速增長,我國智能算力規模持續高速增長,2021 年智能算力規模已經超過通用算力。年智能算力規模已經超過通用算力。根據中國信通院數據,我國計算設備算力總規模達到 202EFlops,全球占比約為 33%,保持 50%以上的高速增長態勢,增速高于全球,其中智能算力增長迅速,增速為 85%,在我國算力中的占比超過 50%。圖表圖表5:全球算力規模及增
45、速全球算力規模及增速 圖表圖表6:我國算力規模及增速我國算力規模及增速 數據來源:中國信通院,中信建投 數據來源:中國信通院,中信建投 1.3AI 算力產業鏈涉及環節較多,行業需求有望全面提升算力產業鏈涉及環節較多,行業需求有望全面提升 AI 算力產業鏈涉及環節較多,按照算力基礎設施構成來看,包括算力產業鏈涉及環節較多,按照算力基礎設施構成來看,包括 AI 芯片及服務器、交換機及光模塊、芯片及服務器、交換機及光模塊、IDC機房及上游產業鏈等。其中,機房及上游產業鏈等。其中,隨著訓練和推理需求提升,隨著訓練和推理需求提升,AI 芯片芯片及服務器及服務器需求將率先放量需求將率先放量;AI 算力對數
46、據中心算力對數據中心內部數據流量較大,光模塊內部數據流量較大,光模塊速率及數量均有顯著提升,交換機的端口數及端口速率也有相應的增長;速率及數量均有顯著提升,交換機的端口數及端口速率也有相應的增長;IDC 也有也有望進入需求釋放階段,望進入需求釋放階段,預計液冷溫控滲透率將快速提升,海底數據中心也可能將迎來產業化的關鍵節點。預計液冷溫控滲透率將快速提升,海底數據中心也可能將迎來產業化的關鍵節點。1、AI 芯片芯片和服務器和服務器需求將率先放量需求將率先放量 根據測算,根據測算,2023 年年-2027 年年全球大模型訓練端峰值算力需求量的年復合增長率為全球大模型訓練端峰值算力需求量的年復合增長率
47、為 78.0%。2023 年全球大模年全球大模型訓練端所需全部算力換算成的型訓練端所需全部算力換算成的 A100 總量超過總量超過 200 萬張萬張。從云端推理所需算力角度測算,。從云端推理所需算力角度測算,2023 年年-2027 年,全年,全球大模型云端推理的峰值算力需求量的年復合增長率為球大模型云端推理的峰值算力需求量的年復合增長率為 113%,如果考慮邊緣端,如果考慮邊緣端 AI 推理的應用,推理端算力規推理的應用,推理端算力規模將進一步擴大。模將進一步擴大。根據根據 IDC 數據,數據,2022 年全球年全球 AI 服務器市場規模服務器市場規模 202 億美元,同比增長億美元,同比增
48、長 29.8%,占服務器市場規模的比例,占服務器市場規模的比例為為 16.4%,同比提升,同比提升 1.2pct。我們認為全球我們認為全球 AI 服務器市場規模未來服務器市場規模未來 3 年內將保持高速增長,市場規模分年內將保持高速增長,市場規模分別為別為395/890/1601 億美元,對應增速億美元,對應增速 96%/125%/80%。根據根據 IDC 數據,數據,2022 年中國年中國 AI 服務器市場規模服務器市場規模 67 億美元,億美元,同比增長同比增長 24%。我們預計,。我們預計,2023-2025 年,結合對于全球年,結合對于全球 AI 服務器市場規模的預判,以及對于我國份額
49、占比持服務器市場規模的預判,以及對于我國份額占比持0%10%20%30%40%50%0100200300400500600700201620172018201920202021全球算力規模(EFlops)全球算力增速0%10%20%30%40%50%60%050100150200250201620172018201920202021基礎算力智能算力超算算力算力增速 4 行業深度報告 TMT 請參閱最后一頁的重要聲明 續提升的假設,我國續提升的假設,我國 AI 服務器市場規模有望達到服務器市場規模有望達到 134/307/561 億美元,同比增長億美元,同比增長 101%/128%/83%。圖表
50、圖表7:全球全球 AI 服務器市場規模測算服務器市場規模測算 2021 2022 2023E 2024E 2025E 大模型帶動 GPU 存量空間(億美元)-276.6 622.7 1120.9 GPU 占 AI 服務器成本比例(%)-70.0 70.0 70.0 GPU 芯片升級/算法效率提升比例測算(%)-100.0 120.0 150.0 AI 服務器存量規模(億美元)156.0 202.0 395.2 889.6 1601.3 AI 服務器增量規模(億美元)-46.0 193.2 494.4 711.7 市場增速(%)39.1 29.8 95.6 125.1 80.0 資料來源:Ope
51、nAI,IDC,Nvidia,中信建投 圖表圖表8:中國中國 AI 服務器市場規模測算服務器市場規模測算 2021 2022 2023E 2024E 2025E 全球市場規模(億美元)156.0 202.0 395.2 889.6 1601.3 中國市場占全球市場比重(%)34.6 33.2 34.0 34.5 35.0 市場增速(%)68.2 24.0 100.5 128.4 82.6 市場規模(億美元)54.0 67.0 134.4 306.9 560.5 資料來源:OpenAI,IDC,Nvidia,中信建投 2、AI 算力改變數據中心內部網絡架構,光模塊和交換機速率及需求提升算力改變數
52、據中心內部網絡架構,光模塊和交換機速率及需求提升 AI 數據中心中,由于內部數據流量較大,因此無阻塞的胖樹網絡架構成了重要需求之一數據中心中,由于內部數據流量較大,因此無阻塞的胖樹網絡架構成了重要需求之一,光模塊速率及數,光模塊速率及數量均有顯著提升,量均有顯著提升,交換機的端口數及端口速率也有相應的增長。交換機的端口數及端口速率也有相應的增長。800G 光模塊光模塊 2022 年底開始小批量出貨,年底開始小批量出貨,2023 年需求主要來自于英偉達年需求主要來自于英偉達和谷歌和谷歌,2024 年有望大規模出貨,年有望大規模出貨,并存在時間前移的可能。并存在時間前移的可能。從交換機的電口來看,
53、SerDes 通道的速率每四年翻倍,數量每兩年翻倍,交換機的帶寬每兩年翻倍;從光口來看,光模塊每 4 年升級一次,實際出貨時間是晚于電口 SerDes 及交換機芯片新版發布的時間。2019 年作為 100G 光模塊升級的時間點,市場分成了 200G 和 400G 兩條升級路徑。但是在但是在 2023 年這年這個時間點,市場下一代高速率光模塊均指向個時間點,市場下一代高速率光模塊均指向 800G 光模塊光模塊,疊加疊加 AIGC 帶來的帶來的算力和模型算力和模型競賽,競賽,我們預計我們預計北美各北美各大云廠商和相關科技巨頭均有望在大云廠商和相關科技巨頭均有望在 2024 年大量采購年大量采購 8
54、00G 光模塊光模塊,同時,同時 2023 年也可能提前采購年也可能提前采購。5 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表9:光模塊和交換機速率演進示意圖光模塊和交換機速率演進示意圖 數據來源:思科,中信建投證券 3、IDC 需求有望釋放,需求有望釋放,AI 服務器高功率密度或將推升液冷滲透率服務器高功率密度或將推升液冷滲透率 IDC 作為作為算力算力基礎設施產業鏈的關鍵環節基礎設施產業鏈的關鍵環節,也有望進入需求釋放階段。,也有望進入需求釋放階段。在過去兩年半,受多重因素影響下,云計算需求景氣度下行,但 IDC 建設與供給未出現明顯放緩,2021 年和 2022 年分別新增機
55、柜數量 120 萬架和150 萬架,因此短期內出現供需失衡情況(核心區域供需狀況相對良好),部分地區上電率情況一般。所以 IDC公司 2022 年業績普遍承壓。隨著平臺經濟發展恢復以及 AI 等拉動,IDC 需求有望逐步釋放,疊加 2023 新增供給量有望較 2022 年減少(例如三大運營商 2022 年新增 IDC 機柜 15.6 萬架,2023 年計劃新增 11.4 萬架)。人人工智能大模型訓練和推理運算所用的工智能大模型訓練和推理運算所用的 GPU 服務器的功率密度將大幅提升,以英偉達服務器的功率密度將大幅提升,以英偉達 DGX A100 服務器為服務器為例,其單機最大功率約可以達到例,
56、其單機最大功率約可以達到 6.5kW,大幅超過單臺普通,大幅超過單臺普通 CPU 服務器服務器 500w 左右的功率水平。在此情況下,左右的功率水平。在此情況下,一方面需要新建超大功率的機柜,另一方面為降低一方面需要新建超大功率的機柜,另一方面為降低 PUE,預計液冷溫控滲透率將快速提升,預計液冷溫控滲透率將快速提升,海底數據中心,海底數據中心也也可可能將迎來產業化的關鍵節點。能將迎來產業化的關鍵節點。二、二、AI 芯片需求爆發式增長芯片需求爆發式增長 2.1 AI 大規模落地應用對大規模落地應用對 AI 芯片性能、數量提出全方位要求芯片性能、數量提出全方位要求 從廣義上講,能運行從廣義上講,
57、能運行 AI 算法的芯片都叫算法的芯片都叫 AI 芯片。芯片。CPU、GPU、FPGA、NPU、ASIC 都能執行 AI 算法,但在執行效率層面上有巨大的差異。CPU 可以快速執行復雜的數學計算,但同時執行多項任務時,CPU 性能開始下降,目前行業內基本確認 CPU 不適用于 AI 計算。CPU+xPU 的異構方案成為大算力場景標配,的異構方案成為大算力場景標配,GPU 為應用最廣泛的為應用最廣泛的 AI 芯片。芯片。目前業內廣泛認同的 AI 芯片類型包括 GPU、FPGA、NPU 等。由于 CPU 負責對計算機的硬件資源進行控制調配,也要負責操作系統的運行,6 行業深度報告 TMT 請參閱最
58、后一頁的重要聲明 在現代計算系統中仍是不可或缺的。GPU、FPGA 等芯片都是作為 CPU 的加速器而存在,因此目前主流的 AI計算系統均為 CPU+xPU 的異構并行。CPU+GPU 是目前最流行的異構計算系統,在 HPC、圖形圖像處理以及AI 訓練/推理等場景為主流選擇。IDC 數據顯示,2021 年中國 AI 芯片市場中,GPU 市占率為 89%。圖表圖表10:CPU+AI 芯片的異構計算芯片的異構計算 圖表圖表11:2021 年中國年中國 AI 芯片市場規模占比芯片市場規模占比 資料來源:華為,中信建投 資料來源:IDC,中信建投 2.1.1 GPU 性能、功能經歷長期迭代升級,成為
59、AI 芯片中應用最廣泛的選擇 GPU 能夠進行并行計算,能夠進行并行計算,設計初衷是加速圖形渲染。設計初衷是加速圖形渲染。NVIDIA 在 1999 年發布 GeForce 256 圖形處理芯片時首先提出 GPU(Graphic Processing Unit)的概念,并將其定義為“具有集成轉換、照明、三角形設置/裁剪和渲染引擎的單芯片處理器,能夠每秒處理至少 1000 萬個多邊形”。從計算資源占比角度看,CPU 包含大量的控制單元和緩存單元,實際運算單元占比較小。GPU 則使用大量的運算單元,少量的控制單元和緩存單元。GPU 的架構使其能夠進行規?;⑿杏嬎?,尤其適合邏輯簡單,運算量大的任務
60、。GPU 通過從 CPU 承擔一些計算密集型功能(例如渲染)來提高計算機性能,加快應用程序的處理速度,這也是 GPU 早期的功能定位。圖表圖表12:CPU 與與 GPU 架構對比架構對比 資料來源:NVIDIA,中信建投 CUDA 將將 GPU 的計算能力擴展至圖形處理之外,成為更通用的計算設備。的計算能力擴展至圖形處理之外,成為更通用的計算設備。在 GPU 問世以后,NVIDIA 及其競爭對手 ATI(被 AMD 收購)一直在為他們的顯卡包裝更多的功能。2006 年 NVIDIA 發布了 CUDA 開發環境,這是最早被廣泛應用的 GPU 計算編程模型。CUDA 將 GPU 的能力向科學計算等
61、領域開放,標志著 GPU 成為一種更通用的計算設備 GPGPU(General Purpose GPU)。NVIDIA 也在之后推出了面向數據中心的 GPU 產品線。89.0%9.6%1.0%0.4%GPUNPUASICFPGA 7 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表13:NVIDIA GPU 主要產品線主要產品線 產品線產品線 定位定位 應用場景應用場景 代表型號代表型號 GeForce 計算機的圖形處理和游戲運行 消費者應用的中高端 PC 市場 GeForce RTX 4090 GeForce RTX 4080 NVIDIA RTX/Quadro 專業視覺計算平臺 建
62、筑設計、媒體與娛樂等行業專業用戶的 PC、工作站 NVIDIA RTX A6000 Quadro GV100 Data Center 數據中心加速計算平臺 AI、數據分析、高性能計算(HPC)NVIDIA H100 NVIDIA A100 資料來源:NVIDIA,中信建投 GPU 性能提升與功能豐富性能提升與功能豐富逐步滿足逐步滿足 AI 運算需要。運算需要。2010 年 NVIDIA 提出的 Fermi 架構是首個完整的 GPU計算架構,其中提出的許多新概念沿用至今。Kepler 架構在硬件上擁有了雙精度計算單元(FP64),并提出 GPU Direct 技術,繞過 CPU/System M
63、emory,與其他 GPU 直接進行數據交互。Pascal 架構應用了第一代 NVLink。Volta 架構開始應用 Tensor Core,對 AI 計算加速具有重要意義。簡要回顧 NVIDIA GPU 硬件變革歷程,工藝、計算核心數增加等基礎特性的升級持續推動性能提升,同時每一代架構所包含的功能特性也在不斷豐富,逐漸更好地適配 AI 運算的需要。圖表圖表14:NVIDIA Fermi 架構至架構至 Hopper 架構的變化架構的變化 架構架構 Fermi Kepler Maxwell Pascal Volta Turing Ampere Hopper 發布時間 2010 2012 2014
64、 2016 2017 2018 2020 2022 工藝 40/28nm 28nm 28nm 16nm 12nm 12nm 8/7nm 4nm SMs 16 15 16 60 80 92 108 132 Cuda Cores 512 1536 3072 3584 5120 2560 6912 16896 Tensor Core/640 320 432 528 特點 首 個 完 整GPU 計算架構 NVLink 1.0 NVLink 2.0 Tensor Core 1.0 Tensor Core 2.0 RT Core 1.0 Tensor Core 3.0,NVLink 3.0 Tensor
65、Core 4.0,NVLink 4.0 資料來源:NVIDIA,中信建投 AI 的數據來源廣泛,的數據來源廣泛,GPU 逐漸實現對各類數據類型的支持。逐漸實現對各類數據類型的支持。依照精度差異,算力可從 INT8(整數類型)、FP16(半精度)、FP32(單精度)、FP64(雙精度)等不同維度對比。AI 應用處理的數據包括文字、圖片或視頻,數據精度類型差異大。對于數據表征來講,精度越高,準確性越高;但降低精度可以節省運算時間,減少成本??傮w來看,精度的選擇需要在準確度、成本、時間之間取得平衡。目前許多 AI 模型中運行半精度甚至整形計算即可完成符合準確度的推理和訓練。隨著架構的迭代,NVIDI
66、A GPU 能支持的數據類型持續豐富,例如 Turing架構 T4 開始支持 INT8,Ampere 架構 A100 的 Tensor Core 開始支持 TF32。8 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表15:低精度比特位寬為低精度比特位寬為 AI 計算帶來的好處計算帶來的好處 圖表圖表16:不同精度計算消耗的能量和硅片面積不同精度計算消耗的能量和硅片面積 資料來源 Intel,中信建投 資料來源:Efficient Method and Hardware for Deep Learning,中信建投 圖表圖表17:NVIDIA 數據中心數據中心 GPU 支持的支持的比特
67、位寬比特位寬變化變化 資料來源:NVIDIA,中信建投 均衡分配資源的前提下,處理低精度的硬件單元數量更多,表現更高的算力性能。均衡分配資源的前提下,處理低精度的硬件單元數量更多,表現更高的算力性能。GPU 作為加速器得到廣泛應用一定程度上得益于它的通用性,為了在不同精度的數據類型上具有良好的性能,以兼顧 AI、科學計算等不同場景的需要,英偉達在分配處理不同數據類型的硬件單元時大體上保持均衡。因為低精度數據類型的計算占用更少的硬件資源,同一款 GPU 中的處理低精度數據類型的硬件單元的數量較多,對應計算能力也較強。以V100 為例,每個 SM 中 FP32 單元的數量都為 FP64 單元的兩倍
68、,最終 V100 的 FP32 算力(15.7 TFLOPS)也近似為 FP64(7.8 TFLOPS)的兩倍,類似的規律也可以在各代架構旗艦 P100、A100 和 H100 中看到。圖表圖表18:V100 中中 FP32 硬件單元和硬件單元和 FP64 硬件單元的數量關系硬件單元的數量關系 資料來源:NVIDIA,中信建投 GPU 引入特殊硬件單元引入特殊硬件單元加速加速 AI 的的核心核心運算環節運算環節。矩陣-矩陣乘法(GEMM)運算是神經網絡訓練和推理的 9 行業深度報告 TMT 請參閱最后一頁的重要聲明 核心,本質是在網絡互連層中將大矩陣輸入數據和權重相乘。矩陣乘積的求解過程需要大
69、量的乘積累加操作,而 FMA(Fused Multiplyaccumulate operation,融合乘加)可以消耗更少的時鐘周期來完成這一過程。傳統 CUDA Core 執行 FMA 指令,硬件層面需要將數據按寄存器-ALU-寄存器-ALU-寄存器的方式來回搬運。2017 年發布的 Volta 架構首度引入了 Tensor Core(張量核心),是由 NVIDIA 研發的新型處理核心。根據 NVIDIA 數據,Volta Tensor Core可以在一個GPU時鐘周期內執行444=64次FMA操作,吞吐量是Pascal架構下CUDA Core的 12 倍。圖表圖表19:專門的硬件單元專門的
70、硬件單元 Tensor Core 加速矩陣乘加計算加速矩陣乘加計算 資料來源:NVIDIA,中信建投 Tensor Core持續迭代提升持續迭代提升其加速能力其加速能力。Volta架構引入Tensor Core的改動使GPU的AI算力有了明顯提升,后續在每一代的架構升級中,Tensor Core 都有比較大的改進,支持的數據類型也逐漸增多。以 A100 到 H100為例,Tensor Core 由 3.0 迭代至 4.0,H100 在 FP16 Tensor Core 的峰值吞吐量提升至 A100 的 3 倍。同時,H100 Tensor Core 支持新的數據類型 FP8,H100 FP8
71、Tensor Core 的吞吐量是 A100 FP16 Tensor Core 的 6 倍。圖表圖表20:A100 與與 H100 的的 FP16 Tensor Core 吞吐量對比吞吐量對比 圖表圖表21:FP16 Tensor Core與與FP8 Tensor Core吞吐量對比吞吐量對比 資料來源:NVIDIA,中信建投 資料來源:NVIDIA,中信建投 Tensor Core 加速下,低精度比特位寬的算力爆發式增長,契合加速下,低精度比特位寬的算力爆發式增長,契合 AI 計算需要。計算需要。Tensor Core 的應用使算力快速、高效增長,選取 Pascal 至 Hopper 架構時
72、期每一代的旗艦數據中心顯卡,對比經 Tensor Core 加速前后的 FP16算力指標可以得到:(1)經 Tensor Core 加速的 FP16 算力明顯高于加速之前。(2)每單位 Tensor core 支持的算 10 行業深度報告 TMT 請參閱最后一頁的重要聲明 力明顯高于每單位 Cuda Core 支持的算力。同時,Tensor Core 從 2017 年推出以來首先完善了對低精度數據類型的支持,順應了 AI 發展的需要。圖表圖表22:FP16 Tensor 算力快速增長算力快速增長 圖表圖表23:FP16 Tensor 每單位核心的算力明顯優于每單位核心的算力明顯優于 FP16
73、資料來源:NVIDIA,techpowerup,中信建投 資料來源:NVIDIA,techpowerup,中信建投 數據訪問支配著計算能力數據訪問支配著計算能力利用率利用率。AI 運算涉及到大量數據的存儲與處理,根據 Cadence 數據,與一般工作負載相比,每臺 AI 訓練服務器需要 6 倍的內存容量。而在過去幾十年中,處理器的運行速度隨著摩爾定律高速提升,而 DRAM 的性能提升速度遠遠慢于處理器速度。目前 DRAM 的性能已經成為了整體計算機性能的一個重要瓶頸,即所謂阻礙性能提升的“內存墻”。除了性能之外,內存對于能效比的限制也成為一個瓶頸,Cadence數據顯示,在自然語言類 AI 負
74、載中,存儲消耗的能量占比達到 82%。圖表圖表24:AI 訓練服務器需要更高的內存容量訓練服務器需要更高的內存容量 圖表圖表25:NLP 負載中存儲和計算的能量消耗占比負載中存儲和計算的能量消耗占比 資料來源:Cadence,中信建投 資料來源:Cadence,中信建投 GPU 采用采用高帶寬高帶寬 HBM 降低降低“內存墻內存墻”影響”影響。為防止占用系統內存并提供較高的帶寬和較低的延時,GPU均配備有獨立的的內存。常規的 GDDR 焊接在 GPU 芯片周邊的 PCB 板上,與處理器之間的數據傳輸速率慢,并且存儲容量小,成為運算速度提升的瓶頸。HBM 裸片通過 TSV 進行堆疊,然后 HBM
75、 整體與 GPU 核心通過中介層互連,因此 HBM 獲得了極高的帶寬,并節省了 PCB 面積。目前,GDDR 顯存仍是消費級 GPU 的行業標準,HBM 則成為數據中心 GPU 的主流選擇。Standard 145GBStandard 366GBAI training 2.5TB050010001500200025003000CY-17CY-21CY-2118%82%計算存儲 11 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表26:GDDR 與與 HBM 差異差異 資料來源:NVIDIA,中信建投 硬件單元的改進與顯存升級增強了單張 GPU 算力的釋放,然而,隨著 Transfor
76、mer 模型的大規模發展和應用,模型參數量呈爆炸式增長,GPT-3 參數量達到了 1750 億,相比 GPT 增長了近 1500 倍,預訓練數據量更是從 5GB 提升到了 45TB。大模型參數量的指數級增長帶來的諸多問題使大模型參數量的指數級增長帶來的諸多問題使 GPU 集群化運算成為必須:集群化運算成為必須:(1)即使最先進的 GPU,也不再可能將模型參數擬合到主內存中。(2)即使模型可以安裝在單個 GPU 中(例如,通過在主機和設備內存之間交換參數),所需的大量計算操作也可能導致在沒有并行化的情況下不切實際地延長訓練時間。根據 NVIDIA 數據,在 8 個 V100 GPU 上訓練一個具
77、有 1750 億個參數的 GPT-3 模型需要 36 年,而在 512 個 V100 GPU 上訓練需要 7 個月。圖表圖表27:語言模型的參數數量呈指數級增長語言模型的參數數量呈指數級增長 資料來源:HEITS.DIGITAL,中信建投 NVIDIA 開發開發 NVLink 技術解決技術解決 GPU 集群通信。集群通信。在硬件端,GPU 之間穩定、高速的通信是實現集群運算所必須的條件。傳統 x86 服務器的互連通道 PCIe 的互連帶寬由其代際與結構決定,例如 x16 PCIe 4.0 雙向帶寬僅為 64GB/s。除此之外,GPU 之間通過 PCIe 交互還會與總線上的 CPU 操作競爭,甚
78、至進一步占用可用帶寬。NVIDIA 為突破 PCIe 互連的帶寬限制,在 P100 上搭載了首項高速 GPU 互連技術 NVLink(一種總線及通訊協議),GPU 之間無需再通過 PCIe 進行交互。12 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表28:GPU 之間通過之間通過 PCIe 連接連接 圖表圖表29:GPU 之間通過之間通過 NVLink 連接連接 資料來源:HEITS.DIGITAL,中信建投 資料來源:NVIDIA,中信建投 NVLink 繼續與繼續與 NVIDIA GPU 架構同步發展,每一種新架構都伴隨著新一代架構同步發展,每一種新架構都伴隨著新一代 NVLi
79、nk。第四代 NVLink 為每個 GPU 提供 900 GB/s 的雙向帶寬,比上一代高 1.5 倍,比第一代 NVLink 高 5.6 倍。圖表圖表30:NVLink 1.0NVLink 4.0 資料來源:NVIDIA,中信建投 NVDIA 開發基于開發基于 NVLink 的芯片的芯片 NVSwitch,作為,作為 GPU 集群數據通信的“樞紐”。集群數據通信的“樞紐”。NVLink 1.0 技術使用時,一臺服務器中的 8 個 GPU 無法全部實現直接互連。同時,當 GPU 數量增加時,僅依靠 NVLink 技術,需要眾多數量的總線。為解決上述問題,NVIDIA 在 NVLink 2.0
80、時期發布了 NVSwitch,實現了 NVLink 的全連接。NVSwitch 是一款 GPU 橋接芯片,可提供所需的 NVLink 交叉網絡,在 GPU 之間的通信中發揮“樞紐”作用。借助于 NVswitch,每顆 GPU 都能以相同的延遲和速度訪問其它的 GPU。就程序來看,16 個 GPU 都被視為一個 GPU,系統效率得到了最大化,大大降低了多 GPU 系統的優化難度。13 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表31:NVSwitch 連接多顆連接多顆 GPU 資料來源:NVIDIA,中信建投 通過添加更多通過添加更多 NVSwitch 來支持更多來支持更多 GPU,
81、集群,集群分布分布式運算得以實現。式運算得以實現。當訓練大型語言模型時,NVLink網絡也可以提供顯著的提升。NVSwitch 已成為高性能計算(HPC)和 AI 訓練應用中不可或缺的一部分。圖表圖表32:NVSwitch 支撐的支撐的 GPU 計算集群計算集群 資料來源:NVIDIA,中信建投 2.1.2 NPU 通過特殊架構設計對 AI 運算起到加速作用 NPU 在人工智能算法上具有較高的運行效率。在人工智能算法上具有較高的運行效率。為了適應某個特定領域中的常見的應用和算法而設計,通常稱之為“特定域架構(Domain Specific Architecture,DSA)”芯片,NPU(神經
82、網絡處理器)屬于其中一種,常被設計用于神經網絡運算的加速。以華為手機 SoC 麒麟 970 為例,NPU 對圖像識別神經網絡的運算起到了顯著 14 行業深度報告 TMT 請參閱最后一頁的重要聲明 加速效果,使其圖像識別速度明顯優于同代競品的表現。圖表圖表33:NPU 典型架構典型架構 圖表圖表34:麒麟麒麟 970 NPU 加速圖像識別加速圖像識別 資料來源 Architecture of neural processing unit for deep neural networks,中信建投 資料來源:THE TECH REVOLUTIONIST,中信建投 目前已量產的 NPU 或搭載 NP
83、U 模塊的芯片眾多,其他知名的芯片包括谷歌 TPU、華為昇騰、特斯拉 FSD、特斯拉 Dojo 等。各家廠商在計算核心的設計上有其差異,例如谷歌 TPU 的脈動陣列,華為昇騰的達芬奇架構。以以谷歌谷歌 TPU 及計算核心結構脈動陣列及計算核心結構脈動陣列為例,對比其相較于為例,對比其相較于 CPU、GPU 的區別的區別:CPU 和和 GPU 均具有均具有通用性通用性,但以,但以頻繁的內存訪問頻繁的內存訪問導致資源消耗為代價導致資源消耗為代價。CPU 和 GPU 都是通用處理器,可以支持數百萬種不同的應用程序和軟件。對于 ALU 中的每一次計算,CPU、GPU 都需要訪問寄存器或緩存來讀取和存儲
84、中間計算結果。由于數據存取的速度往往大大低于數據處理的速度,頻繁的內存訪問,限制了總吞吐量并消耗大量能源。谷歌谷歌 TPU 并非通用處理器,而是將其設計為專門用于神經網絡工作負載的矩陣處理器。并非通用處理器,而是將其設計為專門用于神經網絡工作負載的矩陣處理器。TPU 不能運行文字處理器、控制火箭引擎或執行銀行交易,但它們可以處理神經網絡的大量乘法和加法,速度極快,同時消耗更少的能量,占用更小的物理空間。TPU 內部設計了由乘法器和加法器構成的脈動陣列。在計算時,TPU 將內存中的參數加載到乘法器和加法器矩陣中,每次乘法執行時,結果將傳遞給下一個乘法器,同時進行求和。所以輸出將是數據和參數之間所
85、有乘法結果的總和。在整個海量計算和數據傳遞過程中,完全不需要訪問內存。這就是為什么 TPU 可以在神經網絡計算上以低得多的功耗和更小的占用空間實現高計算吞吐量。圖表圖表35:脈動陣列運行矩陣乘法的示意圖脈動陣列運行矩陣乘法的示意圖 資料來源:谷歌,中信建投 95487200505001000150020002500Samsung S8(CPU)iphone 7 Plus(CPU+GPU)Huawei Kirin970(CPU+GPU+NPU)Images Recognized Per Minute 15 行業深度報告 TMT 請參閱最后一頁的重要聲明 脈動陣列本質上是在硬件層面多次重用輸入數據
86、,在消耗較小的內存帶寬的情況下實現較高的運算吞吐率。脈動陣列本質上是在硬件層面多次重用輸入數據,在消耗較小的內存帶寬的情況下實現較高的運算吞吐率。脈動陣列結構簡單,實現成本低,但它靈活性較差,只適合特定運算。然而,AI 神經網絡需要大量卷積運算,卷積運算又通過矩陣乘加實現,正是脈動陣列所適合的特定運算類型。脈動陣列理論最早在 1982 年提出,自谷歌 2017 年首次將其應用于 AI 芯片 TPU 中,這項沉寂多年的技術重回大眾視野,多家公司也加入了脈動陣列行列,在自家加速硬件中集成了脈動陣列單元。圖表圖表36:谷歌谷歌 TPU 架構及其內部的脈動陣列架構及其內部的脈動陣列 資料來源:谷歌,中
87、信建投 NPU 已經在已經在 AI 運算加速領域獲得了廣泛應用運算加速領域獲得了廣泛應用。在數據中心獲得大規模應用的 NPU 案例即 TPU,已被谷歌用于構建數據中心的超級計算機,執行特定神經網絡的訓練任務。在用戶端,手機、汽車、智能安防攝像頭等設備開始搭載 AI 計算功能,通常是利用訓練好的神經網絡模型執行圖像處理等工作,此時 NPU 通用性差的劣勢被縮小,高算力、高能耗比的優勢被放大,因而得到了廣泛的應用。在終端設備中,NPU 常以模塊的形式包含在 SoC 內部,對 AI 運算進行加速,例如特斯拉自動駕駛芯片 FSD 均包含 NPU。圖表圖表37:谷歌谷歌 TPU 圖表圖表38:Tesla
88、 FSD 搭載搭載 NPU 模塊模塊 資料來源:谷歌,中信建投 資料來源:Wikichip,中信建投 2.1.3 訓練/推理、云/邊分別對 AI 芯片提出不同要求,未來推理端的算力需求將遠超訓練端 AI 技術在實際應用中包括兩個環節:訓練技術在實際應用中包括兩個環節:訓練(Training)和推理和推理(Inference)。訓練是指通過大數據訓練出一個復雜的神經網絡模型,使其能夠適應特定的功能。訓練需要較高的計算性能、能夠處理海量數據、具有一定的通用性。推理是指利用訓練好的神經網絡模型進行運算,利用輸入的新數據來一次性獲得正確結論的過程。16 行業深度報告 TMT 請參閱最后一頁的重要聲明
89、圖表圖表39:AI 訓練與訓練與 AI 推理對比推理對比 資料來源:NVIDIA,中信建投 根據所承擔任務的不同,根據所承擔任務的不同,AI 芯片可以分為訓練芯片可以分為訓練 AI 芯片和推理芯片和推理 AI 芯片:芯片:(1)訓練芯片:用于構建神經網絡模型,需要高算力和一定的通用性。(2)推理芯片:利用神經網絡模型進行推理預測,注重綜合指標,單位能耗算力、時延、成本等都要考慮。根據根據 AI 芯片部署的位置,可以分為云端芯片部署的位置,可以分為云端 AI 芯片和邊緣端芯片和邊緣端 AI 芯片:芯片:(1)云端:即數據中心,關注算力、擴展能力、兼容性。云端部署的 AI 芯片包括訓練芯片和推理芯
90、片。(2)邊緣端:即手機、安防攝像頭等領域,關注綜合性能,要求低功耗、低延時、低成本。邊緣端部署的AI 芯片以實現推理功能為主。云端推理占比逐步提升,云端推理占比逐步提升,AI 落地應用數量增加。落地應用數量增加。根據 IDC 數據,隨著人工智能進入大規模落地應用的關鍵時期,2022 年在云端部署的算力里,推理占算力已經達到了 58.5%,訓練占算力只有 41.5%,預計到 2026 年,推理占到 62.2%,訓練占 37.8%。云端推理占比逐步提升說明,AI 落地應用數量正在不斷增加,人工智能模型將逐步進入廣泛投產模式。圖表圖表40:云端推理占比逐步提升云端推理占比逐步提升 圖表圖表41:A
91、IGC 引發內容生成范式革命引發內容生成范式革命 資料來源:IDC,中信建投 資料來源:騰訊研究院,中信建投 目前目前 GPU 為云端為云端 AI 訓練應用的首選,也有專門面向推理需求設計的訓練應用的首選,也有專門面向推理需求設計的 GPU。在云端訓練場景,GPU 兼顧通用性和高算力,同時具有完善的軟件生態便于開發,目前占據主導。云端訓練 GPU 常用的型號例如 V100、0%20%40%60%80%100%2020202120222023202420252026訓練推理 17 行業深度報告 TMT 請參閱最后一頁的重要聲明 A100、H100,上述型號在多種比特位寬具有高算力表現,互連帶寬性
92、能也能滿足集群分布式訓練的需要。在云端推理場景,A100、H100 等型號亦可應用,英偉達也設計了面向推理市場的 T4、A10 等 GPU,這一類型號的性能相比同代旗艦有所下降,但仍具有良好的低精度比特位寬滿足 AI 推理的需要,可以滿足客戶對能耗、成本的綜合考慮。圖表圖表42:NVIDIA 云端訓練云端訓練 GPU 與推理與推理 GPU 參數對比參數對比 市場定位 訓練/推理 推理 型號 V100 SXM A100 SXM H100 SXM T4 PCIe A10 PCIe A30 PCIe 發布時間 2017 2020 2022 2018 2021 2021 制程 12nm 7nm 4nm
93、 12nm 8nm 7nm FP64 7.8 TFLOPS 9.7 TFLOPS 34 TFLOPS 0.25 TFLOPS 0.97 TFLOPS 5.2 TFLOPS FP32 15.7 TFLOPS 19.5 TFLOPS 67 TFLOPS 8.1 TFLOPS 31.2 TFLOPS 10.3 TFLOPS FP16 31.3 TFLOPS 78 TFLOPS 267.6 TFLOPS -10.3 TFLOPS FP64 Tensor-9.75 TFLOPS 67 TFLOPS-10.3 TFLOPS TF32 Tensor-156 TFLOPS 495 TFLOPS-62.5 TF
94、LOPS 82 TFLOPS BF16 Tensor-312 TFLOPS 990 TFLOPS-125 TFLOPS 165 TFLOPS FP16 Tensor 125 TFLOPS 312 TFLOPS 990 TFLOPS 65 TFLOPS 125 TFLOPS 165 TFLOPS INT8 Tensor-624 TOPS 1979 TOPS 130 TOPS 250 TOPS 330 TOPS 顯存類型 HBM2 HBM2e HBM3 GDDR6 GDDR6 HBM2 顯存容量 16/32 GB 40/80 GB 80 GB 16 GB 24 GB 24 GB 顯存帶寬 900
95、GB/s 1.56/2.04 TB/s 3.35 TB/s 200 GB/s 600 GB/s 933 GB/s NVLink Gen2:300GB/s Gen3:600GB/s Gen4:900GB/s-Gen3:200 GB/s PCIe Gen3:32 GB/s Gen4:64 GB/s Gen5:128 GB/s Gen3:32 GB/s Gen4:64 GB/s Gen4:64 GB/s TDP 300 W 400 W 700 W 70 W 150 W 165 W 資料來源:NVIDIA,techpowerup,中信建投 帶寬、帶寬、互連互連速率的限制,使云端超大規模的模型推理選擇速
96、率的限制,使云端超大規模的模型推理選擇 A100、H100 更優,而非更優,而非 T4、A10 等推理卡。等推理卡。以GPT-3 為例,OpenAI 數據顯示 GPT-3 模型 1750 億參數對應超過 350GB 的 GPU 顯存需求。假設參數規模與所需顯存呈線性關系,且推理的中間參數量按 1 倍估算,則 1 萬億參數規模的大模型推理需要約 4000GB 顯存,則需要 50 張 A100(80GB)或者 167 張 A10(24GB)。集群中的 GPU 數量越多意味著更復雜的互連要求,而且 A10 無法應用 NVLink 和 NVSwitch 技術,大量 A10 組成的集群僅依靠 PCIe
97、通信,互連帶寬相比 A100 等顯卡的劣勢明顯,進而可能導致模型推理的時效性不佳。圖表圖表43:不同規模大模型所需的顯存容量估計不同規模大模型所需的顯存容量估計 參數量(億)模型顯存需求(E)推理顯存需求(E)不同型號 GPU 的需求量(E)A100 80GB A800 80GB A10 24GB 1750 350GB 700GB 9 9 30 10000 2000GB 4000GB 50 50 167 互連性能備注 NVLink 600GB/s NVLink 400GB/s PCIe:64GB/s 資料來源:OpenAI,中信建投 邊緣端靠近數據源頭,需求復雜致使邊緣端靠近數據源頭,需求復雜
98、致使 AI 芯片種類豐富多樣。芯片種類豐富多樣。邊緣端 AI 以推理任務為主,邊緣 AI 芯片的特點是靠近數據源頭,就近為終端設備提供 AI 算力,減少了網絡通信延遲,并不代表算力需求一定弱。邊緣AI 芯片通常要求更為多樣化,要求保證具體應用場景的高能效、低延遲、低成本等要求,復雜的需求場景導致邊緣 AI 芯片的種類豐富多樣。目前邊緣端的模型小到使用 CPU 做 AI 運算即可,或大到借助 AI 芯片進行運算加速,INT8 算力從幾 TOPS 到幾百 TOPS 不等。邊緣端 AI 推理芯片依然遵循 CPU+xPU 的異構方案,并由于空間制約多以 SoC 的形式出現,GPU、FPGA、NPU、A
99、SIC 則作為加速模塊布置于其中。例如英偉達 Jeston Xavier內含 Volta 架構 GPU,蘋果 M2 配備 NPU 模塊。在邊緣端的小算力場景,GPU 的功耗較大,NPU 具有較強的競爭力。18 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表44:邊緣端邊緣端 AI 推理芯片及其算力案例推理芯片及其算力案例 瑞芯微瑞芯微 RK3588M 蘋果蘋果 M2 三星三星 Exynos 2100 NVIDIA Xavier Tesla HW 3.0 AI 芯片/模塊類型 NPU NPU NPU GPU NPU AI 算力 6 TOPS 15.8 TOPS 26 TOPS 32 T
100、OPS 2*36.86 TOPS 應用 智能座艙及 ADAS 平板、PC 手機 自動駕駛、機器人 自動駕駛 資料來源:各公司官網,中信建投 經測算,經測算,AI 大模型在訓練端和推理端都將產生巨量的算力大模型在訓練端和推理端都將產生巨量的算力/AI 芯片需求。如果未來大模型廣泛商用落地,芯片需求。如果未來大模型廣泛商用落地,推理端的算力推理端的算力/AI 芯片的需求量將明顯高于訓練端。芯片的需求量將明顯高于訓練端。大模型大模型云端訓練云端訓練對算力的需求測算對算力的需求測算:測算原理:測算原理:從模型的(1)參數規模入手,根據(2)訓練大模型所需的 Token 數量和(3)每 Token 訓練
101、成本與模型參數量的關系估算總算力需求,再考慮(4)單張 GPU 算力和(5)GPU 集群的算力利用率推導得出GPU 總需求。(1)參數規模:)參數規模:過去幾年,大模型的參數量呈指數上升,GPT-3 模型參數量已達到 1750 億。GPT-4 具有多模態能力,其參數量相比 GPT-3 會更大。我們在測算中假設 2023 年多模態大模型的平均參數量達到 10000億個,之后每年保持 20%的增速;普通大模型的平均參數量達到 2000 億個,之后每年保持 20%的增速。(2)訓練大模型所需的)訓練大模型所需的 Token 數量數量:參數規模在千億量級的自然語言大模型 GPT-3、Jurassic-
102、1、Gopher、MT-NLG,訓練所需的 Token 數量在千億量級,而一些多模態大模型在訓練過程中所需 Token 數據量也跟隨參數量增長而增長,我們在測算中假設多模態大模型訓練所需 Token 數量達到萬億級別,并且 Token 數量與模型參數規模保持線性增長關系。圖表圖表45:大模型參數量及訓練所需大模型參數量及訓練所需 Tokens 年份年份 參數量參數量 訓練訓練 Tokens GPT-3 2020 1750 億 3000 億 Jurassic-1 2021 1780 億 3000 億 Gopher 2022 2800 億 3000 億 MT-NLG 2022 5300 億 270
103、0 億 資料來源:Training Compute-Optimal Language Models,中信建投(3)每)每 Token 訓練成本與模型參數量的關系:訓練成本與模型參數量的關系:參考 OpenAI 發布的論文Scaling Laws for Neural Language Models中的分析,每個 token 的訓練成本通常約為 6N,其中 N 是 LLM 的參數數量,我們在測算中遵循這一關系。具體原理如下,神經網絡的訓練過程包括前向傳播和反向傳播兩個過程,其中大致包括四個步驟:1.做一個單次的推理操作,得到輸出 y,例如輸入貓的圖片得到輸出 0.986。2.求到輸出 y 與真實
104、的目標輸出 Y(假定設置的目標輸出 Y=1)之間的差值,例如得到輸出與目標真實值的差值為 0.014。3.將輸出差值回溯,計算差值關于每個參數的梯度關系。4.根據輸出差值和梯度修正每個神經元的參數,實現神經網絡的參數更新,促使輸出逼近目標真實值。因而在一個參數量為因而在一個參數量為 N 的神經網絡中,一次輸入帶來的神經網絡中,一次輸入帶來訓練過程的整體運算量大致為訓練過程的整體運算量大致為 6N,其中,其中 2N 為前向傳為前向傳 19 行業深度報告 TMT 請參閱最后一頁的重要聲明 播過程,播過程,4N 為反向傳播過程。為反向傳播過程。圖表圖表46:神經網絡的前向傳播過程神經網絡的前向傳播過
105、程 圖表圖表47:神經網絡的神經網絡的反反向傳播過程向傳播過程 資料來源:jameskle,中信建投 資料來源:jameskle,中信建投 (4)單張)單張 GPU 算力:算力:因為在訓練大模型時,主要依賴可實現的混合精度 FP16/FP32 FLOPS,即 FP16 Tensor Core 的算力,我們在測算中選取 A100 SXM 和 H100 SXM 對應的算力 312 TFLOPS 和 990 TFLOPS 作為參數。(5)GPU 集群的算力利用率:集群的算力利用率:參考 Google Research 發布的論文PaLM:Scaling Language Modeling with
106、Pathways中的分析,我們在測算中假設算力利用率約為 30%。圖表圖表48:不同大模型訓練過程中的算力利用率不同大模型訓練過程中的算力利用率 年份年份 參數量參數量 加速芯片加速芯片 算力利用率算力利用率 GPT-3 2020 1750 億 10000NVIDIA V100 21.3%Gopher 2022 2800 億 4096Google TPU v3 32.5%MT-NLG 2022 5300 億 2240NVIDIA A100 30.2%PaLM 2022 5400 億 6144 Google TPU v4 46.2%資料來源:PaLM:Scaling Language Model
107、ing with Pathways,中信建投 其他基本假設包括多模態研發廠商個數、普通大模型研發廠商個數等。根據所有假設及可以得到,根據所有假設及可以得到,2023 年年-2027 年,全球大模型訓練端峰值算力需求量的年復合增長率為年,全球大模型訓練端峰值算力需求量的年復合增長率為 78.0%。2023 年全球大模型訓練端所需全部算年全球大模型訓練端所需全部算力換算成的力換算成的 A100 總量超過總量超過 200 萬張。萬張。圖表圖表49:全球大模型訓練所需算力全球大模型訓練所需算力/AI 芯片數量測算芯片數量測算 2023E 2024E 2025E 2026E 2027E 多模態大模型研發
108、廠商個數多模態大模型研發廠商個數 5 8 10 13 15 同時訓練模型數目 3 3 3 3 3 多模態大模型平均參數數量(億個,N)15000 18000 21600 25920 31104 YoY 20.00%20.00%20.00%20.00%訓練 Tokens 數量(億個)10000 12000 14400 17280 20736 單個模型單 Token 訓練所需運算次數(TFLOPS,6N)9.00 10.80 12.96 15.55 18.66 單模型所需算力(PFLOPS)9.0109 1.31010 1.91010 2.71010 3.91010 假設單次訓練所需時間(天)7
109、7 7 7 7 訓練端峰值算力需求(PFLOPs,單模型223214.29 514285.71 925714.29 1732937.14 2879341.71 0.986=0.014 20 行業深度報告 TMT 請參閱最后一頁的重要聲明 所需算力模型數量/(單次訓練時間)普通大模型研發廠商個數普通大模型研發廠商個數 15 20 25 30 35 同時訓練模型數目 3 3 3 3 3 普通大模型平均參數數量(億個,N)2000 2400 2880 3456 4147 YoY 20.00%20.00%20.00%20.00%訓練 Tokens 數量(億個)4000 4800 5760 6912 8
110、294 單個模型單 Token 訓練所需運算次數(TFLOPS-s,6N)1.20 1.44 1.73 2.07 2.49 單模型所需算力(PFLOPS)480000000 691200000 995328000 1433272320 2063912141 假設單次訓練所需時間(天)7 7 7 7 7 訓練端峰值算力需求(PFLOPS,單模型所需算力模型數量/(單次訓練時間)35714.29 68571.43 123428.57 213284.57 358318.08 硬件算力效率 30%30%30%30%30%H100 SXM FP16 Tensor(TFLOPS)990 990 990 9
111、90 990 A100 SXM FP16 Tensor(TFLOPS)312 312 312 312 312 H100 需求總量(萬張)(只考慮 H100 的情況下)87.18 196.25 353.25 655.29 1090.12 A100 需求總量(萬張)(只考慮 A100 的情況下)276.63 622.71 1120.88 2079.30 3459.04 H100 需求增量(萬張)(只考慮 H100 的情況下)109.07 157.00 302.05 434.83 A100 需求增量(萬張)(只考慮 A100 的情況下)346.08 498.17 958.42 1379.74 資料來
112、源:OpenAI,Google Research,NVIDIA,中信建投 大模型云端推理對算力的需求測算:在云端推理場景下,我們分別從云端推理所需算力和云端模型部署所大模型云端推理對算力的需求測算:在云端推理場景下,我們分別從云端推理所需算力和云端模型部署所需顯存兩個維度分別進行測算。需顯存兩個維度分別進行測算。算力角度的測算原理:算力角度的測算原理:基于前文對參數規模、模型數量等數據的假設,根據(1)大模型日活用戶人數、(2)每人平均查詢 Token 數量、(3)每 Token 推理成本與模型參數量的關系估算推理端總算力需求,再考慮(4)單張 GPU 算力和 GPU 集群的算力利用率推導得出
113、 GPU 總需求。(1)大模型日活用戶人數:)大模型日活用戶人數:根據 Similarweb 統計數據,2023 年 1 月 ChatGPT 的日活用戶數達到 1300 萬。我們在測算中假設 2023 年多模態大模型的平均日活量達到 2000 萬,普通大模型的平均日活量達到 1000 萬,之后每年保持快速增長。(2)每人平均查詢)每人平均查詢 Token 數量:數量:根據 OpenAI 數據,平均每 1000 個 Token 對應 750 個單詞,我們在測算中假設每位用戶平均查詢的 Token 數量維持在 1000 個。(3)每)每 Token 推理成本與模型參數量的關系:推理成本與模型參數量
114、的關系:參考 OpenAI 發布的論文Scaling Laws for Neural Language 21 行業深度報告 TMT 請參閱最后一頁的重要聲明 Models中的分析,每個 token 的推理成本通常約為 2N,其中 N 是 LLM 的參數數量,我們在測算中遵循這一關系。(4)單張)單張 GPU 算力:算力:由于測算中的大模型參數量級分別在千億量級和萬億量級,考慮帶寬容量和集群計算中的帶寬限制,我們在測算中假設采用 H100 或 A100 作為云端推理卡。圖表圖表50:大模型云端推理所需算力大模型云端推理所需算力/AI 芯片數量測算(算力角度)芯片數量測算(算力角度)2023E 2
115、024E 2025E 2026E 2027E 多模態大模型平均參數數量(億個,多模態大模型平均參數數量(億個,N)15000 18000 21600 25920 31104 YoY 20.00%20.00%20.00%20.00%多模態大模型日活用戶人數(億人)0.2 0.5 1 2 4 YoY 150.00%100.00%100.00%100.00%每人平均每天查詢次數(次)20 20 20 20 20 每人平均每次查詢 Tokens 數量(個)1000 1000 1000 1000 1000 單 Tokens 所需計算次數(TFLOPs-s,2N)3.00 3.60 4.32 5.18 6
116、.22 每人每次查詢所需計算次數(TFLOPs-s,2NTokens 數量)3000 3600 4320 5184 6220.8 全天計算次數合計(EFLOPs-s,每人每次查詢所需計算次數查詢次數日活人數)1200000 3600000 8640000 20736000 49766400 平均每 s 所需峰值算力(EFLOPs)13.89 41.67 100.00 240.00 576.00 最大并發峰值算力乘數 5 5 5 5 5 最大并發峰值算力(EFLOPs)69.44 208.33 500.00 1200.00 2880.00 普通大模型平均參數數量(億個,普通大模型平均參數數量(億
117、個,N)2000 2400 2880 3456 4147 YoY 20.00%20.00%20.00%20.00%普通大模型日活用戶人數(億人)0.2 1 2 4 8 YoY 400.00%100.00%100.00%100.00%每人平均每天查詢次數(次)10 10 10 10 10 每人平均每次查詢 Tokens 數量(個)1000 1000 1000 1000 1000 單 Tokens 所需計算次數(TFLOPs-s,2N)0.40 0.48 0.58 0.69 0.83 每人每次查詢所需計算次數(TFLOPs-s,2NTokens 數量)400 480 576 691.2 829.4
118、4 全天計算次數合計(EFLOPs-s,每人每次查詢所需計算次數查詢次數日活人數)80000 480000 1152000 2764800 6635520 平均每 s 所需峰值算力(EFLOPs)0.93 5.56 13.33 32.00 76.80 最大并發峰值算力乘數 5 5 5 5 5 最大并發峰值算力(EFLOPs)4.63 27.78 66.67 160.00 384.00 峰值算力總量(PFLOPS)246914 787037 1888889 4533333 10880000 22 行業深度報告 TMT 請參閱最后一頁的重要聲明 算力效率 30.00%30.00%30.00%30.
119、00%30.00%H100 SXM FP16 Tensor(TFLOPs)990 990 990 990 990 A100 SXM FP16 Tensor(TFLOPs)312 312 312 312 312 H100 需求量(萬張)(只考慮 H100 的情況下)83 265 636 1526 3663 A100 需求量(萬張)(只考慮 A100 的情況下)264 841 2018 4843 11624 H100 需求增量(萬張)(只考慮 A100 的情況下)-182 371 890 2137 A100 需求增量(萬張)(只考慮 A100 的情況下)-577 1177 2825 6781 資料
120、來源:NVIDIA,OpenAI,中信建投 根據所有假設及可以根據所有假設及可以得到,從云端推理所需算力角度測算,得到,從云端推理所需算力角度測算,2023 年年-2027 年,全球大模型云端推理的峰值年,全球大模型云端推理的峰值算力需求量的年復合增長率為算力需求量的年復合增長率為 113%。顯存角度測算原理:顯存角度測算原理:首先,目前 SK Hynix 已開發出業界首款 12 層 24GB HBM3,考慮到一張 GPU 板卡面積有限,限制了計算核心周圍可布置的 HBM 數量,因此未來一段時間內,GPU 顯存容量的提升空間較小。其次,推理最主要的需求是時效性,為了滿足時效性,模型所需要的存儲
121、空間需要放到顯存內。綜合 GPU 板卡HBM 容量有限和推理端模型需放置在 GPU 顯存中這兩個條件,我們從模型推理端運行所需顯存入手,先預估推理端運行一個大模型所需顯存容量(1),再假設業務場景中大模型的峰值訪問量,并以此得到總體的顯存需求(2),最終得到算力/AI 芯片的需求。(1)運行一個模型所需顯存:)運行一個模型所需顯存:以 1750 億參數的 GPT-3 模型為例,OpenAI 數據顯示參數存儲需要 350GB空間。假設推理計算中間產生的參數按照一倍計算,因此推理至少需要 700GB 顯存空間,即部署一個模型需要9 張 80GB 顯存版本的 A100。(2)業務場景部署模型量及所需
122、顯存:)業務場景部署模型量及所需顯存:假設該模型能夠同時處理的并發任務數量為 100,即 9 張 A100 80GB處理 100 用戶同時并發訪問。業務場景部署以搜索引擎為例,假設最高并發訪問人數為 2000 萬,則需要 2000萬/100*9=180 萬張 A100 80GB。圖表圖表51:大模型云端推理所需算力大模型云端推理所需算力/AI 芯片數量測算(顯存角度)芯片數量測算(顯存角度)GPU 型號 A100 80GB 模型 GPT-3 參數(億)1750 億 10000 億 FP16 推理精度顯存預估(GB)350 GB 2000GB 推理中間參數量倍數預估 x1 x1 推理顯存需求(G
123、B)700 GB 4000 GB 顯卡需求(張)9 50 業務部署場景假設 搜索引擎 最高并發訪問量(萬)2000 模型能同時處理的并發量假設 100 23 行業深度報告 TMT 請參閱最后一頁的重要聲明 模型部署量(萬)20 顯卡需求(萬)180 1000 資料來源:OpenAI,NVIDIA,中信建投 根據上述測算可以得到,云端推理的算力需求潛力巨大。在 AI 大模型規?;涞貞玫那闆r下,云端推理所需的算力/AI 芯片將明顯超過云端訓練。如果考慮邊緣端 AI 推理的應用,推理端算力規模將進一步擴大。2.2 英偉達英偉達龍頭龍頭地位穩固,國內廠商地位穩固,國內廠商正逐步追趕正逐步追趕 海外
124、龍頭海外龍頭廠商占據廠商占據壟斷壟斷地位,地位,AI 加速芯片市場呈現“一超多強”態勢加速芯片市場呈現“一超多強”態勢。數據中心 CPU 市場上,英特爾份額有所下降但仍保持較大領先優勢,AMD 持續搶占份額勢頭正盛。AI 加速芯片市場上,英偉達憑借硬件優勢和軟件生態一家獨大,在訓練、推理端均占據領先地位。根據 Liftr Insights 數據,2022 年數據中心 AI 加速市場中,英偉達份額達 82%,其余海外廠商如 AWS 和 Xilinx 分別占比 8%、4%,AMD、Intel、Google 均占比 2%。國內廠商起步較晚正逐步發力,部分加速芯片領域已經涌現出一批破局企業,但目前多為
125、初創企業規模較小,技術能力和生態建設仍不完備,在高端 AI 芯片領域與海外廠商仍存在較大差距。未來,隨著美國持續加大對中國高端芯片的出口限制,AI 芯片國產化進程有望加快。圖表圖表52:AI 芯片市場競爭格局芯片市場競爭格局 圖表圖表53:2022 年年 AI 加速芯片市場份額加速芯片市場份額 資料來源:各公司官網,Wind,中信建投 資料來源:LIFTR INSIGHTS,中信建投 GPU 市場方面,海外龍頭占據壟斷地位,國產廠商加速追趕。市場方面,海外龍頭占據壟斷地位,國產廠商加速追趕。當前英偉達、AMD、英特爾三巨頭霸占全球 GPU 芯片市場的主導地位。集成 GPU 芯片一般在臺式機和筆
126、記本電腦中使用,性能和功耗較低,主要廠商包括英特爾和 AMD;獨立顯卡常用于服務器中,性能更高、功耗更大,主要廠商包括英偉達和 AMD。分應用場景來看,應用在人工智能、科學計算、視頻編解碼等場景的服務器 GPU 市場中,英偉達和 AMD 占據主要份額。根據 JPR,2023 年 Q1 英偉達的獨立顯卡(包括 AIB 合作伙伴顯卡)的市場份額達 84%,AMD 和 Intel則分別占比 12%、4%。82%8%4%2%2%2%1%NVIDIAAWSXilinxAMDGoogleIntel其他 24 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表54:全球獨顯全球獨顯 GPU 市場份額市
127、場份額 資料來源:JPR,中信建投 圖形渲染圖形渲染 GPU:英偉達引領行業數十年,持續技術迭代和生態構建實現長期領先。2006 年起,英偉達 GPU架構保持約每兩年更新一次的節奏,各代際產品性能提升顯著,生態構建完整,Geforce 系列產品市占率長期保持市場首位,最新代際 GeForce RTX 40 系列代表了目前顯卡的性能巔峰,采用全新的 Ada Lovelace 架構,臺積電 5nm 級別工藝,擁有 760 億晶體管和 18000 個 CUDA 核心,與 Ampere 相比架構核心數量增加約 70%,能耗比提升近兩倍,可驅動 DLSS 3.0 技術。性能遠超上代產品。AMD 獨立 G
128、PU 在 RDNA 架構迭代路徑清晰,RDNA 3 架構采用 5nm 工藝和 chiplet 設計,比 RDNA 2 架構有 54%每瓦性能提升,預計 2024 年前 RDNA 4 架構可正式發布,將采用更為先進的工藝制造。目前國內廠商在圖形渲染 GPU 方面與國外龍頭廠商差距不斷縮小。芯動科技的“風華2號”GPU像素填充率48GPixel/s,FP32單精度浮點性能1.5TFLOPS,AI運算(INT8)性能12.5TOPS,實測功耗 415W,支持 OpenGL4.3、DX11、Vulkan 等 API,實現國產圖形渲染 GPU 突破。景嘉微在工藝制程、核心頻率、浮點性能等方面雖落后于英偉
129、達同代產品,但差距正逐漸縮小。2023 年順利發布 JM9 系列圖形處理芯片,支持 OpenGL 4.0、HDMI 2.0 等接口,以及 H.265/4K 60-fps 視頻解碼,核心頻率至少為 1.5GHz,配備 8GB顯存,浮點性能約 1.5TFlops,與英偉達 GeForce GTX1050 性能相近,有望對標 GeForce GTX1080。圖表圖表55:國國內內外外主流圖形渲染主流圖形渲染 GPU 產品性能對比產品性能對比 廠商廠商 英偉達英偉達 英偉達英偉達 景嘉微景嘉微 芯動科技芯動科技 芯動科技芯動科技 摩爾線程摩爾線程 型號型號 GeForceRTX 4090 GTX108
130、0 JM9 系列 風華一號風華一號 風華二號風華二號 MTT S80 制程制程 4nm 16nm 14nm 12nm NA NA 核心數目核心數目 16384 2560 NA NA NA 4096 個 MUSA 時鐘頻率時鐘頻率 2.23-2.52GHz 1.61-1.73GHz 1.5GHz NA NA 1.8GHz 顯存容量顯存容量 24GB 8GB 8GB 4GB/8GB/16GB 2/4/8GB 16GB 顯存類型顯存類型 GDDR6X GDDR5X NA GDDR6/GDDR6X NA GDDR6 FP32 運算性能運算性能 82.58 TFLOPS 8.873 TFLOPS 1.5
131、 TFIops 5TFLOPS/10 TFlops 1.5 TFLOPS 14.4 TFLOPS 0%20%40%60%80%100%2021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q42023Q1英偉達AMD英特爾 25 行業深度報告 TMT 請參閱最后一頁的重要聲明 FP16 運算性能運算性能 82.58TFLOPS Int8 運算性能運算性能 25TOPS 25TOPS 12.5TOPS 總線接口總線接口 PCIe 4.0 x16 PCIE 3.0 X16 PCIE 4.0 X8 PCIe 4.0 x16 PCIe 3.0 x8 PCIe Ge
132、n5 x16 資料來源:各公司官網,中信建投 GPGPU:英偉達和:英偉達和 AMD 是目前全球是目前全球 GPGPU 的領軍企業。的領軍企業。英偉達的通用計算芯片具備優秀的硬件設計,通過 CUDA 架構等全棧式軟件布局,實現了 GPU 并行計算的通用化,深度挖掘芯片硬件的性能極限,在各類下游應用領域中,均推出了高性能的軟硬件組合,逐步成為全球 AI 芯片領域的主導者。根據 stateof.AI 2022 報告,英偉達芯片在 AI 學術論文中的出現頻次遠超其他類型的 AI 芯片,是學術界最常用的人工智能加速芯片。在 Oracle 以及騰訊云中,也幾乎全部采用英偉達的 GPU 作為計算加速芯片。
133、AMD 2018 年發布用于數據中心的Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架構,如 MI250X 采用 CDNA2 架構,在通用計算領域實現計算能力和互聯能力的顯著提升,此外還推出了對標英偉達 CUDA 生態的 AMD ROCm 開源軟件開發平臺。英偉達的 H100 及 A100、AMD 的 MI100、MI200 系列等是當前最為主流的 GPGPU 產品型號。圖表圖表56:2022 年人工智能加速芯片在云上部署情況年人工智能加速芯片在云上部署情況 圖表圖表57:英偉達芯片在英偉達芯片在 AI 學術論文中的出現頻次學術論文中的出現頻次 資料來
134、源:LIFTR INSIGHTS,中信建投 資料來源:stateof.AI,中信建投 國內國內 GPGPU 廠商廠商正逐步縮小與正逐步縮小與英偉達、英偉達、AMD 的的差距差距。英偉達憑借其硬件產品性能的先進性和生態構建的完善性處于市場領導地位,國內廠商雖然在硬件產品性能和產業鏈生態架構方面與前者有所差距,但正在逐步完善產品布局和生態構建,不斷縮小與行業龍頭廠商的差距。國內主要 GPGPU 廠商及產品如下:1)海光信息:)海光信息:公司第一代 DCU 產品深算一號已于 2021 年實現商業化應用,采用 7nm 制程,基于大規模并行計算微結構進行設計,能支持 FP64 雙精度浮點運算,同時在單精
135、度、半精度、整型計算方面表現同樣優異,是一款計算性能強大、能效比較高的通用協處理器,且該產品集成片上高帶寬內存芯片,可以在大規模數據計算過程中提供優異的數據處理能力,高速并行數據處理能力強大,在典型應用場景下,主要性能指標可對標 AMD MI100、英偉達 P100,接近英偉達 A100;第二代 DCU 產品深算二號處于研發階段,進展順利。DCU 系列產品全面兼容“類 CUDA”環境,因此能夠較好地適配、適應國際主流商業計算軟件和人工智能軟件,公司積極參與開源軟件項目,加快了公司產品的推廣速度,并實現與 GPGPU 主流開發平臺的兼容。未來有望廣泛應用于大數據處理、人工智能、商業計算等領域。2
136、)天數智芯:)天數智芯:2021 年 11 月宣布量產國內首款云端 7nm GPGPU 產品卡“天垓 100”,采用業界領先的臺積89%72%83%89%100%99%15%5%6%3%7%14%11%6%1%0%20%40%60%80%100%阿里云AWSAzureGCPOracle騰訊NVIDIAAWSXilinxAMDGoogleIntel23x log scale 26 行業深度報告 TMT 請參閱最后一頁的重要聲明 電 7nm FinFET 制造工藝、2.5D CoWoS 封裝技術,搭配臺積電 65nm 工藝的自研 Interposer(中介層),集成多達240 億個晶體管,整合 3
137、2GB HBM2 內存、存儲帶寬達 1.2TB,支持 FP32、FP/BF16、INT32/16/8 等多精度數據混合訓練,系統接口 PCIe 4.0 x16。支持國內外主流 GPGPU 生態和多種主流深度學習框架。3)壁仞科技:)壁仞科技:2022 年 9 月針對人工智能訓練、推理,及科學計算等更廣泛的通用計算場景推出 BR100 系列通用 GPU 芯片,目前主要包括 BR100、BR104 兩款芯片,基于壁仞科技原創芯片架構研發,采用 7nm 制程,可容納 770 億顆晶體管,并在國內率先采用 Chiplet 技術,新一代主機接口 PCIe 5.0,支持 CXL 互連協議,雙向帶寬最高達
138、128GB/s,具有高算力、高通用性、高能效三大優勢。創下全球算力紀錄,16 位浮點算力達到 1000T以上、8 位定點算力達到 2000T 以上,單芯片峰值算力達到 PFLOPS 級別,達到國際廠商在售旗艦產品 3 倍以上,創下國內互連帶寬紀錄。4)摩爾線程:)摩爾線程:2022 年基于自研第二代 MUSA 架構處理器“春曉”GPU 推出針對數據中心的全功能 MTT S2000/S3000。MTT S3000 具有 PCIe Gen5 接口,FP32 算力為 15.2 TFLOPS,核心頻率 1.9 GHz,顯存容量 32 GB,支持 MUSA 安全引擎 1.0 以及 GPU 彈性切分技術,
139、支持在云端的虛擬化和容器化。此外,摩爾線程推出了完備的 MUSA 軟件棧,可幫助 MUSA 開發者快速基于摩爾線程全功能 GPU 開發各種不同的應用軟件,并可通過CUDA ON MUSA 兼容 CUDA 語言開發。5)沐曦:)沐曦:沐曦首款異構 GPGPU 產品 MXN100 采用 7nm 制程,已于 2022 年 8 月回片點亮,主要應用于推理側;應用于 AI 訓練及通用計算的產品 MXC500 已于 2022 年 12 月交付流片,公司計劃 2024 年全面量產。2023 年發布首款 AI 推理 GPU 加速卡曦思 N100 及解決方案在安防領域的應用。曦思 N100 是一款面向云端數據中
140、心應用的 AI 推理 GPU 加速卡,內置異構的 GPGPU 通用處理器核心“MXN100”,同時集成了HBM2E 高帶寬內存,單卡的 INT8 整數算力達 160TOPS,FP16 浮點算力則達 80TFLOPS,具備高帶寬、低延時特性。支持 128 路編碼和 96 路解碼的高清視頻處理能力,兼容 HEVC(H.265)、H.264、AV1、AVS2 等多種視頻格式,最高支持 8K 分辨率。圖表圖表58:國國內內外外主流主流 GPGPU 產品性能對比產品性能對比 廠商廠商 英偉達英偉達 英偉達英偉達 英偉達英偉達 海光信息海光信息 摩爾線程摩爾線程 壁仞科技壁仞科技 天數智芯天數智芯 沐曦沐
141、曦 型號型號 H100 SXM A100 SXM A800(40G PCIE)深算一號 MTT S3000 壁礪 100P 天垓 100 MXN100 制程制程 4nm 7nm 7nm 7nm FinFET 7nm 7nm 7nm 核心數目核心數目 15872 6912 6912 4096 4096 時鐘頻率時鐘頻率 1.07-1.83GHz 0.77-1.41GHz 0.475GHz 1.5-1.7GHz 1.9GHz 顯存容量顯存容量 80GB 40GB/80GB 40GB 32GB 32GB 64GB 32GB 顯存類型顯存類型 HBM3 HBM2E HBM2 HBM2 GDDR6 HB
142、M2E DRAM HBM2 FP32 運算性運算性能能 67TFLOPS 19.5TFLOPS 19.5 TFLOPS 15.2 TFLOPS 2456TFLOPS 37 TFLOPS FP16 運算性運算性能能 267.6TFLOPS 78TFLOPS (BF16)1024 TFLOPS 80TFLOPS Int8 運算性能運算性能 1979 TOPS 624TOPS 2048 TOPS 160TOPS 互聯互聯接口接口 PCIe 5.0 x16,NVLink Gen4:900GB/s PCIe 4.0 x16,NVLink Gen3:600GB/s PCIe 4.0 x16,NVLink
143、Gen3:400GB/s PCIe Gen4 x 16 PCIe Gen5 x16 PCIe 5.0 X16 PCIe Gen4.0 x 16 TDP 700W 400W 250W 350W 35W 450-550W 250W 資料來源:各公司官網,中信建投 27 行業深度報告 TMT 請參閱最后一頁的重要聲明 ASIC 市場方面,由于其市場方面,由于其一定的一定的定制定制化化屬性,屬性,市場格局較為分散市場格局較為分散。在人工智能領域,ASIC 也占據一席之地。其中谷歌處于相對前沿的技術地位,自 2016 年以來,就推出了專為機器學習定制的 ASIC,即張量處理器(Tensor Proces
144、sing Unit,TPU),近期,谷歌首次公布了其用于訓練人工智能模型的 AI 芯片 TPU v4 的詳細信息,其采用低精度計算,在幾乎不影響深度學習處理效果的前提下大幅降低了功耗、加快運算速度,同時使用了脈動陣列等設計來優化矩陣乘法與卷積運算,對大規模矩陣的乘法可以最大化數據復用,減少訪存次數,大幅提升Transformer 模型的訓練速度,同時節約訓練成本。谷歌稱在同等規模系統下基于 TPU 的谷歌超級計算機比基于英偉達 A100 芯片的系統最高快 1.7 倍,節能效率提高 1.9 倍。谷歌 TPU 屬于定制化 ASIC 芯片,是專門為神經網絡和 TensorFlow 學習框架等量身打造
145、的集成芯片,需要在這類特定框架下才能發揮出最高運行效率。圖表圖表59:谷歌谷歌 TPU v4 與英偉達與英偉達 A100 性能指標對比性能指標對比 圖表圖表60:TPU v4 與英偉達與英偉達 A100 在不同模型中的表現在不同模型中的表現 資料來源:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embedding,中信建投 資料來源:An Optically Reconfigurable Supercomputer for Machine Learning wi
146、th Hardware Support for Embedding,中信建投 國產廠商快速發展國產廠商快速發展,寒武紀等異軍突起,寒武紀等異軍突起。通過產品對比發現,目前寒武紀、海思昇騰、遂原科技等國產廠商正通過技術創新和設計優化,持續提升產品的性能、能效和易用性,推動產品競爭力不斷提升,未來國產廠商有望在 ASIC 領域持續發力,突破國外廠商在 AI 芯片的壟斷格局。國內主要 AI 用 ASIC 廠商及產品如下:1)寒武紀:)寒武紀:云端人工智能領域,推出思元系列產品。其中,MLU100 芯片是中國首款高峰值云端智能芯片。MLU290 芯片是寒武紀首款云端訓練智能芯片,采用了 7nm 工藝,
147、性能功耗上接近英偉達 A100,理論峰值性分別高達 1024TOPS(INT4)、512TOPS(INT8)。思元 370(MLU370)芯片是寒武紀首款采用 Chiplet(芯粒)技術的人工智能芯片,是寒武紀第二代云端推理產品思元 270 算力的 2 倍。MLU370-X8 與 MLU370-M8 是寒武紀基于思元 370 云端智能芯片打造的兩款不同形態的人工智能加速卡。MLU370-X8 采用雙芯思元 370 配置,為雙槽位 250w 全尺寸智能加速卡,提供 24TFLOPS(FP32)訓練算力和 256TOPS(INT8)推理算力;MLU370-M8 是寒武紀面向數據中心場景打造的 OA
148、M 形態智能加速卡,可提供 32TFLOPS(FP32)訓練算力和 340 TOPS(INT8)推理算力。兩款加速卡均支持寒武紀 MLU-Link 芯片間互聯,可滿足多樣化人工智能模型的訓練和推理需求。此外,公司正在開展新一代思元 590 的開發,將采用 MLUarch05 全新架構,能夠提供更大的內存容量和更高的內存帶寬,其 I/O 和片間互聯接口也較上代實現大幅升級。2)華為華為海思海思:推出昇騰系列產品。其中昇騰 310 在典型配置下可以輸出 16TOPSINT8,8TOPSFP16,功耗僅為 8W,采用自研華為達芬奇架構,集成豐富的計算單元,提高 AI 計算完備度和效率,進而擴展該芯片
149、的適用性,全 AI 業務流程加速,大幅提高 AI 全系統的性能,有效降低部署成本。昇騰 910 是業界算力最強的AI 處理器,基于自研華為達芬奇架構 3D Cube 技術,半精度(FP16)算力達到 320 TFLOPS,整數精度(INT8)算力達到 640 TOPS,功耗 310W,可支持云邊端全棧全場景應用。表觀性能上,昇騰 910 芯片性能接近英偉達 28 行業深度報告 TMT 請參閱最后一頁的重要聲明 A100,但華為是基于自研的深度學習框架 MindSpore 與算力芯片進行相互優化,與 Tensorflow/Pytorch 兩大主流深度學習訓練框架的融合度不足,未來仍需要一定的時間
150、進行生態建設。3)燧原科技:)燧原科技:2019 年 12 月首發云端 AI 訓練加速芯片邃思 1.0 及訓練加速卡產品,2020 年推出推理加速卡,2021 年 7 月推出的第二代云端 AI 訓練加速芯片邃思 2.0,單精度 FP32 峰值算力達到 40TFLOPS,單精度張量 TF32 峰值算力達到 160TFLOPS。同時搭載了 4 顆 HBM2E 片上存儲芯片,高配支持 64GB 內存,帶寬達1.8TB/s。4)昆侖芯:)昆侖芯:昆侖芯 1 代 AI 芯片于 2020 年量產,在百度搜索引擎、小度等業務中部署數萬片,是國內唯一一款經歷過互聯網大規模核心算法考驗的云端 AI 芯片。昆侖芯
151、 2 代 AI 芯片于 2021 年 8 月量產,是國內首款采用 GDDR6 顯存的通用 AI 芯片,相比昆侖芯 1 代 AI 芯片性能提升 2-3 倍,且在通用性、易用性方面也有顯著增強。昆侖芯 3 代有望在 2024 年規模上市,或將采用了 Huawei Da Vinci(達芬奇)架構,峰值性能為 256 TeraFLOPS,支持更多的運算和深度學習技術,例如 ONNX、TensorFlow 和 PyTorch。圖表圖表61:國國內內外外主流主流 ASIC 產品性能對比產品性能對比 廠商廠商 谷歌谷歌 寒武紀寒武紀 寒武紀寒武紀 海思海思 燧原燧原 昆侖芯昆侖芯 型號 谷歌 TPUv4 寒
152、武紀MLU370-X8 寒武紀 MLU590 海思昇騰 910 燧原科技 T20 昆侖芯 2 發布時間 2020 2022 2022 2018 2021 2021 工藝制程 7nm 7nm 7nm 12nm 7nm 浮點算力 BF16 275TFLPOS FP32 24TFLPOS BF16 320TFLPOS BF16 128TFLPOS FP16 128TFLOPS INT8 算力 275TOPS 256 TOPS 640TOPS 256TOPS 256 TOPS 互聯帶寬 1000GB/s 200GB/s 300GB/s 512GB/s 顯存 32GB 48GB 32GB 功耗 250W
153、 350W 300W 120W 生態 TensorFlow XLA Cambricon Neuware MindSpore Ascend 910 資料來源:各公司官網,中信建投 生態體系決定用戶體驗,是算力芯片廠商最深的護城河。生態體系決定用戶體驗,是算力芯片廠商最深的護城河。雖然英偉達 GPU 本身硬件平臺的算力卓越,但其強大的 CUDA 軟件生態才是推升其 GPU 計算生態普及的關鍵力量。從技術角度來講,GPU 硬件的性能門檻并不高,通過產品迭代可以接龍頭領先水平,但下游客戶更在意能不能用、好不好用的生態問題。CUDA 推出之前 GPU 編程需要機器碼深入到顯卡內核才能完成任務,而推出之后
154、相當于把復雜的顯卡編程包裝成為一個簡單的接口,造福開發人員,迄今為止已成為最發達、最廣泛的生態系統,是目前最適合深度學習、AI 訓練的 GPU架構。英偉達在 2007 年推出后不斷改善更新,衍生出各種工具包、軟件環境,構筑了完整的生態,并與眾多客戶合作構建細分領域加速庫與 AI 訓練模型,已經積累 300 個加速庫和 400 個 AI 模型。尤其在深度學習成為主流之后,英偉達通過有針對性地優化來以最佳的效率提升性能,例如支持混合精度訓練和推理,在 GPU 中加入 Tensor Core 來提升卷積計算能力,以及最新的在 H100 GPU 中加入 Transformer Engine 來提升相關
155、模型的性能。這些投入包括了軟件和芯片架構上的協同設計,使得英偉達能使用最小的代價來保持性能的領先。而即便是英偉達最大的競爭對手 AMD 的 ROCm 平臺在用戶生態和性能優化上還存在差距。CUDA 作為完整的 GPU解決方案,提供了硬件的直接訪問接口,開發門檻大幅降低,而這套易用且能充分調動芯片架構潛力的軟件生 29 行業深度報告 TMT 請參閱最后一頁的重要聲明 生態讓英偉達在大模型社區擁有巨大的影響力。正因 CUDA 擁有成熟且性能良好的底層軟件架構,故幾乎所有的深度學習訓練和推理框架都把對于英偉達 GPU 的支持和優化作為必備的目標,幫助英偉達處于持續處于領先地位。圖表圖表62:CUDA
156、 構建強大生態支持所有主流深度學習框架構建強大生態支持所有主流深度學習框架 圖表圖表63:CUDA 生態和生態和 ROCm 生態對照生態對照 資料來源:寬泛科技,中信建投 資料來源:英偉達,AMD,中信建投 英偉達領先地位穩固。英偉達領先地位穩固。英偉達憑借良好的硬件性能和完善的 CUDA 生態將持續處于領先地位,但起步較晚的挑戰者也在奮起直追,未來有望出現一超多強的多元化競爭格局。訓練市場方面,英偉達高算力 GPU 是當前AI 訓練主流選擇,谷歌 TPU 面臨著通用性的局限,AMD 存在生態構建差距,但在二者的沖擊及云廠商自研芯片的競爭下,AI 訓練市場也或將出現格局的變動。推理市場方面,G
157、PU 具有較好的生態延續性仍占主流,如英偉達針對推理市場的產品 Tesla T4 上的芯片包含了 2560 個 CUDA 內核,性能達到了 FP64 0.25 TFLOPS、FP32 8.1TFLOPS、INT8 達 130 TOPS,可提供多精度推理性能,以及優于 CPU 40 倍的低延時高吞吐量,可以實時滿足更多的請求。但其他解決方案在成本、功耗具有優勢,特定市場競爭格局相對激烈,工作負載不同對應的芯片性能需求不同,T4 PCIe,有望出現各類芯片共存的局面。國內算力芯片廠商具備較好的入局機會。國內算力芯片廠商具備較好的入局機會。國產算力芯片市場需求巨大,國內人工智能生態環境較好,在 AI
158、應用領域的步伐處于全球前列,國產 GPU 廠商具孵化和發展的沃土,國內廠商供應鏈多元化的需求帶來了國內AI 芯片廠商適配窗口期,尤其是當前大模型發展早期是適配的黃金窗口期。其中,寒武紀、華為等兼容 CUDA和自建生態是國產廠商發展的兩大趨勢,具備很大的競爭力潛力。短期來看,國內廠商兼容英偉達 CUDA,可以減輕開發和遷移難度,進而快速實現客戶端導入。同時需要避開英偉達絕對優勢領域,在芯片設計結構上形成差異化競爭;長期來看,國產 GPU 如果完全依賴 CUDA 生態,硬件更新將不得不綁定英偉達的開發進程,應借鑒 AMD、Google 構建自身生態體系,開展軟硬件結合的平臺化布局,并打造不同領域快
159、速落地垂直解決方案的能力,鑄造自己的生態圈核心壁壘。預計硬件性能高效以及能夠構建符合下游需求的生態體系的國產廠商有望脫穎而出。30 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表64:昇騰計算產業生態示意圖昇騰計算產業生態示意圖 圖表圖表65:寒武紀軟件開發平臺寒武紀軟件開發平臺 資料來源:昇騰社區,中信建投 資料來源:寒武紀開發者社區,中信建投 2.3 先進封裝成為高性價比替代方案,存算一體先進封裝成為高性價比替代方案,存算一體應用潛力巨大應用潛力巨大 2.3.1 先進封裝:后摩爾定律時代的創新方向,先進制程的高性價比替代方案 大大算力芯片要求性能算力芯片要求性能持續提升持續提升,
160、后摩爾時代急需高性價比解決方案后摩爾時代急需高性價比解決方案。隨著大模型參數增加,AI 大模型對于算力需求大幅提升,GPU 等大算力芯片的性能提升遭遇兩大瓶頸:一方面,進入一方面,進入 28nm 以后摩爾定律逐漸失效,以后摩爾定律逐漸失效,先進制程的成本快速提升。先進制程的成本快速提升。根據 IBS 統計在達到 28nm 制程節點以后,如果繼續縮小制程節點數,每百萬門晶體管的制造成本不降反升,摩爾定律開始失效。而且應用先進制程的芯片研發費用大幅增長,5nm 制程的芯片研發費用增至 5.42 億美元,幾乎是 28nm 芯片研發費用的 10.6 倍,高額的研發門檻進一步減少了先進制程的應用范圍。另
161、一方面,內存帶寬另一方面,內存帶寬增長緩慢,增長緩慢,限制處理器性能。限制處理器性能。在傳統 PCB 封裝中,走線密度和信號傳輸速率難以提升,因而內存帶寬緩慢增長,導致來自存儲帶寬的開發速度遠遠低于處理器邏輯電路的速度,帶來“內存墻”的問題。圖表圖表66:每百萬門晶體管的成本在每百萬門晶體管的成本在 28nm 后開始上升后開始上升 圖表圖表67:先進制程芯片的研發費用大幅上升先進制程芯片的研發費用大幅上升 資料來源:IBS,中信建投 資料來源:IBS,中信建投 Chiplet 設計設計+異構先進封裝異構先進封裝提供了性能與成本平衡的最佳方案。提供了性能與成本平衡的最佳方案。Chiplet 即“
162、小芯片”,是指預先制造好、具有特定功能、可組合集成的晶片(Die)。Chiplet 技術背景下,可以將大型單片芯片劃分為多個相同或者不同的小芯片,這些小芯片可以使用相同或者不同的工藝節點制造,再通過跨芯片互聯和先進封裝技術進行封裝級別集成,主要優勢包括:1)可以突破光罩尺寸對單芯片面積的限制;2)可以充分發揮舊工藝節點的性價比優28.537.751.370.3106.3174.4297.8542.2010020030040050060065nm40nm28nm22nm16nm10nm7nm5nm研發費用(百萬美元)31 行業深度報告 TMT 請參閱最后一頁的重要聲明 勢,有效提升產品的良率,降
163、低成本;3)通過集成不同工藝的芯粒,可以形成更加靈活的產品策略;4)先進封裝的走線密度短,信號傳輸速率有很大的提升空間,同時能大大提高互連密度,成為解決內存墻問題的主要方法之一。圖表圖表68:Chiplet 有利于提升良率有利于提升良率 圖表圖表69:用用 Chiplet 技術的技術的 7nm+14nm 的造價的造價 vs 7nm 資料來源:Wikichip,中信建投 資料來源:AMD,中信建投 為了使異構集成的 Chiplet 封裝實現,需要借助到 2D/2.1D/2.3D/2.5D/3D 等一系列先進封裝工藝。先進封裝的不同層次主要依據多顆芯片堆疊的物理結構和電氣連接方式劃分,例如 2D
164、封裝中的芯片直接連接到基板,其他封裝則以不同形式的中介層完成互聯。其中,其中,2.5D 封裝常用于計算核心與封裝常用于計算核心與 HBM 的封裝互連,的封裝互連,3D 封裝常用封裝常用于于 HBM 顯存的多層堆疊,并有望用于不同顯存的多層堆疊,并有望用于不同 IC 的異構集成。的異構集成。圖表圖表70:先進封裝的層次先進封裝的層次 圖表圖表71:先進封裝依據互連密度和性能排名先進封裝依據互連密度和性能排名 資料來源:Recent Advances and Trends in Advanced Packaging,中信建投 資料來源:Recent Advances and Trends in A
165、dvanced Packaging,中信建投 先進封裝市場快速成長,相對高階的封裝形式將呈現更快增速。先進封裝市場快速成長,相對高階的封裝形式將呈現更快增速。預計 2027 年先進封裝市場規模增至 651億美元,2021-2027 年 CAGR 達到 9.6%。根據 Yole 數據,全球封裝市場中,先進封裝占比已由 2015 年的 39%提升至 2021 年的 44%。預計到 2027 年,先進封裝市場占比將增至 53%,規模約為 651 億美元,2021-2027 年CAGR 約為 9.6%,高于傳統封裝市場的 3.3%和市場整體的 6.3%。倒裝穩占先進封裝最大份額,2.5D/3D、嵌入式
166、芯片和扇出成為增長最快的先進封裝平臺。根據 Yole 數據,先進封裝內部份額最大的板塊為倒裝(包括FCBGA、FCCSP、FC-SiP),2021 年市場規模約 262.7 億美元,占比 70%。從增速角度來看,相對高階的封裝 32 行業深度報告 TMT 請參閱最后一頁的重要聲明 形式 Fan-Out、2.5D/3D、Embedded Die 在智能手機、HPC、自動駕駛等領域需求的推動下,保持高于先進封裝整體市場的復合增速。圖表圖表72:全球封裝市場規模及結構預測全球封裝市場規模及結構預測 圖表圖表73:先進封裝市場規模及結構預測先進封裝市場規模及結構預測 資料來源:Yole,中信建投 資料
167、來源:Yole,中信建投 1)CoWoS:2.5D 封裝重要解決方案,實現封裝重要解決方案,實現計算核心與計算核心與 HBM 封裝互連封裝互連 計算核心與計算核心與 HBM 通過通過 2.5D 封裝互連,臺積電開發的封裝互連,臺積電開發的 CoWoS 封裝技術為廣泛使用的解決方案。封裝技術為廣泛使用的解決方案。臺積電早在 2011 年推出 CoWoS 技術,并在 2012 年首先應用于 Xilinx 的 FPGA 上。此后,華為海思、英偉達、谷歌等廠商的芯片均采用了 CoWoS,例如 GP100(P100 顯卡核心),TPU 2.0。如今 CoWoS 已成為 HPC 和 AI 計算領域廣泛應用
168、的 2.5D 封裝技術,絕大多數使用 HBM 的高性能芯片,包括大部分創企的 AI 訓練芯片都應用了 CoWoS技術。圖表圖表74:臺積電臺積電 CoWoS 技術平臺技術平臺 資料來源:臺積電,中信建投 TSV(Through Silicon Via,硅通孔)是,硅通孔)是 CoMoS 封裝的關鍵技術。封裝的關鍵技術。TSV 在芯片和芯片之間、晶圓和晶圓之間制作垂直導通,通過銅、鎢、多晶硅等導電物質的填充,實現硅通孔的垂直電氣互連,是目前唯一的垂直電互聯技術。根據中介層的不同,CoWoS 可以分為為 CoWoS-S、CoWoS-R 和 CoWoS-L 三種:1)CoWoS-S 基于硅中介層為先
169、進 SoC 和 HBM 提供系統集成;2)CoWoS-R 更強調小芯片間的互連,利用 RDL 實現最小 4m的布線;3)CoWoS-L 則是最新的 CoWoS 技術,結合了 CoWoS-S 和 InFO 兩種技術的優點,使用 RDL 與 LSI(本地硅互連)進行互連,具有最靈活的集成性。硅中介層中的 TSV 采用后通孔工藝(via last)形成,可以由封測廠商完成。CoWoS-S 對最大光罩掩膜版的尺寸有要求,當芯片封裝規模大于掩膜版尺寸后將出現一張掩膜 33 行業深度報告 TMT 請參閱最后一頁的重要聲明 版無法滿足芯片完整曝光的需求,多次曝光拼接將帶來良率問題,但是 HBM 接口對硅互聯
170、有著迫切的需求,因此 CoWoS-L 的 LSI 是目前的發展趨勢。圖表圖表75:臺積電臺積電三種三種 CoWoS 技術技術類型類型 資料來源:臺積電,中信建投 CoWoS-S 基于硅中介層(基于硅中介層(Si-interposer)為先進)為先進 SoC 和和 HBM 提供系統集成,在提供系統集成,在 GPU 等算力芯片的封裝等算力芯片的封裝中應用廣泛中應用廣泛。CoWoS-S 的特點是混合了寬帶內存模塊 HBM(High Bandwidth Memory)和大規模 SoC 的高性能子系統,通過 Si 中介層連接 HBM 和 SoC,實現了寬帶內存訪問。CoWoS-S 最早于 2011 年開
171、發,經歷 5 代發展。最初,安裝在中介層上的硅芯片是多個邏輯芯片,采用該技術的賽靈思高端 FPGA“7V2000T”在 CoWoS-S中配備了四個 FPGA 邏輯芯片。第 3 代開始支持邏輯和內存的混合加載。第 5 代 CoWoS-S 技術使用了全新的 TSV 解決方案,更厚的銅連接線,晶體管數量是第 3 代的 20 倍,硅中介層擴大到 2500mm2,相當于 3 倍光罩面積,擁有 8 個 HBM2E 堆棧的空間,容量高達 128 GB。第 6 代技術有望于 2023 年推出,將會在基板上封裝 2 顆運算核心,同時可以板載多達 12 顆 HBM 緩存芯片。圖表圖表76:GPU 與與 HBM 封
172、裝結構示意圖封裝結構示意圖 圖表圖表77:臺積電臺積電 COWoS-S 發展歷程發展歷程 資料來源:AMD,中信建投 資料來源:臺積電,中信建投 CoWoS 幫助臺積電取得英偉達、幫助臺積電取得英偉達、AMD 等高性能計算芯片訂單。等高性能計算芯片訂單。根據 DIGITIMES 報道,微軟已與臺積電及其生態系統合作伙伴接洽,商討將 CoWoS 封裝用于其自己的 AI 芯片。英偉達高端 GPU 都采用 CoWoS 封裝技術將 GPU 芯片和 HBM 集合在一起。Tesla P100 通過加入采用 HBM2 的 CoWoS 第三代技術,將計算性能和數據緊密集成在同一個程序包內,提供的內存性能是 N
173、VIDIA Maxwell 架構的三倍以上。V100、A100、等高端 GPU,均采用臺積電 CoWoS 封裝,分別配備 32 GB HBM2、40GB HBM2E 內存,全新 Hopper 架構的H100 GPU 也采用 CoWoS 封裝,具有 80GB 的 HBM3 內存和超高的 3.2TB/s 內存帶寬。AMD 也也將重新采用將重新采用 CoWoS 封裝。封裝。根據 DIGITIMES 報道,AMD MI 200 原本由日月光集團與旗下矽品提供,應用 FO-EB 先進封裝(扇出嵌入式橋接),而新 MI 系列數據中心加速器芯片將重新采用臺積電先進封裝 CoWoS?;?Aldebaran
174、GPU 的 MI250 或采用第五代 CoWoS 封裝技術,可實現 128GB HBM2E 內存等超高性能配置。34 行業深度報告 TMT 請參閱最后一頁的重要聲明 2)HBM:3D 封裝打造多層堆疊內存,突破容量與帶寬瓶頸封裝打造多層堆疊內存,突破容量與帶寬瓶頸 HBM 采用采用 3D 封裝,通過封裝,通過 TSV 將多個將多個 DRAM die 垂直垂直堆疊堆疊。在后摩爾時代,存儲帶寬制約了計算系統的有效帶寬,導致芯片算力性能提升受到限制,HBM 應運而生,與傳統 DRAM 不同,HBM 是 3D 結構,它使用TSV 技術將數個 DRAM 裸片堆疊起來,形成立方體結構,即 DRAM 芯片上
175、搭上數千個細微孔并通過垂直貫通的電極連接上下芯片;DRAM 下面是 DRAM 邏輯控制單元,對 DRAM 進行控制。從技術角度看,HBM 促使DRAM 從傳統 2D 加速走向立體 3D,充分利用空間、縮小面積,契合半導體行業小型化、集成化的發展趨勢。HBM 和硅互聯技術突破了內存容量與帶寬瓶頸,被視為新一代 DRAM 解決方案。而相較傳統封裝方式,TSV技術能夠縮減 30%體積,并降低 50%能耗。圖表圖表78:3D TSV 封裝技術封裝技術 圖表圖表79:HBM 堆疊結構堆疊結構 資料來源:三星,中信建投 資料來源:電子與封裝,,中信建投 HBM 相對傳統內存相對傳統內存數據傳輸線路的數量數
176、據傳輸線路的數量大幅提升大幅提升。存儲器帶寬指單位時間內可以傳輸的數據量,要想增加帶寬,最簡單的方法是增加數據傳輸線路的數量。在典型的 DRAM 中,每個芯片有八個 DQ 引腳 2,也就是數據輸入/輸出引腳。在組成 DIMM3 模塊單元之后,共有 64 個 DQ 引腳。然而,隨著系統對 DRAM 和處理速度等方面的要求有所提高,數據傳輸量也在增加。因此,DQ 引腳的數量(D 站的出入口數量)已無法保證數據能夠順利通過。HBM 由于采用了系統級封裝(SIP)4 和硅通孔(TSV)技術,擁有高達 1024 個 DQ 引腳,但其外形尺寸(指物理面積)卻比標準 DRAM 小 10 倍以上。由于傳統 D
177、RAM 需要大量空間與 CPU 和 GPU 等處理器通信,而且它們需要通過引線鍵合 5 或 PCB 跡線 6 進行連接,因此 DRAM 不可能對海量數據進行并行處理。相比之下,HBM 產品可以在極短距離內進行通信,增加了 DQ 路徑,顯著加快了信號在堆疊 DRAM 之間的傳輸速度,實現了低功耗、高速的數據傳輸。圖表圖表80:HBM 數據傳輸線路的數量大幅提升數據傳輸線路的數量大幅提升 資料來源:海力士,中信建投 35 行業深度報告 TMT 請參閱最后一頁的重要聲明 目前目前 HBM 產品帶寬增加了七倍,已接近產品帶寬增加了七倍,已接近 1TB/秒的里程碑節點。秒的里程碑節點。顯存帶寬=顯存等效
178、頻率顯存位寬/8,因此頻率和帶寬決定顯存性能。HBM顯存可以提供1024bit起跳的顯存位寬,4顆粒堆疊式的顯存可達到128GB/s的帶寬。HBM 能大幅提高數據處理速度,每瓦帶寬比 GDDR5 高出 3 倍多,且 HBM2 比 GDDR5 節省了 94%的表面積,減少 20%+的功耗。2021 年,SK 海力士和 Rambus 先后發布最高數據傳輸速率 6.4Gbps 和 8.4Gbps 的 HBM3 產品,每個堆棧將提供超過 819GB/s 和 1075GB/s 的傳輸速率,支持 16-Hi 堆棧,堆棧容量達到 64GB。HBM3 帶寬達 819GB/s,相對初代增加了 7 倍,是 LPD
179、DR5 的近 100 倍,較 DDR5、GDDR6 高出 10 倍以上。與傳統內存相比,HBM 的存儲密度更大、功耗更低、帶寬更高,多用于與數據中心 GPGPU 配合工作,可以取代傳統的 GDDR,HBM 優勢在于高位寬,但是頻率相對偏低。圖表圖表81:DDR 與與 HBM 技術指標對比技術指標對比 圖表圖表82:歷代歷代 HBM 性能持續提升性能持續提升 資料來源:奎芯科技,中信建投 資料來源:海力士,中信建投 HBM 正在成為正在成為 AI 服務器服務器 GPU 的的標配標配。AI 服務器需要在短時間內處理大量數據,對帶寬提出了更高的要求,HBM 成為了重要的解決方案。AI 服務器 GPU
180、 市場以 NVIDIA H100、A100、A800 以及 AMD MI250、MI250X系列為主,基本都配備了 HBM。HBM 方案目前已演進為較為主流的高性能計算領域擴展高帶寬的方案。SK 海力士 HBM3 顯存的樣品已通過 NVIDIA 的性能評估工作,在 2022 年 6 月向 NVIDIA 正式供貨,2023 GTC大會發布的 ChatGPT 專用最新 H100 NVL GPU,也配置了 188GB HBM3e 內存;Rambus HBM3 或將在 2023年流片,實際應用于數據中心、AI、HPC 等領域。IDC 數據顯示,2019 年中國 AI 加速服務器單機 GPGPU 搭載量
181、最多達到 20 顆,加權平均數約為 8 顆/臺。單顆 GPU 配套的 HBM 顯存存儲容量達到 80GB,對應價值量約為 800 美元。36 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表83:目前推出的搭載目前推出的搭載 HBM 和和 GDDR 的的 GPU 產品產品 資料來源:奎芯科技,中信建投 SK 海力士是海力士是 HBM 開發的先行者,并在技術開發和市場份額上占據領先地位。開發的先行者,并在技術開發和市場份額上占據領先地位。2014 年,SK 海力士與 AMD聯合開發了全球首款 HBM 產品。SK 海力士的 HBM3 發布 7 個月后實現了量產,將搭載于 NVIDIA H1
182、00 之上。根據 BussinessKorea 的報道,SK 海力士在 HBM 市場已獲得 60%-70%的市場份額。SK 海力士之后,三星、美光推出了各自的 HBM 產品,分別迭代至 HBM3 和 HBM2E。晶圓代工廠商包括如臺積電、格芯等也在發力 HBM相關的封裝技術。隨著隨著 HBM3 的性能提升,未來市場空間廣闊。的性能提升,未來市場空間廣闊。以位元計算,目前 HBM 占整個 DRAM 市場比重僅約 1.5%,滲透率提升空間較大。在將 GPU 等 AI 芯片推向高峰的同時,也極大帶動了市場對新一代內存芯片 HBM(高帶寬內存)的需求,據悉,2023 年開年以來,三星、SK 海力士的
183、HBM 訂單就快速增加,價格也水漲船高。根據TrendForce 咨詢,2023-2025 年 HBM 市場 CAGR 有望成長至 40-45%以上,至 2025 年市場規模有望快速增至 25億美元。圖表圖表84:SK 海力士的海力士的 HBM 產品迭代產品迭代 圖表圖表85:全球全球 HBM 市場規市場規模預測模預測 HBM1 HBM2 Gen1 HBM2 Gen2 HBM2E HBM3 Operating Frequency(Mbps)1600 1600 2000-4000 3200-3600 4400-6400 VDD 1.2V 1.2V 1.2V 1.2V 1.1V Die Densi
184、ty(Stack)2GB(4-Hi)8GB(4Hi)8GB(4Hi/8Hi)16GB(4Hi/8Hi)16-24GB(4/8/12Hi)Release Year 2016 2017 2018 2020 2022 資料來源:SK海力士,中信建投 資料來源:TrendForce,Omdia,中信建投 3)3D IC:多芯片垂直堆疊多芯片垂直堆疊增強互聯帶寬,未來發展潛力巨大增強互聯帶寬,未來發展潛力巨大 3D IC 是指使用是指使用 FAB 工藝在單個芯片上堆疊多個器件層工藝在單個芯片上堆疊多個器件層,包括多,包括多 Logic 芯片間的堆疊芯片間的堆疊。與 2.5D 封裝相比,500458557
185、846122718942497-8.4%21.6%51.9%45.0%54.4%31.8%-20%-10%0%10%20%30%40%50%60%0500100015002000250030002019202020212022202320242025市場規模(百萬美元)YoY 37 行業深度報告 TMT 請參閱最后一頁的重要聲明 3D IC 封裝在互連方式有所不同。2.5D 封裝是通過 TSV 轉換板連接芯片,而 3D IC 封裝是將多個芯片垂直堆疊在一起,并通過直接鍵合技術實現芯片間的互連。在 2.5D 結構中,兩個或多個有源半導體芯片并排放置在硅中介層上,以實現極高的芯片到芯片互連密度。在
186、 3D 結構中,有源芯片通過芯片堆疊集成,以實現最短的互連和最小的封裝尺寸。另一方面,2.5D 封裝和 3D IC 封裝的制造工藝也有所不同,2.5D 封裝需要制造硅基中介層,并且需要進行微影技術等復雜的工藝步驟;而 3D IC 封裝需要進行直接鍵合技術等高難度的制造工藝步驟。當前 3D IC 封裝主流產品包括臺積電 SoIC 技術、英特爾 Foveros 技術和三星 X-Cube 技術。圖表圖表86:普通封裝、普通封裝、2.5D 封裝、封裝、3D IC 的區別的區別 圖表圖表87:2D SoC 和和 3D IC 互連線長度模型互連線長度模型 資料來源:einfochips,中信建投 資料來源
187、:2cm,中信建投 臺積電臺積電 SoIC 是是 3D 異構集成的技術平臺,采用異構集成的技術平臺,采用 wafer-on-wafer 鍵合技術。鍵合技術。SoIC 技術采用 TSV 技術,可以實現非凸點鍵合結構,將許多不同性質的相鄰芯片集成在一起。SoIC 技術將同構和異構小芯片集成到單個類似 SoC 的芯片中,該芯片具有更小的占用空間和更薄的外形,可以整體集成到 CoWoS 和 InFO 中。從外觀上看,新集成的芯片就像一個普通的 SoC 芯片,但嵌入了所需的異構集成功能。SoIC 主要分為 SoIC_CoW(Chip on Wafer)和 SoIC_WoW(Wafer on Wafer)
188、。1)SoIC_CoW 技術技術將不同尺寸、功能、節點的晶粒進行異質整合。2)SoIC_WoW 技術技術通過晶圓堆疊工藝實現異構和同質 3D 硅集成。緊密的鍵合間距和薄的 TSV 可實現最小的寄生以實現更好的性能、更低的功耗和延遲以及更小的外形尺寸。WoW 適用于高良率節點和相同裸片尺寸的應用或設計,甚至支持與第 3 方晶圓的集成。臺積電在 CoW 方面正在開發 N7-on-N7 和 N5-on-N5 等;WoW 方面,臺積電則在開發 Logic-on-DTC(Deep Trench Capacitor)。圖表圖表88:臺積電臺積電 SoIC 技術技術 圖表圖表89:SoIC 與與 InFO_
189、PoP、CoWoS 聯合應用聯合應用 資料來源:臺積電,中信建投 資料來源:臺積電,中信建投 基于微凸塊的基于微凸塊的 3D 封裝借助微凸點連接芯片,在連接密度、性能等方面受限。封裝借助微凸點連接芯片,在連接密度、性能等方面受限。傳統 3D 封裝在后端工藝中借 38 行業深度報告 TMT 請參閱最后一頁的重要聲明 助微凸點(Pump)連接堆疊的芯片,但微凸點的尺寸很難縮小到 10m 以下,限制了堆疊芯片的 I/O 針腳計數。此外,按比例排列的微凸點增加了寄生電容、電阻和電感,降低了其性能和功率。臺積電臺積電 SoIC 3D 封裝技術使芯片連接緊密,并在互聯帶寬和散熱上表現優異。封裝技術使芯片連
190、接緊密,并在互聯帶寬和散熱上表現優異。臺積電 SoIC 的鍵合技術在前端工藝完成,接合間距更小,使芯片更緊密地連接在一起,提供超過 10K/mm2 的垂直互連密度,用于超高帶寬互連。在熱性能方面,臺積電 SoIC 鍵合的熱阻比微凸點下降低 35%。圖表圖表90:SoIC 與基于微凸點的與基于微凸點的 3D 封裝對比封裝對比 圖表圖表91:SoIC 具有更優異的熱性能表現具有更優異的熱性能表現 資料來源:臺積電,中信建投 資料來源:臺積電,中信建投 臺積電公布了其 SoIC 研發進度,CoW 和 WoW 的研發進度基本一致,為 N7/N6 工藝,預計 2023 年將會實現基于 N5 工藝,并預計
191、將于 2035 年前實現 1m 以內的 SoIC 互連。3D IC 未來有望迎來快速發展和商用化進程。圖表圖表92:臺積電臺積電 SoIC 研發進度研發進度規劃規劃 資料來源:臺積電,中信建投 2.3.2 存算一體:解決傳統馮諾依曼架構“存儲墻”,能效比提升潛力巨大 存算一體有望存算一體有望解決傳統馮諾依曼架構下的“存儲墻解決傳統馮諾依曼架構下的“存儲墻”?!?。由于處理器的設計以提升計算速度為主,存儲則更注重容量提升和成本優化,“存”“算之間性能失配,從而導致了訪存帶寬低、時延長、功耗高等問題,即通常所說的“存儲墻和“功耗墻”。訪存愈密集,“墻”的問題愈嚴重,算力提升愈困難。隨著以人工智能計算
192、單元為代表的訪存密集型應用快速崛起,訪存時延和功耗開銷無法忽視,計算架構的變革顯得尤為迫切。存算 39 行業深度報告 TMT 請參閱最后一頁的重要聲明 一體作為一種新型算力,指計算單元與存儲單元融合,在完成數據存儲功能的同時可以直接進行計算,有望解決傳統馮諾依曼架構下的“存儲墻、“功耗墻 問題,以其巨大的能效比提升潛力,有望成為人工智能時代的先進應用技術。存儲墻:數據搬運慢、搬運能耗大等問題是高速計算的關鍵瓶頸。從處理單元外的存儲器提取數據,搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在60%-90%之間,能效非常低。圖表圖表93:不同存儲墻的帶寬、功耗對比不同存儲墻的帶寬、功耗
193、對比 圖表圖表94:CPU 與存儲器發展趨勢與存儲器發展趨勢 數據帶寬數據帶寬 位寬位寬 數據搬運能耗數據搬運能耗 片外 HBM 960GB/s 1024-bit 10nj 片外 DDR4 40GB/s 64bit 10nj 片內 SRAM 10-100TB/s 8bit、16bit、32bit 50pj 計算功耗-5pj 資料來源:電子發燒友,中信建投 資料來源:半導體產業縱橫,中信建投 根據存儲與計算的距離遠近,將廣義存算一體的技術方案分為三大類,分別是近存計算(Processing Near Memory,PNM)、存內處理(Processing ln Memory,PIM)和存內計算(
194、Computing in Memory,CIM)。PNM:即 HBM 與 CPU 一體,用于高性能計算芯片,采用 HBM 堆疊,2.5D 封裝,硅中介層(Interposer)內聯在基板上。通過中介層緊湊而快速地連接后,HBM 具備的特性幾乎和芯片集成的 RAM 一樣。圖表圖表95:近存計算大幅減少功耗近存計算大幅減少功耗 圖表圖表96:近存計算可以克服計算與存儲之間的瓶頸近存計算可以克服計算與存儲之間的瓶頸 資料來源:Planet,中信建投 資料來源:Planet,中信建投 PIM:用硅通孔(Through Silicon Via,TSV,2010 年實現)技術將計算單元塞進內存上下 ban
195、k 之間。CIM:計算操作由位于存儲芯片/區域內部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數字的。這種路線一般用于算法固定的場景算法計算。目前主要路線是基于 NOR flash,多數情況下存儲容量較小,這使得 NOR flash 單片算力達到 1TOPS 以上器件代價較大,通常業內大算力一般是 20-100TOPS 以上。而其他存儲器,包括 SRAM、RRAM 等,可以用來做到大算力的存算一體。40 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表97:PIM 原理(實例:原理(實例:Xilinx 的的 Alveo U280)圖表圖表98:CIM 原理原理 資料來源:三星,中
196、信建投 資料來源:電子發燒友,中信建投 科研院科研院所與龍頭廠商積極所與龍頭廠商積極布局布局,未來,未來市場市場潛力較大潛力較大。2011 年,存算一體芯片開始受到學界關注,2016-2017年成為學界熱議話題,隨之而來學術大佬與業界領軍廠商紛紛開啟其商業化探索??蒲性核矫?,加州大學圣芭芭拉分校謝源教授團隊致力于在新型存儲器件 ReRAM(阻變存儲)里面實現計算的功能研究,即 PRIME 架構。清華大學劉勇攀教授團隊和汪玉教授團隊均參與了 PRIME 架構的研發,目前已實現在 150nm 工藝下流片,在阻變存儲陣列里實現了計算存儲一體化的神經網絡,功耗降低 20 倍,速度提高 50 倍。此外
197、,清華大學與 SK海力士聯合成立智能存儲計算芯片聯合研究中心,未來五年,中心將致力于研發存算一體與近存儲處理技術。在產業應用方面,英特爾、博世、美光、Lam Research、應用材料、微軟、亞馬遜、軟銀都投資了 NOR 閃存存算一體芯片。其中,英特爾發布的傲騰固態盤采用片外存儲技術,實現 CPU 與硬盤之間數據高速搬運,從而平衡高級分析和人工智能等大規模內存工作負載的性價比。SK 海力士在今年的 ISSCC 發表存內計算的開發成果-基于 GDDR 接口的 DRAM 存內計算,并展示了其首款基于存內計算技術產品-GDDR6-AiM 的樣本。根據量子位智庫預計,2030 年基于存算一體的大算力芯
198、片將實現規模量產,應用場景覆蓋大數據檢索、蛋白質/基因分析、數據加密、圖像處理等。2030 年,基于存算一體技術的中小算力芯片市場規模約為 1069 億人民幣,基于存算一體技術的大算力芯片市場規模約為 67 億人民幣,總市場規模約為 1136 億人民幣。圖表圖表99:存算一體市場發展趨勢存算一體市場發展趨勢 圖表圖表100:我國存算一體市場規模估算我國存算一體市場規模估算 資料來源:量子位,中信建投 資料來源:量子位,中信建投 三、三、AI 服務器滲透率快速提升服務器滲透率快速提升 3.1 AI 服務器是算力基礎設施最主要的硬件,訓練型主要成本來自于服務器是算力基礎設施最主要的硬件,訓練型主要
199、成本來自于 GPU 芯片芯片 41 行業深度報告 TMT 請參閱最后一頁的重要聲明 3.1.1 AI 服務器采用異構架構,主流結構為 CPU+多顆 GPU 與普通服務器的絕大多數空間分配給 CPU 相比,AI 服務器是采用異構形式的服務器,在異構方式上可以根據應用的范圍采用不同的組合方式,一般采取 CPU+多顆 GPU 的架構,也有 CPU+TPU、CPU+其他的加速卡等組合。相較普通服務器,AI 服務器更擅長并行運算,具有高帶寬、性能優越、能耗低等優點。在大模型的預訓練中,一方面側重對文本上下文的理解,另一方面算法上存在大量的向量、矩陣計算,這讓并行計算的 AI 服務器更擅長處理大模型的預訓
200、練任務。人工智能與通用大模型作為數字經濟中的新興行業,帶動了大量的算力需求,也成為國內算力基礎設施建設中最主要的硬件之一。圖表圖表101:通用服務器通用服務器與與 AI 服務器的不同服務器的不同 通用服務器 AI 服務器 硬件架構 2CPU 2CPU+8GPU、CPU+TPU 等 計算性能 擅長串行計算 擅長并行計算 代表供應商 Dell、HPE 浪潮 應用場景 傳統金融、通信等行業 深度學習、大模型訓練 資料來源:IDC,中信建投 以 GPU 為核心的異構服務器未來將成為主流。對比 CPU 和 GPU 的內部架構,CPU 采用整塊的 ALU(運算單元),且大量空間用于控制單元和緩存,串行計算
201、能力強;而 GPU 采用分立的大量 ALU,很少空間分配給控制單元和緩存,并行計算能力強。而由于圖像識別、視覺效果處理、虛擬現實、大模型訓練等任務都包含大量的簡單重復計算、矩陣計算等,更適合用搭載 GPU 更多的異構型 AI 服務器進行處理,而隨著企業的智能化變革和通用大模型的興起,以 GPU 為核心的異構型 AI 服務器將在算力基礎設施建設中占據愈發重要的地位。圖表圖表102:GPU 與與 CPU 產品特點產品特點 圖表圖表103:GPU 與與 CPU 內部結構內部結構 GPU CPU 核心數量 數千個加速核心(雙卡M40高達6144個加速核心)幾十個核心 產品特點 1.高效眾多的運算單元(
202、ALU)支持并行處理 2.多線程已達到超大并行吞吐量 1.復雜的邏輯控制單元 2.強力的運算單元 適用場景 計算密集、易于并行的程序 邏輯復雜、串行計算的程序 數據來源:IDC,中信建投 數據來源:IDC,中信建投 42 行業深度報告 TMT 請參閱最后一頁的重要聲明 AI 服務器按應用場景又可分為訓練和推理兩種,其中訓練對芯片算力需求更高,推理對算力需求相對較低。從部署方面來看訓練服務器往往部署于云端,推理服務器則根據需求會部署于云端及邊緣側。圖表圖表104:AI 服務器訓練及推理區別服務器訓練及推理區別 類別類別 訓練訓練 推理推理 定義定義 借助已有的大量數據樣本進行學習,獲得諸如更準確
203、的識別和分類能力的過程 對新的數據,使用經過訓練的算法完成特定任務 算力要求算力要求 訓練芯片應當具備強大的單芯片計算能力 推理芯片算力需求相對較低 部署位置部署位置 云端為主 云端和邊緣側 搭載搭載 GPU 芯片芯片 英偉達 A100、A800 等 英偉達 T4 等 資料來源:英偉達,華經產業研究院,中信建投 3.1.2 AI 服務器產業鏈上下游&成本結構拆解 AI 服務器產業鏈上游主要由服務器元器件生產商組成,其中 CPU、GPU 作為核心組件,主要由 Intel、AMD、Nvidia 供應,國產供應商占比較少,其他部件包括內存、SSD、PCB、光模塊、電源等存在更多的國產供應商;產業鏈中
204、游包括主板集成商和服務器廠商,先由主板集成商將眾多芯片集成,再交由服務器廠商裝配成整機銷售。目前國內企業在服務器廠商中占據重要地位;產業鏈下游主要包括以 BAT 為首的互聯網廠商,移動、電信、聯通三大運營商和眾多政企客戶(主要集中在政府、金融、醫療三大行業,因其最需要 AI 客服等相關產品)。圖表圖表105:AI 服務器產業鏈概覽服務器產業鏈概覽 數據來源:Wind,中信建投 通用服務器成本主要由 CPU、存儲、內存及其他部分構成,而 AI 服務器由于采用了多顆 GPU 芯片組成異構架構,其成本構成也會發生變化。具體來看,訓練型 AI 服務器由于需要處理大量數據,具備更強的計算能力,訓練芯片價
205、格顯著高于推理芯片。訓練型 AI 服務器成本中,約 7 成以上由 GPU 構成,其余 CPU、存儲、內存等占比相對較小。對于推理型服務器,其 GPU 成本約為 2-3 成,整體成本構成與高性能型相近。43 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表106:各類型服務器成本結構拆分各類型服務器成本結構拆分 數據來源:華經產業研究院,中信建投 以浪潮 AI 服務器旗艦型號 NF5468M6 為例,在其他配置均相同的情況下,訓練型和服務型價格如下。以一塊 Tesla A800-80G 顯卡價格約為 10 萬元計算,對于 8 塊 A800 顯卡的型號,GPU 成本占總成本的 72%;同樣
206、,按一塊 Tesla T4-16G 顯卡價格約為 1 萬元計算,對于 8 塊 T4 顯卡的型號,GPU 成本占總成本的 28%。以上數據進一步印證了,訓練型 AI 服務器的成本主要來自于 GPU 成本,而推理型 AI 服務器的 GPU 成本占比約為 25%左右,與高性能服務器基本相當。圖表圖表107:浪潮浪潮 AI 服務器售價及服務器售價及 GPU 成本占比估算成本占比估算 服務器類型 配置 價格(人民幣)GPU 成本/總成本(估算)訓練 8 塊 Tesla A800-80G 顯卡 1106660 72%6 塊 Tesla A800-80G 顯卡 878760 68%推理 8 塊 Tesla
207、T4-16G 顯卡 290160 28%4 塊 Tesla T4-16G 顯卡 232060 17%數據來源:浪潮信息,京東,中信建投 3.2 AI 服務器市場規模有望保持高速增長,當前訂單飽滿服務器市場規模有望保持高速增長,當前訂單飽滿 3.2.1 全球 AI 服務器近三年將保持高速增長 根據根據 IDC 數據,數據,2022 年全球年全球 AI 服務器市場規模服務器市場規模 202 億美元,同比增長億美元,同比增長 29.8%,占服務器市場規模的比例,占服務器市場規模的比例為為 16.4%,同比提升,同比提升 1.2pct。我們認為隨著數據量的持續提升,大模型參與玩家和單個模型參數量提升,
208、以及數字化轉型推進等多因素影響,AI 服務器市場規模將繼續保持較快增長。結合 2.1.3 節圖表 45 我們對于大語言模型帶來 AI 芯片的增量需求測算,我們認為 2023-2025 年全球 AI 服32.00%23.30%25.00%9.80%27.30%25.00%72.80%26.80%25.60%15.00%8.70%18.00%2.90%10.00%23.20%20.90%25.00%8.70%0%20%40%60%80%100%基礎型高性能型推理型訓練型CPUGPU內存存儲其他 44 行業深度報告 TMT 請參閱最后一頁的重要聲明 務器有望實現高速增長。以目前企業對于 AI 服務器
209、的實際需求來看,雖然推理端需求更為旺盛,但從采購角度更傾向于搭載 A100/A800GPU 的訓練/推理一體服務器。因此我們結合 3.1.2 節對于訓練型、推理型 AI 服務器的成本拆解測算,預估 2023-2025 年增量的 GPU 需求約占 AI 服務器成本比重為 70%。此外,隨著包括 H100/H800等新一代芯片的推出、算法迭代升級均有望帶來整體效率提升,AI 服務器增量市場空間可能略低于大模型需求預期。結合上述假設,我們認為全球結合上述假設,我們認為全球 AI 服務器市場規模未來服務器市場規模未來 3 年內將保持高速增長,市場規模分別為年內將保持高速增長,市場規模分別為395/89
210、0/1601 億美元,對應增速億美元,對應增速 96%/125%/80%。由于互聯網廠商等主要下游客戶傾向于為未來潛在需求提前由于互聯網廠商等主要下游客戶傾向于為未來潛在需求提前備貨,因此備貨,因此 2023 年市場增速可能高于預測值,同時年市場增速可能高于預測值,同時 2024、2025 年市場增速可能略低于預測值。年市場增速可能略低于預測值。圖表圖表108:全球全球 AI 服務器市場規模測算服務器市場規模測算 2021 2022 2023E 2024E 2025E 大模型帶動 GPU 存量空間(億美元)-276.6 622.7 1120.9 GPU 占 AI 服務器成本比例(%)-70.0
211、 70.0 70.0 GPU 芯片升級/算法效率提升比例測算(%)-100.0 120.0 150.0 AI 服務器存量規模(億美元)156.0 202.0 395.2 889.6 1601.3 AI 服務器增量規模(億美元)-46.0 193.2 494.4 711.7 市場增速(%)39.1 29.8 95.6 125.1 80.0 資料來源:OpenAI,IDC,Nvidia,中信建投 3.2.2 中國 AI 服務器近三年將保持高速增長 根據根據 IDC 數據,數據,2022 年中國年中國 AI 服務器市場規模服務器市場規模 67 億美元,同比增長億美元,同比增長 24%。其中 GPU
212、服務器占據主導地位,市場份額為 89%至 60 億美元。同時,NPU、ASIC 和 FPGA 等非 GPU 加速服務器以同比 12%的增速占有了 11%的市場份額,達到 7 億美元。在大模型浪潮到來前,由數字經濟和“東數西算”等政策影響下,中國 AI算力在2021年實現了68.2%的同比高速增長。據浪潮信息、國際數據公司(IDC)和清華大學聯合推出的 2021-2022全球計算力指數評估報告顯示,中國 AI 算力發展領跑全球,AI 服務器支出規模位列全球第一。我們認為,我們認為,在大模型浪潮下,疊加數字經濟、東數西算帶動的數據中心、智算中心建設,在大模型浪潮下,疊加數字經濟、東數西算帶動的數據
213、中心、智算中心建設,AI 服務器市場中我國的份額在當服務器市場中我國的份額在當前約全球前約全球 1/3 比例上有望進一步提升。我們預計,比例上有望進一步提升。我們預計,2023-2025 年,結合對于全球年,結合對于全球 AI 服務器市場規模的預判,以服務器市場規模的預判,以及對于我國份額占比持續提升的假設,我國及對于我國份額占比持續提升的假設,我國 AI 服務器市場規模有望達到服務器市場規模有望達到 134/307/561 億美元,同比增億美元,同比增長長101%/128%/83%。由于互聯網廠商等主要下游客戶傾向于為未來潛在需求提前備貨,因此由于互聯網廠商等主要下游客戶傾向于為未來潛在需求
214、提前備貨,因此 2023 年市場增速可年市場增速可能高于預測值,同時能高于預測值,同時 2024、2025 年市場增速可能略低于預測值。年市場增速可能略低于預測值。圖表圖表109:中國中國 AI 服務器市場規模測算服務器市場規模測算 2021 2022 2023E 2024E 2025E 全球市場規模(億美元)156.0 202.0 395.2 889.6 1601.3 中國市場占全球市場比重(%)34.6 33.2 34.0 34.5 35.0 市場增速(%)68.2 24.0 100.5 128.4 82.6 市場規模(億美元)54.0 67.0 134.4 306.9 560.5 資料來
215、源:OpenAI,IDC,Nvidia,中信建投 3.2.3 當前 AI 服務器廠商在手訂單充分,AI 服務器市場高增長確定性較強 自去年自去年 ChatGPT 帶動的大模型浪潮以來,國內外頭部互聯網廠商紛紛加入帶動的大模型浪潮以來,國內外頭部互聯網廠商紛紛加入 AI 算力的軍備競賽,加大對于算力的軍備競賽,加大對于AI 算力側的資源投入。算力側的資源投入。AI 算力的高景氣帶動 AI 服務器需求端爆發式增長,并體現在 AI 服務器廠商訂單端。45 行業深度報告 TMT 請參閱最后一頁的重要聲明 全球 AI 服務器出貨金額排名第一位的龍頭廠商浪潮信息,提到一季度以來 AI 服務器市場迎來明顯增
216、長,客戶關注點由價格轉向能否及時滿足自身需求。此外,據紫光股份于投資者互動平臺的回復,其 AI 服務器訂單今年一季度有很大提升,產能滿足市場需求不存在問題,針對 GPT 場景優化的 GPU 服務器已經完成開發,預計今年二季度全面上市。作為全球 ICT 設備龍頭企業的聯想集團,根據其最新公布的財報數據,ISG(基礎設施解決方案業務集團)在 2023 年 1-3 月實現營收同比增長 56.2%,全財年營收同比增長 36.6%,主要受益于海外 AI服務器需求爆發以及存儲業務的高速增長,公司預期新財年AI服務器收入增速將顯著快于通用服務器,帶動ISG部門營收增長超市場平均水平 20%以上。中科曙光深度
217、布局算力領域,包括上游芯片、中游服務器解決方案、液冷技術、以及下游算力調度等業務,公司于投資者互動平臺多次回復,會根據用戶需求提供通用算力和智能算力產品及服務,隨著我國算力需求的增長,各類產品銷售均呈現增長態勢,伴隨我國人工智能技術和產業的發展,預計智能計算產品需求將逐步提升。3.3 AI 服務器市場集中度有望提升,國內廠商呈現一超多強格局服務器市場集中度有望提升,國內廠商呈現一超多強格局 3.3.1 全球 AI 服務器競爭格局 據 IDC 數據,2022 年上半年全球 AI 服務器市場中,浪潮信息、戴爾、惠普、聯想、新華三分別以 15.1%、14.1%、7.7%、5.6%、4.7%的市場份額
218、位居前五位。市場格局相對分散,龍頭廠商份額較為接近。此外,由于以北美云廠商為主的需求方偏向于采用 ODM 模式,因此非品牌商份額占比較高,接近 50%。圖表圖表110:2022 年上半年全球年上半年全球 AI 服務器市場份額服務器市場份額 數據來源:IDC,中信建投 3.3.2 中國 AI 服務器競爭格局 據 IDC 數據,2022 年我國 AI 服務器市場按銷售額統計市場份額中,浪潮信息、新華三、寧暢位居前三位,市場份額分別為 47%、11%、9%。市場格局呈現一超多強局面,除浪潮外其與廠商份額相對接近。由于國內頭部廠商采用類 ODM 模式服務互聯網客戶,因此 ODM 廠商份額占比偏低。浪潮
219、,15.10%戴爾,14.10%惠普,7.70%聯想,5.60%新華三,4.70%IBM,3.90%思科,2.30%甲骨文,1.00%富士通,0.50%其他,45.10%46 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表111:2022 年中國年中國 AI 服務器市場份額服務器市場份額 數據來源:IDC,中信建投 3.3.3 AI 服務器競爭格局未來演進趨勢 從從 AI 服務器的研發與交付考慮,品牌商和代工廠的模式及時間線略有不同,品牌商研發周期更長但交付服務器的研發與交付考慮,品牌商和代工廠的模式及時間線略有不同,品牌商研發周期更長但交付更快,代工廠研發周期略短但交付產品時間略長
220、。更快,代工廠研發周期略短但交付產品時間略長。5 月 29 日,英偉達 CEO 在臺北國際電腦展 COMPUTEX 2023 大會帶來主題演講,演講中發布了目前臺系 ODM 廠商針對客戶需求做出的 AI 服務器雛形,并將進一步根據客戶需求做定制化開發,由定制化開發到產品交付客戶預計需要數月時間。對于 OEM 廠商來說,包括浪潮、聯想、新華三等廠商的研發周期相對較長,需要接近一年的時間進行驗證,并根據不同客戶做不同配置規格進行進一步驗證。OEM 廠商驗證完成后的成熟產品在交付中相比 ODM 廠商可以實現更快交付。從全球維度來看,考慮品牌商及代工廠兩種商業模式,當前全球維度來看,考慮品牌商及代工廠
221、兩種商業模式,當前 AI 服務器市場份額中代工廠(服務器市場份額中代工廠(ODM)廠商份)廠商份額會高于品牌商(額會高于品牌商(OEM),且),且 ODM 份額有逐步提升趨勢。份額有逐步提升趨勢。目前全球對于 AI 服務器的爆發式需求更多來自于大型互聯網公司,在除中國外的全球市場,尤其以北美為主的市場中,大型互聯網公司往往通過 ODM 滿足其需求。從合作廠商來看,海外服務器出貨排名靠前的戴爾、惠普、聯想等廠商,其中戴爾和惠普均不參與 ODM業務,聯想在海外則是承接一部分 ODM 業務。除聯想外,ODM 市場主要被英業達、緯創、富士康、廣達等臺系 ODM 傳統廠商占據,上述廠商也在積極擴充墨西哥
222、、東南亞現有產能,以更好滿足北美云廠商的 AI 服務器強勁需求。預計預計 2023 年年 ODM 海外產能比重將升至海外產能比重將升至 50%,海外,海外 AI 服務器市場服務器市場 ODM 份額比重有望進一步提升。份額比重有望進一步提升。從品牌商的競爭格局來看,AI 服務器相比通用服務器復雜程度更高,研發周期更長,前期投入規模更大,需要企業具備一定的規模、資金儲備、技術能力等,預計預計 AI 服務器市場中服務器市場中 OEM 份額將更進一步向龍頭企業集中。份額將更進一步向龍頭企業集中。從國內維度看,從國內維度看,OEM 份額占據主導,市場呈現一超多強的競爭格局。份額占據主導,市場呈現一超多強
223、的競爭格局。作為 OEM 廠商的浪潮、聯想、新華三、寧暢等會以類 ODM 模式服務以互聯網廠商為主的主要需求方,例如浪潮采用 JDM(Joint Design Manufacture聯合開發模式)模式,聯想采用 ODM+模式。相比于海外 AI 服務器市場 ODM 廠商占據主流,國內市場的絕大多數份額由 OEM 廠商所占據,2022 年國內市場份額中,ODM 廠商份額不足兩成,而浪潮、新華三、寧暢前三大 OEM 廠商占據 67%市場份額??紤]到考慮到 AI 服務器研發和投入上需要更充足的資金及技術支持,服務器研發和投入上需要更充足的資金及技術支持,OEM 的競的競爭格局預計將繼續向頭部集中。展望
224、未來,國內爭格局預計將繼續向頭部集中。展望未來,國內 AI 服務器需求除互聯網廠商外,還包括政府端的智算中心等服務器需求除互聯網廠商外,還包括政府端的智算中心等建設,預計建設,預計 OEM 的份額占比有望進一步提升。的份額占比有望進一步提升。浪潮,47%新華三,11%寧暢,9%安擎,7%坤前,6%華為,6%寶德,5%思騰合力,2%其他,7%47 行業深度報告 TMT 請參閱最后一頁的重要聲明 3.4 全球服務器市場規模預計保持平穩全球服務器市場規模預計保持平穩 3.4.1 通用服務器仍處庫存去化階段,全球市場規模預計將出現下滑 根據研根據研究機構究機構 TrendForce5 月月 17 日發
225、布的報告,日發布的報告,2023 年服務器市場需求展望不佳,再次下調今年全球服務年服務器市場需求展望不佳,再次下調今年全球服務器整機出貨量預測至器整機出貨量預測至 1383.5 萬臺,同比減少萬臺,同比減少 2.85%。TrendForce 稱,美國谷歌、微軟、Meta、亞馬遜四大互聯網公司陸續下調服務器采購量;同時戴爾、HPE 等 OEM 廠商也在 24 月間下調全年出貨量預估,同比分別減少15%、12%;此外,受國際形勢以及經濟因素等多種因素導致全年服務器需求展望不佳。2023 年 Q1 受淡季效應以及終端庫存修正的影響,全球服務器出貨量環比減少了 15.9%。TrendForce 對于二
226、季度產業回暖信心偏低,產業旺季并未如期發生,環比增長預估僅為 9.23%。此外,ESG 方面的討論使得美國四大互聯網公司延長服務器的使用年限,進而降低采購量,控制資本支出,這也是影響服務器市場的因素之一。預計庫存去化完成將在今年預計庫存去化完成將在今年下半年或明年上半年到來,若庫存去化進度不及預期,全年服務器市場規模預測可能會進一步下調。下半年或明年上半年到來,若庫存去化進度不及預期,全年服務器市場規模預測可能會進一步下調。根據研究機構 IDC 報告,2022 年我國服務器市場規模為 273.4 億美元,預計 2023 年將達 308 億美元。2023年一季度,國內服務器市場走勢與全球水平較為
227、相似,出現較大幅度下滑。展望未來,從通用服務器來看,下半年互聯網企業庫存消耗結束,有望釋放訂單;此外,包括政府、運營商等行業的采購下半年預計逐步展開,有望帶來進一步需求。下半年需求回暖有望彌補上半年同比下滑的市場規模,國內通用服務器市場全年實現持下半年需求回暖有望彌補上半年同比下滑的市場規模,國內通用服務器市場全年實現持平或溫和增長。平或溫和增長。3.4.2 AI 服務器出貨量占比進一步提升,對全球服務器市場整體出貨量貢獻有限 去年底以來,ChatGPT 等人工智能應用的火熱帶動了 AI 服務器需求暴增,英偉達芯片出現供不應求情況。包括微軟、谷歌、Meta、騰訊、百度等國內外云服務提供商紛紛積
228、極加大 AI 算力投入。根據 TrendForce 預估,2023 年 AI 服務器出貨量將同比實現 10%增長,但由于從臺數來看 AI 服務器占比不足 10%,對于整個市場影響相對有限,預計全球全年服務器出貨量整體呈現持平或小幅下滑趨勢。預計全球全年服務器出貨量整體呈現持平或小幅下滑趨勢。從國內市場來看,互聯網廠商及智算中心建設推動 AI 服務器需求暴漲,一季度相關廠商新增訂單同比超 4成,全年預計出貨金額將保持高速增長??紤]到通用服務器市場下半年需求有望回暖,全年市場規模有望持平考慮到通用服務器市場下半年需求有望回暖,全年市場規模有望持平或小幅增長,疊加或小幅增長,疊加 AI 服務器的快速
229、增長,根據服務器的快速增長,根據 IDC 預測,預計全年服務器市場規模有望實現超預測,預計全年服務器市場規模有望實現超 10%的增長。的增長。3.5 標的推薦標的推薦 3.5.1 全球服務器行業龍頭廠商浪潮信息 浪潮信息是全球領先的浪潮信息是全球領先的 IT 基礎設施產品、方案和服務提供商基礎設施產品、方案和服務提供商,為客戶提供更先進的云計算、大數據、人工智能、邊緣計算等各類創新產品和解決方案,并積極參與開放計算技術創新,加快全球計算生態的開放融合進程。通用服務器、邊緣計算服務器和 AI 服務器為公司核心產品,具有很強的國際競爭力。根據 IDC 數據,從 2019 年至 2022 年,浪潮信
230、息始終保持服務器出貨量、營業收入在國內服務器廠商中均排名第一;AI 服務器方面,浪潮信息多次位列全球市占率第一服務器方面,浪潮信息多次位列全球市占率第一,且在中國 AI 加速計算市場市占率連續多年接近或超過 50%。浪潮信息推動 AI 領域開放計算的發展,參與制定了 OCP 社區的 OAM 規范以及 ODCC 社區的 GPU 服務器規范,為不同的 AI 技術提供統一的技術標準。JDM(Joint Design Manufacture,聯合設計制造)模式,是浪潮提出的區別于傳統 OEM、ODM 的一種供應鏈模式,即讓客戶參與到服務器產品的設計、研發和交付 48 行業深度報告 TMT 請參閱最后一
231、頁的重要聲明 的流程中,實現全運營鏈定制化,開啟了服務器產業從大規模標準化到需求驅動的大規模定制化時代。通用服務器方面,代表產品有 NF5280M6 機架式服務器、ORS3000S 數據中心液冷整機柜服務器;AI 服務器方面,浪潮代表產品有 NF5688M6(擁有高達 5 PFLOPS 的強大 AI 計算性能)、NF5468M6-行業專屬。圖表圖表112:浪潮信息服務器產品體系浪潮信息服務器產品體系 數據來源:浪潮信息,中信建投 3.5.2 高性能計算及國產化服務器龍頭中科曙光 中科曙光作為我國核心信息基礎設施領軍企業,為中國及全球用戶提供創新、高效、可靠的中科曙光作為我國核心信息基礎設施領軍
232、企業,為中國及全球用戶提供創新、高效、可靠的 IT 產品、解決產品、解決方案及服務。方案及服務。作為中科院產業化聯盟的一員,中科曙光始終堅持自主創新,努力實現服務器、芯片國產化。普通服務器方面,中科曙光基于海光、AMD 合作生產的 EPYC 處理器,推出了天闊 A620-G30 機架式服務器;基于龍芯中科生產的龍芯 3B4000 處理器,推出了 L620-G35 機架式服務器。在信創產業進一步發展的未來,基于國產處理器的曙光服務器能在國產化進程中占據有利的競爭地位。在 AI 服務器方面,中科曙光推出了兼備訓練與推理功能的全能型 GPU 服務器 X785-G40。中科曙光參股國產 CPU 稀缺標
233、的海光信息,積極布局服務器上游行業。多家國產服務器廠商采用了海光芯片,在電信行業信創招標中,搭載海光芯片的國產服務器占比逐漸升;海光信息于科創板上市后,為中科曙光的服務器業務擴張進一步助力。公司子公司曙光數創擁有浸沒式相變液冷核心技術,預計將廣泛應用于 AI 服務器散熱領域。此外,中科曙光還積極布局全棧云相關業務,覆蓋 IaaS、PaaS 等方面,結合不同行業需要為國內企業上云提供技術支持,根據 IDC 報告,曙光政務云位列 2020 年中國政務云服務運營廠商市場第一陣營。在未來數字經濟繁榮發展的大背景下,中科曙光的云業務也有望迎來較快增長。3.5.3 華為昇騰+鯤鵬核心合作伙伴拓維信息 拓維
234、信息是中國領先的軟硬一體化產品及解決方案提供商。公司業務涵蓋政企數字化、智能計算、鴻蒙生態,覆蓋全國 31 個省級行政區、海外 10 多個國家,聚焦數字政府、運營商、考試、交通、制造、教育等重點領域和行業,服務超過 1500 家政企客戶,為其提供全棧國產數字化解決方案和一站式全生命周期的綜合服務。拓維信息是鴻蒙生態重要建設者、鯤鵬戰略合作伙伴、昇騰戰略合作伙伴、華為云同舟共濟戰略合作伙伴,拓維信息是鴻蒙生態重要建設者、鯤鵬戰略合作伙伴、昇騰戰略合作伙伴、華為云同舟共濟戰略合作伙伴,以基石研究院為中心,借助華為鴻蒙、昇騰、鯤鵬等核心技術,促進公司云計算、以基石研究院為中心,借助華為鴻蒙、昇騰、鯤
235、鵬等核心技術,促進公司云計算、AI、物聯網、大數據等核心、物聯網、大數據等核心能力的提升能力的提升,產品包括咨詢服務、運營服務、解決方案和 PaaS 產品。49 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表113:拓維信息研發體系拓維信息研發體系 數據來源:拓維信息,中信建投 3.5.4 全球領先的 ICT 設備企業聯想集團 聯想集團作為全球領先 ICT 科技企業,秉承“智能,為每一個可能”的理念,為用戶與全行業提供整合了應用、服務和最佳體驗的智能終端,以及強大的云基礎設施與行業智能解決方案。聯想與眾多國際芯片廠商合作密切,更是與英偉達建立了戰略合作伙伴關系,為聯想 AI 服務器芯
236、片的長期穩定供應打下了堅實基礎。聯想集團具備全球供應能力。聯想曾收購 IBM 的 X86 服務器業務,借助 IBM 的成熟市場完成了聯想的全球供應鏈布局;同時,聯想的聯想的 ODM+模式在海外優勢明顯,相比于傳統模式在海外優勢明顯,相比于傳統 ODM 企業可以更快觸達客戶,且相比于企業可以更快觸達客戶,且相比于戴爾與惠普兩大全球服務器巨頭具備更低的供應鏈成本,能為客戶提供更具性價比的選擇。戴爾與惠普兩大全球服務器巨頭具備更低的供應鏈成本,能為客戶提供更具性價比的選擇。聯想在全球個人 PC 市場深耕近 20 年,積累大量的 PC 成熟客戶和完善的經銷渠道;同時,在產業數字化的背景下,PC 客戶大
237、都有服務器的購買需求,這些都將成為聯想服務器的潛在客戶,這也使得聯想集團在全球服務器市場競爭中占得了先機。公司主要客戶微軟、甲骨文、字節跳動等當前 AI 服務器訂單充分,預期今年將拉動 ISG 部門實現超市場平均增速 20%的水平。四、四、AI 正在正在推動高速率光模塊需求放量推動高速率光模塊需求放量 在傳統的數據中心中,網絡側主要包括傳統樹形三層架構和葉脊架構。在傳統的數據中心中,網絡側主要包括傳統樹形三層架構和葉脊架構。早期的數據中心一般采用傳統的三層結構,包括接入層、匯聚層和核心層,其中接入層用于連接計算節點與機柜交換機,匯聚層用于接入層的互聯,核心層用于匯聚層的互聯且實現與外部網絡連接
238、。隨著數據中心內部東西向流量的快速提升,三層網絡架構的核心層和匯聚層任務加重,性能提升需求高,設備成本將大幅提升。因此,適用于東西向流量的扁平化的葉脊網絡架構應運而生,葉交換機直接與計算節點相連,脊交換機相當于核心交換機,通過 ECMP 動態選擇多條路徑。葉脊網絡架構具備帶寬利用率高、擴展性好、網絡延遲可預測和安全性高等優勢,在數據中心中實現 50 行業深度報告 TMT 請參閱最后一頁的重要聲明 廣泛的應用。圖表圖表114:傳統三層網絡架構傳統三層網絡架構 圖表圖表115:葉脊網絡架構葉脊網絡架構 數據來源:鮮棗課堂,中信建投證券 數據來源:鮮棗課堂,中信建投證券 AI 數據中心中,由于內部數
239、據流量較大,因此無阻塞的胖樹網絡架構成了重要需求之一。數據中心中,由于內部數據流量較大,因此無阻塞的胖樹網絡架構成了重要需求之一。英偉達的 AI 數據中心中,采用了胖樹(fat-tree)的網絡架構來實現無阻塞的功能。胖樹的網絡架構基本理念為:使用大量低性能的交換機,構建出大規模的無阻塞網絡,對于任意的通信模式,總有路徑讓他們的通信帶寬達到網卡帶寬,架構中用到的所有交換機都是相同的。胖樹網絡架構一般用于網絡要求較高的數據中心中,如超算中心和 AI 數據中心等。圖表圖表116:英偉達英偉達 DGX A100 SuperPOD 采用采用胖樹網絡三層架構示意圖胖樹網絡三層架構示意圖 數據來源:英偉達
240、,中信建投證券 在英偉達 DGX A100 SuperPOD 的 AI 數據中心系統中,三層交換機全部為 Nvidia Quantum QM8790 的 40 端口交換機。第一層交換機與 1120 張 Mellanox HDR 200G Infiniband 網卡連接;第二層交換機下傳端口與第一層相連,上傳端口與第三層互聯;第三層交換機只有下傳端口,與第二層相連。此外,存儲側獨立組網,與計算側網絡架構分開,也需要一定數量的交換機和光模塊。因此,相比較傳統數據中心,因此,相比較傳統數據中心,AI 數據中心中的交換機及光數據中心中的交換機及光模塊數量大幅提升。模塊數量大幅提升。根據我們的測算,根據
241、我們的測算,訓練端訓練端 A100 和和 200G 光模塊的比例是光模塊的比例是 1:7,H100 和和 800G 光模塊的比例光模塊的比例 51 行業深度報告 TMT 請參閱最后一頁的重要聲明 是是 1:3.5。圖表圖表117:英偉達英偉達 DGX A100 SuperPOD 系統示意圖系統示意圖 數據來源:英偉達,中信建投證券 英偉達的英偉達的 A100 GPU 主要對應主要對應 200G 光模塊,光模塊,H100 GPU 可以對應可以對應 400G 或或 800G 光模塊。光模塊。每個 A100 GPU 配一張 Mellanox HDR 200Gb/s Infiniband 網卡,每個
242、H100 GPU 配一張 Mellanox NDR 400Gb/s Infiniband 網卡。英偉達在 H100 SuperPOD 的設計中,采用了 800G 的光模塊,在光口采用 1 個 800G 光模塊可以替代 2 個 400G 光模塊,在電口也可以將 8 個 SerDes 通道進行整合,與光口的 8 個 100G 通道一一對應。因此這種設計下,交換機的通道密度提高,物理尺寸顯著降低。圖表圖表118:Mellanox HDR 200Gb/s Infiniband 網卡示意圖網卡示意圖 圖表圖表119:DGX H100 服務器背板連接圖服務器背板連接圖 數據來源:英偉達,中信建投證券 數據
243、來源:英偉達,中信建投證券 光模塊速率由網卡決定,網卡的速率受限于光模塊速率由網卡決定,網卡的速率受限于 PCIe 通道速率。通道速率。英偉達 A100 的 DGX 服務器內部通過 NVLink3連接,單向帶寬為 300GB/s,但是 A100 GPU 連接 ConnectX-6 網卡是通過 16 個 PCIe 4.0 通道,帶寬總和為 200G左右,因此網卡帶寬為 200G,需要連接 200G 的光模塊或者 DAC 電纜。H100 的 DGX 服務器內部通過 NVLink4連接,單向帶寬為 450GB/s,但是 H100 GPU 連接 ConnectX-7 網卡是通過 16 個 PCIe 5
244、.0 通道,帶寬總和為 400G左右,因此單個網卡帶寬為 400G??梢钥闯?,光模塊速率是由于網卡與 GPU 之間的 PCIe 帶寬所決定。假設假設 A100 52 行業深度報告 TMT 請參閱最后一頁的重要聲明 和和 H100 的的 DGX 服務器內部所用服務器內部所用 PCIe 通道速率達到通道速率達到 800G(即(即 PCIe 6.0),那么也可以采用,那么也可以采用 800G 帶寬的網卡,即帶寬的網卡,即也可以采用也可以采用 800G 光模塊,大大提升系統計算效率。光模塊,大大提升系統計算效率。圖表圖表120:NVLink 不同代際的升級不同代際的升級 Roadmap 數據來源:ST
245、H網站,英偉達,中信建投證券 圖表圖表121:PCIe 不同代際的性能參數表不同代際的性能參數表 數據來源:PCI-SIG,中信建投證券 NVLink 帶寬遠大于網卡側的帶寬遠大于網卡側的 PCIe 帶寬,因此若將帶寬,因此若將 NVLink 從服務器內部從服務器內部 GPU 互連拓寬至不同服務器之間的互連拓寬至不同服務器之間的GPU 的互連,將顯著提升系統的帶寬。的互連,將顯著提升系統的帶寬。若要實現不同服務器之間按照 NVLink 協議的 GPU 互連,除了需要采用NVSwitch 芯片的物理交換機,還需要物理器件來實現交換機和服務器之間的連接,那么光模塊也成為了重要的組成部分,從而也會大
246、幅增長 800G 光模塊的需求。近日,英偉達創始人兼 CEO 黃仁勛在 NVIDIA Computex 2023演講中宣布,生成式 AI 引擎 NVIDIA DGX GH200 現已投入量產。GH200 通過 NV Link4 的 900GB/s 超大網絡帶寬能力來提升算力,服務器內部可能采用銅線方案,但服務器之間我們認為可能會用光纖連接。對于單個對于單個256 GH200芯片的集群,計算側芯片的集群,計算側 1 個個 GH200 對應對應 9 個個 800G 光模塊;對于多個光模塊;對于多個 256 的的 GH200 集群,集群,計算側計算側 1 個個 GH200 對對應應 12 個個 80
247、0G 光模塊光模塊。53 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表122:A100 和和 H100 POD 采用采用 IB 和和 NVLink 網絡的示意圖網絡的示意圖 數據來源:英偉達,中信建投證券 圖表圖表123:GH200 的網絡連接示意圖的網絡連接示意圖 數據來源:英偉達,中信建投證券 訓練側光模塊需求與訓練側光模塊需求與 GPU 出貨量強相關,推理側光模塊需求與數據流量強相關。出貨量強相關,推理側光模塊需求與數據流量強相關。AI 對光模塊需求的拉升主要分為兩個階段,訓練和推理。其中,訓練側的網絡架構以胖樹架構為主,因為在大模型訓練過程中,對于網絡性能的要求很高,網絡無
248、阻塞是重要的需求之一,比如騰訊用于大模型訓練的星脈網絡采用了胖樹架構。同時,我們認為大部分廠商會采用 Infiniband 協議的網絡,時延遠低于以太網,可以提升計算效率,縮短模型訓練時間。訓練側光模塊的需求與所用 GPU 顯卡的數量強相關,根據胖樹架構中 GPU 和光模塊的比例關系可以得到所需光模塊的數量,A100 對應 200G 光模塊,H100 對應 400G 或者 800G 光模塊。推理側面向用戶側,網絡架構更接近于傳統云計算數據中心的葉脊架構,主要用于承載 AI 應用帶來的數據流量增量。傳統云計算主要是 ToB市場,用戶數量不多,若未來出現圖片或視頻相關的爆款 AI 應用,一方面用戶
249、數量有望大幅提升,另一方面單個用戶產生的數據流量可能會顯著增長,因此數據總流量將暴增,所以推理所需的算力和流量實際上可能遠大于訓練,因此對于包括光模塊在內的網絡設備需求將起到有力的支撐和提振。54 行業深度報告 TMT 請參閱最后一頁的重要聲明 800G 光模塊光模塊 2022 年底開始小批量出貨,年底開始小批量出貨,2023 年需求主要來自于英偉達年需求主要來自于英偉達和谷歌和谷歌,2024 年有望大規模出貨,年有望大規模出貨,并存在時并存在時間前移的可能。間前移的可能。從交換機的電口來看,SerDes 通道的速率每四年翻倍,數量每兩年翻倍,交換機的帶寬每兩年翻倍;從光口來看,光模塊每 4
250、年升級一次,實際出貨時間是晚于電口 SerDes 及交換機芯片新版發布的時間。2019 年作為 100G 光模塊升級的時間點,市場分成了 200G 和 400G 兩條升級路徑。但是在但是在 2023 年這年這個時間點,市場下一代高速率光模塊均指向個時間點,市場下一代高速率光模塊均指向 800G 光模塊光模塊,疊加疊加 AIGC 帶來的帶來的算力和模型算力和模型競賽,競賽,我們預計我們預計北美各北美各大云廠商和相關科技巨頭均有望在大云廠商和相關科技巨頭均有望在 2024 年大量采購年大量采購 800G 光模塊光模塊,同時,同時 2023 年也可能提前采購年也可能提前采購。圖表圖表124:GH20
251、0 的網絡連接示意圖的網絡連接示意圖 數據來源:思科,中信建投證券 硅光子技術是以硅或硅基材料(Si,SiO2,SiGe)作為襯底材料,利用與集成電路兼容的 CMOS 工藝制造對應的光子器件和光電器件,以實現對光的激發,調制,響應等,廣泛應用于光通信,光傳感,高性能計算等。數通領域的硅光模塊同樣實現了大規模商用,未來份額有望不斷提升。隨著數據中心的快速發展,對于光模塊的需求爆發式增長,多家廠商開始大力研發用于數據中心的硅光模塊。初期是 40G 硅光數通光模塊小規模應用,Intel 和 Luxtera 的 100G 硅光模塊大規模應用,目前 400G 的硅光模塊已經實現量產,800G 亦在驗證中
252、。目前國內的硅光模塊廠商具備較強的競爭力,包括中際旭創、新易盛、華工科技等公司有自研的硅光芯片,博創科技等公司與海外硅光芯片巨頭廠商深度合作,有望在 800G 光模塊市場取得突破。55 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表125:Intel 的的 100G 硅光模塊示意圖硅光模塊示意圖 數據來源:SystemPlus,中信建投證券 鈮酸鋰材料的優勢在調制器上體現,目前主要應用在電信領域。鈮酸鋰材料的優勢在調制器上體現,目前主要應用在電信領域。LiNbO3 具有電光系數大、本征調制帶寬大、波導傳輸損耗小、穩定性好等優點,同時也有偏振敏感、尺寸大、調制電壓高的缺點。LiNbO3
253、 調制器是目前發展較成熟的調制器,其利用線性電光效應實現電信號對光信號的調制,通過外加電場改變光在晶體中傳播的折射率,進而改變光的相位和偏振。目前 LiNbO3 調制器的應用場景主要在長距離的相干光通信領域以及軍事及航天的陀螺儀等產品中,未來有望應用到 800G 等更高速率的數通光模塊中。圖表圖表126:硅光、硅光、InP、體材料鈮酸鋰和薄膜鈮酸鋰調制器的對比示意圖、體材料鈮酸鋰和薄膜鈮酸鋰調制器的對比示意圖 數據來源:光庫科技,中信建投證券 Co-packaged Optics,即共封裝光學,光學引擎 PIC 與電學引擎 EIC 合封在一起的封裝技術。CPO 交換機主要分為交換機芯片、Ser
254、Des 和光學部分,過去 10 年交換機帶寬增長了 80 倍。交換機芯片的帶寬每兩年提升一倍;電接口的 SerDes 數量和速率也在提升,速率從 10G/s 提升到 112G/s,數量從 64 個通道提升到 51.2T 時代的 512 個通道。交換機帶寬從 640G 提升到 51.2T,交換機芯片功耗提升 7.4 倍,每個 Serdes 通道的功耗提升 2.84倍,結合 Serdes 通道數的增加,總功耗增加 22.7 倍。而 CPO 可以降低功耗(核心優勢)、降低成本和減小尺寸。CPO 參與公司主要包括云服務廠商、設備商和芯片廠商等。目前,CPO 仍有很多技術難題,例如光源的功耗問題,光源作
255、為核心的部件之一,雖然外部光源在配置上更加靈活,但是激光器在高溫下效率較低,因此給多個 56 行業深度報告 TMT 請參閱最后一頁的重要聲明 通道同時提供光源時,高功率帶來低效率,其功耗反而會更高。而且,光引擎緊密排布在交換機芯片的周圍,巨大的發熱量如何進行有效地散熱,光引擎失效后如何進行靈活地更換,新的光學連接器如何定義等這些技術難題都需要更加有效的解決方案。此外,CPO 產品是將光模塊和交換機集成產品是將光模塊和交換機集成在一起,因此將對光模塊和交換機在一起,因此將對光模塊和交換機行業產生較大的影響,在制定好相關產品標準之后如何使得兩個產業鏈更好的協同,也將是一個重要的挑戰。行業產生較大的
256、影響,在制定好相關產品標準之后如何使得兩個產業鏈更好的協同,也將是一個重要的挑戰。圖表圖表127:交換機發展示意圖交換機發展示意圖 數據來源:思科,中信建投證券 LPO,即 linear drive pluggable optics,線性直驅可插拔光模塊。主要方式為,在光模塊中不再采用 DSP,只留下 driver 和 TIA 等電芯片,而將 DSP 的功能集成到交換芯片中。LPO 光模塊中的 driver 和 TIA 需要分別集成CTLE 和 Equalization 功能,用于對高速信號進行一定程度的補償。Driver 的主要功能是線性放大,輸出電壓也是線性變化的。從交換機中發出的信號,不
257、再需要通過 CDR 恢復產生,而是直接傳遞給 driver,進行線性調制。相比較傳統的帶 DSP 的光模塊,LPO 光模塊可以降低功耗、延遲和成本。我們認為,我們認為,LPO 光模塊的核心在于光模塊的核心在于交換機芯片,如交換機芯片進展順利,性能優異,也將直接推動交換機芯片,如交換機芯片進展順利,性能優異,也將直接推動 LPO 光模塊的進展。光模塊的進展。圖表圖表128:LPO 方案的優勢方案的優勢 數據來源:Arista,中信建投證券 多家光模塊廠商多家光模塊廠商具備具備 800G 光模塊光模塊能力能力,國內多家廠商,國內多家廠商具備較強的競爭力具備較強的競爭力。在 2023 年的 OFC
258、光博會上,各 57 行業深度報告 TMT 請參閱最后一頁的重要聲明 家光模塊公司均推出了自己的 800G 光模塊產品,涵蓋不同封裝方式、材料和傳輸距離等種類。值得一提的是,國內廠商在 100G 和 400G 光模塊時代已經取得了顯著的進展,躋身全球先進水平。在數通在數通 800G 光模塊時代,光模塊時代,以中際旭創和新易盛為代表的國內廠商以中際旭創和新易盛為代表的國內廠商已經在海外云廠商的供應鏈體系中,確定性較強。而已經在海外云廠商的供應鏈體系中,確定性較強。而華工科技、劍橋科華工科技、劍橋科技、技、聯特科技、聯特科技、博創科技、光迅科技和德科立等公司也有望取得突破博創科技、光迅科技和德科立等
259、公司也有望取得突破,同樣值得重視。,同樣值得重視。圖表圖表129:光模塊廠商目前擁有的光模塊廠商目前擁有的 800G 光模塊光模塊產品產品 光模塊廠商光模塊廠商 8 80000G G 光模塊產品光模塊產品 中際旭創 2023OFC 推出了其基于 5nm DSP 和先進硅光子技術的第二代 800G 模塊,同時擁有功耗低于 14W 的 800G OSFP DR8+和 2xFR4 光通信模塊。公司具備 800G 全系列光模塊產品,包括不同封裝和傳輸距離,競爭力保持全球領先。新易盛 2023OFC 現場演示基于薄膜鈮酸鋰(TFLN)調制器技術的 800G OSFP DR8 光模塊產品,搭配 5nm D
260、SP 芯片,功耗 11.2W。同時推出 LPO 光模塊,包含 EML、TFLN 和 SiPh 三種方案。華工科技 公司的 800G SR8 已經在國內市場頭部廠商送樣測試,DR8 和 FR8 產品在微軟和英偉達同樣,預計 23 年下半年出貨量將快速增長。劍橋科技 公司的 800G 光模塊基于傳統 EML 和硅光兩種方案,對于薄膜鈮酸鋰方案也在積極關注。公司也推出了線性驅動的 800G 光模塊產品。光迅科技 2023OFC 上展示了 800G QSFP-DD800 的 SR8 光模塊產品,同時公司擁有 800G QSFP-DD 2x400G FR4 和 DR8光模塊。光模塊廠商光模塊廠商 8 8
261、0000G G 光模塊產品光模塊產品 博創科技 公司具備 800G 硅光模塊的產品能力,同時也在研發 CPO 相關產品。源杰科技 公司具備 10G EML 和 25G DFB 激光器芯片能力,預計今年發布 100G PAM4 EML 激光器芯片,主要用于400G 和 800G 光模塊。Coherent 公司目前擁有 800G OSFP DR8 和 QSFP-DD800 2xFR4 等產品。Intel 公司具備 800G OSFP DR8 硅光模塊、2x400G FR4 硅光模塊等產品。資料來源:中際旭創,新易盛,華工科技,劍橋科技,光迅科技,源杰科技,中信建投證券 我們認為,本輪光模塊板塊行情
262、可以參考我們認為,本輪光模塊板塊行情可以參考 2016-2018H1 與與 2019H2-2020H1。數通光模塊行業在數通光模塊行業在 2016-2018H1 處于景氣周期,中際旭創期間股價表現較好,處于景氣周期,中際旭創期間股價表現較好,2018H2-2019H1 全球云計算全球云計算及互聯網巨頭資本開支迎來調整,期間股價也下行。及互聯網巨頭資本開支迎來調整,期間股價也下行。北美 FAAM(Facebook、Amazon、Alphabet、Microsoft)2016-2018 Capex 增速為 29.65%、27.94%、62.74%,雖然 2018 年全年增速強勁,但 2018Q3
263、起增速顯著放緩。經過近 3 年(2016-2018H1)的景氣周期,云廠商基礎設施如服務器、光網絡等利用率不夠飽滿,相當于計算、存儲、網絡能力有一定的“庫存”,疊加宏觀經濟及中美摩擦導致的不確定性,企業信息化投入收縮,企業上云放緩,互聯網巨頭面臨增長壓力,因此資本開支增速明顯放緩,直至 2019Q1 資本開支負增長。2018H2-2019H1 北美云基礎設施需求放緩,只是云廠商的“庫存”調整。北美云基礎設施需求放緩,只是云廠商的“庫存”調整。2019Q2 之后北美云廠商的資本開支同比出現增長,整體延續回暖態勢,其中亞馬遜、谷歌較為顯著,亞馬遜 2019Q3 Capex 同比增長 40.13%,
264、中際旭創股價在 2019 年下半年開始反應市場預期。2020-2022H1 年北美四家云廠商資本開支高增近年北美四家云廠商資本開支高增近 3 年,年,2022年下半年資本開支明顯降速。年下半年資本開支明顯降速。2022Q4,北美四家云廠商資本開支 395.04 億美元,同比增長 8.07%,明顯降速(2022年前三季度單季同比增速基本都在 20%或以上)。亞馬遜作為資本開支大戶,2022Q4 出現 2015Q4 以來第一次單季度負增長,下降 12.37%。因因此,此,2022 年雖然光模塊公司業績普遍表現較好,但股價與估值不斷下跌。年雖然光模塊公司業績普遍表現較好,但股價與估值不斷下跌。58
265、行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表130:北美云廠商資本開支(百萬美元)北美云廠商資本開支(百萬美元)數據來源:Bloomberg,中信建投 圖表圖表131:中際旭創股價復盤中際旭創股價復盤 數據來源:wind,中信建投 從歷史估值來看,從歷史估值來看,中際旭創中際旭創 2019 年年 PE-TTM 高點時高點時超過超過 70 倍,倍,2020 年高點超過年高點超過 100 倍,過去倍,過去 5 年平均年平均PE-TTM 為為 47.28 倍倍,2019 年、年、2020 年基于當年業績與當年市值的年基于當年業績與當年市值的 PE 為為 72.49x、41.91x。我們認
266、為,在我們認為,在 AI 帶動下,疊加宏觀經濟企穩,數字經濟發展,國內外云廠帶動下,疊加宏觀經濟企穩,數字經濟發展,國內外云廠商資本開支有望在今年企穩,商資本開支有望在今年企穩,在在 2024 年或將出現顯著提升,因此年或將出現顯著提升,因此本輪光模塊行情走勢建議參考本輪光模塊行情走勢建議參考 2019Q1-2020Q2,同時我們認為是板塊性行,同時我們認為是板塊性行情,因此情,因此建議重點關注中際旭創、建議重點關注中際旭創、天孚通信、天孚通信、新易盛、華工科技、源杰科技、新易盛、華工科技、源杰科技、太辰光、太辰光、光迅科技、光迅科技、光庫科技、光庫科技、中瓷電子、中瓷電子、劍橋科技、劍橋科技
267、、博創科技、聯特科技、德科立、仕佳光子等。博創科技、聯特科技、德科立、仕佳光子等。-50%0%50%100%150%200%250%050001000015000200002500030000350004000045000亞馬遜微軟谷歌臉書亞馬遜YoY微軟YoY谷歌YoY臉書YoY 59 行業深度報告 TMT 請參閱最后一頁的重要聲明 五、五、AI 將會拉動交換機市場需求將會拉動交換機市場需求 AI 帶來數據中心的網絡架構變化,光模塊速率及數量均有顯著提升,因此交換機的端口數及端口速率也有帶來數據中心的網絡架構變化,光模塊速率及數量均有顯著提升,因此交換機的端口數及端口速率也有相應的增長。相應
268、的增長。以 ChatGPT 為代表的 AIGC 技術,依靠強大的 AI 模型和海量數據,能夠在多個應用場景下產生優質的內容,有望推動人工智能更廣泛的應用。算力作為 AIGC 技術的重要支撐之一,是影響 AI 發展與應用的核心因素。算力基礎設施成了目前行業亟需布局的資源,除了 CPU/GPU 等算力硬件需求強勁,網絡端也催生了更大帶寬需求,以匹配日益增長的流量。與傳統數據中心的網絡架構相比,與傳統數據中心的網絡架構相比,AI 數據網絡架數據網絡架構會帶來更多的交換機構會帶來更多的交換機端口的需求。端口的需求。圖表圖表132:微軟微軟 Azure 的的 DGX H100 AI 超級計算機系統超級計
269、算機系統 數據來源:英偉達,中信建投證券 訓練側大概率會采用訓練側大概率會采用 Infiniband 或者類或者類 IB 的低時延網絡協議,推理側預計會采用以太網協議的交換機。的低時延網絡協議,推理側預計會采用以太網協議的交換機。InfiniBand 是一種開放標準的高帶寬,低時延,高可靠的網絡互聯技術,隨著人工智能的興起,也是 GPU 服務器首選的網絡互聯技術。相比較以太網協議的網絡,Infiniband 網絡在帶寬、時延、網絡可靠性、和組網方式上都有一定的優勢。當然,以太網的兼容性更好,成本更低,可以應用在各種應用場景中,適配各種不同的設備終端。AI 訓練端對時延要求較高,因此訓練側大概率
270、會采用 Infiniband 網絡,也可以采用 ROCE 網絡,即基于以太網的 RDMA 技術,也能夠達到較低的時延。而英偉達 NVLink 技術,其帶寬大幅提升,NVLink4 的雙向帶寬可以達到 900GB/s,在訓練側也將具備較強的優勢。在推理側,我們認為網絡協議可以沿用云計算數據中心的以太網。60 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表133:不同網絡架構的對比不同網絡架構的對比 數據來源:英偉達,中信建投證券 交換機具備技術壁壘,中國市場格局穩定,華為與新華三(紫光股份)兩強爭霸,銳捷網絡展現追趕勢頭。交換機具備技術壁壘,中國市場格局穩定,華為與新華三(紫光股份)兩
271、強爭霸,銳捷網絡展現追趕勢頭。全球來看,思科一家獨大,份額近 50%,但呈現下滑趨勢,華為列全球第二(9%)、新華三列第五(4.5%)。華為在數據中心、電信運營商市場均展現出較強競爭力,新華三與銳捷網絡目前均以數據中心為主,正突破運營商。其中,銳捷網絡近年進一步取得突破,在前期中國移動招標中,系僅有的兩家中標者之一,獲近 50%份額。交換機除了應用于數據中心、電信運營商外,還有政企市場。建議重點關注:建議重點關注:紫光股份、紫光股份、銳捷網絡銳捷網絡等等。圖表圖表134:2022 年全球前五大以太年全球前五大以太網交換機廠商網交換機廠商 圖表圖表135:2021 年中國交換機市場份額年中國交換
272、機市場份額 數據來源:IDC,中信建投 數據來源:IDC,中信建投 交換機中交換機中 SerDes 的功耗大幅提升。的功耗大幅提升。隨著單個 SerDes 帶寬提升帶來功耗的提升,同時結合 SerDes 數量的提升,未來 SerDes 的總功耗在交換機中的功耗占比將大幅提升。網絡部分的功耗在數據中心中的功耗大幅提升:網絡部分的功耗在數據中心中的功耗大幅提升:根據 Facebook 的測算,隨著數據中心內部流量的大幅提升,網絡部分的功耗占比增加明顯,到下一代網絡部分的功耗占比將從現在的 2%左右提升到 20%左右。傳輸距離越近,傳輸距離越近,SerDes 功耗越低。功耗越低??s短交換機和光模塊之
273、間電信號需要傳輸的距離,可以簡化 Serdes 芯片的功能,同時降低電信號的發射功率,從而降低 SerDes 的功耗。38.20%35.16%14.60%4.81%華為新華三星網銳捷思科 61 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表136:交換機發展示意圖交換機發展示意圖 數據來源:Cisco,中信建投 圖表圖表137:交換機內部交換機內部 SerDes 功耗占比大幅提升功耗占比大幅提升 圖表圖表138:網絡部分的功耗在數據中心中占比大幅提升網絡部分的功耗在數據中心中占比大幅提升 數據來源:Cisco,中信建投 數據來源:Meta,中信建投 CPO 部署將在很大程度上受到交換
274、演進的推動。部署將在很大程度上受到交換演進的推動。交換演進將在 2025 年達到 102.4Tbps。一旦交換達到這個水平,可插拔收發器將逐漸消失,與使用可插拔光學器件相比,CPO承諾將功耗降低30%,每比特成本降低40%。到 2027 年,共封裝光學的市場收入將達到 54 億美元,2025 年全球 CPO 組件市場將超 13 億美元,到 2028 年將增長到 27 億美元。根據根據 LightCounting 的報告,從長遠來看,的報告,從長遠來看,CPO 不局限于硅光、不局限于數據中心,還不局限于硅光、不局限于數據中心,還有更大的前景。有更大的前景。在 2027 年,CPO 端口將占總 8
275、00G 和 1.6T 端口的近 30%。CPO 參與公司主要包括云服務廠商、參與公司主要包括云服務廠商、設備商和芯片廠商等。設備商和芯片廠商等。Meta 在 2022 年的 OFC 會上展示了新一代的基于 51T ASIC 和 NPO 端口的交換機,4RU的尺寸;Marvell 推出的 NPO,基于自家 Teralynx 交換芯片平臺,集成到標準 1RU 32 端口設備中,未來計劃發展到支持 51.2T 交換機的 3.2T CPO 平臺;Intel 的樣機計劃于 2024 年上市,此前先后收購了 Optoscribe 和 Tower;博通在 2023 年 OFC 推出了 51.2T 的 CPO
276、 產品;IBM 推出了基于 VCSEL 的 CPO 產品。國內的紫光股份和銳捷國內的紫光股份和銳捷網絡等公司也均有布局網絡等公司也均有布局 CPO 相關技術,有望緊跟行業演進趨勢,保持競爭力。相關技術,有望緊跟行業演進趨勢,保持競爭力。62 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表139:CPO 可以降低功耗可以降低功耗 圖表圖表140:CPO 所降低的功耗拆分示意圖所降低的功耗拆分示意圖 數據來源:Cisco,中信建投 數據來源:Meta,中信建投 六、六、AI 提升大功率提升大功率 IDC 機柜需求,液冷滲透率隨之提升機柜需求,液冷滲透率隨之提升 6.1“東數西算”統籌全國
277、算力網絡建設,“東數西算”統籌全國算力網絡建設,云計算需求可能將回暖云計算需求可能將回暖 2021 年 5 月,發改委、網信辦、工信部、能源局聯合印發全國一體化大數據中心協同創新體系算力樞紐全國一體化大數據中心協同創新體系算力樞紐實施方案實施方案,明確提出布局全國算力網絡國家樞紐節點,啟動實施“東數西算”“東數西算”工程,構建國家算力網絡體系。全國一體化大數據中心協同創新體系算力樞紐實施方案全國一體化大數據中心協同創新體系算力樞紐實施方案圍繞國家重大區域發展戰略,根據能源結構、產業布局、市場發展、氣候環境等,在京津冀、長三角、粵港澳大灣區、成渝以及貴州、內蒙古、甘肅、寧夏等地布局建設全國一體化
278、算力網絡國家樞紐節點,引導數據中心集約化、規?;?、綠色化發展,引導數據中心集約化、規?;?、綠色化發展,構建數據中心集群。國家樞紐節點間將進一步打通網絡傳輸通道,加快實施“東數西算”工程,提升跨區域算力調度水平。根據全國一體化大數據中心協同創新體系算力樞紐實施方案要求,根據全國一體化大數據中心協同創新體系算力樞紐實施方案要求,京津冀京津冀、長三角長三角、粵港澳大灣區粵港澳大灣區、成渝等節點成渝等節點,用戶規模較大、應用需求強烈,要重點統籌好城市內部和周邊區域的數據中心布局,優化要重點統籌好城市內部和周邊區域的數據中心布局,優化數據中數據中心供給結構,心供給結構,擴展算力增長空間,滿足重大區域發展
279、戰略實施需要,城市內部加快對現有數據中心的改造升級,優先滿足對實時性要求高的業務需求。貴州、內蒙古、甘肅、寧夏等節點,優先滿足對實時性要求高的業務需求。貴州、內蒙古、甘肅、寧夏等節點,可再生能源豐富、氣候適宜、數據中心綠色發展潛力較大,要重點提升算力服務品質和利用效率,充分發揮資源優勢,夯實網絡基礎保障,夯實網絡基礎保障,積極承接全國范圍需后臺加工、離線分析、存儲備份等非實時算力需求,打造面向全國的非實時性算力保障基地。打造面向全國的非實時性算力保障基地。為實現全國一體化算力網絡國家樞紐節點布局,就要在集群和集群之間建立高速數據中心直聯網絡,構建在集群和集群之間建立高速數據中心直聯網絡,構建形
280、成以數據流為導向的新型算力網絡格局,助力實施“東數西算”工程,支撐大規模算力調度。形成以數據流為導向的新型算力網絡格局,助力實施“東數西算”工程,支撐大規模算力調度。從數據中心網絡時延的產生來看,主要分為傳輸時延(受制于物理距離)和傳輸節點時延(受制于節點數量和單節點轉發時延),減少長距離傳輸時延的方法主要是路由優化,提供更短的光纜路由。傳統上我國通信網絡主要圍繞人口聚集程度進行建設,網絡節點普遍集中于北上廣等一線城市,數據中心對網絡依賴性強,隨之集中于城市部署。推進“東數西算”工程,就要推進網絡一體化建設,夯實西部地區的網絡基礎保障,圍繞集推進“東數西算”工程,就要推進網絡一體化建設,夯實西
281、部地區的網絡基礎保障,圍繞集群建設數據中心直群建設數據中心直連網,連網,增大網絡帶寬,提高傳輸速度,降低傳輸費用,推進新型互聯網交換中心、互聯網骨干直連點建設。63 行業深度報告 TMT 請參閱最后一頁的重要聲明 2022 年 2 月,國家發展改革委、中央網信辦、工業和信息化部、國家能源局再次聯合印發通知,同意在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏 8 地啟動建設國家算力樞紐節點,規劃了 10個國家數據中心集群,標志著全國一體化大數據中心體系完成總體布局設計,“東數西算”工程正式全面啟動。標志著全國一體化大數據中心體系完成總體布局設計,“東數西算”工程正式全面啟動。圖表
282、圖表141:“東數西算”工程設立“東數西算”工程設立 8 個節點個節點 圖表圖表142:“東數西算”工程設立“東數西算”工程設立 10 個集群個集群 數據來源:發改委,中信建投 數據來源:發改委,中信建投 根據發改委根據發改委表態,“東數西算”工程總體思路有三方面:表態,“東數西算”工程總體思路有三方面:一是推動全國數據中心適度集聚、集約發展;二是促進數據中心由東向西梯次布局、統籌發展;三是實現“東數西算”循序漸進、快速迭代。在當前起步階段,8個算力樞紐內規劃設立 10 個數據中心集群,劃定了物理邊界,并明確了綠色節能、上架率等發展目標,如集群內數據中心的平均上架率至少要達到 65%以上,要求
283、張家口、韶關、長三角、蕪湖、天府、重慶集群的 PUE 在1.25 以下,和林格爾、貴安、中衛、慶陽集群的 PUE 在 1.2 以下。我們認為,我們認為,10 個國家數據中個國家數據中心集群更多屬于心集群更多屬于新建項目,各地方此前已發放的能耗指標及相關新建項目,各地方此前已發放的能耗指標及相關 IDC 公司在其它地區的投資規劃可能多數會繼續實施(現有公司在其它地區的投資規劃可能多數會繼續實施(現有 IDC供應商本來在上述供應商本來在上述 10 個區域的投放安排就少),因此對于個區域的投放安排就少),因此對于 IDC 建設產業鏈帶來利好。建設產業鏈帶來利好。當前階段的數據中心集群規劃有兩點值得關
284、注:一是強調平均上架率至少要達到 65%以上,供給增加要匹配需求增長,避免無序擴張;二是對 PUE 提出嚴格要求,大部分中小規模的 IDC 服務商在綠色數據中心設計、建設和運維方面的能力較為一般,難以滿足 PUE 在 1.25 以下的能耗要求。對此,我們認為:一是在上架率要求我們認為:一是在上架率要求的背景下,各數據中心的背景下,各數據中心集群的建設有望分期建設,邊建設邊交付邊上架,最終投資金額仍待持續跟蹤,假設上集群的建設有望分期建設,邊建設邊交付邊上架,最終投資金額仍待持續跟蹤,假設上架速度較慢,可能存在短期停建可能;二是“東數西算”作為架速度較慢,可能存在短期停建可能;二是“東數西算”作
285、為 IDC 供給側改革的重要舉措,預計未來其它區域供給側改革的重要舉措,預計未來其它區域的的 IDC 供給將會進一步被壓縮,未來東部核心區域的供給將會進一步被壓縮,未來東部核心區域的 IDC 資源將愈發具有稀缺性,因此目前擁有較多熱點區域資源將愈發具有稀缺性,因此目前擁有較多熱點區域IDC 資源的公司值得重視資源的公司值得重視;三是降低三是降低 PUE 的主要方法是提高溫控系統的工作效率,空調機組將從風冷型和水冷的主要方法是提高溫控系統的工作效率,空調機組將從風冷型和水冷型向冷凍水型、雙冷源型轉化,未來液冷技術有望逐步普及,此外間接蒸發制冷的應用滲透率也有望提升。根型向冷凍水型、雙冷源型轉化,
286、未來液冷技術有望逐步普及,此外間接蒸發制冷的應用滲透率也有望提升。根據央視新聞報道,“東數西算”據央視新聞報道,“東數西算”工程自啟動至今工程自啟動至今,全國新增投資超過,全國新增投資超過 4000 億元,整個億元,整個“十四五”“十四五”期間,將累計期間,將累計帶動各方面投資超過帶動各方面投資超過 3 萬億元。萬億元?!皷|數西算”“東數西算”工程的工程的 8 個國家算力樞紐節點建設已全部開工,工程從系統布局個國家算力樞紐節點建設已全部開工,工程從系統布局進入全面建設階段。在已經開工的進入全面建設階段。在已經開工的 8 個國家算力樞紐中,今年新開工的數據中心項目近個國家算力樞紐中,今年新開工的
287、數據中心項目近 70 個,其中西部新增個,其中西部新增數據中心的建設規模超過數據中心的建設規模超過 60 萬機架,萬機架,同比同比翻倍翻倍,至此國家算力網絡體系架構初步形成至此國家算力網絡體系架構初步形成。在數字中國和人工智能推動云計算市場回暖的背景下在數字中國和人工智能推動云計算市場回暖的背景下,IDC 作為云基礎設施產業鏈的關鍵環節作為云基礎設施產業鏈的關鍵環節,也有望進,也有望進入需求釋放階段。在過去兩年半,受多重因素影響下,云計算需求景氣度下行,但入需求釋放階段。在過去兩年半,受多重因素影響下,云計算需求景氣度下行,但 IDC 建設與供給建設與供給未出現明顯未出現明顯放緩,放緩,202
288、1 年和年和 2022 年分別新增機柜數量年分別新增機柜數量 120 萬架和萬架和 150 萬架,因此短期內出現供需失衡情況(核心區域供萬架,因此短期內出現供需失衡情況(核心區域供需狀況相對良好),部分地區上電率情況一般。所以需狀況相對良好),部分地區上電率情況一般。所以 IDC 公司公司 2022 年業績普遍承壓。年業績普遍承壓。64 行業深度報告 TMT 請參閱最后一頁的重要聲明 圖表圖表143:中國中國 IDC 標準機架規模標準機架規模 數據來源:中國信通院,中信建投 當前,我們認為國內 IDC 行業有望邊際向好。隨著宏觀經濟向好,平臺經濟發展恢復,AI 等拉動,IDC 需求有望逐步釋放
289、,疊加 2023 新增供給量有望較 2022 年減少(例如三大運營商 2022 年新增 IDC 機柜 15.6 萬架,2023 年計劃新增 11.4 萬架)。展望未來,展望未來,電信電信運營商在云計算業務方面仍將實現快速增長運營商在云計算業務方面仍將實現快速增長,百度、字節跳動等百度、字節跳動等互聯網公司互聯網公司在在 AIGC 領域有望實現突破性進展,都將對包括領域有望實現突破性進展,都將對包括 IDC 在內的云基礎設施產生在內的云基礎設施產生較大新增較大新增需求,相關需求,相關 IDC廠商有望獲益,建議關注潤澤科技、寶信軟件、奧飛數據、數據港、光環新網等。廠商有望獲益,建議關注潤澤科技、寶
290、信軟件、奧飛數據、數據港、光環新網等。6.2 AI 大算力服務器需要高功率機柜,液冷或成必選項大算力服務器需要高功率機柜,液冷或成必選項 人工智能大模型訓練和推理運算所用的人工智能大模型訓練和推理運算所用的 GPU 服務器的功率密度將大幅提升,以英偉達服務器的功率密度將大幅提升,以英偉達 DGX A100 服務器為服務器為例,其單機最大功率約可以達到例,其單機最大功率約可以達到 6.5kW,大幅超過單臺普通,大幅超過單臺普通 CPU 服務器服務器 500w 左右的功率水平。在此情況下,左右的功率水平。在此情況下,一方一方面需要新建超大功率的機柜,另一方面為降低面需要新建超大功率的機柜,另一方面
291、為降低 PUE,預計液冷溫控滲透率將快速提升。,預計液冷溫控滲透率將快速提升。PUE 值是衡量值是衡量 IDC 能效的重要指標。能效的重要指標。PUE 的計算方法為數據中心的總耗電量比上 IT 設備的耗電量,數值越接近 1,表明 IDC 的能效越高。根據賽迪顧問的統計數據,2019 年中國數據中心的能耗中約有 43%是用于 IT 設備的散熱,基本與 45%的 IT 設備自身的能耗持平。因此,設備散熱能耗成為降低 PUE 的關鍵影響因素。圖表圖表144:IDC 機房的各類消耗機房的各類消耗 圖表圖表145:我國數據中心能耗分布我國數據中心能耗分布 數據來源:中國熱管理網,中信建投 數據來源:賽迪
292、顧問,中信建投 166226315401520670831672373094205400200400600800201720182019202020212022E總機架數量(萬架)大型規模以上機架數量(萬架)43.0%45.0%10.0%2.0%散熱能耗IT設備能耗供配電能耗照明及其他 65 行業深度報告 TMT 請參閱最后一頁的重要聲明 液冷數據中心適合提供高密算力,提升單柜部署密度,提高數據中心單位面積利用率。液冷數據中心適合提供高密算力,提升單柜部署密度,提高數據中心單位面積利用率。根據冷板式液冷服務器可靠性白皮書 數據顯示,液體相對空氣能夠傳熱更快(相差20-25倍),能夠帶走更多熱量
293、(相差2000-3000倍),給高密部署提供了較好方案。通常液冷數據中心單機柜可以支持 30kW 以上的散熱能力,并能較好演進到100kW 以上。自然風冷的數據中心單柜密度一般只支持 8kW-10kW,冷熱風道隔離的微模塊加水冷空調水平制冷在 15kW 以上性價比將大幅降低,相比較而言液冷的散熱能力和經濟性均有明顯優勢。由于由于 AIGC 的發展,大功率的發展,大功率 AI 服務器出貨量有望快速增長,進而要求單機柜功率要明顯提升,業界已經開服務器出貨量有望快速增長,進而要求單機柜功率要明顯提升,業界已經開始規模建設始規模建設 20kW、30kW 功率的機柜。同時,數據中心降功率的機柜。同時,數
294、據中心降 PUE 也是剛需。在此背景下,由于風冷技術在高功率也是剛需。在此背景下,由于風冷技術在高功率機柜制冷方面的短板比較明顯,因此液冷有望成為機柜制冷方面的短板比較明顯,因此液冷有望成為 AI 大算力數據中心的主要制冷方案。大算力數據中心的主要制冷方案。圖表圖表146:液冷數據中心制冷架構示意圖液冷數據中心制冷架構示意圖 數據來源:ODCC,中信建投 數據中心液冷方案主要分為冷板式和浸沒式兩種技術路徑數據中心液冷方案主要分為冷板式和浸沒式兩種技術路徑,此外還有,此外還有噴淋噴淋式式。根據中國液冷數據中心發展白皮書,液冷是指使用液體取代空氣作為冷媒,為發熱部件進行換熱的技術。一般來說,行業將
295、液冷分為直接冷卻和間接冷卻,其中直接冷卻以浸沒式液冷技術為主,間接冷卻以冷板式液冷技術為主。圖表圖表147:各類制冷方式情況梳理各類制冷方式情況梳理 方式方式 PUEPUE 支撐單機柜功率支撐單機柜功率 示意圖示意圖 傳統風冷 1.4 以上 10kW 以下 66 行業深度報告 TMT 請參閱最后一頁的重要聲明 冷凍水、間接蒸發冷卻等 1.2-1.4 20kW 以下 冷板式液冷 1.2 以下 20-50kW 浸沒式液冷 1.2 以下 50kW 以上 數據來源:英維克,依米康,阿里巴巴,中信建投 無論是冷板式液冷還是浸沒式液冷,都需要數據中心溫控和無論是冷板式液冷還是浸沒式液冷,都需要數據中心溫控
296、和 ICT 設備廠商設備廠商彼此彼此配合,此前市場對于產業鏈配合,此前市場對于產業鏈的的協作問題存在疑慮。協作問題存在疑慮。目前目前在在 AI 算力需求的推動下,服務器廠商已經開始大力布局液冷服務器產品算力需求的推動下,服務器廠商已經開始大力布局液冷服務器產品,液冷的產,液冷的產業化進度有望加速業化進度有望加速。2022 年,浪潮信息將“All in 液冷”納入公司發展戰略,全棧布局液冷,實現通用服務器、高密度服務器、整機柜服務器、AI 服務器四大系列全線產品均支持冷板式液冷,建成年產能 10 萬臺的亞洲最大液冷數據中心研發生產基地,實現了業界首次冷板式液冷整機柜的大批量交付。2022 年,中
297、興通訊發布了中興通訊液冷技術白皮書,公司建設的全液冷數據中心項目獲得了 2022 年 CDCC 數據中心科技成果獎,近期公司 G5 系列服務器在泰國進行海外市場首發,支持液冷散熱技術,采用冷板式液冷散熱。圖表圖表148:浪潮信息液冷服務器產品浪潮信息液冷服務器產品 圖表圖表149:中興通訊全液冷數據中心項目中興通訊全液冷數據中心項目獲獎獲獎 數據來源:浪潮信息,中信建投 數據來源:中興通訊,中信建投 67 行業深度報告 TMT 請參閱最后一頁的重要聲明 當前我國數據中心年用電量已占全社會用電的當前我國數據中心年用電量已占全社會用電的 2%-3%左右,左右,東部核心地區東部核心地區針對數據中心針
298、對數據中心 PUE 已經提出嚴格已經提出嚴格要求。要求。為確保實現“碳達峰碳中和”目標,需要在數據中心建設模式、技術、標準、可再生能源利用等方面進一步挖掘節能減排潛力。多地多地已已針對數據中心的綠色低碳發展提出規劃方案針對數據中心的綠色低碳發展提出規劃方案。北京發布北京市數據中心統籌發展實施方案(2021-2023 年),提出將有序關閉騰退低利用率的數據中心,新建云數據中心更強調“綠色”,新建云數據中心更強調“綠色”,PUE 不高于不高于 1.3,用于數據存儲功能的機柜功率占比不超過 20%;廣東省能源局 2021 年 4 月發布關于明確全省數據中心能耗保障相關要求的通知,明確提出“利用市場和
299、行政手段,推動綠色低碳發展”,要求加大節能技術改造力度,“十四五”期間“十四五”期間 PUE 降至降至 1.3 以下以下;上海在 2019 年發布的信息基礎設施三年行動計劃中提出,新建數據中心新建數據中心 PUE 限制在限制在 1.3 以下,存量數據中心以下,存量數據中心 PUE 不高于不高于 1.4。根據發改委根據發改委表態,“東數西算”工程總體思路有三方面:表態,“東數西算”工程總體思路有三方面:一是推動全國數據中心適度集聚、集約發展;二是促進數據中心由東向西梯次布局、統籌發展;三是實現“東數西算”循序漸進、快速迭代。在當前起步階段,8個算力樞紐內規劃設立 10 個數據中心集群,劃定了物理
300、邊界,并明確了綠色節能、上架率等發展目標,如集群內數據中心的平均上架率至少要達到 65%以上,要求張家口、韶關、長三角、蕪湖、天府、重慶要求張家口、韶關、長三角、蕪湖、天府、重慶集群的集群的 PUE 在在1.25 以下,和林格爾、貴安、中衛、慶陽集群的以下,和林格爾、貴安、中衛、慶陽集群的 PUE 在在 1.2 以下。以下。我們認為,無論是在原來的東部核心區域,還是“東數西算”工程的樞紐節點內,政策端均對新建數據中我們認為,無論是在原來的東部核心區域,還是“東數西算”工程的樞紐節點內,政策端均對新建數據中心以及存量數據中心的心以及存量數據中心的 PUE 提出嚴格要求,其中樞紐節點內的要求更高,
301、同時考慮到整體規劃布局,未來新增提出嚴格要求,其中樞紐節點內的要求更高,同時考慮到整體規劃布局,未來新增機柜更多將在樞紐節點內,因此采用高效的機房溫控方案來降低機柜更多將在樞紐節點內,因此采用高效的機房溫控方案來降低 PUE 是大勢所趨。是大勢所趨。根據間接蒸發冷卻在華北地區某數據中心的應用數據顯示,華北地區某數據中心一期 IT 備總負荷為3150kW,采用集中式冷水機組+房間級空調末端的供冷架構,機房年均 PUE 為 1.4,采用新增間接蒸發冷卻冷水機組的技術措施對一期機房實施節能改造后,機房年均 PUE 降至 1.28。但值得注意的是,“東數西算”樞紐節但值得注意的是,“東數西算”樞紐節點
302、對于點對于 PUE 的的要求為要求為 1.25 或或 1.2 以下,采用以下,采用冷凍水或間接冷凍水或間接蒸發冷卻(風冷)方案蒸發冷卻(風冷)方案在某些高溫、高濕地區在某些高溫、高濕地區可能無可能無法嚴格滿足法嚴格滿足上述上述要求,要求,因此我們預計因此我們預計液冷方案滲透率有望加速提升。液冷方案滲透率有望加速提升。圖表圖表150:華北地區某數據中心節能改造示意圖華北地區某數據中心節能改造示意圖 數據來源:間接蒸發冷卻在華北地區某數據中心的應用,中信建投 制冷系統制冷系統約約占數據中心建設占數據中心建設投資投資的的 20%左右,短期來看液冷方案的價值量更高。左右,短期來看液冷方案的價值量更高。
303、根據數據港的招股說明書 68 行業深度報告 TMT 請參閱最后一頁的重要聲明 數據顯示,制冷系統占到 Capex 的比例約為 20%,按照 IT 負載進行估算,單 kW 對應冷凍水方案(風冷)制冷系統的價值量約為 7000 元,我們預計如果采用液冷方案,投資將提升至 1.5 萬元以上/kW。圖表圖表151:數據港數據港 Capex 支出構成支出構成 圖表圖表152:數據港數據港 OPEX 支出構成支出構成 數據來源:數據港招股書,中信建投 數據來源:數據港招股書,中信建投 假設國內每年新增機柜數為 100 萬架(按照單機柜 2.5kW 計算),新增 IT 負載量為 250 萬 kW,若全部采用
304、風冷方案,單 kW 價值量為 7000 元,則對應溫控市場規模為 175 億元;若液冷方案滲透率達到若液冷方案滲透率達到 70%,單,單 kW 液液冷價值量為冷價值量為 1.5 萬元,則對應溫控市場規模為萬元,則對應溫控市場規模為 315 億元億元(+80%),其中液冷溫控市場規模為,其中液冷溫控市場規模為 262.5 億元。億元??紤]到 AIGC 的發展,“東數西算”工程 PUE 的要求,以及超算/智算中心的建設需求,我們認為,一是未來2-3 年將是國內大功率 IDC 新增建設的高峰期,液冷方案的滲透率可能更高,二是存量 IDC 機房為滿足現在更嚴格的 PUE 要求,可能需要進行改造,其中制
305、冷系統將是改造和投資的重點,三是產業鏈目前的液冷產能規劃可能在短期內將呈現供不應求狀態(液冷設備系統現有產能較少,疊加儲能等新能源需求快速增長),因此在液冷在液冷方案加速滲透過程中,數據中心溫控廠商、液冷板制造廠商等有望受益,建議關注方案加速滲透過程中,數據中心溫控廠商、液冷板制造廠商等有望受益,建議關注:網宿科技網宿科技(全資子公司綠(全資子公司綠色云圖深耕液冷技術多年,傳統主業色云圖深耕液冷技術多年,傳統主業 CDN 發展勢頭向好,且向邊緣計算方向發展良好)發展勢頭向好,且向邊緣計算方向發展良好)、英維克、英維克(數據中心與(數據中心與儲能制冷方案領先供應商,液冷布局深厚)儲能制冷方案領先
306、供應商,液冷布局深厚)、科創新源、科創新源(液冷板產品有望應用液冷數據中心及服務器)(液冷板產品有望應用液冷數據中心及服務器)、飛榮達、飛榮達(液冷板產品有望應用液冷數據中心及(液冷板產品有望應用液冷數據中心及服務器)服務器)、依米康、依米康(數據中心制冷方案主要供應商)(數據中心制冷方案主要供應商)等。等。6.3 人工智能算力需求有望推動海底數據中心規?;l展人工智能算力需求有望推動海底數據中心規?;l展 我們認為,海底數據中心可能將迎來產業化的關鍵節點。我們認為,海底數據中心可能將迎來產業化的關鍵節點。一是中國通信工業協會已于 2022 年 12 月 14 日批準發布標準 T/CA 303
307、2022水下數據中心設計規范。二是中國及全球近兩年海上風力發電取得大發展,海底數據中心可就近消納海上風電。三是東部沿海城市算力及 IDC 需求旺盛,海底數據中心可就近滿足需求。四是 AIGC 需要單機柜功耗可能達幾十 kW,海底數據中心單機柜功率可達 35kW 左右,利用海水冷卻,無壓縮機運行,單艙 PUE 可以低于 1.10,且無需冷卻塔,可節約大量的水資源。五是全球在海底數據中心布局領先的是微軟,2015 年開始啟動測試,兩次測試都成功,2022 年美國 subsea cloud us 計劃推出商用海底數據中心。6.3.1 國內海底數據中心相關設計規范已經發布 國內第一個水下數據中心標準已
308、發布并已開始實施。國內第一個水下數據中心標準已發布并已開始實施。中國通信工業協會已于 2022 年 12 月 14 日批準發布標準 T/CA 3032022水下數據中心設計規范,該標準于 2023 年 1 月 1 日起開始實施。該標準遵循開放、公平、透明、協商一致和促進貿易和交流的原則,按照全國團體標準信息平臺公布的標準制定程序文件制定,由深圳 69 行業深度報告 TMT 請參閱最后一頁的重要聲明 海蘭云數據中心科技有限公司、中國通信工業協會數據中心委員會、中國長江三峽集團有限公司、海洋石油工程股份有限公司、維諦技術有限公司、清華大學等單位共同起草。該標準適用于指導和規范新建、改建和擴建部署于
309、海洋的水下數據中心設計工作。該標準適用于指導和規范新建、改建和擴建部署于海洋的水下數據中心設計工作。水下數據中心設計規范基于海底數據中心水下密封、無氧無塵、空間受限、無人值守等特點,規定了水下數據中心的分級與性能要求、選址與系統組成、水下艙體系統設計要求、電氣系統設計要求、空調系統設計要求、監控系統設計要求、網絡與布線系統設計要求、動力與通訊纜線系統設計要求、消防與安全系統設計要求。部署于湖泊、江水等水下數據中心亦可參照執行。該標準的發布有利于推進我國水下數據中心的發展。該標準的發布有利于推進我國水下數據中心的發展。水下數據中心設計規范標準的發布,有利于推進我國水下數據中心的發展,保障水下數據
310、中心工程順利實施,從而可以科學有序地銜接設計、建設、運維工作,確保水下數據中心安全、穩定、可靠運行,做到技術先進、經濟合理、節能環保。更好地為用戶、營運商和業務主管部門提供水下數據中心設計規范,從而為數據中心“碳中和”的實現貢獻力量,為新業態、產業領域的多融合探索、構建樹立標桿。圖表圖表153:水下數據中心示例圖水下數據中心示例圖 數據來源:Dgtl Infra,中信建投 水下數據中心的建設符合我國“雙碳”發展目標和新型數據中心發展戰略,該標準順應了數據中心向“零水下數據中心的建設符合我國“雙碳”發展目標和新型數據中心發展戰略,該標準順應了數據中心向“零碳”方向發展的趨勢。碳”方向發展的趨勢。
311、“雙碳”目標下各領域節能減碳力度正不斷增強,零碳被廣泛提及,對于高耗能的數據中心而言,零碳更是早已成為關注焦點。但各產業的算力需求不斷提升,數據中心規模不斷擴大,碳排總量提高,想要實現零碳挑戰巨大。這需要對現有減碳方式進行升級,編制并落地更具指導性的標準、規范,進一步優化相應的技術及解決方案,水下數據中心設計規范便應運而生。6.3.2 海上風電已經實現規?;l展,有望與海底數據中心結合產生新商業模式 經歷了經歷了 2020-2021 年海風搶裝潮,國內海上風電產業鏈加速成熟。年海風搶裝潮,國內海上風電產業鏈加速成熟。我國海上風電探索起源于 2007 年。是年11 月 8 日,首座安裝有 1 臺
312、金風科技 1.5 MW 風電機組的海上風電項目在渤海綏中油田建成發電,經歷了十余年的發展,2020 年末,我國海上風電裝機量達到了 9.89GW。2019 年 5 月 24 日,國家發改委發布關于完善風電上網電價政策的通知,提出將海上風電標桿上網電價改為指導價,新核準海上風電項目全部通過競爭方式確定上網電價;對 2018 年底前已核準的海上風電項目,如在 2021 年底前全部機組完成并網的,執行核準時的上 70 行業深度報告 TMT 請參閱最后一頁的重要聲明 網電價(約 0.85 元/千瓦時,補貼力度超 0.4 元/千瓦時),極具誘惑力的補貼價格,帶來了海上風電的搶裝潮,僅 2021 年中國海
313、上風電新增裝機量超過 16.9GW,搶裝也加速了我國海風產業鏈的成熟,2010 年我國海上風電的單 GW 造價水平大約在 240 億左右,目前已經降至 120-130 億元。截至 2022 年末,中國海上風電裝機量達30.51GW。圖表圖表154:中國海上風電裝機量(中國海上風電裝機量(GW)數據來源:國家能源局,中信建投 風機大型化帶來發電效率提升疊加產業鏈降本的推進,部分地區或已經實現平價。風機大型化帶來發電效率提升疊加產業鏈降本的推進,部分地區或已經實現平價。通過十多年的海上風電場設計建造的經驗,以及裝備制造水平的提升,根據華東勘測設計院的測算,在福建、廣東、海南等風資源較好且標桿煤電價
314、格較高的省份已經基本具備平價上網的條件。圖表圖表155:海上風電經濟性指標測算海上風電經濟性指標測算 ?。ㄊ校┠昶骄L速(m/s)等效滿負荷小時數(h)目前可研概算水平(元/kW)標桿煤電價格(元/kWh)最小電價差(元/kWh)最小造價差(元/kW)遼寧 6.5-8 2750-3200 13000 0.3749 0.083 2600 天津 6.5-8 2750-3300 13000 0.3655 0.086 2740 河北 6.5-8 2750-3300 13500 0.372 0.095 3030 山東 6.5-8 2750-3300 13500 0.3949 0.025 1300 江蘇
315、7.0-8.0 3080-3300 13000 0.391 0.015 1000 上海 7.0-8.0 3080-3450 14000 0.4155 0.006 1190 浙江 7.0-8.0 3080-3450 14500 0.4153 0.039 1670 福建 7.5-10 3300-4100 15000 0.3932 廣東 7.0-9.0 2750-3700 15500 0.453 廣西 6.5-8.0 2420-3200 13000 0.4207 0.045 1400 海南 6.5-8.5 2420-3550 13000 0.4298 資料來源:華東勘測設計研究院,中信建投。注:最小
316、電價差和最小造價差以資本金IRR6%反算。發展海上風電的省份均為東部發達地區,同時也是對于算力需求較高的省份。發展海上風電的省份均為東部發達地區,同時也是對于算力需求較高的省份。IDC 本身對于能耗需求較高,本身對于能耗需求較高,使用海上風電與海底數據中心聯合作業方式,既可實現對于海上風電能源的就近消納,數據中心自身也可以使使用海上風電與海底數據中心聯合作業方式,既可實現對于海上風電能源的就近消納,數據中心自身也可以使用綠色能源來實現“零碳”目標,二者結合有望誕生新的商業模式。用綠色能源來實現“零碳”目標,二者結合有望誕生新的商業模式。0.130.040.230.360.591.161.652
317、.393.0616.94.120.390.430.671.041.632.794.446.839.8926.3930.510510152025303520122013201420152016201720182019202020212022新增裝機累計裝機 71 行業深度報告 TMT 請參閱最后一頁的重要聲明 6.3.3 海底數據中心節能優勢突出,可較好滿足沿海地區的旺盛算力需求 海底數據中心海底數據中心 UDC 是水下數據中心的一種。是水下數據中心的一種。海底數據中心是將服務器等信息基礎設施安裝在海底密封的壓力容器中,利用流動海水進行散熱,并利用海底復合纜供電且將數據回傳至互聯網的新型數據中心
318、。海底數據中心具有節能、節地、低時延、安全可靠等顯著的綠色低碳特征和多方面的優點,符合綠色低碳發展趨勢。海底數據中心一般建設在海岸線海底數據中心一般建設在海岸線 10-20 公里之處,可滿足沿海地區較高的算力、數據存儲及低延遲的要求。公里之處,可滿足沿海地區較高的算力、數據存儲及低延遲的要求。水下數據中心為低延遲連接提供了一種解決方案,即減少數據在源和目的地之間傳輸所需的時間。西部內陸地區的數據中心可以進行一些冷數據的存儲和延遲要求較低的計算,但對于延遲要求較高的還是需要在東部沿海地區尋找數據中心資源。東部沿海城市算力需求旺盛,海底數據中心可以利用較近的距離為基數巨大的沿海人口提供低延遲連接,
319、因為世界上超過 50%的人口居住在距離海岸 120 英里(200 公里)的范圍內。圖表圖表156:建設在海建設在海邊的水下數據中心邊的水下數據中心 數據來源:Dgtl Infra,中信建投 通過將水下數據中心放置在世界大部分人口附近,可以為服務不足的社區提供更快、更流暢的互聯網瀏覽、視頻流、游戲和云服務。因此,水下數據中心可能成為包括亞馬遜網絡服務(AWS)、微軟 Azure 和谷歌云在內的云服務提供商的重要邊緣計算工具。圖表圖表157:IDC 機房的各類消耗機房的各類消耗 圖表圖表158:我國數據中心能耗分布我國數據中心能耗分布 數據來源:中國熱管理網,中信建投 數據來源:中國熱管理網,中信
320、建投 43.0%45.0%10.0%2.0%散熱能耗IT設備能耗供配電能耗照明及其他 72 行業深度報告 TMT 請參閱最后一頁的重要聲明 PUE 值是衡量值是衡量 IDC 的重要指標。的重要指標。PUE 的計算方法為數據中心的總耗電量比上 IT 設備的耗電量,數值越接近1,表明 IDC 的能效越高。工信部明確規定 2025 年底,新建數據中心的 PUE 值必須在 1.3 以下。在單機功率、在單機功率、PUE 等方面,海底數據中心優于陸上等方面,海底數據中心優于陸上 IDC。AIGC 的計算需要單機柜功耗可能達到幾十 kW,目前廣泛使用的英偉達 DGX A100 服務器單機功率就有 6.5kw
321、;海底數據中心單機柜功率可達 35kW 左右,利用海水冷卻,無壓縮機運行,單艙 PUE 可低于 1.10,且無需冷卻塔,可節約大量的水資源。此外,在冷卻效率、延遲、建造時間與成本、可靠性及可持續性方面,以海底數據中心為代表的水下數據中心也表現出了一定優勢。圖表圖表159:水下數據中心與傳統陸上水下數據中心與傳統陸上 IDC 部分指標對比部分指標對比 指標 傳統陸上 IDC 水下數據中心 UDC 的特點 冷卻效率 微軟新建的陸基數據中心的 PUE 約為1.125?,F有海南陸地IDC的PUE值(1.8-2.0)微軟水下數據中心在海平面下 36 米處,溫度比陸基數據中心低約10攝氏度。PUE為1.0
322、7。海蘭信實測結果單艙 PUE 值為 1.076,公司預計海南示范項目實際 PUE 可以成功控制在1.10 左右 海洋提供持續的寒冷環境,降低冷卻成本 延遲 路基 IDC 對地理環境要求高,在中國多部署在離大城市較遠的中西部地區,有時延 世界上超過 50%的人口居住在距離海岸 120英里(200 公里)的范圍內,水下數據中心分布在沿海發達城市 10-20 公里海域內,距離用戶更近,可能成為云服務提供商的重要邊緣計算工具。海洋數據中心可以為沿海人口提供低延遲連接 建造時間和成本 在陸地上,數據中心的“建設”需要許可和適應各種物理環境。一般而言,建造數據中心的成本在每平方英尺 600 至 1,10
323、0美元之間,或每兆瓦 IT 負載 7 萬至 12 萬美元。(具體見下文表格)傳統數據中心的完整建設周期在 400 天左右,模塊化數據中心可以縮短建設周期到 2-3 個月。水下數據中心更多地涉及“制造”過程,旨在大規模生產模塊,以便在非常相似的海洋條件下部署。相比路基 IDC,單千瓦 TCO(建設成本+運營成本)節約 15-20%左右,土地占用僅 1/5。水下數據中心是作為預制和標準化模塊構建的,這樣可以快速構建和交付時間 可靠性 陸基數據中心平均壽命為 10-15 年(來自華為的數據)海洋數據中心可以在現場無人且無需維護的情況下運行長達 5 年。生命周期在 20 年,每 5 年進行一次重新加載
324、服務器和部署。水下數據中心具有高度的可靠性和更可預測的數據中心性能,因為這些預制模塊是在受控的工廠環境中以精確的規格構建的 可持續性 陸基數據中心 2021 年行業平均 WUE 是每千瓦時 1.8 升水 水下數據中心的可再生能源包括海上風能、太陽能、潮汐能和波浪能。通過不連接到電網,這些海洋數據中心可以減輕當地電網的壓力。此外,水下數據中心用水效率 WUE為 0,不消耗水。水下數據中心可以使用可再生能源,滿足可持續性要求 資料來源:Dgtl Infra,中信建投 此外,海底數據中心在資源節約與互補、安全性等方面也存在優勢。此外,海底數據中心在資源節約與互補、安全性等方面也存在優勢。海底數據中心
325、的岸站占地極少;沒有冷卻塔,節約大量的水資源(200 立方米/機柜年,典型規模年省水 60 萬立方米)。同時,海底數據中心亦可利用海上風能、太陽能、波浪能和潮汐能等可再生能源實現多能互補。安全性方面,由于海底數據中心可滿足 73 行業深度報告 TMT 請參閱最后一頁的重要聲明 恒溫、恒濕、恒壓、無氧、無塵的條件,其可充分保障數據的物理安全。并且水下數據中心可預制、作為標準化模塊構建,因而可以快速構建和交付,實現工業化部署與模塊化生產。海底數據中心的建設與使用在綜合利海底數據中心的建設與使用在綜合利用海洋資源的同時,陸海統籌、生態用海、集約用海,也響應了高效利用海洋的國家戰略。用海洋資源的同時,
326、陸海統籌、生態用海、集約用海,也響應了高效利用海洋的國家戰略。6.3.4 全球海底數據中心建設案例微軟 Natick 項目 全球首個海底數據中心于全球首個海底數據中心于 2015 年由美國微軟公司研制,微軟在海洋中建立水下數據中心和放置服務器的年由美國微軟公司研制,微軟在海洋中建立水下數據中心和放置服務器的研究實驗研究實驗Natick 項目目前已完成了為期項目目前已完成了為期 4 個月的水下概念驗證測試與為期兩年的水下數據中心測試。個月的水下概念驗證測試與為期兩年的水下數據中心測試。該項目第一階段的目的是有效地測試水下數據中心的冷卻系統。第二階段的目的則在于確定全尺寸水下數據中心模塊的制造可行
327、性以及在 90 天內部署它們的經濟可行性。此外,在兩年的時間里,微軟還能夠測試和監控水下數據中心服務器的性能和可靠性。圖表圖表160:微軟微軟 Natick 項目測試指標項目測試指標 Project Natick Phase 1 Phase 2 Phase 3 Launched August 2015 June 2018 Future Duration 105 days 2 years 5 years Location California Scotland TBD Racks 1 12 144 Servers 24 864 10,368 Length 10ft(3m)40ft(12.2m)3
328、00ft(131ft(40m)資料來源:微軟,中信建投 Natick 項目的第一階段是一個概念驗證原型水下數據中心,于項目的第一階段是一個概念驗證原型水下數據中心,于 2015 年年 8 月啟動。月啟動。Natick 項目的第一階段被放置在平靜的淺水中的海底,距離美國加利福尼亞州圣路易斯奧比斯波附近的阿維拉海灘太平洋海岸約 0.6 英里(1 公里)。這個海洋數據中心的規格為 10 英尺(3 米)x 7 英尺(2.1 米)、38,000 磅重,裝有 1 個標準 42U機架,包含 24 臺服務器,服務器占據機架空間的 1/3,其他 2/3 服務器裝滿“負載托盤”以產生熱量,目的為有效地測試水下數據
329、中心的冷卻系統。圖表圖表161:微軟微軟 Natick 項目第二階段項目第二階段水下數據中心水下數據中心 數據來源:微軟,中信建投 Natick 項目的第二階段是一個水下數據中心,部署時間為項目的第二階段是一個水下數據中心,部署時間為 2018 年年 6 月到月到 2020 年年 7 月,時長達兩年。月,時長達兩年。在微 74 行業深度報告 TMT 請參閱最后一頁的重要聲明 軟最初的概念驗證測試之后,海洋數據中心的規模不斷擴大,項目的第二階段是一個集裝箱大小的數據中心,承載 12 個機架,包含 864 臺服務器。第二階段被放置在北部群島的海底117 英尺(36 米)深的巖石板海底,具體位于英國
330、蘇格蘭奧克尼群島的歐洲海洋能源中心(EMEC)。該設施包括一個裝有 12 個機架的水下數據中心,其中包含 864 臺具有 FPGA 加速功能的標準服務器。864 臺服務器中的每一臺都有 32TB 的磁盤,相當于27.6PB 的總磁盤。在電力消耗方面,微軟 Natick 項目的第二階段需要 240 千瓦(kW),這意味著在滿負荷運行時,功率不到四分之一兆瓦。這種電力來自 100%當地生產的可再生電力,包括陸上風能和太陽能,以及海上潮汐能和波浪能。圖表圖表162:微軟微軟 Natick 項目第二階段位置圖項目第二階段位置圖 數據來源:微軟,中信建投 微軟微軟 Natick 項目未來的第三階段被描述
331、為“試點”。項目未來的第三階段被描述為“試點”。具體來說,微軟將為 Natick 項目的第 3 階段建立一個“更大規?!钡乃聰祿行?,該數據中心“可能是多艘船”,并且“可能是與第二階段不同的部署技術”。微軟 Natick 項目的第 3 階段將被放置在大于 117 英尺(36 米)的深度。微軟通過微軟通過 Natick 項目探索了海底數據中心發展的潛力。項目探索了海底數據中心發展的潛力。Natick 項目第二階段測試結果顯示,海底數據中心的 PUE 為 1.07,故障率是地面數據中心故障率的八分之一。同時,微軟通過 Natick 項目發現,水下數據中心可實現快速部署,并可密封在類似潛艇的管道內
332、,在海床上運行多年,而無需人工進行任何現場維護。初步分析表明,服務器在水下具有卓越性能的主要原因是避免了濕氣和氧氣的腐蝕。但需要注意的是,目前海底數據中心也存在發展瓶頸。但需要注意的是,目前海底數據中心也存在發展瓶頸。一是海底數據中心需要高額的建設成本,包括購買數據艙、服務器、布線、配電系統、通信系統等。二是海底數據中心的技術難度大,需要具備海洋環境下的建設、抗潮汛、抗海浪、抗噪聲等技術。三是海底數據中心的運維工作復雜,由于海底環境條件復雜多變,需要特殊的技術和設備才能完成運維工作。七七、海外大模型進展海外大模型進展 7.1 谷歌谷歌 谷歌在訓練集方面不具備明顯優勢。谷歌在訓練集方面不具備明顯
333、優勢。在訓練數據集方面,現有的大模型主要采用書籍、文章、網頁等 75 行業深度報告 TMT 請參閱最后一頁的重要聲明 文本數據,這些數據能夠幫助大模型積累語法、文本知識、文本理解、上下文連貫邏輯等能力,而在前文“綜述”部分我們提到代碼對語言模型的邏輯推理能力具備幫助,因此訓練數據集的多樣性較為重要,確保大模型積累多樣化的能力以便后續激活,這里的問題主要是,例如邏輯推理的培養需要一定比例的高質量代碼數據,1)如何定義高質量的數據,怎么對原始數據進行清理、去重1、標注等?2)多大比例的數據能夠積累能力?就我們的知識范圍,目前學術界/業界尚未有較為公開且權威的研究能夠回答上述問題,但總體而言,數據質量上論文/書籍/百科代碼/文章對話網頁。從這一角度看,Google 在數據源方面不存在明顯的優勢。圖表圖表163:不同大語言模型的預訓練數據集結構(不同大語言模型的預訓練數據集結構(%)數據來源:Op