《英偉達-美股公司首次覆蓋報告:“三芯”齊驅高速互聯再戰10萬卡集群-250325(48頁).pdf》由會員分享,可在線閱讀,更多相關《英偉達-美股公司首次覆蓋報告:“三芯”齊驅高速互聯再戰10萬卡集群-250325(48頁).pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、 請務必參閱正文后面的信息披露和法律聲明 1/48 英偉達英偉達(NVDA.O)2025 年 03 月 25 日 投資評級:投資評級:買入買入(首次首次)日期 2025/3/25 當前股價(元)121.41 一年最高最低(元)153.12/75.58 總市值(億元)29624 流通市值(億元)29624 總股本(億股)244.00 流通股本(億股)244.00 近 3 個月換手率(%)66.52%股價走勢圖股價走勢圖 數據來源:聚源“三芯”齊驅,高速互聯,再戰“三芯”齊驅,高速互聯,再戰 1010 萬卡集群萬卡集群 美股公司首次覆蓋報告美股公司首次覆蓋報告 吳柳燕(分析師)吳柳燕(分析師)楊哲
2、(分析師)楊哲(分析師) 證書編號:S0790521110001 證書編號:S0790524100001 全球全球 AI 算力龍頭,算力龍頭,B 系列放量在即,給予“買入”評級系列放量在即,給予“買入”評級 依托 CUDA 體系構建的護城河,英偉達逐步發展為高性能計算行業的領軍者,在整體 GPU 領域市場份額達到 80%,在數據中心 GPU 更是達到 98%的市場份額,公司下一代 GPU 產品 B 系列放量在即,有望驅動后續業績增長,預計FY2026-2028 年 GAAP 凈利潤為 1104/1439/1626 億美元,對應 EPS 分別為4.75/6.15/6.95 美元,同比增長 52%
3、/30%/13%,當前股價對應 FY2026-2028 年的PE 估值為 25.6/19.7/17.5 倍。隨著架構持續升級,英偉達 GPU 仍有望成為高算力集群時代的首要選擇,“三芯戰略”、10 萬卡網絡互聯平臺、汽車及機器人等領域存在想象空間。首次覆蓋,給予“買入”評級。打造“三芯”戰略,實現數據摩爾定律打造“三芯”戰略,實現數據摩爾定律 當前數據中心已成為英偉達核心的業績驅動,公司以 GPU 為核心,實行“GPU+CPU+DPU”三位一體的產品戰略,提供基于 CUDA 的行業領先 GPU 設備,并可通過組件形式(HGX、DGX、NVL72 等)提供加速計算解決方案。(1)GPU:架構持續
4、迭代,在最新的 Blackwell 架構中,GPU 有望達到 20000 TFLOPS FP4 算力,較以往代際的架構有本質的提升;(2)CPU:依托 Arm 實現較強內存一致性,NVLink-C2C 保證芯片高寬帶互聯,更能適應 AI 數據計算;(3)DPU:收購 Mellanox,加速了 DPU 技術的落地,以實現數據摩爾定律。深化網絡互聯技術布局,靜待深化網絡互聯技術布局,靜待 10 萬卡集群時代萬卡集群時代 10 萬卡時代到來,網絡集群能力將愈發重要。在 GPU 互聯上,英偉達 NVLink技術可實現 GPU 數據直連,NVSwitch 提升 GPU 鏈路上限,用于 Blackwell
5、 架構的 NVLink5.0,整體雙向帶寬將達到 1.8TB/s,是 PCIe 帶寬的 14 倍,相比上代突破較大;在算力集群上,英偉達充分布局 Infiniband 和以太網,Spectrum 有望在推理場景中充分放量。風險提示:風險提示:產能爬坡低于預期、行業需求低于預期、行業競爭加劇。財務摘要和估值指標財務摘要和估值指標 指標指標 2024A 2025A 2026E 2027E 2028E 營業收入(百萬美元)60,922 130,497 204,677 254,251 288,462 YOY(%)125.9 114.2 56.8 24.2 13.5 凈利潤(百萬美元)29,759 72
6、,880 110,411 143,863 162,615 YOY(%)581.3 144.9 51.5 30.3 13.0 毛利率(%)73.6 75.3 72.8 74.4 73.6 凈利率(%)48.8 55.8 53.9 56.6 56.4 ROE(%)69.2 91.9 81.6 70.0 55.0 EPS(攤薄/美元)1.32 3.04 4.75 6.15 6.95 P/E(倍)91.7 39.9 25.6 19.7 17.5 P/B(倍)68.9 37.3 21.9 14.4 10.0 數據來源:聚源、開源證券研究所 -50%0%50%100%150%200%250%2024/1/
7、22025/1/2英偉達納斯達克公司研究公司研究 美股公司首次覆蓋報告美股公司首次覆蓋報告 開源證券開源證券 證券研究報告證券研究報告 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 2/48 目目 錄錄 1、英偉達:全球算力領軍者,全方位布局 AI 產業.5 2、發展歷程:三十年歷經沉浮,終成算力王者.7 2.1、1993-2004 年(3D 加速卡時代):背靠微軟掌握標準,顯卡龍頭地位初顯.7 2.2、2005-2016 年(CUDA 通用計算時代):打造 CUDA 通用計算體系,埋下時代伏筆.10 2.3、2017 年-至今(全面 AI 時代):生成式
8、AI 崛起,英偉達成為萬億“賣水人”.15 3、數據中心:立足 GPU 領先優勢,打造“三芯”戰略.17 3.1、GPU:架構持續迭代,AI 算力的硬通貨.18 3.2、CPU:依托 Arm 實現較強內存一致性,NVLink-C2C 保證芯片高寬帶互聯.21 3.3、DPU:收購 Mellanox,實現數據摩爾定律.25 3.4、NVLink 技術:實現 GPU 數據直連,NVSwitch 提升 GPU 鏈路上限.28 3.5、網絡解決平臺:充分布局 Infiniband 與以太網,期待 Spectrum 后續突破.29 4、游戲&專業可視化:公司傳統優勢業務,推陳出新挖掘增量.33 4.1、
9、游戲:龍頭地位穩固,關注 AI PC 驅動機會.34 4.2、專業可視化:構建豐富生態,打造 Omniverse 平臺布局未來.37 5、汽車業務:域控芯片份額領先,期待 Thor 發布鞏固地位.40 6、盈利預測及投資建議:.43 7、風險提示.45 附:財務預測摘要.46 圖表目錄圖表目錄 圖 1:英偉達自下而上布局了從芯片到應用的幾乎所有層級.5 圖 2:FY2024 以來英偉達收入提速明顯.6 圖 3:數據中心業務成為英偉達的核心增長來源(營收單位:百萬美元).6 圖 4:隨著產品持續迭代,中長期看英偉達毛利率穩步提升,帶動凈利率上行.7 圖 5:90 年代消費型 3D 顯卡市場參與者
10、較多.8 圖 6:1996 年起,3D 芯片廠商在經歷過蠻荒增長后進入行業洗牌期.9 圖 7:2002-2004 年 ATI 市場份額逐步攀升,短暫超越英偉達后持續向下.11 圖 8:英偉達 GPU 浮點運算數遠高于 Intel 的 CPU.11 圖 9:英偉達 GPU 的內存帶寬遠高于 Intel 的 CPU.11 圖 10:CPU 與 GPU 架構對比,GPU 擁有更多的數據處理單元.12 圖 11:英偉達 CUDA 硬件及數據處理架構有著對應關系.13 圖 12:英偉達 CUDA 函式庫開拓新市場.14 圖 13:FY2009 次貸危機期間英偉達收入出現負增長.15 圖 14:次貸危機疊
11、加 CUDA 高投入造成英偉達 FY2009-2010 的虧損.15 圖 15:FY2017 年之后,英偉達數據中心收入進入加速成長態勢.16 圖 16:大語言模型衍生的產品及技術方向愈發豐富.16 圖 17:提高算力可明顯減少大模型訓練時長.17 圖 18:AI 服務器推理工作負載占比有望逐步提升.17 圖 19:CY3Q23 數據中心業務開始加速啟動(營收單位:百萬美元).17 圖 20:英偉達“CPU+GPU+DPU”三芯戰略演變圖.18 圖 21:英偉達 GPU 架構算力持續提升,耗能逐步下降.20 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 3/
12、48 圖 22:Arm 在數據基礎設施領域市場份額持續提升.21 圖 23:傳統 x86 服務器系統架構,加速器需共用一個 CPU 訪問內存.22 圖 24:Arm 服務器系統架構,每一個 CPU 都單獨和一個加速器相連.22 圖 25:英偉達 Grace Hopper 產品形態.23 圖 26:英偉達 Grace CPU 超級芯片產品形態.23 圖 27:英偉達 Grace Hopper 超級芯片邏輯概述.23 圖 28:英偉達 Grace CPU 分布式 CPU Core 和緩存.24 圖 29:傳統服務器 CPU 采用多節點的 NUMA 架構.24 圖 30:英偉達 Grace 簡化為僅
13、有 2 個 NUMA 節點.24 圖 31:網絡寬帶增速遠高于 CPU 算力增速.25 圖 32:SmartNIC 逐步演化至 DPU.26 圖 33:GPU Direct RDMA 可以實現高效的遠程直接內存訪問.26 圖 34:英偉達 NVMe SNAP 使得遠程存儲看起來像本地 NVMe SSD.27 圖 35:NVSwitch 擴大了英偉達 GPU 互聯的潛力.29 圖 36:相比 Infiniband,RoCEv2 性價比更高.32 圖 37:英偉達游戲與專業可視化業務(百萬美元)增速基本趨同.34 圖 38:英偉達 GeForce 系列顯卡龍頭地位穩固.34 圖 39:AIB(附加
14、板)顯卡全球出貨量或進入下行通道.36 圖 40:AI PC 出貨量增長較快.37 圖 41:英偉達 GeForce RTX 4090 相對 Apple M2 Ultra 在內容創造上性能領先.37 圖 42:英偉達專業視覺平臺生態豐富.38 圖 43:英偉達專業可視化有諸多合作伙伴.38 圖 44:傳統創作流程為線性模式.39 圖 45:Omniverse 創作流程可多流程實時同步.39 圖 46:英偉達 Omniverse 平臺核心組件.40 圖 47:國內乘用車 L2 及以上 ADAS 功能(分級別)裝配率持續提升.41 圖 48:2024 年后國內新上市乘用車 L2.9 ADAS 功能
15、裝配率提升明顯.41 圖 49:GPU 可適應汽車 AI 異構分布硬件架構的特征.41 圖 50:英偉達 Orin 系列在智駕域控芯片裝機量市場份額領先.42 圖 51:2023 年英偉達在中國乘用車前裝標配 NOA 高階智駕計算方案市場份額領先.42 表 1:90 年代主要 3D 顯卡芯片有著多種顯示標準.9 表 2:CUDA 按照 1-2 年的頻率持續更新.13 表 3:英偉達最新 GPU 架構 Blackwell 可實現 20000 TFLOPS FP4 算力.19 表 4:英偉達可提供多種 GPU 組合形態.21 表 5:NVLink 5.0 帶寬突破明顯.28 表 6:以 8 卡 H
16、200 的服務器為例,在 NVSwitch 模式下帶寬不受 GPU 數量影響.28 表 7:NVSwitch 隨著架構更新持續升級.29 表 8:各企業陸續開展 10 萬卡集群計算.30 表 9:在高性能計算領域,Infiniband 較以太網更有優勢.30 表 10:Infiniband 各版本參數規格.31 表 11:PCIe 各版本參數規格.31 表 12:英偉達充分布局 IB 及以太網領域.32 表 13:51.2Tbps 主要企業的以太網交換機方案各有側重.33 表 14:英偉達聚焦中高端,AMD 主打中低端.35 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披
17、露和法律聲明 4/48 表 15:英偉達 Thor 核心參數相較 Orin 有明顯提升.42 表 16:英偉達智駕芯片算力、能效比領先.43 表 17:英偉達盈利預測.44 表 18:英偉達與可比標的估值對比.45 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 5/48 1、英偉達:全球算力領軍者,全方位布局英偉達:全球算力領軍者,全方位布局 AI 產業產業 全球全球 GPU 龍頭,充分布局龍頭,充分布局 Gen-AI。英偉達業務起始于圖形處理器,打造了通用計算體系 CUDA 架構,由此開啟了加速計算的新紀元,逐步發展為高性能計算行業的領軍者,在當下火熱的
18、Gen-AI 行情中占據關鍵位置。依托 CUDA 體系構建的護城河,英偉達在整體 GPU 領域市場份額達到 80%,在數據中心 GPU 市場更是達到 98%的份額。產品上,英偉達充分布局,在數據中心業務持續創收的同時,發掘多條成長曲線,實現了從芯片層、云計算層到軟件應用層的全方位布局,為未來持續發展奠定基礎。圖圖1:英偉達自下而上布局了從芯片到應用的幾乎所有層級英偉達自下而上布局了從芯片到應用的幾乎所有層級 資料來源:公司官網、開源證券研究所 受益于生成式受益于生成式 AI 帶來的行業變革帶來的行業變革,數據中心業務成為核心增長引擎。,數據中心業務成為核心增長引擎。在 2023年(對應英偉達
19、2024 財年)之前,盡管英偉達在數據中心已有充分布局,但收入整體仍然受到游戲行業周期及 GeForce 更新迭代影響。2022 年 Q4,基于 Transformer架構的 ChatGPT 誕生,帶動科技行業加大 GPU 數據中心投入,作為核心“賣水人”的英偉達,數據中心業務迎來快速增長,FY2025Q4,英偉達游戲/專業可視化/計算/網絡/汽車收入占比為 6%/1%/83%/8%/1%。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 6/48 圖圖2:FY2024 以來英偉達收入提速明顯以來英偉達收入提速明顯 資料來源:Bloomberg、開源證券研究所
20、圖圖3:數據中心業務成為英偉達的核心增長來源數據中心業務成為英偉達的核心增長來源(營收單位:百萬美元)(營收單位:百萬美元)資料來源:Bloomberg、開源證券研究所 英偉達英偉達 GPU 地位穩固,穩健升級帶動毛利率提升。地位穩固,穩健升級帶動毛利率提升。從較長的時間周期上看,得益于英偉達產品穩固的市場地位,GPU 架構按照 2-3 年的速度持續更新,帶動毛利率穩步提升,FY2014-FY2018 年,數據中心業務快速起量,規模效應下費率攤薄明顯,至 FY2019 年凈利率達到 35%。此后在生成式 AI 帶動下,高盈利水平的數據中心業務占比持續提升,至 FY2025 凈利率達到 56%。
21、-200%-100%0%100%200%300%400%500%600%700%-20,000020,00040,00060,00080,000100,000120,000140,000收入(百萬美元)凈利潤(百萬美元)yoy(收入)yoy(凈利潤)-200%0%200%400%600%010,00020,00030,00040,00050,000游戲專業可視化數據中心(計算)數據中心(網絡)汽車其他yoy(游戲)yoy(專業可視化)yoy(計算)yoy(網絡)yoy(汽車)yoy(其他)美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 7/48 圖圖4:隨著產
22、品持續迭代,中長期看英偉達毛利率穩步提升,帶動凈利率上行隨著產品持續迭代,中長期看英偉達毛利率穩步提升,帶動凈利率上行 資料來源:Bloomberg、開源證券研究所 2、發展歷程:三十年歷經沉浮,終成算力王者發展歷程:三十年歷經沉浮,終成算力王者 2.1、1993-2004 年年(3D 加速卡時代)加速卡時代):背靠微軟掌握標準,顯卡龍頭地位背靠微軟掌握標準,顯卡龍頭地位初顯初顯 公司早期聚焦圖形芯片,依靠游戲主機廠世嘉賺取第一桶金。公司早期聚焦圖形芯片,依靠游戲主機廠世嘉賺取第一桶金。1993 年 4 月,從集成電路生產商 LSI Logic 出來的黃仁勛,聯合 Sun 公司兩位年輕工程師C
23、hris Malachowsky 和 Curtis Priem 共同創立了英偉達。初期,公司旨在通過生產 3D 圖形芯片布局游戲和多媒體市場。彼時 3D 游戲及 3D 渲染仍然處于早期,業內并無統一標準,企業魚龍混雜,既包括索尼、東芝、IBM 等大廠,也有很多如英偉達一般的創業者,這其中,1994 年成立的 3dfx 憑借 Voodoo 顯卡,成為 PC 端 3D 游戲的領袖。1995 年英偉達推出公司首款面向游戲主機的多媒體加速器NV1,集成了聲卡和手柄控制單元。盡管該產品相較 Voodoo 性能不高,兼容性差,但 NV1 仍被運用于世嘉第六代游戲主機“土星”,為公司賺得了第一桶金(游戲機不
24、需要考慮兼容性問題)。-10%0%10%20%30%40%50%60%70%80%20032004200520062007200820092010201120122013201420152016201720182019202020212022202320242025毛利率研發費用率銷售及管理費用率凈利率美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 8/48 圖圖5:90 年代年代消費型消費型 3D 顯卡顯卡市場參與者較多市場參與者較多 資料來源:科技新報 公司瀕臨破產,綁定微軟重獲新生。公司瀕臨破產,綁定微軟重獲新生。1996 年,微軟發布了 Direct
25、3D 標準(只支持“三角形繪圖”),而英偉達因堅持“四邊形繪圖”的研發路線,NV1 很快便無人問津,同時,為世嘉研發的 NV2 以失敗告終,而對手 Voodoo 則順應規律獲得 80%的市場份額,英偉達走到破產邊緣?;诖?,英偉達做出如下應對:(1)人事方面人事方面:任命主機游戲廠商水晶動力的首席技術官 David Kirk 作為英偉達的“首席科學家”;(2)研發方面研發方面:確定了為期六個月的內部周期目標,產品更新迭代較快,更快滿足下游需求的變化,同時即便某一產品失敗,也不會威脅到公司的生存;(3)拓客方面:拓客方面:綁定 PC 大客戶微軟,1997 年推出全球首款 128bit 的 3D
26、處理器 RIVA128(NV3),這是第一款支持微軟 Direct3D 加速的圖形芯片,也是當時市場上唯一真正具有 3D 加速能力的 2D+3DAGP 顯卡,上市四個月出貨量突破 100 萬片。至 1997 年底,英偉達的 3D 顯卡市場份額為24%,排名第二(僅次于 3Dfx Interactive)。隨后,英偉達進一步發布的RIVA 128ZX 支持 OpenGL,在雷神之錘中表現不錯,而雷神之錘不支持GLIDE 標準,使得 Voodoo 的優勢有所弱化。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 9/48 表表1:90 年代主要年代主要 3D 顯卡芯
27、片顯卡芯片有著多種顯示標準有著多種顯示標準 廠商廠商 NVIDIA 3dfx ATI S3 產品 RIVA 128 Voodoo Rage Pro Virge GX 顯示標準 direct 3D GLIDE 3DCIF S3D 發布時間 1997 年 8 月 1996 年 10 月 1997 年 3 月 1996 年 10 月 亮點 盡管在圖像質量上不敵 3dfx 的Voodoo,但優勢在于 100M/秒的像素填充率、對 Open GL 的兼容性以及價格較低 早期顯卡領袖企業,在DirectX 崛起前,其招牌Glide API 受到廣泛的軟件廠商支持 在 4MB 格式下幾乎與 Voodoo G
28、raphics 的性能相匹敵,在 8MB和 AGP 接口使用時,性能超過了3Dfx 卡 盡管 3D 速度不盡如人意,但依靠 S3 的品牌聲望亦收到一些 S3D 增強游戲 資料來源:維基百科、科技新報、搜狐新聞、開源證券研究所 隨著隨著 90 年代計算機的普及和年代計算機的普及和 Windows 的崛起,圖形芯片主流市場逐步從主機的崛起,圖形芯片主流市場逐步從主機轉向轉向 PC,也使得英偉達在微軟的助力下快速起勢。,也使得英偉達在微軟的助力下快速起勢。1999 年 1 月,英偉達全年營收突破 1.5 億美元,并在納斯達克掛牌上市。同年 5 月,其圖形處理器銷量超過 1000萬。8 月,英偉達推出
29、第一款以 GeForce 命名的顯示核心GeForce 256,并首次提出 GPU 概念,而后戴爾、Gateway、康柏、NEC、IBM 等紛紛宣布預裝英偉達的GPU,與此同時,傳統 3D 加速卡市場也進入了快速洗牌階段,2000 年底英偉達以7000 萬美元現金、100 萬股公司股票,將 3Dfx 收入囊中,正式成為行業老大,彼時市場仍具備競爭力的廠商主要為 ATI。在這一過程中,英偉達綁定微軟持續推進業務,DirectX 7.0 推出 T&L 技術(極大解放了 CPU 的算力,也是顯卡從 3D 處理器轉稱為GPU 圖形處理器的核心原因)、DirectX 8.0 實現了稱為顯卡革命的動態觀影
30、效果,而GeForce 亦成為這些 DX(DX 即 DirectX 縮寫,下同)系列的代表性顯卡。圖圖6:1996 年年起,起,3D 芯片廠商在經歷過蠻荒增長后進入行業洗牌期芯片廠商在經歷過蠻荒增長后進入行業洗牌期 數據來源:科技新報 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 10/48 成也微軟,敗也微軟,成也微軟,敗也微軟,Xbox 首發失利引發英偉達與微軟矛盾首發失利引發英偉達與微軟矛盾。英偉達 GPU 的暢銷加速了 DirectX 的普及,微軟與英偉達相輔相成,由此微軟不僅讓英偉達參與到DirectX 標準的制定中,亦在 2000 年將初代 Xb
31、ox 訂單交于英偉達,這成為當時英偉達創辦以來最大的訂單。但由于研發時間短,期間出現電源供應 Bug、數據庫功能不足等一系列問題,最終 Xbox 錯過先機敗給了 PS2。為了與 PS2 競爭,微軟計劃降低 Xbox 二代產品主機售價,并同時要求英偉達降低芯片價格,但受到黃仁勛拒絕,疊加各種品控問題,最終雙方矛盾激化。微軟扶持微軟扶持 ATI,最終帶來,最終帶來 N 卡與卡與 A 卡長期拉鋸戰??ㄩL期拉鋸戰。GPU 行業更新迭代迅速,上一世代的贏家并不必定能鎖定下一時代的勝局,而在 DX9 之前,英偉達產品持續領先 ATI,核心在于跟緊 DX 標準更新,通過搶先發布支持新顯示標準的產品來搶占市場
32、。然而,由于英偉達與微軟的嫌隙,微軟轉而重視 ATI 的扶植,使得英偉達錯過了微軟 DX9 規格確立的重要消息,直接導致當年推出的 GeForce FX 由于兼容性問題敗給ATI的Radeon 9700,此后Intel也開始扶持ATI,進一步強化了ATI的生命力,盡管之后英偉達與微軟達成和解,亦拿下索尼 PS3 的訂單,但英偉達龍頭地位已經開始動搖,至 2004 年三季度,在獨立顯卡市場,ATI 市場占有率達到 59%,英偉達只有 37%。2.2、2005-2016 年年(CUDA 通用計算時代)通用計算時代):打造打造 CUDA 通用計算體系,通用計算體系,埋下時代伏筆埋下時代伏筆 2006
33、 年英偉達推出年英偉達推出 CUDA 通用計算平臺,為通用計算平臺,為 AI 時代埋下伏筆。時代埋下伏筆。2004-2007 年,英偉達業務發展相對平穩,在這其間,AMD 于 2006 年收購 ATI,但整合過程困難,并讓 AMD 背上承重的負債,致使 ATI 在與英偉達的競爭中落伍。當此之時,英偉達開始思考更為長遠的問題,彼時英特爾的 CPU 可以通過多線程技術被所有計算機應用分享,但 GPU 還只能通過 OpenGL/DirectX 等接口與用戶交互,如果能夠在 GPU中提供合適的編程模型,依托 GPU 的并行計算能力,每臺 PC 都可以變成一座超大規模高性能計算機?;诖?,2006 年,
34、英偉達發布 CUDA 平臺,并運用于 2007 年發售的 Tesla 系列,標志著 GPU 不再是圖形處理器,而成為通用計算平臺。盡管在較長的時間里,CUDA 帶來的高投入低回報并未得到市場的充分認可,前谷歌 CEO Eric Schmidt 稱“CUDA 不過是 NVIDIA 為推廣其 GPU 產品而推出的一項多余的技術”。但隨著 AI 時代到來,CUDA 即成為維護英偉達深厚護城河的重要力量。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 11/48 圖圖7:2002-2004 年年 ATI 市場份額逐步攀升,短暫超越英偉達后持續向下市場份額逐步攀升,短暫
35、超越英偉達后持續向下 資料來源:PConline 相比相比 CPU,GPU 擁有擁有更多的數據處理單元更多的數據處理單元、更高的算力與內存帶寬,、更高的算力與內存帶寬,使得其更使得其更適合大規模并行運算。適合大規模并行運算。從運行效果上看,GPU 體現出遠高于 CPU 的運算能力及內存帶寬,從運行邏輯上看,CPU 適合復雜、靈活的邏輯運算,GPU 適合簡單、大規模的并行運算,在底層硬件上,CPU 的控制單元、緩存單元占有較大比重,而 GPU則以并行的數據處理單元為主。圖圖8:英偉達英偉達 GPU 浮點運算數遠高于浮點運算數遠高于 Intel 的的 CPU 圖圖9:英偉達英偉達 GPU 的內存帶
36、寬遠高于的內存帶寬遠高于 Intel 的的 CPU 資料來源:CSDN 資料來源:CSDN 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 12/48 圖圖10:CPU 與與 GPU 架構對比架構對比,GPU 擁有更多的數據處理單元擁有更多的數據處理單元 資料來源:NVIDIA CUDA Programming Guide(2007)英偉達通過英偉達通過 GPU 實現加速計算的核心在于實現加速計算的核心在于 2 個技術:個技術:SIMT(Single-Instruction,Multiple-Thread)和)和 Hardware Multithreading
37、。SIMT:即單指令,多線程。所有線程共享同一指令流,這種設計使得 GPU 能夠在大量數據上同時進行相同或幾乎一致的計算;Hardware Multithreading:將進程的運行上下文一直保存在硬件上,因而不存在運行上下文切換帶來開銷的問題(傳統 CPU 的多進程是將進程運行上下文保存在內存中,進程切換時涉及到內存的讀取,因而開銷較大)。CUDA 體系體系由由 3 部分構成:部分構成:1、指令集架構:指令集架構:CUDA 定義了一種針對 GPU 特性的指令集,允許程序員直接編寫針對 GPU 硬件的代碼。這些指令專為大規模并行處理而設計,能夠高效地驅動 GPU 上的數千個并行處理單元(如 C
38、UDA 核心或流處理器)同時工作。2、硬件:硬件:即英偉達 GPU 內部的 CUDA Core,這種高度并行的硬件設計使得GPU 在處理大量數據時能顯著提高計算效率,尤其適合于處理諸如矩陣運算、圖像處理、物理仿真、機器學習等需要大規模并行計算的任務。3、軟件:軟件:包括如編程語言與 API、內存模型與管理、并行編程模型、廣泛的開發工具鏈等。CUDA 硬件和數據架構的對應關系:硬件和數據架構的對應關系:(1)從硬件的構成關系上,CUDA Core 是英偉達 GPU 最小的計算單元,多個 CUDA Core 疊加 warp scheduler,register,shared memory 等構成一
39、個 SM(streaming multiprocessor),多個 SM 再構成整個 GPU;(2)從數據架構上看,一個 CUDA Core 一次可以執行一個 Thread(線程),數個 Threads組成一個 Block,同一個 Block 中的 Threads 可以同步,也可以通過 shared memory通信,最后,多個 Blocks 則會再構成 Grid。此外,英偉達通常將 32 個 Thread 組合美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 13/48 成一個 Warp,作為調度和運行的基本數據單元。圖圖11:英偉達英偉達 CUDA 硬件及數
40、據處理架構硬件及數據處理架構有著對應關系有著對應關系 資料來源:CSDN CUDA 的誕生標志著的誕生標志著 GPU 正式從傳統的圖像處理進階到通用計算領域,并在正式從傳統的圖像處理進階到通用計算領域,并在如物理仿真、機器學習等需要大規模并行計算的任務中表現出色。如物理仿真、機器學習等需要大規模并行計算的任務中表現出色。CUDA 與英偉達GPU 強綁定,推出至今已更新至 12.0 版本,在英偉達常年的運營下,擁有極為豐富且成熟的軟件生態,使得用戶在選擇 GPU 時傾向于繼續使用英偉達的產品,形成較高的用戶粘性和遷移成本,成為英偉達的重要護城河。表表2:CUDA 按照按照 1-2 年的頻率持續更
41、新年的頻率持續更新 時間時間 CUDA 版本版本 更新情況更新情況 2006 年 推出 CUDA 這是一個革命性的步驟,因為使得 GPU 不僅僅用于圖形處理,還可以用于更廣泛的計算任務 2007 年 CUDA 1.0 支持 C 語言編程,為開發者提供了一個新的計算平臺 2008 年 CUDA 2.0 引入了對 C+的部分支持,并增加了更多的庫和工具 2010 年 CUDA 3.0 引入了 Fermi 架構的 GPU,提供了更好的雙精度性能和更多的內存帶寬 2011 年 CUDA 4.0 引入了 Kepler 架構的 GPU,提供了更高的能效和更好的并行處理能力 2012 年 CUDA 5.0
42、引入了 Maxwell 架構的 GPU,進一步提升了能效和性能 2014 年 CUDA 6.0 采用的統一內存方案,支持 Tegra K1 芯片 2015 年 CUDA 7.0 引入新的獨立默認流選項,避免舊默認流的序列化,實現異構計算流處理的簡化并發 2016 年 CUDA 8.0 引入了 Pascal 架構的 GPU,支持更多的并行計算優化 2017 年 CUDA 9.0 引入了 Volta 架構的 GPU,提供了更好的深度學習性能 2018 年 CUDA 10.0 引入了 Turing 架構的 GPU,提供了更好的圖形和計算性能 2020 年 CUDA 11.0 引入了 Ampere 架
43、構的 GPU,提供了更好的 AI 和 HPC(高性能計算)性能 2022 年 CUDA 12.0 引入 Hopper 和 Ada Lovelace 架構的 GPU,正式支持 JIT LTO、改善和引入新的 API 等等 資料來源:英偉達官網、CSDN、IT 之家、至頂網、開源證券研究所 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 14/48 擁有超擁有超 400 個個 CUDA 函式庫,構筑牢固生態壁壘。函式庫,構筑牢固生態壁壘。自 CUDA 誕生以來,英偉達持續在優化及簡化 CUDA 的運用市場,并推出超過 400 個函式庫,包括專注于處理神經網絡的深度
44、學習庫 cuDNN、可用于流體動力學等物理定律的 Modulus、專注 5G無線網絡的 Aerial RAN、計算光刻平臺 cuLITHO(運用于臺積電)等等。CUDA 函式庫為細分領域與英偉達架構提供了有效結合,以 cuDNN 為例,因為 CUDA 與TensorFlow、Pytorch 中的深度學習算法差異較大,CUDA 本身不能被深度學習科學家直接使用,而 cuDNN 為開發者提供了與 GPU 便捷交互的橋梁。如此數百個高性能計算場景的疊加,共同維護了英偉達廣泛且豐富的生態護城河,成為英偉達 GPU在加速計算領域處于壟斷地位的核心原因。圖圖12:英偉達英偉達 CUDA 函式庫開拓新市場函
45、式庫開拓新市場 資料來源:公司官網 然而然而 CUDA 在推出早期詬病頗多,核心歸結于在推出早期詬病頗多,核心歸結于 2 點:點:(1)對于 CUDA 的研發每年需花費約 5 億美元的研發費用,而彼時 GPU 的高性能通用計算或主要用于科學計算中,市場空間有限;(2)CUDA 對散熱的更高需求導致了芯片瑕疵,市場推測這或許導致了 2008 年諸多 PC 品牌的屏幕異常問題(顯卡門事件)。因此早期資本市場對 CUDA 認可度低,2009-2010 財年在次貸危機下,高研發投入也導致英偉達出現虧損。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 15/48 圖圖1
46、3:FY2009 次貸危機期間英偉達收入出現負增長次貸危機期間英偉達收入出現負增長 圖圖14:次 貸 危 機 疊 加次 貸 危 機 疊 加 CUDA 高 投 入 造 成 英 偉 達高 投 入 造 成 英 偉 達FY2009-2010 的虧損的虧損 資料來源:Bloomberg、開源證券研究所 資料來源:Bloomberg、開源證券研究所 AI 驅動初見端倪,驅動初見端倪,CUDA 前期重投入成效前期重投入成效初顯初顯。轉折出現在 2012 年,后來被稱為“深度學習之父”的Jeffery Hinton教授使用英偉達的GPU卡參加全球最為權威的計算機視覺大賽 ImageNet 大賽,其設計的深度卷
47、積神經網絡 AlexNet 一舉奪冠,成為 AI 歷史上的重大突破,也成為英偉達在加速計算上的重要發展方向。2016 年,英偉達發布 Pascal 架構,推出 DGX-1,采用 NVLink 互連架構,首次將 8 個 Tesla P100 GPU 連在一起,并將第一臺 DGX 交付給剛成立的 OpenAI。2016 年也成為公司加速計算的財務拐點,FY2017 公司數據中心收入同比增長 145%至 8.3 億美元,CUDA前期的重投入初見成效。2.3、2017 年年-至今(全面至今(全面 AI 時代):生成式時代):生成式 AI 崛起,英偉達成為萬億“崛起,英偉達成為萬億“賣賣水人”水人”20
48、17 年,對年,對 AI 行業與英偉達均是具有里程碑式意義的一年。行業與英偉達均是具有里程碑式意義的一年。這年 6 月,谷歌大腦團隊發表論文 Attention Is All You Need,提出自注意力模型 Transformer 架構,成為當下生成式 AI 的基石。而早在 1 個月前的 2017 GTC 大會上,英偉達 CEO 黃仁勛開展了圍繞 AI 與深度學習的主體演講,并發布了 Volta V100 與 Tensor Core,標志著英偉達將重點投入 AI 領域,其高性能 GPU 迅速在數據中心取得壟斷性地位。與此同時,得益于云計算行業進入成長期、疫情加速線上辦公滲透等因素,英偉達數
49、據中心業務保持快速增長。-20%-10%0%10%20%30%40%50%01,0002,0003,0004,0005,000收入(百萬美元,左軸)yoy(右軸)-200%-100%0%100%200%300%400%-20002004006008001,000經營性利潤(百萬美元,左軸)yoy(右軸)美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 16/48 圖圖15:FY2017 年之后,英偉達數據中心收入進入加速成長態勢年之后,英偉達數據中心收入進入加速成長態勢 資料來源:Bloomberg、開源證券研究所 2022 年末年末 OpenAI 發布發布 C
50、hatGPT,正式開啟生成式,正式開啟生成式 AI 浪潮浪潮。ChatGPT 并非最早開始采用 Transformer 的大語言模型,如谷歌早在 2018 年便發布了 BERT,但參數量僅有 1.09 億個,ChatGPT 的成功得益于千億級的參數規模,以及其背后使用的few-shots(小樣本)和用戶反饋技術,證明了大模型中存在的涌現效應和 scaling law,前者意味著當模型的規模和訓練參數達到一定的閾值時,模型的性能和泛化能力會突然出現顯著提升;后者即指參數規模越大,模型性能越優秀。此后科技龍頭圍繞大語言模型 LLM 逐步延伸產品體系,包括文生圖、文生視頻、多模態等方案陸續推出,英偉
51、達作為核心 GPU 廠商充分受益。在當前市場階段,訓練仍為 GPU 主要運用場景,但隨著商業化進程推進,推理占用的工作負載有望從 40%提升至 70%。圖圖16:大語言模型大語言模型衍生的產品及技術方向愈發豐富衍生的產品及技術方向愈發豐富 資料來源:騰訊云 -50%0%50%100%150%200%250%05,00010,00015,00020,00025,00030,00035,00040,00045,00050,000FY2014 FY2015 FY2016 FY2017 FY2018 FY2019 FY2020 FY2021 FY2022 FY2023 FY2024數據中心(百萬美元,
52、左軸)游戲(百萬美元,左軸)yoy(數據中心,右軸)yoy(游戲,右軸)美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 17/48 圖圖17:提高算力可明顯減少大模型訓練時長提高算力可明顯減少大模型訓練時長 圖圖18:AI 服務器推理工作負載服務器推理工作負載占比有望逐步提升占比有望逐步提升 資料來源:2024 中國智能算力行業白皮書、開源證券研究所 資料來源:2024 中國智能算力行業白皮書、開源證券研究所 3、數據中心:立足數據中心:立足 GPU 領先優勢,打造“三芯”戰略領先優勢,打造“三芯”戰略 英偉達提供完善的加速計算解決方案,數據中心成為增長最大驅
53、動力。英偉達提供完善的加速計算解決方案,數據中心成為增長最大驅動力。自 CUDA誕生以來,從質疑到理解,英偉達數據中心業務已超越游戲業務,成為本輪行情的核心驅動。硬件方面,英偉達實行“GPU+CPU+DPU”三位一體的產品戰略,提供基于 CUDA 的 GPU 設備,并可通過組件形式(HGX、DGX、NVL72 等)提供加速計算解決方案;軟件方面,英偉達還提供包括豐富的加速軟件庫、NVIDIA AI Enterprise、DGX 云服務、API、SDK、特定領域應用程序等軟件,使得公司數據中心業務成為全棧技術平臺??蛻舭ㄔ茝S商(CSP)、消費互聯網企業、智算中心、超算中心等部門,2019 年英
54、偉達以 69 億美元收購 Infiniband 互聯技術龍頭企業Mellanox,完善了英偉達在高速互聯領域的布局,結合 Mellanox 的優勢,NVIDIA 能夠優化整體計算、網絡和存儲堆棧的數據中心級工作負載,從而助力客戶實現更高的性能和利用率,并降低運營成本。0%20%40%60%80%100%202220232024E2025E2026E2027E訓練推理圖圖19:CY3Q23 數據中心業務開始加速啟動(營收單位:百萬美元)數據中心業務開始加速啟動(營收單位:百萬美元)資料來源:Bloomberg、開源證券研究所,注英偉達收購 Mellanox 并于 CY1Q20 實現并表,圖中 C
55、Y1Q20 之前 Mellanox 的收入數據并不歸于英偉達,僅作為 Mellanox 過往收入增長的呈現。-100%0%100%200%300%400%500%600%05,00010,00015,00020,00025,00030,000ComputeNetworking(Mellanox)yoy(Compute)yoy(Networking)美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 18/48 英偉達形成“英偉達形成“CPU+GPU+DPU”三芯架構?!比炯軜?。2020 年,在完成對 Mellanox 的收購后,英偉達推出 BlueField-2
56、 DPU,將其定義為繼 CPU、GPU 之后“第三顆主力芯片”。隨后在 2021 年的 GTC 大會上,英偉達發布基于 ARM 架構的 CPUNVIDIA Grace,黃仁勛正式將英偉達產品路線升級為“GPU+CPU+DPU”的“三芯”戰略。3.1、GPU:架構持續迭代,架構持續迭代,AI 算力的硬通貨算力的硬通貨 英偉達英偉達 GPU 架構持續迭代,朝著愈發適宜架構持續迭代,朝著愈發適宜 AI 計算的方向逐步演進。計算的方向逐步演進。從 Tesla到Blackwell,公司持續迭代GPU架構,從工業體系上逐層從40nm演進至4nm,CUDA核心數也從最初的 128 個增加至上萬個,并添加了
57、Tensor 張量計算核心、NVLink、RTCore、結構稀疏性矩陣 MIG 等功能,數據計算類型逐步豐富,包含了 FP、INT、TF、BF 等數據類型,計算架構逐步朝更適合 AI 運算的方向演進。而在最新的Blackwell 架構中,GPU 有望達到 20000 TFLOPS FP4 算力,較以往代際的架構有本圖圖20:英偉達“英偉達“CPU+GPU+DPU”三芯戰略演變圖”三芯戰略演變圖 資料來源:公司官網 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 19/48 質的提升,每 token 的耗能也在持續下降,部分性能是通過降低浮點精度來實現的(從Pa
58、scal 的 FP16 降至 Blackwell 的 FP4),但在數據格式、軟件處理和硬件的配合演進下,對 LLM 性能帶來的影響并不大。表表3:英偉達英偉達最新最新 GPU 架構架構 Blackwell 可實現可實現 20000 TFLOPS FP4 算力算力 架構架構 推出推出時間時間 制程制程 晶體管晶體管 核心參數核心參數 CUDA核心數核心數(FP32)Tensor核心核心數數 NVLink版版本本 特點特點 備注備注 Tesla 2006-14 億-128-首個通用 GPU 計算架構,標志 GPU 從專用圖形處理器轉變為通用數據并行處理器-Fermi 2009 40 nm 30
59、億 16 個 SM*32 CUDA Core 512-首個完整 GPU 計算架構,支持與共享存儲結合的 Cache 層次 GPU 架構,支持 ECC GPU 架構 CUDA Core 的數量并不固定,還與具體型號相關 Kepler 2012 28nm 71 億 15 個 SMX*(192個單精度+64 個雙精度 CUDA Core)2880-游戲性能大幅提升,首次支持 GPU Direct 技術,首個支持超級計算機和雙精度計算的 GPU架構 將 SM 改改為了 SMX Maxwell 2014 28nm 80 億 16個 SMM*4個處理塊*(32 個CUDA Core+8 LD/ST Uni
60、t+8 SFU)3072-在功耗效率、計算密度上有重大提升,計算密度是 Kepler 的兩倍,標志著 GPU 節能計算時代到來 將 SM 改為了 SMM Pascal 2016 16nm 135 億 GP100 有 60 個SM*(64 個 CUDA Core+32 個 DP Core)3840-NVLink1.0 是第一個考慮DeepLearning 的架構,引入了第一代 NVLink,雙向帶寬 160GB/s,P100擁有 56 個 SM HBM 減少了 FP32 但增加了FP64 的 CUDA Core Volta 2017 12nm 211 億 80 個 SM*(32FP64+64In
61、t32+64FP32+8Tensor Core)5120 640 NVLink2.0 推出第一代 Tensor Core,支持 AI 運算 將原本的 CUDA Core 拆分為了 FP32 CUDA Core和 INT32 CUDA Core,這意味著可以同時執行FP32 和 INT32 的操作 Turing 2018 12nm 146 億 92 個 SM*(64Int32+64Int32+64FP32+8Tensor Core)4608 576 NVLink2.0 新增了 RTCore,Tensor Core2.0 去除了對 FP64 的計算支持,但是增加了對INT8/INT4/Binary
62、 的支持 Ampere 2020 8nm 540 億 108 個 SM*(64FP32+64INT32+32FP64+4Tensor Core)6912 432 NVLink3.0 Tensor Core3.0、RT Core2.0、結構稀疏性矩陣 MIG1.0 升級了 Tensor Core,除了在 Volta 的 FP16 以及在Turing 中的INT8/INT4/Binary,還新美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 20/48 架構架構 推出推出時間時間 制程制程 晶體管晶體管 核心參數核心參數 CUDA核心數核心數(FP32)Tensor
63、核心核心數數 NVLink版版本本 特點特點 備注備注 加入了 TF32,BF16,并重新支持了 FP64 Hopper 2022 4nm 800 億 132 個 SM*(128FP32+64INT32+64FP64+4Tensor Core)16896 576 NVLink4.0 Tensor Core4.0、結構稀疏性矩陣 MIG1.0-Blackewell 2024 4nm 2080億-NVLink5.0 多芯片模塊(MCM)設計、第二代 Transformer Engine 引入了 FP4 和 FP6 的精度,新的精度計算的引入將進一步減少模型的計算和存儲 資料來源:CSDN、稀土掘金
64、、騰訊云、開源證券研究所 多形態多形態 GPU 組合銷售,英偉達更好滿足不同客戶需求,更好將“三芯”戰略與組合銷售,英偉達更好滿足不同客戶需求,更好將“三芯”戰略與網絡技術相結合。網絡技術相結合。英偉達亦通過模組將 GPU、CPU、網絡連接技術等組合到一起,形成 AI 計算平臺進行銷售,代表產品有 HGX 系列、DGX 系列等,不同規格的產品適用于不同客戶、不同場景。例如,HGX 僅提供 8 個 GPU 集成的模組,方便 OEM廠商集成,注重靈活性與定制型,可以根據客戶的特定需求來調整和優化系統配置;而 DGX 包含了完整的 GPU、CPU、存儲和網絡,尤其包含了與英偉達 GPU 適配的NVL
65、ink、以太網/InfiniBand 網絡技術,是標準化產品,強調簡易性和便捷性,可以快速部署和運行,適合需要即用型解決方案的大型企業。圖圖21:英偉達英偉達 GPU 架構算力持續提升,耗能逐步下降架構算力持續提升,耗能逐步下降 資料來源:CSDN 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 21/48 表表4:英偉達英偉達可提供多種可提供多種 GPU 組合形態組合形態 類型類型 推出時間推出時間 運用方向運用方向 概述概述 適用場景適用場景 HGX 2017 年 深度學習 代表英偉達 AI 硬件解決方案中的靈活性和定制性,允許客戶自由選擇和調整 CPU、
66、RAM、存儲和網絡配置 多場景運用 MGX 2023 年(發布服務器規范)深度學習 可以針對不同用例打造量身定制的解決方案,支持不同的 GPU、CPU 和 DPU 配置,可作為 HGX 與 DGX 中間的過渡形態 多場景運用 DGX 2016 年 深度學習 英偉達官方整機,除了涵蓋 HGX GPU,還有服務器的其他部件,機箱、主板、CPU、內存、硬盤等,不支持定制 多場景運用 EGX 2019 年 邊緣計算 將經過加速的 AI 計算從數據中心擴展到邊緣,使企業能夠在邊緣設備上實時進行低延遲的 AI 計算 5G 基站、倉庫、零售店和工廠等 IGX 2022 年 工業級邊緣計算 英偉達的工業級、邊
67、緣 AI 平臺,專為工業和醫療環境設計,適用于任務關鍵型應用 工業、醫療等 OVX 2023 年 數字孿生 用于驅動基于 NVIDIA Omniverse Enterprise 所構建的大型數字孿生,第三代 OVX 基于 4 顆 Ada Lovelace 架構的 L40 GPU 數字工廠、機器人開發、科學模擬等 資料來源:公司官網、TechWeb、CSDN、開源證券研究所 3.2、CPU:依托依托 Arm 實現較強內存一致性,實現較強內存一致性,NVLink-C2C 保證芯片高保證芯片高寬帶互聯寬帶互聯 在云計算領域,在云計算領域,Arm 市場份額逐步提升。市場份額逐步提升。實際上,在以云計算
68、為代表的數據基礎設施領域,Arm 的份額正逐步提升,根據 Arm 公司財報,FYE22-FYE24 年(公歷年 2021 年 12 月-2024 年 11 月),在云計算領域,Arm 市場份額從 9%提升之 15%,網絡設備領域市場份額從 23%提升至 28%,盡管其中或許包含了中國市場為應對 x86架構供給限制而增加對 Arm 的運用,但英偉達、微軟、AWS 等企業相繼開發基于Arm 的 CPU,也表明相比 x86 架構,Arm 在數據中心領域亦有其發展優勢。圖圖22:Arm 在數據基礎設施領域市場份額持續提升在數據基礎設施領域市場份額持續提升 資料來源:Arm 公司官網 美股公司首次覆蓋報
69、告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 22/48 Arm 架構下,架構下,CPU 可以實現較強的內存一致性可以實現較強的內存一致性與定制化與定制化,更能適應,更能適應 AI 數據計數據計算。算。傳統的 x86 服務器系統架構,內存通過 PCIe 連接一個通用現成的 CPU,但 CPU以及加速器之間的接口限制了產品最終的性能水平。因為所有的加速器都必須通過該 CPU 訪問額外內存,無法達到內存的一致性。而在 Arm 架構下,每一個 CPU 都單獨和一個加速器相連,實現較強的內存一致性,能夠更好支持 AI 計算。此外,由于 x86 提供的是標準化芯片,而 Arm 可以根據
70、需求提供定制化 CPU,是 Arm 攫取市場份額的另一重要原因,英偉達能夠開發出 Grace CPU 的前提也在于 Arm 的可定制性。圖圖23:傳統傳統 x86 服務器系統架構服務器系統架構,加速器需共用一個,加速器需共用一個CPU 訪問內存訪問內存 圖圖24:Arm 服務器系統架構服務器系統架構,每一個每一個 CPU 都單獨和一都單獨和一個加速器相連個加速器相連 資料來源:中微創芯官網 資料來源:中微創芯官網 采用采用 NVLink-C2C 技術,發布技術,發布基于基于 Arm 架構的架構的 Grace 系列系列 CPU。傳統的 CPU框架難以滿足 AI 高性能計算對計算能力和效率的要求,
71、基于此,2021 年英偉達發布數據中心CPUGrace,并于2022年3月在GTC大會上正式宣布推出Grace Hopper和 Grace CPU 超級芯片,采用 Arm Neoverse V2 核心,具體來講:Grace Hopper:以 CPU+GPU 的設計專為應對巨型 AI 和 HPC 挑戰,能使用 NVLink-C2C 技術,并且有達到了 900 GB/s 速率的全新一致性接口。Grace CPU超級芯片超級芯片:由兩個CPU芯片組成,通過NVLink-C2C互連技術連接,CPU 內核達到 144 個核心,能對 LPDDR5X ECC 內存進行支持,帶寬達到 1TB/s。美股公司首次
72、覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 23/48 圖圖25:英偉達英偉達 Grace Hopper 產品形態產品形態 圖圖26:英偉達英偉達 Grace CPU 超級芯片產品形態超級芯片產品形態 資料來源:公司官網 資料來源:公司官網 Grace Hopper 超級芯片超級芯片的核心在于的核心在于 NVLink-C2C 技術技術及內存一致性及內存一致性:NVLink-C2C 是一種內存連貫、高帶寬和低延遲超級芯片互連,是 Grace Hopper 超級芯片的核心,提供高達 900 GB/s 的總帶寬,比通常用于加速系統的 x16 PCIe Gen5 通道帶寬高
73、7 倍。在 Arm 架構下,Grace 可以實現 CPU 核心和緩存的分布式架構,保障了內存一致性及高速的總對分寬帶,使得 CPU 和 GPU 線程可以同時透明地訪問 CPU 和 GPU 駐留內存,讓開發者專注于算法而非顯示內存管理。圖圖27:英偉達英偉達 Grace Hopper 超級芯片邏輯概述超級芯片邏輯概述 資料來源:公司官網 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 24/48 圖圖28:英偉達英偉達 Grace CPU 分布式分布式 CPU Core 和緩存和緩存 資料來源:公司官網 此外,在服務器 CPU 架構上,通常采用 NUMA(非一致
74、性內存訪問)來減少內存訪問延遲的問題,與傳統的多個 NUMA 節點的架構不同,英偉達 Grace CPU 簡化為僅有 2 個節點,進一步緩解 NUMA 應用程序開發人員的瓶頸。圖圖29:傳統服務器傳統服務器 CPU 采用多節點的采用多節點的 NUMA 架構架構 圖圖30:英偉達英偉達 Grace 簡化為僅有簡化為僅有 2 個個 NUMA 節點節點 資料來源:公司官網 資料來源:公司官網 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 25/48 3.3、DPU:收購:收購 Mellanox,實現數據摩爾定律,實現數據摩爾定律 摩爾定律放緩與帶寬加速成長的矛盾,
75、催生對高效網絡的需求。摩爾定律放緩與帶寬加速成長的矛盾,催生對高效網絡的需求。制程上的摩爾定律逐步失效,但“數據摩爾定律”卻持續存在。2010 年前,網絡的帶寬年化增長大約是 30%,2015 年增長到 35%,然后在近年達到 45%。相對應的,CPU 的性能增長從 10 年多前的 23%逐步下降到近幾年的 3.5%。RBP 指標在 2010-2015 年達到 3 左右,并預計在未來幾年達到 30。CPU 算力與網絡帶寬增速剪刀差持續放大,根據 Fungible 和 AWS 的統計,在大型數據中心,網絡流量的處理占到了計算的 30%左右,也催生了市場對于更優網絡解決方案的訴求。圖圖31:網絡寬
76、帶增速遠高于網絡寬帶增速遠高于 CPU 算力增速算力增速 資料來源:騰訊云 DPU(數據處理單元)(數據處理單元)是專門用于處理數據中心網絡傳輸、數據安全和基礎設是專門用于處理數據中心網絡傳輸、數據安全和基礎設施任務的芯片施任務的芯片,旨在,旨在減輕減輕 CPU 在數據傳輸、加密和存儲等任務中的負擔在數據傳輸、加密和存儲等任務中的負擔。DPU 由NIC(網卡)逐步演進而來,基礎的 NIC 是一個 PCIe 設備,它僅實現了與以太網的連接,即實現了網絡層次中的 L1-L2 層,此后的智能網卡(SmartNIC)普遍實現了部分 L3-L4 層邏輯的卸載,可處理包括校驗和計算、傳輸層分片重組、云化網
77、絡轉發功能等工作。而到了 DPU 時代,可進一步實現安全相關功能全卸載、虛擬化、I/O 優化等問題。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 26/48 圖圖32:SmartNIC 逐步演化至逐步演化至 DPU 資料來源:騰訊云 英偉達收購英偉達收購 Mellanox,開啟,開啟 DPU 布局。布局。2019 年英偉達收購 Mellanox,加速了DPU 技術的落地,并在 2020 年發布了 BlueField 系列的 DPU 產品,落地 GPU-direct RDMA 技術,實現了 GPU 對其他主機 GPU 內存的直接訪問。此后,英偉達圍繞 DPU持
78、續完善 BlueField 產品布局,目前英偉達已發布 BlueField-3 DPU 及 SuperNIC,并利用 DOCA 軟件開發套件為 BlueField DPU 快速創建應用程序和服務。圖圖33:GPU Direct RDMA 可以實現可以實現高效的遠程直接內存訪問高效的遠程直接內存訪問 資料來源:CSDN 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 27/48 除了除了 GPU-Direct DRMA,Mellanox 為英偉達提供了更為關鍵的兩個技術:為英偉達提供了更為關鍵的兩個技術:ASAP2 和和 NVMe SNAP 技術技術。ASAP2
79、:即加速交換及數據包處理技術,針對服務器虛擬化場景 OVS 存在的 IO性能不佳、高 CPU 開銷的問題,ASAP2 可將虛擬交換數據路徑完全的卸載到 NIC中的嵌入式交換機(eSwitch)中,幾乎所有進出服務器的流量都可以由 eSwitch 快速處理,大大釋放 CPU 性能;NVMe SNAP:針對 NVMe 存儲虛擬化的加速處理技術。NVMe SNAP 使得遠程存儲看起來像本地 NVMe SSD,消除了本地存儲的低效性,同時滿足了對云計算和存儲解耦以及可組合性的日益增長的需求。圖圖34:英偉達英偉達 NVMe SNAP 使得遠程存儲看起來像本地使得遠程存儲看起來像本地 NVMe SSD
80、資料來源:極術社區 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 28/48 3.4、NVLink 技術:實現技術:實現 GPU 數據直連,數據直連,NVSwitch 提升提升 GPU 鏈路上限鏈路上限 NVLink 是是英偉達英偉達 GPU 與與 GPU、GPU 與與 CPU 的高速互連技術。的高速互連技術。傳統的 GPU通常采用 PCIe 接口與 x86 架構的 CPU 互聯,由于記憶系統的差異(GPU 有更快但更小的內存,而 CPU 有較大但較慢的內存),限制了彼此的數據傳輸能力。2014 年,英偉達聯合 IBM 推出 NVLink 高速互聯技術,使得
81、 GPU 與 CPU 可以以 5-12 倍的速度分享數據,此外,NVLink 協議在設計時考慮了數據一致性問題,使得不同 GPU 之間的數據訪問可以保證一致性。此后英偉達 NVLink 持續迭代,至 NVLink4.0 版本,帶寬速度已達到 900GB/s,是 PCIe 5.0 的 5 倍。在 2024 年的 Hotpoint 大會上,英偉達介紹了用于 Blackwell 架構的 NVLink5.0,整體雙向帶寬將達到 1.8TB/s,是 PCIe帶寬的 14 倍,相較上一代,可以說 NVLink5.0 有著明顯的突破。表表5:NVLink 5.0 帶寬突破明顯帶寬突破明顯 NVLink 版本
82、版本 第一代第一代 第二代第二代 第三代第三代 第四代第四代 第五代第五代 雙向帶寬 160GB/s 300GB/s 600GB/s 900GB/s 1.8TB/s 每個 GPU 最大鏈路數 4 6 12 18 18 架構 Pascal Volta Ampere Hopper Blackwell 資料來源:英偉達官網、今日頭條、新浪財經、開源證券研究所 NVSwitch 進一步放大了進一步放大了 NVLink 的優勢,帶動的優勢,帶動 NVLink 帶寬數倍放大。帶寬數倍放大。在NVLink 協議的基礎上,英偉達在 2018 年的 GTC 大會上進一步推出 NVSwitch。在僅有 NVLin
83、k 技術的模式下,盡管 GPU 實現了數據的直連,但采用的是點對點的方式,假設在一個 8 卡 H200 的服務器中,該方式下每個 GPU 必須將帶寬(900GB/s)拆分為 7 個點對點的專用連接,則每個連接的帶寬為 900/7=128GB/s,而系統的總帶寬取決于正在通信的 GPU 數量。NVSwitch 的引入取消了點對點直連的方式,能夠將 GPU 帶寬持續維持在 900GB/s 的水平。也正是這一技術特征,NVLink 能夠持續提升鏈路數。表表6:以以 8 卡卡 H200 的服務器為例,在的服務器為例,在 NVSwitch 模式下帶寬不受模式下帶寬不受 GPU 數量影響數量影響 GPU
84、數量數量 點對點帶寬點對點帶寬 NVSwitch 帶寬帶寬 2 128GB/s 900GB/s 4 3x129GB/s 900GB/s 8 7x130GB/s 900GB/s 資料來源:英偉達官網、開源證券研究所 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 29/48 圖圖35:NVSwitch 擴大了英偉達擴大了英偉達 GPU 互聯的潛力互聯的潛力 資料來源:CSDN 在在 Blackwell 架構下,架構下,NVLink 域內直連域內直連 GPU 數量大幅提升,帶動聚合總帶寬數量大幅提升,帶動聚合總帶寬達到達到 1PB/s。表表7:NVSwitch 隨
85、著架構更新持續升級隨著架構更新持續升級 NVSwitch 版本版本 第一代第一代 第二代第二代 第三代第三代 第四代第四代 一個 NVLink 域內直連 GPU 的數量 最多 8 個 最多 8 個 最多 8 個 最多 576 個 NVSwitch GPU 之間帶寬 300GB/s 600GB/s 900GB/s 1800GB/s 聚合總帶寬 2.4 TB/s 4.8TB/s 7.2TB/s 1PB/s 架構 Volta Ampere Hopper Blackwell 資料來源:英偉達官網、開源證券研究所 3.5、網絡解決平臺:充分布局網絡解決平臺:充分布局 Infiniband 與以太網,期待
86、與以太網,期待 Spectrum 后后續突破續突破 10 萬卡集群時代到來,網絡集群能力愈發重要。萬卡集群時代到來,網絡集群能力愈發重要。隨著大模型的深化及對算力的持續追求,10 萬卡集群已成為新的追求目標,2024 年 7 月 23 日,馬斯克在社交媒體 X 上宣布,xAI 的孟菲斯超級集群擁有 10 萬臺液冷 H100 GPU,開啟了鯰魚效應,國內頭部云計算公司陸續發布 10 萬卡集群方案,隨后 11 月 Meta 亦稱 Llama 4 模型正在 10 萬片 H100 的集群上訓練??梢灶A見,10 萬卡集群將成為頭部大模型難以回避的發展方向,與之相關的網絡集群能力也愈發重要。美股公司首次覆
87、蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 30/48 表表8:各企業各企業陸續開展陸續開展 10 萬卡集群萬卡集群計算計算 時間時間 企業企業 集群信息集群信息 2024 年 7 月 23 日 xAI 馬斯克在社交媒體 X 上宣布,xAI 的孟菲斯超級集群,擁有 10 萬臺液冷 H100 GPU,在一個單一的 RDMA 架構上運行 2024 年 12 月 5 日 xAI 馬斯克計劃將xAI新建的Colossus AI 超級計算機系統規模擴增 10 倍、整合百萬以上的 GPU 2024 年 7 月 1 日 騰訊云 發布了支持十萬卡集群的星脈網絡 2.0 2024 年 9
88、 月 25 日 百度智能云 發布了為部署十萬卡大規模集群而設計的百舸 4.0 2024 年 9 月 19 日 阿里云 宣布其靈駿單網絡集群已拓展至 10 萬卡級別 2024 年 11 月 1 日 Meta Llama 4 模型正在一個由 10 萬片 H100 GPU 組成的集群上進行訓練,并預計在明年首次推出 資料來源:IT 之家、36 氪、格隆匯、觀察者網等、開源證券研究所 Infiniband 在高性能計算領域具備優勢,英偉達(在高性能計算領域具備優勢,英偉達(Mellanox)處于領導地位。)處于領導地位。Infiniband 與以太網是數據中心采用的主要網絡標準,得益于高傳輸速率和低延
89、遲的特性,Infiniband 在服務器間的高速通信、存儲設備與網絡設施之間的高效互聯中扮演著至關重要的角色。根據 2022 年 6 月公布的數據,超級計算機 TOP500/TOP100榜單中,有 38%/59%的系統采用了 InfiniBand 作為關鍵的互連技術手段,其中英偉達 Mellanox HDR Quantum QM87xx 交換機和 BlueField DPU,在超過三分之二的超級計算機中占據了主導互連的地位,因此在 Infiniband 交換機領域,英偉達已經有明顯優勢。表表9:在高性能計算領域,在高性能計算領域,Infiniband 較以太網更有優勢較以太網更有優勢 屬性對比
90、屬性對比 Infiniband 以太網以太網 推出組織推出組織 InfiniBand 貿易協會(IBTA)施樂公司、英特爾和 DEC 適用場景適用場景 用于數據中心內部服務器、通訊基礎設施設備、存儲解決方案以及嵌入式系統之間互連 用于連接各種局域網(LAN)或廣域網(WAN)網絡帶寬網絡帶寬 發展速度較快,尤其是對高性能計算場景的高度優化和降低CPU 處理負載的能力上 在高帶寬需求層面不如 InfiniBand 迫切 網絡延遲網絡延遲 憑借明確的第 1 層至第 4 層協議格式設計以及端到端流控制機制,確保了無損網絡通信 缺乏類似的基于調度的流控制機制,依賴于芯片更大的緩存區域臨時存儲消息,增加
91、了成本和功耗 網絡管理網絡管理 每個第二層網絡內部都配備了一個子網管理器,用于配置節點并智能計算轉發路徑信息,網絡架構更為簡潔 以太網需要依賴 MAC 地址條目、IP 協議以及 ARP協議等多個層次實現網絡互聯,從而增加了網絡管理的復雜性 資料來源:電子發燒友官網、開源證券研究所 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 31/48 表表10:Infiniband 各版本參數規格各版本參數規格 版本版本 發型時間發型時間 Line 編碼編碼 每通道傳輸每通道傳輸率率(Gbit/s)吞吐量吞吐量(Gbit/s)Adapter latency(s)1x 4x
92、 8x 12x SDR 2001,2003 NRZ 8b/10b 2.5 2 8 16 24 5 DDR 2005 5 4 16 32 48 2.5 QDR 2007 10 8 32 64 96 1.3 FDR10 2011 64b/66b 10.3125 10 40 80 120 0.7 FDR 2011 14.0625 13.64 54.54 109.08 163.64 0.7 EDR 2014 25.78125 25 100 200 300 0.5 HDR 2018 PAM4 53.125 50 200 400 600 0.6 NDR 2022 256b/257b 106.25 100
93、400 800 1200 XDR 2024 200 200 800 1600 2400 GDR 2025(預計)400 400 1600 3200 4800 資料來源:維基百科、CSDN、開源證券研究所 表表11:PCIe 各版本參數規格各版本參數規格 版本 發行時間 Line 編碼 每通道傳輸率(GT/s)吞吐量 x1 x4 x8 x16 PCIe 1.0 2003 NRZ 8b/10b 2.5 250 MB/s 1GB/s 2GB/s 4GB/s PCIe 2.0 2007 5.0 500 MB/s 2GB/s 4GB/s 8GB/s PCIe 3.0 2010 128b/130b 8.0
94、 984.6 MB/s 3.938GB/s 7.877GB/s 15.75 GB/s PCIe 4.0 2017 16.0 1969 MB/s 7.877GB/s 15.754GB/s 31.51 GB/s PCIe 5.0 2019 32.0 3938 MB/s 15.8GB/s 31.5GB/s 63.02 GB/s PCIe 6.0 2021 PAM-4 FEC 1b/1b 242B/256B FLIT 64.0 7.563 GB/s 30.25 GB/s 60.5 GB/s 121GB/s PCIe 7.0 2025(預計)128.0 15.125 GB/s 60.5GB/s 121
95、GB/s 242GB/s 資料來源:維基百科、開源證券研究所 為進一步實現超大型數據集的網絡效率,英偉達推出為進一步實現超大型數據集的網絡效率,英偉達推出 Quantum 及及 Spectrum 網網絡平臺。絡平臺。在英偉達長遠的愿景中,數據中心將取代單個芯片,成為計算系統的基本單元,因此除了 DPU、NVLink,整體網絡加速以及實現萬卡甚至十萬卡集群的能力亦是發展重點。2024 年 3 月,英偉達推出 Quantum-X800 InfiniBand 和 Spectrum-X800 以太網平臺,是全球首款能夠實現端到端 800Gb/s 吞吐量的網絡平臺,被 Microsoft Azure 和
96、 Oracle Cloud采用。從運用場景上看,Quantum得益于Infiniband的高吞吐、低延時,可用于對大模型訓練有極致需求的場景(AI 工廠),而 Spectrum 可用于追美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 32/48 求性價比、與以太網兼容的場景(AI 云)。此外,全球首個 10 萬卡集群的 xAI 亦采用了英偉達的 Spectrum-X 以太網平臺。表表12:英偉達英偉達充分布局充分布局 IB 及以太網領域及以太網領域 網絡平臺網絡平臺 Quantum-X800 平臺平臺 Spectrum-X800 平臺平臺 網絡屬性 Infin
97、iband 以太網 運用場景 AI 工廠 AI 云 交換機 NVIDIA Quantum Q3400 Spectrum SN5600 800Gb/s 智能網卡 NVIDIA ConnectX -8 SuperNIC NVIDIA BlueField -3 SuperNIC 特點 實現了業界領先的 800Gb/s 端到端吞吐量,借助 SHARPv4,寬帶容量提高了 5 倍,網絡內計算能力提高了 9 倍,達到 14.4Tflops 提供了對多租戶生成 AI 云和大型企業至關重要的高級功能集 資料來源:英偉達官網、開源證券研究所 隨著推理場景占比加重,隨著推理場景占比加重,Spectrum 以太網解
98、決方案或愈發重要。以太網解決方案或愈發重要。盡管 Infiniband在高寬帶、低延遲上具備優勢,但以太網與 PCIe 持續更新,與 Infiniband 并未拉開較大差距,因此從性價比以及英偉達一家獨大的規避上,以太網解決方案的生態愈發具備生命力。2023 年 7 月,AMD、微軟等 9 家硅谷大廠聯手成立了超以太網聯盟(UEC),對以太網進行了三項重要改進(數據包噴灑、訪問靈活排序、網絡擁塞管理),以強化與 Infiniband 的競爭;2024 年根據The Information報道,微軟和 OpenAI 正在共建一個大型數據中心“星際之門”(Stargate),在網絡基礎設施方面傾向
99、于使用開放以太網協議而非 InfiniBand。此外,隨著推理場景的計算逐步起量,出于對性價比、端側計算、兼容性等方面考慮,以太網網絡方案也逐漸成為大模型廠商的考慮方向,英偉達的 Spectrum 業務也將愈發重要。圖圖36:相比相比 Infiniband,RoCEv2 性價比更高性價比更高 資料來源:CSDN 主流企業以太網交換芯片企業主流企業以太網交換芯片企業主要企業以太網方案主要企業以太網方案各有側重,看好英偉達各有側重,看好英偉達Gen-AI網絡開發能力網絡開發能力。當前全球已發布51.2Tbps以太網交換芯片的共有Broadcom、Marvell、NVIDIA、Cisco 與華為五家
100、,其中華為與 Cisco 主要以自用為主。頭部企業所推出的交換機產品基本都能提供擁塞管理、數據包噴射、鏈路故障轉移等核心功能,不同企業著重點略有不同,如英偉達強調與 AI 推訓的適配、博通強調功耗、美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 33/48 Marvell 強調低延遲、Cisco 強調高 SerDes 配置基數。然而隨著技術更新,企業彼時的優勢也很快被對手趕超,如當前主要企業均實現 512x112 Gbit/s 的 SerDes 帶寬,Cisco Silicon ONE G200 的優勢相對弱化。而就英偉達而言,盡管當前公司 SerDes帶寬較
101、競品略低,但我們認為其優勢在于 GPU 端到端整體優化能力,基于 NCCL 無縫支持 RDMA 接口,可大大降低 AI 應用從 TCP 轉向 RDMA 框架的開發難度。目前英偉達 Spectrum-X 方案已經落地 xAI 的 10 萬卡計算機集群,2025 年公司或將進一步推出 Spectrum Ultra X800,英偉達有望在以太網網絡成功卡位,進一步放大自身優勢。表表13:51.2Tbps 主要企業的以太網交換機主要企業的以太網交換機方案各有側重方案各有側重 NVIDIA Broadcom Marvell Cisco 芯片推出時間芯片推出時間 2024 年 3 月 2022 年 8 月
102、 2023 年 3 月 2023 年 6 月 交換機交換機 Spectrum-X SN5600 Tomahawk 5 Bailly/Cisco 8501 交換機芯片交換機芯片 NVIDIA Spectrum ASIC Tomahawk 5 Teralynx 10 Silicon ONE G200 單端口速率單端口速率 400G 400G 400G 400G 端口數量端口數量 128 128 128 128 制程制程 4nm 5nm 5nm 5nm 功耗(每功耗(每100Gbps)/1W 1W/SerDes 帶寬帶寬 512x100 Gb/s 512x112 Gbit/s 512x112 Gbi
103、t/s 512x112 Gbit/s 亮點亮點 支持擁塞控制和 RDMA 技術,支持 AI Cloud,支持推訓一體 Tomahawk 5 Bailly 為業界首款每秒51.2 Tbps 的聯合封裝光學(CPO)以太網交換機,光學互連的功耗降低 70%,硅面積效率提高了 8 倍 延遲低至 500 納秒,所有數據包大小的延遲均低于600 納秒 與對手的關鍵區別在于支持 512x 基數配置,可提供更小、更緊密的交換結構,使用的交換機數量減少了 40%運用運用企業企業 xAI 字節跳動、Meta 亞馬遜(潛在客戶)Meta 資料來源:各公司官網、鳳凰網、CSDN 等、開源證券研究所 4、游戲游戲&專
104、業可視化:公司傳統優勢業務,推陳出新挖掘增量專業可視化:公司傳統優勢業務,推陳出新挖掘增量 游戲游戲與專業可視化與專業可視化是英偉達是英偉達 GPU 作為圖形處理器的重要方向,也是公司的傳統作為圖形處理器的重要方向,也是公司的傳統優勢業務,持續處于行業壟斷地位優勢業務,持續處于行業壟斷地位:1、游戲:游戲:1999 年,英偉達推出 GeForce 系列,首次定義 GPU,2018 年發布GeForce 20 系列,通過搭載 RT Core 實現了實時光追,同時 Turing 架構的Tensor Core 可實現 DLSS 技術,進一步放大光追效果。經過 20 余年迭代,GeForce系列已更新
105、至GeForce 40系列(2022年9月發布),采用Ada Lovelace微架構,支持第三代光追功能,GeForce 50 系列有望在 2025 年發布,根據往年數據,有望帶動銷售增長。英偉達提供的軟硬件產品和服務包括:(1)用于桌面端的 GTX 和 RTX 系列 GPU。(2)用于移動端筆電 GTX 和 RTX系列 GPU。(3)用于顯示器的 G-SYNC 處理器。(4)Geforce Now 云游戲平臺。2、專業可視化:專業可視化:專業顯卡是圖形工作站的主要組成部分,與消費類顯卡相比,3D 專業顯卡主要面對的是 3D 動畫(如 3DS Max、Maya、Softimage|3D)、美股
106、公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 34/48 渲染(如 LightScape、3DS VIZ)、CAD(如 AutoCAD、Pro/Engineer、Unigraphics、SolidWorks)、模型設計(如 Rhino)以及部分科學應用等專業 OpenGL 應用市場。工作站對顯卡的速度、穩定性尤其是軟件的兼容性要求更高。目前全球主要的工作站顯卡廠商是英偉達和 AMD,雖然專業顯卡和消費顯卡在終端要求有著明顯的不同,但是近年來英偉達和 AMD 都逐漸將旗下娛樂級顯卡和專業級顯卡統一到相同的核心架構下,甚至是完全相同的芯片,由外圍電路和軟件控制決定是
107、消費類顯卡還是專業類顯卡。圖圖37:英偉達游戲與專業可視化業務(百萬美元)英偉達游戲與專業可視化業務(百萬美元)增速基本趨同增速基本趨同 資料來源:Wind、開源證券研究所 4.1、游戲:龍頭地位穩固,關注游戲:龍頭地位穩固,關注 AI PC 驅動機會驅動機會 GeForce 市場份額領先,主打高端市場。市場份額領先,主打高端市場。早期因英偉達與微軟矛盾激化、英特爾扶持 ATI 等因素,Radeon 系列在 2004 年市場份額曾短暫超越英偉達,而隨著英偉達與微軟和解、拿下索尼訂單,業務恢復正?;?,重回領先地位,但 2005-2013年英偉達與 AMD(2006 年收購 ATI)整體上處于來回
108、拉鋸的階段。后續因 AMD 對ATI 收購的整合效果較差,負債提升、逐步對 GPU 部門造成拖累,彼時 AMD 的產品在內存、帶寬等性能上可以短暫性優于英偉達,但能耗表現卻遠不如同期英偉達的 Maxwell 架構。2014 年后,二者份額差距持續拉大,目前英偉達 GeForce 系列主打高端市場,而 AMD 主要聚焦中低端市場。圖圖38:英偉達英偉達 GeForce 系列顯卡龍頭地位穩固系列顯卡龍頭地位穩固 資料來源:PConline -40%-20%0%20%40%60%80%100%120%02,0004,0006,0008,00010,00012,00014,00020142015201
109、620172018201920202021202220232024游戲專業可視化yoy(游戲)yoy(專業可視化)美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 35/48 英偉達英偉達 GeForce 旗艦產品性能優于競品,主打中高端市場。旗艦產品性能優于競品,主打中高端市場。對比當下英偉達(GeForce RTX 4090)及 AMD(Radeon RX 7900 XTX)的旗艦產品,英偉達在核心性能參數上明顯優于 AMD,由此,在售價上英偉達聚焦中高端,AMD 主打中低端,英偉達售價高出 AMD 60%。此外,由于 AMD 的顯卡沒有 Tensor Co
110、re,因而無法實現 DLSS(深度學習超級采樣)功能,AMD 主要通過 FSR(FidelityFX 超級分辨率)來升級圖像,但畫質較英偉達 DLSS 仍有差距。表表14:英偉達聚焦中高端,英偉達聚焦中高端,AMD 主打中低端主打中低端 英偉達英偉達 AMD 英偉達英偉達 AMD 基礎信息基礎信息 渲染規格渲染規格 產品 GeForce RTX 4090 Radeon RX 7900 XTX 流處理器數量 16384 6144 發布時間 2022 年 9 月 2022 年 11 月 紋理單元 512 384 發行價 1599 美元 999 美元 光柵單元 176 192 架構 Ada Love
111、lace Navi lll/RDNA 3 張量核心 512/工藝制程 臺積電 4N 定制工藝 臺積電 N5+N6 混合工藝 光線追蹤核心 128 96 晶體管數量 763 億 577 億 一級緩存 128KB/SM 256KB/Array 尺寸 609 mm 529 mm 二級緩存 72MB 6MB 晶體管密度 1.25 億/mm 1.09 億/mm 時鐘速度時鐘速度 理論性能理論性能 基礎頻率 2235MHz 1929MHz 像素填充率 443.5 Gpixel/s 479.6 Gpixel/s 加速頻率 2520MHz 2498MHz 紋理填充率 1290 Gpixel/s 479.7 G
112、pixel/s 顯存頻率 1313MHz 2500MHz FP16 性能 82.58 TFLOPS 122.8 TFLOPS 顯存顯存 FP32 性能 82.58 TFLOPS 61.39 TFLOPS 顯存類型 GDDR6X GDDR6 FP64 性能 1.29 TFLOPS 1.918 TFLOPS 顯存容量 24GB 24GB 顯存位寬 384bit 384bit 顯存帶寬 1008GB/s 960GB/s 資料來源:、游俠網、開源證券研究所 英偉達顯卡市場份額持續提升,行業或面臨衰退風險。英偉達顯卡市場份額持續提升,行業或面臨衰退風險。2022-23 年因為疫情、加密市場退潮,導致 G
113、PU 需求減弱,行業進入一段時期的庫存消化中,并于 2023 年下半年開始逐步修復,根據 JPR 數據,3Q24 全球 AIB 顯卡市場出貨量 810 萬片,同比下降 7.9%,英偉達/AMD 在 AIB 顯卡市場份額為 90%/10%,英偉達市場份額同比提升 8 pcts(與之對應的是 AMD 市場份額的下降),或因為 AMD 主要主機客戶(微軟、索尼)調整庫存導致半定制收入下降。展望未來,根據 JPR 預測,美國關稅政策或將大幅提升終端用戶價格,進而抑制消費,預計 2024-2028 年 AIB 顯卡出貨量CAGR 為-6%。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信
114、息披露和法律聲明 36/48 圖圖39:AIB(附加板)顯卡全球出貨量(附加板)顯卡全球出貨量或進入下行通道或進入下行通道 資料來源:JPR 以以 AI PC 主導的換機潮獲將進入加速階段,英偉達顯卡有望從中受益。主導的換機潮獲將進入加速階段,英偉達顯卡有望從中受益。盡管行業景氣度有待改善,但英偉達 GeForce 持續更新版本,2025 年 RTX50 系列發布,性能進一步提升;另一方面,我們認為本輪 AI PC 替換浪潮有望為英偉達顯卡提供增長機遇。根據 Gartner 預測,2024/25 年 AI PC 出貨量預計達到 4303/11422 萬臺,同比增長 100%/165%,2025
115、 年 AI PC 出貨量在 PC 中占比將從 2024 年的 17%增長至43%,2024 年高通 Snapdragon X 系列、AMD Ryzen AI 300 系列、英特爾 Lunar Lake系列相繼發布,為 Copilot+PC 做好鋪墊。落腳到英偉達,基于公司在 AI 領域的積淀,有望聯合PC廠商推出基于AI PC的顯卡產品,根據英偉達FY2025Q3業績交流,公司已開始出貨華碩和 MSI 的新款 GeForce RTX AI PC,最高配備 321 AI TOPS,利用 RTX 光線追蹤和 AI 技術的力量來增強游戲、照片和視頻編輯、圖像生成和編碼。美股公司首次覆蓋報告美股公司首
116、次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 37/48 圖圖40:AI PC 出貨量出貨量增長較快增長較快 資料來源:Gartner(2024 年 9 月預測)、開源證券研究所 圖圖41:英偉達英偉達 GeForce RTX 4090 相對相對 Apple M2 Ultra 在內容創造上性能領先在內容創造上性能領先 資料來源:英偉達官網 4.2、專業可視化:構建豐富生態,打造專業可視化:構建豐富生態,打造 Omniverse 平臺布局未來平臺布局未來 打造生態平臺打造生態平臺,賦能專業領域新發展賦能專業領域新發展。在專業可視化領域,英偉達于 2018 年在GPU 品牌 Quadro 中
117、引入 RTX 技術,并在后續逐漸以 RTX 替代傳統的 Quadro 命名方式。專注游戲場景的 GeForce 強調高性能,而用于專業繪圖場景的 RTX 追求穩定性、正確性。英偉達圍繞 NVIDIA RTX 開發了一個完整的生態系統,包括硬件、高級軟件和工具、跨行業平臺以及豐富的第三方應用程序網絡,以此提供解決方案助力設計師、藝術家、科學家和研究人員以更快的速度解決問題,運用場景包括專業筆記本電腦、工作站、虛擬化、嵌入式場景等。0%50%100%150%200%020,00040,00060,00080,000100,000120,00020232024E2025EAI筆記本電腦(千臺)AI臺
118、式電腦(千臺)yoy(合計)美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 38/48 圖圖42:英偉達專業視覺平臺英偉達專業視覺平臺生態豐富生態豐富 資料來源:公司官網 從軟硬件到云服務上,英偉達專業顯卡已經有較好滲透從軟硬件到云服務上,英偉達專業顯卡已經有較好滲透。超過 20 家主流創作軟件廠商的產品針對 RTX 和 QUARDO RTX 進行加速優化;Dell、HP 和聯想(3 大品牌工作站市占率超過 90%)是英偉達的核心合作伙伴;亞馬遜、阿里等全球領先的云服務商為英偉達提供穩定的云服務支持。圖圖43:英偉達專業可視化英偉達專業可視化有諸多有諸多合作伙
119、伴合作伙伴 資料來源:公司官網、開源證券研究所 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 39/48 英偉達依托英偉達依托 Omniverse 平臺,平臺,改變創作工作流程。改變創作工作流程。NVIDIA Omniverse 是由英偉達開發的一個易擴展開放式平臺,專為虛擬協作和實時逼真模擬打造??梢宰尭餍袠I設計者能夠通過云在軟件之間、在本地或世界各地無縫地實時工作。傳統的內容創作工作流程是線性的,需要逐步進行,且無法多個流程同時進行操作。Omniverse將工作流程網絡化,一個程序中的修改會立即反映到所有相關程序中,制作流程整合到一個統一的查看和修改環境
120、中。Omniverse 被行業采用的關鍵是大型團隊能夠在共享的 3D 場景中跨多個軟件應用程序同時工作,工程師可以同時處理模擬圖像的相同部分。圖圖44:傳統創作流程為線性模式傳統創作流程為線性模式 圖圖45:Omniverse 創作流程可多流程實時同步創作流程可多流程實時同步 資料來源:、開源證券研究所 資料來源: Omniverse 生態系統生態系統由由 5 個組件組成:個組件組成:Nucleus,Connect,套件,仿真和 RTX。管理基于 USD 的 Omniverse Nucleus 服務器、用于先進設計應用程序的插件Omniverse Connectors,最終用戶應用程序 Omn
121、iverse Create 和 Omniverse View,以及 RTX 虛擬工作站工具。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 40/48 圖圖46:英偉達英偉達 Omniverse 平臺核心組件平臺核心組件 資料來源:公司官網 Omniverse市場前景廣闊,有望成為拉動專業可視化業務的重要力量。市場前景廣闊,有望成為拉動專業可視化業務的重要力量。Omniverse基于世界頂尖動畫制作工作室 Pixar 被廣泛采用的開源動畫工具 USD(通用場景描述),將數十種設計者熟悉的開發平臺兼容于一體,省去了設計師對于新開發環境的適應過程,簡化應用間繁瑣的
122、導入/導出,實現了簡潔高效的協作,以滿足來自不同行業的多元需求。Omniverse 已將其覆蓋范圍從工程師擴大到幾乎任何可以使用Blender 的用戶(主流 3D 創作軟件),被稱作是“工程師的元宇宙”,目前已被 700 多家公司和 7 萬多名個人創作者采用,而全球有超過 4000 萬使用高性能 PC 進行內容創作的創作者和工作室,未來可拓展市場空間較為廣闊。5、汽車業務:域控芯片份額領先,期待汽車業務:域控芯片份額領先,期待 Thor 發布鞏固地位發布鞏固地位 L2 及以上及以上 ADAS 系統裝配率快速提升,智能駕駛市場正處在加速滲透的窗口期。系統裝配率快速提升,智能駕駛市場正處在加速滲透
123、的窗口期。隨著軟件算法的不斷迭代以及算力芯片和傳感器等硬件成本的降低,智能駕駛已進入L2+時代,國內乘用車ADAS系統功能(L1-L2.9)裝配率穩步提升,且進入2024年,新上市乘用車 L2.9 裝配率提升明顯,這與國內車企和 Tier 1 將重點集中在高階輔助駕駛、大規模落地行泊一體及 NOA 方案的趨勢一致。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 41/48 圖圖47:國內乘用車國內乘用車 L2 及以上及以上 ADAS 功能(分級別)裝功能(分級別)裝配率配率持續提升持續提升 圖圖48:2024 年后年后國內新上市乘用車國內新上市乘用車 L2.9
124、 ADAS 功能裝功能裝配率配率提升明顯提升明顯 資料來源:佐思汽研官網 資料來源:佐思汽研官網 GPU 承擔汽車承擔汽車 AI 能力主要角色:能力主要角色:現階段的 ADAS(高級駕駛輔助系統)功能較為獨立,每個功能的前期預處理、數據融合、控制指令輸出均有單獨的芯片處理。隨著芯片算力的迅速提升,軟件算法的持續優化,大量計算將由一顆主芯片來承擔。傳統 CPU 存在算力不足和難以處理非結構化數據的缺陷,而 GPU 既可同時處理大量簡單任務又可完成圖像運算的特點,使其成為實現汽車高等級自動駕駛的主流方案。圖圖49:GPU 可適應汽車可適應汽車 AI 異構分布硬件架構的特征異構分布硬件架構的特征 資
125、料來源:中國軟件評測中心 英偉達構建了英偉達構建了 DRIVE AGX 軟硬件平臺,軟硬件平臺,整合了高性能的整合了高性能的 GPU 計算能力、豐計算能力、豐富的傳感器接口以及高度優化的軟件算法,為智能駕駛的訓練和模擬提供了全方位富的傳感器接口以及高度優化的軟件算法,為智能駕駛的訓練和模擬提供了全方位的支持的支持:硬件上:硬件上:2018 年英偉達發布 DRIVE Orin 芯片(Ampere 架構),2022 年繼續發布 DRIVE Thor(Hopper 架構),算力達到 2000TOPS,相當于 Orin 的 8 倍,2024 年DRIVE Thor 超級芯片進一步升級至 Blackwe
126、ll 架構,并將于 2025 年量產,理想、極氪、比亞迪、廣汽埃安昊鉑、小鵬加入到 Thor 芯片的合作中。Thor 可以實現多域計美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 42/48 算整合車輛功能,而不是依賴分布式 ECU;軟件上:軟件上:英偉達提供 DriveOS 操作系統,可用于 CUDA 庫和 TensorRT,同時在DriveOS 上提供 DriveWorks 中間件。表表15:英偉達英偉達 Thor 核心參數核心參數相較相較 Orin 有明顯提升有明顯提升 Orin Thor GPU 架構 Ampere Blackwell GPC/TPC
127、數量 2/8 3/11 算力 87TOPS(INT8)(DLA)+167TOPS(INT8)1000INT8 TOPS/1000FP8 TFLOPS/500FP16 TFLOPS 最大時鐘頻率 1275MHz 1512MHz L2 緩存 4MB 32MB 資料來源:智東西、開源證券研究所 除了自研體系的特斯拉,英偉達在智駕域控芯片領域處于壟斷地位。除了自研體系的特斯拉,英偉達在智駕域控芯片領域處于壟斷地位。根據蓋世汽車數據,2024 年 1-9 月英偉達中國智駕域控芯片裝機量市場份額達到 37.8%,大幅領先除特斯拉外的其他廠商,2023 年 NOA 計算方案市場份額亦達到 48.99%,當前
128、市場已經形成英偉達主導高端,地平線、黑芝麻智能等品牌主導中低端的市場格局。圖圖50:英偉達英偉達 Orin 系列在智駕域控芯片裝機量市場份系列在智駕域控芯片裝機量市場份額領先額領先 圖圖51:2023 年年英偉達在英偉達在中國乘用車前裝標配中國乘用車前裝標配 NOA 高階高階智駕計算方案市場份額智駕計算方案市場份額領先領先 資料來源:蓋世汽車官網、開源證券研究所(2024 年 1-9 月數據)資料來源:高工智能汽車官網、開源證券研究所 英偉達算力、能效比領先,成為車企首選。英偉達算力、能效比領先,成為車企首選。在當前主流的智駕芯片方案中,英偉達算力明顯領先于其余國內外廠商,同時保持了最高的能效
129、比,此外英偉達采用模態化設計,為未來擴展到 L3-L5 留有空間,依托完善的軟硬件工具鏈及更強的定37.80%26.70%9.80%5.50%4.50%2.80%2.60%2.40%2.00%5.90%英偉達 Drive Orin-X特斯拉 FSD華為昇騰 610地平線征程 5Mobileye EyeQ5HMobileye EyeQ4HTI TDA4VM地平線征程 3高通 8295其他48.99%35.49%7.99%3.82%3.71%英偉達地平線華為海思德州儀器Mobileye美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 43/48 制化能力,英偉達成為
130、眾多智能汽車品牌的首選。待 2025 年 Thor 發布,在 Blackwell框架下英偉達智駕芯片性能有望繼續提升,市場地位或將持續鞏固。表表16:英偉達英偉達智駕芯片智駕芯片算力、能效比領先算力、能效比領先 NVIDIA Mobileye Tesla 高通高通 華為華為 地平線地平線 芯片產品芯片產品 Drive Orin EyeQ5H FSD 驍龍 Ride 8650 昇騰 610 征程 5 工藝工藝 7nm 7nm 7nm 4nm 7nm 16nm 單顆算力單顆算力 254TOPS 24TOPS 122TOPS 100TOPS 160TOPS 128TOPS 功耗功耗 45W 10W
131、200W(雙芯)25-40W 65W 30W 能效比能效比TOPS/W 5.64 2.40 1.22 3.08 2.46 4.27 平臺運用車平臺運用車型型 理想、小鵬、蔚來、上汽智己 廣汽、吉利、寶馬等 Model 3/X/S 豐田、現代、寶馬、長城 華為HI模式和鴻蒙智行模式合作車型、AION LX 和昊鉑 GT 上汽、長城、比亞迪等 特點特點 可提供 Level2+級別的高級輔助駕駛功能,升級到雙片 Orin 后可提供 Level4 級別方案,采用模塊化設計,可對 L2-L5 靈活配置 黑盒,較難定制開發,算力和功耗較低,主要用于輔助駕駛 專用性能高,能耗低,全棧自研 走高性價比路線 可
132、受益于華為汽車生態 強調開放生態,與英偉達路線類似 資料來源:佐思汽研官網、蓋世汽車官網等、開源證券研究所 6、盈利預測及投資建議:盈利預測及投資建議:英偉達英偉達收入收入預測:預測:(1)游戲:游戲:一方面,美國潛在關稅影響或對行業帶來負面沖擊,另一方面,英偉達于2025年發布GeForce 50系列,有望帶動FY2026-2027財年收入增長,且過去幾個季度英偉達 AIB 顯卡市場份額基本保持提升態勢,我們預計英偉達仍有望保持逆勢增長;(2)數據中心:數據中心:公司最新Blackwell 架構芯片或存在延遲量產的風險,但 Hopper系列一定程度上可以彌補銷售缺口,我們預計 FY2026H
133、1 英偉達 B 系列將進入量產階段,推動 FY2026-2027 財年數據中心(計算+網絡)收入穩健增長;(3)專業可視化:專業可視化:預計隨著英偉達 Blackwell 架構和新一代顯卡開始普及,專業顯卡亦有望受益,此外英偉達 Omniverse 亦貢獻部分增量,考慮到專業顯卡市場彈性不如數據中心,我們預計收入僅維持穩健增長;(4)汽車:汽車:受益于下游智駕行業高資本投入紅利、英偉達后續 Thor 系列有望帶動增長,基于公司在域控芯片的領先市場地位,我們預計英偉達汽車業務仍將保持 30%-40%左右的同比增長。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明
134、44/48 英偉達盈利預測:英偉達盈利預測:(1)毛利率:毛利率:因復雜度更高的 B 系列 GPU 處于前期投入階段,會對毛利率有所拖累,因此預計 FY2026 年毛利率將有所下滑,但隨著 B 系列進入量產階段,毛利率有望逐步回升至 74%-75%;(2)凈利潤:凈利潤:得益于數據中心收入快速放量帶來的規模效應,營業費率自FY2024 財年以來持續降低,因此盡管 FY2026 財年毛利率或有所承壓,我們預計公司凈利率仍將有所改善。表表17:英偉達盈利預測英偉達盈利預測 FY2024 FY2025 FY2026E FY2027E FY2028E 收入 60,922 130,497 204,677
135、 254,251 288,462 yoy 125.9%114.2%56.8%24.2%13.5%游戲 10,447 11,350 12,899 16,732 17,954 yoy 15.2%8.6%13.6%29.7%7.3%占比 17.1%8.7%6.3%6.6%6.2%數據中心(計算)38,954 102,196 172,756 214,182 243,661 yoy 241.6%162.4%69.0%24.0%13.8%占比 63.9%78.3%84.4%84.2%84.5%數據中心(網絡)8,571 12,990 14,211 17,383 19,565 yoy 138.0%51.6%
136、9.4%22.3%12.6%占比 14.1%10.0%6.9%6.8%6.8%專業可視化 1,553 1,878 2,257 2,476 3,015 yoy 0.6%20.9%20.2%9.7%21.8%占比 2.5%1.4%1.1%1.0%1.0%汽車 1,091 1,694 2,193 3,061 3,829 yoy 20.8%55.3%29.5%39.6%25.1%占比 1.8%1.3%1.1%1.2%1.3%毛利率 73.6%75.3%72.8%74.4%73.6%營業費用率 4.2%2.6%2.1%1.9%1.7%研發費用率 14.2%9.9%8.4%7.4%6.8%GAAP 凈利潤
137、 29,759 72,880 110,411 143,863 162,615 GAAP 凈利率 48.8%55.8%53.9%56.6%56.4%Non-GAAP 凈利潤 32,312 74,266 115,914 150,056 169,586 Non-GAAP 凈利率 53.0%56.9%56.6%59.0%58.8%資料來源:Bloomberg、開源證券研究所 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 45/48 英偉達估值及投資建議:英偉達估值及投資建議:我們選取具有算力芯片開發業務的可比公司與英偉達進行比較,從 PE 估值上看,英偉達略高于行業
138、平均水平,從 PEG 的角度上看,若不考慮高通 2026-2027 年異常值影響,英偉達估值與行業平均水平相當,2025-2026 年 PEG 估值低于博通,總體上看,當前公司估值仍然合理。我們認為,當前 AI 算力芯片市場仍然供不應求,依托 CUDA 體系、持續推動芯片架構及互聯技術的升級,英偉達 GPU 仍有望成為高算力集群時代的首要選擇,“三芯戰略”、10 萬卡網絡互聯平臺、汽車及機器人等領域存在想象空間。首次覆蓋,給予“買入”評級。表表18:英偉達與可比標的估值對比英偉達與可比標的估值對比 公司公司 市值(億美元)凈利潤凈利潤 PE PEG 2024 2025 2026 2027 20
139、25 2026 2027 2025 2026 2027 博通 8992 237 326 385 449 28 23 20 0.7 1.3 1.2 Marvell 645 14 25 32 40 26 20 16 0.3 0.7 0.7 AMD 1845 54 75 102 127 24 18 15 0.6 0.5 0.6 高通 1770 115 130 135 134 14 13 13 1.0 3.8-14.0 行業平均 23 19 16 0.7 1.6-2.9 英偉達 29624 743 1159 1501 1696 26 20 17 0.5 0.7 1.3 資料來源:Bloomberg、開
140、源證券研究所,時間截至 2025 年 3 月 25 日。7、風險提示風險提示 產能爬坡低于預期產能爬坡低于預期:若遇到技術瓶頸導致后續 GPU 產品系列開發及產能爬坡不及預期,或影響公司銷售預期及估值。行業需求行業需求低于預期低于預期:若下游大模型及 AI 運用沒有較大突破,行業對 AI 算力的需求減弱,獲將影響公司 GPU 銷售。行業競爭加劇行業競爭加劇:當前如博通、Marvell 等企業開發的 ASIC 芯片在推理市場上有所運用,或會對英偉達未來算力業務造成競爭。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 46/48 附:財務預測摘要附:財務預測摘要
141、資產負債表資產負債表(百萬美元百萬美元)2024A 2025A 2026E 2027E 2028E 利潤表利潤表(百萬美元百萬美元)2024A 2025A 2026E 2027E 2028E 流動資產流動資產 44,345 80,126 135,927 205,277 294,909 營業收入營業收入 60,922 130,497 204,677 254,251 288,462 現金 7,281 8,589 54,987 122,939 208,907 營業成本 14,597 30,307 53,340 62,336 72,785 應收賬款 9,999 23,065 30,534 31,559
142、 34,735 營業費用 2,558 3,362 4,298 4,734 4,927 存貨 5,282 10,080 12,014 12,388 12,875 管理費用 8,674 12,914 17,128 18,866 19,632 其他流動資產 3,080 3,771 3,771 3,771 3,771 其他收入/費用 0 0 0 0 0 非流動資產非流動資產 21,383 31,475 33,196 34,436 35,197 營業利潤營業利潤 33,585 82,050 127,631 165,556 187,879 固定資產及在建工程 3,914 6,283 8,004 9,244
143、 10,005 凈財務收入/費用-611-592-3,810-5,710-5,710 無形資產及其他長期資產 17,469 25,192 25,192 25,192 25,192 其他利潤 0-958 0 0 0 資產總計資產總計 65,728 111,601 169,123 239,714 330,106 除稅前利潤 34,196 83,600 131,441 171,266 193,589 流動負債流動負債 10,631 18,047 19,582 19,884 20,282 所得稅 5,433 14,072 21,031 27,402 30,974 短期借款 1,250-0-0-0-0
144、少數股東損益 0 0 0 0 0 應付賬款 2,699 6,310 7,845 8,147 8,545 歸母凈利潤歸母凈利潤 29,759 72,880 110,411 143,863 162,615 其他流動負債 6,682 11,737 11,737 11,737 11,737 EBITDA 35,093 83,914 129,911 168,315 191,119 非流動負債非流動負債 12,119 14,227 14,227 14,227 14,227 扣非后凈利潤扣非后凈利潤 32,312 74,266 115,914 150,056 169,586 長期借款 8,459 8,463
145、 8,463 8,463 8,463 EPS(美元)1.19 2.94 4.52 6.05 7.05 其他非流動負債 3,660 5,764 5,764 5,764 5,764 負債合計負債合計 22,750 32,274 33,809 34,111 34,509 主要財務比率主要財務比率 2024A 2025A 2026E 2027E 2028E 股本 2 24 24 24 24 成長能力成長能力 儲備 29,817 68,038 124,025 194,313 284,308 營業收入(%)125.9 114.2 56.8 24.2 13.5 歸母所有者權益 42,978 79,327 1
146、35,314 205,602 295,597 營業利潤(%)430.7 144.3 55.6 29.7 13.5 少數股東權益-0-0-0-0-0 歸屬于母公司凈利潤(%)581.3 144.9 51.5 30.3 13.0 負債和股東權益總計負債和股東權益總計 65,728 111,601 169,123 239,714 330,106 獲利能力獲利能力 毛利率(%)73.6 75.3 72.8 74.4 73.6 凈利率(%)48.8 55.8 53.9 56.6 56.4 ROE(%)69.2 91.9 81.6 70.0 55.0 ROIC(%)65.9 91.1 78.8 67.2
147、53.1 償債能力償債能力 現金流量表現金流量表(百萬美元百萬美元)2024A 2025A 2026E 2027E 2028E 資產負債率(%)34.6 28.9 20.0 14.2 10.5 稅前利潤 29,759 72,880 110,411 143,863 162,615 凈負債比率(%)52.9 40.7 25.0 16.6 11.7 經營活動現金流經營活動現金流 28,091 64,091 111,372 152,900 170,886 流動比率 4.2 4.4 6.9 10.3 14.5 折舊和攤銷 1,508 1,864 2,279 2,759 3,239 速動比率 3.7 3.
148、9 6.3 9.7 13.9 營運資本變動-3,722-9,383-7,869-1,095-3,267 營運能力營運能力 其他 546-1,270 6,551 7,373 8,298 總資產周轉率 0.9 1.2 1.2 1.1 0.9 投資活動現金流投資活動現金流-10,566-19,264-4,000-4,000-4,000 應收賬款周轉率 6.1 5.7 6.7 8.1 8.3 其他-9,498-16,028 0 0 0 應付賬款周轉率 22.6 20.7 26.1 31.2 33.8 融資活動現金流融資活動現金流-13,634-35,107-60,975-80,948-80,919 存
149、貨周轉率 2.8 3.0 4.4 5.0 5.7 股權融資-12,384-35,311-60,975-80,948-80,919 每股指標(美元)每股指標(美元)銀行借款-1,250 204 0 0 0 每股收益(最新攤薄)1.32 3.04 4.75 6.15 6.95 其他 0 0-0 0 0 每股經營現金流(最新攤薄)1.15 2.63 4.56 6.27 7.00 匯率變動對現金的影響匯率變動對現金的影響 0 0 0 0 0 每股凈資產(最新攤薄)1.76 3.25 5.55 8.43 12.11 現金凈增加額現金凈增加額 3,891 9,720 46,398 67,953 85,96
150、8 估值比率估值比率 期末現金總額期末現金總額 7,281 17,001 54,987 122,939 208,907 P/E 91.7 39.9 25.6 19.7 17.5 資本開支-1,068-3,236-4,000-4,000-4,000 P/S 68.9 37.3 21.9 14.4 10.0 數據來源:聚源、開源證券研究所 美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 47/48 特別特別聲明聲明 證券期貨投資者適當性管理辦法、證券經營機構投資者適當性管理實施指引(試行)已于2017年7月1日起正式實施。根據上述規定,開源證券評定此研報的風險等級
151、為R4(中高風險),因此通過公共平臺推送的研報其適用的投資者類別僅限定為專業投資者及風險承受能力為C4、C5的普通投資者。若您并非專業投資者及風險承受能力為C4、C5的普通投資者,請取消閱讀,請勿收藏、接收或使用本研報中的任何信息。因此受限于訪問權限的設置,若給您造成不便,煩請見諒!感謝您給予的理解與配合。分析師承諾分析師承諾 負責準備本報告以及撰寫本報告的所有研究分析師或工作人員在此保證,本研究報告中關于任何發行商或證券所發表的觀點均如實反映分析人員的個人觀點。負責準備本報告的分析師獲取報酬的評判因素包括研究的質量和準確性、客戶的反饋、競爭性因素以及開源證券股份有限公司的整體收益。所有研究分
152、析師或工作人員保證他們報酬的任何一部分不曾與,不與,也將不會與本報告中具體的推薦意見或觀點有直接或間接的聯系。股票投資評級說明股票投資評級說明 評級評級 說明說明 證券評級證券評級 買入(Buy)預計相對強于市場表現 20%以上;增持(outperform)預計相對強于市場表現 5%20%;中性(Neutral)預計相對市場表現在5%5%之間波動;減持(underperform)預計相對弱于市場表現 5%以下。行業評級行業評級 看好(overweight)預計行業超越整體市場表現;中性(Neutral)預計行業與整體市場表現基本持平;看淡(underperform)預計行業弱于整體市場表現。備
153、注:評級標準為以報告日后的 612 個月內,證券相對于市場基準指數的漲跌幅表現,其中 A 股基準指數為滬深 300 指數、港股基準指數為恒生指數、新三板基準指數為三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)、美股基準指數為標普 500 或納斯達克綜合指數。我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重建議;投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者應閱讀整篇報告,以獲取比較完整的觀點與信息,不應僅僅依靠投資評級來推斷結論。分析、估值方法的局限性說明分析、估值方法
154、的局限性說明 本報告所包含的分析基于各種假設,不同假設可能導致分析結果出現重大不同。本報告采用的各種估值方法及模型均有其局限性,估值結果不保證所涉及證券能夠在該價格交易。美股公司首次覆蓋報告美股公司首次覆蓋報告 請務必參閱正文后面的信息披露和法律聲明 48/48 法律聲明法律聲明 開源證券股份有限公司是經中國證監會批準設立的證券經營機構,已具備證券投資咨詢業務資格。本報告僅供開源證券股份有限公司(以下簡稱“本公司”)的機構或個人客戶(以下簡稱“客戶”)使用。本公司不會因接收人收到本報告而視其為客戶。本報告是發送給開源證券客戶的,屬于商業秘密材料,只有開源證券客戶才能參考或使用,如接收人并非開源
155、證券客戶,請及時退回并刪除。本報告是基于本公司認為可靠的已公開信息,但本公司不保證該等信息的準確性或完整性。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,并非作為或被視為出售或購買證券或其他金融工具的邀請或向人做出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告??蛻魬斂紤]到本公司可能存在可能影響本報告客觀性的利益沖突,不應視本報告為做出投資決策的唯一因素。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。本公司未確保
156、本報告充分考慮到個別客戶特殊的投資目標、財務狀況或需要。本公司建議客戶應考慮本報告的任何意見或建議是否符合其特定狀況,以及(若有必要)咨詢獨立投資顧問。在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。若本報告的接收人非本公司的客戶,應在基于本報告做出任何投資決定或就本報告要求任何解釋前咨詢獨立投資顧問。本報告可能附帶其它網站的地址或超級鏈接,對于可能涉及的開源證券網站以外的地址或超級鏈接,開源證券不對其內容負責。本報告提供這些地址或超級鏈接的目的純粹是為了客戶使用方便,鏈接網站的內容不構成本
157、報告的任何部分,客戶需自行承擔瀏覽這些網站的費用或風險。開源證券在法律允許的情況下可參與、投資或持有本報告涉及的證券或進行證券交易,或向本報告涉及的公司提供或爭取提供包括投資銀行業務在內的服務或業務支持。開源證券可能與本報告涉及的公司之間存在業務關系,并無需事先或在獲得業務關系后通知客戶。本報告的版權歸本公司所有。本公司對本報告保留一切權利。除非另有書面顯示,否則本報告中的所有材料的版權均屬本公司。未經本公司事先書面授權,本報告的任何部分均不得以任何方式制作任何形式的拷貝、復印件或復制品,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記。開開源證券源證券研究所研究所 上海上海 深圳深圳 地址:上海市浦東新區世紀大道1788號陸家嘴金控廣場1號 樓3層 郵編:200120 郵箱: 地址:深圳市福田區金田路2030號卓越世紀中心1號 樓45層 郵編:518000 郵箱: 北京北京 西安西安 地址:北京市西城區西直門外大街18號金貿大廈C2座9層 郵編:100044 郵箱: 地址:西安市高新區錦業路1號都市之門B座5層 郵編:710065 郵箱: