《算力行業深度報告:海外科技啟示錄英偉達(1)超級工廠是怎樣煉成的-240408(34頁).pdf》由會員分享,可在線閱讀,更多相關《算力行業深度報告:海外科技啟示錄英偉達(1)超級工廠是怎樣煉成的-240408(34頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、證券研究報告|行業深度|計算機 1/34 請務必閱讀正文之后的免責條款部分 計算機 報告日期:2024 年 04 月 08 日 海外科技啟示錄:英偉達(海外科技啟示錄:英偉達(1)超級工廠是怎樣煉成的超級工廠是怎樣煉成的 算力算力行業深度報告行業深度報告 投資要點投資要點 英偉達:全球算力王者,加速計算時代的英偉達:全球算力王者,加速計算時代的 AI 超級工廠超級工廠 公司成立自 1993 年,早期專注圖形計算芯片,針對游戲機、PC 市場,2006 年推出 CUDA 進軍通用計算,逐步形成 GPU+CPU+DPU 的三芯布局,應用領域也從游戲拓展至數據中心、專業可視化、自動駕駛等,目標客戶涵蓋
2、 CSP、商業企業、消費者;公司上市以來,收入成長超 160 倍,市值增長超 2700 倍,在全球AI 芯片市場的市占率最高已經達到 90%。歷史復盤:歷史復盤:強自研強自研+前瞻并購豐富產品矩陣,通用生態形成堅實護城河前瞻并購豐富產品矩陣,通用生態形成堅實護城河(1)2000 年前年前,從從“狂野西部狂野西部”通用圖形計算起步,憑借更加高效的研發模式、通用圖形計算起步,憑借更加高效的研發模式、綁定大客戶微軟勝出并定義世界首款綁定大客戶微軟勝出并定義世界首款 GPU:研發上,公司采用了“三團隊-兩季度”的高效研發模式實現了技術和產品的快速迭代;產品上,通過 DDR、SDR 和TNT 三個系列實
3、現了高中低端的全面布局;戰略上,綁定大客戶微軟,憑借Windows 95 操作系統的高占有率打敗并收購圖形計算先驅 3dfx;(2)2000-2005 年年,客戶多元化,通過性能優勢掌握客戶多元化,通過性能優勢掌握 PC 獨顯龍頭地位:獨顯龍頭地位:上市初期,公司與微軟合作失敗并導致業績和股價的調整,后續公司積極開拓 Intel、索尼等大客戶,并通過 GeFroce 6800Ultra 優異的產品性能再次奪回 GPU 老大的地位,同時打敗了競爭對手 ATI;(3)2006-2015 年年,以游戲業務筑基,培育以以游戲業務筑基,培育以 CUDA 為核心的通用計算體系為核心的通用計算體系:在終端多
4、元化導致 PC 出貨量下降的背景下,公司聚焦高端游戲卡穩定增長態勢并實現了逆勢增長,2010-2015 年游戲業務收入五年 CAGR 達到 21%;2006 年公司超前推出 CUDA,從圖形計算拓展至通用計算,雖然在前期經歷了產品生態不完善導致的業績和股價的調整,但是公司堅持投入研發,研發費用逐年攀升,形成了快速迭代的硬件+深度捆綁的軟硬件+大量外圍的二次開發者和易用的軟件生態三位一體的生態飛輪。(4)2016 年至今,年至今,CUDA 開花結果,云端數據中心業務開啟新一輪成長曲線開花結果,云端數據中心業務開啟新一輪成長曲線:算力需求側經歷了大數據及云服務(2016-2018)、云端辦公和娛樂
5、(2020-2021)、云端 AI 訓練(2023 至今)三大階段,公司套娃式收購了 IB 和以太網領軍 Mellanox、網絡安全和智能 IP 提供商 Titan IC,并形成了 GPU+CPU+DPU 三芯底座,公司憑借綜合全面的生態優勢在三次浪潮中逐步崛起,2023 年數據中心業務收入 475.25 億美元,同比增長 224.36%。成長之路總結:成長之路總結:專注帶來前瞻,通用誕生生態專注帶來前瞻,通用誕生生態(1)專注計算芯片,帶來前瞻戰略專注計算芯片,帶來前瞻戰略思維:思維:公司三十年專注計算芯片,并保持在單一賽道上超過競爭對手的持續、高強度投入,同時公司具備前瞻的戰略眼光,通過收
6、并購提前布局,最終帶來了領先全球的產品迭代速度;(2)注重技術復用性,讓研發投入落到實處:注重技術復用性,讓研發投入落到實處:公司在前期收并購布局時也曾遇到過錯失移動終端的失誤,但公司將前期投入復用到邊緣計算領域,并帶來了智能駕駛、機器人等新的業務機會,研發投入始終累積;(3)重視通用性,引入生態共建:重視通用性,引入生態共建:公司在圖形計算領域做深做專后,大力擴展應用領域,并持續降低開發者的使用門檻,高通用性、低門檻帶來的是生態共建飛輪,進而形成了堅實的護城河。國內相關公司:逐步追趕,國產化趨勢已現國內相關公司:逐步追趕,國產化趨勢已現 華為華為昇騰:騰:國產算力龍頭,性能優勢明顯,昇騰生態
7、有望成為國內 AI 算力第二級;海光信息:海光信息:中科院背景,研發實力強勁,擁有國產稀缺的 x86 架構,類 CUDA帶來生態兼容性,有望部分替代英偉達在國內算力產業中的生態位;行業評級行業評級:看好看好(維持維持)分析師:劉雯蜀分析師:劉雯蜀 執業證書號:s1230523020002 分析師:李佩京分析師:李佩京 執業證書號:S1230522060001 相關報告相關報告 1 行業逐步回暖,算力確定性最強 2024.04.05 2 英偉達引領 AI 行業變革,打造新時代的“蘋果公司”2024.03.19 3 華為合作伙伴大會:未來三年中國政企業務有望快速增長 2024.03.17 行業深度
8、 2/34 請務必閱讀正文之后的免責條款部分 寒武紀:寒武紀:產品棧實現云、邊、端全覆蓋,AI 訓練推理卡同步快速發展,性能持續迭代升級;景嘉微:景嘉微:景宏系列高性能計算產品有望持續突破下游客戶,商業化可期。風險提示風險提示 歷史成長軌跡與股價表現并不能代表未來趨勢;上游供應不足的風險;技術迭代難度加大的風險;中游競爭加劇的風險;下游客戶需求變化的風險;其他導致生態壁壘削弱的風險;宏觀環境變化的風險;yUiZlXeWhUiYlW9PdNbRnPqQtRqMlOpPsOkPmNmOaQnMnNMYnNsPvPmNoR行業深度 3/34 請務必閱讀正文之后的免責條款部分 正文目錄正文目錄 1 英
9、偉達:全球算力王者,加速計算時代的英偉達:全球算力王者,加速計算時代的 AI 超級工廠超級工廠.6 1.1 上市以來收入成長超 160 倍,市值增長超 2700 倍.6 1.2 三芯片四領域,構筑全面產品矩陣.6 1.3 三十年專注的高研發投入,奠定高業績成長基石.10 2 歷史復盤:用產品定義算力發展史歷史復盤:用產品定義算力發展史.12 2.1 2000 年前:從“狂野西部”通用圖形計算起步,憑借更加高效的研發模式、綁定大客戶微軟勝出并定義世界首款GPU.12 2.2 2000-2005:客戶多元化,通過性能優勢掌握 PC 獨顯龍頭地位.14 2.3 2006-2015:以游戲業務筑基,培
10、育以 CUDA 為核心的通用計算體系.14 2.4 2016 至今:CUDA 開花結果,云端數據中心業務開啟新一輪成長曲線.18 2.4.1 2016-2019:大數據與云服務階段,憑借 GPU 的通用性登上數據中心芯片王座.19 2.4.2 2020-2022:云端辦公和娛樂階段,收購整合打造最強數據中心異構芯片+高速互聯+網絡安全解決方案體系護城河.19 2.4.3 2023 至今:大模型浪潮引爆公司數據中心業務成長.21 3 巨頭成長之路總結:專注帶來前瞻,通用誕生生態巨頭成長之路總結:專注帶來前瞻,通用誕生生態.23 3.1 專注計算芯片,帶來前瞻戰略思維.23 3.2 注重技術復用性
11、,讓研發投入落到實處.25 3.3 重視通用性,引入生態共建.26 4 國內相關公司:逐步追趕,國產化趨勢已現國內相關公司:逐步追趕,國產化趨勢已現.29 4.1 華為昇騰:對標英偉達,有望成為國內第二 AI 算力生態.29 4.2 海光信息:類 CUDA 帶來更好的生態兼容性.30 4.3 寒武紀:云端芯片性能持續擴展,云邊終端協同覆蓋.31 4.4 景嘉微:發布景宏系列高性能計算產品,商業化布局有望加速.32 5 風險提示風險提示.32 行業深度 4/34 請務必閱讀正文之后的免責條款部分 圖表目錄圖表目錄 圖 1:公司分季度收入情況(億美元、%).6 圖 2:公司三芯布局產品線.7 圖
12、3:公司 FY2024Q3 分業務營收情況.7 圖 4:DOCA 軟件體系.7 圖 5:英偉達數據中心產品迭代情況.7 圖 6:英偉達數據中心 GPU 發展歷程.8 圖 7:公司數據中心業務收入情況(億美元、%).8 圖 8:公司游戲業務收入情況(億美元、%).9 圖 9:公司游戲顯卡發展歷史.9 圖 10:NVIDIA Ada Lovelace 架構能實現更擬真的光線追蹤效果.9 圖 11:DLSS 利用 AI 實現性能的成倍提升.9 圖 12:公司專業可視化業務收入情況(億美元、%).10 圖 13:公司專業可視化產品發展歷史.10 圖 14:公司自動駕駛業務收入情況(億美元、%).10
13、圖 15:公司自動駕駛產品發展歷史.10 圖 16:可比公司毛利率情況(%).11 圖 17:可比公司凈利率情況(%).11 圖 18:可比公司研發費用絕對值情況(億美元).11 圖 19:可比公司研發費用率情況(%).11 圖 20:可比公司銷售及管理費用率(%).12 圖 21:“Pre GPU”時期圖形計算芯片技術發展路線圖.12 圖 22:公司發展前期營業收入情況(億美元,%).14 圖 23:獨立 GPU 市占率變化情況(%).14 圖 24:全球智能手機出貨情況(億部、%).15 圖 25:研發費用絕對值對比:Nvidia vs.AMD(億美元).16 圖 26:英偉達數據中心平臺
14、.17 圖 27:英偉達 GPU 架構演進圖.17 圖 28:全球 PC 出貨量(億臺、%).18 圖 29:全球桌面顯卡出貨量(萬塊、%).18 圖 30:全球獨立顯卡市場占有率情況(%).18 圖 31:公司游戲業務收入情況(億美元、%).18 圖 32:海外主要云廠商季度 Capex(億美元、%).18 圖 33:海外主要云廠商季度 Capex 同比增速 vs 英偉達數據中心業務季度同比增速(%).18 圖 34:四大云服務廠商 GPU 分布(%).19 圖 35:英偉達在 TOP500 系統中份額(%).19 圖 36:未來算力生態.20 圖 37:英偉達三芯布局產品線.20 圖 38
15、:DOCA 軟件體系.20 圖 39:監督微調-獎勵建模-強化學習過程.21 圖 40:Transformer 架構.21 圖 41:全球數據中心 GPU 市場規模(億美元、%).22 圖 42:Transformer 架構示意圖.22 行業深度 5/34 請務必閱讀正文之后的免責條款部分 圖 43:可比公司研發費用絕對值情況(億美元).24 圖 44:可比公司研發費用率情況(%).24 圖 45:獨立顯卡市場占有率情況(%).24 圖 46:英偉達 Tegra 芯片.25 圖 47:同時搭載高通芯片與 Tegra 的小米 3.25 圖 48:Tegra X1 相較前一代的性能巨大提升.26
16、圖 49:Tegra X1 采用 Maxwell 架構.26 圖 50:Tegra X1 基于深度學習可以識別現實世界的事物.26 圖 51:CPU 與 GPU 架構的根本區別.27 圖 52:支持 C+API 接入.28 圖 53:支持 Python API 接入.28 圖 54:TensorRT 最大化 GPU 在 AI 推理中的性能.28 圖 55:TensorRT 最小化客戶總擁有成本.28 圖 56:CUDA 平臺部分生態伙伴.28 圖 57:CUDA 生態部分伙伴.29 圖 58:昇騰芯片迭代計劃.29 圖 59:華為昇騰 AI 產業生態.30 圖 60:華為行業智能化參考框架.3
17、0 圖 61:海光 DCU 組成部分.31 圖 62:海光軟件棧體系.31 表 1:公司歷代 GPU 架構情況.8 表 2:Riva128 與 i740 對比情況.13 表 3:6800Ultra、X800 參數比較.14 表 4:2002-2013 年英偉達收購匯總.15 表 5:大模型訓練階段對算力的需求.21 表 6:大模型推理階段對算力的需求.22 表 7:AI 芯片與 CPU 芯片在大模型訓練中的效率和速度對比.23 表 8:Nvidia VS AMD 產品迭代情況.24 表 9:CUDA VS ROCm.25 表 10:GPU VS CPU.26 表 11:主流 AI 芯片性能比較
18、.30 表 12:寒武紀產品線.32 行業深度 6/34 請務必閱讀正文之后的免責條款部分 1 英偉達:英偉達:全球全球算力王者算力王者,加速,加速計算計算時代的時代的 AI 超級超級工廠工廠 1.1 上市以來收入成長超上市以來收入成長超 160 倍,市值增長超倍,市值增長超 2700 倍倍 公司是全球領先的公司是全球領先的 GPU 算力龍頭。算力龍頭。公司于 1993 年由 Jenson Huang(黃仁勛)及來自于 Sun Microsystem 的兩位工程師 Chris Malachowsky 和 Curtis Priem 創立,專注圖形計算芯片的設計與研發,公司經歷了起步積累、困境反轉
19、、轉型升級和快速成長四個階段,并成長為全球 AI 算力領軍,根據 Gartner 預計,公司在全球 AI 芯片市場的市占率最高已經達到 90%。圖1:公司分季度收入情況(億美元、%)資料來源:彭博、浙商證券研究所 1.2 三三芯片四領域芯片四領域,構筑構筑全面產品矩陣全面產品矩陣 基基礎芯片層面,礎芯片層面,公司公司基于基于 GPU 技術路線,通過自研技術路線,通過自研+并購形成并購形成 GPU+CPU+DPU 的三的三芯布局芯布局:(1)2000 年推出全球首款 GPU 以來不斷進行迭代升級,目前 GPU 領域產品涵蓋消費級、工作站級、移動級到高性能計算的多種類型,即將在 2024Q2 出貨
20、的 H200 Tensor Core GPU 基于 NVIDIA Hopper 架構,FP16 下算力達到 989TFLOPS,同時是首款提供HBM3e 的 GPU,以每秒 4.8 TB 的速度提供 141GB 內存,與前身 A100 相比容量幾乎翻倍,帶寬增加 2.4 倍,針對 GPT-3 模型的推理性能是 A100 的 18 倍;(2)2020 年收購 Mellanox 后推出的 BlueField DCU 能夠有效減少 CPU 負荷,提升整體系統性能,BlueField-3 DPU 與上一代相比,具備 2 倍的網絡帶寬、4 倍的計算能力和幾乎 5 倍的內存帶寬,能夠以高達 8 倍的速度運
21、行工作負載,同時降低 TCO 并提高數據中心能效;(3)2021 年推出的自研 Grace 系列 CPU 超級芯片基于 ARM v9 架構設計,相較于現有數據中心使用的 x86 CPU,運行微服務的速度快 2.3 倍,內存密集型數據處理性能快 2行業深度 7/34 請務必閱讀正文之后的免責條款部分 倍,在多個技術計算應用上運行流體力學計算工作時速度快 1.9 倍;為了進一步滿足巨型人工智能和高性能計算工作負載的需求,公司還發布了將 Grace CPU 和 Hopper GPU 封裝在一起的 Grace Hopper Superchip,以及將兩個 Grace CPU 在同一款 PCB 上互聯的
22、 Grace Superchip;圖2:公司三芯布局產品線 圖3:公司 FY2024Q3 分業務營收情況 資料來源:SDNLAB,浙商證券研究所 資料來源:英偉達官網、浙商證券研究所 行業客戶層面,公司行業客戶層面,公司布局了游戲、數據中心、專業可視化、自動駕駛市場四大領域布局了游戲、數據中心、專業可視化、自動駕駛市場四大領域:(1)數據中心:公司)數據中心:公司 2016 年至今以及未來長期的增長點。年至今以及未來長期的增長點。公司為云廠商(CSP)、企業、公共部門的數據中心、智算中心、超算中心提供基于 CPU+GPU+DPU 芯片、IB+以太網等網絡設備的硬件系統,以及 AI 加速庫、開發
23、工具、應用等軟硬件一體的解決方案;隨著云端數據中心需求的爆發以及公司三芯布局的形成,公司數據中心業務近五年收入復合增速高達 74.56%、近三年復合增速高達 92.18%,2023 年全年實現收入 475.25 億美元,同比+216.73%,其中 2023Q4 實現收入 184.04 億美元,同比+409%;公司自 2011 年的 Tesla M2090 開始不斷更新迭代數據中心產品,下一代 B100 采用Blackwell 架構,將使用臺積電的 4nm 工藝,與現有采用 Hopper 架構的 H200 系列相比,性能提升超過 100%。圖4:DOCA 軟件體系 圖5:英偉達數據中心產品迭代情
24、況 資料來源:英偉達,浙商證券研究所 資料來源:Semianalysis、浙商證券研究所 行業深度 8/34 請務必閱讀正文之后的免責條款部分 圖6:英偉達數據中心 GPU 發展歷程 圖7:公司數據中心業務收入情況(億美元、%)資料來源:CSDN、英偉達、浙商證券研究所整理 資料來源:彭博、浙商證券研究所 表1:公司歷代 GPU 架構情況 架構代號架構代號 Tesla Fermi Kepler Maxwell Pascal Volta Turing Ampere Hopper Blackwell 中文代號中文代號 特斯拉特斯拉 費米費米 開普勒開普勒 麥克斯韋麥克斯韋 帕斯卡帕斯卡 伏特伏特
25、圖靈圖靈 安培安培 赫柏赫柏 布萊克威爾布萊克威爾 時間 2006 2009 2012 2014 2016 2017 2018 2020 2022 2024 制程-40nm 28nm 28nm 16nm 12nm 12nm 8nm 4nm 4nm 核數 128 個 16 個SM*32CUDA Core,共計512 個CUDA Core 15 個SMX*(192 個單精度+64 個雙精度CUDA core)具有 3072個 CUDA核心 3840 個CUDA 核心 5120 個CUDA 核心,新增了640 個張量核心 具有 4608個 CUDA核心、576 個張量核心 具有 6912個 CUDA
26、核心、432個張量核心 具有 18432個 FP32 CUDA 核心、576 個張量核心-特點 首個通用GPU 計算架構,采用全新的 CUDA架構,支持使用 C 語言進行 GPU 編程,標志著GPU 開始從專用圖形處理器轉變為通用數據并行處理器 引入 L1/L2快速緩存、錯誤修復功能和 GPU Direct 技術 首個支持超級計算和雙精度計算的GPU 架構,計算能力比 Fermi架構提高3-4 倍,GPU 開始成為高性能計算的關注點 在功耗效率、計算密度上獲得重大提升,計算密度是Kepler 的兩倍,標志著 GPU的節能計算時代到來 增強了 GPU的能效比和計算密度,功耗只有300W,比Max
27、well 架構提高 50%以上,使GPU 可以進入更廣泛的人工智能、汽車等新興應用市場。AI 計算能力達到 112 TFLOPS,比 Pascal架構提高了近 3 倍,可以大大加速人工智能和深度學習的訓練與推理 新增了Ray Tracing核心(RT Core),可硬件加速光線追蹤運算 在人工智能、光線追蹤和圖形渲染等方面性能大幅躍升,功耗卻只有400W,能效比顯著提高 Hopper Transformer引擎可以做到 FP16 和FP8 之間逐層交換,利用 NVIDIA提供的啟發算法來降低所需精度 包含 2080 億個晶體管,采用雙倍光刻極限尺寸的裸片,通過 10 TB/s 的片間互聯技術連
28、接成一塊統一的 GPU。資料來源:英偉達、騰訊云社區、芯智訊等、浙商證券研究所整理 (2)游戲業務:公司的起家業務和基本盤,以先進技術引領行業發展。)游戲業務:公司的起家業務和基本盤,以先進技術引領行業發展。公司提供分別面向 PC 和筆記本的 GeForce 系列 RTX 和 GTX 顯卡硬件、可在性能不足的設備上玩 PC游戲的 GeForce NOW 云游戲服務、在電視上播放高質量流媒體的 SHIELD 服務以及用于游戲機的平臺和開發服務;隨著挖礦浪潮的興起以及公司光追系列顯卡的推出,公司游戲業務近五年復合增長率達到 10.91%,2023 年全年實現收入 104.82 億美元,同比+15.
29、61%,其中 2023Q4 實現收入 29 億美元,同比+56%,為其他業務提供了穩定的現金流;游戲業務見證了公司的成長史,每一代微架構的升級都帶來了性能的顯著提升:2018年公司推出的首款支持實時光線追蹤的 Turing 架構 GeForce RTX 2080 顯卡,可以在游戲中行業深度 9/34 請務必閱讀正文之后的免責條款部分 通過模擬光線的物理行為,實現電影級質量的實時渲染,引領了 3A 大作發展的方向;公司推出的 DLSS(深度學習超級采樣抗鋸齒)技術在不影響游戲性能的同時,能提供與TAA 抗鋸齒技術幾乎相同的畫質,根據快科技測試,RTX 2080 DLSS 的性能領先上一代GTX
30、1080 TAA 達到了 80%。圖8:公司游戲業務收入情況(億美元、%)圖9:公司游戲顯卡發展歷史 資料來源:彭博,浙商證券研究所 資料來源:CSDN、英偉達、中號硬核玩家等、浙商證券研究所整理 圖10:NVIDIA Ada Lovelace 架構能實現更擬真的光線追蹤效果 圖11:DLSS 利用 AI 實現性能的成倍提升 資料來源:英偉達官網,浙商證券研究所 資料來源:英偉達官網,浙商證券研究所(3)專業可視化:專業圖形領域領導者。)專業可視化:專業圖形領域領導者。公司為獨立軟件供應商(ISV)合作,為在設計與制造環節與數字內容創作環節的 3D 藝術家、建筑師和產品設計師等提供從桌面到云端
31、的 RTX 和 Quadro 解決方案;隨著大模型的興起,企業工作站也開始進行更新迭代,2023 年全年實現收入 12.72 億美元,同比-3.56%,其中 2023Q4 實現收入 4.63 億美元,同比+105%。行業深度 10/34 請務必閱讀正文之后的免責條款部分 圖12:公司專業可視化業務收入情況(億美元、%)圖13:公司專業可視化產品發展歷史 資料來源:彭博,浙商證券研究所 資料來源:CSDN、英偉達、浙商證券研究所整理 (4)自動駕駛:)自動駕駛:前瞻布局的中長期增長業務。前瞻布局的中長期增長業務。公司通過 DRIVE 系列品牌,為交通運輸業構建出軟件定義的端到端平臺及解決方案,客
32、戶可以基于該平臺快速高效地開發自動駕駛產品;硬件端包括 Orin、Atlan、以及將于 2025 年投入生產的 Thor SOC,軟件端包括針對車載加速計算率先推出的安全操作系統 OS,針對自動駕駛汽車開發的 DriveWorks 中間件,包含感知、地圖構建和規劃層的 AV 軟件棧,AI 輔助駕駛平臺 Chauffeur,為 AI 駕駛艙創新解決方案提供艙內感知的開放軟件平臺 IX,實現實時對話式 AI 的 Concierge,使用準確的真值地圖和可擴展的車隊來源地圖來創建和更新自動駕駛汽車地圖 Map 等產品;2023 年全年實現收入 10.90 億美元,同比-17.36%,其中 2023Q
33、4 實現收入 2.81 億美元,同比+24.34%。圖14:公司自動駕駛業務收入情況(億美元、%)圖15:公司自動駕駛產品發展歷史 資料來源:彭博,浙商證券研究所 資料來源:英偉達等、浙商證券研究所整理 1.3 三十年三十年專注的專注的高研發高研發投入,投入,奠定奠定高業績高業績成長基石成長基石 與與 Intel、AMD 相比,相比,CUDA 軟件生態帶來的毛利率軟件生態帶來的毛利率、凈利率、凈利率優勢明顯優勢明顯。公司上市以來毛利率及凈利率隨行業及業務的變化經歷了三個階段:1)上市前至 2003 年,受公司與微軟就 Xbox 降價問題的影響,公司毛利率從 2001 年的 37.92%下跌至
34、2003 年的 29.01%、利潤率則從 12.92%下降至 4.08%,后續隨著公司與Intel、索尼簽單,毛利率、凈利率逐步回升;行業深度 11/34 請務必閱讀正文之后的免責條款部分 2)2004-2008 年,受全球經濟危機、研發 CUDA 初期的技術不成熟影響,當時的G84/G86 核心產品出現了過熱而導致花屏的“顯卡門”事件,公司毛利率從 2007 年的45.62%下跌至 2008 年的 34.29%,利潤率則從 19.46%轉負為-0.88%,后續隨著 2009 年Fermi 架構的 GPU 推出,毛利率、凈利率實現了快速修復;3)2009 年至今,在全球經濟復蘇以及 CUDA
35、帶來的軟件生態優勢拉動下,與 Intel、AMD 相比,公司毛利率、利潤率開始呈現明顯領先的上升態勢,毛利率持續上行從 2008年的 34.29%提升至 2023 年的 72.7%、凈利率也同步從-0.88%大幅提升至 48.85%。圖16:可比公司毛利率情況(%)圖17:可比公司凈利率情況(%)資料來源:彭博,浙商證券研究所 資料來源:彭博,浙商證券研究所 公司常年專注投入研發,研發費用處于高位水平。公司常年專注投入研發,研發費用處于高位水平。上市以來,公司通過“三團隊-兩季度”的研發模式以及聚焦 GPU 研發,實現了在單一領域與友商相比更高的研發投入:1)在 1999-2005 年與 AT
36、I 的競爭中,公司的研發費用從 1999 年的 0.32 億美元快速提升至 2005 年的 3.52 億美元,CAGR 達到 61.54%;2)在 2006 至今與 AMD 的競爭中,公司的研發費用從 2005 年的 3.6 億美元快速提升至 2023 年的 86.75 億美元,CAGR 達到 19.34%;與 AMD 相比,2005 年公司研發投入為AMD 的 32.73%,而 18 年后的 2023 年,公司研發投入已是 AMD 的 1.47 倍;同時由于公司聚焦 GPU 的研發而 AMD 則需要同時對 CPU 進行投入并于 Intel 展開競爭,我們估計2023 年在 GPU 領域的研發
37、投入倍數將大于 1.47。圖18:可比公司研發費用絕對值情況(億美元)圖19:可比公司研發費用率情況(%)資料來源:彭博,浙商證券研究所 資料來源:彭博,浙商證券研究所 行業深度 12/34 請務必閱讀正文之后的免責條款部分 憑借超強的研發投入實現了強大的產品力,銷售及管理費用率從常年的憑借超強的研發投入實現了強大的產品力,銷售及管理費用率從常年的 10%逐步下逐步下降降。公司上市以來銷售費用率穩定在 10%并呈逐步下降趨勢;2021 年銷售及管理費用率從10.01%提升至 11.63%,主要原因是收購 Mellanox;2023 年,由于公司數據中心業務的爆發,公司銷售及管理費用率下降至 4
38、.36%。圖20:可比公司銷售及管理費用率(%)資料來源:彭博、Wind、浙商證券研究所 2 歷史復盤:歷史復盤:用產品用產品定義算力發展史定義算力發展史 2.1 2000 年前:年前:從“狂野西部”從“狂野西部”通用圖形計算起步通用圖形計算起步,憑借憑借更加更加高效的研發模高效的研發模式式、綁定、綁定大客戶大客戶微軟微軟勝出并勝出并定義定義世界首款世界首款 GPU“Pre GPU”時期時期,圖形計算芯片技術快速迭代,百家爭鳴:圖形計算芯片技術快速迭代,百家爭鳴:上世紀 90 年代初,高性能圖像主要用于圖形工作站和視頻游戲機中,1995 年微軟推出的 Windows 95 具備音視頻等多媒體功
39、能、大量 3D 渲染游戲登錄 PC 平臺、圖形芯片集成度提升推動了 3D 圖像市場的發展;因而“Pre GPU”時期的圖形計算芯片技術路線經歷了單純輔助 CPU 進行圖形顯示、可進行 2D 加速計算、可進行 3D 加速計算、具備固定的渲染管線四個階段,S3、ATI、AMD、英偉達、3DFX 等眾多大小玩家展開激烈競爭,一度形成“百家爭鳴”局面,激烈的市場競爭帶來的是圖形處理芯片的快速迭代和演進。圖21:“Pre GPU”時期圖形計算芯片技術發展路線圖 資料來源:愛集微、浙商證券研究所 行業深度 13/34 請務必閱讀正文之后的免責條款部分 英偉達英偉達成立初期成立初期專注專注圖形計算芯片的圖形
40、計算芯片的 PC 消費市場消費市場:1993 年,Jenson Huang(黃仁勛)及來自于 Sun Microsystem 的兩位工程師 Chris Malachowsky 和 Curtis Priem 認為個人電腦將會成為游戲、多媒體的主流消費設備,因而共同創立了英偉達(Nvidia),專注于圖形計算芯片的設計與研發。1994-2000 年年公司完成了技術和產品積累:公司完成了技術和產品積累:1994 年,公司與意法半導體首次開展戰略合作,意法半導體為公司制造單芯片圖形用戶界面加速器;1995 年,公司發布首款產品NV1;1997 年,公司推出 RIVA 128 系列產品,憑借高性能+低結
41、構成本而廣受市場好評,出貨量超過 100 萬臺,在性能方面甚至優于英特爾于下一年推出的 i740,而 Intel 則逐步退出了獨立顯卡市場;1998 年,公司與臺積電建立合作伙伴關系,自此 OEM 成為公司重要的銷售模式;1999 年,公司推出了世界第一款 GPUGeForce 256,整合了關鍵的硬件變換和光照(T&L)、立方環境材質貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素 256 位渲染引擎等功能,并且兼容 DirectX 和 OpenGL 兩大通用 API;2000 年,公司成功收購曾在 1995 年推出消費領域史上第一款 3D 圖形加速卡 Voodoo 的圖形顯卡先驅3d
42、fx。表2:Riva128 與 i740 對比情況 RIVA128ZX i740 填充率(百萬像素/秒)100 66 儲存器接口 128-bit 64-bit 幀緩沖總線帶寬 1.6GB/s 800MB/s 資料來源:英偉達,Intel,浙商證券研究所整理 在圖形市場發展初期,面對技術及標準不成熟、行業迭代速度快且競爭激烈等難題,公司憑借“三團隊公司憑借“三團隊-兩季度兩季度”的的更快速高效的更快速高效的研發研發運營運營模式模式比競爭對手更加快速地響應下游比競爭對手更加快速地響應下游需求的變化、推出全面的產品矩陣需求的變化、推出全面的產品矩陣、果斷、果斷綁定大客戶微軟綁定大客戶微軟實現了份額的
43、快速提升,從而在實現了份額的快速提升,從而在競爭中勝出競爭中勝出:(1)研發上,)研發上,公司采用公司采用了了“三團隊“三團隊-兩季度兩季度”的高效的高效研發模式研發模式實現實現了技術和產品的了技術和產品的快速快速迭代:迭代:圖形市場產品研發周期包括短周期(6-9 個月)和長周期(12-18 個月)兩類,公司則采用“三團隊-兩季度”的研發模式,即采用三個并行開發團隊專注于第一年秋季、第二年春季、第二年秋季這三個獨立的分階段產品開發,這使得公司可以每 6 個月推出一次新產品,領先市場 1-2 個研發周期,能夠更快滿足下游需求的變化;(2)產品上,公司不斷豐富產品矩陣:)產品上,公司不斷豐富產品矩
44、陣:公司在 GeForce 256 時代便通過 DDR、SDR和 TNT 三個系列實現了高中低端的全面布局;(3)戰略上,公司)戰略上,公司綁定綁定大客戶大客戶微軟微軟:NV1 由于不兼容競爭 3dfx 的 GLIDE 3D 主流技術標準、成本高、無性能優勢因而市場表現平平,公司一度陷入破產的邊緣;此時公司做出了重大決定:支持當時微軟剛剛推出的 Direct 3D 標準與 GLIDE 進行競爭,依靠著Windows 95 操作系統的高占有率,英偉達 Riva 128 顯卡出貨量逐漸上升并超越 3dfx,后續憑借 GeForce 256 擴大優勢并最終收購 3dfx。行業深度 14/34 請務必
45、閱讀正文之后的免責條款部分 2.2 2000-2005:客戶多元化,客戶多元化,通過性能優勢通過性能優勢掌握掌握 PC 獨顯龍頭地位獨顯龍頭地位 GPU 時代時代初期初期,大客戶大客戶微軟引領圖形硬件標準微軟引領圖形硬件標準,圖形顯卡雙雄局面形成,圖形顯卡雙雄局面形成:2001 年,微軟發布了包含全新 Shader Model(優化渲染引擎模式)1.0 標準的 DirectX 8.0,由于遵循這一接口標準的 GPU 具備頂點和像素的可編程性,微軟開始引領圖形硬件標準,圖形顯卡領域呈現英偉達、ATI(后被 AMD 收購)雙寡頭的局面。2001-2005 年,年,與微軟合作失敗后與微軟合作失敗后,
46、公司積極尋求多元客戶支持,并通過產品性能再公司積極尋求多元客戶支持,并通過產品性能再度占據度占據 PC 獨顯龍頭地位:獨顯龍頭地位:(1)2000 年公司為微軟首款 Xbox 游戲機提供圖形處理器,但因交付價格問題產生矛盾而失去了訂單(改為競爭對手 ATI 供應),這使得公司 2003 年營收減少,錯過了微軟DirectX9 規格確立的重要消息,直接導致當年推出的 GeForce FX 由于兼容性問題敗給 ATI的 Radeon9700;(2)面對困境,公司積極尋求多元客戶支持:面對困境,公司積極尋求多元客戶支持:1)主動與微軟和解,爭取再次合作;2)和 Intel 達成了專利交叉許可協議;3
47、)爭取到為索尼 PS3 游戲機開發處理器的訂單、與暴雪娛樂合作發布基于 3D 圖形世界的全球大型多人在線游戲魔獸世界;(3)持續迭代:持續迭代:2004 年,公司汲取以往教訓推出全新的 GeFroce 6800Ultra,并憑借優異的產品性能再次奪回 GPU 老大的地位;至 2006 年,ATI 被 AMD 斥資達 54 億美元收購,后續專向中低端市場,自此公司牢牢掌控了 GPU 高端市場并重回增長軌道;圖22:公司發展前期營業收入情況(億美元,%)圖23:獨立 GPU 市占率變化情況(%)資料來源:彭博、浙商證券研究所 資料來源:Jon Peddie Research、浙商證券研究所 表3:
48、6800Ultra、X800 參數比較 芯片廠商芯片廠商 制造工藝制造工藝 核心頻率核心頻率 顯存頻率顯存頻率 顯存類型顯存類型 顯存容量顯存容量 顯存位寬顯存位寬 顯存帶寬顯存帶寬 DirectX 版本版本 GeForce6800Ultra NVIDIA 0.13 微米 400MHz 1100MHz DDR3 256MB 256bit 35.2GB/s 9.0C X800 ATI 0.11 微米 400MHz 700MHz DDR3 256MB 256bit 22.4GB/s 9 資料來源:芯參數、浙商證券研究所整理 2.3 2006-2015:以游戲業務筑基,以游戲業務筑基,培育培育以以
49、CUDA 為核心的為核心的通用計算通用計算體系體系 因時機和定位因時機和定位失誤失誤,錯失錯失手機終端手機終端機遇:機遇:2006-2011 年,以智能手機為代表的移動終端逐步興起,2010 年功能與設計理念領先業界 3 年的劃時代產品 iPhone 4 帶來了全球智能手機滲透率的二階導拐點,2009-2015 年智能手機滲透率從 14.38%提升至 74.08%;公司早行業深度 15/34 請務必閱讀正文之后的免責條款部分 在 2003 年便開始通過收購布局移動端圖像芯片,認為未來能實現通話和多媒體功能的手機將成為重要市場,此后的 2008 年公司依靠平板和游戲機的優勢推出了針對移動端的Te
50、gra,但由于高通憑借基帶技術占據主流,而 Tegra 后續芯片未能及時整合基帶技術而無法及時占領市場,公司因而錯失了移動時代機遇,此后公司果斷放棄手機市場并將 Tegra處理器運用在智能汽車、智慧城市和云端服務上。表4:2002-2013 年英偉達收購匯總 年份年份 收購公司收購公司 收購目的收購目的 2002 Exluna 提供設計人才,推動 CG 語言進入電影行業。2003 MediaQ 打開快速增長的移動和手持市場領域。2004 iReady 獲得用于支持超高性能以太網絡的傳輸技術 2005 ULIElectronics ULI 為 ATI 提供南橋部件 2006 Hybrid Gra
51、phics 打開手持設備領域,開發圖像解決方案 2006 PortalPlayer 將 GPU 和 PortalPlayer 應用處理器結合,完善手持產品線戰略分布 2008 Ageia 將 PhysX 物理引擎和 GPU 集成 2011 Icera 幫助代工廠縮短產品上線時間,滿足下一代移動計算需求 2013 PGI 為 HPC 系統提供關鍵部件 資料來源:英偉達、浙商證券研究所整理 圖24:全球智能手機出貨情況(億部、%)資料來源:Wind、浙商證券研究所 超前推出超前推出 CUDA 進軍進軍 GPGPU,開始構建生態護城河,開始構建生態護城河:(1)讓只做讓只做 3D 渲染的渲染的 GP
52、U 技術通用化技術通用化:早期的 GPU 使用頂點著色單元和像素渲染單元兩種計算資源,兩種處理器數量的最佳比例是隨應用的變化而變化的,因此經常出現一種處理器不夠用、而另一種處理器閑置的情況,公司首席科學家 David Kirk 認為給 GPU裝備一組完全相同的、具有較強編程能力的內核,根據任務情況在頂點和片元處理任務之間動態分配可以極大程度提升 PC 的計算性能,同時將豐富的并行運算資源分享給開發者,便可具備重要的戰略意義,因而公司開始投入大量研發資源。行業深度 16/34 請務必閱讀正文之后的免責條款部分 (2)堅定方向堅定方向鋪長路:鋪長路:2006 年,公司推出了能夠讓 GPU 計算變得
53、通用化的 CUDA(Compute Unified Device Architecture)編程技術,并讓公司的每一顆 GPU 都支持CUDA;2007 年,公司推出了不具備繪圖能力的第一代大規模并行運算芯片 Tesla;CUDA初期投入成本較高,并給公司帶來了較大的業務壓力:1)在技術方面,芯片面積增大、散熱增加、成本上升、故障率增高,直接導致后續G84/G86 核心的產品出現了過熱而導致花屏的“顯卡門”事件,而公司也因此付出了近 2 億美元的一次性支出代價來解決產品質量問題;2)在研發上,保證每款產品的軟件驅動都支持 CUDA,會對公司的工程師帶來巨大的額外工作量;3)在資金上,一旦項目啟
54、動,在當時每年公司預估要在核心業務關系并不緊密的CUDA 平臺上投資高達 5 億美元,而 2006 年公司總收入 30.68 億美金;4)在外部環境上,2008 年 CPU 巨頭 AMD 收購公司對手 ATI 并形成了 CPU 整合GPU 的新解決方案;Intel 也終止了與英偉達的合作并在自家芯片組中集成了 3D 圖形加速器;2008 年經濟危機也導致了全球 PC 和獨顯出貨量同時出現了負增長;(3)公司在內憂外困的情況下仍然堅持)公司在內憂外困的情況下仍然堅持投入研發投入研發,研發費用逐年攀升,研發費用逐年攀升:2009 年公司推出 Fermi 架構的 GPU,因而經營得以快速恢復,再次奪
55、回市場領先地位,此后公司通過制程的進步及芯片設計的優化持續迭代引領行業;根據創事記,事后來看,公司在將 GPU轉化為更通用的計算工具上投入了將近 100 億美元;圖25:研發費用絕對值對比:Nvidia vs.AMD(億美元)資料來源:彭博、wind、浙商證券研究所 (4)通用計算價值初現,應用領域拓展:)通用計算價值初現,應用領域拓展:CUDA 拓展了 GPU 的應用領域,讓只做3D 渲染的 GPU 得以從游戲(圖形渲染)向外擴展至高性能計算、自動駕駛等多個領域,結合前期在游戲、移動領域的積累,公司逐步形成四大產品線:GeForce(PC、筆記本)、Quadro(工作站)、Tesla(大型高
56、性能計算)、Tegra(移動產品);行業深度 17/34 請務必閱讀正文之后的免責條款部分 圖26:英偉達數據中心平臺 資料來源:英偉達、浙商證券研究所 (5)2006 年以來,公司持續推進年以來,公司持續推進 CUDA 通用計算生態建設通用計算生態建設:1)架構端,公司每 2 年推出一個微架構,并對四大產品線進行全面升級;2)硬件端,公司 2019 年收購了網絡芯片龍頭 Mellanox,并形成了 CPU+GPU+DPU三芯布局;3)軟件端,公司研發了大量的加速庫、開發工具鏈,極大程度提升了易用性;最終公司形成了快速迭代的硬件+深度捆綁的軟硬件+大量外圍的二次開發者和易用的軟件生態三位一體的
57、生態飛輪。圖27:英偉達 GPU 架構演進圖 資料來源:英偉達、浙商證券研究所 終端多元化終端多元化背景下背景下,聚焦高端游戲卡,聚焦高端游戲卡穩定增長態勢穩定增長態勢:2012 年,平板電腦、筆記本電腦等終端的多元化使得 PC 出貨開始呈下降趨勢,同時集顯性價比的逐步提升擠占了獨顯市場空間,公司戰略聚焦高端游戲卡,通過 GeForce 系列站穩腳跟;根據公司披露,2010-2015 年公司游戲業務收入五年 CAGR 達到 21%,游戲顯卡出貨量五年 CAGR 為 9%、ASP行業深度 18/34 請務必閱讀正文之后的免責條款部分 五年 CAGR 為 11%,游戲業務實現了逆勢增長,并為公司創
58、造了確定的業績增長與健康的現金流,奠定了通用 GPU 和 AI 業務爆發的基石。圖28:全球 PC 出貨量(億臺、%)圖29:全球桌面顯卡出貨量(萬塊、%)資料來源:wind、浙商證券研究所 資料來源:華經產業研究院、浙商證券研究所 圖30:全球獨立顯卡市場占有率情況(%)圖31:公司游戲業務收入情況(億美元、%)資料來源:Jon Peddie Research、浙商證券研究所 資料來源:彭博、浙商證券研究所 2.4 2016 至今:至今:CUDA 開花結果,開花結果,云端云端數據中心數據中心業務業務開啟新一輪成長曲線開啟新一輪成長曲線 2016 年至今,算力需求側經歷了大數據及云服務(201
59、6-2018)、云端辦公和娛樂(2020-2021)、云端 AI 訓練(2023 至今)三大階段,公司借助 CUDA 成長為全球算力龍頭。圖32:海外主要云廠商季度 Capex(億美元、%)圖33:海外主要云廠商季度 Capex 同比增速 vs 英偉達數據中心業務季度同比增速(%)資料來源:彭博、wind、浙商證券研究所 資料來源:彭博、wind、浙商證券研究所 行業深度 19/34 請務必閱讀正文之后的免責條款部分 2.4.1 2016-2019:大數據與云服務階段,:大數據與云服務階段,憑借憑借 GPU 的通用性的通用性登上數據中心登上數據中心芯片芯片王座王座 大數據催生數據上云需求。大數
60、據催生數據上云需求。2016-2018 年,大數據的發展及移動互聯網流量產生的海量數據催生了數據上云的需求,同時分布式編程模式 MapReduce、分布存儲和管理技術、虛擬化技術等關鍵技術的成熟使得云服務能給客戶帶來的的經濟價值提升,海外云廠商紛紛自建大規模數據中心,2016-2017 年,亞馬遜、微軟、谷歌、Meta 四大云廠商 Capex 從309.62 億美元增長至 405.66 億美元,資本支出同比增長 31%。CUDA 積累積累的的 GPU 通用通用能力能力直接帶來公司數據中心業務直接帶來公司數據中心業務爆發爆發。海量數據帶來的計算需求激增,公司通過開發 CUDA 將 GPU 實現了
61、通用化,2016 年推出的 Pascal 架構的 P100具備 3840 個 CUDA 核,在海量數據的并行運算上具備顯著優勢,公司憑借 Tesla 系列V100、T4、P100、P4 等產品拔得頭籌。在 Liftr 與 2019 年進行的調查中顯示,公司的Tesla 系列產品在阿里云、亞馬遜 AWS、微軟 Azure、谷歌 GCP 四大云廠商中的專用加速器占有率分別為 82%、89%、100%和 100%,呈現絕對龍頭地位;根據海豚投研,公司在TOP500 系統中的份額從 2016 年的 6%迅速增長至 2017 年的 24%,一年內增長了 3 倍。圖34:四大云服務廠商 GPU 分布(%)
62、圖35:英偉達在 TOP500 系統中份額(%)資料來源:forbes、Liftr、浙商證券研究所 資料來源:GS、海豚投研、浙商證券研究所 2.4.2 2020-2022:云端辦公和娛樂云端辦公和娛樂階段,收購整合打造最強數據中心異構芯片階段,收購整合打造最強數據中心異構芯片+高速互聯高速互聯+網絡安全解決方案體系護城河網絡安全解決方案體系護城河 衛生事件衛生事件帶來的云端辦公和娛樂需求驅動了云廠商的第二輪帶來的云端辦公和娛樂需求驅動了云廠商的第二輪數據中心數據中心建設建設周期,數據周期,數據處理及帶寬互聯是關鍵處理及帶寬互聯是關鍵。2020 年,衛生事件導致全球生產經營和日?;顒佣际艿搅擞?/p>
63、響,催生了企業上云、人民消費娛樂上云的需求,亞馬遜、微軟、谷歌、Meta 四大云廠商合計Capex 從 2020Q1 至 2022Q4 連續 12 個季度保持同比 20%以上的高速增長,云廠商開啟了第二輪建設周期;同時,企業要求數據中心除了簡單的存儲以外,能夠實現一定程度的數據分析,虛擬機和容器(containers)等技術的流行也使得應用程序更多放在多臺服務器上進行分布式運行,這兩大趨勢要求未來的數據中心需要同時具備大規模數據處理能力和高帶寬互連技術。收購整合構筑數據中心收購整合構筑數據中心上下游一體的體系化護城河上下游一體的體系化護城河。公司于 2019 年斥資 69 億美金收購了 Inf
64、iniBand 和以太網領軍 Mellanox,而 Mellanox 則在 2020 年收購了網絡安全和智能IP 提供商 Titan IC,該套娃式收購大大提升了公司云端 AI 產品體系的競爭力,將公司在單機上的生態優勢成功拓展到了分布式集群中:分布式訓練對于數據交互的需求非常高,而行業深度 20/34 請務必閱讀正文之后的免責條款部分 Mellanox 的數據互聯方案+英偉達的 GPU 底層接口可以成為完善的工程解決方案,Titan IC提供的網絡安全和內容智能又能夠實現在硬件加速器中檢測惡意入侵的網絡流量并減少了CPU 負載,最終公司構建起了包含人工智能芯片及生態+高速數據互聯解決方案+網
65、絡安全加速的橫跨多個領域的完整方案。DPU 專為減少專為減少 CPU 負荷負荷、進一步提升大規模數據中心系統效率、進一步提升大規模數據中心系統效率而生。而生。數據大爆發的時代,仍存在 CPU 處理效率低下、GPU 處理不了的負載,如網絡虛擬化、硬件資源池化等基礎設施層服務,DPU 可作為 CPU 的卸載引擎,通過承擔網絡、存儲、安全等業務,提升整個計算系統的效率、降低整體系統的總體擁有成本(TCO)。圖36:未來算力生態 資料來源:智東西、浙商證券研究所 公司公司集成集成 CPU+GPU+DPU 形成三芯形成三芯異構異構硬件布局硬件布局,實現數據中心芯片體系的“降本,實現數據中心芯片體系的“降
66、本增效”增效”。公司在 2020 年憑借 Mellanox 原有的 ConnectX 系列高速網卡技術,推出了 DPU(數據處理器)BlueField-2,并在 2021 年推出了匹配的 DOCA(Data-Center-Infrastructrue-On-A-Chip-Architectrue,即“線上數據中心基礎設施體系結構”)生態,BlueField 系列DPU 在支持網絡處理、安全和存儲功能的同時,實現網絡虛擬化、硬件資源池化等基礎設施層服務,同時可釋放高達 30%的 CPU 資源;而 DOCA 軟件框架使開發者能夠在 BlueField DPU 上快速創建應用程序和服務,為開發者構建
67、軟件定義、硬件加速網絡、存儲、安全和其他基礎設施應用程序提供了一個全面的開放平臺。圖37:英偉達三芯布局產品線 圖38:DOCA 軟件體系 資料來源:NVDIA GTC2021,浙商證券研究所 資料來源:英偉達官網、浙商證券研究所 行業深度 21/34 請務必閱讀正文之后的免責條款部分 2.4.3 2023 至今:大模型浪潮引爆公司數據中心業務成長至今:大模型浪潮引爆公司數據中心業務成長 GPT 本質是基于本質是基于 Transformer 架構的架構的大模型大模型。GPT,全稱Generative Pre-training Transformer,最初是一個由 OpenAI 開發的自然語言處
68、理(NLP)的模型,通過預訓練和通過預訓練和生成技術以及生成技術以及 Transformer 的自注意力機制,的自注意力機制,可以可以理解和生成人類的自然語言理解和生成人類的自然語言,比傳統的RNN、CNN 更快、更穩定、準確率更高、回答更富有邏輯性、并具備強大的泛化能力。圖39:監督微調-獎勵建模-強化學習過程 圖40:Transformer 架構 資料來源:畫宇宙、浙商證券研究所 資料來源:CSDN、浙商證券研究所 大模型對于算力的需求體現在模型訓練和推理應用兩個階段:大模型對于算力的需求體現在模型訓練和推理應用兩個階段:(1)訓練階段:根據 OpenAI 的論文Scaling Laws
69、for Neural Language Models(2020 年發表),訓練階段算力需求=3前向傳遞操作數模型參數數量訓練集規模,訓練所需 GPU 數量=總算力需求/(每個 GPU 每秒運算能力訓練時間有效算力比率),因此我們可以得到,單次訓練 GPT-4 需要約 2.65 萬張 A100。表5:大模型訓練階段對算力的需求 訓練算力需求訓練算力需求 GPT-3 GPT-4 SORA 平均參數數量(億個,N)1750 2800 100 單 Token 訓練所需運算次數(TFLOPS,6N)1.05 1.68 0.06 訓練數據 5 億圖片+1000 萬個視頻 圖片分辨率*像素數 9.72E+0
70、4 patch 量(個)1.75E+16 壓縮比例 20%patch 到 tokens 的換算比例 1.30E-03 單次訓練 Tokens 數量(億個)3000 130000 45689 訓練步數(steps)20 單次訓練所需總算力(TFLOPS)3.15E+11 2.184E+13 5.48E+12 單次訓練所需時間(天)90 90 90 按上述時間計算,每秒的訓練算力需求(TFLOPS)4.05E+04 2.81E+06 7.05E+05 A100 算力值(非稀疏,TFLOPS)312 312 312 集群利用率(MFU)34%34%34%所需卡數 382 26,477 6,647 資
71、料來源:Open AI、英偉達、智東西、新智元、CSDN、AIGC 開放社區、華爾街見聞、第一財經、浙商證券研究所 行業深度 22/34 請務必閱讀正文之后的免責條款部分 (2)推理階段:同樣根據 openAI 論文可以得到,單次 GPT-4 推理所需要的算力成本約為 0.05 美分,按照 AIPRM 統計,截至 2023 年 12 月,ChatGPT 擁有約 1.8 億用戶,平均每月產生 17 億次網站瀏覽量,則平均每天訪問次數為 567 萬次,假設每次訪問進行 10輪推理對話,則平均每秒進行推理次數為 17/30*10/3600*108157407 次,對應 GPT-4 需要 A100 為
72、 27.7 萬張。表6:大模型推理階段對算力的需求 推理算力需求推理算力需求 GPT-3 GPT-4 SORA 平均參數數量(億個,N)1750 2800 100 單 Token 推理所需運算次數(TFLOPS,2N)0.35 0.56 0.02 單次推理視頻長度(秒)60 每秒幀數 30 圖片分辨率*像素數 1.94E+05 patch 量(個)3.50E+08 patch 到 tokens 的換算比例 1.30E-03 單次推理 Tokens 數量(億個)1.00E-05 1.00E-05 4.56E-03 推理步數(steps)20 單次推理所需算力(TFLOPS)350.00 560.
73、00 182,250 假設單次推理所需時間(秒)3 3 3 單次按上述時間計算,每秒的推理算力需求(TFLOPS)116.67 186.67 60,750.00 A100 算力值(非稀疏,TFLOPS)312 312 312 集群利用率(MFU)34%34%34%所需卡數 1.10 1.76 572.68 資料來源:Open AI、英偉達、智東西、新智元、CSDN、AIGC 開放社區、華爾街見聞、第一財經、浙商證券研究所 大模型引爆算力需求。大模型引爆算力需求。根據 IDC 預計,數據中心 GPU 市場預計將從 2022 年的 103 億美元增長至 2027 年的 654 億美元,CAGR 達
74、到 44.55%;AMD 報告顯示,2023 年全球 AI芯片市場規模會達 450 億美元左右,預計 2027 年將增長到 4000 億美元,2023 年-2027 年復合增速超過 70%。圖41:全球數據中心 GPU 市場規模(億美元、%)圖42:Transformer 架構示意圖 資料來源:IDC、浙商證券研究所 資料來源:CSDN、浙商證券研究所 公司憑借數據中心產品和生態體系一飛沖天。公司憑借數據中心產品和生態體系一飛沖天。公司 2023Q3-2023Q4,數據中心業務收入分別達到 145.14、184.04 億,同比增速達到 278.66%、408.96%;截至 2024 年 3 月
75、 27日,市值達到 2.3 萬億美元,較 2023 年初漲幅超過 530%。行業深度 23/34 請務必閱讀正文之后的免責條款部分 順勢而為切入云端定制順勢而為切入云端定制 ASIC。由于算力成本高企,云計算公司紛紛開始自研芯片以部分替代英偉達產品,根據財聯社,2 月 9 日消息人士透露,英偉達正在建立一個新的業務部門,專注于為云計算等公司設計定制芯片以及先進的人工智能(AI)處理器;我們認為公司此舉既能減少客戶自研芯片帶來的替代壓力,又能為我們認為公司此舉既能減少客戶自研芯片帶來的替代壓力,又能為長期長期芯片芯片走向降本走向降本化、定制化提前做好準備?;?、定制化提前做好準備。我們認為,從 1
76、0 年維度下的長期視角來看,單位算力成本的下降是確定的趨勢,根據 CSET 報告AI Chips:What They Are and Why They Matter,與GPU 相比,ASIC 芯片在訓練上的效率平均約為 10 倍、推理上的效率約為 100 倍,因而隨著大模型的發展逐步進入成熟期,ASIC 的芯片市場規模有望逐步提升,根據研究公司 650 Group 的 Alan Weckel 的估計,數據中心定制芯片市場今年將增長到高達 100 億美元,到2025 年將翻一番。表7:AI 芯片與 CPU 芯片在大模型訓練中的效率和速度對比 訓練訓練 推理推理 通用性通用性 推理準確度推理準確度
77、 效率效率 速度速度 效率效率 速度速度 CPU 一倍基準 非常高 98%-99.7%GPU 10-100 倍 10-1000 倍 1-10 倍 1-100 倍 高 98%-99.7%FPGA-10-100 倍 10-100 倍 中等 95%-99%ASIC 100-1000 倍 10-1000 倍 100-1000 倍 10-1000 倍 低 90%-98%資料來源:CSET、浙商證券研究所 前瞻布局移動基站,劍指邊緣計算。前瞻布局移動基站,劍指邊緣計算。根據新浪財經、財聯社,英偉達正在與電信基礎設施建設者愛立信就一款包含芯片設計公司的圖形處理單元(GPU)技術的無線芯片進行談判,同時軟銀和
78、英偉達將聯合成立一個新的行業協會“AI-RAN 聯盟”,電信巨頭愛立信、諾基亞等全球約 10 家公司也將參加其中,致力于將利用移動通信基站分散 AI 處理的技術實用化。我們認為長期看,未來我們認為長期看,未來 AI 算力增量需求場景將逐步由云向邊緣、端側轉移,公司有算力增量需求場景將逐步由云向邊緣、端側轉移,公司有望在邊緣側復制云端的成功經驗。望在邊緣側復制云端的成功經驗。根據 TDIA 預計,2023 年底全球 5G 基站將突破 480 萬個,650 Group 的 Weckle 預計電信定制芯片市場每年約為 40 億至 50 億美元。3 巨頭成長之路總結:巨頭成長之路總結:專注專注帶來帶來
79、前瞻前瞻,通用通用誕生誕生生態生態 3.1 專注專注計算芯片,計算芯片,帶來前瞻帶來前瞻戰略思維戰略思維 專注專注 GPU,保持高強度研發投入。,保持高強度研發投入。英偉達以圖形處理器起家,1999 年,英偉達發布了世界上第一個正式的 GPUGeForce 256。隨后,公司持續加大研發投入,深耕 GPU領域,無論是游戲顯卡、數據中心加速卡、自動駕駛芯片、可視化領域,英偉達不斷推展產品終端用戶群體的同時,始終保持 GPU 產品的研發和迭代。公司研發費用率常年保持在20%-30%,同時隨著營收規模的增長,研發人員以及研發金額也不斷攀升。行業深度 24/34 請務必閱讀正文之后的免責條款部分 圖4
80、3:可比公司研發費用絕對值情況(億美元)圖44:可比公司研發費用率情況(%)資料來源:彭博,浙商證券研究所 資料來源:彭博,浙商證券研究所“三團隊兩季度”驅動創新?!叭龍F隊兩季度”驅動創新。英偉達成立伊始,為了應對圖形芯片市場激烈的競爭,采用“三團隊兩季度”的研發策略,將研發團隊分為產品、硬件、軟件三個團隊,每個團隊專注于自身負責領域以保證產品創新性,同時兩季度研發模式保證公司每六個月迭代一次產品,領先市場研發周期的同時,充分滿足下游市場需求。產品端產品端:專注游戲顯卡領域競爭,迎合玩家需求快速迭代產品。:專注游戲顯卡領域競爭,迎合玩家需求快速迭代產品。2010 年后,英偉達和AMD 逐漸搶占
81、其他公司份額,成為獨立顯卡領域唯二的巨頭。隨后在游戲顯卡領域,英偉達加速產品迭代速度以及性價比的提升,逐步提升市場份額,截止 2023Q3,英偉達獨立顯卡市場份額達到 81.50%。我們認為,正是公司專注于我們認為,正是公司專注于 GPU 研發,帶來了游戲顯卡的快研發,帶來了游戲顯卡的快速迭代以及性價比的快速提升,牢牢抓住玩家需求,最終成長為市場龍頭。速迭代以及性價比的快速提升,牢牢抓住玩家需求,最終成長為市場龍頭。表8:Nvidia VS AMD 產品迭代情況 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 Nvidia
82、 GeForce GTX 580 GeForce GTX 680 GeForce GTX 780 GeForce GTX 980 GeForce GTX 980 Ti GeForce GTX 1080 TITAN V GeForce RTX 2080 GeForce RTX 2080 Super GeForce RTX 3080 GeForce RTX 3080 Ti GeForce RTX 4090 AMD Radeon HD 6990 Radeon HD 7970 Radeon HD 8970 Radeon R7 250X Radeon R9 380X Radeon RX 470 Rade
83、on RX 560 Radeon 550X Radeon VII Radeon RX 6900XT Radeon RX 6600 Radeon RX 7900XTX 資料來源:CSDN 等、浙商證券研究所整理 圖45:獨立顯卡市場占有率情況(%)資料來源:Jon Peddie Research、浙商證券研究所整理 微架構創新,從底層突破微架構創新,從底層突破 GPU 性能與效率。性能與效率。公司自 2006 年自研的 Tesla 架構開始。不斷更新 GPU 架構,平均兩年迭代一次 GPU 架構。目前公司旗艦產品采用 Hopper 架構,采用臺積電 4nm 制程,下一代游戲顯卡 RTX50 系產
84、品以及數據中心產品 B100 將采用行業深度 25/34 請務必閱讀正文之后的免責條款部分 Blackwell 架構,將使用臺積電的 4nm 工藝,與現有采用 Hopper 架構的 H200 系列相比,性能提升超過 100%。公司 GPU 架構發展歷程詳見圖 27。前瞻性:預見前瞻性:預見 CUDA 生態的革命性。生態的革命性。英偉達于 2006 年開發 CUDA,從今天的眼光來看,這項決策領先了市場十年之久,對比另一家 GPU 巨頭 AMD,AMD 于 2015 年為了對標 CUDA 生態開發了 ROCm,落后英偉達 9 年。表9:CUDA VS ROCm CUDA ROCm 開發時間 20
85、06 年 2015 年 兼容性 NVIDIA GPU AMD Radeon GPU、CPU 開源 專有平臺 開源平臺 生態系統 TensorFlow、PyTorch、CUDNN 等 TensorFlow、PyTorch、Mlopen 等 開發者體驗 NVIDIA 提供豐富的文檔和案例 缺乏詳細的指導 行業采用 遠超 ROMc 和 OpenCL 的份額 相對較少 資料來源:CSDN 等、浙商證券研究所整理 3.2 注重注重技術技術復用性復用性,讓讓研發研發投入投入落到實處落到實處 決策高效干脆決策高效干脆,放棄手機放棄手機芯片芯片市場市場。2008 年公司依靠平板和游戲機的優勢推出了針對移動端的
86、 Tegra,但由于高通憑借基帶技術占據主流,而 Tegra 后續芯片未能及時整合基帶技術而無法及時占領市場,公司因而錯失了移動時代機遇,此后公司果斷放棄手機市場并將 Tegra 處理器運用在智能汽車、智慧城市和云端服務上。圖46:英偉達 Tegra 芯片 圖47:同時搭載高通芯片與 Tegra 的小米 3 資料來源:英偉達、浙商證券研究所 資料來源:小米、浙商證券研究所 技術復用,開辟汽車芯片市場。技術復用,開辟汽車芯片市場。2015 年國際消費類電子產品展覽會上,英偉達發布新一代移動超級芯片 Tegra X1 處理器,該處理器在性能上是上一代產品 Tegra K1 的兩倍。該處理器適配 N
87、VIDIA DRIVE PX 汽車自動駕駛計算平臺,可處理來自 12 個車載攝像頭的視頻,以實現環繞視覺(Surround-Vision)和自動代客泊車(Auto-Valet)等功能。雖然英偉達在移動芯片領域折戟沉沙,但其技術上極強的復用性,最終使其成功轉向至汽車芯片領域。行業深度 26/34 請務必閱讀正文之后的免責條款部分 圖48:Tegra X1 相較前一代的性能巨大提升 圖49:Tegra X1 采用 Maxwell 架構 資料來源:英偉達、浙商證券研究所 資料來源:英偉達、浙商證券研究所 圖50:Tegra X1 基于深度學習可以識別現實世界的事物 資料來源:英偉達、浙商證券研究所
88、3.3 重視通用性,重視通用性,引入生態共建引入生態共建 GPGPU:通用化漫漫長路。:通用化漫漫長路。GPU 一開始只是為了圖形加速,替 CPU 分擔工作。其主要用于顯示圖像、視頻的編解碼與顯示、游戲渲染等工作,起初并不支持編程。在 1999 年之前甚至沒有 GPU 這一概念,只是稱為圖形加速卡。英偉達發現了 GPU 在并行計算方面的優勢,并且在科學、工程和人工智能領域,許多問題都可以通過并行計算來加速解決。表10:GPU VS CPU GPU CPU 核心數量 數百到數千個核心,更強的并行性 通常幾個到十幾個 核心類型 專用型 通用型 指令執行方式 并行執行 順序執行 內存訪問速度 相對較
89、快 相對較慢 應用示例 圖形渲染、深度學習、科學模擬 數據庫管理、Web 服務器、桌面應用 編程模型 CUDA、OpenCL、ROMc 等專用語言 Python、C+等通用編程語言 功耗與效率 相對低功耗,適合高性能計算與深度學習 相對高功耗,適用于多種用途 并行性 高度并行 相對有限 資料來源:英偉達、浙商證券研究所整理 行業深度 27/34 請務必閱讀正文之后的免責條款部分 圖51:CPU 與 GPU 架構的根本區別 資料來源:英偉達、浙商證券研究所 CUDA 出現之前,GPU 的編程面臨多重挑戰:1)編程模型不足:)編程模型不足:沒有一種通用的編程模型來利用 GPU 的計算能力。開發人員
90、需要使用低級別的圖形 API(如 OpenGL 或 Direct3D)來執行計算任務。這些 API 并不專門用于通用計算,因此編寫代碼變得復雜且容易出錯。2)數據傳輸成本高:)數據傳輸成本高:將數據從 CPU 傳輸到 GPU 的成本很高。這涉及到數據的復制和傳輸,而這些操作會降低性能。和傳輸,而這些操作會降低性能。3)無法發揮并行性:)無法發揮并行性:開發人員需要手動管理 GPU 并行性,這對于復雜的計算任務來說是巨大的人力成本。降低開發者門檻,讓降低開發者門檻,讓 GPU 真正意義上“可編程”。真正意義上“可編程”。在經 GPU 加速的應用中,工作負載的串行部分在 CPU 上運行,且 CPU
91、 已針對單線程性能進行優化,而應用的計算密集型部分則以并行方式在數千個 GPU 核心上運行。使用使用 CUDA 時,開發者使用主流語言時,開發者使用主流語言(如(如 C、C+、Fortran、Python 和和 MATLAB)進行編程,并通過擴展程序以幾個基本)進行編程,并通過擴展程序以幾個基本關鍵字的形式來表示并行性。關鍵字的形式來表示并行性。英偉達英偉達的的 CUDA 工具包工具包提供了開發提供了開發 GPU 加速應用所需的一切。加速應用所需的一切。TensorRT 基于 CUDA 平臺并行編程模型構建,使開發者能夠在英偉達 GPU 產品上使用量化、層和張量融合、內核調整等技術來優化推理。
92、TensorRT 是英偉達基于 CUDA 一款用于高性能深度學習推理的 SDK(Software Development Kit),使用門檻相對較低,可以運用 C+、Python API 導入和加速模型。行業深度 28/34 請務必閱讀正文之后的免責條款部分 圖52:支持 C+API 接入 圖53:支持 Python API 接入 資料來源:英偉達、浙商證券研究所 資料來源:英偉達、浙商證券研究所 TensorRT 在低門檻開發的同時,能夠最大化挖掘在低門檻開發的同時,能夠最大化挖掘 GPU 性能。性能。NVIDIA TensorRT-LLM 是一個開源庫,可加速和優化 NVIDIA AI 平
93、臺上最新大型語言模型(LLM)的推理性能,而無需深入了解 C+或 CUDA。圖54:TensorRT 最大化 GPU 在 AI 推理中的性能 圖55:TensorRT 最小化客戶總擁有成本 資料來源:英偉達、浙商證券研究所 資料來源:英偉達、浙商證券研究所 CUDA 平臺允許開發者利用英偉達的 GPU 來加速計算密集型任務。在全球范圍內,許多行業領軍者采用 CUDA 平臺最大化其 GPU 性能,圖56:CUDA 平臺部分生態伙伴 資料來源:英偉達、浙商證券研究所 我們認為,正是公司我們認為,正是公司 CUDA 低門檻的特性低門檻的特性、GPU 過硬的性能,過硬的性能,引入了大批開發者建設 CU
94、DA 生態社區,最終 CUDA 綁定了數百萬 AI 開發者,當 CUDA 幾乎與 AI 畫等號行業深度 29/34 請務必閱讀正文之后的免責條款部分 的時候,會有大量的社區力量為其助力。這就是一種良性循環:好的性能帶來好的生態,好的生態會有助于更好的性能。最終幫助英偉達構建了強大的 CUDA 生態護城河。圖57:CUDA 生態部分伙伴 資料來源:英偉達、浙商證券研究所 4 國內國內相關公司相關公司:逐步追趕逐步追趕,國產化趨勢已現,國產化趨勢已現 4.1 華為華為昇騰騰:對標英偉達,有望成為國內第二對標英偉達,有望成為國內第二 AI 算力生態算力生態 昇騰處理器支持全場景。騰處理器支持全場景。
95、昇騰處理器是全球首個覆蓋全場景 AI 芯片,基于統一的達芬奇架構,可以支持端邊云不同場景的差異化算力需求,并具備從幾十毫瓦 IP 到幾百瓦芯片的平滑擴展,覆蓋了端邊云全場景部署的能力:圖58:昇騰芯片迭代計劃 資料來源:華為、新智元、199it、科大訊飛、IDC、AMD、英偉達、海光信息招股書等、浙商證券研究所 昇騰騰 910 訓練處理器具有超高算力,訓練處理器具有超高算力,FP16 下性能最高可達下性能最高可達 320TFLOPS。昇騰 910 集成了 CPU Core、DVPP 和任務調度器(Task Scheduler),可以減少和 Host CPU 的交互,充分發揮其高算力的優勢;還集
96、成了 HCCS、PCle 4.0 和 ROCE v2 接口,為構建橫向擴展(Scale Out)和縱向擴展(Scale Up)系統提供了靈活高效的方法,科大訊飛創始人、董事長劉慶峰表示華為的 GPU 能力可以對標英偉達 A100;行業深度 30/34 請務必閱讀正文之后的免責條款部分 表11:主流 AI 芯片性能比較 AMD 英偉達英偉達 華為華為昇騰騰 海光信息海光信息 寒武紀寒武紀 MI300X L40S A100 SXM H100 SXM 昇騰 310 昇騰 910 DCU 思遠 370 算力指標 FP64 47.9T-9.7T 34T-11.5T-FP32 47.9T 183T 19.
97、5T 67T-24T FP16 383T 362.05T 312T 989.5T 11T 320T-96T INT8-733T 624T 1979T 22T 640T-256T 內存容量 192GB 48GB 80GB 80GB-32GB 24GB 內存帶寬 5.05TB/S 864GB/S 1.99TB/S 3.35TB/S-1TGB/S 307.2GB/S 功耗 600W 350W 400W 700W 8W 310W 260-350W 150W 資料來源:華為、新智元、199it、科大訊飛、IDC、AMD、英偉達、海光信息招股書等、浙商證券研究所整理 華為華為昇騰騰 AI 產業生態包括產業
98、生態包括昇騰騰 AI 基礎軟硬件平臺基礎軟硬件平臺,即 Atlas 系列硬件、異構計算架構 CANN、全場景 AI 框架昇思 MindSpore、昇騰應用使能 MindX 以及一站式開發平臺ModelArts 等?;跁N騰 910 系列板卡,華為推出了 AI 訓練集群 Atlas900、AI 訓練服務器Atlas800、智能小站 Atlas500、AI 推理與訓練卡 Atlas300 和 AI 加速模塊 Atlas200,完成了Atlas 全系列產品布局,支持萬億參數大模型訓練,同時覆蓋云、邊、端全場景。華為提出了具備分層開放、體系協同、敏捷高效、安全可信等特征的,全行業通用的華為提出了具備分
99、層開放、體系協同、敏捷高效、安全可信等特征的,全行業通用的行業智能化參考架構。行業智能化參考架構。其中智能底座提供大規模 AI 算力、海量存儲及并行計算框架,支撐大模型訓練,提升訓練效率,提供高性能的存算網協同。根據場景需求不同,提供系列化的算力能力。適應不同場景,提供系列化、分層、友好的開放能力。另外,智能底座層還包含品類多樣的邊緣計算設備,支撐邊緣推理和數據分析等業務場景。圖59:華為昇騰 AI 產業生態 圖60:華為行業智能化參考框架 資料來源:鯤鵬社區、昇騰社區、浙商證券研究所 資料來源:鯤鵬社區、昇騰社區、浙商證券研究所 4.2 海光海光信息信息:類類 CUDA 帶來更好的生態兼容性
100、帶來更好的生態兼容性 海光海光 DCU 屬于屬于 GPGPU 的一種。的一種。性能上,海光深算一號 DCU 內核頻率、顯存位寬已逐步接近英偉達 A100,在顯存容量、帶寬、算力、互聯性能上仍有一定的進步空間;深算二號已于 2023 年 Q3 發布,實現了在大數據處理、人工智能、商業計算等領域的商業化應用,具有全精度浮點數據和各種常見整型數據計算能力,性能相對于深算一號實現了翻倍的增長;深算三號研發進展順利。行業深度 31/34 請務必閱讀正文之后的免責條款部分 在在 AIGC 持續快速發展的時代背景下,海光持續快速發展的時代背景下,海光 DCU 能夠完整支持大模型訓練能夠完整支持大模型訓練,實
101、現LLaMa、GPT、Bloom、ChatGLM、悟道、紫東太初等為代表的大模型的全面應用,與國內包括文心一言等大模型全面適配,達到國內領先水平。圖61:海光 DCU 組成部分 圖62:海光軟件棧體系 資料來源:海光招股書、海光官網、浙商證券研究所 資料來源:海光招股書、海光官網、浙商證券研究所 DCU 產品具備完善的軟件棧支持。產品具備完善的軟件棧支持。海光 DCU 協處理器全面兼容 ROCm GPU 計算生態,由于 ROCm 和 CUDA 在生態、編程環境等方面具有高度的相似性,CUDA 用戶可以以較低代價快速遷移至 ROCm 平臺,因此 ROCm 也被稱為“類 CUDA”。因此,海光 D
102、CU協處理器能夠較好地適配、適應國際主流商業計算軟件和人工智能軟件,軟硬件生態豐富,可廣泛應用于大數據處理、人工智能、商業計算等計算密集類應用領域,主要部署在服務器集群或數據中心,為應用程序提供高性能、高能效比的算力,支撐高復雜度和高吞吐量的數據處理任務。海光海光 DCU 具備開放式生態和統一底層硬件驅動平臺,具備開放式生態和統一底層硬件驅動平臺,支持常見計算框架、庫和編程模型層次化軟件棧,適配不同 API 接口和編譯器可最大限度利用已有的成熟 AI 算法和框架。4.3 寒武紀:寒武紀:云端芯片性能持續擴展云端芯片性能持續擴展,云邊終端協同,云邊終端協同覆蓋覆蓋 云端云端 AI 推理,高能效比
103、國產芯片。推理,高能效比國產芯片。思元 270 集成了寒武紀在處理器架構領域的一系列創新性技術,處理非稀疏人工智能模型的理論峰值性能提升至上一代思元 100 的 4 倍,達到 128TOPS(INT8);同時兼容 INT4 和 INT16 運算,理論峰值分別達到 256TOPS 和64TOPS;支持浮點運算和混合精度運算。思元 270 采用寒武紀 MLUv02 架構,可支持視覺、語音、自然語言處理以及傳統機器學習等多樣化的人工智能應用,更為視覺應用集成了充裕的視頻和圖像編解碼硬件單元。推理卡推理卡研發迭代,性能持續提升。研發迭代,性能持續提升。思元 370 是寒武紀首款采用 chiplet(芯
104、粒)技術的AI 芯片,集成了 390 億個晶體管,最大算力高達 256TOPS(INT8),是寒武紀第二代產品思元 270 算力的 2 倍。憑借寒武紀最新智能芯片架構 MLUarch03,思元 370 實測性能表現更為優秀。思元 370 也是國內第一款公開發布支持 LPDDR5 內存的云端 AI 芯片,內存帶寬是上一代產品的 3 倍,訪存能效達 GDDR6 的 1.5 倍。搭載 MLU-Link多芯互聯技術,在分布式訓練或推理任務中為多顆思元 370 芯片提供高效協同能力。全新升級的寒武紀基礎軟件平臺,新增推理加速引擎 MagicMind,實現訓推一體,大幅提升了開發部署的效率,降低用戶的學習
105、成本、開發成本和運營成本。行業深度 32/34 請務必閱讀正文之后的免責條款部分 先進工藝保障芯片制造。先進工藝保障芯片制造。公司已掌握 7nm 等先進工藝下開展復雜芯片物理設計的一系列關鍵技術,并且已將其成功應用于思元 100、思元 220、思元 270、思元 290、思元 370等多款芯片的物理設計中。表12:寒武紀產品線 產品線產品線 產品類型產品類型 寒武紀主要產品寒武紀主要產品 推出時間推出時間 云端產品線 云端智能芯片及加速卡 思元 100(MLU100)芯片及云端智能加速卡 2018 年 思元 270(MLU270)芯片及云端智能加速卡 2019 年 思元 290(MLU290)
106、芯片及云端智能加速卡 2020 年 思元 370(MLU370)芯片及云端智能加速卡 2021 年、2022 年 訓練整機 玄思 1000 智能加速器 2020 年 玄思 1001 智能加速器 2022 年 邊緣產品線 邊緣智能芯片及加速卡 思元 220(MLU220)芯片及邊緣智能加速卡 2019 年 IP 授權及軟件 終端智能處理器 IP 寒武紀 1A 處理器 2016 年 寒武紀 1H 處理器 2017 年 寒武紀 1M 處理器 2018 年 基礎系統軟件平臺 寒武紀基礎軟件開發平臺(適用于公司所有芯片與處理器產品)持續研發升級 資料來源:寒武紀 2022 年年報、浙商證券研究所 4.4
107、 景嘉微:景嘉微:發布景宏系列發布景宏系列高性能計算產品高性能計算產品,商業化布局有望加速,商業化布局有望加速 公司是國內首家成功研制國產公司是國內首家成功研制國產 GPU 芯片并實現大規模工程應用的企業芯片并實現大規模工程應用的企業,掌握了包括芯片底層邏輯/物理設計、超大規模電路集成驗證、模擬接口設計、GPU 驅動程序設計等關鍵技術,2010 年,公司自研 GPU 項目獲得國家“核高基”專項支持。2014 年研發JM5400,2018 年研發 JM7200。公司在 GPU 體系結構、圖形繪制高效處理算法、高速浮點運算器設計、可復用模塊設計、快速大容量存儲器接口設計、低功耗設計等方面有深厚的技
108、術積累,先后研制成功 JM5 系列、JM7 系列、JM9 系列等具有自主知識產權的高性能GPU 芯片。2024 年年 3 月,月,公司披露公司披露景宏系列景宏系列產品研發進展。產品研發進展。景宏系列是公司推出的面向 AI 訓練、AI 推理、科學計算等應用領域的高性能智算模塊及整機產品,支持 INT8、FP16、FP32、FP64 等混合精度運算,支持全新的多卡互聯技術進行算力擴展,適配國內外主流CPU、操作系統及服務器廠商,能夠支持當前主流的計算生態、深度學習框架和算法模型庫,大幅縮短用戶適配驗證周期。5 風險提示風險提示 1)歷史成長軌跡與股價表現并不能代表未來趨勢)歷史成長軌跡與股價表現并
109、不能代表未來趨勢:我們在報告中對英偉達的歷史業務發展以及股價情況進行了復盤分析,但由于公司所處的宏觀環境、產業趨勢以及公司自身業務不斷變化,歷史經驗并不能代表未來趨勢;2)上游供應不足的風險上游供應不足的風險:目前公司的主要芯片已接近光刻掩膜版尺寸極限,GPU 面積、制程均達到瓶頸,并且 cowos 產能短期內供給仍顯不足,因此未來供應仍是制約公司業績的重要因素;行業深度 33/34 請務必閱讀正文之后的免責條款部分 3)技術迭代)技術迭代難度加大難度加大的風險的風險:技術進步難度往往隨著時間不斷加大,如果公司核心技術和產品的迭代速度變慢,則可能會導致公司的產品競爭力減弱,進而影響未來業績表現
110、;4)中游)中游競爭加劇的風險競爭加劇的風險:生成式 AI 需要海量充沛、低成本的算力供應已成為共識,AMD、Intel、華為等芯片廠商以及 CSP 云客戶均在更新自研芯片,公司不可避免地會面對未來各個層面的競爭,如果競爭加劇導致公司份額丟失,則可能會影響公司未來的業績及估值水平;5)下游客戶需求下游客戶需求變化的風險變化的風險:生成式 AI 處于快速成長期,客戶需求尚不明確且變化較大,公司若無法快速滿足客戶需求,則可能會在未來的競爭中落??;6)其他導致生態壁壘削弱的風險:)其他導致生態壁壘削弱的風險:公司核心的護城河為強大的生態體系,目前AMD、華為等都在自建生態,可能會削弱公司的生態優勢;
111、7)宏觀環境變化的風險)宏觀環境變化的風險:公司作為全球重要標的,不可避免的會受到美國和全球宏觀經濟環境、政策環境等因素的影響。行業深度 34/34 請務必閱讀正文之后的免責條款部分 股票投資評級說明股票投資評級說明 以報告日后的 6 個月內,證券相對于滬深 300 指數的漲跌幅為標準,定義如下:1.買 入:相對于滬深 300 指數表現20以上;2.增 持:相對于滬深 300 指數表現1020;3.中 性:相對于滬深 300 指數表現1010之間波動;4.減 持:相對于滬深 300 指數表現10以下。行業的投資評級:行業的投資評級:以報告日后的 6 個月內,行業指數相對于滬深 300 指數的漲
112、跌幅為標準,定義如下:1.看 好:行業指數相對于滬深 300 指數表現10%以上;2.中 性:行業指數相對于滬深 300 指數表現10%10%以上;3.看 淡:行業指數相對于滬深 300 指數表現10%以下。我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重。建議:投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者不應僅僅依靠投資評級來推斷結論。法律聲明及風險提示法律聲明及風險提示 本報告由浙商證券股份有限公司(已具備中國證監會批復的證券投資咨詢業務資格,經營許可證編號為:Z39833000
113、)制作。本報告中的信息均來源于我們認為可靠的已公開資料,但浙商證券股份有限公司及其關聯機構(以下統稱“本公司”)對這些信息的真實性、準確性及完整性不作任何保證,也不保證所包含的信息和建議不發生任何變更。本公司沒有將變更的信息和建議向報告所有接收者進行更新的義務。本報告僅供本公司的客戶作參考之用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅反映報告作者的出具日的觀點和判斷,在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議,投資者應當對本報告中的信息和意見進行獨立評估,并應同時考量各自的投資目的、財務狀況和特定需求。對依據或者使用本報告所造成的一切后果,本公司
114、及/或其關聯人員均不承擔任何法律責任。本公司的交易人員以及其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與本報告意見及建議不一致的市場評論和/或交易觀點。本公司沒有將此意見及建議向報告所有接收者進行更新的義務。本公司的資產管理公司、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見或建議不一致的投資決策。本報告版權均歸本公司所有,未經本公司事先書面授權,任何機構或個人不得以任何形式復制、發布、傳播本報告的全部或部分內容。經授權刊載、轉發本報告或者摘要的,應當注明本報告發布人和發布日期,并提示使用本報告的風險。未經授權或未按要求刊載、轉發本報告的,應當承擔相應的法律責任。本公司將保留向其追究法律責任的權利。浙商證券研究所浙商證券研究所 上??偛康刂罚簵罡吣下?729 號陸家嘴世紀金融廣場?1 號樓?25 層 北京地址:北京市東城區朝陽門北大街?8 號富華大廈?E 座?4 層 深圳地址:廣東省深圳市福田區廣電金融中心?33 層 上??偛苦]政編碼:200127 上??偛侩娫挘?8621)80108518 上??偛總髡妫?8621)80106010