《AI算力行業深度:AI模型乘風起GPU掌舵算力大時代-230417(54頁).pdf》由會員分享,可在線閱讀,更多相關《AI算力行業深度:AI模型乘風起GPU掌舵算力大時代-230417(54頁).pdf(54頁珍藏版)》請在三個皮匠報告上搜索。
1、 半導體/行業深度分析報告/2023.04.17 請閱讀最后一頁的重要聲明!AI 模型乘風起,GPU 掌舵算力大時代 證券研究報告 投資評級投資評級:看好看好(維持維持)最近 12 月市場表現 分析師分析師 張益敏 SAC 證書編號:S0160522070002 相關報告 1.行業周期與政策共振,看好自主可控和周期復蘇 2023-03-15 AI 算力行業深度算力行業深度 核心觀點核心觀點 GPU 掌舵掌舵 AI 算力大時代,千億級市場再迎增量算力大時代,千億級市場再迎增量:GPU 因其強大的并行計算能力而廣泛應用于人工智能、圖像渲染、科學計算等領域。AI、自動駕駛與游戲市場是 GPU 需求增
2、長的主要場景,據 Global Market Insights 數據,全球 GPU 市場預計將以 CAGR 25.9%持續增長,至 2030 年達到 4000 億美元規模。其中 AI 領域大語言模型的持續推出以及參數量的不斷增長有望驅動模型訓練端、推理端 GPU 需求快速增長。微架構和平臺生態共筑競爭壁壘微架構和平臺生態共筑競爭壁壘:GPU 的微架構設計是決定硬件性能的關鍵,全球龍頭廠商英偉達與 AMD 均以保持架構升級節奏以及制程升級速率來保證產品競爭力。此外,成熟且完善的平臺生態形成的強大用戶粘性將在長時間內塑造 GPU 廠商的軟實力,以英偉達通用計算平臺 CUDA 為例,從軟件棧的完整度
3、和對硬件性能的高效利用角度出發降低了通用計算 GPU 開發者編譯難度,建立起卡位全球的開發生態,從而實現長期競爭壁壘。兼容主流生態對標行業龍頭,國內廠商持續發力兼容主流生態對標行業龍頭,國內廠商持續發力:近年來,國產 GPU 廠商在圖形渲染 GPU 和高性能計算 GPGPU 領域上均推出了較為成熟的產品,在性能上不斷追趕行業主流產品,在特定領域達到業界一流水平。生態方面國產廠商大多兼容英偉達 CUDA,融入大生態進而實現客戶端不斷導入。在高端GPU 芯片進口受限的背景下,國產 GPU 廠商預計將乘政策東風,抓住國產替代契機快速成長。建議關注建議關注:1)已上市標的:寒武紀、海光信息、景嘉微、芯
4、原股份、龍芯中科;2)未上市標的:壁仞科技、摩爾線程、芯動科技、兆芯、天數智芯、沐曦。風險提示:風險提示:技術迭代風險、宏觀經濟風險、國產替代風險、行業競爭風險。表表 1:重點公司投資評級:重點公司投資評級:代碼代碼 公司公司 總市值總市值(億元)(億元)收盤價收盤價(04.14)EPS(元)(元)PE 投資評級投資評級 2021A 2022E 2023E 2021A 2022E 2023E 688256 寒武紀-U 781.58 195.00 -2.91 -1.80 -1.04 -18.75 -108.30 -187.09 未覆蓋 688041 海光信息 1,790.67 77.04 0.3
5、8 0.56 0.79 116.27 74.75 52.60 增持 300474 景嘉微 480.70 105.75 0.65 0.93 1.30 163.45 113.48 81.41 未覆蓋 688521 芯原股份 474.80 95.39 0.15 0.30 0.54 297.18 319.16 177.45 增持 688047 龍芯中科 635.91 158.58 0.13 0.59 1.09 674.49 269.35 145.94 未覆蓋 數據來源:wind 數據,財通證券研究所 注:景嘉微 22 年數據為預測數據,其余公司 22 年數據為年報數據或 22 年業績快報數據 注:芯原
6、股份、海光信息預測數據來自于財通證券研究所,其余預測數據來自于 Wind 一致預期(截止 2023/04/16)。-23%-16%-9%-2%4%11%半導體滬深300上證指數 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 2 行業深度分析報告/證券研究報告 1 行業概況:行業概況:GPU 掌舵掌舵 AI 算力大時代,千億級市場再迎增量算力大時代,千億級市場再迎增量.7 1.1 GPU:提供大規模并行計算解決方案:提供大規模并行計算解決方案.7 1.2“AI+汽車汽車+游戲游戲”三駕馬車驅動行業發展三駕馬車驅動行業發展.8 1.3 大語言模型助推大語言模型助推 GPU 算力需求增長算力需求
7、增長.16 2 微架構和平臺生態共筑競爭壁壘微架構和平臺生態共筑競爭壁壘.19 2.1 微架構:統一計算單元解鎖通用計算時代微架構:統一計算單元解鎖通用計算時代.19 2.2 架構迭代與制程升級是架構迭代與制程升級是 GPU 性能的生命線性能的生命線.21 2.3 成熟的平臺生態是成熟的平臺生態是 GPU 廠商的護城河廠商的護城河.23 3 國內外發展現狀:海外龍頭領跑,國產持續發力國內外發展現狀:海外龍頭領跑,國產持續發力.30 3.1 海外龍頭:深耕多年,技術引領行業海外龍頭:深耕多年,技術引領行業.30 3.1.1 英偉達英偉達.30 3.1.2 AMD.32 3.1.3 高通高通.33
8、 3.1.4 Imagination.35 3.1.5 ARM.36 3.2 兼容主流生態對標行業龍頭,國內廠商持續發力兼容主流生態對標行業龍頭,國內廠商持續發力.37 3.3 高端芯片進口遭限制,國產廠商替代迎契機高端芯片進口遭限制,國產廠商替代迎契機.39 4 建議關注建議關注.40 4.1 寒武紀寒武紀.40 4.2 海光信息海光信息.41 4.3 景嘉微景嘉微.43 4.4 芯原股份芯原股份.44 4.5 龍芯中科龍芯中科.46 4.6 壁仞科技(非上市)壁仞科技(非上市).47 4.7 摩爾線程(非上市)摩爾線程(非上市).48 4.8 芯動科技(非上市)芯動科技(非上市).49 4
9、.9 兆芯(非上市)兆芯(非上市).50 4.10 天數智芯天數智芯(非上市)(非上市).51 4.11 沐曦(非上市)沐曦(非上市).52 5 風險提示風險提示.53 內容目錄 EYaXiXiYeYmVtWqZtW6McMbRoMnNsQmPiNmMmQfQnMzR9PrRxOwMqNtMMYqMrO 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 3 行業深度分析報告/證券研究報告 圖圖 1.CPU 架構示意圖架構示意圖.7 圖圖 2.GPU 架構示意圖架構示意圖.7 圖圖 3.CPU+GPU 的異構計算的異構計算.8 圖圖 4.GPT-3 Transformer 模型結構模型結構.8
10、圖圖 5.LLM 基礎模型基礎模型.8 圖圖 6.百度文心大模型百度文心大模型.9 圖圖 7.文心大模型性能評測文心大模型性能評測.9 圖圖 8.阿里通義大模型層次示意圖阿里通義大模型層次示意圖.10 圖圖 9.多模態模塊化設計多模態模塊化設計.10 圖圖 10.阿里所有產品未來將接入阿里所有產品未來將接入“通義千問通義千問”大模型大模型.10 圖圖 11.ModelArts 平臺架構平臺架構.11 圖圖 12.主流主流 NLP 預訓練模型規模預訓練模型規模.12 圖圖 13.深度學習模型對算力的需求增速深度學習模型對算力的需求增速.12 圖圖 14.中國中國 AI 芯片市場份額(按類型)芯片
11、市場份額(按類型).12 圖圖 15.全球自動駕駛滲透率全球自動駕駛滲透率.13 圖圖 16.汽車自動駕駛分級以及對算力需求汽車自動駕駛分級以及對算力需求.13 圖圖 17.Orin 系統架構系統架構.14 圖圖 18.NVIDIA 自動駕駛平臺算力升級路線圖自動駕駛平臺算力升級路線圖.14 圖圖 19.光線追蹤算法過程光線追蹤算法過程.15 圖圖 20.NVIDIA RTX 平臺平臺.15 圖圖 21.英偉達中端英偉達中端 GPU 顯卡單位價格性能持續升級顯卡單位價格性能持續升級.15 圖圖 22.全全球球 GPU 市場規模(十億美元)市場規模(十億美元).16 圖圖 23.全球獨立全球獨立
12、 GPU 市場占比(按廠商)市場占比(按廠商).16 圖圖 24.Nvidia Tesla 整體架構圖整體架構圖.19 圖圖 25.Nvidia Tesla 微架構中微架構中 TPC 架構圖架構圖.20 圖圖 26.圖像渲染管線相對固定圖像渲染管線相對固定.20 圖圖 27.Nvidia Tesla 微架構中微架構中 SM 架構圖架構圖.20 圖圖 28.Nvidia Fermi 架構圖架構圖.21 圖圖 29.Nvidia Fermi 微架構中微架構中 SM 架構圖架構圖.21 圖圖 30.NVIDIA GPU 架構演進歷史架構演進歷史.22 圖表目錄 謹請參閱尾頁重要聲明及財通證券股票和行
13、業評級標準 4 行業深度分析報告/證券研究報告 圖圖 31.AMD GPU 架構演進歷史架構演進歷史.22 圖圖 32.GPU 在并行計算的應用在并行計算的應用.24 圖圖 33.CUDA 加速計算解決方案加速計算解決方案.24 圖圖 34.CUDA 支持支持 CPU+GPU 的異構計算的異構計算.24 圖圖 35.CUDA 編程模式示意圖編程模式示意圖.25 圖圖 36.CUDA 在在 Host 中的函數庫中的函數庫.25 圖圖 37.Kernel 是是 GPU 內核函數內核函數.26 圖圖 38.GPU 上的上的 Kernel 執行執行.26 圖圖 39.CUDA 存儲結構存儲結構.26
14、圖圖 40.GPU 中的內存層次結構中的內存層次結構.26 圖圖 41.CUDA 是是 GPU 計算生態系統計算生態系統.27 圖圖 42.CUDA 提供強大的開發支持工具提供強大的開發支持工具.27 圖圖 43.AMD ROCm 5.0.28 圖圖 44.異構計算框架異構計算框架 OpenCL.29 圖圖 45.英偉達四大業務英偉達四大業務.30 圖圖 46.英偉達下游應用行業英偉達下游應用行業.30 圖圖 47.英偉達營業收入及增速英偉達營業收入及增速(億美元億美元).31 圖圖 48.英偉達凈利潤及增速英偉達凈利潤及增速(億美元億美元).31 圖圖 49.AMD 業務概覽業務概覽.32
15、圖圖 50.AMD 核心技術概覽核心技術概覽.32 圖圖 51.AMD 營業收入及增速營業收入及增速(億美元億美元).33 圖圖 52.AMD 凈利潤及增速凈利潤及增速(億美元億美元).33 圖圖 53.高通驍龍移動平臺高通驍龍移動平臺.34 圖圖 54.高通營高通營業收入及增速業收入及增速(億美元億美元).35 圖圖 55.高通凈利潤及增速高通凈利潤及增速(億美元億美元).35 圖圖 56.IMG B 系列產品系列產品.35 圖圖 57.IMG B 系列與系列與 A 系列性能對比系列性能對比.35 圖圖 58.ARM 整體設計解決方案整體設計解決方案.36 圖圖 59.ARM Immorta
16、ils-G715 架構架構.37 圖圖 60.寒武紀營業收入及增速寒武紀營業收入及增速(億元億元).41 圖圖 61.寒武紀歸母凈利潤及增速寒武紀歸母凈利潤及增速(億元億元).41 圖圖 62.海光信息海光信息 DCU 基本組成架構基本組成架構.42 圖圖 63.海光深算海光深算 DCU 完善軟件棧支持完善軟件棧支持.42 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 5 行業深度分析報告/證券研究報告 圖圖 64.海光信息營業收入及增速海光信息營業收入及增速(億元億元).43 圖圖 65.海光信息歸母凈利潤及增速海光信息歸母凈利潤及增速(億元億元).43 圖圖 66.景嘉微營業收入及增速
17、景嘉微營業收入及增速(億元億元).44 圖圖 67.景嘉微歸母凈利潤及增速景嘉微歸母凈利潤及增速(億元億元).44 圖圖 68.一站式芯片定制服務一站式芯片定制服務.44 圖圖 69.芯原芯原 IP 產品陣產品陣.44 圖圖 70.芯原股份營業收入及增速芯原股份營業收入及增速(億元億元).45 圖圖 71.芯原股份歸母凈利潤及增速芯原股份歸母凈利潤及增速(億元億元).45 圖圖 72.龍龍芯中科芯片產品芯中科芯片產品.46 圖圖 73.龍芯中科自主生態技術架構龍芯中科自主生態技術架構.46 圖圖 74.龍芯中科營業收入及增速龍芯中科營業收入及增速(億元億元).47 圖圖 75.龍芯中科歸母凈利
18、潤及增速龍芯中科歸母凈利潤及增速(億元億元).47 圖圖 76.BR100 系列通用系列通用 GPU 芯片芯片.47 圖圖 77.BIRENSUPA 軟件平臺軟件平臺.47 圖圖 78.開發者軟件開發者軟件 MT GPU Management Center.48 圖圖 79.第一代第一代 MUSA 架構架構.48 圖圖 80.芯動科技的定制服務芯動科技的定制服務.49 圖圖 81.芯動科技核心產品芯動科技核心產品.49 圖圖 82.基于基于 GPU 的的 TEE 隱私計算解決方案隱私計算解決方案.51 圖圖 83.公司發布的人工智能開源平臺公司發布的人工智能開源平臺 DeepSpark.51
19、表表 1.NVIDIA 架構演進歷史架構演進歷史.7 表表 2.GPU、FPGA、ASIC 指標對比指標對比.12 表表 3.訓練端訓練端 GPU 需求增量測算需求增量測算.17 表表 4.推理端推理端 GPU 需求增量測算需求增量測算.18 表表 5.ROCm 與與 CUDA 模塊對比模塊對比.28 表表 6.OpenCL 與與 CUDA 對比對比.29 表表 7.英偉達英偉達 40 系列顯卡產品參數規格系列顯卡產品參數規格.30 表表 8.英偉達英偉達 A100、H100 系列產品規格參數系列產品規格參數.31 表表 9.AMD7000 顯卡參數規格顯卡參數規格.32 表表 10.AMD
20、Instinct 系列產品規格系列產品規格.33 表表 11.高通高通 Adreno 7 系列產品規格系列產品規格.34 表表 12.Imagination IMG B 系列產品簡介系列產品簡介.36 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 6 行業深度分析報告/證券研究報告 表表 13.圖形渲染圖形渲染 GPU 產品性能對比產品性能對比.37 表表 14.通用計算通用計算 GPU 產品性能對比產品性能對比.38 表表 15.國內國內 GPU、半導體相關政策(部分)、半導體相關政策(部分).39 表表 16.寒武紀主要產品性能參數寒武紀主要產品性能參數.40 表表 17.思元思元 3
21、70 系列產品信息系列產品信息.41 表表 18.海光海光 DCU 產品主要產品主要參數參數.42 表表 19.景嘉微景嘉微 JM9 產品性能參數產品性能參數.43 表表 20.芯原芯原 Vivante圖形處理器圖形處理器 IP 各系列產品參數各系列產品參數.45 表表 21.壁仞壁仞 BR100 系列產品參數系列產品參數.48 表表 22.摩爾線程產品參數摩爾線程產品參數.49 表表 23.芯動風華系列芯動風華系列 GPU 主要參數主要參數.50 表表 24.兆芯兆芯 Arise-GT10C0 芯片介紹芯片介紹.50 表表 25.天數智芯天數智芯 BI-V100 主要產品參數主要產品參數.5
22、1 表表 26.沐曦沐曦 GPU 產品矩陣產品矩陣.52 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 7 行業深度分析報告/證券研究報告 1 行業概況:行業概況:GPU 掌舵掌舵 AI 算力算力大大時代時代,千億級市場,千億級市場再迎增量再迎增量 1.1 GPU:提供大規模并行計算解決方案提供大規模并行計算解決方案 GPU,專注圖像處理,專注圖像處理。GPU(圖形處理器)最初是為了解決 CPU 在圖形處理領域性能不足的問題而誕生。CPU 作為核心控制計算單元,高速緩沖存儲器(Cache)、控制單元(Control)在 CPU 硬件架構設計中所占比例較大,主要為實現低延遲和處理單位內核性能
23、要求較高的工作而存在,而計算單元(ALU)所占比例較小,這使得 CPU 的大規模并行計算表現不佳。GPU 架構內主要為計算單元,采用極簡的流水線進行設計,適合處理高度線程化、相對簡單的并行計算,在圖像渲染等涉及大量重復運算的領域擁有更強運算能力。圖1.CPU 架構示意圖 圖2.GPU 架構示意圖 數據來源:eetrend,財通證券研究所 數據來源:eetrend,財通證券研究所 GPGPU,脫胎于,脫胎于 GPU,通用性提,通用性提升。升。GPU 計算單元既可運用于圖形渲染領域,也能夠進行通用計算。傳統 GPU 應用局限于圖形渲染計算,而面對非圖像顯示領域并涉及大量并行運算的領域,比如 AI、
24、加密解密、科學計算等領域則更需要通用計算能力。隨著 GPU 可編程性的不斷提高,去掉或減弱 GPU 的圖形顯示部分能力,全部投入通用計算的 GPGPU(通用計算處理器)應運而生。表1.NVIDIA 架構演進歷史 數據來源:CSDN,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 8 行業深度分析報告/證券研究報告 CPU+GPU 異構計算解決多元化計算需求。異構計算解決多元化計算需求。使用不同的體系架構的計算單元組成混合系統,GPU 作為協處理器負責并行加速計算,CPU 作為控制中心的異構計算面對復雜場景可實現更優性能。圖3.CPU+GPU 的異構計算 數據來源:NVIDIA
25、,財通證券研究所 1.2“AI+汽車汽車+游戲”三駕馬車驅動行業發展游戲”三駕馬車驅動行業發展 大語言大語言模型模型開啟開啟 AI 元年。元年。2022 年 11 月,OpenAI 推出基于大型語言模型 GPT-3的 AI 對話機器人 ChatGPT,其可以與用戶進行富有邏輯和創造力的自然語言對話。2017 年由 Google 提出的 Transformer 模型是大型語言模型發展的里程碑,Transformer 是一種基于注意力(Attention)機制構建的神經網絡模型,克服了傳統的遞歸神經網絡(RNN)和卷積神經網絡(CNN)在自然語言處理時容易被無關信息干擾的缺點,能夠更好的理解長序列
26、和上下文的關系。圖4.GPT-3 Transformer 模型結構 圖5.LLM 基礎模型 數據來源:MetaX,財通證券研究所 數據來源:On the Opportunities and Risks of Foundation Models Rishi Bommasan、i Drew A.Hudson 等,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 9 行業深度分析報告/證券研究報告 國內國內 AI 巨頭持續跟進,大模型產業迎巨頭持續跟進,大模型產業迎發展發展契機。契機。騰訊、阿里、百度以及華為等廠商都已布局大模型產業,以“通用大模型+專精小模型”的層次化協同發展模式持
27、續發力。百度是國內最早進行大模型研發的科技企業之一,立足文心百度是國內最早進行大模型研發的科技企業之一,立足文心 NLP 大模型推出大模型推出“文心一言”對話機器人“文心一言”對話機器人(Ernie Bot)。百度在 2019 年 3 月率先發布中國首個正式開放的預訓練模型文心大模型(Ernie)1.0,2021 年 12 月,文心大模型 3.0參數突破千億,升級為全球首個知識增強千億大模型,成為目前為止全球最大的中文單體模型,根據 IDC 發布的2022 中國大模型發展白皮書,文心大模型在國內市場格局中處于第一梯隊,產品能力、生態能力、應用能力均處于行業領先地位。2023 年 3 月 16
28、日,百度正式發布“文心一言”對話機器人,擁有文學創作、商業文案創作、數理邏輯推理、中文理解和多模態生成五大能力,表現出對文本語義的深度理解。圖6.百度文心大模型 圖7.文心大模型性能評測 數據來源:百度文心大模型,財通證券研究所 數據來源:IDC,財通證券研究所 阿里達摩院推通義大模型,打造國內首個阿里達摩院推通義大模型,打造國內首個 AI 統一底座。統一底座。2022 年 9 月 2 日,阿里達摩院在世界人工智能大會大規模預訓練模型主題論壇上發布了最新的“通義”大模型,其打造了國內首個 AI 統一底座,構建了通用與專業模型協同的層次化人工智能體系,“統一學習范式”是通義大模型的最大亮點,通過
29、多模態統一模型 M6-OFA 完成了架構、模塊與任務的三大統一,賦予模型不新增結構即可處理包括圖像描述、文檔摘要、視覺定位等單模態和跨模態任務的能力?!澳K化設計”也是模型特點之一,其借鑒了人腦“能力模塊”結構,采用模塊化 Transformer Encoder-Decoder 結構,切分出基礎層、通用層、任務層、功能性四大模塊,每個模塊間相互解耦,分工合作。該設計便于對不同板塊進行微調與繼續訓練,以實現大模型的輕量化。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 10 行業深度分析報告/證券研究報告 圖8.阿里通義大模型層次示意圖 圖9.多模態模塊化設計 數據來源:阿里云發者社區,財通證
30、券研究所 數據來源:阿里云發者社區,財通證券研究所 阿里巴巴集團董事會主席兼 CEO、阿里云智能集團 CEO 張勇在 4 月 11 日阿里云峰會上表示,阿里巴巴所有產品未來將接入“通義千問”大模型,進行全面改造,未來有望重塑產品格局。圖10.阿里所有產品未來將接入“通義千問”大模型 數據來源:2023 阿里云峰會,財通證券研究所 華為盤古大模型基于其華為盤古大模型基于其 ModelArts 平臺開發,平臺開發,模型泛化模型泛化有望多場景有望多場景落地落地。ModelArts 平臺為機器學習與深度學習提供海量數據預處理及交互式智能標注、大規模分布式訓練、自動化模型生成,及端-邊-云模型按需部署能
31、力。盤古大模型基于 ModelArts 開發,由 NLP 大模型、CV 大模型、多模態大模型、科學計算大模型多個大模型構成,通過模型泛化可在不同部署場景下抽取出不同大小的模型,動態范圍可根據需求調整,從特定的小場景到綜合性的復雜大場景均能覆蓋。目前,盤古大模型已經在能源、零售、金融、工業、醫療、環境、物流等100 多個行業場景完成驗證。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 11 行業深度分析報告/證券研究報告 圖11.ModelArts 平臺架構 數據來源:華為云官網,財通證券研究所 參數數量是決定模型表現的最重要因素。參數數量是決定模型表現的最重要因素。大語言模型的特點是擁有強大
32、的自學習能力,隨著訓練數據集和模型參數的增加,可以顯著提高模型的泛化能力和通用能力,模型規模的擴大已經成為了大語言模型的發展趨勢。以 OpenAI 為例,其初代 GPT 模型參數量僅有 15 億,而基于 GPT-3 的 chatGPT 參數量已經達到了1750 億,目前主流 AI 廠商都進入了“千億參數時代”。模型表現改善的同時,不斷增長的參數量對硬件算力提出了更高的要求。據 OpenAI 研究表明,最大的AI 訓練模型所需的算力每 3-4 個月翻倍,而 2012-2018 年間這個指標增長超過300,000 倍。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 12 行業深度分析報告/證券研
33、究報告 圖12.主流 NLP 預訓練模型規模 圖13.深度學習模型對算力的需求增速 數據來源:CSDN,財通證券研究所 數據來源:Intelligent Computing:The Latest Advances,Challenges,and Future SHIQIANG ZHU、TING YU 等,財通證券研究所 GPU 已成為已成為 AI 加速芯片加速芯片通用性解決方案,通用性解決方案,提供大語言模型推理訓練所需的海提供大語言模型推理訓練所需的海量算力量算力。為構建有效的 AI 部署方案,CPU 和加速芯片結合的異構計算是經典的計算框架,目前最常見的 AI 加速芯片主要為 GPU、FPG
34、A 和 ASIC,而 GPU 憑借其高性能、高靈活度特點成為 AI 加速方案首選。表2.GPU、FPGA、ASIC 指標對比 GPU FPGA ASIC 靈活性 中 高 低 性能 中 低 高 同構性 高 中 低 功耗 高 中 低 成本 中 低 高 數據來源:CSDN,財通證券研究所 圖14.中國 AI 芯片市場份額(按類型)數據來源:IDC,財通證券研究所 91.9%6.3%1.5%0.3%GPUNPUASICFPGA 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 13 行業深度分析報告/證券研究報告 自動駕駛升級推動邊緣計算需求增加,自動駕駛升級推動邊緣計算需求增加,GPU 車載領域價值
35、逐步顯現。車載領域價值逐步顯現。在云計算架構中,數據通過高速網絡傳輸至擁有大規模高性能計算設備的云計算中心進行計算,而邊緣計算則將數據計算與儲存集中在靠近數據源頭的本地設備上,能夠更快的響應計算需求。自動駕駛是邊緣計算架構最前沿的應用場景之一,目前大多數自動駕駛處于 L2-L3(部分自動駕駛)級別,而要實現 L4-L5 級別高度自動駕駛,則需要人工智能短時、高頻地處理大量路況信息并自主完成大部分決策,因此需要 GPU 為汽車芯片提供更多計算能力來處理復雜數據。根據地平線對OEM 廠商需求情況的分析,更高級別的自動駕駛意味著更高的算力需求,L2 級別需要 2 TOPS、L3 級別需要 24 TO
36、PS、L4 級需要 320 TOPS,L5 級則需要4000+TOPS。圖15.全球自動駕駛滲透率 數據來源:Rolandberger,財通證券研究所 圖16.汽車自動駕駛分級以及對算力需求 數據來源:億歐智庫2021 中國車聯網行業發展趨勢研究報告:漸入佳境,一觸即發,財通證券研究所 GPU 提供核心計算能力,是自動駕駛算力升級趨勢關鍵。提供核心計算能力,是自動駕駛算力升級趨勢關鍵。目前,市面上主流的自動駕駛芯片采用 NVIDIA 推出的 Orin 系統級芯片(SoC),Orin 集成 NVIDIA 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 14 行業深度分析報告/證券研究報告 Am
37、pere 架構 GPU 和 Arm Hercules 內核 CPU 以及全新深度學習加速器(DLA)和計算機視覺加速器(PVA),可以提供每秒 254TOPS 的計算能力,幾乎是 NVIDIA 上一代系統級芯片 Xavier 性能的 7 倍。而根據英偉達公告,其預計在 2024 年發布下一代車載系統級芯片 Thor,通過更新芯片內含的 GPU 架構,Thor 預計可以為自動駕駛汽車提供約 2000 TOPS 的計算能力。圖17.Orin 系統架構 數據來源:NVIDIA,財通證券研究所 圖18.NVIDIA 自動駕駛平臺算力升級路線圖 數據來源:NVIDIA,財通證券研究所 游戲市場畫質升級游
38、戲市場畫質升級驅動驅動 GPU 顯卡性能顯卡性能升級需求。升級需求。GPU 最初作為圖形處理器而誕生,在游戲顯卡市場伴隨玩家對游戲品質的追求不斷提升,以光線追蹤算法(Ray Tracing)為代表的特殊渲染算法更多的應用到游戲顯卡以提升顯示畫質。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 15 行業深度分析報告/證券研究報告 2018 年,NVIDIA 聯合 Microsoft 共同發布了 RTX(Ray Tracing X)標準,NVIDIA 也在其同年發布的 Turing 架構 GPU 中引入了加速光線追蹤計算的 RT Core,實現了光線追蹤的實時化。光追通過在場景中發射光線并跟蹤
39、每個像素的光線路徑來模擬真實的光傳播,在提供更具真實感的畫面效果的同時對于計算復雜度以及計算量需求大幅增加,整體游戲市場畫質升級將驅動 GPU 顯卡性能持續升級 圖19.光線追蹤算法過程 圖20.NVIDIA RTX 平臺 數據來源:CSDN,財通證券研究所 數據來源:NVIDIA,財通證券研究所 圖21.英偉達中端 GPU 顯卡單位價格性能持續升級 數據來源:Reddit.財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 16 行業深度分析報告/證券研究報告 1.3 大語言模型大語言模型助推助推 GPU 算力算力需求增需求增長長 市場對市場對 3D 圖像處理和圖像處理和 AI
40、 深度學習深度學習計算計算等需求等需求不斷增加,不斷增加,GPU 市場保持高增市場保持高增速。速。據 Global Market Insights 的數據,全球 GPU 市場預計將以 CAGR 25.9%持續增長,至 2030 年達到 4000 億美元規模。在 GPU 市場中,NVIDIA 依靠在深度學習、人工智能等領域布局的先發優勢并憑借其優異產品性能以及成熟的生態平臺長期處于領導地位,根據 JPR 數據,2022 年 Q1,NVIDIA 的在獨顯市場份額約為 78%。圖22.全球 GPU 市場規模(十億美元)圖23.全球獨立 GPU 市場占比(按廠商)數據來源:Global Market
41、Insights,財通證券研究所 數據來源:STATISTA,JPR,財通證券研究所 大語言模型有望拉動大語言模型有望拉動 GPU 需求增量,需求增量,我們我們測算測算 23/24/25 年大模型有望年大模型有望貢獻貢獻GPU 市場增量市場增量 69.88/166.2/209.95 億美元。億美元。具體具體假設假設測算如下:測算如下:訓練端,訓練端,近年來各大廠商陸續發布大模型,我們假設 23/24/25 年新增 5/10/15 個大模型,根據 OpenAI 團隊于 2020 發表的論文Scaling Laws for Neural Language Models提出的計算方法,對于以 Tra
42、nsformer 為基礎的模型,假設模型參數量為 N,單 Token 所需的訓練算力約為 6N。參考 OpenAI 團隊 2020 同年發表的論文Language Models are Few-Shot Learners,GPT-3 模型參數量約為1750 億個,Token 數量約為 3000 億個,近年發布的模型均在千億級參數級別,因此我們中性假設 23 年新增大模型平均參數量約為 2000 億個,Token 數量約為3000 億個,兩者后續每年以 20%增速增加。另外假設單次訓練耗時約 30 天,算力效率為 30%,后續伴隨算法精進,算力效率預計逐漸提升。以目前主流的訓練端 GPU 英偉達
43、 A100 測算,假設 ASP 為 1 萬美元,23/24/25 年全球訓練端 GPU需求市場規模預計分別為 0.74/2.00/4.07 億美元。05010015020025030035040045020222032CAGR=25.9%0%10%20%30%40%50%60%70%80%90%100%Q119Q219Q419Q120Q220Q320Q420Q121Q221Q321Q421Q122NvidiaAMDIntel 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 17 行業深度分析報告/證券研究報告 表3.訓練端 GPU 需求增量測算 2023E 2024E 2025E 2026E
44、 2027E 全球新增大模型個數(個)5 10 15 20 25 大模型平均參數數量(億個,N)2000 2400 2880 3456 4147 YoY 20.00%20.00%20.00%20.00%單個模型單 Token 訓練所需運算次數(TFLOPS-s,6N)1.20 1.44 1.73 2.07 2.49 訓練 Tokens 數量(億個)3000 3600 4320 5184 6221 YoY 20.00%20.00%20.00%20.00%單模型所需算力(PFLOPs-Days)4167 6000 8640 12442 17916 假設單次訓練所需時間(天)30 30 30 30
45、30 算力效率 30.00%32.00%34.00%36.00%38.00%訓練端峰值算力需求(PFLOPs,單模型所需算力模型數量/(單次訓練時間算力效率)2315 6250 12706 23040 39289 英偉達 A100 FP16 算力(TFLOPs)312 312 312 312 312 訓練訓練 GPU 需求量(以需求量(以 A100 FP16 算力計算)算力計算)(萬萬顆)顆)0.74 2.00 4.07 7.38 12.59 英偉達 A100 單價(美元)10000 10000 10000 10000 10000 訓練訓練 GPU 需求價值量(億美元)需求價值量(億美元)0.
46、74 2.00 4.07 7.38 12.59 數據來源:Scaling Laws for Neural Language ModelsOpenAI,Language Models are Few-Shot LearnersOpenAI,英偉達官網,CNBC,財通證券研究所 推理端,推理端,基于訓練端的假設,根據論文Scaling Laws for Neural Language Models,單 Token 所需的推理算力開銷約為 2N。則對于 GPT-3 模型,其單Token 所需的推理算力開銷為 3500 億 FLOPs-S。假設單次最大查詢 Tokens 數為1000(對應漢字約 30
47、0-500 字,英文約 750 詞),每人每天查詢 20 次。在并發用戶數的估計上,我們參考國際主流社交媒體日活用戶數進行測算,根據 Dustin Stout 統計,Facebook、WhatsApp、Instagram 全球日活用戶數分別為 16 億、10億、6 億,考慮到目前(類)GPT 平臺仍處于發展早期,我們預計全球大模型日活用戶數在 23/24/25 分別為 2/6/10 億,按照所有用戶平均分布于 24 小時,并以10 倍計算峰值并發數量。以目前英偉達用于推理端計算的 A10 測算,假設 ASP為 2800 美元,23/24/25 年全球推理端 GPU 需求市場規模預計分別為69.
48、14/164.2/205.88 億美元。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 18 行業深度分析報告/證券研究報告 表4.推理端 GPU 需求增量測算 2023E 2024E 2025E 2026E 2027E 全球大模型日活用戶人數(億人)2 6 10 15 20 YoY 200.00%66.67%50.00%33.33%每人平均每天查詢次數(次)20 20 20 20 20 每人平均每次查詢 Tokens 數量(個,1000Tokens750 英文單詞300-500 中文漢字)1000 1000 1000 1000 1000 單 Tokens 所需計算次數(TFLOPs-s,2
49、N)0.40 0.48 0.58 0.69 0.83 每人每次查詢所需計算次數(TFLOPs-s,2NTokens 數量)400 480 576 691.2 829.44 全天計算次數合計(EFLOPs-s,每人每次查詢所需計算次數查詢次數日活人數)1600000 5760000 11520000 20736000 33177600 算力效率 30.00%32.00%34.00%36.00%38.00%平均每 s 所需峰值算力(EFLOPs)61.73 208.33 392.16 666.67 1010.53 最大并發峰值算力乘數 10 10 10 10 10 最大并發峰值算力(EFLOPs)
50、617.28 2083.33 3921.57 6666.67 10105.26 峰值算力增量(EFLOPs)617.28 1466.05 1838.24 2745.10 3438.60 英偉達 A10 FP16 算力(TFLOPs)250 250 250 250 250 推理推理 GPU 需求量(以需求量(以 A10 FP16 算力計算)算力計算)(萬顆)萬顆)246.91 586.42 735.29 1,098.04 1,375.44 英偉達 A10 單價(美元)2800 2800 2800 2800 2800 推理推理 GPU 需求價值量(億美元)需求價值量(億美元)69.14 164.2
51、0 205.88 307.45 385.12 數據來源:Scaling Laws for Neural Language ModelsOpenAI,英偉達官網,Dustin Stout,Dihuni,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 19 行業深度分析報告/證券研究報告 2 微架構和平臺生態微架構和平臺生態共筑競爭共筑競爭壁壘壁壘 2.1 微架構:統一計算單元解鎖通用計算時代微架構:統一計算單元解鎖通用計算時代 GPU 的微架構的微架構是用以實現指令執行是用以實現指令執行的的硬件電路結構硬件電路結構設計。設計。以 Nvidia 第一個實現統一著色器模型的 Tes
52、la 微架構為例,從頂層 Host Interface 接受來自 CPU 的數據,藉由 Vertex(頂點)、Pixel(片元)、Compute(計算著色器)分發給各 TPC(Texture Processing Clusters 紋理處理集群)進行處理。圖24.Nvidia Tesla 整體架構圖 數據來源:NVIDIA Tesla:A unified graphics and computing architecture,財通證券研究所 流處理器流處理器、特殊函數計算單元特殊函數計算單元構成計算核心構成計算核心。在單個 TPC 中主要的運算結構為SM(Streaming Multiproc
53、essor 流式多處理器),其內在蘊含 I Cache(指令緩存)、C Cache(常量緩存)以及核心的計算單元 SP(Streaming Processor 流處理器)和 SFU(Special Function Unit 特殊函數計算單元),外加 Texture Unit(紋理單元)。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 20 行業深度分析報告/證券研究報告 圖25.Nvidia Tesla 微架構中 TPC 架構圖 數據來源:NVIDIA Tesla:A unified graphics and computing architecture Erik Lindholm、Joh
54、n Nickolls 等,財通證券研究所 解耦解耦計算單元,擁抱通用計算。計算單元,擁抱通用計算。由于圖形渲染流管線相對固定,Nvidia 在 Tesla架構中將部分重要環節剝離并實現可編程,解耦出 SM 計算單元用于通用計算,即可實現根據具體任務需要分配相應線程實現通用計算處理。圖26.圖像渲染管線相對固定 圖27.Nvidia Tesla 微架構中 SM 架構圖 數據來源:ewind,財通證券研究所 數據來源:NVIDIA Tesla:A unified graphics and computing architecture Erik Lindholm、John Nickolls 等,財通
55、證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 21 行業深度分析報告/證券研究報告 計算核心、紋理單元增加,計算核心、紋理單元增加,GPC 功能更加完整,功能更加完整,Nvidia Fermi 架構奠定完整架構奠定完整GPU 計算架構計算架構基礎?;A。在 Tesla 之后,Nvidia 第一個完整的 GPU 計算架構 Fermi通過制程微縮增加更多計算核心、紋理單元,并且通過增加 PolyMorph Engine(多形體引擎)和 Raster Engine(光柵引擎)使得原來 TPC 升級成為擁有更加完整功能的 GPC(Graphics Processing Clusters
56、 圖形處理器集群)。Fermi 架構共包含 4 個 GPC,16 個 SM,512 個 CUDA Core。圖28.Nvidia Fermi 架構圖 圖29.Nvidia Fermi 微架構中 SM 架構圖 數據來源:A GPU-based discrete element modeling code and its application in die filling,財通證券研究所 數據來源:NVIDIA,財通證券研究所 2.2 架構迭代與制程升級是架構迭代與制程升級是 GPU 性能的生命線性能的生命線 不同的微架構設計會對 GPU 的性能產生決定性的影響,因此保持架構升級節奏以及制程升級
57、速率是保證產品競爭力的關鍵。英偉達英偉達 GPU 架構演進架構演進從最初從最初 Fermi 架構架構到最新的到最新的 Ampere 架構架構和和 Hopper 架架構構。每一階段都在性能和能效比方面得到提升,引入了新技術,如 CUDA、GPU Boost、RT 核心和 Tensor 核心等,在圖形渲染、科學計算和深度學習等領域發揮重要作用。最新一代 Hopper 架構在 2022 年 3 月推出,旨在加速 AI 模型訓練,使用 Hopper Tensor Core 進行 FP8 和 FP16 的混合精度計算,以大幅加速Transformer 模型的 AI 計算。與上一代相比,Hopper 還將
58、 TF32、FP64、FP16 和INT8 精度的每秒浮點運算(FLOPS)提高了 3 倍。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 22 行業深度分析報告/證券研究報告 圖30.NVIDIA GPU 架構演進歷史 數據來源:英偉達官網,財通證券研究所 AMD 作為全球第二大作為全球第二大 GPU 廠商,亦通過持續的架構演進保持其市場領先地廠商,亦通過持續的架構演進保持其市場領先地位。位。從 2010 年以來,AMD 相繼推出:GCN 架構、RDNA 架構、RDNA 2 架構、RDNA 3 架構、CDNA 架構和 CDNA 2 架構。最新一代面向高性能計算和人工智能 CDNA 2 架構
59、于架構采用增強型 Matrix Core 技術,支持更廣泛的數據類型和應用,針對高性能計算工作負載帶來全速率雙精度和全新 FP64 矩陣運算?;?CDNA2 架構的 AMD Instinct MI250X GPU FP64 雙精度運算算力最高可達 95.7 TFLOPs。圖31.AMD GPU 架構演進歷史 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 23 行業深度分析報告/證券研究報告 數據來源:AMD 官網,財通證券研究所 2.3 成熟的平臺生態是成熟的平臺生態是 GPU 廠商的護城河廠商的護城河 成熟且完善的成熟且完善的平臺平臺生態是生態是 GPU 廠商的護城河廠商的護城河。相較
60、于持續迭代的微架構帶來的技術壁壘硬實力,成熟的軟件生態形成的強大用戶粘性將在長時間內塑造 GPU廠商的軟實力。以英偉達 CUDA 為例的軟硬件設計架構提供了硬件的直接訪問接口,不必依賴圖形 API 映射,降低 GPGPU 開發者編譯難度,以此實現高粘性的開發者生態。目前主流的開發平臺還包括 AMD ROCm 以及 OpenCL。CUDA(Compute Unified Device Architectecture),是),是 NVIDIA 于于 2006 年推出年推出的的通用并行計算架構,包含通用并行計算架構,包含 CUDA 指令集架構(指令集架構(ISA)和)和 GPU 內部的并行計算內部的
61、并行計算引擎。引擎。該架構允許開發者使用高級編程語言(例如 C 語言)利用 GPU 硬件的并行計算能力并對計算任務進行分配和管理,CUDA 提供了一種比 CPU 更有效的解決大規模數據計算問題的方案,在深度學習訓練和推理領域被廣泛使用。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 24 行業深度分析報告/證券研究報告 圖32.GPU 在并行計算的應用 圖33.CUDA 加速計算解決方案 數據來源:NVIDIA,財通證券研究所 數據來源:NVIDIA,財通證券研究所 CUDA 除了是并行計算架構外,還是除了是并行計算架構外,還是 CPU 和和 GPU 協調工作的通用語言。協調工作的通用語言。
62、在CUDA 編程模型中,主要有 Host(主機)和 Device(設備)兩個概念,Host 包含 CPU 和主機內存,Device 包含 GPU 和顯存,兩者之間通過 PCI Express 總線進行數據傳輸。在具體的 CUDA 實現中,程序通常劃分為兩部分,在主機上運行的 Host 代碼和在設備上運行的 Device 代碼。Host 代碼負責程序整體的流程控制和數據交換,而 Device 代碼則負責執行具體的計算任務。一個完整的 CUDA程序是由一系列的設備端函數并行部分和主機端的串行處理部分共同組成的,主機和設備通過這種方式可以高效地協同工作,實現 GPU 的加速計算。圖34.CUDA 支
63、持 CPU+GPU 的異構計算 數據來源:Nvidia 官網,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 25 行業深度分析報告/證券研究報告 CUDA 在在 Host 運行的函數庫包括了開發庫(運行的函數庫包括了開發庫(Libraries)、運行時()、運行時(Runtime)和)和驅動(驅動(Driver)三大部分。)三大部分。其中,Libraries 提供了一些常見的數學和科學計算任務運算庫,Runtime API 提供了便捷的應用開發接口和運行期組件,開發者可以通過調用 API 自動管理 GPU 資源,而 Driver API 提供了一系列 C 函數庫,能更底層、
64、更高效地控制 GPU 資源,但相應的開發者需要手動管理模塊編譯等復雜任務。圖35.CUDA 編程模式示意圖 圖36.CUDA 在 Host 中的函數庫 數據來源:NVIDIA,財通證券研究所 數據來源:Accelerating the new SCIARA-fv3 numerical model by different GPGPU strategies Davide Spataro,財通證券研究所 CUDA 在在 Device 上執行的函數為內核函數(上執行的函數為內核函數(Kernel)通常用于并行計算和數據)通常用于并行計算和數據處理。處理。在 Kernel 中,并行部分由 K 個不同的
65、 CUDA 線程并行執行 K 次,而有別于普通的 C/C+函數只有 1 次。每一個 CUDA 內核都以一個聲明指定器開始,程序員通過使用內置變量_global_為每個線程提供一個唯一的全局 ID。一組線程被稱為 CUDA 塊(block)。CUDA 塊被分組為一個網格(grid),一個內核以線程塊的網格形式執行。每個 CUDA 塊由一個流式多處理器(SM)執行,不能遷移到 GPU 中的其他 SM,一個 SM 可以運行多個并發的 CUDA 塊,取決于CUDA 塊所需的資源,每個內核在一個設備上執行,CUDA 支持在一個設備上同時運行多個內核。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 26
66、 行業深度分析報告/證券研究報告 圖37.Kernel 是 GPU 內核函數 圖38.GPU 上的 Kernel 執行 數據來源:NVIDIA,財通證券研究所 數據來源:NVIDIA,財通證券研究所 CUDA 的存儲結構中,全局內存是所有線程都可以訪問的存儲區域,共享內存是位于線程塊內部,多個線程可以共同訪問的存儲空間,寄存器是每個線程都有一組用于保存局部變量和中間值的寄存器,而局部內存則是當存儲需求超過寄存器和共享內存容量時,分配給當前線程的存儲空間。這些存儲層次結構的訪問速度和容量各不相同,需要在應用時進行合理使用和管理。GPU 的內存層次結構與CUDA 的存儲結構密切相關,比如,在一個
67、SM 上運行的多個線程塊將共享該SM 的寄存器和共享內存資源,同時也訪問全局內存和局部內存資源。這些不同層級的存儲在 GPU 中形成了逐層遞進的內存架構,使得數據在計算過程中能夠以最快的速度流動到被需要的位置,從而實現更高效、更快速的計算任務執行。圖39.CUDA 存儲結構 圖40.GPU 中的內存層次結構 數據來源:騰訊云,財通證券研究所 數據來源:英偉達官網,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 27 行業深度分析報告/證券研究報告 豐富而成熟的豐富而成熟的軟件軟件生態是生態是 CUDA 被廣泛使用被廣泛使用的關鍵原因的關鍵原因。(1)編程語言:CUDA 從最初
68、的 1.0 版本僅支持 C 語言編程,到現在的 CUDA 12.0 支持 C、C+、Fortran、Python 等多種編程語言。此外,NVIDIA 還支持了如 PyCUDA、ltimesh Hybridizer、OpenACC 等眾多第三方工具鏈,不斷提升開發者的使用體驗。(2)庫:NVIDIA 在 CUDA 平臺上提供了名為 CUDA-X 的集合層,開發人員可以通過 CUDA-X 快速部署如 cuBLA、NPP、NCCL、cuDNN、TensorRT、OpenCV 等多領域常用庫。(3)其他:NVIDIA 還為 CUDA 開發人員提供了容器部署流程簡化以及集群環境擴展應用程序的工具,讓應用
69、程序更易加速,使得CUDA 技術能夠適用于更廣泛的領域。圖41.CUDA 是 GPU 計算生態系統 圖42.CUDA 提供強大的開發支持工具 數據來源:NVIDIA,財通證券研究所 數據來源:NVIDIA,財通證券研究所 ROCm(Radeon Open Compute Platform)是是 AMD 基于開源項目的基于開源項目的 GPU 計算生態系統,類似于計算生態系統,類似于 NVIDIA 的的 CUDA。ROCm 支持多種編程語言、編譯器、庫和工具,以加速科學計算、人工智能和機器學習等領域的應用。ROCm 還支持多種加速器廠商和架構,提供了開放的可移植性和互操作性。ROCm 支持HIP(
70、類 CUDA)和 OpenCL 兩種 GPU 編程模型,可實現 CUDA 到 ROCm 的遷移。最新的 ROCm 5.0 支持 AMD Infinity Hub 上的人工智能框架容器,包括 TensorFlow 1.x、PyTorch 1.8、MXNet 等,同時改進了 ROCm 庫和工具的性能和穩定性,包括 MIOpen、MIVisionX、rocBLAS、rocFFT、rocRAND 等。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 28 行業深度分析報告/證券研究報告 圖43.AMD ROCm 5.0 數據來源:AMD 官網,財通證券研究所 表5.ROCm 與 CUDA 模塊對比 C
71、UDA ROCm 備注備注 CUDA API HIP C+擴展語法 NVCC HCC 編譯器 CUDA 函數庫 ROC 庫、HC 庫 Thrust Parallel STL HCC 原生支持 Profiler ROCm Profiler CUDA-GDB ROCm-GDB nvidia-smi rocm-smi DirectGPU RDMA ROCn RDMA peer2peer TensorRT Tensile 張量計算庫 CUDA-Docker ROCm-Docker 數據來源:CSDN,財通證券研究所 OpenCL(Open Compute Language),是面向異構系統通用并行編程
72、是面向異構系統通用并行編程、可以在可以在多個平臺和設備上運行的開放標準多個平臺和設備上運行的開放標準。OpenCL 支持多種編程語言和環境,并提供了豐富的工具來幫助開發和調試,可以同時利用 CPU、GPU、DSP 等不同類型的加速器來執行任務,并支持數據傳輸和同步。此外,OpenCL 支持細粒度和粗粒度并行編程模型,可根據應用需求選擇合適模型提高性能和效率。而 OpenCL可移植性有限,不同平臺和設備的功能支持和性能表現存在一定差異,與 CUDA相比缺少廣泛的社區支持和成熟的生態圈。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 29 行業深度分析報告/證券研究報告 圖44.異構計算框架 O
73、penCL 數據來源:khronos,財通證券研究所 表6.OpenCL 與 CUDA 對比 CUDA OpenCL 供應商實施 僅由英偉達實施 由大量供應商實施,包括 AMD,NVIDIA,Intel,Apple,Radeon等??梢浦残?僅適用于 NVIDIA 硬件 可以移植到各種其他硬件,只要避免特定于供應商的擴展 操作系統支持 必須使用 NVIDIA 硬件 支持各種操作系統 功能庫 擁有廣泛的高性能庫 擁有大量庫,可用于所有 OpenCL 兼容硬件,但不如 CUDA 廣泛 技術細節 不是一種語言,而是一種使用 CUDA 關鍵字實現并行化的平臺和編程模型 不支持用 C+編寫代碼,但在類似
74、于環境的 C 編程語言中工作 數據來源:incredibuild,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 30 行業深度分析報告/證券研究報告 3 國內外發展現狀:國內外發展現狀:海外龍頭海外龍頭領跑,國領跑,國產持續發力產持續發力 3.1 海外龍頭:深耕多年,技術引領行業海外龍頭:深耕多年,技術引領行業 3.1.1 英偉達英偉達 英偉達英偉達(NVIDIA)加速計算加速計算的先驅者的先驅者,創立于 1993 年,公司于 1999 年發明的GPU 推動了 PC 游戲市場的增長,重新定義了現代計算機顯卡,并對并行計算進行了革新。目前,英偉達的產品應用領域包括數據中心和云
75、計算、游戲和創作、高性能計算、自動駕駛汽車、計算機開發和邊緣計算等,已逐漸轉型為計算機平臺公司。長久以來,英偉達是加速計算的先驅者。圖45.英偉達四大業務 圖46.英偉達下游應用行業 數據來源:FourWeekMBA,財通證券研究所 數據來源:英偉達官網,財通證券研究所 英偉達英偉達 GeForce RTX 40 系列系列 GPU 為游戲玩家和創作者提供為游戲玩家和創作者提供了了高性能游戲高性能游戲體驗體驗。這一系列 GPU 由更高效的 NVIDIA Ada Lovelace 架構提供動力支持,可在性能和 AI 驅動圖形領域實現質的飛躍。得益于光線追蹤和更高的 FPS 游戲分辨率,玩家和創作者
76、能夠以更低的延遲體驗栩栩如生的虛擬世界,探索革新的創作方式和遠勝以往的工作流程加速技術。表7.英偉達 40 系列顯卡產品參數規格 型號 GeForce RTX 4090 GeForce RTX 4080 GeForce RTX 4070 Ti GPU 引擎規格:NVIDIA CUDA核心數量 16384 9728 7680 加速頻率(GHz)2.52 2.51 2.61 基礎頻率(GHz)2.23 2.21 2.31 顯存規格:標準顯存配置 24 GB GDDR6X 16 GB GDDR6X 12 GB GDDR6X 顯存位寬 384 位 256 位 192 位 數據來源:英偉達官網,財通證券
77、研究所 NVIDIA A100 Tensor Core GPU 可針對可針對 AI、數據分析和、數據分析和 HPC 應用場景,在不應用場景,在不同規模下實現出色的加速,有效助力更高性能的彈性數據中心。同規模下實現出色的加速,有效助力更高性能的彈性數據中心。A100 采用 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 31 行業深度分析報告/證券研究報告 NVIDIA Ampere 架構,是 NVIDIA 數據中心平臺的引擎,其性能比上一代產品提升高達 20 倍,并可劃分為七個 GPU 實例,以根據變化的需求進行動態調整。A100 提供超快速的顯存帶寬(每秒超過 2 萬億字節 TB/s),可
78、處理超大型模型和數據集。NVIDIA H100 Tensor Core GPU 作為作為 A100 的迭代產品,可進一步在每個工作負的迭代產品,可進一步在每個工作負載中實現出色性能、可擴展性和安全性。載中實現出色性能、可擴展性和安全性。H100 使用 NVIDIA NVLink Switch系統,可連接多達 256 個 H100 來加速百億億級(Exascale)工作負載,另外可通過專用的 Transformer 引擎來處理萬億參數語言模型。與 A100 相比,H100 的綜合技術創新可以將大型語言模型的速度提高 30 倍,從而提供業界領先的對話式AI。表8.英偉達 A100、H100 系列產
79、品規格參數 外形規格 A100 80GB PCIe H100 PCIe H100 NVL2 FP64 9.7 TFLOPS 26 TFLOPS 68 TFLOPs FP64 Tensor Core 19.5 TFLOPS 51 TFLOPS 134 TFLOPs FP32 19.5 TFLOPS 51 TFLOPS 134 TFLOPs Tensor Float 32 (TF32)156 TFLOPS|312 TFLOPS*756 TFLOPS 1,979 TFLOPs BFLOAT16 Tensor Core 312 TFLOPS|624 TFLOPS*1,513 TFLOPS 3,958
80、TFLOPs FP16 Tensor Core 312 TFLOPS|624 TFLOPS*1,513 TFLOPS 3,958 TFLOPs INT8 Tensor Core 624 TOPS|1248 TOPS*3,026 TOPS 7,916 TOPS GPU 顯存 80GB HBM2 80GB 188GB GPU 顯存帶寬 1935 GB/s 2TB/s 7.8TB/s 最大熱設計功耗(TDP)300W 300-350 瓦(可配置)2x 350-400W(可配置)多實例 GPU 最大為 7MIG 每個 5GB 最多 7 個 MIG 每個10GB 最多 14 個 MIG 每個12GB 數
81、據來源:英偉達官網,財通證券研究所 受受行業行業周期下行影響,公司凈利潤大幅下降。周期下行影響,公司凈利潤大幅下降。公司 2022 年實現營業總收入 269.74 億美元,與去年基本持平,凈利潤為 43.68 億美元,同比大幅下降 55.21%,主要緣于游戲顯卡需求疲軟,資產減值損失較大。圖47.英偉達營業收入及增速(億美元)圖48.英偉達凈利潤及增速(億美元)數據來源:Wind,財通證券研究所 數據來源:Wind,財通證券研究所-20%-10%0%10%20%30%40%50%60%70%05010015020025030020182019202020212022營業收入(億美元)yoy-1
82、00%-50%0%50%100%150%02040608010012020182019202020212022凈利潤yoy 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 32 行業深度分析報告/證券研究報告 3.1.2 AMD AMD(超微半導體公司超微半導體公司),),自 1969 年創立以來,專注于處理器及相關技術設計研發。AMD 2009 年將自有晶圓廠拆分為現今的格芯后,從 IDM 廠商轉型為Fabless 公司,目前 AMD 主要產品為 CPU(包括嵌入式平臺)、GPU、主板芯片組以及 2022 年收購賽靈思而擴充的 FPGA 業務。AMD 是目前除了英特爾以外,最大的 x86
83、架構處理器供應商,自 2006 年收購 ATI 后,成為同時擁有 CPU和 GPU 技術的半導體公司。圖49.AMD 業務概覽 圖50.AMD 核心技術概覽 數據來源:AMD 企業介紹材料,財通證券研究所 數據來源:AMD 年報展示材料,財通證券研究所 AMD 最新最新于于 2022 年推出年推出 AMD Radeon RX 7000 系列系列顯卡,顯卡,采用 AMD 最新 RDNA 3 計算單元,具有光線追蹤和人工智能加速功能。7900 系列創新性地采用了小芯片技術的游戲 GPU,其 AMD Radiance Display 引擎和 DisplayPortTM 2.1 的強強聯合可以帶來 1
84、2 位 HDR 和 REC2020 色彩空間的完全覆蓋,最高可達8K 165Hz。表9.AMD7000 顯卡參數規格 型號 AMD Radeon RX 7900 XTX AMD Radeon RX 7900 XT 計算單元 96 84 光線加速器 96 84 游戲頻率 2300 MHz 2000 MHz INFINITY CACHE 96 MB 80 MB 最大顯存 24 GB 20 GB 數據來源:AMD 官網,財通證券研究所 AMD 于于 2016 年推出年推出 Instinct 計算加速器計算加速器,旨在加速深度學習、人工神經網絡和旨在加速深度學習、人工神經網絡和高性能計算高性能計算 G
85、PGPU 的的應用。應用。AMD Instinct 系列加速器采用創新性的 AMD CDNA 架構、AMD Infinity Fabric 技術以及先進的封裝技術。對于高性能計算工 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 33 行業深度分析報告/證券研究報告 作負載,AMD Instinct MI250X 的 GPU 雙精度(FP64)結合全新 FP64 Matrix Core技術更可實現最高達 95.7 TFLOPs 峰值理論性能。表10.AMD Instinct 系列產品規格 型號 AMD Instinct MI250X AMD Instinct MI250 AMD Instin
86、ct MI210 計算單元 220 208 104 流處理器 14,080 13,312 6656 峰值半精度(FP16)性能 383 TFLOPS 362.1 TFLOPS 181 TFLOPS 峰值單精度(FP32)性能 47.9 TFLOPS 45.3 TFLOPS 22.6 TFLOPS 峰值雙精度(FP64)性能 47.9 TFLOPS 45.3 TFLOPS 22.6 TFLOPS 專用顯存大小 128 GB 128 GB 64 GB 峰值顯存帶寬 3276.8 GB/s 3276.8 GB/s 1638.4 GB/s 數據來源:AMD 官網,財通證券研究所 數據中心業務快速增長,
87、推動公司整體營收提升。數據中心業務快速增長,推動公司整體營收提升。公司 2022 年實現營業總收入236.01 億美元,同比上升 43.61%,凈利潤為 13.2 億美元,同比大幅下降58.25%,主要緣于收購賽靈思后,無形資產攤銷數額較大致使凈利潤下滑。圖51.AMD 營業收入及增速(億美元)圖52.AMD 凈利潤及增速(億美元)數據來源:Wind,財通證券研究所 數據來源:Wind,財通證券研究所 3.1.3 高通高通 高通(高通(Qualcomm)創立于)創立于 1985 年,是全球領先的無線科技創新年,是全球領先的無線科技創新公司。公司。高通變革了世界連接、計算和溝通的方式,高通的基礎
88、科技賦能整體移動生態系統,開啟了移動互聯時代。2009 年,高通收購了 AMD 的移動 GPU Imageon 系列,開始發展移動端自研 GPU 業務。0%10%20%30%40%50%60%70%80%05010015020025020182019202020212022營業收入(億美元)yoy-100%0%100%200%300%400%500%600%700%0510152025303520182019202020212022凈利潤yoy 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 34 行業深度分析報告/證券研究報告 圖53.高通驍龍移動平臺 數據來源:高通官網,財通證券研究所
89、高通 Adreno GPU(原 Imageon)為采用驍龍處理器的移動終端提供游戲機品質的 3D 圖形處理能力,為游戲、用戶界面和高性能計算任務提供更快的圖形處理。作為驍龍異構計算的關鍵組件,Adreno GPU 為無縫配合驍龍 CPU 和 DSP而設計,可以幫助支持處理密集型 GPGPU 計算任務。2022 年底,高通已發布全新 4nm 級 GPU Adreno 740。表11.高通 Adreno 7 系列產品規格 型號 微架構 制程(nm)時脈(MHz)API 架構類型 ALU Vulkan OpenGL ES OpenCL OpenGL Direct3D Adreno 730 統一著色器
90、模型、統一內存 1024 4 818/900 1.0 and 1.1 3.2 3.0 Full WIP(freedreno driver)12.1 Adreno 740 1536 4 680/719 數據來源:Notebookcheck,財通證券研究所 營業收入和盈利能力均穩定增長。營業收入和盈利能力均穩定增長。公司 2022 年度實現營業收入 442 億美元,同比上升 31.68%,凈利潤為 129.36 億美元,同比上升 43.05%。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 35 行業深度分析報告/證券研究報告 圖54.高通營業收入及增速(億美元)圖55.高通凈利潤及增速(億美元
91、)數據來源:Wind,財通證券研究所 數據來源:Wind,財通證券研究所 3.1.4 Imagination Imagination 成立于成立于 1985 年,移動端年,移動端 GPU 設計領域的領軍企業。設計領域的領軍企業。Imagination 業務主要包括設計 PowerVR 移動圖形處理器,網絡路由器(基于 MIPS CPU)和其他純消費電子部門。此外還提供無線電基帶處理、網絡、數字信號處理器、視頻和音頻硬件、IP 語音軟件、云計算以及芯片和系統設計服務。圖56.IMG B 系列產品 圖57.IMG B 系列與 A 系列性能對比 數據來源:Imagination 官網,財通證券研究所
92、 數據來源:Imagination 官網,財通證券研究所 2020 年 10 月,Imagination 發布 IMG B 系列高性能 GPU IP。此款多核架構 GPU IP 包括 BXE、BXM、BXT、BXS 4 個系列,分別代表入門級、中端、高端以及汽車安全。其中 BXT 主要應用于移動設備、數據中心,浮點算力 6TFlops,每秒可處理 1920 億像素,AI 算力達 24Tops。-10%0%10%20%30%40%50%010020030040050020182019202020212022營業收入(億美元)yoy00.10.20.30.40.50.60.70.8-100-500
93、5010015020182019202020212022凈利潤yoy 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 36 行業深度分析報告/證券研究報告 表12.Imagination IMG B 系列產品簡介 型號 描述 IMG BXE 主要應用于高清顯示,每時鐘周期可處理 1-16 個像素,支持 720p-8K 分辨率顯示。IMG BXM 主要應用于圖形處理,在緊湊的面積、高效的內核上實現了填充率、計算力的最佳平衡,適用于移動游戲、數字電視等復雜 UI 領域。IMG BXT 主要應用于極致性能,可用于移動設備、數據中心,浮點性能6TFlops,每秒可處理 1920 億像素,AI 算力達
94、 24Tops IMG BXS 主要應用于汽車領域,可廣泛用于 HMI 人機界面、UI 顯示、信息娛樂系統、數字駕艙、環繞視圖、自動駕駛等。數據來源:Imagination 官網,財通證券研究所 3.1.5 ARM ARM(安謀控股公司安謀控股公司),成立于 1990 年,是全球龍頭半導體 IP 供應商。公司主要產品有 CPU、GPU 和 NPU 等處理器 IP。目前,總共有超過 100 家公司與ARM 公司簽訂了技術使用許可協議,其中包括 Intel、IBM、LG、NEC、SONY等。圖58.ARM 整體設計解決方案 數據來源:ARM 官網,財通證券研究所 ARM 最新 GPU 產品 Mal
95、i-G7 系列中 Immortails-G715 GPU 采用 10 個及以上內核,支持硬件級光線追蹤技術。Mali-G715 旨在通過一系列新的圖形功能和升級(包括可變速率著色)來滿足高端移動市場的需求,適用于移動設備上的復雜 AAA 游戲。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 37 行業深度分析報告/證券研究報告 圖59.ARM Immortails-G715 架構 數據來源:ARM 官網,財通證券研究所 3.2 兼容主流生態對標行業龍頭兼容主流生態對標行業龍頭,國內廠商國內廠商持續持續發力發力 國產國產 GPU 持續發力,對標行業龍頭縮小差距。持續發力,對標行業龍頭縮小差距。
96、GPU 有兩條主要的發展路線:分別為傳統的 2D/3D 圖形渲染 GPU 和專注高性能計算的 GP GPU,近年來,國產GPU 廠商在圖形渲染 GPU 和高性能計算 GPGPU 領域上均推出了較為成熟的產品,在性能上不斷追趕行業主流產品,在特定領域達到業界一流水平。生態方面國產廠商大多兼容英偉達 CUDA,融入大生態進而實現客戶端導入。表13.圖形渲染 GPU 產品性能對比 英偉達 芯動科技 摩爾線程 景嘉微 格蘭菲 代表產品 GeForce RTX 4090 風華一號 MTT S80 JM9 Arise-GT10C0 單精度浮點算力 82.58 TFLOPS 5 TFLOPS 14.4 TF
97、LOPS 512 GFLOPS 1.5TFLOPS 半精度浮點算力 82.58 TFLOPS NA NA NA NA 像素填充率 443.5 GPixel/s 160 GPixels/s NA 8 GPixels/s 48 GPixels/s 紋理填充率 1,290 GTexel/s NA NA NA 96 Texels/s 制程 4nm 12nm NA NA 28nm 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 38 行業深度分析報告/證券研究報告 顯存容量 24GB 8G/16G 16GB 8GB NA 顯存類型 GDDR6X GDDR6/GDDR6X GDDR6 NA DDR4 總
98、線接口 PCIe 4.0 x16 PCIe4.0 x8 向下兼容 PCIe Gen5 x16 PCIE 4.0 X8 PCIe3.0 x8 生態 CUDA NA CUDA NA NA 數據來源:各公司官網,財通證券研究所 表14.通用計算 GPU 產品性能對比 英偉達 英偉達 寒武紀 海光信息 壁仞科技 壁仞科技 摩爾線程 天數智芯 代表產品 H100 A100 思元 370(AI 加速芯片)海光 8100 壁礪100P 壁礪 104P MTT S3000 天垓 100 單精度浮點算力 51.22 TFLOPS 19.49 24 TFLOPS NA 240 TFLOPS NA 15.2 TFL
99、OPS 18.5 TFLOPS 半精度浮點算力 204.9 TFLOPS 77.97 96 TFLOPS NA NA NA NA 147 TFLOPS 整型算力(INT8)NA NA 256 TOPS NA 1920 TOPS 1024 TOPS NA 295 TOPS 制程 4 nm 7 nm 7nm NA 7nm 7nm NA 7nm 顯存容量 80 GB 40 GB/80GB 24GB NA 64GB 32GB 32GB 32 GB 顯存類型 HBM2e HBM2e LPDDR5 NA NA NA GDDR6 NA 總線接口 PCIe 5.0 x16 PCIe 4.0 x16 PCIe
100、Gen4 x16 PCle Gen4.0 x16 PCIe5.0 X16 PCIe5.0 X16 PCIe Gen5 x16 PCle Gen4.0 x16 生態 CUDA CUDA NA ROCm(兼容CUDA)CUDA CUDA CUDA CUDA 數據來源:各公司官網,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 39 行業深度分析報告/證券研究報告 3.3 高端芯片進口遭限制,國產廠商替代迎契機高端芯片進口遭限制,國產廠商替代迎契機 美國對中國高端芯片出口進行管制。美國對中國高端芯片出口進行管制。據英偉達于 2022 年 8 月 31 日發布的公告,美國政府通知公司
101、在未來將 A100 和即將推出的 H100 等人工智能芯片出口到中國大陸、中國香港和俄羅斯時須獲得許可證。2023 年 3 月 3 日,美國商務部以“國家安全”和“外交政策利益”為由,將浪潮集團等 28 個中國實體列入所謂的“實體清單”,限制其從美國進口產品和技術。未來在人工智能芯片,特別是 GPU 上對中國的制裁將對中國 AI 產業提出極大的挑戰。挑戰伴隨著機遇,高端 GPU 的限售給予了國產廠商替代空間。在國產替代的背景下,政策支持推動國產在國產替代的背景下,政策支持推動國產 GPU 行業高速發展。行業高速發展。2020 年以來,國家及各省市陸續出臺了若干政策,通過稅收減免、財政補貼等方式
102、支持半導體與集成電路產業發展。表15.國內 GPU、半導體相關政策(部分)時間 政策 相關內容 2020.07.27 新時期促進集成電路產業和軟件產業高質量發展的若干政策 集成電路設計、裝備、材料、封裝、測試企業和軟件企業,自獲利年度起,第一年至第二年免征企業所得稅,第三年至第五年按照 25%的法定稅率減半征收企業所得稅。2022.01.19 新時期促進上海市集成電路產業和軟件產業高質量發展若干政策 對于符合條件的設計企業開展有利于促進本市集成電路線寬小于 28 納米(含)工藝產線應用的流片服務,相關流片費計入項目新增投資,對流片費給予 30%的支持,支持金額原則上不高于1 億元。2022.1
103、0.11 深圳市關于促進半導體與集成電路產業高質量發展的若干措施 重點突破 CPU、GPU、DSP、FPGA 等高端通用芯片的設計,布局人工智能芯片、邊緣計算芯片等專用芯片的開發。2023.01.11 四川省人民政府工作報告 重點發展 CPU、GPU 等高端通用芯片及國產 EDA 工具,支持能源電子、中低軌衛星等新業態產業。數據來源:中國政府網,上海人民政府網,深圳市發改委官網,四川省生態環境廳官網,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 40 行業深度分析報告/證券研究報告 4 建議關注建議關注 4.1 寒武紀寒武紀 寒武紀自寒武紀自 2016 年成立以來一直專注于
104、人工智能芯片產品研發與技術創新,致力年成立以來一直專注于人工智能芯片產品研發與技術創新,致力于打造人工智能領域的核心處理器芯片。于打造人工智能領域的核心處理器芯片。公司主要提供云端智能芯片及加速卡、訓練整機、邊緣智能芯片及加速卡、終端智能處理器 IP 及配套基礎軟件開發平臺,產品廣泛應用于消費電子、數據中心、云計算等諸多場景。表16.寒武紀主要產品性能參數 產品類型 主要產品 推出時間 制程 算力(INT8)算力(FP32)產品實物圖 云端智能芯片及加速卡 思元 100(MLU100)芯片及云端智能加速卡 2018 年 16nm 32TOPS NA 思元 270(MLU270)芯片及云端智能加
105、速卡 2019 年 16nm 128TOPS*NA 思元 290(MLU290)芯片及云端智能加速卡 2020 年 7nm 512TOPS NA 思元 370(MLU370)芯片及云端智能加速卡 2021 年 7nm 256TOPS 24TFLOPS 訓練整機 玄思 1000 智能加速器 2020 年 NA 支持該精度 支持該精度 邊緣智能芯片及加速卡 思元 220(MLU220)芯片及邊緣智能加速卡 2019 年 16nm 8TOPS NA 終端智能處理器IP 寒武紀 1A 處理器 2016 年 NA NA NA 寒武紀 1H 處理器 2017 年 NA 支持 0.5-1TOPS NA 寒武
106、紀 1M 處理器 2018 年 NA 支持 0.5-8TOPS 支持 基礎系統軟件平臺 寒武紀基礎軟件開發平臺(適用于公司所有芯片與處理器產品)持續研發中 NA NA NA *為 TOPS=1024GOPS 換算,如 INT8 實際算力為 131,072GOPS 或 131TOPS。數據來源:寒武紀 2022 半年報,財通證券研究所 2022 年 3 月 21 日,公司正式發布新款訓練加速卡 MLU370-X8,搭載雙芯片四芯粒思元 370,集成寒武紀 MLU-Link多芯互聯技術,在業界廣泛應用于YOLOv3、Transformer 等訓練任務中。MLU 370-S4、MLU370-X4 和
107、 MLU370-X 均基于思元 370 智能芯片的技術,通過 Chiplet 技術靈活組合產品的特性,可滿足更多市場需求。憑借其優異競爭 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 41 行業深度分析報告/證券研究報告 力,公司已就思元 370 系列與部分頭部互聯網、銀行、服務器廠商實現了深度合作和互利共贏。表17.思元 370 系列產品信息 MLU370-S4 MLU370-X4 MLU370-X8 面向市場 機器視覺/推理任務 互聯網行業等推理任務,或訓推一體場景 訓練任務 市場特點 整機計算密度較高,單卡算力需求適中 單卡算力需求較高 單卡算力需求較高,互聯帶寬需求高 算力 192
108、TOPS(INT8)96TOPS(INT16)72TFLOPS(FP16)72TFLOPS(BF16)18TFLOPS(FP32)256TOPS(INT8)128TOPS(INT16)96TFLOPS(FP16)96TFLOPS(BF16)24TFLOPS(FP32)256TOPS(INT8)128TOPS(INT16)96TFLOPS(FP16)96TFLOPS(BF16)24TFLOPS(FP32)互聯寬帶 307.2GB/s 307.2GB/s 614.4GB/s 數據來源:寒武紀 2022 半年報,財通證券研究所 公司克服宏觀經濟、疫情反復等因素影響,在 2022 年實現度營業總收入為
109、 7.2億元,比上年同期增長 1.11%。歸屬于母公司股東的凈利潤為-11.66 億元,較上年同期虧損增加 41.4%,主要系研發費用、資產減值損失、信用減值損失增長所致。圖60.寒武紀營業收入及增速(億元)圖61.寒武紀歸母凈利潤及增速(億元)數據來源:choice,財通證券研究所 數據來源:choice,財通證券研究所 4.2 海光信息海光信息 海光信息主要從事高端處理器、加速器等計算芯片產品和系統的研發、設計和海光信息主要從事高端處理器、加速器等計算芯片產品和系統的研發、設計和銷售。銷售。公司的產品包括海光通用處理器(CPU)和海光協處理器(DCU),具有0%200%400%600%80
110、0%1000%1200%1400%1600%0.001.002.003.004.005.006.007.008.00201720182019202020212022營業收入(億元)yoy-3000%-2500%-2000%-1500%-1000%-500%0%500%-14.00-12.00-10.00-8.00-6.00-4.00-2.000.00201720182019202020212022歸母凈利潤(億元)yoy 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 42 行業深度分析報告/證券研究報告 成熟而豐富的應用生態環境,內置專用安全硬件,可滿足互聯網、金融、能源等行業的廣泛應用需
111、求。圖62.海光信息 DCU 基本組成架構 圖63.海光深算 DCU 完善軟件棧支持 數據來源:海光信息招股書,財通證券研究所 數據來源:海光信息官網,財通證券研究所 公司 DCU 系列產品海光 8100 采用先進的 FinFET 工藝,以 GPGPU 架構為基礎,兼容通用的“類 CUDA”環境以及國際主流商業計算軟件和人工智能軟件,可充分挖掘應用的并行性,發揮其大規模并行計算的能力,快速開發高能效的應用程序,在典型應用場景下性能指標可以達到國際同類型高端產品的同期水平。表18.海光 DCU 產品主要參數 海光 8100 產品形態 典型功耗 260-350W 典型運算類型 雙精度、單精度、半精
112、度浮點數據和各種常見整型數據 計算 60-64 個計算單元(最多 4096 個計算核心)支持 FP64、FP32、FP16、INT8、INT4 內存 4 個 HBM2 內存通道 最高內存帶寬為 1TB/s 最大內存容量為 32GB I/O 16 Lane PCIe Gen4 DCU 芯片之間高速互連 數據來源:海光招股說明書,財通證券研究所 公司營業收入增勢可觀,公司營業收入增勢可觀,2020-2022 年公司分別實現營收 10.22 億元、23.1 億元、51.2 億元,同比增長保持在 120%以上。歸母凈利潤于 2021 年扭虧為盈后持續增長,2022 年達到 8.02 億元,同比上升 1
113、45.3%。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 43 行業深度分析報告/證券研究報告 圖64.海光信息營業收入及增速(億元)圖65.海光信息歸母凈利潤及增速(億元)數據來源:Wind,財通證券研究所 數據來源:Wind,財通證券研究所 4.3 景嘉微景嘉微 景嘉微致力于信息探測、處理與傳遞領域的技術和綜合應用景嘉微致力于信息探測、處理與傳遞領域的技術和綜合應用。公司產品涵蓋集成電路設計、小型雷達系統、無線通信系統、電磁頻譜應用系統等方向,廣泛應用于有高可靠性要求的航空、航天、航海、車載等專業領域。公司公司先后先后自自研制成功研制成功 JM5 系列、系列、JM7 系列、系列、JM9
114、 系列高性能系列高性能 GPU 芯片,芯片,其中其中最新的最新的 JM9 系列兩款圖形處理芯片系列兩款圖形處理芯片皆已皆已完成階段性測試工作,完成階段性測試工作,并并進入放量階進入放量階段。段。JM9 系列芯片應用領域廣泛,可滿足個性化桌面辦公、網絡安全保護、軌交服務終端、多屏高清顯示輸出和人機交互等多樣化需求。表19.景嘉微 JM9 產品性能參數 產品名稱 主要技術指標 JM9 系列 圖形處理 芯片 2D 圖形生成功能 支持 DirectFB 1.7.7;支持 OpenVG 1.1 矢量圖形加速 3D 圖形生成功能 支持 OpenGL4.0,OpenCL3.0,Vulkan1.1,OpenG
115、LES3.2;像素填充率 8G Pixels/s;32 位單精度浮點性能 512GFlops 內核性能 內核時鐘頻率 1GHz(支持動態調頻)總線接口 PCIE 4.0 X8 顯存帶寬 25.6GB/s 顯存容量 8GB 顯示接口 支持 2 路獨立的圖形顯示控制器,支持 2 路 HDMI2.0,1 路 eDP1.2,1 路 VGA 輸出 功耗 15W 數據來源:公司公告,財通證券研究所 0%100%200%300%400%500%600%700%800%010203040506020182019202020212022營業收入(億元)yoy0%100%200%300%400%500%600%7
116、00%800%900%1000%-2024681020182019202020212022歸母凈利潤(億元)yoy 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 44 行業深度分析報告/證券研究報告 公司公司營收和歸母凈利潤持續上升,營收和歸母凈利潤持續上升,2021 年全年實現營收 10.93 億,同比增長率達67.1%,實現歸母凈利潤 2.93 億元,同比上升 40.9%。圖66.景嘉微營業收入及增速(億元)圖67.景嘉微歸母凈利潤及增速(億元)數據來源:Wind,財通證券研究所 數據來源:Wind,財通證券研究所 4.4 芯原股份芯原股份 芯原依托自主半導體芯原依托自主半導體 IP,
117、為客戶提供平臺化、全方位、一站式芯片定制服務和,為客戶提供平臺化、全方位、一站式芯片定制服務和半導體半導體 IP 授權服務授權服務,擁有獨特的“芯片設計平臺即服務”,擁有獨特的“芯片設計平臺即服務”經營模式經營模式。公司可提供高清視頻、物聯網連接、數據中心等多種一站式芯片定制解決方案,擁有自主可控的圖形處理器 IP、神經網絡處理器 IP 等五類處理器 IP 及 1400 多個數?;旌?IP 和射頻 IP,可快速打造出從定義到測試封裝完成的半導體產品,業務范圍覆蓋消費電子、汽車電子、物聯網等多種應用領域。據 IPnest 在 2021 年的統計,芯原的半導體 IP 銷售收入排中國大陸第二,全球第
118、七,其中公司的圖形處理器 IP 排名全球前三。圖68.一站式芯片定制服務 圖69.芯原 IP 產品陣 數據來源:芯原股份官網,財通證券研究所 數據來源:芯原股份官網,財通證券研究所 0%10%20%30%40%50%60%70%80%02468101220182019202020212022Q1-3營業收入(億元)yoy0%5%10%15%20%25%30%35%40%45%00.511.522.533.520182019202020212022Q1-3歸母凈利潤(億元)yoy 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 45 行業深度分析報告/證券研究報告 公司的 GPU IP 已被眾
119、多主流和高端的汽車品牌所采用,同時,公司基于約 20 年 Vivante GPU 的研發經驗,所推出的 Vivante 3D GPGPU IP 還可提供從低功耗嵌入式設備到高性能服務器的計算能力,滿足廣泛的人工智能計算需求。表20.芯原 Vivante圖形處理器 IP 各系列產品參數 Vivante 3D GPGPU IP Vivante 3D GPU IP Vivante 2.5D GPU IP Vivante 2D GPU IP 簡介 提供卓越的計算能力,應用領域覆蓋低功耗嵌入式設備到高性能服務器。具有更高的能效和成本效益,并提高了 3D 圖形渲染和計算性能。針對需要 UI 硬件加速渲染的
120、 MCU 和 MPU應用而設計。提高多界面合成性能并有效減少帶寬,為移動、嵌入式和消費設備帶來全新體驗。Linux Kernel support-Android Support-Windows Embedded Compact Support-Target UI Resolution-WVGA1080p up to 4K up to 1080p Software API Drivers OpenCL1.1/1.2/3.0、OpenCV Vulkan 1.1/1.0、OpenGL ES 2.0/1.1、OpenVG 1.1、OpenCV、OpenCL 1.2/1.1 Vector Graphic
121、s、VGLite API-數據來源:芯原股份官網,財通證券研究所 公司營收持續增長,歸母凈利潤公司營收持續增長,歸母凈利潤保持高保持高增速。增速。2020-2022 年公司營業收入分別為15.06 億元、21.39 億元、26.79 億元,歸母凈利潤在 2021 年扭虧為盈后持續增長,于 2022 年達 0.74 億元,同比上升 469.2%。圖70.芯原股份營業收入及增速(億元)圖71.芯原股份歸母凈利潤及增速(億元)數據來源:Wind,財通證券研究所 數據來源:Wind,財通證券研究所 0%5%10%15%20%25%30%35%40%45%051015202530201820192020
122、20212022營業收入(億元)yoy0%50%100%150%200%250%300%350%400%450%500%-0.8-0.6-0.4-0.200.20.40.60.8120182019202020212022歸母凈利潤(億元)yoy 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 46 行業深度分析報告/證券研究報告 4.5 龍芯中科龍芯中科 龍芯中科龍芯中科主要產品與服務包括處理器及配套芯片產品與基礎軟硬件解決方案業主要產品與服務包括處理器及配套芯片產品與基礎軟硬件解決方案業務。務。公司基于信息系統和工控系統兩條主線,秉承獨立自主和開放合作的運營模式,面向網絡安全、工控及物聯網
123、等領域與合作伙伴保持全面的市場合作,產品廣泛應用于電子政務、能源、交通、金融等行業領域,相關軟硬件開發人員數萬人,已經形成強大的產業鏈與生態支撐能力。在通用圖形處理器及系統研發方面,龍芯中科于 2017 年開始研發 GPU,已掌握 GPU 研發的關鍵技術,第一款GPU IP 核已經在龍芯 7A2000 橋片樣片中流片成功。圖72.龍芯中科芯片產品 圖73.龍芯中科自主生態技術架構 數據來源:龍芯中科官網,財通證券研究所 數據來源:龍芯中科官網,財通證券研究所 受周期下行和疫情反復影響受周期下行和疫情反復影響,公司公司營收增速持續下降,營收增速持續下降,2022 年全年實現營收7.39 億元,同
124、比下跌 38.5%,歸母凈利潤由 2021 年的 2.37 億下跌至 0.51 億元,同比下跌 78.5%。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 47 行業深度分析報告/證券研究報告 圖74.龍芯中科營業收入及增速(億元)圖75.龍芯中科歸母凈利潤及增速(億元)數據來源:Wind,財通證券研究所 數據來源:Wind,財通證券研究所 4.6 壁仞科技(非上市)壁仞科技(非上市)壁仞科技創立于壁仞科技創立于 2019 年,在年,在 GPU、DSA(專用加速器)和計算機體系結構等領(專用加速器)和計算機體系結構等領域具有深厚的技術積累。域具有深厚的技術積累。公司致力于開發原創性的通用計算
125、體系,建立高效的軟硬件平臺,同時在智能計算領域提供一體化的解決方案。圖76.BR100 系列通用 GPU 芯片 圖77.BIRENSUPA 軟件平臺 數據來源:壁仞科技官網,財通證券研究所 數據來源:壁仞科技官網,財通證券研究所 2022 年年 8 月公司月公司發布的發布的通用通用 GPU 芯片芯片 BR100 創下全球創下全球通用通用 GPU 算力記錄,峰算力記錄,峰值算力達到國際廠商在售旗艦產品值算力達到國際廠商在售旗艦產品 3 倍以上。倍以上。BR100 率先采用 Chiplet 技術、新一代主機接口 PCIe 5.0、支持 CXL 互連協議,確立了公司在國內廠商間的技術領先地位。公司堅
126、持自主研發,同步推出原創架構“壁立仞”和自研BIRENSUPA 軟件平臺,實現了 BR100 性能的大幅提升。以壁仞科技于 2022 年8 月發布的首款 GP GPU BR100 為例,該芯片采用 Chiplet 技術,16 位浮點算力-50%0%50%100%150%200%0246810121420182019202020212022營業收入(億元)yoy-500%0%500%1000%1500%2000%2500%00.511.522.520182019202020212022歸母凈利潤(億元)yoy 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 48 行業深度分析報告/證券研究報告
127、 達到 1000T 以上、8 位定點算力達到 2000T 以上,單芯片峰值算力達到 PFLOPS級別,是國際廠商在售旗艦產品的 3 倍以上,創造了全球通用 GPU 的算力記錄。表21.壁仞 BR100 系列產品參數 產品 壁礪100P 壁礪104P 制程 7nm 7nm 系統接口、帶寬、互連協議 PCIe5.0X16,128GB/s,支持CXL PCIe5.0X16,支持 CXL FP32TFLOPS(峰值)240 NA TF32+TFLOPS(峰值)480 256 BF16TFLOPS(峰值)960 512 INT8TOPS(峰值)1,920 1024 內存容量、接口位寬、帶寬 64GBHB
128、M2E;4,096bit,1.64TB/s 32GBHBM2E;2,048bit,819GB/s 互連 448GB/sBLink,支持 7 個端口,最高可實現 8 卡全互連 192GB/sBLink,支持 3個端口,最高可實現 4 卡全互連 安全虛擬實例 最高 8 份 最高 4 份 視頻編解碼(FHD30fps)64 路 HEVC/H.264 編碼/512路 HEVC/H.264 解碼 32 路 HEVC/H.264 編碼、256 路 HEVC/H.264 解碼 TDP 450-550W 300W 數據來源:壁仞科技官網,財通證券研究所 4.7 摩爾線程(非上市)摩爾線程(非上市)摩爾線程摩爾
129、線程專注專注于設計高性能通用于設計高性能通用 GPU 芯片,提供圖形計算和芯片,提供圖形計算和 AI 計算的元計算計算的元計算平臺的集成電路高科技公司平臺的集成電路高科技公司。公司高管團隊來自英偉達、AMD、ARM 等知名芯片公司,擁有豐富的 GPU 研究經驗,致力于創新面向元計算應用的新一代GPU,構建融合視覺計算、3D 圖形計算、科學計算及人工智能計算的綜合計算平臺,建立基于云原生 GPU 計算的生態系統。圖78.開發者軟件 MT GPU Management Center 圖79.第一代 MUSA 架構 數據來源:摩爾線程官網,財通證券研究所 數據來源:摩爾線程官網,財通證券研究所 謹請
130、參閱尾頁重要聲明及財通證券股票和行業評級標準 49 行業深度分析報告/證券研究報告 2022 年年 11 月,公司推出基于第二代月,公司推出基于第二代 MUSA 架構的處理器架構的處理器“春曉春曉”,并基于,并基于“春春曉曉”GPU 發布面向消費領域的國發布面向消費領域的國產產芯片顯卡芯片顯卡 MTT S80 和和面向服務器應用的面向服務器應用的MTTS3000 顯卡顯卡。同時,公司圍繞 MUSA 發布了系列 GPU 軟件棧與應用工具,包括 MUSA 開發者套件、云原生 sGPU 技術及元宇宙平臺 MTVERSE 等。表22.摩爾線程產品參數 產品 MTT S80 MTT S30 MTT S5
131、0 MTT S3000 MTT S2000 流處理單元 4096 MUSA核心 1024 MUSA核心 2048 MUSA核心 4096 MUSA核心 4096 MUSA核心 GPU 核心頻率 1.8GHz NA NA 1.9GHz NA FP32 算力 14.4 TFLOPS 2.6 TFLOPS 5 TFLOPS 15.2 TFLOPS 10.6 TFLOPS 顯存容量 16GB 4GB 8GB 32GB 32GB 顯存位寬 256 bit 128 bit 256 bit 256 bit 256 bit 功耗 255W 40W 75W 250W 150W 最大分辨率 7680 4320 3
132、840 2160 7680 4320 NA NA 數據來源:摩爾線程官網,財通證券研究所 4.8 芯動科技(非上市)芯動科技(非上市)芯動科技芯動科技是是國內國內一站式一站式 IP 和芯片定制及和芯片定制及 GPU 領軍企業,聚焦計算、存儲、連領軍企業,聚焦計算、存儲、連接等三大賽道,接等三大賽道,提供從 55 納米到 5 納米全套高速 IP 核以及高性能定制芯片解決方案。公司擁有經驗豐富的技術團隊,成立 16 年來已賦能全球數百家知名客戶,授權逾 80 億顆高端 SoC 芯片進入規模量產,擁有過十億顆 FinFET 定制芯片成功量產經驗。圖80.芯動科技的定制服務 圖81.芯動科技核心產品
133、數據來源:芯動科技官網,財通證券研究所 數據來源:芯動科技官網,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 50 行業深度分析報告/證券研究報告 公司公司瞄準商用市場推出瞄準商用市場推出芯動風華系列芯動風華系列 GPU。該系列 GPU 性能強勁、跑分領先、功耗低、自帶智能計算能力,且全面支持國內外 CPU/OS 和生態,包括 Linux、Windows 和 Android。表23.芯動風華系列 GPU 主要參數 產品 風華 1 號 風華 2 號 單精度浮點算力 5TFLOPS 1.5TFLOPS AI 性能 12.5 TOPS(INT8)12.5 TOPS(INT8)像素
134、填充率 160GPixels/sec 48GPixels/sec 接口規格 PCIe4.0 x8 向下兼容 PCle3.0 x8 顯存類型 GDDR6/GDDR6X LPDDR5X/5/4X/4 顯存容量 8G/16G 2GB/4GB/8GB 計算 API OpenCL 1.2/2.1EP/3.0 OpenCL 3.0 數據來源:芯動科技官網,財通證券研究所 4.9 兆芯(非上市)兆芯(非上市)兆芯成立于兆芯成立于 2013 年,年,提供高效、兼容、安全的自主通用處理器和芯片組等產提供高效、兼容、安全的自主通用處理器和芯片組等產品品,公司掌握自主通用處理器及其系統平臺芯片研發設計的核心技術,全
135、面覆蓋其微架構與實現技術等關鍵領域,擁有較為完整的知識產權體系,截至目前已獲權約 1300 件專利。2020 年,兆芯將自身 GPU 業務進行切分獨立,建立了格蘭菲智能科技有限公司。公司目前已推出 Arise-GT10C0 芯片及 Glenfly Arise-GT-10C0 顯卡。芯片內置完全獨立自主研發的新一代圖形圖像處理引擎,兼容銀河麒麟 KOS、統信軟件 UOS、Windows 等主流操作系統,同時可在 X86、ARM、MIPS 等主流硬件平臺操作運行,支持多種圖形和圖像的 API 接口標準。表24.兆芯 Arise-GT10C0 芯片介紹 產品 Arise-GT10C0 工藝制程 28
136、nm 單精度浮點算力 1.5TFLOPS 頻率 500MHz 像素填充率 48GPixels/sec 紋理填充率 96Texels/sec 顯存類型 DDR4 顯存頻率 1200MH 接口規格 PCIe3.0 x8 數據來源:格蘭菲智能官網,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 51 行業深度分析報告/證券研究報告 4.10 天數智芯天數智芯(非上市)(非上市)天數智芯天數智芯致力于開發自主可控、國際領先的高性能通用致力于開發自主可控、國際領先的高性能通用 GPU 產品產品并提供解決方并提供解決方案案,是國內頭部通用,是國內頭部通用 GPU 高端芯片及超級算力系統提
137、供商。高端芯片及超級算力系統提供商。公司以“成為智能社會的賦能者”為使命,立足客戶、市場的需求,加速 AI 計算與圖形渲染融合,探索通用 GPU 趕超發展道路,產品廣泛應用于智算重心、智慧醫療、互聯網、智能制造等領域。圖82.基于 GPU 的 TEE 隱私計算解決方案 圖83.公司發布的人工智能開源平臺 DeepSpark 數據來源:天數智芯官網,財通證券研究所 數據來源:天數智芯官網,財通證券研究所 12 月 20 日,天數智芯推出通用 GPU 推理產品“智鎧 100”及其豐富的 AI 應用案例。智鎧智鎧 100 計算性能高、應用覆蓋廣、使用成本低,計算性能高、應用覆蓋廣、使用成本低,支持
138、FP32、FP16、INT8等多精度混合計算,可提供最高 384TFlopsint8、96TFlopsFP16、24TFlopsFP32 的峰值算力,800GB/s 的理論峰值帶寬以及 128 路并發的多種視頻規格解碼能力。表25.天數智芯 BI-V100 主要產品參數 型號 BI-V100 架構 通用 GPU 頻率 1.5GHz 制程及封裝 TSMC 7nm FinFET 2.5D COWOS 封裝 內存規格 32 GB DRAM(48GB)HBM2 接口規格 PCle Gen4.0 x 16 lane 共享 64 GB/s 主控雙向帶寬 共享 64 GB/s 片間互聯帶寬 半精浮點峰值算力
139、(含 TCU)147 TFLOPS 整型峰值算力 295 TOPSINT8 支持 INT32,INT16 計算 內存 32 GB DRAM(4*8GB)HBM2 數據來源:天數智芯官網,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 52 行業深度分析報告/證券研究報告 4.11 沐曦沐曦(非上市)(非上市)沐曦于沐曦于 2020 年年 9 月成立于上海月成立于上海,致力于為異構計算提供全棧,致力于為異構計算提供全棧 GPU 芯片及解決芯片及解決方案,方案,可廣泛應用于人工智能、智慧城市、自動駕駛、數字孿生、元宇宙等前沿領域。公司擁有技術完備、設計和產業化經驗豐富的團隊,核心
140、成員平均擁有近20 年高性能 GPU 產品端到端研發經驗。公司擁有公司擁有完全自主研發的完全自主研發的 GPU IP、指令集和架構,指令集和架構,以及兼容主流 GPU 生態的完整軟件棧(MXMACA),產品產品具備高能效具備高能效、高通用性高通用性。目前已推出 MXN 系列GPU(曦思)用于 AI 推理,MXC 系列 GPU(曦云)用于 AI 訓練及通用計算,以及 MXG 系列 GPU(曦彩)用于圖形渲染,可滿足數據中心對高能效和高通用性的算力需求。表26.沐曦 GPU 產品矩陣 產品產品系列系列 產品外觀產品外觀 描述描述 MXNMXN 人工智能推理 GPU MXN 系列是面向云端數據中心應
141、用的人工智能推理產品,采用高帶寬內存,提供強大的 AI 算力和領先的視頻編解碼能力,可廣泛應用于智慧城市、公有云計算、智能視頻處理、云游戲等場景。MXCMXC 通用計算 GPU MXC 系列通用 GPU(GPGPU)芯片是針對 AI 訓練、AI 推理及通用計算的完美解決方案,沐曦自主知識產權架構提供強大高精度及多精度混合算力,可廣泛應用于人工智能、數據中心以及通用計算、教育和科研等場景。MXGMXG 圖形渲染 GPU MXG 系列 GPU 是針對圖形渲染加速的解決方案,沐曦自主知識產權架構提供卓越的圖形圖像渲染與視頻處理能力,可廣泛應用于元宇宙、云桌面、云游戲、云手機、數字孿生、XR 等場景。
142、數據來源:沐曦官網,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 53 行業深度分析報告/證券研究報告 5 風險提示風險提示 技術迭代技術迭代風險風險:技術迭代與產品研發進度可能不及預期。GPU 行業需要技術的不斷迭代以推動新產品的落地,持續的技術研發周期需要長期穩定地投入大量人才資源與資金資源。在研發產出存在較高不確定性的情況下,可能會出現技術研發進度遲滯或新產品周期被動延長,將使企業遭遇虧損。宏觀經濟風險宏觀經濟風險:宏觀經濟復蘇可能不及預期。行業受宏觀經濟形勢影響較大,新冠疫情后全球宏觀經濟平穩復蘇。未來存在國內外宏觀經濟波動或復蘇趨勢放緩可能,將不利于企業的經營發展
143、。國產替代風險國產替代風險:國產替代可能不及預期。受國內技術發展水平和國際貿易政策等不確定因素的影響,國產替代需求可能無法完全釋放,將影響企業的發展前景。行業行業競爭競爭風險風險:行業競爭可能加劇。國外龍頭企業在技術與生態上占據優勢地位,國內廠商成熟產品逐步涌現,市場競爭愈發激烈,將對企業的經營與戰略規劃提出更大挑戰。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 54 行業深度分析報告/證券研究報告 分析師承諾分析師承諾 作者具有中國證券業協會授予的證券投資咨詢執業資格,并注冊為證券分析師,具備專業勝任能力,保證報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解。本報告清晰地反映了
144、作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,作者也不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。資質聲明資質聲明 財通證券股份有限公司具備中國證券監督管理委員會許可的證券投資咨詢業務資格。公司評級公司評級 買入:相對同期相關證券市場代表性指數漲幅大于 10%;增持:相對同期相關證券市場代表性指數漲幅在 5%10%之間;中性:相對同期相關證券市場代表性指數漲幅在-5%5%之間;減持:相對同期相關證券市場代表性指數漲幅小于-5%;無評級:由于我們無法獲取必要的資料,或者公司面臨無法預見結果的重大不確定性事件,或者其他原因,致使我們無法給出明確的投資評級
145、。行業評級行業評級 看好:相對表現優于同期相關證券市場代表性指數;中性:相對表現與同期相關證券市場代表性指數持平;看淡:相對表現弱于同期相關證券市場代表性指數。免責聲明免責聲明 本報告僅供財通證券股份有限公司的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告的信息來源于已公開的資料,本公司不保證該等信息的準確性、完整性。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,并非作為或被視為出售或購買證券或其他投資標的邀請或向他人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的價格、價值及投資收入可能會波動。在不同時期
146、,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司通過信息隔離墻對可能存在利益沖突的業務部門或關聯機構之間的信息流動進行控制。因此,客戶應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報告所提到的公司的董事。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議。在任何情況下,本公司不對任何人使用本報告中的任何內容所引致的任何損失負任何責任。本報告僅作為客戶作出投資決策和公司投資顧問為客戶提供投資建議的參考??蛻魬敧毩⒆鞒鐾顿Y決策,而基于本報告作出任何投資決定或就本報告要求任何解釋前應咨詢所在證券機構投資顧問和服務人員的意見;本報告的版權歸本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。信息披露信息披露