1、請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 證券研究報告|行業深度 2023 年 04 月 08 日 電子電子“AI 革命”革命”算力篇算力篇 GPU:算力的核心硬件算力的核心硬件,海外絕對壟斷,海外絕對壟斷。根據 Verified Market Research 數據,2021年全球 GPU 市場規模為 334.7 億美金,預計到 2030 年將達到 4473.7 億美金,期間CAGR 33.3%。全球 GPU 市場目前被海外企業壟斷,根據 Jon Peddie Research 數據,2022年四季度PC GPU中,英特爾/英偉達/AMD份額分別為71%/17%/12%;2022Q4
2、獨立 GPU 中,英特爾/英偉達/AMD 份額分別為 6%/85%/9%,全球范圍內 GPU 市場呈現出海外三巨頭壟斷局面。LLM 模型帶動算力需求模型帶動算力需求。LLM 模型的訓練需要大量的計算資源和海量的文本數據,因此需要使用分布式計算和大規模數據處理技術。例如,GPT-3 模型擁有約 1750 億參考量,這使得 GPT-3 擁有其他較少參考量模型來說更高的準確性:僅需少量的樣本訓練就能夠接近于 BETR 模型使用大量樣本訓練后的效果。但同時,如果以英偉以英偉達旗艦級達旗艦級 GPU 產品產品 A100 對對 GPT-3 進行訓練,進行訓練,1024 塊塊 A100 卡需要耗費超過卡需要
3、耗費超過 1個月(大于個月(大于 30 天),則我們可以按比例計算出,如果需要單日完成訓練,需要的天),則我們可以按比例計算出,如果需要單日完成訓練,需要的A100 數量將超過數量將超過 30000 塊。塊。我們認為,LLM 模型無論在性能還是在學習能力上,相較于其他模型都具備明顯優勢,未來或將成為行業趨勢,同時大規模的訓練模型與之對應的便是龐大的算力需求。服務器:服務器:GPU 市場的重要增長動力。市場的重要增長動力。服務器中 GPU 由于其具有最強的計算能力同時具備深度學習等能力,目前成為服務器中加速芯片的首選。AI 服務器中服務器中 GPU 單單品類硬件價值量占比較高:品類硬件價值量占比
4、較高:我們以我們以 Nvidia DGX A100 為例,通過計算我們發現其為例,通過計算我們發現其GPU 價值量占比約為價值量占比約為 48.24%。根據 TrendForce 數據,截止 2022 年全球搭載GPGPU 的 AI 服務器出貨量占整體服務器比重約 1%,同時 TrendForce 預測 2023年伴隨 AI 相關應用加持,年出貨量增速達到 8%,20222026 年 CAGR 為 10.8%。我們假設訓練我們假設訓練 AI 服務器和推理服務器和推理 AI 服務器的比例為服務器的比例為 1:4,計算得到,計算得到 2023/2026 年年訓練服務器的數量大約為訓練服務器的數量大
5、約為 3.60/5.00 萬臺。同時假設推理萬臺。同時假設推理 AI 服務器和訓練服務器和訓練 AI 服服務器使用的務器使用的 GPU 數量分別為數量分別為 4 張和張和 8 張,算出張,算出 2023 年和年和 2026 年全球年全球 AI 服務器服務器領域所需領域所需 GPU 數量約為數量約為 86.4 萬張和萬張和 120 萬張,以萬張,以 A100 約約 1.20w 美金的價格作美金的價格作為參考計算出為參考計算出 2023 年和年和 2026 年年 AI 服務器所需服務器所需 GPU 的價值分別為的價值分別為 103.7 億億美美元和元和 144.0 億億美元。美元。硬件國產化迫在眉
6、睫!硬件國產化迫在眉睫!2022 年 8 月,美國政府通知英偉達,其需要獲得許可才能夠向中國和俄羅斯出口任何基于最新架構的 A100 GPU 或 DGX/HGX 等系統,同時該項規定也同時適用于最新發布的 H100 GPU 或者實現類似功能的產品。國內公司百度國內公司百度旗下大模型旗下大模型 ERNIE 3.0 Titan 參數量達到參數量達到 2600 億,高于億,高于 GPT-3 的的 1750 億,其億,其所需的同規格所需的同規格 GPU 數量將遠大于數量將遠大于 GPT-3,根據比例我們可以計算出在相同時間下,根據比例我們可以計算出在相同時間下(超過一個月)(超過一個月)ERNIE 3
7、.0 Titan 所需所需 A100 數量約為數量約為 1522 塊。塊。同時我們認為,未來 AI 倘若進入大模型時代,相關算力需求將快速增加,屆時對于國產高算力 GPU需求將進一步提升,所以說 GPU 國產化進程迫在眉睫。優秀國產優秀國產 GPU 公司不斷涌現。公司不斷涌現。目前包括景嘉微、沐曦集成電路、壁仞科技、摩爾線程在內一批優秀的國產 GPU 公司不斷涌現,通過對比我們發現:在單精度浮點運算性能(FP32)算力中,國內外廠商均處于 TFLOPS 量級,海外龍頭英偉達和海外龍頭英偉達和 AMD旗艦信號旗艦信號 H100 SXM 和和 MI250 x 分別實現分別實現 FP32 算力算力
8、67 TFLOPS 和和 47.9 TFLOPS。國內摩爾線程最高。國內摩爾線程最高 FP32 算力產品算力產品 MTT S3000,算力為,算力為 15.2 TFLOPS;壁仞科技壁礪壁仞科技壁礪100P 產品最高實現產品最高實現 240 TFLOPS 的的 FP32 算力;芯動科技“風華算力;芯動科技“風華1 號”產品實現號”產品實現 FP32 算力算力 5 TFLOPS。通過對比通過對比我們發現我們發現在大部分情況下國產在大部分情況下國產GPGPU 相較于海外旗艦款仍存在差距。相較于海外旗艦款仍存在差距。標的推薦:標的推薦:景嘉微、寒武紀、芯原股份、海光信息。景嘉微、寒武紀、芯原股份、海
9、光信息。風險提示風險提示:下游需求不及預期,國產化進程不及預期,測算誤差風險。增持增持(維持維持)行業行業走勢走勢 作者作者分析師分析師 鄭震湘鄭震湘 執業證書編號:S0680518120002 郵箱: 分析師分析師 佘凌星佘凌星 執業證書編號:S0680520010001 郵箱: 相關研究相關研究 1、電子:先進封裝引領“后摩爾時代”,國產供應鏈新機遇2023-04-05 2、電子:AI 帶動存算需求提升,存儲國產化有望持續推進2023-04-03 3、電子:衛星通信:推動智能終端設備技術創新升級2023-03-21-32%-16%0%16%2022-042022-082022-112023
10、-03電子滬深300 2023 年 04 月 08 日 P.2 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 內容目錄內容目錄 一、GPU:始于圖形,不止于圖形.4 1.1GPU算力核心硬件.4 1.2 需求端大模型算力需求激增.7 1.3 供給性能高速迭代,海外絕對壟斷.14 二、相關公司.17 2.1 英偉達:復盤全球 GPU 龍頭.17 2.2 國產 GPU 欣欣向榮.21 三、標的推薦.25 3.1 景嘉微:潛心研發,國產 GPU 龍頭靜待花開.25 3.2 寒武紀:國產 AI 芯片領軍企業.25 3.3 芯原股份:國產 IP 龍頭,Chiplet 持續加速.26 3.4 海光信息
11、:國產 CPU、DCU 龍頭.27 四、風險提示.28 圖表目錄圖表目錄 圖表 1:英偉達專業 GPU:A100(For HGX).4 圖表 2:英偉達消費級 GPU:GeForce RTX 4090.4 圖表 3:獨立 GPU 和集成 GPU.5 圖表 4:GPU 具有更多處理單元.5 圖表 5:GPU 在訓練速度上具有絕對優勢(注:CPU 選擇英特爾至強 Gold 6240 處理器).5 圖表 6:GPGPU 架構.6 圖表 7:CPU 全球市場規模及復合增速(億美金,%).6 圖表 8:算力數量級前綴及說明.7 圖表 9:世界范圍內最快的超級計算機算力演變過程(GFLOPS).7 圖表
12、10:歷史上經歷的重大產業革命.7 圖表 11:人工智能、機器學習與深度學習的關系.8 圖表 12:深度學習的訓練和推理階段.8 圖表 13:全球范圍內 LLM 模型爆炸增長.8 圖表 14:參數提升對于模型整體改善顯著.9 圖表 15:GPT-3 僅需 32 條樣本即可達到其他模型相同訓練效果.9 圖表 16:GPU 數量和總算力的關系(GPU 為英偉達 A100).9 圖表 17:浪潮 AI 服務器:NF5688M6.10 圖表 18:全球服務器出貨量(萬臺)及增速(%).10 圖表 19:全球服務器市場規模預測(百萬美元)同比(%).10 圖表 20:AI 服務器(推理)出貨量預測及復合
13、增速(千臺,%).11 圖表 21:2022 年采購 AI 服務器占比(%).11 圖表 22:GPU 在 AI 服務器中的價值量占比(%).11 圖表 23:從 AI 服務器數量角度測算所需 GPU 數量和對應價值.12 圖表 24:汽車 L0-L5 不同層次功能.12 圖表 25:智能網聯汽車技術路線圖 2.0中我國自動駕駛發展規劃.13 圖表 26:英偉達車載算力演變過程.13 圖表 27:2022 年全球新能源汽車銷量(分企業,萬輛).14 圖表 28:中國新能源汽車月銷量(輛).14 EY8VhUkW9XlWvUtWvUbRcM6MpNnNtRpMkPmMsOeRmNnNbRnMqQ
14、wMsQmQvPpMqP 2023 年 04 月 08 日 P.3 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 29:英偉達單芯片推理性能演變過程.14 圖表 30:英偉達近三代 GPGPU 對比(Nvidia H100 價格為沐曦預測).15 圖表 31:全球 PC GPU 份額情況(按季度,%).15 圖表 32:全球獨立 GPU 份額情況(內圈為 2022Q3,外圈為 2022Q4,%).15 圖表 33:SEC 對英偉達 A100、H100 等高端 GPU 出口限制文件.16 圖表 34:模型參數不斷演進.16 圖表 35:英偉達 19992012 年復盤(美元).17 圖
15、表 36:英偉達 20132019 年復盤(美元).18 圖表 37:英偉達 20202023 年復盤(美元).19 圖表 38:NVIDIA H100 Tensor Core GPU.19 圖表 39:H100 在 LLM 模型中進行 9 倍的訓練(相較于 A100).19 圖表 40:NVIDIA DGX H100.20 圖表 41:英偉達近年營收及增速(億美元,%).20 圖表 42:英偉達近年凈利潤及增速(億美元,%).20 圖表 43:英偉達近年毛利率、凈利率變化(%).21 圖表 44:景嘉微 JM9 系列 GPU 參數.21 圖表 45:沐曦集成電路產品:MXC(主要針對 AI
16、訓練,AI 推理等場景).22 圖表 46:沐曦集成電路產品:MXG(主要針對圖形渲染).22 圖表 47:壁仞科技產品:壁礪100P.22 圖表 48:壁仞科技產品:壁礪104P.22 圖表 49:摩爾線程 MTT S80 產品.23 表 50:芯動科技“風華 1 號”服務器顯卡.23 圖表 51:芯動科技“風華 2 號”桌面顯卡.23 圖表 52:登臨科技產品:Goldwasser-UL.24 圖表 53:登臨科技產品:Goldwasser-XL.24 圖表 54:國內專業 GPU 算力與海外龍頭比較.24 2023 年 04 月 08 日 P.4 請仔細閱讀本報告末頁聲明請仔細閱讀本報告
17、末頁聲明 一、一、GPU:始于始于圖形,不止于圖形圖形,不止于圖形 1.1GPU算力核心硬件算力核心硬件 GPU 用途由圖形處理拓展至計算用途由圖形處理拓展至計算。GPU 是圖形處理器的簡稱,它是一種專門用于處理圖形、視頻、游戲等高性能計算的硬件設備。GPU 相對于傳統的中央處理器(CPU)而言,其擁有更多的計算核心和更快的內存帶寬,能夠大幅度提高計算效率和圖形渲染速度?,F階段,隨著例如英偉達 A100、H100 等型號產品的發布,GPU 在算力方面的優勢相較于其他硬件具有較大優勢,GPU 的工作也從一開始的圖形處理逐步轉化為計算。根據用途和性能表現,GPU 可以分為專業卡和消費級卡兩類:專業
18、卡通常用于工程、科學、醫學等領域的高性能計算和大規模數據處理,主要廠商包括英偉達、AMD 等;消費級卡則主要用于普通家庭和游戲玩家,主要廠商包括英偉達、AMD、英特爾等。圖表 1:英偉達專業 GPU:A100(For HGX)圖表 2:英偉達消費級 GPU:GeForce RTX 4090 資料來源:英偉達官網,國盛證券研究所 資料來源:Amazon,國盛證券研究所 根據芯片不同,GPU 又可分為獨立 GPU 和集成 GPU:其中獨立 GPU 表示具有自己的處理器、存儲器以及電源,可以獨立于計算機主板的獨立芯片;集成 GPU 是一種內置于CPU芯片中的圖形處理器。二者區別主要在于性能和功能,獨
19、立GPU性能通常更為強大,可以處理較為復雜的圖形、計算任務;集成 GPU 性能通常低于獨立 GPU,但其優勢在于低功耗以及小型化設計,更加適合筆記本電腦、平板電腦等小型設備。2023 年 04 月 08 日 P.5 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 3:獨立 GPU 和集成 GPU 資料來源:CGDIRECTOR,國盛證券研究所 目前 GPU 在硬件中擁有最高的算力,成為最適合支撐人工智能訓練和學習的硬件,我們認為其原因主要在于:更多處理單元:更多處理單元:GPU 相比于 CPU 等其他硬件有更多的處理單元(核心數更多),因此可以并行處理更多的數據。主要系 GPU 最初是
20、為了圖形渲染而設計的,而圖形渲染涉及的計算是高度并行化的。這種并行化的特性使 GPU 非常適合進行機器學習和深度學習這樣的大規模數據并行計算。具有更高的內存帶寬和更大的內存容量:具有更高的內存帶寬和更大的內存容量:在進行深度學習等計算時,需要大量的內存和高速的內存帶寬來存儲和處理海量數據。GPU 相比于其他硬件(如 CPU),具有更高的內存帶寬和更大的內存容量,可以更有效地存儲和處理數據,從而提高計算速度。具有專門的計算單元:具有專門的計算單元:相較于其他硬件,GPU 具有例如張量核心和矩陣乘法等計算單元,可以更快地執行常見的機器學習和深度學習操作:如卷積和矩陣乘法。這些計算單元與通用計算單元
21、相比,具有更高的效率和更快的速度。圖表 4:GPU 具有更多處理單元 圖表 5:GPU 在訓練速度上具有絕對優勢(注:CPU 選擇英特爾至強 Gold 6240 處理器)資料來源:英偉達官網,國盛證券研究所 資料來源:英偉達官網,國盛證券研究所 GPGPU為計算而生。為計算而生。GPGPU 全稱是“general-purpose computing on graphics processing units”,簡稱“通用圖形處理單元”,其主要利用 GPU 的功能來執行 CPU 的 2023 年 04 月 08 日 P.6 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 任務,雖然在設計初期是為
22、了更好地圖形處理,但是多內核多通道的設計使其非常適合科學計算,發展至今 GPGPU 也成為了專為計算而設計的硬件。圖表 6:GPGPU 架構 資料來源:ResearchGate,國盛證券研究所 多領域驅動,多領域驅動,GPU 千億美金市場拉開序幕。千億美金市場拉開序幕。GPU 市場規模的大小取決于多種因素:其中游戲和娛樂市場一直是 GPU 市場的主要驅動力,因為這些領域需要高性能的 GPU 來支持更高質量的游戲畫面和娛樂內容。同時人工智能和機器學習的發展對 GPU 市場也有著巨大的影響,因為這些技術需要大量的計算能力,而 GPU 可以提供比 CPU 更高的效率。此外,科學和研究領域的需求以及新
23、興市場(如游戲機和數據中心)也對 GPU 市場的規模產生了影響。根據 Verified Market Research 數據,2021 年全球 GPU 市場規模為334.7 億美金,預計到 2030 年將達到 4473.7 億美金,期間 CAGR 33.3%。圖表 7:CPU 全球市場規模及復合增速(億美金,%)資料來源:Verified Market Research,國盛證券研究所 2023 年 04 月 08 日 P.7 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 1.2 需求端需求端大模型算力需求激增大模型算力需求激增 LLM 模型帶動算力需求模型帶動算力需求:算力是指計算機系統
24、能夠完成的計算任務量,通常用來描述計算機的處理能力。算力的單位通常采用 FLOPS(Floating Point Operations Per Second)表示每秒鐘能夠完成的浮點運算或指令數,例如一臺計算機每秒鐘可以完成 10 億次浮點運算,那么它的 FLOPS值就是 10 GFLOPS(10 Giga FLOPS)。目前我們以全球龍頭英偉達在 2020 年發布的 A100產品為例,根據英偉達官方介紹,A100 的理論浮點運算性能可以達到 19.5 TFLOPS(19.5 Tera FLOPS),即每秒 195 萬億次浮點運算。圖表 8:算力數量級前綴及說明 圖表 9:世界范圍內最快的超級
25、計算機算力演變過程(GFLOPS)資料來源:University Information Technology Services,國盛證券研究所 資料來源:Our World in Data,國盛證券研究所 站在“智能革命”起點。站在“智能革命”起點。我們回顧歷史,人類社會目前經歷了三次重大的產業變革:蒸汽時代、電氣時代、信息時代,其分別對應了 18 世紀 60 年代末期英國人詹姆斯瓦特制造的第一代具有實用價值的蒸汽機、美國在 19 世界 60 年代實現電力的廣泛應用,以及電燈被發明、1946 年美國制造出人類第一臺二進制計算機。我們認為,每一次的產業革命都具有幾個共通點,首先均有標志性的產品
26、面世,其次持續時間較長以及對于世界發展影響深遠。2022 年年 11 月,月,ChatGPT 的發布讓世界看到了無限的可能性,我們認的發布讓世界看到了無限的可能性,我們認為這僅僅只是“智能革命”的起點,未來或將呈現出各行業各接納人工智能,人工智能為這僅僅只是“智能革命”的起點,未來或將呈現出各行業各接納人工智能,人工智能助推世界發展的景象。助推世界發展的景象。圖表 10:歷史上經歷的重大產業革命 產業革命產業革命 時間時間 標志性產品標志性產品 生產力重大變化生產力重大變化 蒸汽革命 1760s 新型蒸汽機 機器代替手工 電氣革命 1870s 電燈 石油作為主要能源 信息革命 1940s 計算
27、機 計算機極大程度提升生產力 資料來源:維基百科,國盛證券研究所 深度學習深度學習對算力要求大幅提升。對算力要求大幅提升。人工智能通過模擬和延展人類及自然智能的功能,拓展機器的能力邊界,使其能部分或全面地實現類人的感知(如視覺、語音)、認知功能(如自然語言理解),或獲得建模和解決問題的能力(如機器學習等方法)。人工智能實現方法之一為機器學習,而深度學習是用來實現機器學習的技術,通??煞譃椤坝柧殹焙汀巴啤坝柧殹焙汀巴评怼崩怼眱蓚€階段。訓練階段:需要基于大量的數據來調整和優化人工智能模型的參數,使模型的準確度達到預期,核心在于算力核心在于算力;推理階段:訓練結束后,建立的人工智能模型 2023 年
28、 04 月 08 日 P.8 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 可用于推理或預測待處理輸入數據對應的輸出(例如給定一張圖片,識別該圖片中的物體),這個過程為推理階段,對單個任務的計算能力不及訓練,但總計算量也相當可觀。圖表 11:人工智能、機器學習與深度學習的關系 圖表 12:深度學習的訓練和推理階段 資料來源:英偉達官網,國盛證券研究所 資料來源:英偉達官網,國盛證券研究所 大型語言模型(Large Language Model,簡稱 LLM)是一種使用深度學習算法處理、理解自然語言的基礎學習模型。LLM 基于數億到數千億個參數的神經網絡,通過訓練數據學習自然語言的規律和模式
29、,并能夠生成高質量的自然語言文本。這些模型的訓練需要大量的計算資源和海量的文本數據,因此需要使用分布式計算和大規模數據處理技術。目前,LLM 模型能夠在例如語音識別、文本摘要、智能翻譯等領域中實際應用,但是 LLM模型大規模應用目前仍然存在一些挑戰和限制:需要大量的訓練數據和計算資源,很難處理語言的多樣性和不確定性。圖表 13:全球范圍內 LLM 模型爆炸增長 資料來源:Medium,國盛證券研究所 GPT-3 開啟大模型時代。開啟大模型時代。GPT-3 是由 OpenAI 研發的一種基于深度學習的自然語言處理模型,其使用了大量的語料庫進行預訓練,使其能夠理解語言的規則和模式,并生成與輸入文本
30、相關的自然語言文本,GPT-3 的主要特點是它具有大規模的預訓練模型,而同時大規模的訓練模型與之對應的便是龐大的算力需求,根據 OpenAI 團隊成員 2020 年發表的論文Language Models are Few-Shot Learners,GPT-3 模型擁有約 1750 億參考 2023 年 04 月 08 日 P.9 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 量,這使得 GPT-3 擁有其他較少參考量模型來說更高的準確性。同時基于 1750 億參數的模型僅需少量的樣本訓練,就能夠接近于 BETR 模型使用大量樣本訓練后的效果。我們認為,大模型無論在性能還是在學習能力上,相
31、較于其他模型都具備明顯優勢,未來或將成為行業趨勢。圖表 14:參數提升對于模型整體改善顯著 圖表 15:GPT-3 僅需 32 條樣本即可達到其他模型相同訓練效果 資料來源:QCon 全球軟件開發大會,國盛證券研究所 資料來源:Language Models are Few-Shot Learners,國盛證券研究所 伴隨大模型的明顯優勢,與之而來的則是對于算力要求的顯著提升。以 GPT-3 為例,其1750 億的參數,如果以英偉達旗艦級 GPU 產品 A100 對 GPT-3 進行訓練,1024 塊 A100卡需要耗費超過 1 個月(大于 30 天),則我們可以按比例計算出,如果需要單日完成
32、訓練,需要的 A100 數量將超過 30000 塊。圖表 16:GPU 數量和總算力的關系(GPU 為英偉達 A100)資料來源:英偉達官網,國盛證券研究所 服務器:服務器:GPU 市場的重要增長動力市場的重要增長動力 目前 AI 服務器通常選用 CPU 和加速芯片組來滿足其龐大算力需求,其中加速芯片包括GPU、FPGA、ASIC 等邏輯芯片,其中 GPU 由于其具有最強的計算能力同時具備深度學習等能力,目前成為服務器中加速芯片的首選。2023 年 04 月 08 日 P.10 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 17:浪潮 AI 服務器:NF5688M6 資料來源:浪潮官
33、網,國盛證券研究所 根據中商產業研究院數據,2021 年全球服務器出貨量達 1315 萬臺,同比增長 7.8%,對應全球市場規模達 995 億美元。根據 Counterpoint 預計,2022 年全球服務器市場規模有望達到 1117 億美元,同比增長 17.0%。預計云服務提供商數據中心擴張增長驅動力主要來自于汽車、5G、云游戲和高性能計算。圖表 18:全球服務器出貨量(萬臺)及增速(%)圖表 19:全球服務器市場規模預測(億美元)同比(%)資料來源:Wind,中商產業研究院,國盛證券研究所 資料來源:Counterpoint,國盛證券研究所 AI 服務器滲透率依舊較低,增長空間巨大。服務器
34、滲透率依舊較低,增長空間巨大。根據 TrendForce 數據,截止 2022 年全球搭載 GPGPU 的 AI 服務器(推理)出貨量占整體服務器比重約 1%,同時 TrendForce 預測2023 年伴隨 AI 相關應用加持,年出貨量增速達到 8%,20222026 年 CAGR 為 10.8%。根據 TrendForce 數據,2022 年全球 AI 服務器采購中,Microsoft、Google、Meta、AWS為前四大采購商,合計占比 66.2%。中國地區 ByteDance(字節跳動)采購比例最高,達到 6.2%。-4%0%4%8%12%16%20%0200400600800100
35、01200140016002016201720182019202020212022E全球服務器出貨量預測趨勢圖(萬臺)同比(%)-5%0%5%10%15%20%02004006008001000120020182019202020212022F全球服務器市場規模(億美元)同比(%)2023 年 04 月 08 日 P.11 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 20:AI 服務器(推理)出貨量預測及復合增速(千臺,%)圖表 21:2022 年采購 AI 服務器占比(%)資料來源:TrendForce,國盛證券研究所 資料來源:TrendForce,國盛證券研究所 GPU 在在
36、 AI 服務器中服務器中價值量占比接近價值量占比接近 50%。我們以 Nvidia DGX A100 為例,其搭載了8 張 Nvidia A100 Tensor GPU,根據新浪科技數據,Nvidia DGX A100 售價約為 19.9w美金;Nvidia A100 Tensor 價格為 1.001.20w 美金。我們按照 1.20w 美金售價計算可得出 GPU 在 Nvidia DGX A100 價值量占比約為 48.24%。圖表 22:GPU 在 AI 服務器中的價值量占比(%)資料來源:國盛電子測算,國盛證券研究所 我們從服務器的數量角度出發進行 GPU 數量推算:根據上文 Trend
37、Force 預計 2023 年預計全球 AI 服務器(推理)出貨大約在 14.4 萬臺,到 2026 年預計實現出貨量 20.0w 臺。我們假設訓練 AI 服務器和推理 AI 服務器的比例為 1:4,則我們可以得到 2023/2026 年訓練服務器的數量大約為3.60/5.00 萬臺。由于兩種AI 服務器對應的模型訓練階段不同,我們假設推理 AI 服務器和訓練 AI 服務器使用的 GPU 數量分別為 4 張和 8 張,則可以計算出 2023 年和 2026 年全球 AI 服務器領域所需 GPU 數量約為 86.4 萬張和 120 萬張,我們以A100約1.20w美金的價格作為參考計算出2023
38、年和2026年AI服務器所需GPU的價值分別為 103.7 億美元和 144.0 億美元。Microsoft19%Google17%Meta16%AWS14%ByteDance6%Tencent2%Baidu2%Alibaba2%Others22%GPU48%Others52%2023 年 04 月 08 日 P.12 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 23:從 AI 服務器數量角度測算所需 GPU 數量和對應價值 服務器類型服務器類型 推理推理 訓練訓練 合計合計 2023E 服務器數量(萬)14.4 3.6 18.0 2026E 服務器數量(萬)20.0 5.0 25
39、.0 單服務器所需 GPU 數量(個)4.0 8.0 2023E 服務器所需 GPU 數量(萬)57.6 28.8 86.4 2026E 服務器所需 GPU 數量(萬)80.0 40.0 120.0 GPU 價格(萬美元)1.2 1.2 2023E 服務器所需 GPU 價值(億美元)69.1 34.6 103.7 2026E 服務器所需 GPU 價值(億美元)96.0 48.0 144.0 資料來源:國盛電子測算,國盛證券研究所 汽車智能化帶動汽車智能化帶動 GPU 算力需求算力需求 輔助駕駛輔助駕駛成為汽車研發的重點方向成為汽車研發的重點方向,L1 至至 L5 級別越高自動化水平越高。級別越
40、高自動化水平越高。汽車自動化駕駛通常分為 5 個級別,L0 即人工駕駛;L2 半自動化駕駛較為普及,是大多數車型已經具備的功能;L3 幾乎能完成全部自動駕駛,目前僅有奧迪 A8 為已上市 L3 級別車型;L4 只有在特定地段才需人工操縱其余時間告別駕駛員;L5 純自動駕駛目前還只停留在概念階段,無需人類操作駕駛以及辨別路況將徹底改變人們出行觀念。圖表 24:汽車 L0-L5 不同層次功能 等級等級 稱呼稱呼 轉向、加減速控制轉向、加減速控制 對環境的觀察對環境的觀察 激烈駕駛的應對激烈駕駛的應對 應對工況應對工況 L0 人工駕駛 駕駛員 駕駛員 駕駛員-L1 輔助駕駛 駕駛員+系統 駕駛員 駕
41、駛員 部分 L2 半自動駕駛 系統 駕駛員 駕駛員 部分 L3 高度自動駕駛 系統 系統 駕駛員 部分 L4 超高度自動駕駛 系統 系統 系統 部分 L5 全自動駕駛 系統 系統 系統 全部 資料來源:Functional Safety Expert,國盛證券研究所 我國將智能汽車自動駕駛分為 5 個階段,分別為:輔助駕駛階段(DA)、部分自動駕駛階段(PA)、有條件自動駕駛階段(CA)、高度自動駕駛階段(HA)和完全自動駕駛階段(FA)。2020 年發布的智能網聯汽車技術路線圖 2.0中指出:在2025年,我國PA與CA級智能網聯汽車市場份額占比應超50%。(L2+L350%)。到2030年
42、PA與CA級份額超70%,HA級網聯汽車份額達到20%。(L2+L370%,L420%)。到 2035 年,中國方案智能網聯汽車產業體系更加完善,各類網聯式高度自動駕駛車輛廣泛運行于中國廣大地區。(L3 以上網聯汽車廣泛使用)2023 年 04 月 08 日 P.13 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 25:智能網聯汽車技術路線圖 2.0中我國自動駕駛發展規劃 資料來源:智能網聯汽車技術路線圖 2.0,國盛證券研究所 自動駕駛對于算力需求提升。為了實現 L2 或者更高等級的自動駕駛,往往需要部署如攝像頭、激光雷達在內的多種傳感器,例如 Tesla Model 3 車型中包
43、括了 8 個攝像頭和 12個超聲波雷達。多傳感器帶來的是龐大的數據處理需求,伴隨攜帶自動駕駛功能的汽車銷量持續提升,相關算力硬件需求也逐步擴大。目前英偉達自動駕駛平臺 NVIDIA DRIVE Thor 能夠提供 2000 TFLOPS 算力,為自動駕駛、車載 AI、停車輔助等多功能提供所需算力需求。圖表 26:英偉達車載算力演變過程 資料來源:英偉達官網,國盛證券研究所 2022 年全球新能源汽車銷量突破千萬。年全球新能源汽車銷量突破千萬。根據 Clean Technica 數據,2022 年全球新能源汽車銷量突破千萬達 1009.12 萬輛,占整體汽車市場 14%份額,其中比亞迪以 184
44、.77萬輛的全年銷售數據獲得全球銷量冠軍。根據中國汽車工業協會數據,2023 年 1 月和 2月我國新能源汽車月度銷量分別為 40.78 萬輛和 52.50 萬輛,由于 1-2 月為汽車銷量傳統淡季,2023 年 1 月與 2 月銷量與 2022 年 12 月 81.38 萬輛的月銷量相比仍有差距。后續隨著汽車電動化進程不斷深化,我們認為全球范圍內新能源汽車銷量將會維持高速增長態勢。2023 年 04 月 08 日 P.14 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 27:2022 年全球新能源汽車銷量(分企業,萬輛)圖表 28:中國新能源汽車月銷量(輛)資料來源:Clean T
45、echnica,國盛證券研究所 資料來源:中國汽車工業協會,Wind,國盛證券研究所 1.3 供給供給性能高速迭代,海外絕對壟斷性能高速迭代,海外絕對壟斷“黃氏定理”愈演愈烈“黃氏定理”愈演愈烈,GPU 性能高速迭代性能高速迭代。在集成電路中,Intel 創始人之一戈登摩爾曾今提出:集成電路上的可容納晶體管數量大約在 24 個月就會增加一倍,后續這個時間被更新為 18 個月。目前在 GPU 領域,英偉達創始人之一黃仁勛也給出了自己的理解:GPU 性能提升一倍所需的時間約為 1 年,這相較于摩爾定理在集成電路中的速度提升了 1.5 倍左右。根據英偉達總裁 Bill Dally 表示,自 2012
46、 年開始直到 2021 年的 A100產品面世,GPU單芯片推理性能提升了約317倍,而其中工藝制程僅由28nm提升至7nm。圖表 29:英偉達單芯片推理性能演變過程 資料來源:OFweek,國盛證券研究所 020406080100120140160180200比亞迪特斯拉上汽通用五菱大眾寶馬奔馳廣汽上汽長安奇瑞起亞吉利現代東風沃爾沃奧迪哪吒福特理想標致2022年全球新能源乘用車分企業銷量情況(萬輛)01000002000003000004000005000006000007000008000009000002018-012018-042018-072018-102019-012019-042
47、019-072019-102020-012020-042020-072020-102021-012021-042021-072021-102022-012022-042022-072022-102023-01中國新能源汽車月銷量(輛)2023 年 04 月 08 日 P.15 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 邊際成本邊際成本或將或將下降。下降。我們用英偉達近三代旗艦 GPGPU 為例,通過對比我們發現,在 FP16 tensor 算力來看,性能實現逐代翻倍,雖然售價持續提升,但是我們通過計算發現最新一代 GPGPU 單位算力價格相較于上一代產品有所下降,我們認為如果 H100
48、 價格不出現較大幅度變動,那么英偉達新一代產品將在一定程度上降低推理、計算的邊際成本。圖表 30:英偉達近三代 GPGPU 對比(Nvidia H100 價格為沐曦預測)Nvidia V100 Nvidia A100 Nvidia H100 發布日期 2017.5 2020.6 2022.3 架構 Volta Ampere Hopper 工藝制程 TSMC 12nm TSMC 7nm TSMC 4nm 芯片面積(mm2)815 826 814 晶體管數量(Billion)21.1 54.2 80 首發售價(美元)9000 13000 36000 Boost Clock(MHz)1530 141
49、0 1620 FP16 tensor(TFLOPS)125 312 756.5 FP16 GFLOPS per USD 13.89 24.96 21.01 Total SRAM(MB)36 87.25 107 資料來源:沐曦 MetaX,國盛證券研究所 英偉達、英特爾、英偉達、英特爾、AMD 三巨頭壟斷三巨頭壟斷全球全球 GPU 市場。市場。全球全球 GPU 市場目前被海外企業壟市場目前被海外企業壟斷:斷:全球范圍內,人工智能、云端計算和獨立 GPU 主要為英偉達主導,旗下深度學習旗艦 GPU 產品 A100 和 H100 最高浮點算力分別實現 19.5 TFLOPS 和 67 TFLOPS;
50、PC GPU由于涵蓋集成 GPU,英特爾由于為全球 CPU 龍頭,使其在 PC GPU 中份額最高。根據 Jon Peddie Research 數據,2022 年四季度 PC GPU 中,英特爾、英偉達、AMD 份額分別為 71%、17%、12%;2022Q4 獨立 GPU 中,英特爾、英偉達、AMD 份額分別為 6%、85%、9%。圖表 31:全球 PC GPU 份額情況(按季度,%)圖表 32:全球獨立 GPU 份額情況(內圈為 2022Q3,外圈為 2022Q4,%)資料來源:Jon Peddie Research,國盛證券研究所 資料來源:Jon Peddie Research,國盛
51、證券研究所 高端型號高端型號 GPU 出口限制出口限制,國產化迫在眉睫。,國產化迫在眉睫。2022 年 8 月,美國政府通知英偉達,其需要獲得許可才能夠向中國和俄羅斯出口任何基于最新架構的 A100 GPU 或 DGX/HGX 等系統,同時該項規定也同時適用于最新發布的 H100 GPU 或者實現類似功能的產品。根據上文信息,我們發現目前全球范圍內 GPU 市場幾乎被美國壟斷,尤其在人工智能領域中英偉達產品被廣泛使用。0%10%20%30%40%50%60%70%80%90%100%2021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q4英特爾英偉達AM
52、D7%86%6%9%85%6%AMD英偉達英特爾 2023 年 04 月 08 日 P.16 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 33:SEC 對英偉達 A100、H100 等高端 GPU 出口限制文件 資料來源:SEC,國盛證券研究所 高端型號產品的出口限制將在很大程度上影響國內相關領域的發展,根據上文我們計算出GPT-3當日完成訓練需要的A100數量將超過3萬塊,國內公司百度旗下大模型ERNIE 3.0 Titan,參數量達到 2600 億,高于 GPT-3 的 1750 億,其所需的同規格 GPU 數量將遠大于 GPT-3(根據上文我們得知 1024 塊 A100 訓
53、練 GPT-3(1750 億參數)所需時間約為 30 天,則我們可以根據比例計算出百度 ERNIE 3.0 Titan 模型(2600 億參數)訓練30 天所需 A100 數量約為 1522 塊。)同時我們認為,未來 AI 倘若進入大模型時代,相關算力需求將快速增加,屆時對于國產高算力 GPU 需求將進一步提升,所以說 GPU 國產化進程迫在眉睫。圖表 34:模型參數不斷演進 資料來源:QCon 全球軟件開發大會,國盛證券研究所 2023 年 04 月 08 日 P.17 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 二、二、相關公司相關公司 2.1 英偉達:英偉達:復盤復盤全球全球 GP
54、U 龍頭龍頭 英偉達創立之初是一家為圖形計算提供加速器的無晶圓廠半導體設計公司,1993 年黃仁勛、Chris Malachowsky 和 Curtis Priem 共同創立了英偉達,1999 年英偉達推出 GeForce 256 繪圖處理芯片時在全球首次提出 GPU(圖形處理器)概念,2006 年推出革命性的用于通用 GPU 計算的統一計算架構平臺 CUDA,使得 GPU 可以被用于需要處理大量并行計算的領域。同時 1999 年英偉達在納斯達克上市,當時公司的收入來源主要為 PC 業務,強大的產品力和與當時頭部PC廠商的合作,英偉達用三年時間將營收從1995年的118.2萬美金提升到 199
55、8 年的 1.6 億美金。革命性革命性 CUDA 架構,打開架構,打開 GPU 通用通用計算大門。計算大門。2006 年底,英偉達推出 CUDA 通用并行計算架構,CUDA是用于GPU計算的開發環境,是一個全新得軟硬件架構,它包含了CUDA指令集架構(ISA)以及 GPU 內部的并行計算引擎,可將 GPU 視作一個并行數據計算的設備,對運行的計算進行分配和管理。在 CUDA 的架構中,計算不再像過去那樣必須將計算映射到圖形 API(OpenGL 或 DirectX)中,開發者可以用 C 語言為 CUDA 架構編寫程序,從而在支持 CUDA 的處理器上以超高性能運行密集數據計算解決方案,解決復雜
56、計算問題,CUDA 的廣泛應用造就了計算專用 GPU 的崛起,使得英偉達得以進軍高性能計算領域。推出推出新產品系列,平臺型布局初現新產品系列,平臺型布局初現。2008 年英偉達發布了支持 CUDA 1.1 的 GeForce 9系列 GPU,以及采用了第二代 CUDA 架構的 GeForce 200 系列 GPU,NVIDIA 在 GT 200中引入了大量重要改進,GT200 具有極高的處理能力和存儲器帶寬,用于通用計算時的可編程性和靈活性也更加突出,采用 Tesla 架構,這也是英偉達數據中心 GPU 系列產品的第一代架構。同年,NVIDIA 還發布了 Tegra 系列產品,進軍移動處理器市
57、場。圖表 35:英偉達 19992012 年復盤(美元)資料來源:彭博,國盛電子整理,國盛證券研究所 2023 年 04 月 08 日 P.18 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 從現在的角度出發,回顧歷史我們認為,2012 年是英偉達業務布局的關鍵之年,2012年開始深度學習技術革命性的快速發展,彼時深度學習可以打敗基于人工代碼的軟件,到 2015 年深度學習已經可以在 ImageNet 挑戰賽戰勝真人,GPU 在此過程中為深度學習計算提供強勁支撐,深度學習的高速發展使得 AI 技術下游應用領域打開,技術、應用、GPU 產品迭代形成良性循環。2015 年之后,英偉達發布旗下第
58、一代自動駕駛平臺 Drive PX,同時自身游戲業務表現十分強勁,在全球芯片公司業績相對疲軟的階段,英偉達業績表現亮眼。隨后以比特幣為首的加密貨幣價格急速暴漲,對于其相關的炒作火熱,這在一定程度上使得英偉達 GPU出貨量在 20172018 年間出現增長,對應股價也出現明顯漲幅,隨后伴隨加密貨幣價格大跌和加密貨幣熱潮褪去,股價回落至正常態勢。圖表 36:英偉達 20132019 年復盤(美元)資料來源:彭博,國盛電子整理,國盛證券研究所 進入 2020 年,2020 年初由于不可預測事件導致全球供應鏈中斷,產線被迫停止,導致英偉達受到較大影響:2020 一季度公司收入、利潤同比出現負增長。在
59、2020 年 9 月,英偉達首次宣布 400 億美元擬收購 Arm,如果收購順利進行將成為英偉達歷史上最大額度收購。2021 年全球半導體進入短缺狀態,英偉達業績表現強勁,同時發布了 Omniverse 平臺擁抱元宇宙,公司股價出現較大的漲幅。隨后到 2022 年,伴隨加密貨幣價格暴跌,相關 GPU 需求幾乎消失,同時公司主營游戲業務需求不及預期,伴隨去庫存帶來的毛利率和業績同時下滑,公司股價出現回落。2023 年初,由 OpenAI 發布的基于 GPT-3.5 架構的大型語言模型火爆,人工智能收到廣泛關注,同時由于大模型的整體發展趨勢,具有較強算力的 GPU 產品受到高度關注,公司或將在未來
60、深度受益于人工智能發展,公司股價出現明顯漲幅。2023 年 04 月 08 日 P.19 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 37:英偉達 20202023 年復盤(美元)資料來源:Wind,國盛電子整理,國盛證券研究所 H100 算力再提升算力再提升,LLM 模型中較模型中較 A100 訓練提升訓練提升 9 倍。倍。2022 年英偉達發布新一代基于 Hopper 架構的 H100,主要用于下一代加速計算平臺。H100 擁有 800 億個晶體管,采用第四代 Tensor Core 和具有 FP8 精度的 Transformer 引擎,與 MoE 模型相比,訓練速度提高了 9
61、 倍。H100 通過多項改進將推理加速高達 30 倍并提供最低的延遲。其搭載的第四代 Tensor Cores 加速了所有精度,包括 FP64、TF32、FP32、FP16、INT8 和 FP8,以減少內存使用并提高性能的同時仍保持 LLM 的精度。H100 將雙精度 Tensor Core 的每秒浮點運算(FLOPS)提高了三倍,為 HPC 提供了 60 teraflops 的 FP64 計算。圖表 38:NVIDIA H100 Tensor Core GPU 圖表 39:H100 在 LLM 模型中進行 9 倍的訓練(相較于 A100)資料來源:英偉達官網,國盛證券研究所 資料來源:英偉達
62、官網,國盛證券研究所 根據英偉達 2023 年 3 月法說會,英偉達加速源自于 DGX,這是 LLM 實現突破的關鍵部件之一。根據英偉達描述,截止目前 財富截止目前 財富 100 強的企業中已經有半數安裝了強的企業中已經有半數安裝了 DGX AI 2023 年 04 月 08 日 P.20 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 超級計算機,超級計算機,DGX 已經成為已經成為 AI 領域中的必備工具。領域中的必備工具。目前英偉達最新的 DGX 將搭載 8個 H100 模組,H100 搭載 Transformer 模型,旨在用于處理類似于 GPT-3 的 LLM 模型,8 個 H10
63、0 模組通過 NVSwitch 連接的方式組成一個無通信阻礙的大型 GPU。根據官網信息,NVIDIA DGX H100 具有 6 倍的性能、2 倍的網絡速度和高速可擴展性,同時英偉達表示目前新款 DGX H100 已經全面投入生產。圖表 40:NVIDIA DGX H100 資料來源:英偉達官網,國盛證券研究所 2022 年年受受需求及去庫存影響,業績短期承壓。需求及去庫存影響,業績短期承壓。2023 財年中(2022 年),英偉達實現營收 269.7 億美金,略高于 2022 財年的 269.1 億美金;凈利潤實現 43.68 億美金,同比下滑 55.21%。2023 財年英偉達由于全球消
64、費相對低迷,同時疊加上公司的庫存調整,公司游戲業務短期承壓,總體利潤情況也呈現下滑。未來我們認為,公司在 GPU 領域依舊具備全球龍頭地位,下游人工智能、服務器等領域伴隨人工智能大模型進程不斷推進,相關 GPU 需求或將顯著增加。圖表 41:英偉達近年營收及增速(億美元,%)圖表 42:英偉達近年凈利潤及增速(億美元,%)資料來源:Wind,國盛證券研究所 資料來源:Wind,國盛證券研究所 公司毛利率水平維持平穩,2023 財年由于公司收入結構的變化以及消化庫存的影響,2023 財年綜合毛利率 56.93%,同比下滑 8.00pct;同時公司 2023 財年凈利率 16.19%,-20%-1
65、0%0%10%20%30%40%50%60%70%0501001502002503002013 2014 2015 2016 2017 2018 2019 2020 2021 2022營業收入(億美元)同比(%)-100%-50%0%50%100%150%200%0204060801001202013 2014 2015 2016 2017 2018 2019 2020 2021 2022凈利潤(億美元)同比(%)2023 年 04 月 08 日 P.21 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 同比下滑 20.04%。未來我們認為伴隨大模型 AI 的逐漸普及,對于公司例如 A100
66、、H100等專業級 GPU 需求量將提升,改善自身產品結構,提升盈利能力;同時我們認為未來伴隨全球消費復蘇,公司游戲業務及對應消費級 GPU 需求將恢復至正常水平。圖表 43:英偉達近年毛利率、凈利率變化(%)資料來源:Wind,國盛證券研究所 2.2 國產國產 GPU 欣欣向榮欣欣向榮 近幾年近幾年,國產,國產 GPU 廠商不斷涌向廠商不斷涌向,其中:,其中:景嘉微:景嘉微:公司是國內首家成功研制國產 GPU 芯片并實現大規模工程應用的企業,掌握了包括芯片底層邏輯/物理設計、超大規模電路集成驗證、模擬接口設計、GPU 驅動程序設計等關鍵技術,在 GPU 體系結構、圖形繪制高效處理算法、高速浮
67、點運算器設計、可復用模塊設計、快速大容量存儲器接口設計、低功耗設計等方面有深厚的技術積累,先后研制成功 JM5 系列、JM7 系列、JM9 系列等具有自主知識產權的高性能 GPU 芯片,為國內 GPU 的突破發展做出了突出的貢獻。圖表 44:景嘉微 JM9 系列 GPU 參數 型號型號 JM9-1 JM9-2 顯存容量 8GB 8GB 顯存帶寬 128GB/s 25.6GB/s 總線接口 PCIe 4.0 X8 PCIe 4.0 X8 FP32 性能 1.5 TFLOPS 512 GFLOPS 像素填充率 32G Pixels/s 8G Pixels/s 資料來源:景嘉微公告,國盛證券研究所
68、沐曦集成電路:沐曦集成電路:公司于 2020 年 9 月成立,核心成員平均擁有近 20 年高性能 GPU 產品端到端研發經驗。沐曦打造全棧 GPU 芯片產品,推出 MXN 系列 GPU(曦思)用于 AI推理,MXC 系列 GPU(曦云)用于 AI 訓練及通用計算,以及 MXG 系列 GPU(曦彩)用于圖形渲染,滿足數據中心對“高能效”和“高通用性”的算力需求。沐曦產品均采用完全自主研發的 GPU IP,擁有完全自主知識產權的指令集和架構,配以兼容主流 GPU生態的完整軟件棧(MXMACA),具備高能效和高通用性的天然優勢,能夠為客戶構建軟硬件一體的全面生態解決方案。0%10%20%30%40%
69、50%60%70%2013201420152016201720182019202020212022綜合毛利率(%)凈利率(%)2023 年 04 月 08 日 P.22 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 45:沐曦集成電路產品:MXC(主要針對 AI 訓練,AI 推理等場景)圖表 46:沐曦集成電路產品:MXG(主要針對圖形渲染)資料來源:沐曦集成電路官網,國盛證券研究所 資料來源:沐曦集成電路官網,國盛證券研究所 壁仞科技:壁仞科技:創立于 2019 年,致力于開發原創性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領域提供一體化的解決方案。從發展路徑上,壁仞科技
70、將首先聚焦云端通用智能計算,逐步在人工智能訓練和推理、圖形渲染等多個領域趕超現有解決方案,實現國產高端通用智能計算芯片的突破。2022 年壁仞科技推出旗下首款旗艦 GPU芯片:BR100,其采用 7nm 制程,支持 PCIe 5.0 接口,根據壁仞科技發布會,BR100 16位浮點算力達到 1000T 以上,8 位定點算力達到 2000T 以上,單芯片峰值算力達 PFLOPS級別。圖表 47:壁仞科技產品:壁礪100P 圖表 48:壁仞科技產品:壁礪104P 資料來源:壁仞科技官網,國盛證券研究所 資料來源:壁仞科技官網,國盛證券研究所 摩爾線程:摩爾線程:成立于 2020 年 10 月,專注
71、于研發設計全功能 GPU 芯片及相關產品,支持3D 圖形渲染、AI 訓練與推理加速、超高清視頻編解碼、物理仿真與科學計算等多種組合工作負載,兼顧算力與算效,能夠為中國科技生態合作伙伴提供強大的計算加速能力,廣泛賦能數字經濟多個領域。根據摩爾線程官網,旗下 MTT S80 產品 GPU 核心頻率1.8GHz,具有 18GB 顯存,FP32 算力達到 14.4 TFLOPS。2023 年 04 月 08 日 P.23 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 49:摩爾線程 MTT S80 產品 資料來源:摩爾線程官網,國盛證券研究所 芯動科技:芯動科技:一站式 IP 和芯片定制及
72、GPU 領軍企業,聚焦計算、存儲、連接等三大賽道,提供跨全球各大工藝廠(臺積電/三星/格芯/中芯國際/聯華電子/英特爾/華力)從 55 納米到 5 納米全套高速 IP 核以及高性能定制芯片解決方案。根據芯動科技官網,在公司成立后,先后推出了“風華 1 號”4K 級多路服務器 GPU、“風華 2 號”4K 級三屏桌面和嵌入式 GPU,采用全套自主高端 IP,性能強勁,跑分領先,功耗低,自帶智能計算能力,全面支持國內外 CPU/OS 和生態,包括 Linux、Windows 和 Android。表 50:芯動科技“風華 1 號”服務器顯卡 圖表 51:芯動科技“風華 2 號”桌面顯卡 資料來源:芯
73、動科技官網,國盛證券研究所 資料來源:芯動科技官網,國盛證券研究所 登臨科技:登臨科技:成立于 2017 年底,專注于高性能通用計算平臺的芯片研發與技術創新,致力于打造云邊端一體、軟硬件協同、訓練推理融合的前沿芯片產品和平臺化基礎系統軟件。公司自主創新的 GPU+(基于 GPGPU 的軟件定義的片內異構計算架構),在兼容CUDA/OpenCL 在內的編程模型和軟件生態的基礎上,通過架構創新,完美解決了通用性和高效率的雙重難題。大量客戶產品實測證明,針對 AI 計算,GPU+相比傳統 GPU 在性能尤其是能效上有顯著提升。2023 年 04 月 08 日 P.24 請仔細閱讀本報告末頁聲明請仔細
74、閱讀本報告末頁聲明 圖表 52:登臨科技產品:Goldwasser-UL 圖表 53:登臨科技產品:Goldwasser-XL 資料來源:登臨科技官網,國盛證券研究所 資料來源:登臨科技官網,國盛證券研究所 通過各公司官網,我們比較目前公開披露的國內外各廠家專業 GPU 算力情況,通過比較我們發現,目前在單精度浮點運算性能(FP32)算力中,國內外廠商均處于 TFLOPS 量級,海外龍頭英偉達和 AMD 旗艦信號 H100 SXM 和 MI250 x 分別實現 FP32 算力 67 TFLOPS 和 47.9 TFLOPS。國內摩爾線程最高 FP32 算力產品 MTT S3000,算力為 15
75、.2 TFLOPS;壁仞科技壁礪100P 產品最高實現 240 TFLOPS 的 FP32 算力;芯動科技“風華 1 號”產品實現 FP32 算力 5 TFLOPS。通過對比我們發現,在絕大多數情況下,國產GPU 相較于海外龍頭旗艦產品仍有較大差距。圖表 54:國內專業 GPU 算力與海外龍頭比較 廠商廠商 產品型號產品型號 發布年份發布年份 工藝制程工藝制程 顯存容量顯存容量(GB)FP32 算力算力(TFLOPS)Nvidia V100 SXM2 2017 12nm 32 15.7 Nvidia A100 SXM 2020 7nm 80 19.5 Nvidia H100 SXM 2023
76、4nm 80 67 AMD MI100 2020 7nm 32 23.1 AMD MI250 x 2021 6nm 128 47.9 AMD MI250 2021 6nm 128 45.3 AMD MI210 2022 6nm 64 22.6 摩爾線程 MTT S2000 2022 12nm 32 10.6 摩爾線程 MTT S3000 2022-32 15.2 壁仞科技 壁礪100P 2022 7nm 64 240 芯動科技 風華 1 號 2021-16 5 資料來源:各公司官網,國盛證券研究所 2023 年 04 月 08 日 P.25 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 三
77、、三、標的推薦標的推薦 3.1 景嘉微景嘉微:潛心研發,國產:潛心研發,國產 GPU 龍頭靜待花開龍頭靜待花開 2022 年年 10 月,景嘉微發布月,景嘉微發布 2022 年三季報:年三季報:公司 2022 年前三季度實現營收 7.29 億元,yoy-10.35%;歸母凈利潤 1.73 億元,yoy-30.60%。公司 2022Q3 單季度實現營收1.85億元,yoy-45.21%,qoq+1.79%;歸母凈利潤0.48億元,yoy-60.86%,qoq+2.01%。前三季度綜合毛利率 64.82%,同比+1.58 pct。2022 年前三季度受到芯片業務相關需求的疲軟,整體業績短期承壓。長
78、期來看:我們認為,得益于公司 GPU 芯片的競爭優勢以及相關產業國產化加速的趨勢愈發顯著,公司有望重回快速成長車道。JM9 第二款芯片進展順利。第二款芯片進展順利。根據公司公告,截止 2022 年 5 月,JM9 系列第二款圖形處理芯片已經完成流片、封裝階段工作。第二款 JM9 系列芯片采用 PCIE 4.0 接口,顯存帶寬達到 25.6GB/s,現存容量為 8G,能夠支持 X86、ARM、Linux 等操作系統且功耗低于15W。我們認為 JM9 系列第二款芯片的成功研發進一步豐富了公司的產品線,提高了圖形顯示領域的核心競爭力,對于其后續相關測試工作的順利進行以及未來對于業績的貢獻值得期待。國
79、產化加速迫在眉睫。國產化加速迫在眉睫。目前中美科技競爭愈發激烈:2022 年 8 月 9 日,美國總統簽署了2022 芯片與科技法案,8 月 12 日美國商務部宣布限制 EDA 軟件;8 月 31 日,英偉達和 AMD 宣布美國政府禁止其向中國銷售高性能 GPU。當前我國的信創已經取得了較大的進步:軟件方面,國產操作系統、數據庫、EDA 等領域均實現快速發展;硬件方面國產 CPU、GPU、5G 芯片等均實現突破。我們認為隨著國際形勢的的日益復雜、國產化需求持續提升,同時在“十四五”國家信息化規劃等國家強政策的驅動下,我國信創或將迎來高速發展。景嘉微為 A 股唯一 GPU 芯片設計公司,圖形顯示
80、卡產品研發順利。研發方面,公司大力投入研發:公司小型雷達產品、圖形處理芯片持續更新迭代,綜上所述,維持“買入”評級。風險提示:風險提示:下游需求不及預期、新產品研制進展不及預期、市場競爭加劇。3.2 寒武紀寒武紀:國產:國產 AI 芯片領軍企業芯片領軍企業 公司成立于 2016 年,專注于 AI 芯片的研發和創新。云端產品線方面,公司已先后推出了思元 100、思元 270、思元 290 和思元 370 芯片及相應的云端智能加速卡系列產品、訓練整機。與互聯網行業、金融領域及多個行業客戶展開了合作。邊緣產品線方面,公司面向邊緣計算場景推出的思元 220 芯片和邊緣智能加速卡已落地多家頭部企業,自發
81、布以來累計銷量突破百萬片。IP 授權及軟件方面,公司先后推出了用于終端場景的寒武紀 1A、寒武紀 1H、寒武紀 1M 系列智能處理器,授權給客戶在其產品中使用。公司發布 2022 年業績快報,2022 年公司實現營收 7.29 億,同比提升 1.11%;歸母凈利潤-11.66 億,同比下降 41.40%。根據公司公告,2022 年公司隨著云端產品線思元 290、思元 370 系列產品在多家頭部企業完成產品導入,成功與多家頭部企業實現了合作,形成了有效拓展,帶動 2022 年云端產品線業務收入的大幅增長。同時,2022 年公司智能計算集群系統業務收入與 2021 年基本持平,收入主要來自南京智能
82、計算中心項目(二、三)期智能計算設備(二期)。保持高研發投入。保持高研發投入。2017 年至 2021 年,公司研發費用均超過營業總收入,研發投入巨大。2023 年 04 月 08 日 P.26 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 2022 年前三季度,公司累計收入 2.64 億,研發投入 9.49 億,研發費用率約為 359.01%。根據公司公告,2022 年為確?!霸七叾恕毙酒a品及基礎系統軟件平臺的高質量迭代,在競爭激烈的市場中保持技術領先優勢,持續加大研發投入,積極引進行業人才、保持公司研發團隊穩定,研發人員薪酬、流片費用、研發設備及 IP 對應的折舊和攤銷等費用較上年同
83、期顯著增加。思元思元 370 性能提升顯著。性能提升顯著。思元 370 是公司第三代云端產品,于 2021 年推出。其采用臺積電 7nm 先進制程工藝,同時也是公司首款采用 Chiplet 技術的人工智能芯片。思元 370智能芯片最大算力高達 256TOPS(INT8),為思元 270 算力的 2 倍。同時,思元 370 芯片支持 LPDDR5 內存,為思元 270 的 3 倍。由于思元 370 智能芯片采用了先進的 Chiplet芯粒技術,支持芯粒間的靈活組合,僅用單次流片就達成了多款智能加速卡產品的商用。截止 2021 年底公司已推出 3 款加速卡:MLU370-S4、MLU370-X4、
84、MLU370-X8,已與國內主流互聯網廠商開展深入的應用適配。募資募資 16.72 億投入芯片項目。億投入芯片項目。根據公司 2023 年 2 月公告,公司 2022 年向特定對象發行股票擬募集資金約 16.72 億,其中擬分別投入先進工藝平臺芯片項目 7.18 億、穩定工藝平臺芯片項目 7.00 億、面向新興應用場景的通用智能處理器技術研發項目 2.19 億和補充流動資金 0.36 億。風險提示:風險提示:下游需求不及預期、新產品研制進展不及預期、市場競爭加劇。3.3 芯原股份芯原股份:國產:國產 IP 龍頭,龍頭,Chiplet 持續加速持續加速 芯原股份發布芯原股份發布 2022 年報年
85、報。公司 2022 年實現營收 26.79 億,同比增長 25.23%;實現歸母凈利潤 0.74 億,同比增長 455.31%;綜合毛利率 41.59%,同比提升 1.53pct。2022年公司研發投入 8.37 億,研發費用率 29.60%。其中 2022 年四季度公司實現營收 7.95億,同比增長 28.56%;歸母凈利潤 0.41 億,同比增長 16.90%;2022Q4 毛利率 43.95%,同比下降 3.89pct,環比提升 5.26pct。分業務結構來看:分業務結構來看:知識產權授權使用費收入知識產權授權使用費收入 7.85 億元,同比增長億元,同比增長 28.79%。其中半導體
86、IP 授權次數 190 次,較 2021 年下降 38 次,平均單次知識產權授權收入 413.37 萬元,同比增長 54.55%。特許權使用費收入 1.08 億元,同比增長 12.49%。在核心處理器 IP相關營業收入中,圖形處理器 IP、神經網絡處理器 IP 和視頻處理器 IP 收入占比較高,這三類 IP 在 2022 年度半導體 IP 授權業務收入(包括知識產權授權使用費收入、特許權使用費收入)中占比合計約 65%?,F芯片設計業務收入現芯片設計業務收入 5.73 億元,同比增長億元,同比增長 4.46%。其中 14nm 及以下工藝節點收入占比 64.23%,7nm 及以下工藝節點收入占比
87、55.43%。公司在執行芯片設計項目 82 個,其中 28nm 及以下工藝節點的項目數量占比為 47.56%,14nm 及以下工藝節點的項目數量占比為 24.39%,7nm 及以下工藝節點的項目數量占比為 8.54%。量產業務收入量產業務收入 12.07 億元,同比增長億元,同比增長 36.41%。報告期內,為公司貢獻營業收入的量產出貨芯片數量 118 款,均來自公司自身設計服務項目,另有 39 個現有芯片設計項目待量產。公司報告期內量產業務訂單出貨比約 1.15 倍。分下游應用領域來看:分下游應用領域來看:物聯網領域物聯網領域實現營業收入 9.06 億元,占營業收入比重為 33.82%,占比
88、較 2021 年度增加 8.38 個百分點;消費電子領域消費電子領域實現營業收入 5.77 億元,占營業收入比重為 21.52%,占比較 2021 年度下降 9.37 個百分點。汽車電子領域汽車電子領域收入保持較高增速,同比提升172.57%,工業、物聯網工業、物聯網等下游行業的收入分別增加 103.16%、66.50%。2023 年 04 月 08 日 P.27 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 推進推進 Chiplet 技術產業化。技術產業化。2022 年 4 月,公司正式加入 UCIe 產業聯盟,近年來公司通過“IP 芯片化,IP as a Chiplet”、“芯片平臺化
89、,Chiplet as a Platform”,以及進一步延伸的“平臺生態化,Platform as an Ecosystem”,來促進 Chiplet 的產業化。多款多款 AI 芯片使用芯原芯片使用芯原 IP。截止 2022 年底,公司神經網絡處理器 NPU IP 已被 60 家客戶用于其 110 余款人工智能芯片中。公司率先將人工智能技術深度集成到特定領域的處理器中內置芯原 NPU 的芯片主要應用于物聯網、可穿戴設備、智慧電視、智慧家居、安防監控、服務器、汽車電子、智能手機、平板電腦、智慧醫療等 10 余個市場領域。風險提示:風險提示:下游需求不及預期。3.4 海光信息海光信息:國產:國產
90、 CPU、DCU 龍頭龍頭 公司發布 2022 年業績快報。2022 年公司實現營收 51.25 億,同比增長 121.83%;歸母凈利潤 8.02 億,同比增長 145.18%。2022 年公司始終專注于高端處理器的研發、設計,不斷加大技術創新力度,實現產品升級。公司 2022 年圍繞通用計算市場,通過技術創新、產品迭代、功能提升等舉措,不斷提升產品競爭優勢,同時國產服務器市場需求大幅提升,使得公司業績增長顯著。性能卓越性能卓越+安全可信,根植本土加速生態建設。安全可信,根植本土加速生態建設。1)核心技術自主可控,性能卓越具備市場競爭力:率先完成高端通用處理器和協處理器產品的商業化應用,產品
91、性能對標海外一線廠商,在國內廠商中處于領先地位,產品獲國內用戶廣泛認可,行業信創大單不斷驗證產品競爭力。2)安全可信,內置專用安全軟硬件,滿足關鍵信息基礎設施的數據安全需求。3)兼容主流生態,成立“光合組織”,加速以海光為核心的自主化生態建設,根植本土市場拓展應用場景。國產化加速迫在眉睫。國產化加速迫在眉睫。目前中美科技競爭愈發激烈:2022 年 8 月 9 日,美國總統簽署了2022 芯片與科技法案,8 月 12 日美國商務部宣布限制 EDA 軟件;8 月 31 日,英偉達和 AMD 宣布美國政府禁止其向中國銷售高性能 GPU。當前我國的信創已經取得了較大的進步:軟件方面,國產操作系統、數據
92、庫、EDA 等領域均實現快速發展;硬件方面國產 CPU、GPU、5G 芯片等均實現突破。我們認為隨著國際形勢的的日益復雜、國產化需求持續提升,同時在“十四五”國家信息化規劃等國家強政策的驅動下,我國信創或將迎來高速發展。維持“增持”評級。風險提示:風險提示:下游需求不及預期、行業競爭加劇。2023 年 04 月 08 日 P.28 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 四、四、風險提示風險提示 下游需求不及預期:下游需求不及預期:文中觀點很大程度上基于下游需求正常情況,倘若未來下游需求不及預期,則將對觀點判斷造成一定影響。國產化替代不及預期:國產化替代不及預期:目前全球 GPU 市
93、場被海外企業壟斷,文中觀點基于未來相關產品國產化率逐步提升的前提下判斷,倘若未來國產化率提升速度不及預期則將會影響當下判斷。測算誤差風險:測算誤差風險:文中部分數據為國盛電子測算,倘若與真實值有誤差將在一定程度上影響當下判斷。2023 年 04 月 08 日 P.29 請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 免責聲明免責聲明 國盛證券有限責任公司(以下簡稱“本公司”)具有中國證監會許可的證券投資咨詢業務資格。本報告僅供本公司的客戶使用。本公司不會因接收人收到本報告而視其為客戶。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。本報告的信息均來源于本公司
94、認為可信的公開資料,但本公司及其研究人員對該等信息的準確性及完整性不作任何保證。本報告中的資料、意見及預測僅反映本公司于發布本報告當日的判斷,可能會隨時調整。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司不保證本報告所含信息及資料保持在最新狀態,對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本公司力求報告內容客觀、公正,但本報告所載的資料、工具、意見、信息及推測只提供給客戶作參考之用,不構成任何投資、法律、會計或稅務的最終操作建議,本公司不就報告中的內容對最終操作建議做出任何擔保。本報告中所指的投資及服務可能不適合個別客戶,不構成
95、客戶私人咨詢建議。投資者應當充分考慮自身特定狀況,并完整理解和使用本報告內容,不應視本報告為做出投資決策的唯一因素。投資者應注意,在法律許可的情況下,本公司及其本公司的關聯機構可能會持有本報告中涉及的公司所發行的證券并進行交易,也可能為這些公司正在提供或爭取提供投資銀行、財務顧問和金融產品等各種金融服務。本報告版權歸“國盛證券有限責任公司”所有。未經事先本公司書面授權,任何機構或個人不得對本報告進行任何形式的發布、復制。任何機構或個人如引用、刊發本報告,需注明出處為“國盛證券研究所”,且不得對本報告進行有悖原意的刪節或修改。分析師聲明分析師聲明 本報告署名分析師在此聲明:我們具有中國證券業協會
96、授予的證券投資咨詢執業資格或相當的專業勝任能力,本報告所表述的任何觀點均精準地反映了我們對標的證券和發行人的個人看法,結論不受任何第三方的授意或影響。我們所得報酬的任何部分無論是在過去、現在及將來均不會與本報告中的具體投資建議或觀點有直接或間接聯系。投資評級說明投資評級說明 投資建議的評級標準投資建議的評級標準 評級評級 說明說明 評級標準為報告發布日后的 6 個月內公司股價(或行業指數)相對同期基準指數的相對市場表現。其中 A 股市場以滬深 300 指數為基準;新三板市場以三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)為基準;香港市場以摩根士丹利中國指數為基準,美股市場以標普
97、 500 指數或納斯達克綜合指數為基準。股票評級 買入 相對同期基準指數漲幅在 15%以上 增持 相對同期基準指數漲幅在 5%15%之間 持有 相對同期基準指數漲幅在-5%+5%之間 減持 相對同期基準指數跌幅在 5%以上 行業評級 增持 相對同期基準指數漲幅在 10%以上 中性 相對同期基準指數漲幅在-10%+10%之間 減持 相對同期基準指數跌幅在 10%以上 國盛證券研究所國盛證券研究所 北京北京 上海上海 地址:北京市西城區平安里西大街 26 號樓 3 層 郵編:100032 傳真:010-57671718 郵箱: 地址:上海市浦明路 868 號保利 One56 1 號樓 10 層 郵編:200120 電話:021-38124100 郵箱: 南昌南昌 深圳深圳 地址:南昌市紅谷灘新區鳳凰中大道 1115 號北京銀行大廈 郵編:330038 傳真:0791-86281485 郵箱: 地址:深圳市福田區福華三路 100 號鼎和大廈 24 樓 郵編:518033 郵箱: