《2022年全球GPU市場需求空間趨勢及國內重點企業研究報告(35頁).pdf》由會員分享,可在線閱讀,更多相關《2022年全球GPU市場需求空間趨勢及國內重點企業研究報告(35頁).pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、2022 年深度行業分析研究報告 3 目錄目錄 報告緣起報告緣起.6 市場需求:AI、高性能計算、圖形渲染等推動 GPU 等并行計算芯片需求.6 英偉達歷史借鑒:產品技術、軟件生態等構筑 GPU 核心壁壘.9 全球全球 GPU 市場:并行市場:并行計算理想載體芯片,數據中心為中期需求增長主要場景計算理想載體芯片,數據中心為中期需求增長主要場景.14 GPU:通用并行計算理想載體芯片,從圖形處理向 AI、高性能計算等領域擴展.14 圖形渲染:游戲為主,中期有望保持 10%15%平穩增長.17 數據中心:AI&高性能計算等,預計中期保持 25%以上年均復合增速.19 國內國內 GPU 市場:中期潛
2、在空間可觀,本土廠商開始規模崛起市場:中期潛在空間可觀,本土廠商開始規模崛起&產品落地產品落地.22 國內市場現狀:和全球市場同步,預計 2030 年規模將突破 300 億美元.22 國內市場格局:本土廠商快速崛起,產品亦逐步上市.24 本土本土 GPU 廠商:有望率先在廠商:有望率先在 AI 領域實現落地,并逐步擴展至圖形渲染、復雜科學計算等領域實現落地,并逐步擴展至圖形渲染、復雜科學計算等場景場景.26 附錄:國內部分重點附錄:國內部分重點 GPU 企業介紹企業介紹.29 摩爾線程:專注于研發設計全功能 GPU 芯片及相關產品.29 沐曦集成電路:國產高性能 GPU 芯片解決方案領先公司.
3、30 瀚博半導體:從 AI 與視頻轉向更廣闊的通用計算市場.31 壁仞科技:專研通用計算體系,向圖形渲染進發.33 阿里平頭哥:專注云與 AI 的芯片研發廠商.34 昆侖芯:產品聚焦 AI 加速芯片,自研 XPU 架構賦能智慧應用.35 4 插圖目錄插圖目錄 圖 1:英偉達單芯片推理性能(Int8 Tops).6 圖 2:人工智能框架發展史.7 圖 3:英偉達 CUDA AI 開發者人數.7 圖 4:英偉達 CUDA 累計下載次數.7 圖 5:深度學習初期模型越來越大.8 圖 6:全球數據中心芯片市場營收規模(百萬美元).8 圖 7:全球數據中心芯片市場市占率.9 圖 8:英偉達 8 月 31
4、 日公告.10 圖 9:英偉達 9 月 1 日公告.10 圖 10:不同類型游戲場景所需的幀數.11 圖 11:RTX 幀數大幅領先傳統架構.11 圖 12:英偉達&AMD PC 用獨顯 ASP(美元/個).11 圖 13:全球 AI 芯片市場主要參與企業(按主要場景劃分).12 圖 14:訓練相對加速倍數 Mlperf 評測.13 圖 15:以紅綠藍三原色為例,計算機如何表示圖像.15 圖 16:GPU 可適用的計算范圍.15 圖 17:CPU 與 GPU 架構.16 圖 18:邏輯門組合為真值表以及 CLB.16 圖 19:CLB 與可編程邏輯布線構成 FPGA.16 圖 20:谷歌云專用
5、 AI 處理器 TPU v4 為 ASIC 芯片.17 圖 21:獨顯 GPU出貨量(百萬個,按類型類型劃分).18 圖 22:獨顯 GPU出貨量占比(%,按類型劃分).18 圖 23:獨顯 GPU出貨量(百萬個,按品牌劃分).18 圖 24:獨顯 GPU出貨量占比(%,按品牌劃分).18 圖 25:全球 TOP 云廠商數據中心部署并行計算芯片份額結構(2021).19 圖 26:英偉達 GPU 產品在全球 Top 500 超算中心市場占有率.19 圖 27:英偉達數據中心營收構成及占比:按不同業務劃分.20 圖 28:2020Q1,阿里云、亞馬遜云、微軟云 GPU 加速卡市占率.20 圖 2
6、9:全球 PC 用獨立顯卡 GPU 滲透率測算.22 圖 30:中國 PC 用獨立顯卡 GPU 出貨量(百萬).22 圖 31:全球主要云廠商 capex 支出(億美元).23 圖 32:全球 Top500 超算中心分布(按地區).23 圖 33:中國國產 GPU 企業發展歷史.24 圖 34:摩爾線程及產品發展歷程.29 圖 35:沐曦集成電路創始團隊背景.30 圖 36:沐曦集成電路產品矩陣圖.31 圖 37:公司 VA1 通用推理卡.32 圖 38:公司 SV100 云端推理芯片.32 圖 39:云端 GPU 芯片 SG100.32 圖 40:壁仞科技發展時間線.33 圖 41:阿里平頭
7、哥產品矩陣.34 圖 42:阿里平頭哥 AI 芯片含光 800 架構及參數示意圖.34 5 圖 43:昆侖芯產品示意圖.35 表格目錄表格目錄 表 1:全球 AI 芯片主要參與者及下游應用場景.11 表 2:英偉達在 AI 訓練、推理環節優劣勢分析.13 表 3:英偉達軟件產品布局一覽.13 表 4:全球 GPU(圖形渲染)市場規模預測.18 表 5:公司數據中心主要產品參數及售價.21 表 6:全球數據中心 GPU 芯片市場規模測算/預測(億美元).21 表 7:國內 GPU 相關部分企業梳理.24 表 8:中國 GPU 廠商創始人團隊背景.25 表 9:中國 GPU 廠商與海外 GPU 廠
8、商產品參數對比.26 表 10:各類別場景對 GPU 特性需求分析.28 表 11:摩爾線程產品參數.29 表 12:公司兩大產品主要能力.32 表 13:壁仞科技 AI 加速產品壁礪 100 參數.33 表 14:昆侖芯產品簡介.35 6 報告緣起報告緣起 市場市場需求:需求:AI、高性能計算、圖形渲染等推動、高性能計算、圖形渲染等推動 GPU 等等并行計算芯片需求并行計算芯片需求 需求場景:需求場景:AI 訓練訓練&推理、復雜科學計算、大規模圖形渲染等,持續推動并行計算芯推理、復雜科學計算、大規模圖形渲染等,持續推動并行計算芯片需求片需求。由于 GPU(Graphics Processin
9、g Uni,圖形處理器)是由成百上千個陣列排布的運算單元 ALU 組成,使得 GPU 更適用于大規模并發運算,其在圖形處理、計算加速等領域有著廣泛的運用。2)由于 GPU 加速器強大的并行處理能力,超算中心工作人員可以更好地設計深度網絡結構,使得其在超算領域&數據中心領域更具經濟效益,導致 GPU 在AI 訓練&推理、科學計算等領域有著廣泛的應用。GPU 用于 AI 訓練&AI 推理領域。在典型 AI 模型卷積網絡中,大量數據以圖片形式導入,在進行運算過程中,數據均為矩陣形式,而矩陣運算通常適合并行,因此 AI 算法的特性,使得 GPU 的運算速度明顯大于 CPU,使得 GPU 得以大量應用在
10、 AI 的訓練與推理當中。GPU 可用于復雜科學計算中??茖W計算將物理、化學、生物、航空航天等領域的問題轉化為數學模型,通過計算和求解模型用于實際產業。從計算數據來看,由于科學計算中所用數據多數以矩陣為形式,同時由于科學計算對誤差有強制要求,因此在運算中需要在并行運算基礎上保證一定的精度。而現代 GPU 在并行&矩陣運算的基礎上,已經能夠滿足科學計算所需的精度要求。近些年來,隨著人工智能軟件算法的發展,復雜科學計算的進步,以及圖形渲染功能的增加,帶動底層芯片并行計算能力需求的快速提升。以全球 AI 芯片領軍者英偉達的發展狀況來看,公司 AI 芯片算力由 2012 年的 4Tops 提升至 20
11、21 年的 1248Tops,9 年時間提升了約 315 倍。圖 1:英偉達單芯片推理性能(Int8 Tops)資料來源:英偉達官網,中信證券研究部 AI 框架、并行計算框架等引入框架、并行計算框架等引入&豐富,不斷推動針對并行計算芯片軟件開發門檻降低豐富,不斷推動針對并行計算芯片軟件開發門檻降低。1)從人工智能軟件算法框架的發展歷史來看,2015 年谷歌宣布開源 TensorFlow,2019年 PFN 宣布將研究方向由 Chainer 轉向 PyTorch。目前 AI 框架形成了 TensorFlow 和3.943.526.8421.2125261124802004006008001000
12、120014002012201320142015201620172018201920202021K20XM40P100V100Q8000A100 7 PyTorch 雙寡頭壟斷的競爭格局。其中,谷歌開源 TensorFlow 項目,在很大程度上降低了人工智能的開發門檻和難度。2)TensorFlow 主要用于處理機器學習中的計算機視覺、推薦系統和自然語言處理(NLP)的模型訓練和推理,涉及模型隱藏層相對較多,模型量相對較大,基本上均需要 CUDA 的加速處理。隨著 TensorFlow 的開源,涉及到的開發開發者快速增加,CUDA 軟件下載量也呈現陡增趨勢。據英偉達在 2021GTC 大會上宣
13、布,截至 2020 年底,CUDA 累計下載量超過 2000 萬次,其中 2020 年下載量超過 600 萬次。涉及到的開發人員約 230 萬人(2020 年新增超過 60 萬人)。圖 2:人工智能框架發展史 資料來源:中國信通院官網;注:Logo 來自各公司官網 圖 3:英偉達 CUDA AI 開發者人數 圖 4:英偉達 CUDA 累計下載次數 資料來源:NVIDIA 2021GTC 大會 資料來源:NVIDIA 2021GTC 大會 算法豐富、算法復雜度提升等,亦成為市場需求的重要驅動力算法豐富、算法復雜度提升等,亦成為市場需求的重要驅動力。1)如前所述,過去 9年,AI 芯片的算力大幅提
14、升,也帶動 AI 算法模型參數的大幅增加。從 Alexnet、ResNet開始,到 BERT 網絡模型,參數量已超過 3 億規模,隨后 GPT-3 模型超過百億,Switch Transformer 的問世還一舉突破萬億規模。2)英偉達 2020 年發布的 Megatron-LM 模型,參數量達到了 83 億,相比于在 2018 年以參數量震驚世界的 BERT 模型又提升了 5 倍。模型體積幾何倍數的增長也帶了更多數據中心側的需求,只有依靠上千塊 GPU 并行運算才能在以天為單位的訓練時長中完成對 Transformer 模型的訓練。8 圖 5:深度學習初期模型越來越大 資料來源:Purdue
15、 University,中信證券研究部 2021 年,年,全球全球數據中心邏輯計算芯片市場規模高達數據中心邏輯計算芯片市場規模高達 436 億美元億美元。1)在過去數年,全球數據中心芯片市場保持高速增長,由 2012 的 122 億美元增長至 2021 的 436 億美元,符合增長率約 15%。2)從市占率來看,早期英特爾和 Altera 幾乎壟斷數據中心約市場份額,伴隨著 AMD 和英偉達產品矩陣的增加,AMD 和英偉達在數據中心領域中的的市占率不斷提升。截至 2022Q2,英特爾全球數據中心芯片市占率約 41.5%、英偉達市占率為34.0%、AMD 市占率為 24.5%。圖 6:全球數據中
16、心芯片市場營收規模(百萬美元)資料來源:Bloomberg,中信證券研究部。注:1)Altera 于 2015 年被英特爾收購;2)賽靈思于 2022 年被 AMD收購 9 圖 7:全球數據中心芯片市場市占率 資料來源:Bloomberg,中信證券研究部。注:1)Altera 于 2015 年被英特爾收購;2)賽靈思于 2022 年被 AMD收購 英偉達英偉達歷史借鑒歷史借鑒:產品技術、產品技術、軟件軟件生態等構筑生態等構筑 GPU 核心壁壘核心壁壘 近期,近期,英偉達最新兩則公告,導致英偉達最新兩則公告,導致市場對國產市場對國產 GPU 的關注度提升。的關注度提升。1)8 月 31 日,英偉
17、達發布公告稱:(a)8 月 26 日,美國政府對英偉達未來出口到中國(包括香港)和俄羅斯的 A100 和即將推出的 H100 芯片實施了新的許可證要求,該許可立即生效。新的許可證要求將解決涉及的產品可能用于或轉移到中國和俄羅斯的“軍事最終用途”或“軍事最終用戶”的風險。(b)該許可涉及到的芯片主要包括:英偉達 A100 和即將出貨的 H100兩款芯片、基于 A100/H100 打造的 DGX 產品、以及未來實現峰值性能和芯片對芯片 I/O性能均等于或大于大致相當于 A100 的閾值的任何 NVIDIA 芯片。目前來看,美國政府對中國以及俄羅斯出口限制的主要是針對數據中心的高端獨立 GPU 芯片
18、及相關產品。(c)公司于 2022 年 8 月 24 日提供的 FY2023Q3 展望(對應 CY2022 年 8 月-CY2022 年 10月),其中有對中國大約 4 億美元的潛在銷售可能會受到新的許可證要求的限制。2)9 月1 日,公司發布公告稱,公司已美國政府新的授權審批,具體內容包括:(a)美國政府已批準英偉達繼續開發 H100 芯片所需要的出口、在出口和國內轉移。(b)允許英偉達在 2023年 3 月 1 日前,為 A100 的美國客戶提供所需的出口支持。目前,公司 A100 的美國客戶包括戴爾、思科等服務器設備廠商,以及終端客戶亞馬遜、谷歌等。(c)美國政府授權 A100和 H10
19、0,在 2023 年 9 月 1 日之前通過英偉達在中國香港的工廠履行訂單和物流。(d)TAIPEI TIMES 報道,美國政府放寬許可授權的主要原因是,A100 的部分開發工作是依賴中國工程師&中國運營部門進行。若 A100 無法完成開發,對英偉達的業績影響相對較大。10 圖 8:英偉達 8 月 31 日公告 資料來源:Wind 圖 9:英偉達 9 月 1 日公告 資料來源:Wind 英偉達英偉達圖形渲染領域:保持穩定、高頻技術迭代,不斷實現技術領先,例如圖形渲染領域:保持穩定、高頻技術迭代,不斷實現技術領先,例如 RTX&DLSS等技術,并和開發者、應用廠商構成穩固的合作同盟。等技術,并和
20、開發者、應用廠商構成穩固的合作同盟。1)2020 年安培架構產品中,RTX技術升級到第二代,并逐步向第三代 Tensor Core 技術推進,帶動 RTX 系列顯卡圖像運算能力的全面提升,而 DLSS、Reflex 等能力帶動游戲體驗的提升,DLSS 2.0 將 FPS 提升近 30,Reflex 降低 50%的游戲延遲。對于超大型以及精品游戲的運行,大幅提升體驗能力。對于大型 3A 游戲,在高畫質條件下需滿足 45-90FPS,電競場景下需要 120-140FPS。在 GTX 的傳統產品線中,開啟 RT(光線追蹤)之后,游戲幀數從 60 掉至不足 30 幀。但在 RTX 產品中,可提升至 9
21、0FPS 以上。2)鑒于英偉達 GPU 在軟件領域的優勢顯著,公司 PC 用獨顯 GPU ASP 亦顯著高于競爭對手 AMD。2016 年,英偉達 PC 用獨顯 GPU ASP為 81.3 美元/個,AMD 對應 ASP 為 31.0 美元/個。2021 年,英偉達 PC 用獨顯 GPU ASP為 163.2 美元/個,AMD 對應 ASP 為 86.6 美元/個。11 圖 10:不同類型游戲場景所需的幀數 圖 11:RTX 幀數大幅領先傳統架構 資料來源:2021GTC 大會 資料來源:2021GTC 大會 圖 12:英偉達&AMD PC 用獨顯 ASP(美元/個)資料來源:IDC,中信證券
22、研究部。英偉達英偉達數據中心數據中心領域:借助領域:借助 CUDA 實現實現 GPU 從圖形顯示到通用計算的跨越,以及產從圖形顯示到通用計算的跨越,以及產業生態壁壘的構建,并借助業生態壁壘的構建,并借助 DSA、NVlink 等架構創新、優化等實現持續性能領先。等架構創新、優化等實現持續性能領先。1)沿著技術層面的核心差異,我們按照訓練&推理、邊緣&數據中心兩個維度,梳理目前全球主要的 AI 芯片參與者,整體而言,相較于全球其他主要競爭對手,英偉達在產品完整度、存量市場份額等層面實現領先,同時我們判斷這種領先優勢長周期亦將大概率維持。2)從公司的軟件生態布局來看,英偉達構建了從底層到上游細分領
23、域的應用開發軟件,可大幅降低開發者的開發周期。表 1:全球 AI 芯片主要參與者及下游應用場景 部署位置 芯片類型 訓練(Training)推理(Inference)數據中心云端(Cloud)GPU 英偉達、AMD 英偉達 FPGA 英特爾、賽靈思 英特爾、賽靈思、亞馬遜、微軟、百度、阿里、騰訊 ASIC 谷歌、華為 谷歌、寒武紀、比特大陸、Groq、Habana 邊緣及終端(Device)GPU-英偉達、ARM FPGA-深鑒科技 12 ASIC-寒武紀、地平線、華為海思、高通、ARM 資料來源:各公司官網,中信證券研究部 產品產品豐富豐富度度&技術技術競爭力競爭力:英偉達系統級產品布局、在
24、訓練環節的突出表現&領先優勢已基本成為市場的共識,而在推理領域,伴隨新一代安培架構、Hopper架構的升級,以及由此實現的訓練、推理的統一,以及對稀疏矩陣運算問題的良好支持,目前在推理方面,英偉達最新的 A100 芯片的 Int 8 Tops 已經達到 1248,較上一代提升超過 5X。同時在訓練環節,根據 Mlperf 的評測,在圖像識別、對話式 AI、推薦系統等多個模型的對比評測中,英偉達芯片訓練性能全面領先華為、谷歌等主要競爭對手?;诩夹g層面的全面分析,我們判斷英偉達有望在企業對外服務(訓練、推理)、企業內部服務(訓練)環節保持持續領先,但在企業內部服務(推理)仍面臨延遲、功耗等層面的
25、明顯短板。而我們看到,英偉達在數據中心市場的產品迭代節奏繼續延續既有的習慣,即繼續保持對芯片性能的狂熱追逐,以及每兩年升級一次產品(CPU、DPU、GPU)的頻率。圖 13:全球 AI 芯片市場主要參與企業(按主要場景劃分)資料來源:中信證券研究部繪制 13 圖 14:訓練相對加速倍數 Mlperf 評測 資料來源:英偉達官網,中信證券研究部 表 2:英偉達在 AI 訓練、推理環節優劣勢分析 AI 訓練訓練 AI 推理推理 外部服務 判斷:芯片性能、軟件堆棧等支撐英偉達持續領先 判斷:有靈活性優勢,但延遲、功耗仍是潛在的不足 谷歌 微軟 亞馬遜 Facebook 谷歌 微軟 亞馬遜 Faceb
26、ook TPU v2/3 N/A N/A N/A TPU v2/3 Brainwave Inferentia N/A 內部使用 判斷:英強大芯片性能能在一定程度上降低成本端劣勢,但面臨著內部解決方案和 ASIC 的競爭 判斷:延遲、功耗將成為主要短板,競爭力一般 谷歌 微軟 亞馬遜 Facebook 谷歌 微軟 亞馬遜 Facebook TPU v2/3 N/A N/A N/A TPU v1/2/3 Brainwave N/A N/A 資料來源:各公司官網等,中信證券研究部 英偉達英偉達基于基于 CUDA 構建了豐富的軟件生態構建了豐富的軟件生態,顯著提升,顯著提升 GPU 的易用性的易用性。
27、從軟件技術分類來看,公司在軟件領域中的產品布局主要分為:基礎架構、游戲與娛樂、應用工具、應用框架四大部分。具體內容如下:(a)在基礎架構方面,公司軟件產品主要圍繞 AI&通用能力布局。其中 AI 主要包括邊緣 AI、AI 垂直領域解決方案、AI 推理等;通用領域則圍繞 IO 傳輸、vGPU 等。(b)在游戲娛樂方面,公司的產品布局主要包括 Geforce 云游戲平臺、直播領域的 Broadcast App 和元宇宙領域中的 Omniverse Machinima;(c)在應用工具方面,公司可面向不同的應用場景(AI、數據分析、元宇宙等領域),提供不同的開發工具。如:在 AI 領域,可提供加速
28、AI 部署與工作流程的 NGC 產品;在元宇宙領域,可提供 3D 虛擬協作的 Omniverse 產品。(d)在具體應用框架方面,主要憑借公司 AI 與數據分析能力,在自動駕駛、視頻分析、推薦系統等各垂直領域提供具體應用框架,幫助提高各行業運營效率。表 3:英偉達軟件產品布局一覽 一級分類 二級分類 三級分類 軟件名稱 基礎架構 AI AI 垂直領域解決方案 AI Enterprise AI 邊緣 AI 計算 EGX AI 簡易邊緣 AI 部署與運維 Fleet Command AI AI 推理 Triton 00.511.522.53圖像分類NLP Bert物體檢測(Heavy Weight
29、)Mask R-CNNReinforcementLearningMiniGc物體檢測(Light Weight)SSDTransiation(Recurrent)CNMTTransiation(Non-Recurrent)Transformer推薦DLRM華為 AscendTPU V3V100 A100 14 一級分類 二級分類 三級分類 軟件名稱 通用 IO 傳輸加速 Magnum IO 通用 虛擬 GPU vGPU 通用 軟件 軟件 游戲與娛樂 游戲 游戲參數自適應 GeForce Experience 直播 優化視頻質量 Broadcast App 元宇宙 創建 3D 角色與場景 Omn
30、iverse Machinima 應用工具 AI 加速 AI 部署與工作流程 NGC 目錄 數據科學 數據分析 NVIDIA 工作臺 元宇宙 線上 3D 虛擬協作 Omniverse 通用 數據中心 GPU 監控 DCGM 通用 高質量錄屏 RTX Experience 通用 桌面窗口管理 RTX 桌面管理器 具體應用框架 AI 自動駕駛 NVIDIA DRIVE AI 云端 AI 視頻流 NVIDIA Maxine AI 對話 AI NVIDIA Riva AI 醫療 NVIDIA Clara AI 智能視頻分析 Metropolis AI 機器人 Isaac 通信 5G Aerial 數據
31、科學 推薦系統 Merlin 數據科學 數據分析 RAPIDS 通用 高性能運算 NVIDIA HPC SDK 資料來源:公司官網,中信證券研究部 小結小結:伴隨 AI、高性能計算、大規模圖形渲染等應用場景的不斷拓展和豐富,市場對大算力并行計算芯片的需求快速增長,截止目前,全球數據中心領域邏輯芯片市場規模已經超過 400 億美元。同時近期市場對國產 GPU 領域的關注度提升?;谟ミ_的歷史復盤,可以看出公司在圖形渲染&數據中心領域保持較高的市占率,并實現產業引領。我們認為核心原因在于:借助持續、高頻迭代保持產品技術行業領先,并借助 CUDA 等實現軟件生態構建,不斷提升產品易用性等。GPU
32、作為大算力并行計算芯片領域最為可行的承載者,在本篇報告中,我們將從全球市場出發,就 GPU 產業本身的產品特性、技術路線、市場空間,以及國內市場現狀、演進路徑、競爭格局等展開系統的分析和討論,力圖針對國內 GPU 市場構建一個完整的產業&投資藍圖。全球全球 GPU 市場市場:并行計算理想載體并行計算理想載體芯片芯片,數據中心,數據中心為中期需求增長主要場景為中期需求增長主要場景 GPU:通用并行計算理想載體通用并行計算理想載體芯片芯片,從圖形處理向,從圖形處理向 AI、高性能計算等領域、高性能計算等領域擴展擴展 GPU 定義:圖形處理器,但承載功能已在早期定義上明顯泛化定義:圖形處理器,但承載
33、功能已在早期定義上明顯泛化。1)發展早期,更多 15 稱為圖形處理器(GPU),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。2)由于計算機只能識別二進制數字,因此在進行圖形運算時,要把圖片轉換成計算機能夠理解的二級制數組(見下圖圖示),因此 GPU 在進行運算時,所針對的都是矩陣數據,因此 GPU 的大部分計算是并行的。這意味著 GPU 更加適合并行計算與矩陣運算。圖 15:以紅綠藍三原色為例,計算機如何表示圖像 資料來源:Techweb GPU 應用場景應用場景:由早期的圖形渲染,逐步拓
34、展至由早期的圖形渲染,逐步拓展至高性能運算、高性能運算、科學計算科學計算等領域等領域,GPU是是通用并行計算的理想載體通用并行計算的理想載體。1)由于計算機以及圖形運算的特性,GPU 所進行的運算多數為矩陣運算、并行運算,這些特征使得 GPU 更加適合當前以 AI 為代表的高性能計算、科學計算等領域,GPU 的使用范圍也由早期的圖形渲染領域,逐步拓展至高性能運算&科學運算領域。2)與其他邏輯計算芯片相比,GPU 在通用性、計算速度、規?;渴鸾洕缘群诵闹笜松厦?,能夠做到較好的平衡,因此在目前 AI、復雜科學計算等并行計算領域,逐步形成了 GPU 主導,FPGA、ASIC、CPU 為輔的穩定局
35、面。圖 16:GPU 可適用的計算范圍 資料來源:英偉達官網 16 CPU:適合處理復雜的串行計算和邏輯控制,適合處理復雜的串行計算和邏輯控制,并行運算性能顯著弱于并行運算性能顯著弱于 GPU。由于功能與設計架構的不同,CPU 與 GPU 的計算能力也存在差異,CPU 的架構使得其適合流水線式的串行計算與復雜計算,而 GPU 的架構使得其適合運算邏輯簡單但可以同步進行的并行計算。因此在參數上,我們會看到 CPU 具有更高的頻率與緩存,而 GPU 具備更多的核心。圖 17:CPU 與 GPU 架構 資料來源:賽迪網。注:綠色的是計算單元,橙紅色的是存儲單元,橙黃色的是控制單元。FPGA:靈活性突
36、出,但易用性、計算速度、經濟性較:靈活性突出,但易用性、計算速度、經濟性較 GPU 欠佳欠佳。FPGA 是一種偏向于硬件的可編程芯片,FPGA 中使用了大量邏輯門(數字電路中的基礎部件,通過電壓高低以及組合,將輸入的命令轉化為 0 或 1),建立真值表(輸入不同代碼,輸出不同結果的查詢表),通過可編程邏輯布線(可以理解為電路開關,編程即是對開關調整,實現門之間的電路組合)來實現算法。由于直接對硬件編程,相較于 GPU 的平均計算效率與可編程性更高,但由于需要直接對硬件進行編程以及較高的成本(為滿足編程要求通常晶體管冗余設計),通用性、大規模部署成本以及最高計算能力不如 GPU。圖 18:邏輯門
37、組合為真值表以及 CLB 圖 19:CLB 與可編程邏輯布線構成 FPGA 資料來源:servetheh 資料來源:servetheh ASIC:特定場景性能最優,但通用性不足:特定場景性能最優,但通用性不足。ASIC 芯片是針對某一特定場景所研制的專用芯片,優勢在于運算效率極高、部署成本較低。但對于實際應用而言,17 如果算法出現迭代升級或數據結構發生改變,ASIC 的效率將會大幅下降,因此相較于 GPU 而言,ASIC 更多用于挖礦、音視頻解碼等專用場景。因此 ASIC 的平均算力會更強,但在通用場景下以及最高運算能力上,GPU 優勢更大。圖 20:谷歌云專用 AI 處理器 TPU v4
38、為 ASIC 芯片 資料來源:智東西 小結:小結:整體而言,正是基于 GPU 本身的優異特性,以及英偉達等企業在芯片架構、軟件生態等層面的不斷努力,疊加 AI、高性能計算、大規模圖形渲染等應用場景的快速崛起,GPU 逐步成為全球大算力并行計算領域的主導者。而在產品端,我們也總結發現,GPU 廠商亦結合下游的應用場景,在一個大的體系結構下,針對計算單元、緩存、總線帶寬等技術點的優化和組合。在下文內容中,我們主要討論當下最主流的應用場景&產品:用于游戲等場景中圖形渲染的顯卡,以及用于數據中心 AI、高性能計算等場景的 GPGPU(通用計算 GPU)。圖形渲染:圖形渲染:游戲為主游戲為主,中期有望保
39、持,中期有望保持 10%15%平穩增長平穩增長 目前在圖形渲染領域,游戲畫面渲染為主要應用場景,同時亦包括圖形工作站等場景,目前在圖形渲染領域,游戲畫面渲染為主要應用場景,同時亦包括圖形工作站等場景,獨立顯卡為主要硬件載體獨立顯卡為主要硬件載體。IDC 數據顯示,目前全球獨立顯卡出貨量,近 5 年穩定在8000-9300 萬部。按獨立顯卡的類型劃分,其中臺式機用獨立顯卡比例約 40%-53%,筆記本&工作站獨立顯卡比例約 47%-60%。按照品牌商來看,英偉達獨立顯卡近 5 年市占率一直穩步提升,市占率由 2018 年的 58.8%提升至 2021 年的 74.3%,AMD 市占率由 2018
40、年的 31%降低至 2021 年的 19%。18 圖 21:獨顯 GPU出貨量(百萬個,按類型類型劃分)圖 22:獨顯 GPU出貨量占比(%,按類型劃分)資料來源:IDC,中信證券研究部 資料來源:IDC,中信證券研究部 圖 23:獨顯 GPU出貨量(百萬個,按品牌劃分)圖 24:獨顯 GPU出貨量占比(%,按品牌劃分)資料來源:IDC,中信證券研究部 資料來源:IDC,中信證券研究部 市場規模判斷:市場規模判斷:預計預計 2025、2030 年將分別達到年將分別達到 278、568 億美元億美元。2021 年,英偉達游戲顯卡業務實現銷售收入 105 億美元,專業視覺收入(圖形工作站)21 億
41、美元。我們假設英偉達在全球游戲顯卡領域收入占比 80%,專業視覺領域收入占比 80%,則2021年,在圖形渲染(含游戲、專業視覺等)領域,全球 GPU 市場規模為 158 億美元。同時為了測算該領域中期市場規模,我們作出如下簡化假設:1)假設圖形渲染領域,中期應用場景仍主要由游戲畫面渲染、專業視覺構成,其他長尾場景忽略;2)顯卡 ASP,參考英偉達產品價格走勢,考慮到產品性能、制造成本等因素,預計顯卡 ASP 年復合增速在 10%15%之間,取中位值 12.5%;3)游戲用戶,疫情期間,全球高端游戲玩家出現大幅增長(預計增幅 1 億人),中期預計保持平穩增長,每年增速 05%,取中位值 2.5
42、%;4)假設專業視覺的市場規模占游戲比例維持在 20%左右。綜合上述假設,中性情形下,我們預計全球 GPU(圖形渲染)在 2025、2030 年的市場規模有望分別達到 278、568 億美元。表 4:全球 GPU(圖形渲染)市場規模預測 類別(億美元)類別(億美元)指標指標 游戲市場規模(2021 年)131 19 類別(億美元)類別(億美元)指標指標 專業視覺市場(2021 年)26 顯卡市場合計(2021 年)158 游戲用戶-中期復合增速 2.5%游戲顯卡 ASP-中期復合增速 12.5%游戲市場-年復合增速 15.3%專業視覺/游戲顯卡收入比重 20%游戲市場規模(2025 年)232
43、 專業視覺市場(2025 年)46 顯卡市場合計(2025 年)278 游戲市場規模(2030 年)473 專業視覺市場(2030 年)95 顯卡市場合計(2030 年)568 資料來源:IDC、彭博,中信證券研究部預測 數據中心:數據中心:AI&高性能計算等高性能計算等,預計,預計中期中期保持保持 25%以上以上年均年均復合增速復合增速 市場市場格局格局:英偉達英偉達 GPU 在在 AI 訓練、高性能計算領域占據主導地位訓練、高性能計算領域占據主導地位。作為圖形渲染之后另一主要應用場景,目前客戶主要通過在數據中心部署英偉達、AMD 的 GPU 芯片,實現 AI 訓練、高性能計算等,同時輔以自
44、研加速卡等,服務于特定場景的 AI 訓練、推理等。1)根據 Liftr Insights 數據顯示,2021Q1,在全球 TOP 云廠商數據中心 AI 加速芯片市場,英偉達份額占比為 78%,近年來基本穩定在 80%附近,市場領先地位穩固。同時根據 Lifter 2019 年 5 月的數據顯示,全球四大云計算平臺阿里云、AWS、Azure 和谷歌云(GCP)中,英偉達TESLA系列 GPU產品的市場占有率大幅領先。其中,阿里云采用英偉達 TESLA系列 GPU 比例為 81%,AWS、Azure 和 GCP 使用比例分別為 89%、100%和 100%,市場份額絕對領先。2)另外據 Top50
45、0.Org 數據顯示,英偉達 GPU 產品在全球 Top 500 超算中心的滲透率逐年提高,由 2013H1 的 72.2%提升至 2021H2 的 90.3%,幾乎處于壟斷地位。圖 25:全球 TOP 云廠商數據中心部署并行計算芯片份額結構(2021)圖 26:英偉達 GPU 產品在全球 Top 500 超算中心市場占有率 資料來源:Liftr Insights,中信證券研究部 資料來源:Top 500.Org,中信證券研究部 50%60%70%80%90%100%13H113H214H114H215H115H216H116H217H117H218H118H219H119H220H120H2
46、21H1 20 市場規模:市場規模:我們我們測算測算全球數據中心全球數據中心GPU芯片芯片市場規模市場規模,2021年年約約為為100億美元億美元左右左右。FY2022(對應 CY2021)英偉達數據中心營收約 106 億美元,其中 Mellanox 營收約 25.7億美元,則英偉達數據中心 GPU 相關產品營收約 80.3 億美元。在市場競爭段落中提到,英偉達在數據中心領域中的市占率約 80%,依次測算,2021 年,全球數據中心 GPU 芯片市場規模約為 100 億美元左右。圖 27:英偉達數據中心營收構成及占比:按不同業務劃分 資料來源:Bloomberg,中信證券研究部測算。注:Mel
47、lanox 于 FY2021 并表,FY2017-FY2020 計算營收占比時,將 Mellanox 的收入計入英偉達總營收中,方便前后對比 GPU 數量:數量:我們測算我們測算 2021 年年,全球數據中心全球數據中心 GPU 芯片芯片市場出貨量約市場出貨量約 200 萬個萬個。依據英偉達在數據中心領域中 GPU 產品的價格測算,假設對應產品的 ASP 約 5000 美元/個,對應 FY2022 年(對應 CY2021 年)英偉達 GPU 產品出貨量約 160 萬個。在市場競爭段落中提到,英偉達在數據中心領域中的市占率約 80%,依次計算,全球數據中心 GPU市場出貨量約 200 萬個。圖
48、28:2020Q1,阿里云、亞馬遜云、微軟云 GPU 加速卡市占率 資料來源:Liftr Insights 21 表 5:公司數據中心主要產品參數及售價 產品分類產品分類 產品名稱產品名稱 發布時間發布時間 售價(萬美元)售價(萬美元)主要參數及性能主要參數及性能 GPU Tesla 系列(計算顯卡)P100 2016 0.75 Pascal 架構架構,3584 個 CUDA cores,單精度10.6T,顯存 16GB,顯存帶寬 720GB/s P4 2016 0.25 Pascal 架構架構,3584 個 CUDA cores,單精度 8T,顯存 8GB,顯存帶寬 192GB/s V100
49、 2017 1.15 Volta 架構架構,5120 個 CUDA cores,單精度15.7T,顯存 32GB 或 16GB,顯存帶寬 900GB/s T4 2018 0.25 Turing 架構架構,2560 個 CUDA cores,單精度8.1T,顯存 16GB,帶寬 320GB/s A100 2020 1.5-2.7 Ampepre 架構架構,6912 個 CUDA cores,單精度19.5T,顯存 40GB,顯存帶寬 1.6 TB/s H100 2022 3.65 Hopper 架構架構,7296 個 CUDA cores,單精度60T,顯存 80GB,顯存帶寬 3 TB/s D
50、GX(主要用于 AI)DGX-1 2017 14.9 8 個 Tesla V100 GPU,512Gb DDR4;2 個 Intel E5-2698 CPU DGX-2 2018 39.9 16 個 Tesla V100 GPU,1.5TB 內存,2 個 Intel 8168 CPU DGX-A100 2020 19.9 8 個 Tesla A100 GPU,1TB 內存,2 個 AMD 7742CPU DGX-H100 2022 NA 8 個 Tesla H100 GPU,2TB 內存,2 個 X86架構服務器,4 個 NVSwitch HGX(用于AI 和超大型數據中心加速器)HGX-1
51、2017 14.9 8 個 Tesla V100,顯存 256GB HGX-2 2018 39.9 16 個 Tesla V100,顯存 512GB HGX-3 2020 NA 共三個版本,分別搭載 4/8/16 個 Tesla A100,顯存分別為 160/320/640GB HGX-H100 2022 NA 共四個版本,分別搭載4/8/16/32個Tesla A100,顯存分別為 320GB/640GB/10TB/20TB 資料來源:公司官網,中信證券研究部 數據中心數據中心 GPU 市場規模:預計市場規模:預計 2025、2030 年將分別達到年將分別達到 245、828 億美元億美元。
52、結合既有的認知和判斷,我們做出如下簡化假設:1)假設中期全球數據中心大算力邏輯芯片市場增速和過去相似(20142021 年),年市場規模復合增速維持在 15%20%之間,取中位值 17.5%;2)數據中心領域,并行計算需求占比持續提升,預計每年相對份額提升3%左右?;谏鲜龊喕僭O,我們中性預計,全球數據中心 GPU 市場規模將在 2025、2030 年分別達到 245、828 億美元,同時若中期 AI 技術進步、高性能計算需求超出我們的預期,則最終市場規模將顯著高于我們當前的預測。表 6:全球數據中心 GPU 芯片市場規模測算/預測(億美元)類別類別 數值數值 全球數據中心邏輯芯片市場(20
53、21 年,億美元)436 全球數據中心 GPU 市場(2021 年,億美元)100 GPU/邏輯芯片份額占比(2021)23%數據中心邏輯芯片市場-年復合增速 17.5%數據中心 GPU 年份額相對增幅 3%全球數據中心邏輯芯片市場(2025 年,億美元)831 全球數據中心邏輯芯片市場(2030 年,億美元)1861 GPU/邏輯芯片份額占比(2025)30%22 類別類別 數值數值 GPU/邏輯芯片份額占比(2030)45%全球數據中心 GPU 市場(2025 年,億美元)245 全球數據中心 GPU 市場(2030 年,億美元)828 全球數據中心 GPU-復合增速(20212030)2
54、6%資料來源:IDC、彭博,中信證券研究部測算/預測 國內國內 GPU 市場市場:中期潛在空間可觀中期潛在空間可觀,本土廠商開始,本土廠商開始規模崛起規模崛起&產品落地產品落地 國內市場現狀:國內市場現狀:和全球市場同步,預計和全球市場同步,預計 2030 年規模將突破年規模將突破 300 億美元億美元 圖形渲染:圖形渲染:當前國內市場規模約當前國內市場規模約 27 億美元,預計億美元,預計 2025、2030 年將分別達到年將分別達到 47、97億美元億美元。由于缺乏直接的統計數據,我們做出如下簡化假設:1)IDC 數據顯示,2016-2021年,全球 PC 出貨量為 2.6-3.5 億臺,
55、同期國內 PC 銷量占全球銷量比重約在 17%左右,我們假設在圖形渲染領域,國內 GPU 出貨量占比亦和 PC 表現相對一致,并保持和全球市場相似的增速,以及應用場景分布等。參考我們在上文中的測算,我們測算、預測 2021年、2025 年、2030 年,國內 GPU(圖形渲染)的市場規模約為 27、47、97 億美元。當然,若考慮到國內龐大的游戲用戶數,以及專業視覺等領域的旺盛需求等,最終的實際數據料將大幅優于我們當前的測算&預測。圖 29:全球 PC 用獨立顯卡 GPU 滲透率測算 圖 30:中國 PC 用獨立顯卡 GPU 出貨量(百萬)資料來源:IDC,中信證券研究部測算 資料來源:IDC
56、,中信證券研究部測算 數據中心數據中心:我們我們測算測算國內國內數據中心數據中心 GPU 市場約占全球市場約占全球 20%左右比重左右比重,對應對應 2021 年年整體出貨量約整體出貨量約 40 萬個,對應市場規模約萬個,對應市場規模約 20 億美元億美元。1)從互聯網云廠商 Capex 支出來看,阿里巴巴+騰訊+百度三家互聯網廠商的 Capex 占全球主要互聯網云商場(微軟、亞馬遜(含租賃)、谷歌、Meta)總 Capex 比例的 7%-13%。若扣除亞馬遜在租賃領域中的 Capex支出,我們預計中國三家互聯網廠商的 Capex 占比將超過 10%。2)Top 500.Org 網站顯示,截至
57、 2021 年 11 月,全球 Top 500 超算中心,中國擁有 173 個超算中心,為全世界最多的超算中心國家,占有率約34.6%。3)綜合考慮中國互聯網云廠商Capex占比約10%,Top 500 超級計算機個數市占率約 34.6%,我們認為中國數據中心 GPU 需求量約占全球 23 數據中心總 GPU 需求量的 20%左右。4)如前面章節測算,我們判斷 2021 年全球數據中心 GPU 加速器市場出貨量約 180-200 萬個,2021 年全球數據中心 GPU 加速市場規模約100 億美元。按照 20%市占率計算,我們預計 2021 年中國數據中心 GPU 加速器市場出貨量約 40 萬
58、個,對應市場規模約 20 億美元。圖 31:全球主要云廠商 capex 支出(億美元)資料來源:Bloomberg,中信證券研究部 圖 32:全球 Top500 超算中心分布(按地區)資料來源:Top 500.Org,中信證券研究部 中期展望:中期展望:我們預計我們預計 2030 年國內年國內數據中心數據中心 GPU 芯片芯片市場規模有望增長至市場規模有望增長至 250 億美億美元,元,對應對應 CAGR 為為 32%。如前所述,我們預計全球數據中心 GPU 加速市場規模有望由2021 年的 100 億美元增長至 2030 年的 828 億美元(對應 CAGR 為 26%)。綜合考慮國內 AI
59、、高性能產業的發展,以及頭部科技公司的資本開支,Top 500 超級計算機數量等,我們認為未來中國數據中心 GPU 芯片需求量將占到全球數據中心總 GPU 需求量的25%-30%左右。依此計算,我們預計中國數據中心 GPU 芯片市場規模有望由 2021 年的20 億美元增長至 2030 年的 250 億美元(對應 CAGR 為 32%)。當然考慮到國內企業在AI、高性能計算領域的積極努力和進展,最終實際數字大概率會好于我們當前的中性預期。0.0%5.0%10.0%15.0%0.0100.0200.0300.0400.0500.02015Q12015Q22015Q32015Q42016Q1201
60、6Q22016Q32016Q42017Q12017Q22017Q32017Q42018Q12018Q22018Q32018Q42019Q12019Q22019Q32019Q42020Q12020Q22020Q32020Q42021Q12021Q22021Q32021Q42022Q12022Q2微軟亞馬遜(含租賃)谷歌Meta阿里騰訊百度中國云廠商占比(%)020406080100120140160180200中國美國日本德國法國加拿大英國其他 24 國內市場格局:國內市場格局:本土本土廠商廠商快速崛起,快速崛起,產品亦逐步上市產品亦逐步上市 國內國內 GPU 廠商:開始快速崛起,廠商:開始快速
61、崛起,大多數企業目前已發布大多數企業目前已發布 1-3 款相關產品款相關產品,大部分核,大部分核心團隊具有英偉達、心團隊具有英偉達、AMD 工作經歷工作經歷。1)2014-2020 年,國內成立若干 GPU&云端 AI 芯片相關企業,目前此類企業已發布 1-3 代產品,產品落地進度不斷加快。2)從國產 GPU相關企業創始人的團隊背景來看,大部分企業創始人團隊均有在英偉達、AMD 等企業有多年的工作經驗。表 7:國內 GPU 相關部分企業梳理 企業名稱企業名稱 成立時間成立時間 代表性產品代表性產品 應用場景應用場景 景嘉微 2006 JM9 系列 圖形渲染、AI 計算 摩爾線程 2020 蘇堤
62、 圖形渲染、AI 計算 芯動科技 2007 風華二號 圖形渲染、AI 計算及科學計算 龍芯中科 2001 7A2000 圖形渲染 芯瞳半導體 2019 Genbu01 圖形渲染 海光信息 2014 深算一號 AI 訓練、推理及科學計算 壁仞科技 2019 BR100 云端推理、訓練及科學計算 寒武紀 2016 思元 370/220 云、邊的推理和訓練 登臨科技 2017 Goldwasser 云、邊的推理和訓練 鯤云科技 2016 CAISA 芯片 云、邊數量流推理 瀚博半導體 2018 SV100 云、端 AI 推理 天數智芯 2015 BI 云端訓練 燧原科技 2018 云燧 i20 云端
63、推理 阿里平頭哥 2018 含光 800 云端推理 墨芯 2021 ANTOUM 云端推理 沐曦科技 2020 MXN 云端推理 華為海思 2004 昇騰 910 邊緣計算 AI 昆侖芯 2011 2 代加速芯片 AI 計算 華夏芯 2014 可編程 AI 加速卡 AI 計算 資料來源:IT 橙子,中信證券研究部 圖 33:中國國產 GPU 企業發展歷史 資料來源:各公司官網,中信證券研究部繪制 25 表 8:中國 GPU 廠商創始人團隊背景 公司公司 創始人創始人 簡介簡介 AMD 背景 天數智芯(2015)鄭金山 供職于 Trident、XGI、ATI Technologies、AMD 和
64、酷芯微電子,任高級經理、PMTS和架構師等職位。燧原科技(2018)趙立東 CEO 猶他州立大學電子與計算機碩士學位、清華大學電子工程學士學位 張亞林 COO Juniper Networks/AMD 產品工程部高級總監/紫光通信副總裁,曾任職 AMD。壁仞科技(2019)張文 跨界投資者、曾任商湯科技并擔任總裁。李新融 CEO AMD 全球副總裁、中國研發中心總經理。陳文中 高級副總裁 在 AMD 帶領 500 人的技術團隊,在 8 年內實現了 9 款芯片的流片與量產,其中包括首款采用 HBM 技術的 GPU 芯片。沐曦(2020)陳偉良 CEO 清華大學微電子學碩士,AMD 近 14 年工
65、作經驗。楊建 CTO 浙江大學畢業,AMD 大中華區第一位科學家,曾參與及主導數十款 GPU 產品量產及交付全流程,并作為三維圖形與科學計算生態專家,擁有多項發明專利。歷任 Trident、S3、ATI/AMD、海思等公司芯片架構師、軟件架構師、首席架構師等職位。彭莉 硬件架構師 15 年高性能 GPU 芯片設計經驗,歷任 AMD 首席 SOC 架構師、系統架構師、GFXIP架構師。英偉達背景 摩爾線程(2020)張建中 前英偉達全球副總裁。其他 景嘉微(2004)曾萬輝 國防科學技術大學微波與毫米波技術碩士。登臨科技(2017)李建文 清華大學微電子所/在 GPU 領域有二三十年的從業經歷,
66、曾在圖芯科技(2004 年創立)擔任副總裁,由他負責的 GPU/GPGPU IP 產品。資料來源:IT 橙子,中信證券研究部 產品競爭力:產品競爭力:國內國內廠商產品核心參數約落后英偉達廠商產品核心參數約落后英偉達、AMD 12 代代左右左右,正逐步從“可正逐步從“可用”走向“好用”用”走向“好用”。1)通過對比海外 GPU 廠商和國內 GPU 廠商相關產品的參數,可以看出國內 GPU 廠商在半精度&單精度領域中的計算能力,相差約 1 代差距;國內 GPU 廠商在雙精度(64 位)計算領域能力近乎空白,但雙精度運算更多應用于復雜科學計算。2)考慮到英偉達、AMD 在 GPU 架構中加入了張量核
67、 TensorCore 或 Matrix Core(可用于執行融合乘法加法運算),這種計算單元層面的 DSA 架構設計,亦使得他們在 AI 訓練、推理環節具有更高的計算效率:英偉達英偉達 Tensor Core:2017 年公司發布的 Volta 架構首次引入了張量核 Tensor Core 模塊,用于執行融合乘法加法,支持 INT32 計算;2018 年公司發布的 Turing架構對 Tensor Core 進行了升級,并增加了對 INT8、INT4、Binary(INT1)的計算能力;2020 年公司發布的 Ampere 架構對 Tensor Core 再次升級,增加了 TF32和 BF1
68、6 兩種數據格式的支持,也增加了對稀疏矩陣計算的支持。2022 年公司發布的 Hopper 架構對 Tensor Core 再次升級,增加了 TF8 數據格式的支持。AMD Matrix Core:2020 年英偉達推出張量核 Matrix Core,對標英偉達 Tensor Core,并用于 MI100 加速器(可支持 FP64、FP32 計算格式);2021 年底,AMD發布 MI250/250X 加速卡,基于 Matrix Core 的加持下,FP64/FP32 計算能力可提升一倍。26 表 9:中國 GPU 廠商與海外 GPU 廠商產品參數對比 一、中國一、中國 GPU 廠商產品及參數
69、廠商產品及參數 品牌 昆侖芯 壁仞科技 燧原科技 海光 寒武紀 華為海思 產品 R200 BR100 i20 深算一號 MLU370-X8 昇騰 910 發布日期 2021 2022 2021 2021 2022 2018 工藝 7nm 7nm 12nm 7nm 7nm 7nm 半精度(FP16)128 TFLOPS NA 128 TFLOPS NA 96 TFLOPS 320 TFLOPS 單精度(FP32)32 TFLOPS 256 TFLOPS 32 TFLOPS NA 24 TFLOPS NA 雙精度(FP64)NA NA NA 10.8 TFLOPS NA NA INT8 256 T
70、OPS 2048 TOPS 256 TOPS NA 256 TOPS 640 TOPS CUDA 兼容 NA 是 否 NA 否 NA 二、海外二、海外 GPU 廠商產品及參數廠商產品及參數 品牌 AMD AMD NVIDIA NVIDIA NVIDIA NVIDIA NVIDIA 產品 INSTINCT MI100 INSTINCT MI250 P100 V100 SXM2 T4 A100 80GB PCIe H100 PCIe 發布日期 2020 2021 2016 2017 2018 2020 2022 工藝 7nm 6nm 16nm 12nm 12nm 7nm 4nm 半精度(FP16)
71、184.6 TFLOPS 362.1 TFLOPS 21.2 TFLOPS 125 TFLOPS 65 TFLOPS 312 TFLOPS*NA 半精度(FP16 Tensor Core)NA NA 不支持 不支持 不支持 不支持 1600 TFLOPS*單精度(FP32)23.1 TFLOPS 45.3 TFLOPS 10.6 TFLOPS 15.7 TFLOPS NA 19.5 TFLOPS 48 TFLOPS 單精度(FP 32 Tensor Float)46.1 TFLOPS(AMD為Matrix Core)90.5 TFLOPS(AMD為Matrix Core)不支持 不支持 不支持
72、 156 TFLOPS 800 TFLOPS 雙精度(FP64)11.5 TFLOPS 45.3 TFLOPS 5.3 TFLOPS 7.8 TFLOPS 8.1 TFLOPS 9.7 TFLOPS 24TFLOPS 雙精度(FP 64 Tensor Core)不支持 90.5 TFLOPS(AMD為Matrix Core)不支持 不支持 不支持 19.5 TFLOPS 48 TFLOPS INT8 184.6 TOPs 362.1 TOPs NA NA 130 TOPs 624 TOPs*NA INT8(Tensor Core)不支持 NA 不支持 不支持 不支持 不支持 3200 TOPs
73、 CUDA 兼容 否 否 是 是 是 是 是 資料來源:各公司官網,中信證券研究部 本土本土 GPU 廠商廠商:有望率先在:有望率先在 AI 領域領域實現落地實現落地,并,并逐逐步步擴展至圖形渲染、復雜科學計算等擴展至圖形渲染、復雜科學計算等場景場景 市場機遇市場機遇:基于上文對英偉達歷史的復盤和分析,作為典型的通用芯片,產品技術、軟件生態是 GPU 廠商不斷做大做強的核心基礎和支撐。同時在 GPU 實際落地應用中,需要將硬件、軟件應用、游戲引擎、操作系統、OEM 等眾多環節匹配到一起,才能更好地發揮性能作用。目前國產 GPU 廠商正處于起步階段,市場需求、產業政策均有利于其發展&壯大:27
74、1)國產 GPU 廠商開始切入相關客戶產品中:英偉達最新公告背景下,倒逼國內相關客戶開始使用國產 GPU 產品,在一定程度上能夠幫助相關企業與客戶建立密切聯系,進而幫助相關企業進行快速的技術和產品迭代。2)市場需求:依據我們前文預測,2030 年全球 GPU(圖形渲染)市場規模為 568億美元,中國市場規模約 97 億美元;2030 年全球數據中心 GPU(AI、高性能計算等)市場規模為 828 億美元,中國市場規模約 250 億美元。面臨挑戰面臨挑戰:目前國產 GPU 廠商大多仍處于早期發展階段,仍需要在技術、產品商業化落地等方面不斷努力:1)核心技術人才核心技術人才招募招募。(a)從英偉達
75、 GPU&AMD 的發展歷史來看,公司 GPU 架構基本可以做到兩年更新一代,這對于架構師對于芯片研發的理解和應用場景的全判斷要求較高。如:Jim Keller 于 2012 年左右加入 AMD,幫助涉及了 Zen 微架構,大幅提升公司產品在數據中心領域的競爭力。(b)GPU 下游應用領域,并非是單純的硬件算力比拼,對于軟件開發及軟件生態的建設亦相對重要。未來如何招聘大量的軟件&AI 人才,仍是國產 GPU 廠商目前需要面臨的重要問題。2)產品產品設計、設計、流片流片、客戶驗證客戶驗證,再到量產交付的全流程跑通,再到量產交付的全流程跑通。(a)GPU 是一種技術門檻極高的細分賽道領域,前期投入
76、資金成本相對較高,這對于企業的融資能力要求相對較高。(b)從 GPU 的開發及使用流程來看,GPU 從最初設計到制造、流片、量產,周期通常不會低于 1824 個月。從產品點亮到推出,再到后續的大量出貨和用戶驗證,再到后續找到可持續落得的應用場景,仍面臨著較多的挑戰。技術路線選擇:技術路線選擇:AI 為中短期最可能突破為中短期最可能突破&落地場景落地場景,并可逐步向圖形渲染、復雜科學,并可逐步向圖形渲染、復雜科學計算等領域擴展。計算等領域擴展。目前 GPU 的應用場景,主要應用于圖形渲染、AI 訓練&推理、復雜科學計算等領域,結合市場規模、客戶結構、技術特性等要素,對于本土 GPU 廠商而言,我
77、們判斷,AI 將是最可能率先獲得突破的領域,并在此基礎上,不斷向圖形渲染、復雜科學計算等領域進行延伸:AI 訓練訓練:大模型逐步成為 AI 領域的主流,疊加下游自然語言理解、計算機視覺、推薦系統等應用場景的不斷擴展,AI 訓練料將成為中期國內 GPU 最大的需求領域。同時 AI 模型更多基于神經網絡結構,因此對計算精度要求并不嚴苛,亦使得本土 GPU 廠商面臨的技術門檻相應降低,我們預計這將是本土 GPU 廠商最容易實現突破的領域。AI 推推理理:從英偉達&谷歌等科技巨頭的產品參數來看,AI 推理環節對計算精度的要求顯著低于 AI 訓練環節,一般 48 位即可滿足,但 AI 推理本身對實時性要
78、求較高,且下游場景過于碎片化,如何實現靈活性、細分場景之間的有效平衡,是當前面臨的主要難題,因此初創企業更多在自動駕駛、安防等領域尋找市場機遇。圖形渲染圖形渲染:主要場景包括游戲畫面渲染,以及專業圖形創作&渲染等領域,作為典型的 2C 市場,客戶更專注產品的性價比、品牌、生態支持等,且 GPU 圖形管線設計復雜度相對更高。28 復雜科學計算復雜科學計算:主要應用場景包括國防、航天、氣象等高性能計算領域,為控制累計誤差,需要較高的計算精度,一般需要 64 位雙精度運算,整體技術架構復雜性遠大于 AI 訓練、推理環節。表 10:各類別場景對 GPU 特性需求分析 場景場景 技術特性技術特性 圖形渲
79、染 圖形管線設計相對復雜 AI 訓練 計算精度要求不高,一般 832 位計算精度 AI 推理 計算精度要求最低,一般 416 位計算精度 復雜科學計算 計算精度要求最高,一般需要 64 位雙精度 資料來源:中信證券研究部整理 風險因素風險因素 全球核心技術跨境流動受阻風險;地緣政治沖突不斷加劇風險;本土企業在核心技術環節進展不及預期風險;企業核心技術人才流失、難于招募風險;下游應用場景落地不及預期風險;生產制造等芯片關鍵技術環節受阻風險等。投資投資建議建議 當前國內本土 GPU廠商正在快速崛起,大部分核心團隊具有英偉達、AMD工作經歷,且企業目前已平均發布 1-3 款相關產品,并逐步從“可用”
80、走向“好用”。參考英偉達發展歷程,GPU 作為通用計算芯片,產品技術、軟件生態等構成 GPU 廠商的核心壁壘,國內大部分本土 GPU 廠商當前仍處于早期階段,短期仍需克服用戶驗證、產品落地等潛在挑戰,但長期前景值得期待。我們判斷本土廠商有望率先在 AI(訓練、推理)領域實現突破,并可逐步向圖形渲染、復雜科學計算等領域擴展。我們看好本土 GPU 廠商的長期投資機會,建議關注二級市場的頭部企業以及一級市場的摩爾線程、沐曦集成電路、瀚博半導體等。29 附錄:國內部分重點附錄:國內部分重點 GPU 企業介紹企業介紹 摩爾線程:摩爾線程:專注于研發設計全功能專注于研發設計全功能 GPU 芯片及相關產品芯
81、片及相關產品 英偉達背景出身,打造研運一體英偉達背景出身,打造研運一體 GPU 公司。公司。成立于 2020 年 10 月,致力于構建視覺計算及人工智能領域計算平臺,研發全球領先的 GPU,建立高性能計算生態系統。摩爾線程擁有能夠覆蓋 GPU 研發設計、生產制造、市場銷售、服務支持等完整成熟的團隊,逐步成為國產現代全功能 GPU 實現的核心力量。創始人張建中是前英偉達全球副總裁,中國區總經理,英偉達中國公司創始人,曾任惠普、戴爾公司高管。全功能全功能 GPU 蘇堤問世。蘇堤問世。公司成立不到 300 天的時間,于 2021 年 11 月公布首顆國產全功能 GPU 芯片研制成功,開創國產 GPU
82、 研發速度先河。2022 年 3 月 30 日,公司推出基于其統一系統架構 MUSA 的首款 GPU 蘇堤、基于蘇堤的首款臺式機顯卡 MTT S60、首款數據中心級產品 MTT S2000,開拓 GPU 在中國市場的生態系統,助力驅動數字經濟的發展。圖 34:摩爾線程及產品發展歷程 資料來源:企查查,公司官網,中信證券研究部 表 11:摩爾線程產品參數 桌面級顯卡桌面級顯卡 MTT S60(搭載蘇堤芯片)(搭載蘇堤芯片)MUSA 核數量 2048 個 單精度浮點算力 6TFLOPS 像素填充率 192GPixels/s 顯存容量 8G 超清顯示 4K/8K 數據中心級產品數據中心級產品 MTT
83、 S2000 性能性能(搭載蘇堤芯片)(搭載蘇堤芯片)MUSA 核數量 4096 個 單精度浮點算力 12TFLOPS 顯存容量 32G 資料來源:摩爾線程春季發布會,中信證券研究部 30 沐曦集成電路沐曦集成電路:國產高性能:國產高性能 GPU 芯片解決方案領先公司芯片解決方案領先公司 公司概述公司概述:沐曦集成成立于 2020 年 9 月。公司專注于設計具有完全自主知識產權,針對異構計算等各類應用的高性能通用 GPU 芯片,致力于打造國內具有商用價值的 GPU芯片,產品主要應用方向包括人工智能、云計算、數據中心等高性能異構計算領域。公司創始人團隊背景公司創始人團隊背景。公司匯聚頂尖技術、量
84、產經驗、管理能力人才,創始人陳維良曾任AMD GPU設計高級總監、AMD全球GPU SOC設計總負責人、AMD全球通用GPUMI產品線(高性能計算、云計算)設計總負責人。公司擁有國內最完整的 GPU 設計研發團隊,參與過 AMD 從圖像到高性能計算應用 GPU 的架構設計和量產,團隊構建完整,且有多年合作共事基礎。圖 35:沐曦集成電路創始團隊背景 資料來源:公司官網,中信證券研究部 目前公司有兩款產品,目前公司有兩款產品,MXN 系列的系列的 MXN 100 和和 MXC 系列的系列的 MXC 500。(1)MXN系列是面向云端數據中心應用的人工智能推理產品,采用先進工藝結合高帶寬內存,提供
85、強大的 AI 算力和領先的視頻編解碼能力,可廣泛應用于智慧城市、公有云計算、智能視頻處理、云游戲等場景。目前的 MXN 100 是一款 7nm 芯片,于 2022 年 8 月已經流片,成功點亮。目前在正常測試軟硬件,公司預計年底送達客戶側測試。(2)MXC 系列通用GPU(GPGPU)芯片是針對 AI 訓練和推理及科學計算的完美解決方案,沐曦自主知識產權架構提供強大高精度及多精度混合算力,可廣泛應用于人工智能、數據中心以及科學計算、教育和科研等場景。MXC 500 是一款 6nm 芯片,公司計劃 2022 年 10 月流片,2023 年上半年回片。31 圖 36:沐曦集成電路產品矩陣圖 資料來
86、源:公司官網,中信證券研究部 瀚博半導體:從瀚博半導體:從 AI 與視頻轉向更廣闊的通用計算與視頻轉向更廣闊的通用計算市場市場 公司概覽:專注于高性能通用加速芯片的公司概覽:專注于高性能通用加速芯片的 AI 與視頻芯片廠商與視頻芯片廠商。公司成立于 2018 年12 月,創始人錢軍曾在思科、AMD 擔任高管,具備 25 年以上的芯片設計經驗。公司曾于 2020 和 2021 年間完成 A 輪、A+輪和 B 輪融資,總募資額超過人民幣 24 億元。其中最近一筆融資發生于 2021 年 12 月,由阿里巴巴集團、人保資本、經緯創投和五源資本聯合領投,包含 B-1 和 B-2 輪,共計人民幣 16
87、億元。產品布局:從加速卡向產品布局:從加速卡向 GPU 邁進邁進。目前公司擁有 VA1 通用 AI 推理加速卡與 SV100系列芯片。VA1 加速卡具備高效的 AI 推理能力,INT8 峰值算力超 2000TOPS,并能夠滿足高密度視頻的解碼,支持 FP16 的浮點數運算。SV100 芯片則聚焦云端的推理,支持深度學習與計算機視覺等場景。根據公司在 2022 年世界人工智能大會的披露,公司發布了瀚博統一計算架構、全新數據中心(云端)AI 推理卡載天 VA10、邊緣 AI 推理加速卡載天 VE1、以及瀚博軟件平臺 VastStream 擴展版等產品,并將繼續整合統一計算架構,在邊緣計算、云計算以
88、及軟件平臺上持續進行投入,并預覽了云端 GPU 芯片 SG100,正式進入到 GPU 市場。商業化:簽約多家政企客戶,并與快手等互聯網廠商建立合作商業化:簽約多家政企客戶,并與快手等互聯網廠商建立合作。根據公司在 2022 世界人工智能大會的披露,2022 年以來,公司先后與福建大數據集團、國寧瑞能,高新興、超聚變等行業領先企業,在智慧城市、智慧政務、智慧交通、智慧園區、智慧能源等多元場景,開展深入合作,為企業智能化、數據化提供國產 AI 算力解決方案。而公司依靠在視頻領域的特色,亦與快手等互聯網廠商建立合作關系。32 圖 37:公司 VA1 通用推理卡 圖 38:公司 SV100 云端推理芯
89、片 資料來源:公司官網 資料來源:公司官網 圖 39:云端 GPU 芯片 SG100 資料來源:公司官網 表 12:公司兩大產品主要能力 產品產品 能力能力 參數參數 VA1 通用推理卡 算力 INT8 峰值算力 200TOPS 視頻處理 H.264/AVS2 1080p 通用性與拓展性 支持 FP16BF16/INT8,滿足主流神經網絡部署 其他 標準半高半長 75WPCle Gen4 卡 SV100 云端推理芯片 算力 INT8 峰值算力 200TOPS 場景 深度學習推理,支持計算機視覺、視頻處理、自然語言處理、搜索推薦等 視頻處理 高密度視頻解碼 資料來源:公司官網,中信證券研究部 3
90、3 壁仞科技:專研通用計算體系,向圖形渲染進發壁仞科技:專研通用計算體系,向圖形渲染進發 公司概覽:公司概覽:聚焦高性能算力芯片,專研通計算體系。聚焦高性能算力芯片,專研通計算體系。GPU 壁仞科技創立于 2019 年,主要從事 GPU、DSA(專用加速器)的研發和銷售,致力于開發原創通用計算體系,提供智能計算領域一體化解決方案。創始人張文曾任商湯科技總裁,具有哈佛大學法學博士及哥倫比亞工商管理碩士學位;聯合創始人焦國方是圖形 GPU 產品線總經理,具有超過25 年的 GPU 產品架構及研發經驗,曾任高通 GPU 團隊負責人;聯席 CEO 李新榮曾任AMD 全球副總裁、中國研發中心總經理。由通
91、用計算向圖形渲染全功能發力,補齊由通用計算向圖形渲染全功能發力,補齊 GPU 全領域能力。全領域能力。1)公司聚焦云端通用智能芯片,并逐步擴展產品線至人工智能訓練和推理、圖形渲染等多個領域,實現 GPU 芯片的全功能全領域覆蓋。2)目前公司產品線主要為 BR100 系列的通用 GPU,針對人工智能(AI)訓練、推理,及科學計算等更廣泛的通用計算場景開發,包含 BR100 與 BR104兩款產品。其中 BR100 產品形態為 OAM 模組,搭載一顆 BR100 GPU 芯片,制程為 7nm,在 FP32 精度下能夠實現 256TFLOPS 的計算峰值。BR104 產品形態為 PCIe 板卡,搭載
92、一顆 BR104 GPU 芯片,用于數據中心 GPU 服務器,采用 7nm 制程,FP32 精度下可達到 128TFLOPS 計算峰值。此外,公司提供 BIRENSUPA 軟件開發平臺,為旗下硬件提供完整功能架構的軟件開發平臺。后續看,公司將繼續圍繞通用計算芯片,進行硬件與軟件的開發。圖 40:壁仞科技發展時間線 資料來源:壁仞科技官網,中信證券研究部 表 13:壁仞科技 AI 加速產品壁礪 100 參數 制程制程 FP32 BF16 INT8 內存容量內存容量 接口位寬接口位寬 帶寬帶寬 產品形態產品形態 7nm 256 TFLOPS 1024 TFLOPS 2048 TFLOPS 64GB
93、 HBM2E 4096 bit 1.64 TB/S OAM 模組 資料來源:壁仞科技官網,中信證券研究部 商業化:商業化:GPU 芯片已經點亮,客戶拓展進行時芯片已經點亮,客戶拓展進行時。2022 年 3 月,公司點亮了國內算力最大通用 GPU 芯片,2022 年 8 月發布首款通用 GPU 芯片,產品線逐步進入到落地階段。在客戶資源方面,根據公司在 2022 年世界人工智能大會上的披露,公司正在積極布局BR100 商業化落地,目前已有平安科技、浪潮信息、萬國數據等建立合作。34 阿里平頭哥:阿里平頭哥:專注云與專注云與 AI 的芯片研發廠商的芯片研發廠商 技術驅動產品創新,打造智聯網芯片平臺
94、。技術驅動產品創新,打造智聯網芯片平臺。平頭哥半導體有限公司成立于 2018 年 9月 19 日,是阿里巴巴集團的全資半導體芯片業務主體,由中天微和達摩院合并而來。平頭哥擁有端云一體全棧產品系列,涵蓋數據中心人工智能芯片、處理器 IP 授權等,實現芯片端到端設計鏈路全覆蓋。平頭哥堅持以技術驅動創新,以芯力量擁抱數智未來的研發理念,主要打造面向汽車、家電、工業等領域的智聯網芯片平臺。AI 芯片:以芯片:以 CPU 為主,兼顧部分為主,兼顧部分 ASIC 芯片芯片。平頭哥目前產品分為四大類:1)玄鐵系列的 CPU 芯片,此類芯片包含 8、9 以及無劍三大系列,基于 RISC-V 架構進行設計,由于
95、 RISC-V 本身的架構特性,適用范圍較廣,既能用于智能監控、機器視覺、人工智能、5G、邊緣服務器等對處理器性能要求很高的應用領域,又能用在對功耗和成本極其敏感的IoT、MCU 等領域。2)倚天系列的服務器芯片,倚天 710 采用 2.5D 封裝,分為兩個 DIE,總計 600 億晶體管。包含 128 個 Armv9 高性能 CPU 核,用于服務器。3)含光 AI 芯片,含光 800 基于 12nm 工藝,集成 170 億晶體管,性能峰值算力達 820 TOPS(INT 8),支持 Tensorflow、MXNet、Caffe、ONNX 等主流深度學習框架。4)羽陣 RFID 芯片,羽陣 6
96、00 是一顆低功耗、高性能超高頻 RFID 電子標簽芯片,用于智慧物流、智慧倉儲、智慧零售、資產管理等應用場景。圖 41:阿里平頭哥產品矩陣 資料來源:阿里平頭哥官網,中信證券研究部 圖 42:阿里平頭哥 AI 芯片含光 800 架構及參數示意圖 35 資料來源:阿里平頭哥官網,中信證券研究部 商業化:服務阿里巴巴自身業務的同時,對外進行輸出商業化:服務阿里巴巴自身業務的同時,對外進行輸出。作為阿里巴巴旗下的芯片平臺,平頭哥高性能產品直接用于阿里云相關產品,例如含光 800 已經廣泛用于阿里云、阿里電商搜索與營銷等領域。但在 AI 之外,平頭哥 RISC-V 架構芯片由于適用范圍大,亦廣泛用于
97、其他場景,根據阿里平頭哥公開披露,截至 2020 年,玄鐵系列 CPU 已經出貨 20億顆,自研嵌入式 CPU IP 核授權客戶超 100 家。根據納思達在 2021 年 6 月公開披露,公司是阿里平頭哥國產玄鐵系列 CPU 的最大客戶,基于玄鐵系列 CPU 的芯片出貨量累計已超過了 5 億顆。2022 年阿里平頭哥與國內 MCU 廠商愛普特達成合作。在服務阿里自身業務的同時,對外進行多維度拓展。昆侖芯:產品聚焦昆侖芯:產品聚焦 AI 加速芯片,自研加速芯片,自研 XPU 架構賦能智慧應用架構賦能智慧應用 專注專注 AI 加速,打造全鏈路服務體系。加速,打造全鏈路服務體系。昆侖芯科技是一家 A
98、I 芯片公司,于 2021 年 4月正式從百度獨立出來,當前已完成 130 億人民幣和 20 億美元兩輪融資。昆侖芯前身是百度智能芯片及架構部,于 2011 年 6 月設立,期間在實際業務場景中持續深耕 AI 加速領域,是一家在體系結構、芯片實現、軟件系統和場景應用均有深厚積累的 AI 芯片企業。圖 43:昆侖芯產品示意圖 資料來源:昆侖芯科技官網,中信證券研究部 自研自研 XPU 產品架構,賦能智慧應用場景。產品架構,賦能智慧應用場景。昆侖芯科技研發實力雄厚,CEO 歐陽劍是原百度首席架構師(T11),智能芯片業務總經理,基礎技術體系聯席技術委員會主席,百度無人駕駛初始團隊成員。團隊成員擁有
99、全球頂尖學術背景,多數成員來自百度、高通、Marvell、Tesla 等行業頭部公司,并提出了 100%自研的、面向通用人工智能計算的核心架構 XPU。目前,昆侖芯科技已與智能產業的上下游企業建立了良好的合作生態,通過向不同行業提供以人工智能芯片為基礎的算力產品,輻射互聯網、智慧城市、智算中心、智慧工業、智慧應急、智慧交通、智慧金融等“智慧+”產業。表 14:昆侖芯產品簡介 產品系列產品系列 主要產品主要產品 2022E 2023E 2024E K 系列 昆侖芯 1 代芯片 256 TOPSINT8,64 TFLOPSFP16,14nm 云數據中心 智慧城市 百度搜索 微億智造 36 產品系列
100、產品系列 主要產品主要產品 2022E 2023E 2024E 昆侖芯 AI 加速卡 K200 256 TOPSINT8 智慧工業 智算中心 智能交通 生物計算 江蘇銀行 宜昌市點軍區政府 百度智能云 小度科技 重慶市高級人民法院 昆侖芯 AI 加速卡 K100 128 TOPSINT8 算力 R 系列 昆侖芯 2 代芯片 已量產,XPU-R 架構 256 TOPSINT8,128 TFLOPSFP16,7nm 昆侖芯 AI 加速卡 R200 256 TOPSINT8,128 TFLOPSFP16 昆侖芯 R480-X8AI 1 Peta FLOPSFP16 算力和 256G 顯存 資料來源:昆侖芯科技官網,中信證券研究部