《半導體行業:AI算力芯片是“AI時代的引擎”河南省著力布局-250320(36頁).pdf》由會員分享,可在線閱讀,更多相關《半導體行業:AI算力芯片是“AI時代的引擎”河南省著力布局-250320(36頁).pdf(36頁珍藏版)》請在三個皮匠報告上搜索。
1、第 1頁/共 36頁 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 半導體半導體 分析師:鄒臣分析師:鄒臣 登記編碼:登記編碼:S0730523100001 021-50581991 AI 算力芯片是算力芯片是“AI 時代的引擎時代的引擎”,河南省河南省著力布局著力布局 證券研究報告證券研究報告-行業深度分析行業深度分析 半導體半導體相對滬深相對滬深 300 指數表現指數表現 資料來源:聚源,中原證券 相關報告相關報告 半導體行業月報:國內 RISC-V 生態加速發展,存儲器價格有望逐步回升 2025-03-10 半導體行業月報:美國半導體出口管制進一步升級,DeepSeek 熱潮
2、有望推動端側 AI發展 2025-02-10 半導體行業月報:豆包 AI 生態加速發展,關注國內 AI 算力產業鏈 2025-01-10 聯系人:聯系人:李智李智 電話:電話:0371-65585629 地址:地址:鄭州鄭東新區商務外環路10號18樓 地址:地址:上海浦東新區世紀大道1788號T1座22樓 發布日期:2025 年 03 月 20 日 報告要報告要點點:AI 算力芯片是“算力芯片是“AI 時代的引擎”時代的引擎”。ChatGPT 熱潮引發全球科技企業加速布局 AI 大模型,谷歌、Meta、百度、阿里巴巴、華為、DeepSeek 等隨后相繼推出大模型產品,并持續迭代升級;北美四大云
3、廠商受益于 AI 對核心業務的推動,持續加大資本開支,國內三大互聯網廠商不斷提升資本開支,國內智算中心加速建設,推動算力需求高速成長。人工智能進入算力新時代,全球算力規模高速增長,根據 IDC 的預測,預計全球算力規模將從 2023 年的1397 EFLOPS 增長至 2030 年的 16 ZFLOPS,預計 2023-2030年復合增速達 50%。AI 服務器是支持生成式 AI 應用的核心基礎設施,AI 算力芯片為 AI 服務器提供算力的底層支撐,是算力的基石。AI 算力芯片作為“AI 時代的引擎”,有望暢享 AI 算力需求爆發浪潮,并推動 AI 技術的快速發展和廣泛應用。AI 算力芯片以算
4、力芯片以 GPU 為主流為主流,定制,定制 ASIC 芯片市場高速成長芯片市場高速成長。AI算力芯片按應用場景可分為云端、邊緣端、終端 AI 算力芯片,本文主要針對于云端 AI 算力芯片。根據芯片的設計方法及應用,AI算力芯片可分為通用型 AI 芯片和專用型 AI 芯片,當前 AI 算力芯片以 GPU 為主流。隨著 AI 算力規模的快速增長將催生更大的GPU 芯片需求,根據 Statista 的數據,2023 年全球 GPU 市場規模為 436 億美元,預計 2029 年市場規模將達到 2742 億美元,預計 2024-2029 年復合增速達 33.2%。根據 TechInsights 的數據
5、,2023 年英偉達在數據中心 GPU 出貨量中占據 98%的市場份額,主導全球 GPU 市場。GPU 生態體系復雜,建設周期長、難度大,GPU 生態體系建立極高的行業壁壘。AI ASIC 是一種專為人工智能應用設計的定制集成電路,具有高性能、低功耗、定制化、低成本等特點。由于英偉達壟斷全球數據中心 GPU 市場,云廠商為了提升議價能力及供應鏈多元化,推動數據中心定制 ASIC芯片市場高速成長,預計增速快于通用 AI 算力芯片。根據 Marvell的數據,2023 年數據中心定制 ASIC 芯片市場規模約為 66 億美元,預計 2028 年市場規模將達到 429 億美元,預計 2023-202
6、8年復合增速達 45%。近年來美國不斷加大對高端 GPU 的出口管制,國產 AI 算力芯片廠商迎來黃金發展期。DeepSeek 有望推動國產有望推動國產 AI 算力芯片加速發展算力芯片加速發展。DeepSeek 通過技術創新實現大模型訓練及推理極高性價比,DeepSeek 模型的技術創新主要體現在采用混合專家(MoE)架構、多頭潛在注意力機制(MLA)、FP8 混合精度訓練技術、多 Token 預測(MTP)及蒸餾技術等。DeepSeek-V3 性能對標 GPT-4o,DeepSeek-R1 性能對標 OpenAI o1;根據 DeepSeek 在 2025 年 1 月 20 日公布的數據,D
7、eepSeek-R1 API 調用成本不到 OpenAl o1 的 5%。DeepSeek-R1 實現模型推理極高性價比,蒸餾技術使小模型也具有強大的推理能力及低成本,將助力 AI 應用大規模落地,并有望推動推理需求加速釋放。IDC 預計 2028 年中國 AI 服務器用于推理工作負載占比將達到 73%,由于推理服務器占比遠高于訓練服-18%-8%3%13%24%34%45%55%2024.032024.072024.112025.03半導體滬深300第 2頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 務器,用于推理的 AI 算力芯片國產替代空間更為廣闊。國
8、產算力生態鏈已全面適配 DeepSeek,DeepSeek 通過技術創新提升 AI算力芯片的效率,進而加快國產 AI 算力芯片自主可控的進程,國產 AI 算力芯片廠商有望加速發展,并持續提升市場份額。河南省著力布局河南省著力布局 AI 算力芯片,產業鏈初具雛形算力芯片,產業鏈初具雛形。河南省將算力作為支撐數字河南建設的重要底座和驅動數字化轉型的新引擎,致力于打造面向中部、輻射全國的算力調度核心樞紐和全國重要的算力高地。河南省的算力產業布局以“一核四極多點”為核心框架,以鄭州市(含航空港區)為核心,支持洛陽、鶴壁、商丘、信陽等城市作為區域增長極。河南省依托省內先進計算企業,積極引進芯片等上游企業
9、,吸引集聚服務器操作系統、數據庫、中間件開發骨干企業,打造先進計算產業園,構建算力產業生態。龍芯中科在鶴壁建設的芯片封裝基地已正式投產,并在鄭州設立中原總部基地,中原總部基地將建設研發創新中心、生態適配中心、信創展示中心等;河南投資集團通過基金投資沐曦集成,推動沐曦集成在河南落地;河南省政策大力扶持 AI 算力芯片產業,通過引進、投資、培育本土企業等方式布局 AI 算力芯片,產業鏈初具雛形。相關企業相關企業。河南省 AI 算力芯片產業相關企業主要有龍芯中科、沐曦等。風險提示:風險提示:國際地緣政治沖突加劇風險,下游需求不及預期風險,市場競爭加劇風險,新產品研發進展不及預期風險,國產替代進展不及
10、預期風險。第 3頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 內容目錄內容目錄 1.AI 算力芯片是算力芯片是“AI 時代的引擎時代的引擎”.5 1.1.大模型持續迭代,推動全球算力需求高速成長.5 1.2.AI 算力芯片是算力的基石.8 2.AI 算力芯片以算力芯片以 GPU 為主流,定制為主流,定制 ASIC 芯片市場高速成長芯片市場高速成長.9 2.1.AI 算力芯片可應用于云端、邊緣端、終端,當前以 GPU 為主流.9 2.2.英偉達主導全球 GPU 市場,GPU 生態體系建立極高的行業壁壘.12 2.3.云廠商推動定制 ASIC 芯片市場高速成長
11、.18 2.4.美國不斷加大對高端 AI 算力芯片出口管制,國產廠商迎來黃金發展期.22 3.DeepSeek 有望推動國產有望推動國產 AI 算力芯片加速發展算力芯片加速發展.24 4.河南省著力布局河南省著力布局 AI 算力芯片,產業鏈初具雛形算力芯片,產業鏈初具雛形.30 5.河南省河南省 AI 算力芯片產業相關企業算力芯片產業相關企業.33 5.1.龍芯中科.33 5.2.沐曦.34 圖表目錄圖表目錄 圖 1:全球部分科技企業發布大模型產品情況.5 圖 2:GPT-4.5 與人類測試者的對比評估情況.5 圖 3:GPT-4o SimpleQA 性能對比情況.5 圖 4:o3 在 SWE
12、-benchVerified、Codeforces 測試中表現優于 o1.6 圖 5:o3 在 GPQA 測試中大幅優于 o1.6 圖 6:2012-2023 年各領域重要的機器學習模型訓練算力需求情況.6 圖 7:2020-2024 年北美四大云廠商資本開支情況(億美元).7 圖 8:2021-2024 年國內三大互聯網廠商資本開支情況(百萬元).7 圖 9:2019-2030 年全球算力規模情況及預測(EFLOPS).8 圖 10:2019-2026 年中國智能算力市場規模預測.8 圖 11:人工智能系統產業鏈結構圖.8 圖 12:AI 服務器內部結構圖.8 圖 13:2023-2028
13、年全球生成式人工智能和非生成式人工智能服務器市場規模及預測.9 圖 14:2024-2028 年中國 AI 服務器市場規模及預測.9 圖 15:2018 年服務器成本構成情況.9 圖 16:CPU+GPU 異構計算系統方案框圖.9 圖 17:AI 處理的重心正在從云端向邊緣轉移.10 圖 18:英偉達 A100 GPU 內部架構圖.11 圖 19:谷歌 TPU 內部架構圖.11 圖 20:2024 年上半年中國 AI 芯片市場份額情況.11 圖 21:AI 算力芯片產業鏈結構圖.12 圖 22:GPU 與 CPU 內部架構對比圖.12 圖 23:GPU 的計算架構.13 圖 24:GPU 的內
14、存架構.13 圖 25:英偉達多 GPU 系統架構圖.14 圖 26:英偉達 NVLink 技術演進情況.14 圖 27:GPU 應用場景廣泛.15 圖 28:2023-2029 全球 GPU 市場規模情況及預測(億美元).15 圖 29:2023 年全球數據中心 GPU 市場競爭格局情況.16 圖 30:24Q4 全球 PC GPU 市場競爭格局情況.16 圖 31:英偉達數據中心平臺 GPU 生態體系架構圖.16 圖 32:英偉達 CUDA 生態系統的組成.17 圖 33:英偉達 CUDA 加速計算解決方案.17 圖 34:Marvell 用于數據中心的 ASIC 解決方案.18 圖 35
15、:博通 AI ASIC 內部架構圖.18 第 4頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 圖 36:華為昇騰 AI 生態系統架構圖.19 圖 37:2023-2028 年數據中心 AI 算力芯片市場規模及預測情況.19 圖 38:2023-2028 年數據中心 ASIC 定制芯片市場規模及預測情況.19 圖 39:博通累積的定制芯片設計經歷.20 圖 40:博通定制技術能力與 IP 核情況.20 圖 41:TPU 內部架構圖.20 圖 42:在 TPU v5e 和 v6 Trillium 上運行的 steptime 的 Google 基準測試情況.21
16、圖 43:在 TPU v5e 和 v6 Trillium 上進行 SDXL 基準測試情況.21 圖 44:谷歌 TPU 芯片通過 ICI 相互連接.22 圖 45:由 TPU v4 建立的算力集群示意圖.22 圖 46:昇騰計算系統架構框圖.24 圖 47:昇騰計算產業生態圖.24 圖 48:DeepSeek-V3 基本架構圖.25 圖 49:DeepSeek-V3 MTP 應用示意圖.25 圖 50:DeepSeek-V3 FP8 混合精度框架示意圖.26 圖 51:DeepSeek-V3 多項評測成績對標 GPT-4o.26 圖 52:DeepSeek-V3 多項評測成績與其他大模型對比情
17、況.26 圖 53:DeepSeek-R1-Zero 的思考時間持續提升以解決推理任務.27 圖 54:DeepSeek-R1-Zero、R1、蒸餾小模型的開發流程圖.27 圖 55:DeepSeek-R1 多項評測成績對標 OpenAI o1.27 圖 56:DeepSeek-R1 蒸餾 32B 和 70B 模型多項評測成績對標 OpenAI o1-mini.27 圖 57:DeepSeek-V3 模型性價比處于最優范圍.28 圖 58:DeepSeek-R1 與 OpenAI o1 類推理模型 API 定價對比情況(2025 年 1 月 20 日)28 圖 59:2024-2028 年中國
18、 AI 服務器工作負載預測情況.29 圖 60:河南省“一核四極多點”算力產業布局示意圖.30 圖 61:河南空港智算中心示意圖.31 圖 62:算力將賦能千行百業.31 圖 63:超聚變研發中心及總部基地.31 圖 64:超聚變穩居中國服務器市場第二.31 圖 65:龍芯中科中原總部.32 圖 66:聯想沐曦 DeepSeek 一體機.32 表 1:云端、邊緣端、終端應用場景對 AI 算力芯片的算力需求情況.10 表 2:GPU 硬件性能評價參數.13 表 3:英偉達 GeForce 系列 GPU 硬件性能參數對比情況.14 表 4:AI ASIC 與 GPU 性能參數對比情況.18 表 5
19、:谷歌 TPU 歷代產品性能參數情況.21 表 6:近年美國對 AI 算力芯片相關制裁政策情況.22 表 7:部分國產 AI 算力芯片技術指標與國際主流產品對比情況.23 表 8:官宣支持 DeepSeek 模型的國產 AI 芯片企業動態.29 表 9:2021-2024 年河南省人工智能產業部分重要產業政策情況.33 第 5頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 1.AI 算力芯片是算力芯片是“AI 時代的引擎時代的引擎”1.1.大模型持續迭代大模型持續迭代,推動推動全球全球算力需求高速成長算力需求高速成長 ChatGPT 熱潮引發全球科技熱潮引發
20、全球科技企業企業加速加速迭代迭代 AI 大模型大模型。ChatGPT 是由美國初創公司OpenAI 開發、在 2022 年 11 月發布上線的人工智能對話機器人,ChatGPT 標志著自然語言處理和對話 AI 領域的一大步。ChatGPT 上線兩個月后月活躍用戶數突破 1 億,是歷史上用戶增長速度最快的消費級應用程序。ChatGPT 熱潮引發全球科技企業加速布局,谷歌、Meta、百度、阿里巴巴、華為、DeepSeek 等科技企業隨后相繼推出 AI 大模型產品,并持續迭代升級。圖圖 1:全球部分科技全球部分科技企業企業發布大模型產品情況發布大模型產品情況 資料來源:各公司官網,中原證券研究所 G
21、PT-4.5 帶來帶來更自然的更自然的交互體驗交互體驗。2025 年 2 月 27 日,OpenAI 正式發布 AI 大模型 GPT-4.5。作為 OpenAI 迄今為止規模最大、知識最豐富的模型,GPT-4.5 在 GPT-4o 的基礎上進一步擴展了預訓練,與專注于科學、技術、工程和數學(STEM)領域的其他模型不同,GPT-4.5 更全面、更通用。在與人類測試者的對比評估中,GPT-4.5 相較于 GPT-4o 的勝率(人類偏好測試)更高,包括但不限于創造性智能(56.8%)、專業問題(63.2%)以及日常問題(57.0%);GPT-4.5 帶來更自然、更溫暖、更符合人類的交流習慣。GPT
22、-4.5 的知識面更廣,對用戶意圖的理解更精準,情緒智能也有所提升,因此特別適用于寫作、編程和解決實際問題,同時減少了幻覺現象。圖圖 2:GPT-4.5 與人類測試者的對比評估與人類測試者的對比評估情況情況 圖圖 3:GPT-4o SimpleQA 性能對比性能對比情況情況 資料來源:OpenAI 官網,騰訊,中原證券研究所 資料來源:OpenAI 官網,騰訊,中原證券研究所 第 6頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 OpenAI o3 進一步提升復雜推理能力進一步提升復雜推理能力。2024 年 12 月 20 日,OpenAI 發布全新推理大模型
23、 o3,o3 模型在多個標準測試中的表現均優于 o1,進一步提升復雜推理能力,在一些條件下接近通用人工智能(AGI)。在軟件基準測試(SWE-benchVerified)中,o3 的準確率達到了 71.7%,相較 o1 提升超過 20%;在編程競賽(Codeforces)中,o3 的評分達到 2727,接近 OpenAI 頂尖程序員水平;而在數學競賽(AIME)中,o3 的準確率高達 96.7%,遠超 o1的 83.3%;在博士生級別問題測試集(GPQA)中,o3 達到 87.7 分,遠超人類選手的程度;在 ARC-AGI 測試中,o3 首次突破了人類水平的門檻,達到 87.5%。圖圖 4:o
24、3 在在 SWE-benchVerified、Codeforces 測試測試中中表現表現優于優于 o1 圖圖 5:o3 在在 GPQA 測試中大幅優于測試中大幅優于 o1 資料來源:OpenAI 官網,騰訊,中原證券研究所 資料來源:OpenAI 官網,騰訊,中原證券研究所 大模型持續迭代大模型持續迭代,推動算力需求高速推動算力需求高速成長成長。Scaling law 推動大模型持續迭代,根據Epoch AI 的數據,2012-2023 年大模型訓練的算力需求增長近億倍,目前仍然在大模型推動算力需求高速成長的趨勢中。圖圖 6:2012-2023 年各領域重要的機器學習模型訓練算力需求情況年各領
25、域重要的機器學習模型訓練算力需求情況 資料來源:Epoch AI,網易,中原證券研究所 北美四大云廠商受益于北美四大云廠商受益于 AI 對核心業務的推動對核心業務的推動,持續加大資本開支持續加大資本開支。受益于 AI 對于公司核心業務的推動,北美四大云廠商谷歌、微軟、Meta、亞馬遜 2023 年開始持續加大資本開支,2024 年四季度四大云廠商的資本開支合計為 706 億美元,同比增長 69%,環比增長23%。目前北美四大云廠商的資本開支增長主要用于 AI 基礎設施的投資,并從 AI 投資中獲得了積極回報,預計 2025 年仍有望繼續大幅增加資本開支。第 7頁/共 36頁 半導體 本報告版權
26、屬于中原證券股份有限公司請閱讀最后一頁各項聲明 圖圖 7:2020-2024 年北美四大云廠商資本開支情況(億美元)年北美四大云廠商資本開支情況(億美元)資料來源:各公司公告,Wind,中原證券研究所 國內三大互聯網廠商不斷提升資本開支,國內智算中心加速建設國內三大互聯網廠商不斷提升資本開支,國內智算中心加速建設。國內三大互聯網廠商阿里巴巴、百度、騰訊 2023 年也開始不斷加大資本開支,2024 年四季度三大互聯網廠商的資本開支合計為 720 億元,同比增長 259%,環比增長 99%,預計 2025 年國內三大互聯網廠商將繼續加大用于 AI 基礎設施建設的資本開支。根據中國電信研究院發布的
27、智算產業發展研究報告(2024)的數據,截至 2024 年 6 月,中國已建和正在建設的智算中心超 250 個;目前各級政府、運營商、互聯網企業等積極建設智算中心,以滿足國內日益增長的算力需求。圖圖 8:2021-2024 年國內三大互聯網廠商資本開支情況(百萬元)年國內三大互聯網廠商資本開支情況(百萬元)資料來源:各公司公告,中原證券研究所 人工智能進入算力新時代人工智能進入算力新時代,全球算力規模高速增長全球算力規模高速增長。隨著人工智能的快速發展以及 AI 大模型帶來的算力需求爆發,算力已經成為推動數字經濟飛速發展的新引擎,人工智能進入算力新時代,全球算力規模呈現高速增長態勢。根據 ID
28、C、Gartner、TOP500、中國信通院的預測,預計全球算力規模將從 2023 年的 1397 EFLOPS 增長至 2030 年的 16 ZFLOPS,預計2023-2030 年全球算力規模復合增速達 50%。根據 IDC 的數據,2024 年中國智能算力規模為725.3 EFLOPS,預計 2028 年將達到 2781.9 EFLOPS,預計 2023-2028 年中國智能算力規模的復合增速為 46.2%。第 8頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖9:2019-2030年 全 球 算 力 規 模 情 況 及 預 測年 全 球 算 力
29、規 模 情 況 及 預 測(EFLOPS)圖圖 10:2019-2026 年中國智能算力市場規模預測年中國智能算力市場規模預測 資料來源:IDC,Gartner,TOP500,中國信通院,先進計算暨算力發展指數藍皮書(2024 年),中原證券研究所 資料來源:IDC,2025 年中國人工智能計算力發展評估報告,中原證券研究所 1.2.AI 算力芯片是算力的基石算力芯片是算力的基石 AI 服務器是支撐服務器是支撐生成式生成式 AI 應用的核心基礎設施應用的核心基礎設施。人工智能產業鏈一般為三層結構,包括基礎層、技術層和應用層,其中基礎層是人工智能產業的基礎,為人工智能提供數據及算力支撐。服務器一
30、般可分為通用服務器、云計算服務器、邊緣服務器、AI 服務器等類型,AI 服務器專為人工智能訓練和推理應用而設計。大模型興起和生成式 AI 應用顯著提升了對高性能計算資源的需求,AI 服務器是支撐這些復雜人工智能應用的核心基礎設施,AI 服務器的其核心器件包括 CPU、GPU、FPGA、NPU、存儲器等芯片,以及 PCB、高速連接器等。圖圖 11:人工智能系統產業鏈結構圖人工智能系統產業鏈結構圖 圖圖 12:AI 服務器服務器內部內部結構圖結構圖 資料來源:電子工程世界,中原證券研究所 資料來源:McKinsey,中原證券研究所 大模型有望推動大模型有望推動 AI 服務器服務器出貨量高速出貨量高
31、速成長成長。大模型帶來算力的巨量需求,有望進一步推動 AI 服務器市場的增長。根據 IDC 的數據,2024 年全球 AI 服務器市場規模預計為 1251 億美元,2025 年將增至 1587 億美元,2028 年有望達到 2227 億美元,2024-2028 年復合增速達 15.5%,其中生成式 AI 服務器占比將從 2025 年的 29.6%提升至 2028 年的 37.7%。IDC 預計 2024 年中國 AI 服務器市場規模為 190 億美元,2025 年將達 259 億美元,同比增長36.2%,2028 年將達到 552 億美元,2024-2028 年復合增速達 30.6%。第 9頁
32、/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 13:2023-2028 年年全球生成式人工智能和非生成式人工全球生成式人工智能和非生成式人工智能服務器市場規模智能服務器市場規模及及預測預測 圖圖 14:2024-2028 年年中國中國 AI 服務器市場服務器市場規模及規模及預測預測 資料來源:IDC,2025 年中國人工智能計算力發展評估報告,中原證券研究所 資料來源:IDC,2025 年中國人工智能計算力發展評估報告,中原證券研究所 AI 算力算力芯片芯片是算力的基石是算力的基石。CPU+GPU 是目前 AI 服務器主流的異構計算系統方案,根據IDC
33、 2018 年服務器成本構成的數據,推理型和機器學習型服務器中 CPU+GPU 成本占比達到50-82.6%,其中機器學習型服務器 GPU 成本占比達到 72.8%。AI 算力芯片具備強大的并行計算能力,能夠快速處理大規模數據和復雜的神經網絡模型,并實現人工智能訓練與推理任務;AI 算力芯片占 AI 服務器成本主要部分,為 AI 服務器提供算力的底層支撐,是算力的基石。AI 算力芯片作為“AI 時代的引擎”,有望暢享 AI 算力需求爆發浪潮,并推動 AI 技術的快速發展和廣泛應用。圖圖 15:2018 年服務器成本構成情況年服務器成本構成情況 圖圖 16:CPU+GPU 異構計算系統方案異構計
34、算系統方案框圖框圖 資料來源:IDC,智研咨詢,中原證券 資料來源:英偉達,中原證券 2.AI 算力芯片以算力芯片以 GPU 為主流為主流,定制,定制 ASIC 芯片市場高速芯片市場高速成長成長 2.1.AI 算力芯片算力芯片可應用于可應用于云端、邊緣端、終端云端、邊緣端、終端,當前以,當前以 GPU 為主流為主流 混合混合 AI 是是 AI 的發展趨勢的發展趨勢。AI訓練和推理受限于大型復雜模型而在云端部署,而 AI 推理的規模遠高于 AI 訓練,在云端進行推理的成本極高,將影響規?;瘮U展。隨著生成式 AI 的快速發展以及計算需求的日益增長,AI 處理必須分布在云端和終端進行,才能實現 AI
35、 的規?;瘮U展并發揮其最大潛能?;旌?AI 指終端和云端協同工作,在適當的場景和時間下分配 AI 計算的工作負載,以提供更好的體驗,并高效利用資源;在一些場景下,計算將主要以終端為中第 10 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 心,在必要時向云端分流任務;而在以云為中心的場景下,終端將根據自身能力,在可能的情況下從云端分擔一些 AI 工作負載。與僅在云端進行處理不同,混合 AI 架構在云端和邊緣終端之間分配并協調 AI 工作負載;云端和邊緣終端如智能手機、汽車、個人電腦和物聯網終端協同工作,能夠實現更強大、更高效且高度優化的 AI。圖圖 17:AI
36、 處理的重心正在處理的重心正在從云端從云端向邊緣轉移向邊緣轉移 資料來源:高通,中原證券研究所 AI 算算力力芯片按應用場景可分為芯片按應用場景可分為云端云端、邊緣端邊緣端、終端終端 AI 算力算力芯片芯片。人工智能的各類應用場景,從云端溢出到邊緣端,或下沉到終端,都需要由 AI 算力芯片提供計算能力支撐。云端、邊緣端、終端三種場景對于 AI 算力芯片的運算能力和功耗等特性有著不同要求,云端 AI 算力芯片承載處理海量數據和計算任務,需要高性能、高計算密度,對于算力要求最高;終端對低功耗、高能效有更高要求,通常對算力要求相對偏低;邊緣端對功耗、性能的要求通常介于終端與云端之間;本文主要針對于云
37、端 AI 算力芯片。表表 1:云端、云端、邊緣端、邊緣端、終端終端應用場景對應用場景對 AI 算力芯片的算力芯片的算力需求情況算力需求情況 應用場景應用場景 芯片需求芯片需求 典型計算能力典型計算能力 典型功典型功耗耗 典型應用領域典型應用領域 云端 高性能、高計算密度、兼有推理和訓練任務、單價高、硬件產品形態少 30TOPS 50 瓦 云計算數據中心、企業私有云等 邊緣端 對功耗、性能、尺寸的要求常介于終端與云端之間、推理任務為主、多用于插電設備、硬件產品形態相對較少 5TOPS 至30TOPS 4 瓦 至15 瓦 智能制造、智能家居、智能零售、智慧交通、智慧金融、智慧醫療、智能駕駛等領域
38、終端 低功耗、高能效、推理任務為主、成本敏感、硬件產品形態眾多 8TOPS 5 瓦 各類消費類電子、物聯網 產品 資料來源:寒武紀招股說明書,中原證券 根據芯片的設計方法及應用,根據芯片的設計方法及應用,AI 算力芯片算力芯片可可分為通用分為通用型型 AI 芯片和專用型芯片和專用型 AI 芯片芯片。通用型 AI 芯片為實現通用任務設計的芯片,主要包括 CPU、GPU、FPGA 等;專用型 AI 芯片是專門針對人工智能領域設計的芯片,主要包括 TPU(Tensor Processing Unit)、NPU(Neural Network Processing Unit)、ASIC 等。在通用型 A
39、I 芯片中,由于在計算架構和性能特點上的不同,CPU 適合處理邏輯復雜、順序性強的串行任務;GPU 是為圖形渲染和并行計算設計的處理器,具有大量的計算核心,適合處理大規模并行任務;FPGA 通過集成大量的可重構邏輯單元陣列,可支持硬件架構的重構,從而靈活支持不同的人工智能模型。專用型 AI第 11 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 芯片是針對面向特定的、具體的、相對單一的人工智能應用專門設計的芯片,其架構和指令集針對人工智能領域中的各類算法和應用作了專門優化,具體實現方法為在架構層面對特定智能算法作硬化支持,可高效支持視覺、語音、自然語言處理和
40、傳統機器學習等智能處理任務。圖圖 18:英偉達英偉達 A100 GPU 內部架構圖內部架構圖 圖圖 19:谷歌谷歌 TPU 內部架構圖內部架構圖 資料來源:英偉達,中原證券研究所 資料來源:半導體行業觀察,中原證券研究所 當前當前 AI 算力芯片以算力芯片以 GPU 為主流為主流,英偉達主導全球,英偉達主導全球 AI 算力芯片市場算力芯片市場。根據的 IDC 數據,2024 上半年,中國 AI 加速芯片的市場規模達超過 90 萬張;從技術角度來看,GPU 卡占據80%的市場份額。根據 Precedence Research 數據,2022 年英偉達占據全球 AI 芯片市場份額超過 80%,其中
41、英偉達占全球 AI 服務器加速芯片市場份額超過 95%。圖圖 20:2024 年上半年中國年上半年中國 AI 芯片市場份額情況芯片市場份額情況 資料來源:IDC,中原證券研究所 AI 算力芯片產業鏈算力芯片產業鏈包括包括人工智能人工智能算法、芯片設計、芯片制造及下游應用環節算法、芯片設計、芯片制造及下游應用環節。人工智能芯片產業鏈上游主要是人工智能算法以及芯片設計工具,人工智能算法覆蓋廣泛,包括視覺算法、語音處理算法、自然語言處理算法以及各類機器學習方法(如深度學習等)。AI 算力芯片行業的核心為芯片設計和芯片制造,芯片設計工具廠商、晶圓代工廠商與封裝測試廠商為 AI算力芯片提供了研發工具和產
42、業支撐。AI 算力芯片行業的下游應用場景主要包括云計算與數據中心、邊緣計算、消費類電子、智能制造、智能駕駛、智慧金融、智能教育等領域。第 12 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 圖圖 21:AI 算力算力芯片芯片產產業鏈業鏈結構圖結構圖 資料來源:寒武紀招股說明書,中原證券研究所 2.2.英偉達主導全球英偉達主導全球 GPU 市場市場,GPU 生態體系建立極高的行業壁壘生態體系建立極高的行業壁壘 GPU(Graphics Processing Unit)即即圖形處理單元,圖形處理單元,是是計算機的計算機的圖形圖形處理處理及及并行計算并行計算的核心
43、的核心。GPU 最初主要應用于加速圖形渲染,如 3D 渲染、圖像處理和視頻解碼等,是計算機顯卡的核心;隨著技術的發展,GPU 也被廣泛應用于通用計算領域,如人工智能、深度學習、科學計算、大數據處理等領域,用于通用計算的 GPU 被稱為 GPGPU(General-Purpose computing on Graphics Processing Units),即通用 GPU。GPU 與與 CPU 在內部架構上有顯著差異,決定了它們各自的優勢領域在內部架構上有顯著差異,決定了它們各自的優勢領域。GPU 通過大量簡單核心和高帶寬內存架構,優化并行計算能力,適合處理大規模數據和高吞吐量任務;CPU通過
44、少量高性能核心和復雜控制單元優化單線程性能,適合復雜任務和低延遲需求。圖圖 22:GPU 與與 CPU 內部架構對比圖內部架構對比圖 資料來源:英偉達,OneFlow,中原證券研究所 GPU 架構由流處理器(架構由流處理器(SM)、光柵操作單元、紋理單元、專用加速單元等多個關)、光柵操作單元、紋理單元、專用加速單元等多個關鍵組件鍵組件組成,這些組件協同工作,以實現高效的通用計算和圖形渲染組成,這些組件協同工作,以實現高效的通用計算和圖形渲染。GPU 的計算架構由一系列流式多處理器(SM)組成,其中每個 SM 又由多個流式處理器、核心或線程組成,例如,NVIDIA H100 GPU 具有 132
45、 個 SM,每個 SM 擁有 64 個核心,總計核心高達 8448 個;每個SM 還配備了幾個功能單元或其他加速計算單元,例如張量核心(Tensor Core)或光線追蹤單元(Ray Tracing Unit),用于滿足 GPU 所處理的工作負載的特定計算需求。GPU 具有多層不同類型的內存,每一層都有其特定用途。第 13 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 23:GPU 的計算架構的計算架構 圖圖 24:GPU 的的內存架構內存架構 資料來源:OneFlow,中原證券研究所 資料來源:OneFlow,中原證券研究所 GPU 硬件性能硬件性
46、能可以可以通過通過多個多個參數參數綜合評估綜合評估,包括,包括核心數量、核心數量、核心頻率、核心頻率、顯存容量、顯存顯存容量、顯存位寬、顯存帶寬、位寬、顯存帶寬、顯存頻率、工藝顯存頻率、工藝制程制程等等。GPU 的核心數量越多、核心頻率越高,GPU 的計算能力越強。顯存容量越大,GPU 能夠處理的數據規模就越大;顯存帶寬越高,GPU 顯存與核心之間數據傳輸的速率越快。GPU 的工藝制程越先進,GPU 性能越好、功耗越低。表表 2:GPU 硬件性能評價參數硬件性能評價參數 性能參數性能參數 含義 CUDA 核心數量 CUDA 核心是英偉達 GPU 中用于進行通用計算的處理單元,數量越多,GPU
47、并行處理數據的能力就越強。Tensor 核心數量 Tensor 核心是英偉達 GPU 中的專用硬件單元,主要用于加速 AI 和深度學習任務;Tensor 核心數量越多性能越好,Tensor 核心的性能隨著架構升級而不斷提升;Tensor 核心的性能優勢可以通過高吞吐量、混合精度支持及性能等方面來體現。核心頻率 核心頻率是指 GPU 每秒鐘執行的次數,核心頻率越高,性能越強。顯存容量 顯存容量決定著顯存臨時存儲數據的多少,顯存容量越大,GPU 能夠處理的數據規模就越大。顯存帶寬 顯存帶寬是指 GPU 顯存與核心之間數據傳輸的速率,它反映了 GPU 在單位時間內能夠處理的數據量。顯存帶寬顯存頻率顯
48、存位寬/8,顯存帶寬與顯存頻率、顯存位寬成正比關系。顯存位寬 顯存位寬是指 GPU 顯存接口的數據傳輸通道的寬度,通常以 bit(位)為單位。顯存位寬越大,GPU 與顯存之間每次可以傳輸的數據量越多,顯存帶寬越高。顯存頻率 顯存頻率是指顯存在單位時間內能夠進行數據傳輸的次數,通常以 MHz 為單位,顯存頻率決定了顯存與 GPU 之間數據傳輸的速度。工藝制程 工藝制程是指在制造 GPU 芯片時所采用的技術工藝和制造流程,通常用納米(nm)來衡量,工藝制程越先進,GPU 性能越好、功耗越低。資料來源:平行云,華秋商城,中原證券研究所 GPU 架構對性能影響至關重要,架構對性能影響至關重要,不同架構
49、下的硬件性能參數有所不同不同架構下的硬件性能參數有所不同。GPU 架構的每次升級在計算能力、圖形處理能力、能效比等多方面對性能產生了顯著提升,所以 GPU 架構對性能影響至關重要。通過對比英偉達 GeForce 系列 RTX 3090、RTX 4090、RTX 5090,不同 GPU 架構下硬件性能參數有所不同。隨著 GPU 架構的升級,GPU 廠商通常會采用更先進的工藝制程,比如英偉達從 8nm 工藝的 Ampere 架構升級到 4nm 工藝的 Blackwell 架構,在相同性能下,新工藝能夠降低功耗,或者在相同功耗下提供更高的性能。第 14 頁/共 36頁 半導體 本報告版權屬于中原證券
50、股份有限公司 請閱讀最后一頁各項聲明 表表 3:英偉達:英偉達 GeForce 系列系列 GPU 硬件性能參數對比情況硬件性能參數對比情況 RTX 3090 RTX 4090 RTX 5090 GPU 架構 NVIDIA Ampere NVIDIA Ada Lovelac NVIDIA Blackwell CUDA 核心數量 10496 16384 21760 Tensor 核心數量 328 512 680 核心頻率 1.70 GHz 2.52 GHz 2.41 GHz 顯存容量 24 GB 24 GB 32 GB 顯存帶寬 936 GB/s 1008 GB/s 1792 GB/s 顯存位寬
51、384 bit 384 bit 512 bit 顯存頻率 19.5 Gbps 21 Gbps 28 Gbps 工藝制程 Samsung 8 nm 8N TSMC 4nm 4N TSMC 4nm 4N 資料來源:英偉達,中原證券研究所 多多 GPU 互連成為行業發展趨勢,以提高系統的計算能力互連成為行業發展趨勢,以提高系統的計算能力。隨著 AI 大模型時代來臨,AI算力需求不斷增長,由于單 GPU 芯片算力和內存有限,無法承載大模型的訓練任務,通過多種互連技術將多顆 GPU 芯片互連在一起提供大規模的算力,已成為行業發展趨勢。對于多GPU 系統,如何實現 GPU 之間的高速數據傳輸和協同工作是關
52、鍵問題。英偉達推出NVLink、NVSwitch 等互連技術,通過更高的帶寬和更低的延遲,為多 GPU 系統提供更高的性能和效率,支持 GPU 之間的高速數據傳輸和協同工作,提高通信速度,加速計算過程等。NVLink 用于連接多個 GPU 之間或連接 GPU 與其他設備(如 CPU、內存等)之間的通信,它允許 GPU 之間以點對點方式進行通信,具有比傳統的 PCIe 總線更高的帶寬和更低的延遲。NVSwitch 實現單服務器中多個 GPU 之間的全連接,允許單個服務器節點中多達 16 個GPU 實現全互聯,每個 GPU 都可以與其他 GPU 直接通信,無需通過 CPU 或其他中介。經過多年演進
53、,NVLink 技術已升級到第 5 代,NVLink 5.0 數據傳輸速率達到 100GB/s,每個Blackwell GPU 有 18 個 NVLink 連接,Blackwell GPU 將提供 1.8TB/s 的總帶寬,是 PCIe Gen5 總線帶寬的 14 倍;NVSwitch 也升級到了第四代,每個 NVSwitch 支持 144 個 NVLink 端口,無阻塞交換容量為 14.4TB/s。圖圖 25:英偉達多:英偉達多 GPU 系統架構圖系統架構圖 圖圖 26:英偉達英偉達 NVLink 技術演進技術演進情況情況 資料來源:nextplatform,半導體行業觀察,中原證券研究所
54、資料來源:英偉達,半導體行業觀察,中原證券研究所 GPU 應用場應用場景廣泛,景廣泛,數據中心數據中心 GPU 市場快速增長市場快速增長。GPU 最初設計用于圖形渲染,但隨著其并行計算能力的提升,GPU 的應用場景已經擴展到數據中心、自動駕駛、機器人、區塊鏈與加密貨幣、科學計算、金融科技、醫療健康等多個領域。近年來數據中心 GPU 市場在全球范圍內呈現出快速增長的趨勢,尤其是在人工智能、高性能計算和云計算等領域。第 15 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 圖圖 27:GPU 應用場景廣泛應用場景廣泛 資料來源:極云科技,中國算力發展報告(2024
55、 年),中原證券研究所 GPU 是是 AI 服務器服務器算力的基石算力的基石,有望暢享有望暢享 AI 算力需求爆發浪潮算力需求爆發浪潮。GPU 是 AI 服務器算力的基石,隨著 AI 算力規模的快速增長將催生更大的 GPU 芯片需求。根據 Statista 的數據,2023 年全球 GPU 市場規模為 436 億美元,預計 2029 年市場規模將達到 2742 億美元,預計2024-2029 年復合增速達 33.2%。圖圖 28:2023-2029 全球全球 GPU 市場規模情況及預測市場規模情況及預測(億美元)(億美元)資料來源:Statista,半導體行業觀察,中原證券研究所 英偉達主導全
56、球英偉達主導全球 GPU 市場市場。根據 TechInsights 的數據,2023 年全球數據中心 GPU 總出貨量達到了 385 萬顆,相比 2022 年的 267 萬顆同比增長 44.2%,其中英偉達數據中心 2023 年 GPU 出貨量呈現爆發式增長,總計約 376 萬臺,英偉達在數據中心 GPU 出貨量中占據98%的市場份額,英偉達還占據全球數據中心 GPU 市場 98%的收入份額,達到 362 億美元,是 2022 年 109 億美元的三倍多。根據 Jon Peddie Research 的數據,2024 年第四季度全球 PC GPU 出貨量達到 7800 萬顆,同比增長 0.8%
57、,環比增長 6.2%,其中英特爾、AMD、英偉達的市場份額分別為 65%、18%、16%。第 16 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 29:2023 年年全球數據中心全球數據中心 GPU 市場市場競爭格局情況競爭格局情況 圖圖 30:24Q4 全球全球 PC GPU 市場市場競爭格局情況競爭格局情況 資料來源:TechInsights,半導體行業觀察,中原證券研究所 資料來源:Jon Peddie Research,快科技,中原證券研究所 GPU 生態體系生態體系主要主要由由三部分構成,包括三部分構成,包括底層硬件底層硬件,中間層中間層
58、API 接口、接口、算法庫、開發工具算法庫、開發工具等,上層應用等,上層應用。以英偉達數據中心平臺 GPU 生態體系為例,底層硬件的核心是英偉達的 GPU 產品、用于 GPU 之間高速連接的 NVSwitch、節點之間互聯的各種高速網卡、交換機等,以及基于 GPU 構建的服務器;中間層是軟件層面的建設,包括計算相關的 CUDA-X、網絡存儲及安全相關的 DOCA 和 MAGNUM IO 加速庫,以及編譯器、調試和優化工具等開發者工具包和基于各種行業的應用框架;上層是開發者基于英偉達提供的軟硬件平臺能力,所構建的行業應用。圖圖 31:英偉達英偉達數據中心平臺數據中心平臺 GPU 生態生態體系體系
59、架構圖架構圖 資料來源:英偉達,infoQ,中原證券研究所 GPU 廠商非常重視軟件生態系統的構建,廠商非常重視軟件生態系統的構建,英偉達英偉達 CUDA 生態幾乎占據通用計算生態幾乎占據通用計算 GPU 領領域的全部市場域的全部市場。CUDA 全稱為 Compute Unified Device Architecture,即統一計算設備架構,是英偉達推出的基于其 GPU 的通用高性能計算平臺和編程模型。目前 CUDA 生態包括編程語言和 API、開發庫、分析和調試工具、GPU 加速應用程序、GPU 與 CUDA 架構鏈接、數據中心工具和集群管理六個部分。編程語言和 API 支持 C、C+、F
60、ortran、Python 等多種高級編程語言;英偉達提供的 CUDA 工具包可用于在 GPU 上開發、優化和部署應用程序,還支持第三方工具鏈,如 PyCUDA、AltiMesh Hybridizer、OpenACC、OpenCL、Alea-GPU 等,方便開發者從不同的編程接口來使用 CUDA。英偉達在 CUDA 平臺上提供了 CUDA-X,它是一系列庫、工具和技術的集合,其中包括數學庫、并行算法庫、圖像和視頻庫、通信庫、深度學習庫等,同時還支持 OpenCV、FFmpeg 等合作伙伴提供的庫。英偉達提供了多種工具來幫助開發者進行性能分析和調試,NVIDIA Nsight 是低開銷的性能分析
61、、跟蹤和調試工具,提第 17 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 供基于圖形用戶界面的環境,可在多種英偉達平臺上使用;CUDA GDB 是 Linux GDB 的擴展,提供基于控制臺的調試接口;CUDA-Memcheck 可用于檢查內存訪問問題;此外還支持第三方解決方案,如 ARM Forge、TotalView Debugger 等。目前幾乎所有的深度學習框架都使用 CUDA/GPU 計算來加速深度學習的訓練和推理,英偉達維護了大量經過 GPU 加速的應用程序。在數據中心中,英偉達與生態系統合作伙伴緊密合作,為開發者和運維人員提供軟件工具,涵蓋
62、 AI 和高性能計算軟件生命周期的各個環節,以實現數據中心的輕松部署、管理和運行;例如通過 Mellanox 高速互連技術,可將數千個 GPU 連接起來,構建大規模的計算集群。CUDA 生態系統復雜,建設難度大,CUDA 生態幾乎占據通用計算 GPU 領域的全部市場。圖圖 32:英偉達:英偉達 CUDA 生態生態系統系統的組成的組成 資料來源:英偉達,中原證券研究所 GPU 生態體系建立極高的行業壁壘生態體系建立極高的行業壁壘。GPU 一方面有對硬件性能的要求,還需要軟件體系進行配套,而 GPU 軟件生態系統復雜,建設周期長、難度大。英偉達 CUDA 生態從 2006 年開始建設,經過多年的積
63、累,建立強大的先發優勢,英偉達通過與客戶進行平臺適配、軟件開源合作,不斷加強客戶粘性,GPU 行業新進入者轉移客戶的難度極大,GPU 生態體系建立極高的行業壁壘。圖圖 33:英偉達:英偉達 CUDA 加速計算解決方案加速計算解決方案 資料來源:英偉達,半導體行業研究,中原證券研究所 第 18 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 2.3.云廠商推動定制云廠商推動定制 ASIC 芯片市場高速芯片市場高速成長成長 AI ASIC 是一種專為人工智能應用設計的定制集成電路是一種專為人工智能應用設計的定制集成電路,具有高性能、低功耗、定制具有高性能、低功耗、
64、定制化、低成本等特點化、低成本等特點。與通用處理器相比,AI ASIC 針對特定的 AI 任務和算法進行了優化,如深度學習中的矩陣乘法、卷積等運算,能在短時間內完成大量計算任務,提供高吞吐量和低延遲,滿足 AI 應用對實時性的要求;AI ASIC 通過優化電路設計和采用先進的工藝技術,減少不必要的能耗,在處理 AI 工作負載時具有較高的能效比,適合大規模數據中心等對能耗敏感的場景;雖然前期研發和設計成本較高,在大規模部署時,ASIC 的單位計算成本通常低于通用處理器。圖圖 34:Marvell 用于數據中心的用于數據中心的 ASIC 解決方案解決方案 圖圖 35:博通:博通 AI ASIC 內
65、部架構圖內部架構圖 資料來源:Marvell,中原證券研究所 資料來源:博通,中原證券研究所 AI ASIC 與與 GPU 在在 AI 計算任務中各有優勢和劣勢計算任務中各有優勢和劣勢。在算力上,先進 GPU 比 ASIC 有明顯的優勢;ASIC 針對特定任務優化,通常能提供更高的計算效率,ASIC 在矩陣乘法、卷積運算等特定 AI 任務上性能可能優于 GPU;GPU 通用性強,能夠運行各種不同類型的算法和模型,ASIC 功能固定,難以修改和擴展,靈活性較差;ASIC 針對特定任務優化,功耗顯著低于 GPU;GPU 研發和制造成本較高,硬件成本是大規模部署的重要制約因素,ASIC 在大規模量產
66、時單位成本相對較低。表表 4:AI ASIC 與與 GPU 性能參數性能參數對比情況對比情況 廠商廠商 產品型號產品型號 發布發布時間時間 工藝工藝 核心數核心數量量 FP32 算力算力 TF32 算力算力 FP/BF16 算力算力 INT8 算力算力 顯存顯存容量容量 顯存顯存 帶寬帶寬 芯片芯片間互間互聯帶寬聯帶寬 功功耗耗 nm TFLOPS TFLOPS TFLOPS TOPS GB GB/s GB/s W 英偉達 H100 SXM 2022 4 16896 67 989 1979 3958 80 3350 900 700 英偉達 GB200 2024 4 20480 180 5000
67、 10000 20000 384 16000 3600 AMD MI250X 2021 6 14080 95.7 383 383 128 3200 800 560 AMD MI300X 2023 5/6 19456 163.4 653.7 1307.4 2614.9 192 5300 896 750 谷歌 TPU v5p 2023 5 459 918 1200 谷歌 TPU v6 Trillium 2024 4 926 1852 亞馬遜 Trainium2 2023 181 667 1280 Meta MTIA v2 2024 5 354 708 90 微軟 Maia 100 2024 5 8
68、00 1600 700 資料來源:各公司官網,STH,The Next Platform,中原證券研究所 GPU 軟件生態成熟且豐富軟件生態成熟且豐富,AI ASIC 推動軟件生態走向多元化推動軟件生態走向多元化。ASIC 的軟件生態缺乏通用性,主要是對特定應用場景和算法進行優化;由于 ASIC 的開發工具和軟件庫資源相對較第 19 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 少,編程難度比 GPU 大,開發者在使用 ASIC 進行開發和調試時所需要花費時間會更多。GPU 的軟件生態成熟且豐富,如英偉達 CUDA 和 AMD ROCm 等,提供了廣泛的開
69、發工具、編程語言支持,并擁有大量的開源項目和社區資源。為了提升 AI ASIC 在特定場景下的計算效率,谷歌、亞馬遜、META、微軟等廠商為 ASIC 開發了配套的全棧軟件生態,包括編譯器、底層中間件等,持續降低從 CUDA 生態向其他生態轉換的遷移成本,以減輕對 CUDA 生態的依賴性。圖圖 36:華為昇騰:華為昇騰 AI 生態系統架構圖生態系統架構圖 資料來源:華為,搜狐,中原證券研究所 云廠商云廠商推動推動數據中心數據中心定制定制 ASIC 芯片市場高速增長芯片市場高速增長,預計增速快于通用預計增速快于通用 AI 算力芯片算力芯片。由于全球頭部云廠商對 AI 算力芯片需求量巨大,英偉達壟
70、斷全球數據中心 GPU 市場,過度依賴單一供應商風險較大,為了提升議價能力及供應鏈多元化,云廠商大力投入自研 AI ASIC,推動數據中心定制 ASIC 芯片市場高速增長。根據 Marvell 的數據,2023 年數據中心 AI 算力芯片市場規模約為 420 億美元,其中定制 ASIC 芯片占比 16%,市場規模約為 66 億美元;預計 2028 年數據中心定制 ASIC 芯片市場規模將達到 429 億美元,市場份額約為 25%,2023-2028 年復合增速將達到 45%;預計 2028 年數據中心 AI 算力芯片市場規模將達約 1720 億美元,2023-2028 年復合增速約為 32%。
71、圖圖 37:2023-2028 年數據中心年數據中心 AI 算力芯片市場規模及預測算力芯片市場規模及預測情況情況 圖圖 38:2023-2028 年數據中心年數據中心 ASIC 定制芯片市場規模及預定制芯片市場規模及預測情況測情況 資料來源:650 Group,CignalAI,DellOro,LightCounting,Marvell,半導體行業觀察,中原證券研究所 資料來源:650 Group,CignalAI,DellOro,LightCounting,Marvell,半導體行業觀察,中原證券研究所 第 20 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項
72、聲明 云廠商自研云廠商自研 AI ASIC 芯片時,芯片時,通常會與芯片通常會與芯片設計設計廠商合作,然后再由臺積電等晶圓代工廠商合作,然后再由臺積電等晶圓代工廠進行芯片制造,目前全球定制廠進行芯片制造,目前全球定制 AI ASIC 市場競爭格局以博通、市場競爭格局以博通、Marvell 等等廠商廠商為主為主。博通為全球定制 AI ASIC 市場領導廠商,已經為大客戶實現 AI ASIC 大規模量產。博通在多年的發展中已經積累了大量的成體系的高性能計算/互連 IP 核及相關技術,除了傳統的 CPU/DSP IP 核外,博通還具有交換、互連接口、存儲接口等關鍵 IP 核;這些成體系的 IP 核可
73、以幫助博通降低 ASIC 產品成本和研發周期,以及降低不同 IP 核聯合使用的設計風險,并建立博通強大的競爭優勢。博通 2024 財年 AI 收入達到 120 億美元,公司 CEO 表示,到 2027 年,公司在 AI 芯片和網絡組件的市場規模將達到 600 億到 900 億美元。圖圖 39:博通累積的定制芯片設計經歷博通累積的定制芯片設計經歷 圖圖 40:博通定制技術能力與博通定制技術能力與 IP 核核情況情況 資料來源:博通,半導體產業縱橫,中原證券研究所 資料來源:博通,半導體產業縱橫,中原證券研究所 谷歌谷歌 TPU(Tensor Processing Unit)即張量處理單元,是谷歌
74、專為加速機器學習任務)即張量處理單元,是谷歌專為加速機器學習任務設計的定制設計的定制 ASIC 芯片,主要用于深度學習的訓練和推理芯片,主要用于深度學習的訓練和推理。TPU 基本上是專門用于矩陣乘法的計算核心,并與高帶寬內存(HBM)連接;TPU 的基本組件包括矩陣乘法單元(MXU)、矢量單元(VPU)和矢量內存(VMEM);矩陣乘法單元是 TensorCore 的核心,矢量處理單元執行一般數學運算,矢量內存是位于 TensorCore 中靠近計算單元的片上暫存器;TPU 在進行矩陣乘法方面速度非???。圖圖 41:TPU 內部內部架構圖架構圖 資料來源:半導體行業觀察,中原證券研究所 目前谷歌
75、目前谷歌 TPU 已經迭代至第六代產品,每代產品相較于上一代在芯片架構及性能上均有已經迭代至第六代產品,每代產品相較于上一代在芯片架構及性能上均有一定的提升一定的提升。2015 年谷歌 TPU v1 推出,主要用于推理任務。2024 年谷歌發布第六代產品TPU v6 Trillium,是目前性能最強、能效最高的 TPU。TPU v6 Trillium 與上一代 TPU v5e 相比,單芯片峰值計算性能提高了 4.7 倍,HBM 容量和帶寬均增加一倍,同時芯片間互連帶寬也增加一倍;TPU v6 Trillium 在性能提升的同時,能源效率比上一代提高了 67%,顯著降低第 21 頁/共 36頁
76、半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 了運營成本;TPU v6 Trillium 被用于訓練谷歌的 Gemini 2.0 等 AI 大模型。表表 5:谷歌:谷歌 TPU 歷代產品性能參數歷代產品性能參數情況情況 v1 v2 v3 v4 v5e v5p v6 Trillium 發布時間 2015 2017 2018 2021 2023 2023 2024 BF16 算力(TFLOPs)-46 123 137.5 197 459 926 INT8 算力(TFLOPs)92-275 394 918 1852 HBM 容量(GB)8 16 32 32 16 95 32 H
77、BM 帶寬(GB/s)300 700 900 1228 819 2765 1640 ICI 帶寬(GB/s)-4*496 4*656 6*448 4*400 6*800 4*800 工藝制程(nm)28 16 16 7 5 5 4 資料來源:Next Platform,中原證券研究所 谷歌谷歌 TPU 迭代推動大模型訓練與推理效率大幅提升迭代推動大模型訓練與推理效率大幅提升。Gemini 等 AI 大模型性能強大且復雜,擁有數十億個參數,訓練如此密集的大模型 需要巨大的計算能力以及共同設計的軟件優化。與上一代 TPU v5e 相比,TPU v6 Trillium 為 Llama-2-70b 和
78、 gpt3-175b 等大模型提供了高達 4 倍的訓練速度。TPU v6 Trillium 為推理工作負載提供了重大改進,為圖像擴散和大模型 提供了最好的 TPU 推理性能,從而實現了更快、更高效的 AI 模型部署;與 TPU v5e 相比,TPU v6 Trillium 的 Stable Diffusion XL 離線推理相對吞吐量(每秒圖像數)高出 3.1 倍,服務器推理相對吞吐量高出 2.9 倍。圖圖 42:在在 TPU v5e 和和 v6 Trillium 上運行的上運行的 steptime 的的 Google 基準測試基準測試情況情況 圖圖 43:在在 TPU v5e 和和 v6 T
79、rillium 上進行上進行 SDXL 基準測試基準測試情情況況 資料來源:谷歌,半導體行業觀察,中原證券研究所 資料來源:谷歌,半導體行業觀察,中原證券研究所 谷歌已建立谷歌已建立 100000 TPU 芯片芯片算力算力集群集群。TPU 芯片通過 ICI 連接成算力集群,TPU 網絡可以連接 16x16x16 TPU v4 和 16x20 x28TPU v5p。為了滿足日益增長的 AI 計算需求,谷歌已將超過 100000 個 TPU v6 Trillium 芯片連接到一個網絡結構中,構建了世界上最強大的 AI 超級計算機之一;該系統將超過 100000 個 TPU v6 Trillium
80、芯片與每秒 13 PB 帶寬的 Jupiter 網絡結構相結合,使單個分布式訓練作業能夠擴展到數十萬個加速器上。這種大規模芯片集群可以提供強大的計算能力,實現高效的并行計算,從而加速大模型的訓練過程,提高人工智能系統的性能和效率。第 22 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 44:谷歌谷歌 TPU 芯片通過芯片通過 ICI 相互連接相互連接 圖圖 45:由:由 TPU v4 建立的建立的算力集群算力集群示意圖示意圖 資料來源:半導體行業觀察,中原證券研究所 資料來源:半導體行業觀察,中原證券研究所 2.4.美國美國不斷加大對不斷加大對高端高
81、端 AI 算力芯片算力芯片出口管制出口管制,國產廠商迎來黃金發展期,國產廠商迎來黃金發展期 美國對高端美國對高端 GPU 供應限制不斷趨嚴,國產供應限制不斷趨嚴,國產 AI 算力芯片廠商迎來黃金發展期。算力芯片廠商迎來黃金發展期。美國商務部在 2022、2023、2025 年連續對高端 AI 算力芯片進行出口管制,不斷加大英偉達及 AMD高端 GPU 芯片供應限制,國產 AI 算力芯片廠商迎來黃金發展機遇,但國產廠商華為海思、寒武紀、海光信息、壁仞科技和摩爾線程等進入出口管制“實體清單”,晶圓代工產能供應受限,影響國產 AI 算力芯片發展速度。表表 6:近年:近年美國對美國對 AI 算力芯片相
82、關算力芯片相關制裁政策情況制裁政策情況 時間時間 具體事件及制裁政策情況具體事件及制裁政策情況 2022 年 8 月 美國芯片廠商英偉達和 AMD 收到美國政府通知,要求停止向中國出口用于人工智能的高端計算芯片,該禁令影響的芯片分別為英偉達的 GPU A100 與 H100,以及 AMD 的 GPU MI200。2022 年 10 月 美國商務部公布一系列針對中國的出口管制新規,BIS 這項新的半導體出口限制政策涉及到對中國的先進計算、半導體先進制造進行出口管制;具體要限制美國的半導體設備在國內應用到 16/14nm 及以下工藝節點(非平面架構)的邏輯電路制造、128 層及以上的 3D NAN
83、D 工藝制造、18nm 及以下的 DRAM工藝制造;對中國超級計算機或半導體開發或生產最終用途的項目進行限制;限制美國公民支持中國半導體制造或者研發。2022 年 12 月 美國商務部將長江存儲、上海微電子、寒武紀等 36 家中國實體加入出口管制“實體清單”。2023 年 10 月 美國商務部公布針對先進計算芯片、半導體制造設備出口管制的更新規則,并將 13 家中國 GPU 企業列入實體清單,主要為壁仞科技和摩爾線程及其子公司。2025 年 1 月 美國政府公布對 AI 芯片出口的新限制措施,這份新規將出口目的地分為三類,美國對 18 個關鍵盟友與合作伙伴的芯片銷售無任何限制;對中國、伊朗等實
84、施了嚴格的 AI 芯片銷售限制;對其他國家,大多數國家則將面臨總算力限制,每個國家在 2025 年至 2027 年期間最多可獲得約 5 萬個 AI GPU。2025 年 1 月 美國商務部修訂了出口管制條例,共增加了 25 個中國實體,主要包括智譜旗下 10 個實體、算能旗下約 11 個實體,以及哈勃投資的光刻機企業科益虹源等;BIS 還更新先進計算半導體的出口管制,針對于先進邏輯集成電路是采用“16nm/14nm 節點”及以下工藝、或采用非平面晶體管架構生產的邏輯集成電路,采取更多審查和規范,并且細化了多個物項信息如 DRAM 行業 18 納米半間距節點的生產標準等。資料來源:中華人民共和國
85、商務部官網,美國商務部官網,美國政府官網,人民網,央視網,芯智訊,半導體產業縱橫,騰訊,新浪,中原證券研究所 國產國產 AI 算力芯片算力芯片廠商不斷追趕廠商不斷追趕海外龍頭廠商海外龍頭廠商,但,但在硬件性能上與全球領先水平仍有一定在硬件性能上與全球領先水平仍有一定的差距的差距。隨著 AI 應用計算量的不斷增加,要實現 AI 算力的持續大幅增長,既要單卡性能提升,又要多卡組合。從 AI 算力芯片硬件來看,單個芯片硬件性能及卡間互聯性能是評估 AI 算力芯片產品水平的核心指標。國產廠商在芯片微架構、制程等方面不斷追趕海外龍頭廠商,產品性能逐步提升,但與全球領先水平仍有 1-2 代的差距。第 23
86、 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 表表 7:部分國產:部分國產 AI 算力芯片技術指標與國際主流產品對比情況算力芯片技術指標與國際主流產品對比情況 廠商 產品型號 發布時間 工藝 核心數量 FP32 算力 TF32 算力 FP/BF16 算力 INT8 算力 顯存容量 顯存 帶寬 GPU 間互聯帶寬 功耗 nm TFLOPS TFLOPS TFLOPS TOPS GB GB/s GB/s W 英偉達 V100 SXM 2017 12 5120 15.7 125 32 900 300 300 英偉達 A100 SXM 2020 7 6912 1
87、9.5 156 312 624 80 2039 600 400 英偉達 H100 SXM 2022 4 16896 67 989 1979 3958 80 3350 900 700 英偉達 GB200 2024 4 20480 180 5000 10000 20000 384 16000 3600 AMD MI100 2020 7 7680 23.1 46.1 92.3 92.3 32 1200 276 300 AMD MI250X 2021 6 14080 95.7 383 383 128 3200 800 560 AMD MI300X 2023 5/6 19456 163.4 653.7
88、1307.4 2614.9 192 5300 896 750 寒武紀 MLU370-X8 2022 7 24 96 256 48 614.4 200 250 海光信息 深算一號 2021 7 4096 32 1024 184 350 華為 昇騰 910 2019 7 256 512 壁仞科技 壁礪106B 2022 300 壁仞科技 壁礪106C 2022 150 燧原科技 云燧 T20 2021 32 1600 300 300 燧原科技 云燧 T21 2021 32 1600 300 300 摩爾線程 MTT S3000 2022 4096 15.2 32 448 250 摩爾線程 MTT
89、S4000 2023 8192 25 50 100 200 48 768 450 資料來源:各公司官網,海光信息招股說明書,寒武紀招股說明書,機器之心,中原證券研究所 AI 算力芯片軟件生態壁壘極高,算力芯片軟件生態壁壘極高,國產領先廠商華為昇騰、寒武紀等未來有望在生態上取國產領先廠商華為昇騰、寒武紀等未來有望在生態上取得突破得突破。在軟件生態方面,英偉達經過十幾年的積累,其 CUDA 生態建立極高的競爭壁壘,國產廠商通過兼容 CUDA 及自建生態兩條路徑發展,國內領先廠商華為昇騰、寒武紀等未來有望在生態上取得突破。華為基于昇騰系列 AI 芯片,通過模組、板卡、小站、服務器、集群等豐富的產品形
90、態,打造面向“端、邊、云”的全場景 AI 基礎設施方案。昇騰計算是基于硬件和基礎軟件構建的全棧 AI 計算基礎設施、行業應用及服務,包括昇騰系列 AI 芯片、系列硬件、CANN(異構計算架構)、Al 計算框架、應用使能、開發工具鏈、管理運維工具、行業應用及服務等全產業鏈。昇騰計算已建立基于昇騰計算技術與產品、各種合作伙伴,為千行百業賦能的生態體系。第 24 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 46:昇騰計算系統架構框圖:昇騰計算系統架構框圖 圖圖 47:昇騰計算產業生態圖:昇騰計算產業生態圖 資料來源:昇騰計算產業發展白皮書,中原證券 資料
91、來源:昇騰計算產業發展白皮書,中原證券 3.DeepSeek 有望推動國產有望推動國產 AI 算力芯片加速發展算力芯片加速發展 DeepSeek 通過技術創新實現大模型訓練極高的性價比通過技術創新實現大模型訓練極高的性價比。2024 年 12 月 26 日,DeepSeek 正式發布全新系列模型 DeepSeek-V3,DeepSeek-V3 為自研 MoE 模型,總參數量為 671B,每個 token 激活 37B 參數,在 14.8T token 上進行了預訓練。DeepSeek-V3 在性能上對標 OpenAI GPT-4o 模型,并在成本上優勢巨大,實現極高的性價比。DeepSeek-
92、V3的技術創新主要體現在采用混合專家(MoE)架構,動態選擇最合適的子模型來處理輸入數據,以降低計算量;引入多頭潛在注意力機制(MLA)降低內存占用和計算成本,同時保持高性能;采用 FP8 混合精度訓練降低算力資源消耗,同時保持模型性能;采用多 Token 預測(MTP)方法提升模型訓練和推理的效率。DeepSeek MoE 架構通過動態組合多個專家模型來提升模型的性能和效率架構通過動態組合多個專家模型來提升模型的性能和效率。DeepSeek 的 MoE 架構通過將傳統 Transformer 中的前饋網絡(FFN)層替換為 MoE 層,引入多個專家網絡(Experts)和一個門控網絡(Gat
93、ing Network)。專家網絡包括多個獨立的專家模型,每個專家模型負責處理特定類型的數據。門控網絡負責決定每個輸入數據應該由哪些專家模型處理,并分配相應的權重;通過門控機制,模型能夠動態選擇最合適的專家來處理輸入數據。DeepSeek MoE 架構采用稀疏激活策略,每次訓練或推理時只激活部分專家,而不是整個模型;在 DeepSeek-V3 中,模型總參數為 6710 億,但每次訓練僅激活 370 億參數,從而提高計算效率。傳統的 Transformer 架構采用固定的編碼器-解碼器結構,所有輸入數據通過相同的多層自注意力機制和前饋神經網絡處理;模型的參數是靜態的,無法根據輸入數據的特性動態
94、調整。多頭潛在注意力機制(多頭潛在注意力機制(MLA)的核心思想是對的核心思想是對 KV 進行低秩壓縮,以減少推理過程中的進行低秩壓縮,以減少推理過程中的KV 緩存緩存,從而從而降低降低內存占用內存占用及及計算成本計算成本。在傳統的 Transformer 架構推理過程中,在進行生成式任務時,模型需要逐步生成序列,每次生成一個新 token 時,模型需要讀入所有過去 Token 的上下文,重新計算之前所有 token 的鍵(Key)和值(Value)。KV 緩存通過存儲這第 25 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 些已計算的 Key 和 Val
95、ue,避免重復計算,從而提高推理效率。MLA 的方法是將 KV 矩陣轉換為低秩形式,將原矩陣表示為兩個較小矩陣(相當于潛在向量)的乘積,在推理過程中,僅緩存潛在向量,而不緩存完整的 KV。這種低秩壓縮技術顯著減少了 KV 緩存的大小,同時保留了關鍵信息,從而降低內存占用及計算成本。圖圖 48:DeepSeek-V3 基本基本架構圖架構圖 資料來源:DeepSeek-V3 Technical Report,中原證券研究所 多多 token 預測(預測(MTP)是一種創新的訓練目標)是一種創新的訓練目標,通過同時預測多個未來,通過同時預測多個未來 token 來來提升模提升模型的訓練和推理效率型的
96、訓練和推理效率。MTP 技術基于主模型(Main Model)和多個順序模塊(MTP Module),主模型負責基礎的下一個 Token 預測,而 MTP 模塊用于預測多個未來 Token。傳統的模型通常一次只預測下一個 token,在生成文本時,模型按照順序逐個生成下一個 Token,每生成一個 Token 都要進行一次完整的計算,依賴前一個生成的 Token 來生成下一個;而 MTP 能夠同時預測多個連續的 Token,模型通過改造增加多個獨立輸出頭,利用多 token 交叉熵損失進行訓練,一次計算可以得到多個 Token 的預測結果,顯著增加了訓練信號的密度,提升模型的訓練和推理效率,并
97、且 MTP 生成的文本更加連貫自然,適合長文本生成任務。圖圖 49:DeepSeek-V3 MTP 應用應用示意示意圖圖 資料來源:DeepSeek-V3 Technical Report,中原證券研究所 DeepSeek 采用采用 FP8 混合精度訓練技術在訓練效率、內存占用和模型性能方面實現了顯混合精度訓練技術在訓練效率、內存占用和模型性能方面實現了顯第 26 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 著優化著優化。傳統大模型通常使用 FP32 或 FP16 進行訓練,精度較高,但計算速度慢,內存占用較大。而 FP8 數據位寬是 8 位,與 FP1
98、6、FP32 相比,使用 FP8 進行計算的速度最快、內存占用最小。DeepSeek FP8 混合精度將 FP8 與 BF16、FP32 等結合,采用 FP8 進行大量核心計算操作,少數關鍵操作則使用 BF16 或 FP32,提高效率的同時確保數值穩定性,并顯著減少了內存占用和計算開銷。圖圖 50:DeepSeek-V3 FP8 混合精度框架示意混合精度框架示意圖圖 資料來源:DeepSeek-V3 Technical Report,中原證券研究所 DeepSeek-V3 性能對標性能對標 GPT-4o。DeepSeek-V3 多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1
99、-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。DeepSeek-V3 在知識類任務(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當前表現最好的模型 Claude-3.5-Sonnet-1022;長文本測評方面,在 DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現超越其他模型;DeepSeek-V3 在算法類代碼場景(Codeforces),遠遠領先于市面上已有的全部非 o1 類模型,并在工程類代碼場景(
100、SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022;在美國數學競賽(AIME 2024,MATH)和全國高中數學聯賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型;DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現相近,但在事實知識 C-SimpleQA 上更為領先。圖圖 51:DeepSeek-V3 多項評測成績多項評測成績對標對標 GPT-4o 圖圖 52:DeepSeek-V3 多項評測成績多項評測成績與其他大模型對比情與其他大模型對比情況況 資料來源:DeepSee
101、k,中原證券研究所 資料來源:DeepSeek,中原證券研究所 DeepSeek-R1 通過冷啟動與多階段訓練顯著提升模型的推理能力,通過冷啟動與多階段訓練顯著提升模型的推理能力,模型蒸餾技術模型蒸餾技術有望推有望推第 27 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 動動 AI 應用加速落地應用加速落地。DeepSeek-R1-Zero 與 DeepSeek-R1 都是基于強化學習(RL)的推理模型,DeepSeek-R1-Zero 存在語言不一致等輸出方面的問題,DeepSeek-R1 通過冷啟動與多階段訓練,顯著提升模型的推理能力,同時具有較好的實用
102、性。DeepSeek-R1 采用模型蒸餾技術,將大模型(教師模型)的推理能力高效遷移到小模型(學生模型)中;模型蒸餾的核心思想是通過教師模型的輸出指導學生模型的訓練,使學生模型能夠模仿教師模型的行為;通過蒸餾技術,小模型能夠保留大模型的大部分性能,DeepSeek-R1 蒸餾后的小模型在多個基準測試中表現出色;DeepSeek-R1 的模型蒸餾技術顯著提升小模型的推理能力,并降低部署成本,有望推動 AI 應用加速落地。圖圖 53:DeepSeek-R1-Zero 的思考時間的思考時間持續持續提升提升以解決推以解決推理任務理任務 圖圖 54:DeepSeek-R1-Zero、R1、蒸餾、蒸餾小小
103、模型的開發模型的開發流程流程圖圖 資料來源:DeepSeek-R1 Technical Report,中原證券研究所 資料來源:機器之心,中原證券研究所 DeepSeek-R1 性能對標性能對標 OpenAI o1。DeepSeek-R1 極大提升了模型推理能力,在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。DeepSeek 在開源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個 660B 模型的同時,通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區,其中 32B 和 70B 模型在多項能力上實現了對標 OpenAI o1-m
104、ini 的效果。圖圖 55:DeepSeek-R1 多項評測成績多項評測成績對標對標 OpenAI o1 圖圖 56:DeepSeek-R1 蒸餾蒸餾 32B 和和 70B 模型模型多項評測成績多項評測成績對標對標 OpenAI o1-mini 資料來源:DeepSeek,中原證券研究所 資料來源:DeepSeek,中原證券研究所 DeepSeek 實現大模型訓練與推理實現大模型訓練與推理成本優勢成本優勢巨大巨大,助力,助力 AI 應用大規模落地應用大規模落地。DeepSeek-V3 的訓練成本具有極大的經濟性,根據 DeepSeek-R1 Technical Report 的數據,在預訓練階
105、第 28 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 段,每處理 1 萬億 tokens,訓練 DeepSeek-V3 僅需 18 萬 H800 GPU 小時,即在 2048 塊H800 GPU 的集群上需要 3.7 天;因此,DeepSeek-V3 的預訓練階段在不到兩個月內完成,耗時 266.4 萬(2664K)GPU 小時;加上上下文長度擴展所需的 11.9 萬 GPU 小時和后訓練所需的 5 千 GPU 小時,DeepSeek-V3 的完整訓練僅需 278.8 萬 GPU 小時;假設 H800 GPU的租賃價格為每小時 2 美元,DeepSeek
106、-V3 的總訓練成本僅為 557.6 萬美元。2025 年 1 月20 日 DeepSeek-R1 正式發布,其 API定價為每百萬輸入 tokens 1 元(緩存命中)/4 元(緩存未命中),每百萬輸出 tokens 16 元;OpenAl o1 定價為每百萬輸入 tokens 55 元(緩存命中)/110 元(緩存未命中),每百萬輸出 tokens 438 元;DeepSeek-R1 API調用成本不到OpenAl o1 的 5%。DeepSeek-V3 性能對標 GPT-4o,DeepSeek-R1 性能對標 OpenAI o1,并且 DeepSeek 模型成本優勢巨大,有望推動 AI
107、應用大規模落地。圖圖 57:DeepSeek-V3 模型性價比處于最優范圍模型性價比處于最優范圍 圖圖 58:DeepSeek-R1 與與 OpenAI o1 類推理模型類推理模型 API 定價定價對比情況對比情況(2025 年年 1 月月 20 日)日)資料來源:DeepSeek,中原證券研究所 資料來源:DeepSeek,中原證券研究所 DeepSeek 有望有望推動推動推理需求推理需求加速釋放加速釋放,國產國產 AI 算力芯片算力芯片或持續提升市場份額或持續提升市場份額。隨著大模型的成熟及 AI 應用的不斷拓展,推理場景需求日益增加,推理服務器的占比將顯著提高;IDC 預計 2028 年
108、中國 AI 服務器用于推理工作負載占比將達到 73%。根據的 IDC 數據,2024上半年,中國加速芯片的市場規模達超過 90 萬張,國產 AI 芯片出貨量已接近 20 萬張,約占整個市場份額的 20%;用于推理的 AI 芯片占據 61%的市場份額。DeepSeek-R1 通過技術創新實現模型推理極高性價比,蒸餾技術使小模型也具有強大的推理能力及低成本,將助力 AI應用大規模落地,有望推動推理需求加速釋放。由于推理服務器占比遠高于訓練服務器,在AI 算力芯片進口受限的背景下,用于推理的 AI 算力芯片國產替代空間更為廣闊,國產 AI 算力芯片有望持續提升市場份額。第 29 頁/共 36頁 半導
109、體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 圖圖 59:2024-2028 年年中國中國 AI 服務器工作負載預測服務器工作負載預測情況情況 資料來源:IDC,2025 中國人工智能計算力發展評估報告,中原證券研究所 國產算力生態國產算力生態鏈鏈全全面適配面適配 DeepSeek,國產,國產 AI 算力芯片廠商有望算力芯片廠商有望加速加速發展發展。DeepSeek大模型得到全球眾多科技廠商的認可,紛紛對 DeepSeek 模型進行支持,國內 AI 算力芯片廠商、CPU 廠商、操作系統廠商、AI 服務器及一體機廠商、云計算及 IDC 廠商等國產算力生態鏈全面適配 DeepSee
110、k,有望加速 AI 應用落地。華為昇騰、沐曦、天數智芯、摩爾線程、海光信息、壁仞科技、寒武紀、云天勵飛、燧原科技、昆侖芯等國產 AI 算力芯片廠商已完成適配 DeepSeek,DeepSeek 通過技術創新提升 AI 算力芯片的效率,進而加快國產 AI 算力芯片自主可控的進程,國產 AI 算力芯片廠商有望加速發展。表表 8:官宣支持官宣支持 DeepSeek 模型的國產模型的國產 AI 芯片企業動態芯片企業動態 公司公司 日期日期 支持情況支持情況 華為 2 月 1 日 首發!硅基流動 x 華為云聯合推出基于昇騰云的 DeepSeek R1&V3 推理服務!沐曦 2 月 1 日 Gitee A
111、l 聯合沐曦首發全套 DeepSeek R1 千問蒸餾模型,全免費體驗!天數智芯 2 月 4 日 一天適配!天數智芯聯合 GiteeAl 正式上線 DeepSeek 摩爾線程 2 月 4 日 致敬 DeepSeek:以國產 GPU 為基,燎原中國 AI 生態之火 海光信息 2 月 4 日 DeepSeek V3 和 R1 模型完成海光 DCU 適配并正式上線 壁仞科技 2 月 5 日 DeepSeek R1 在壁仞國產 AI 算力平臺發布,全系列模型一站式賦能開發者創新 太初元碁 2 月 5 日 基于太初 T100 加速卡 2 小時適配 DeepSeek-R1 系列模型 云天勵飛 2 月 5
112、日 DeepEdge10 已完成 DeepSeek R1 系列模型適配 燧原科技 2 月 6 日 燧原科技實現全國各地智算中心 DeepSeek 的全量推理服務部署 昆侖芯 2 月 6 日 國產 AI 卡 Deepseek 訓練推理全版本適配、性能卓越 靈汐科技 2 月 6 日 靈汐芯片快速實現 DeepSeek 適配,助力國產大模型與類腦智能硬件融合 鯤云科技 2 月 6 日 鯤云科技 CAISA 430 適配 DeepSeek R1 推理,開啟高效 AI 應用新時代 希姆計算 2 月 6 日 希姆計算開源算力全面適配 DeepSeek-R1 開源模型 寒武紀 2 月 6 日 南京智算中心與
113、寒武紀、蘇寧科技合作,成功上線全國產算力版 DeepSeek 算能 2 月 7 日 最佳國產邊緣部署方案!DeepSeek-R1 蒸餾模型已適配 SE7,代碼全開源!清微智能 2 月 7 日 清微智能可重構算力芯片全面適配 DeepSeek 模型推理和訓練 芯動力 2 月 7 日 芯動力神速適配 DeepSeek-R1 大模型,AI 芯片設計邁入“快車道”!墨芯 2 月 7 日 墨芯 S40 計算卡完成 DeepSeek 大模型部署,支持單卡推理大模型 后摩智能 2 月 7 日 開源破局 x 低功耗守護:Deepseek 與存算一體如何演繹 AI 界的哪吒鬧海?瀚博 2 月 8 日 瀚博完成
114、DeepSeek 全版本訓推適配,單機支持 V3 與 R1 671B 滿血版部署 愛芯元智 2 月 8 日 愛芯分享|基于 AX650N&AX630C 部署 DeepSeek R1 芯瞳 2 月 9 日 芯瞳 GPU 完成與 DeepSeek 的適配,向中國 AI 開發者致敬 進迭時空 2 月 10 日 進迭時空 Bianbu Cloud 成功運行 DeepSeek 本地大模型 江原科技 2 月 11 日 江原科技實現全國產 AI 推理芯片單卡支持 DeepSeek-R1-70B 部署 奕斯偉 2 月 14 日 奕斯偉計算|技術新突破!RISC-V AI SoC 成功適配 DeepSeek 模
115、型計算 資料來源:芯東西,中原證券研究所 第 30 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 4.河南省著力布局河南省著力布局 AI 算力芯片,產業鏈初具雛形算力芯片,產業鏈初具雛形 河南省河南省以“一核四極多點”為核心框架以“一核四極多點”為核心框架進行進行算力產業布局算力產業布局,打,打造全國重要造全國重要算力高地算力高地。河南省將算力作為支撐數字河南建設的重要底座和驅動數字化轉型的新引擎,致力于打造面向中部、輻射全國的算力調度核心樞紐和全國重要的算力高地。河南省的算力產業布局以“一核四極多點”為核心框架,以鄭州市(含航空港區)為核心,依托其網絡樞
116、紐地位和算力資源,構建國家超算互聯網核心節點和智算中心集群,打造綜合性多功能算力樞紐中心;支持洛陽、鶴壁、商丘、信陽等城市作為區域增長極,利用當地算力資源,面向周邊區域提供算力服務;鼓勵有條件的地方部署邊緣計算中心,打造城市計算節點,滿足本地業務需求。到 2026 年,河南省計劃形成布局合理、綠色低碳、高效集約、安全可靠的算力基礎設施格局,全省算力基礎設施標準機架數達到 35 萬架,平均利用率達到 70%以上,算力規模超過 120EFlops,其中智算、超算等高性能算力占比超過 90%。圖圖 60:河南省河南省“一核四極多點”算力產業布局“一核四極多點”算力產業布局示意圖示意圖 資料來源:河南
117、省發改委,中原證券研究所 河南空港智算中心河南空港智算中心將將打造打造成為成為“算力“算力+產業”標桿產業”標桿。河南空港智算中心項目為中部地區規模最大的智算中心,開建于 2024 年 6 月,按照 A 級數據中心標準建設 15 個模塊化機房,主要滿足大模型研發企業的高端訓練算力需求,僅用百天即完成了首期 2000P(1P 約等于每秒1000 萬億次浮點運算能力)算力部署。2025 年一季度,計劃該項目算力投產規??蛇_10000P,項目一期全部建成后,將達到 30000P 算力規模,為鄭州航空港科技創新和產業升級提供強有力支撐。河南空港智算中心作為中部首個同時部署全量級 DeepSeek-V3
118、/R1 及多模態 DeepSeek-Janus-Pro 模型的機構,基于 DeepSeek-R1 打造的首個企業級 AI 辦公智能體應用已正式投入使用,DeepSeek-V3/R1 的部署將極大地推動 AI 大模型在醫療、教育、科研、工業、無人駕駛、智慧城市、交通物流、游戲、視頻等領域的廣泛應用,為各行各業的發展注入強大動力。河南空港智算中心所運營的產業園區重點聚焦數字經濟、新一代信息技術及智能制造高端服務產業,產業園區以河南空港智算中心為基座,構建“1 個智算中樞+N 個垂直場景”產業架構,通過“鏈主牽引+生態協同”模式,目前已吸引了新華三、科大訊飛、騰訊云等 40 余家創新企業入駐。第 3
119、1 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 61:河南空港智算中心河南空港智算中心示意圖示意圖 圖圖 62:算力將算力將賦能千行百業賦能千行百業 資料來源:河南鄭州航空港發布,中原證券研究所 資料來源:河南省發改委,中原證券研究所 依托省內先進計算企業依托省內先進計算企業,構建構建算力產業生態算力產業生態。河南省依托超聚變研發中心及總部基地、紫光智慧終端產業園等重大項目,積極引進芯片等上游企業,吸引集聚服務器操作系統、數據庫、中間件開發骨干企業,打造先進計算產業園、鯤鵬軟件小鎮等園區,構建具有國際競爭力的先進計算產業集群。超聚變在中國服務器市場
120、穩居第二,AI 服務器市場位居第一,2024 年營收達 400 億,海外市場三年復合增長率超過 50%,合作伙伴數量已達 22000 家。超聚變研發中心及總部基地是河南省算力產業的重要項目,于 2025 年 3 月 1 日正式啟用,該項目將助力超聚變在全球范圍內開展日常運營及產品研發。超聚變計劃通過總部基地構建本土產業鏈生態,推動河南制造走向全球,參與全球算力產業分工。圖圖 63:超聚變研發中心及總部基地超聚變研發中心及總部基地 圖圖 64:超聚變穩居中國服務器市場第二超聚變穩居中國服務器市場第二 資料來源:超聚變,中原證券研究所 資料來源:超聚變,中原證券研究所 河南省著力布局河南省著力布局
121、 AI 算力芯片算力芯片,產業鏈初具雛形,產業鏈初具雛形。2022 年 8 月,龍芯中科技術股份有限公司與河南省政府簽署戰略合作協議,將在河南建設龍芯生態,并在鶴壁形成產業積聚。2023 年龍芯中科芯片封裝基地一期在鶴壁正式投產,具備龍芯一號芯片封裝、測試和出貨的能力,整個項目建成達產后,可實現年封裝測試芯片 3000 萬片。隨著龍芯中科鶴壁產業基地產能逐步釋放,已有眾多上下游企業在當地形成積聚,目前已經引進了云涌科技、力積存儲等12 家硬件生產企業,麒麟、統信等 10 家軟件企業,為河南人工智能算力產業鏈的發展提供硬件和軟件支持。2023 年 11 月龍芯中科中原總部基地在鄭州航空港經濟綜合
122、實驗區揭牌,龍芯中科中原總部基地將建設研發創新中心、生態適配中心、信創展示中心等,也將為河南人工智能算力產業發展提供技術研發和生態適配支持。沐曦致力于為異構計算提供全棧 GPU 芯片及第 32 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 解決方案,可廣泛應用于智算、智慧城市、云計算、自動駕駛、數字孿生、元宇宙等前沿領域,為數字經濟發展提供強大的算力支撐。2025 年 2 月 5 日沐曦與聯想集團聯合發布首個國產 DeepSeek 一體機解決方案,截止 2025 年 3 月 7 日,該解決方案累計發貨量已突破千臺,配備沐曦國產 GPU 卡近萬張,覆蓋醫療、教
123、育、制造等十余個核心行業,標志著國產 AI 產業落地的重要里程碑。河南投資集團通過算力產業基金投資沐曦集成,推動沐曦集成在河南落地,助力算力產業生態的構建。河南省通過引進、投資、培育本土企業等方式布局 AI 算力芯片,產業鏈初具雛形。圖圖 65:龍:龍芯芯中科中原總部中科中原總部 圖圖 66:聯想沐曦聯想沐曦 DeepSeek 一體機一體機 資料來源:河南鄭州航空港發布,中原證券研究所 資料來源:新浪,中原證券研究所 河南省政策大力扶持河南省政策大力扶持 AI 算力芯片產業算力芯片產業。2024 年 11 月 7 日,河南省算力基礎設施發展規劃(20242026 年)正式發布,規劃提出要培育人
124、工智能產業,突破發展人工智能芯片,吸引集聚一批人工智能相關軟件及服務、芯片研發制造等企業;推動技術創新,強化算力領域學術界與產業界的交流合作,聚焦大規模數據處理、內存計算、異構計算、存算一體、算網融合等關鍵共性技術開展研發攻關,支持企業建設算力領域研發創新平臺,引導企業加大人工智能服務器、計算芯片、人工智能軟件等研發投入,布局發展國產高性能計算軟件系統、國產數據庫,提升關鍵配套能力;加大資金支持力度,強化財政資金引導作用,統籌各類相關專項資金重點支持算力基礎設施建設、算力產業發展以及算力生態搭建,鼓勵銀行將算力列為科技信貸業務重點支持領域,支持符合條件的企業通過發行綠色債券或上市實現融資;增強
125、算力設施可靠性,鼓勵智算、超算中心采用昇騰、海光等自主可控技術路線。第 33 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 表表 9:2021-2024 年河南省年河南省人工智能人工智能產業產業部分部分重要產業政策重要產業政策情況情況 時間時間(年)(年)發布單位發布單位 政策名稱政策名稱 政策主要內容政策主要內容 2021 省政府辦公廳 河南省推進新型基礎設施建設行動計劃(20212023年)該計劃提出要建設全棧國產化、自主可控智能計算中心,打造一批公共數據資源庫、標注數據庫、訓練數據庫、開源訓練數據集等基礎平臺,完善智能算力基礎設施;建設全省統一的智能
126、網聯汽車云控平臺,開展中原科技城自動駕駛公交線路示范應用;支持鄭州市創建國家新一代人工智能創新發展試驗區。2021 省政府辦公廳 河南省“十四五”戰略性新興產業和未來產業發展規劃 該規劃提出加強人工智能領域基礎理論研究與關鍵共性技術攻關,重點突破圖像識別感知、數字圖像處理、語音識別、智能判斷決策等核心應用技術,引進一批人工智能龍頭企業,加快培育壯大本地企業,做強智能網聯汽車、智能機器人、智能無人機、智能計算設備、智能家居產品等優勢智能產品;深化人工智能技術在智能制造、現代農業、智慧城市、智慧文旅、智慧醫療等領域的創新應用,創建國家新一代人工智能創新發展試驗區。2022 省政府辦公廳 河南省“十
127、四五”戰略性新興產業和未來產業發展規劃 該規劃提出新一代信息技術產業聚焦“補芯、引屏、固網、強端、育器”,強化信息制造、信息基礎設施和信息安全等重點領域創新,推動大數據、人工智能、區塊鏈等技術和實體經濟深度融合,構建萬物互聯、融合創新、智能協同、綠色安全的產業發展生態。到 2025 年,新一代信息技術產業營業收入超過 1 萬億元。2022 鄭州人民政府 鄭州國家新一代人工智能創新發展試驗區建設實施方案 該方案提出要培育人工智能創新企業,培育 30 家人工智能創新標桿企業,形成 510 家在國內人工智能領域具有影響力的一流創新主體;設立人工智能創新發展專項資金,重點支持人工智能產業的基礎研究、關
128、鍵共性技術攻關、場景應用示范等;統籌利用省、市高端人才計劃,引進培育 20 個人工智能高層次領軍人才團隊。2024 省政府辦公廳 河南省算力基礎設施發展規劃(20242026 年)該規劃提出要培育人工智能產業,突破發展人工智能芯片,吸引集聚一批人工智能相關軟件及服務、芯片研發制造等企業;推動技術創新,強化算力領域學術界與產業界的交流合作,引導企業加大人工智能服務器、計算芯片、人工智能軟件等研發投入,布局發展國產高性能計算軟件系統、國產數據庫,提升關鍵配套能力;加大資金支持力度,強化財政資金引導作用;增強算力設施可靠性,鼓勵智算、超算中心采用昇騰、海光等自主可控技術路線。2024 省政府辦公廳
129、河南省推動“人工智能+”行動計劃(20242026年)該規劃提出到 2026 年年底,力爭 23 個行業人工智能應用走在全國前列,建設一批高質量行業數據集,形成 23 個先進可用的基礎大模型、20 個以上垂直領域行業模型和一批面向細分場景的應用模型、100 個左右示范引領典型案例,涌現一批制度創新典型做法和服務行業應用的標準規范;探索人工智能在能源、金融、人力資源、消費等行業多元化應用,形成人工智能行業應用新生態。資料來源:省政府辦公廳,鄭州人民政府,中原證券研究所 5.河南省河南省 AI 算力芯片算力芯片產業產業相關相關企業企業 5.1.龍芯中科龍芯中科 龍心中科為國產處理器領先企業,建立自
130、主可控生態體系龍心中科為國產處理器領先企業,建立自主可控生態體系。公司成立于 2008 年,堅持自主研發,推出自主指令系統龍架構,持續研發及優化多個自主軟/硬 IP 核,不依賴國外技術授權(包括指令系統、IP 核等),不依賴境外供應鏈,從基于自主 IP 的芯片研發、基于自主工藝的芯片生產、基于自主指令系統的軟件生態三個環節提高自主可控度,保障供應鏈安全的同時基于自主技術構建自主體系。公司是國內 CPU 企業中極個別可以進行指令系統架構及 CPU IP 核授權的企業,是極個別在股權結構方面保持開放、未被整機廠商控制的企業。公司公司掌握核心技術掌握核心技術并持續并持續建設產業生態,構筑核心競爭力建
131、設產業生態,構筑核心競爭力。龍芯中科是國內唯一堅持基第 34 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 于自主指令系統構建獨立于 Wintel 體系和 AA 體系的開放性信息技術體系和產業生態的 CPU 企業。公司堅持自主研發核心 IP,形成了包括系列化 CPU IP 核、GPU IP 核、內存控制器及 PHY、高速總線控制器及 PHY 等上百種 IP 核。公司推出了自主指令系統 LA,并基于 LA 遷移或研發了操作系統的核心模塊,包括內核、三大編譯器(GCC、LLVM、GoLang)、三大虛擬機(Java、Java Script、.NET)、瀏覽器、
132、媒體播放器、KVM 虛擬機等,形成了面向服務器、面向桌面和面向工控類應用的基礎版操作系統。公司通過設計優化和先進工藝提升性能,擺脫對最先進工藝的依賴。公司自主研發了包括處理器核心在內的上百種核心模塊,產品競爭力不斷提升與市場應用持續輻射產業鏈,目前與公司開展合作的廠商達到數千家,下游開發人員達到數十萬人,基于龍芯處理器的自主信息產業生態體系正在逐步形成。公司公司 CPU 產品產品性能性能突出突出,覆蓋信息化、工控市場,覆蓋信息化、工控市場。公司處理器及配套芯片產品包括龍芯 1 號、龍芯 2 號、龍芯 3 號三大系列處理器芯片及橋片等配套芯片,面向工控等領域的2K0300 嵌入式 SoC 研制成
133、功,面向服務器領域的 3C6000 處理器芯片樣片研制成功;公司3A6000 在桌面領域性能達到市場主流桌面 CPU 水平,3C6000 在服務器領域性能將達到市場主流服務器 CPU 水平,并具有性價比優勢。公司基于開放的龍芯生態體系,與板卡、整機廠商及基礎軟件、應用解決方案開發商建立緊密的合作關系,為下游企業提供基于龍芯處理器的各類開發板及軟硬件模塊,并提供完善的技術支持與服務。公司持續強化 PC 和服務器主板 ODM 能力,與 CPU、操作系統形成“三位一體”能力。2024 年上半年,在信息化應用領域公司聯合優質 ODM 企業推出豐富多樣的 3A6000 產品解決方案,包括臺式機、一體機、
134、筆記本、NUC 等;服務器 CPU 方面,支持下游廠家完成龍芯 3C5000/3D5000 雙路與四路服務器研制,進入市場推廣階段,基于龍芯 CPU 的服務器入圍中國移動等運營商服務器集采標包。2025 年 2 月,搭載龍芯 3 號 CPU 的設備成功啟動運行 DeepSeek R1 7B 模型,實現本地化部署,性能卓越,成本優異。公司掌握公司掌握 GPU 設計技術設計技術,已布局已布局 AI 加速芯片加速芯片。公司掌握圖形處理器設計技術,可實現傳統圖形管線與大規模并行計算相結合的統一渲染架構,支持圖形處理和通用計算加速。2024 年上半年,公司在支持圖形渲染與通用計算的龍芯第二代圖形處理器核
135、上持續投入,在2K3000 平臺中完成 LG200 GPU 核的硅前驗證工作,并交付流片。公司首款獨立顯卡/AI 加速卡芯片 9A1000 的研制工作全面展開,其圖形處理器核在原有基礎上進行功能、性能擴展,同時通過設計優化提高單位面積性能。2024 年,由于傳統優勢工控市場停滯影響仍存在,工控類芯片營收大幅下降;電子政務市場開始回暖,信息化類芯片收入大幅增加;芯片類產品營收同比有較大幅度增長的同時,公司主動減少解決方案類業務,解決方案類業務營收同比有較大幅度下降。2024 年公司實現營業收入 5.07 億元,同比增長 0.24%;實現歸母凈利潤-6.24 億元。5.2.沐曦沐曦 沐曦致力于為異
136、構計算提供全棧沐曦致力于為異構計算提供全棧 GPU 芯片及解決方案芯片及解決方案。沐曦集成電路(上海)股份有限公司成立于 2020 年 9 月,擁有技術完備、設計和產業化經驗豐富的團隊,核心成員平均擁有第 35 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 近 20 年高性能 GPU 產品端到端研發經驗,曾主導過十多款世界主流高性能 GPU 產品研發及量產,包括 GPU 架構定義、GPU IP 設計、GPU SoC 設計及 GPU 系統解決方案的量產交付全流程。公司致力于為異構計算提供全棧 GPU 芯片及解決方案,可廣泛應用于智算、智慧城市、云計算、自動駕
137、駛、數字孿生、元宇宙等前沿領域,為數字經濟發展提供強大的算力支撐。公司公司 GPU 產品擁有產品擁有自主知識產權自主知識產權,覆蓋,覆蓋智算推理智算推理、通用計算通用計算、圖形渲染圖形渲染市場市場。沐曦打造全棧 GPU 芯片產品,推出曦思 N 系列 GPU 產品用于智算推理,曦云 C 系列 GPU 產品用于通用計算,以及曦彩 G 系列 GPU 產品用于圖形渲染,滿足“高能效”和“高通用性”的算力需求。沐曦產品均采用完全自主研發的 GPU IP,擁有完全自主知識產權的指令集和架構,配以兼容主流 GPU 生態的完整軟件棧(MXMACA),具備高能效和高通用性的天然優勢,能夠為客戶構建軟硬件一體的全
138、面生態解決方案,是“雙碳”背景下推動數字經濟建設和產業數字化、智能化轉型升級的算力基石。沐曦快速適配沐曦快速適配 DeepSeek 大模型,大模型,DeepSeek 一體機需求旺盛一體機需求旺盛。2025 年 2 月 5 日,聯想集團與沐曦聯合發布首個國產 DeepSeek 一體機解決方案,該解決方案以“聯想服務器/工作站+沐曦訓推一體國產 GPU+自主算法”為核心架構為優勢,覆蓋主流用戶場景,其搭載的異構計算架構可支持需要大量數據處理的場景,全面覆蓋模型推理、模型訓練、知識庫管理和智能體開發四大開發場景,以及智慧辦公、代碼開發、客戶服務、公文寫作、視頻生成及智能體實訓教育等六大用戶應用場景。
139、自 DeepSeek 一體機面市以來,各行業本地部署大模型的需求持續攀升,截至 2025 年 3 月 7 日,該解決方案累計發貨量已突破千臺,配備沐曦國產GPU 卡近萬張,覆蓋醫療、教育、制造等十余個核心行業,標志著國產 AI 產業落地的重要里程碑。第 36 頁/共 36頁 半導體 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 行業投資評級行業投資評級 強于大市:未來 6 個月內行業指數相對滬深 300 漲幅 10以上;同步大市:未來 6 個月內行業指數相對滬深 300 漲幅10至 10之間;弱于大市:未來 6 個月內行業指數相對滬深 300 跌幅 10以上。公司投資評級公司投資評
140、級 買入:未來 6 個月內公司相對滬深 300 漲幅 15以上;增持:未來 6 個月內公司相對滬深 300 漲幅 5至 15;謹慎增持:未來 6 個月內公司相對滬深 300 漲幅10至 5;減持:未來 6 個月內公司相對滬深 300 漲幅15至10;賣出:未來 6 個月內公司相對滬深 300 跌幅 15以上。證券分析師承諾證券分析師承諾 本報告署名分析師具有中國證券業協會授予的證券分析師執業資格,本人任職符合監管機構相關合規要求。本人基于認真審慎的職業態度、專業嚴謹的研究方法與分析邏輯,獨立、客觀的制作本報告。本報告準確的反映了本人的研究觀點,本人對報告內容和觀點負責,保證報告信息來源合法合規
141、。重要聲明重要聲明 中原證券股份有限公司具備證券投資咨詢業務資格。本報告由中原證券股份有限公司(以下簡稱“本公司”)制作并僅向本公司客戶發布,本公司不會因任何機構或個人接收到本報告而視其為本公司的當然客戶。本報告中的信息均來源于已公開的資料,本公司對這些信息的準確性及完整性不作任何保證,也不保證所含的信息不會發生任何變更。本報告中的推測、預測、評估、建議均為報告發布日的判斷,本報告中的證券或投資標的價格、價值及投資帶來的收益可能會波動,過往的業績表現也不應當作為未來證券或投資標的表現的依據和擔保。報告中的信息或所表達的意見并不構成所述證券買賣的出價或征價。本報告所含觀點和建議并未考慮投資者的具
142、體投資目標、財務狀況以及特殊需求,任何時候不應視為對特定投資者關于特定證券或投資標的的推薦。本報告具有專業性,僅供專業投資者和合格投資者參考。根據證券期貨投資者適當性管理辦法相關規定,本報告作為資訊類服務屬于低風險(R1)等級,普通投資者應在投資顧問指導下謹慎使用。本報告版權歸本公司所有,未經本公司書面授權,任何機構、個人不得刊載、轉發本報告或本報告任何部分,不得以任何侵犯本公司版權的其他方式使用。未經授權的刊載、轉發,本公司不承擔任何刊載、轉發責任。獲得本公司書面授權的刊載、轉發、引用,須在本公司允許的范圍內使用,并注明報告出處、發布人、發布日期,提示使用本報告的風險。若本公司客戶(以下簡稱“該客戶”)向第三方發送本報告,則由該客戶獨自為其發送行為負責,提醒通過該種途徑獲得本報告的投資者注意,本公司不對通過該種途徑獲得本報告所引起的任何損失承擔任何責任。特別聲明特別聲明 在合法合規的前提下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券頭寸并進行交易,還可能為這些公司提供或爭取提供投資銀行、財務顧問等各種服務。本公司資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告意見或者建議不一致的投資決策。投資者應當考慮到潛在的利益沖突,勿將本報告作為投資或者其他決定的唯一信賴依據。