《AI算力芯片行業深度:主流芯片、驅動因素、產業鏈及相關公司深度梳理-250414(36頁).pdf》由會員分享,可在線閱讀,更多相關《AI算力芯片行業深度:主流芯片、驅動因素、產業鏈及相關公司深度梳理-250414(36頁).pdf(36頁珍藏版)》請在三個皮匠報告上搜索。
1、 1/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 行業研究報告 慧博智能投研 AI 算力算力芯片行業芯片行業深度:深度:主流芯片主流芯片、驅動因素驅動因素、產業鏈產業鏈及及相關公司深度梳理相關公司深度梳理 ChatGPT 熱潮引發全球科技企業加速布局 AI 大模型。人工智能進入算力新時代,全球算力規模高速增長,根據相關預測,預計全球算力規模將從 2023 年的 1397EFLOPS 增長至 2030 年的 16ZFLOPS,預計 2023-2030 年復合增速達 50%。AI 算力芯片作為“AI 時代的引擎”,有望暢享 AI 算力需求爆發浪潮,并推動 AI
2、 技術的快速發展和廣泛應用。圍繞 AI 算力芯片行業,我們來了解當前全球算力發展情況、驅動算力芯片發展的因素,并就算力主流芯片及定制芯片進行詳細分析,對產業鏈構成及國產替代情況、未來發展預期進行分析,并對產業鏈及相關公司進行梳理,希望幫助大家更好了解 AI 算力芯片行業的發展情況。目錄目錄 一、AI 算力芯片概述.1 二、算力芯片發展驅動因素及發展現狀.5 三、主流算力芯片之 GPU.8 四、AI 算力芯片之定制芯片 ASIC.13 五、AI 算力芯片產業鏈.17 六、AI 算力芯片國產替代情況.19 七、AI 算力芯片相關公司.21 八、未來展望:DeepSeek 有望推動國產 AI 算力芯
3、片加速發展.31 九、參考研報.35 一、一、AI 算力芯片概述算力芯片概述 1.AI 服務器服務器 AI 服務器是支撐生成式服務器是支撐生成式 AI 應用的核心基礎設施。應用的核心基礎設施。人工智能產業鏈一般為三層結構,包括基礎層、技術層和應用層,其中基礎層是人工智能產業的基礎,為人工智能提供數據及算力支撐。服務器一般可分為通用服務器、云計算服務器、邊緣服務器、AI 服務器等類型,AI 服務器專為人工智能訓練和推理應用而設計。大模型興起和生成式 AI 應用顯著提升了對高性能計算資源的需求,AI 服務器是支撐這些復雜人工智能應用的核心基礎設施,AI 服務器的其核心器件包括 CPU、GPU、FP
4、GA、NPU、存儲器等芯片,以及PCB、高速連接器等。2/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 2.AI 算力芯片是什么,與算力有何關聯算力芯片是什么,與算力有何關聯 AI 算力芯片是算力的基石。算力芯片是算力的基石。AI 算力芯片是專門為人工智能(AI)應用提供計算能力的芯片,它是支撐AI 服務器運行的核心部件,能夠快速處理大規模數據和復雜的神經網絡模型,推動 AI 技術的快速發展和廣泛應用。CPU+GPU 是目前 AI 服務器主流的異構計算系統方案,根據 IDC2018 年服務器成本構成的數據,推理型和機器學習型服務器中 CPU+GPU 成本占比
5、達到 50-82.6%,其中機器學習型服務器 GPU 成本占比達到 72.8%。AI 算力芯片具備強大的并行計算能力,能夠快速處理大規模數據和復雜的神經網絡模型,并實現人工智能訓練與推理任務;AI 算力芯片占 AI 服務器成本主要部分,為 AI 服務器提供算力的底層支撐,是算力的基石。AI 算力芯片作為算力芯片作為“AI 時代的引擎時代的引擎”,有望暢享,有望暢享 AI 算力需求爆發浪潮,并推動算力需求爆發浪潮,并推動 AI技術的快速發展和廣泛應用。技術的快速發展和廣泛應用。3.混合混合 AI 是是 AI 的發展趨勢的發展趨勢 AI 訓練和推理受限于大型復雜模型而在云端部署,而 AI 推理的規
6、模遠高于 AI 訓練,在云端進行推理的成本極高,將影響規?;瘮U展。隨著生成式 AI 的快速發展以及計算需求的日益增長,AI 處理必須分布在云端和終端進行,才能實現 AI 的規?;瘮U展并發揮其最大潛能?;旌?AI 指終端和云端協同工作,在適當的場景和時間下分配 AI 計算的工作負載,以提供更好的體驗,并高效利用資源;在一些場景下,計算將主要以終端為中心,在必要時向云端分流任務;而在以云為中心的場景下,終端將根據自身能力,在可能的情況下從云端分擔一些 AI 工作負載。與僅在云端進行處理不同,混合 AI 架構在云端和邊緣終 3/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告
7、研究報告 端之間分配并協調 AI 工作負載;云端和邊緣終端如智能手機、汽車、個人電腦和物聯網終端協同工作,能夠實現更強大、更高效且高度優化的 AI。4.算力芯片類型算力芯片類型 AI 算力芯片按應用場景可分為云端、邊緣端、終端算力芯片按應用場景可分為云端、邊緣端、終端 AI 算力芯片。算力芯片。人工智能的各類應用場景,從云端溢出到邊緣端,或下沉到終端,都需要由 AI 算力芯片提供計算能力支撐。云端、邊緣端、終端三種場景對于 AI 算力芯片的運算能力和功耗等特性有著不同要求,云端 AI 算力芯片承載處理海量數據和計算任務,需要高性能、高計算密度,對于算力要求最高;終端對低功耗、高能效有更高要求,
8、通常對算力要求相對偏低;邊緣端對功耗、性能的要求通常介于終端與云端之間。4/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 根據芯片的設計方法及應用,根據芯片的設計方法及應用,AI 算力芯片可分為通用型算力芯片可分為通用型 AI 芯片和專用型芯片和專用型 AI 芯片。芯片。通用型 AI 芯片為實現通用任務設計的芯片,主要包括 CPU、GPU、FPGA 等;專用型 AI 芯片是專門針對人工智能領域設計的芯片,主要包括 TPU(Tensor Processing Unit)、NPU(Neural Network Processing Unit)、ASIC 等。在通
9、用型 AI 芯片中,由于在計算架構和性能特點上的不同,CPU 適合處理邏輯復雜、順序性強的串行任務;GPU 是為圖形渲染和并行計算設計的處理器,具有大量的計算核心,適合處理大規模并行任務;FPGA 通過集成大量的可重構邏輯單元陣列,可支持硬件架構的重構,從而靈活支持不同的人工智能模型。專用型 AI 芯片是針對面向特定的、具體的、相對單一的人工智能應用專門設計的芯片,其架構和指令集針對人工智能領域中的各類算法和應用作了專門優化,具體實現方法為在架構層面對特定智能算法作硬化支持,可高效支持視覺、語音、自然語言處理和傳統機器學習等智能處理任務。當前當前 AI 算力芯片以算力芯片以 GPU 為主流,英
10、偉達主導全球為主流,英偉達主導全球 AI 算力芯片市場。算力芯片市場。根據的 IDC 數據,2024 上半年,中國 AI 加速芯片的市場規模達超過 90 萬張;從技術角度來看,GPU 卡占據 80%的市場份額。根據相關數據,2022 年英偉達占據全球 AI 芯片市場份額超過 80%,其中英偉達占全球 AI 服務器加速芯片市場份額超過 95%。5/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 二二、算力芯片發展驅動因素及發展現狀、算力芯片發展驅動因素及發展現狀 1.大模型持續迭代,推動全球算力需求高速成長大模型持續迭代,推動全球算力需求高速成長 ChatGPT
11、 熱潮引發全球熱潮引發全球科技企業加速迭代科技企業加速迭代 AI 大模型。大模型。ChatGPT 是由美國公司 OpenAI 開發、在 2022年 11 月發布上線的人工智能對話機器人,ChatGPT 標志著自然語言處理和對話 AI 領域的一大步。ChatGPT 上線兩個月后月活躍用戶數突破 1 億,是歷史上用戶增長速度最快的消費級應用程序。ChatGPT 熱潮引發全球科技企業加速布局,谷歌、Meta、百度、阿里巴巴、華為、DeepSeek 等科技企業隨后相繼推出 AI 大模型產品,并持續迭代升級。GPT-4.5 帶來更自然的交互體驗。2025 年 2 月 27 日,OpenAI 正式發布 A
12、I 大模型 GPT4.5。作為OpenAI 迄今為止規模最大、知識最豐富的模型,GPT-4.5 在 GPT-4o 的基礎上進一步擴展了預訓練,與專注于科學、技術、工程和數學(STEM)領域的其他模型不同,GPT4.5 更全面、更通用。在與人類測試者的對比評估中,GPT-4.5 相較于 GPT-4o 的勝率(人類偏好測試)更高,包括但不限于創造性智能(56.8%)、專業問題(63.2%)以及日常問題(57.0%);GPT-4.5 帶來更自然、更溫暖、更符合人類的交流習慣。GPT-4.5 的知識面更廣,對用戶意圖的理解更精準,情緒智能也有所提升,因此特別適用于寫作、編程和解決實際問題,同時減少了幻
13、覺現象。6/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 OpenAIo3 進一步提升復雜推理能力。2024 年 12 月 20 日,OpenAI 發布全新推理大模型 o3,o3 模型在多個標準測試中的表現均優于 o1,進一步提升復雜推理能力,在一些條件下接近通用人工智能(AGI)。在軟件基準測試(SWE-benchVerified)中,o3 的準確率達到了 71.7%,相較 o1 提升超過20%;在編程競賽(Codeforces)中,o3 的評分達到 2727,接近 OpenAI 頂尖程序員水平;而在數學競賽(AIME)中,o3 的準確率高達 96.7%,
14、遠超 o1 的 83.3%;在博士生級別問題測試集(GPQA)中,o3 達到 87.7 分,遠超人類選手的程度;在 ARC-AGI 測試中,o3 首次突破了人類水平的門檻,達到87.5%。大模型持續迭代,推動算力需求高速成長。Scalinglaw 推動大模型持續迭代,根據 EpochAI 的數據,2012-2023 年大模型訓練的算力需求增長近億倍,目前仍然在大模型推動算力需求高速成長的趨勢中。2.全球算力發展現狀全球算力發展現狀(1)北美四大云廠商受益于北美四大云廠商受益于 AI 對核心業務的推動,持續加大資本開支對核心業務的推動,持續加大資本開支 受益于 AI 對于公司核心業務的推動,北美
15、四大云廠商谷歌、微軟、Meta、亞馬遜 2023 年開始持續加大資本開支,2024 年四季度四大云廠商的資本開支合計為 706 億美元,同比增長 69%,環比增長 23%。7/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 目前北美四大云廠商的資本開支增長主要用于 AI 基礎設施的投資,并從 AI 投資中獲得了積極回報,預計 2025 年仍有望繼續大幅增加資本開支。(2)國內三大互聯網廠商不斷提升資本開支,國內智算中心加速建設國內三大互聯網廠商不斷提升資本開支,國內智算中心加速建設 國內三大互聯網廠商阿里巴巴、百度、騰訊 2023 年也開始不斷加大資本開支,2
16、024 年四季度三大互聯網廠商的資本開支合計為 720 億元,同比增長 259%,環比增長 99%,預計 2025 年國內三大互聯網廠商將繼續加大用于 AI 基礎設施建設的資本開支。根據相關數據,截至 2024 年 6 月,中國已建和正在建設的智算中心超 250 個;目前各級政府、運營商、互聯網企業等積極建設智算中心,以滿足國內日益增長的算力需求。(3)人工智能進入算力新時代,全球算力規模高速增長人工智能進入算力新時代,全球算力規模高速增長 隨著人工智能的快速發展以及 AI 大模型帶來的算力需求爆發,算力已經成為推動數字經濟飛速發展的新引擎,人工智能進入算力新時代,全球算力規模呈現高速增長態勢
17、。根據 IDC、Gartner、TOP500、8/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 中國信通院的預測,預計全球算力規模將從 2023 年的 1397EFLOPS 增長至 2030 年的 16ZFLOPS,預計 2023-2030 年全球算力規模復合增速達 50%。根據 IDC 的數據,2024 年中國智能算力規模為725.3EFLOPS,預計 2028 年將達到 2781.9EFLOPS,預計 2023-2028 年中國智能算力規模的復合增速為 46.2%。三、三、主流算力芯片之主流算力芯片之 GPU 1.GPU GPU(Graphics Pro
18、cessing Unit,圖形處理器)作為現代計算體系的核心組件,其核心原理是將復雜的圖形處理任務分解為大量可并行執行的子任務實現高效計算。其技術原理與演進路徑深刻反映了半導體行業的發展趨勢。GPU 最初專為圖形渲染設計,采用大規模并行架構,通過數千個計算核心同時處理大量簡單任務,如頂點變換、紋理映射和像素著色等。隨著計算需求的升級,GPU 逐漸從專用圖形處理器演變為通用計算加速器。GPU 因其并行計算架構在算力領域被廣泛用于加速復雜的計算任務。其應用始于 1999 年英偉達推出首款 GPUGeForce256,2006 年 CUDA 框架的誕生使其正式轉向通用計算(GPGPU)。從早期的35
19、0nm 到當前的 4nm 工藝。GPU 的功能邊界不斷拓展,逐步覆蓋科學計算、AI 訓練、自動駕駛等新興領域。AI 計算:集成專用 AI 加速單元(如 NVIDIAAmpere 架構的 TensorCore),支持 FP16/INT8 混合精度計算;科學計算:支持雙精度浮點運算(FP64),在氣象模擬、基因測序等領域廣泛應用;自動駕駛:9/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 推出車載計算平臺(如 NVIDIADRIVEOrin),算力達 254TOPS,可從 L2+級系統一路升級至 L5 級全自動駕駛汽車系統;元宇宙:開發實時渲染引擎(如 Omni
20、verse),支持大規模虛擬場景構建與交互。為突破傳統馮為突破傳統馮 諾依曼架構的瓶頸,諾依曼架構的瓶頸,GPU 行業正積極探索下一代計算范式。行業正積極探索下一代計算范式。如存算一體:將計算單元嵌入存儲器,減少數據搬運開銷;Chiplet 技術:通過多芯片互聯實現性能擴展;光子計算:利用光子代替電子進行數據的傳輸。GPU 的技術演進不僅是性能的提升,更是計算范式的重構。未來,隨著 AI、元宇宙、量子計算等新興技術的崛起,GPU 將繼續扮演算力基礎設施的核心角色,推動全球數字化進程進入新紀元。2.GPU 市場規模市場規模 生成式 AI 爆發推動 GPU 需求指數級增長,根據相關數據,2024
21、年全球 GPU 芯片市場規模為 812 億美元,預計 2028 年將增長至 2465 億美元,2021-2028 年的 CAGR 為 32.8%,GPU 市場呈現出強勁增長態勢。(1)大模型百花齊放,引算力需求爆發式增長大模型百花齊放,引算力需求爆發式增長 AI 大模型百花齊放,谷歌、微軟、OpenAI、Meta 等國際科技巨頭憑借雄厚的資金、技術和人才優勢,在大模型領域占據領先地位。GPU 的算力優勢與當下算力極度匹配,AI 大模型在訓練端和推理端都需要處理海量的數據的復雜的計算,而 GPU 擁有強大的并行計算能力,能夠高效處理矩陣運算等計算密集型任務,這正好滿足了 AI 大模型對計算能力的
22、需求。為滿足大模型訓練需求,GPU 的三大核心指標發生質變:1)計算密度:算力芯片需在單位芯片面積下盡可能提升計算能力,從而達到在規定面積下的最大算力;2)內存帶寬:由于大模型訓練參數呈幾何倍數增長,GPU 運行計算數據也相應指數倍增加,因此對于內存帶寬與容量有更高要求。H100 芯片所用的 HBM3 帶寬速率達到 6.4Gps;3)互聯能力:單卡 GPU 已經無法滿足大模型需要的算力要求,因此卡間互聯能力是另一核心指標,目前 Nivdia 已經憑借 NVlink 推出萬卡級集群智算中心。算力需求爆發式增長,算力需求爆發式增長,GPU 需求極具攀升。需求極具攀升。根據中國信息通信研究院報告顯示
23、,2022 年全球計算設備算力總規模達到 906EFlops,同比增長 47%,預計未來五年全球算力規模將以超過 50%的速度增長,10/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 到 2025 年全球計算設備算力總規模將超過 3ZFlops。AI 大模型正推動 GPGPU 從“通用加速器”向“智能計算核心”演進。未來三年,具備高算力密度、高內存帶寬、高互聯效率的 GPU 將成為市場。未來 AI 技術的迭代將推動 GPU 架構向高性能、高能效與高靈活性三維一體的方向演進。隨著大模型參數量持續膨脹及多模態任務復雜度提升,下一代 GPU 需在算力密度、內存帶寬
24、和異構計算能力上實現突破性升級。硬件層面,先進制程與 Chiplet 封裝技術或將不可或缺,通過堆疊式顯存和高速互聯總線構建超千 GB/s 級數據吞吐通道。計算單元將強化稀疏計算、動態張量核心與光追加速模塊,以適配Transformer、擴散模型等主流算法特性。此外,邊緣 AI 場景將催生模塊化 GPU 設計,通過可拆分計算單元實現云端-邊緣算力動態調配,同時集成 NPU/IPU 等協處理器形成異構計算集群。國內國內 GPU 市場規模增長核心驅動力來自兩方面:一是人工智能、云計算、數據中心等新興產業對算力市場規模增長核心驅動力來自兩方面:一是人工智能、云計算、數據中心等新興產業對算力的的爆發式
25、需求;二是國際地緣政治背景下,國產替代成為國家戰略級任務。爆發式需求;二是國際地緣政治背景下,國產替代成為國家戰略級任務。中商產業研究院發布的2024-2029 年中國 GPU 行業市場現狀調研及發展趨勢預測研究報告顯示,2023 年中國 GPU 市場規模為 807 億元,較上年增長 32.78%。中商產業研究院分析師預測,2024 年中國 GPU 市場規模將增至 1073 億元。從需求端看,人工智能大模型訓練與推理、智能駕駛、工業仿真、元宇宙等新興場景推動 GPU 需求結構從傳統圖形渲染向通用計算加速轉變。以 AI 為例,單一大模型訓練需消耗上萬顆高端GPU,而國內互聯網巨頭、科研機構及智算
26、中心的算力缺口持續擴大,直接拉動高性能 GPU 采購需求。政策層面,國家“十四五”規劃明確將集成電路列為戰略性新興產業,地方政府通過產業基金、稅收優惠等方式扶持本土 GPU 企業,加速構建自主可控的算力底座。(2)信創產業快速崛起,帶動信創產業快速崛起,帶動 GPU 需求提升需求提升 隨著“2+8+N”戰略落地,我國數字化經濟規模不斷擴大。根據中國信通院數據顯示,2022 年中國數字經濟總體規模達 50.2 萬億元,2025 年有望達 70.8 萬億元。得益于中國數字化進程的持續深入,艾瑞咨詢預測,未來十年中國信創產業仍將保持 30%的年均增長,2026 年突破 2000 億元規模大關。11/
27、36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 (3)游戲與圖形渲染對游戲與圖形渲染對 GPU 需求穩定增長需求穩定增長 圖形 GPU(Graphics Processing Unit)作為計算機圖形處理的核心硬件,在游戲、影視動畫、工業設計、虛擬現實(VR)等領域扮演關鍵角色。Jon Peddie Research(JPR)發布的最新 GPU 市場數據統計報告,顯示 2023 年第四季度獨立顯卡單位出貨量從 890 萬塊增至 950 萬塊,環比增長了 6.8%,從2000 年第一季度起至今獨立顯卡總出貨量為 23 億塊,總價值達到了 4820 億美元。中國市
28、場受益于電競產業擴張、3A 游戲本地化及數字內容創作需求激增,成為全球增速最快的市場之一。根據 Statista 數據顯示,全球電子游戲市場收入從 2017 年的 1,296 億美元提升到 2023 年的 4,062 億元,2024 年的市場收入預計將達到 4,552.8 億美元,到 2029 年預計達到 6666.8 億美元。3.GPU 競爭格局:競爭格局:國際巨頭的壟斷和國產新勢力的破局國際巨頭的壟斷和國產新勢力的破局 當下全球 GPU 市場呈現高度集中化特征,相關最新數據顯示,2024 年 Q3 全球獨立 GPU 市場份額英偉達和 AMD 分別占據了 90%、10%。12/36 2025
29、 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 海外市場方面,海外市場方面,英偉達憑借技術架構優勢與 CUDA 生態的優勢,始終占據了 GPU 市場超過 80%的份額。AMD 也憑借其技術差異化,雙架構計算卡 CDNA 系列與游戲卡 RDNA 系列并行優勢,占據一定的市場份額。兩大巨頭在 GPU 領域的競爭已超越單純硬件性能比拼,進入“制程工藝+軟件生態+全棧服務”的立體化戰爭階段。英偉達憑借 CUDA 生態持續收割 AI 紅利,AMD 以開放策略蠶食性價比市場,英特爾則依托 IDM 模式謀求彎道超車。國內國內 GPU 市場呈現市場呈現“國際巨頭主導、本土企業追趕國際巨頭主
30、導、本土企業追趕”的格局。的格局。傳統企業如景嘉微,海光信息,產品聚焦圖形渲染與通用計算,已實現規?;逃?;新興創業公司包括壁仞科技,摩爾線程,主打高性能計算GPU,部分產品算力接近國際主流水平。13/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 技術路徑上,國內企業多采用 IP 授權與自研架構結合的模式。例如,芯動科技“風華”系列基于Imagination 授權架構,而壁仞科技則選擇自研架構突破 CUDA 生態壁壘。制程方面,受限于半導體設備進口限制,國產 GPU 在工藝上與國際領先的制程存在代差,但通過 Chiplet(芯粒)等先進封裝技術部分彌補性能短
31、板。然而,生態建設仍是最大瓶頸。英偉達 CUDA 生態擁有超 400 萬開發者,而國產GPU 廠商需構建從編譯器、驅動到應用框架的完整軟件棧。華為推出 CANN 異構計算架構,摩爾線程聯合多家企業成立“GPU 開源生態聯盟”,但短期內難以打破用戶習慣壁壘。此外,國內 EDA 工具、高性能存儲等配套產業鏈尚不完善,進一步制約產品迭代速度。四、四、AI 算力芯片之算力芯片之定制定制芯片芯片 ASIC 1.ASIC AI ASIC 是一種專為人工智能應用設計的定制集成電路,具有高性能、低功耗、定制化、低成本等特是一種專為人工智能應用設計的定制集成電路,具有高性能、低功耗、定制化、低成本等特點。點。與
32、通用處理器相比,AI ASIC 針對特定的 AI 任務和算法進行了優化,如深度學習中的矩陣乘法、卷積等運算,能在短時間內完成大量計算任務,提供高吞吐量和低延遲,滿足 AI 應用對實時性的要求;AIASIC 通過優化電路設計和采用先進的工藝技術,在處理 AI 工作負載時具有較高的能效比,適合大規模數據中心等對能耗敏感的場景;雖然前期研發和設計成本較高,在大規模部署時,ASIC 的單位計算成本通常低于通用處理器。2.ASIC 與與 GPU AI ASIC 與與 GPU 在在 AI 計算任務中各有優勢和劣勢。計算任務中各有優勢和劣勢。在算力上,先進 GPU 比 ASIC 有明顯的優勢;ASIC 針對
33、特定任務優化,通常能提供更高的計算效率,ASIC 在矩陣乘法、卷積運算等特定 AI 任務上性能可能優于 GPU;GPU 通用性強,能夠運行各種不同類型的算法和模型,ASIC 功能固定,難以修改和擴展,靈活性較差;ASIC 針對特定任務優化,功耗顯著低于 GPU;GPU 研發和制造成本較高,硬件成本是大規模部署的重要制約因素,ASIC 在大規模量產時單位成本相對較低。14/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 GPU 軟件生態成熟且豐富,軟件生態成熟且豐富,AI ASIC 推動軟件生態走向多元化。推動軟件生態走向多元化。ASIC 的軟件生態缺乏通用性,
34、主要是對特定應用場景和算法進行優化;由于 ASIC 的開發工具和軟件庫資源相對較少,編程難度比 GPU 大,開發者在使用 ASIC 進行開發和調試時所需要花費時間會更多。GPU 的軟件生態成熟且豐富,如英偉達CUDA 和 AMDROCm 等,提供了廣泛的開發工具、編程語言支持,并擁有大量的開源項目和社區資源。為了提升 AIASIC 在特定場景下的計算效率,谷歌、亞馬遜、META、微軟等廠商為 ASIC 開發了配套的全棧軟件生態,包括編譯器、底層中間件等,持續降低從 CUDA 生態向其他生態轉換的遷移成本,以減輕對 CUDA 生態的依賴性。3.大廠自研芯片趨勢明顯,推動定制大廠自研芯片趨勢明顯,
35、推動定制 ASIC 芯片市場芯片市場高增高增 由于全球頭部云廠商、互聯網廠商等對 AI 算力芯片需求量巨大,英偉達壟斷全球數據中心 GPU 市場,因成本、差異化競爭、創新性、供應鏈多元化等原因,越來越多地大廠開始設計自有品牌的芯片,大廠 15/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 自研芯片趨勢明顯;云廠商等大力投入自研 AI ASIC,推動數據中心定制 ASIC 芯片市場高速增長,預計增速快于通用 AI 算力芯片。根據 Marvell 的數據,2023 年數據中心 AI 算力芯片市場規模約為 420億美元,其中定制 ASIC 芯片占比 16%,市場規
36、模約為 66 億美元;預計 2028 年數據中心定制 ASIC 芯片市場規模將達到 429 億美元,市場份額約為 25%,2023-2028 年復合增速將達到 45%;預計 2028年數據中心 AI 算力芯片市場規模將達約 1720 億美元,2023-2028 年復合增速約為 32%。4.ASIC 競爭格局競爭格局 云廠商自研 AI ASIC 芯片時,通常會與芯片設計廠商合作,然后再由臺積電等晶圓代工廠進行芯片制造,目前全球定制 AI ASIC 市場競爭格局以博通、Marvell 等廠商為主。博通為全球定制博通為全球定制 AIASIC 市場領導市場領導廠商,廠商,已經為大客戶實現 AI ASI
37、C 大規模量產。博通在多年的發展中已經積累了大量的成體系的高性能計算/互連 IP 核及相關技術,除了傳統的 CPU/DSPIP 核外,博通還具有交換、互連接口、存儲接口等關鍵 IP 核;這些成體系的 IP 核可以幫助博通降低 ASIC 產品成本和研發周期,以及降低不同 IP 核聯合使用的設計風險,并建立博通強大的競爭優勢。博通 2024 財年 AI 收入達到 120 億美元,公司 CEO 表示,到 2027 年,公司在 AI 芯片和網絡組件的市場規模將達到 600 億到 900 億美元。谷歌谷歌 TPU:谷歌 TPU(Tensor Processing Unit)即張量處理單元,是谷歌專為加速
38、機器學習任務設計的定制 ASIC 芯片,主要用于深度學習的訓練和推理。TPU 基本上是專門用于矩陣乘法的計算核心,并與高帶寬內存(HBM)連接;TPU 的基本組件包括矩陣乘法單元(MXU)、矢量單元(VPU)和矢量內存(VMEM);矩陣乘法單元是 Tensor Core 的核心,矢量處理單元執行一般數學運算,矢量內存是位于Tensor Core 中靠近計算單元的片上暫存器;TPU 在進行矩陣乘法方面速度非???。16/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 目前谷歌 TPU 已經迭代至第六代產品,每代產品相較于上一代在芯片架構及性能上均有一定的提升。20
39、15 年谷歌 TPUv1 推出,主要用于推理任務。2024 年谷歌發布第六代產品 TPUv6Trillium,是目前性能最強、能效最高的 TPU。TPUv6Trillium 與上一代 TPUv5e 相比,單芯片峰值計算性能提高了 4.7 倍,HBM 容量和帶寬均增加一倍,同時芯片間互連帶寬也增加一倍;TPUv6Trillium 在性能提升的同時,能源效率比上一代提高了 67%,顯著降低了運營成本;TPUv6Trillium 被用于訓練谷歌的 Gemini2.0 等AI 大模型。谷歌 TPU 迭代推動大模型訓練與推理效率大幅提升。Gemini 等 AI 大模型性能強大且復雜,擁有數十億個參數,訓
40、練如此密集的大模型需要巨大的計算能力以及共同設計的軟件優化。與上一代 TPUv5e 相比,TPUv6Trillium 為 Llama-2-70b 和 gpt3-175b 等大模型提供了高達 4 倍的訓練速度。TPUv6Trillium 為推理工作負載提供了重大改進,為圖像擴散和大模型提供了最好的 TPU 推理性能,從而實現了更快、更高效的 AI 模型部署;與 TPUv5e 相比,TPUv6Trillium 的 Stable Diffusion XL 離線推理相對吞吐量(每秒圖像數)高出 3.1 倍,服務器推理相對吞吐量高出 2.9 倍。17/36 2025 年年 4 月月 14 日日 行業行業
41、|深度深度|研究報告研究報告 谷歌已建立 100000TPU 芯片算力集群。TPU 芯片通過 ICI 連接成算力集群,TPU 網絡可以連接16x16x16TPUv4 和 16x20 x28TPUv5p。為了滿足日益增長的 AI 計算需求,谷歌已將超過 100000 個TPUv6Trillium 芯片連接到一個網絡結構中,構建了世界上最強大的 AI 超級計算機之一;該系統將超過 100000 個 TPUv6Trillium 芯片與每秒 13PB 帶寬的 Jupiter 網絡結構相結合,使單個分布式訓練作業能夠擴展到數十萬個加速器上。這種大規模芯片集群可以提供強大的計算能力,實現高效的并行計算,從
42、而加速大模型的訓練過程,提高人工智能系統的性能和效率。五、五、AI 算力芯片算力芯片產業鏈產業鏈 1.產業鏈構成產業鏈構成 AI 算力芯片產業鏈包括人工智能算法、芯片設計、芯片制造及下游應用環節。人工智能芯片產業鏈上游主要是人工智能算法以及芯片設計工具,人工智能算法覆蓋廣泛,包括視覺算法、語音處理算法、自然語言處理算法以及各類機器學習方法(如深度學習等)。AI 算力芯片行業的核心為芯片設計和芯片制造,芯片設計工具廠商、晶圓代工廠商與封裝測試廠商為 AI 算力芯片提供了研發工具和產業支撐。AI 算力芯片行業的下游應用場景主要包括云計算與數據中心、邊緣計算、消費類電子、智能制造、智能駕駛、智慧金融
43、、智能教育等領域。18/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 2.下游下游應用領域應用領域 當下 AI 應用與各個領域相結合,千行百業加速落地 AI。AI+醫療:醫療:基于迭代優化的大模型技術,訊飛醫療全面升級醫療診后康復管理平臺,可為患者智能生成個性化康復計劃,并督促患者按計劃執行。訊飛診后康復管理平臺還可以通過外呼機器人和小程序、APP 為康復過程中病患提供及時應答,回復開放性和交叉性的問題。AI+金融:金融:在信貸領域,由于征信數據的復雜性和多樣性很難使用傳統的數據處理方式進行分析。度小滿智能征信中臺將大型語言模型 LLM、圖算法應用在征信報告
44、的解讀上,能夠將報告解讀出 40 萬維的風險變量,將銀行風控模型的風險區分度提升了 26%。AI+工業:工業:在星火認知大模型的基礎上,羚羊平臺推出了工業大模型“羚機一動”。中小企業在羚羊平臺上自由發布需求,羚機一動針對企業需求給出專業化建議策略,智能匹配方案、服務商、專家等資源。同時還可在企業內部知識庫和工業知識庫之上構建企業知識大腦,在研發、生產、服務營銷各個環節上,精準地定位問題、得到有效解決方案。AI+辦公:辦公:在軟件領域,人工智能大模型逐步應用于自然語言處理、計算機視覺、語音識別等領域,相關軟件產品的智能化水平得到提升。2023 年 4 月,WPSAI 對外亮相,并陸續應用于文字、
45、表格、演示文稿等常用辦公組件。除了文本生成等功能外,WPSAI 可以通過自然對話的人機交互生成復雜的函數公式,進一步降低辦公軟件的操作門檻。2023 年 11 月,WPSAI 公測發布,正式對用戶開放使用。19/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 隨著 AI 應用場景的逐步落地,算力需求激增。IDC 預測,未來市場需求量也將會實現大幅度上升,2027 年中國 AI 服務器市場規模將達到 134 億美元,五年 CAGR 為 21.8%。在算力芯片需求急速增長的趨勢下,國產算力芯片有望迎來廣闊的市場需求空間。六、六、AI 算力芯片國產替代情況算力芯片國
46、產替代情況 1.美國對高端美國對高端算力芯片算力芯片供應限制不斷趨嚴,國供應限制不斷趨嚴,國內內廠商迎來黃金發展期廠商迎來黃金發展期 美國商務部在 2022、2023、2025 年連續對高端 AI 算力芯片進行出口管制,不斷加大英偉達及 AMD高端 GPU 芯片供應限制,國產 AI 算力芯片廠商迎來黃金發展機遇,但國產廠商華為海思、寒武紀、海光信息、壁仞科技和摩爾線程等進入出口管制“實體清單”,晶圓代工產能供應受限,影響國產 AI 算力芯片發展速度。20/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 2.國產廠商不斷追趕海外龍頭廠商,但在硬件性能上仍有國產廠
47、商不斷追趕海外龍頭廠商,但在硬件性能上仍有差距差距 隨著 AI 應用計算量的不斷增加,要實現 AI 算力的持續大幅增長,既要單卡性能提升,又要多卡組合。從 AI 算力芯片硬件來看,單個芯片硬件性能及卡間互聯性能是評估 AI 算力芯片產品水平的核心指標。國產廠商在芯片微架構、制程等方面不斷追趕海外龍頭廠商,產品性能逐步提升,但與全球領先水平仍有 1-2 代的差距。3.AI 算力芯片生態壁壘極高,國產領先廠商有望算力芯片生態壁壘極高,國產領先廠商有望突破突破 在軟件生態方面,英偉達經過十幾年的積累,其 CUDA 生態建立極高的競爭壁壘,國產廠商通過兼容CUDA 及自建生態兩條路徑發展,國內領先廠商
48、華為昇騰、寒武紀等未來有望在生態上取得突破。華為基于昇騰系列 AI 芯片,通過模組、板卡、小站、服務器、集群等豐富的產品形態,打造面向“端、邊、云”的全場景 AI 基礎設施方案。昇騰計算是基于硬件和基礎軟件構建的全棧 AI 計算基礎設施、行業應用及服務,包括昇騰系列 AI 芯片、系列硬件、CANN(異構計算架構)、Al 計算框架、應用使能、21/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 開發工具鏈、管理運維工具、行業應用及服務等全產業鏈。昇騰計算已建立基于昇騰計算技術與產品、各種合作伙伴,為千行百業賦能的生態體系。七、七、AI 算力芯片相關公司算力芯片相
49、關公司 1.海光信息海光信息 海光信息成立于 2014 年,2016 年獲得 AMD 技術授權啟動 CPU 產品研發,通過持續推進高端處理器產品的迭代升級,成長為國內成長為國內 CPU 和和 DCU 雙領軍企業。雙領軍企業。2014 年海光信息成立,成立后不久,公司獲得中科曙光、國科控股等參投的天使輪融資。2016 年,公司與 AMD 合資成立海光集成和海光微電子兩家子公司,并分別于 2016 年和 2017 年與 AMD 簽署技術許可協議,約定 AMD 為兩家合資公司提供高端處理器技術授權和技術支持,包括處理器核心和外圍電路設計技術以及內置到處理器中驅動處理器硬件執行的微碼系統等?;?AM
50、D 的授權技術和海光的自研能力,2016 年以來公司秉承“銷售一代、驗證一代、研發一代”的策略,持續進行海光系列 CPU 和深算系列 DCU 產品的迭代,目前公司已發展成為國內 CPU 和 DCU 領域的領導者。海光信息的主營產品分為通用處理器(海光信息的主營產品分為通用處理器(CPU)和協處理器()和協處理器(DCU)兩類。)兩類。其中:1)海光 CPU 兼容國際主流的 x86 技術路線,具有豐富的軟硬件生態優勢,其核心組成包括處理器核心(Core)、片上網絡 22/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 和各類接口控制器,同時集成了復雜的微碼系統。
51、海光 CPU 按照代際進行升級迭代,目前已從海光一號迭代至海光四號,而每代際產品基于不同的產品定位,可細分為高端的 7000、中端的 5000 和低端的 3000 系列,其中 7000 系列面向對計算能力、擴展能力、吞吐量有高要求的領域,包括大數據、人工智能等,3000 系列主要應用于入門級服務器、工作站、工業控制等市場,5000 系列面向邊緣計算、云計算、分布式存儲等應用場景。2)海光 DCU 屬于 GPGPU 的一種,采用“類 CUDA”通用并行計算架構,能夠較好地適配國際主流商業計算軟件和人工智能軟件。從組成上看,計算單元是 DCU 的最主要部件,以深算一號為例,其最大集成 64 個計算
52、單元。目前公司 DCU 產品包括深算一號和深算二號,主要部署在服務器集群或數據中心,支撐高復雜度和高吞吐量的數據處理任務。CPU 性能和生態持續領跑國內市場,信創加速推動國產化率持續提升。性能和生態持續領跑國內市場,信創加速推動國產化率持續提升。公司基于 AMDZen1 架構授權,初代產品海光一號較同期的國產 CPU 實現代際領先,且主力產品海光三號性能較前代產品全方位提升,綜合產品性能持續領跑國內市場。同時在生態方面,公司 CPU 采用 x86 架構,相比于 ARM 和自研指令集架構,生態成熟度更高,可實現上層系統軟件、應用軟件等的無縫切換。目前國內服務器及桌面CPU 市場合計達千億規模,國
53、產化替代空間廣闊。隨著財政對信創的支持力度不斷加強以及行業信創臨近中期節點,兩大因素有望共同推動行業信創加速,同時 CPU 作為信創關鍵領域,國產化率有望實現快速提升。AI 芯片躋身國內第一梯隊,充分受益國產芯片躋身國內第一梯隊,充分受益國產 AI 算力產業浪潮。算力產業浪潮。公司 DCU 芯片深算一號和深算二號過去主要應用于超算中心等高性能計算領域,是國內超算芯片領域領導者。為補齊 DCU 在大模型訓練和推理場景下的短板,公司正在研發最新一代 DCU 產品深算三號,預計較深算二號在 AI 性能上將有數倍提升,并有望躋身國內 AI 芯片第一梯隊。公司 DCU 采用 GPGPU 架構,并且軟件平
54、臺 DTK 高度兼容CUDA 生態,能夠廣泛適配國際主流 AI 框架和應用軟件,同時大量采用國際主流開源組件,降低生態拓展難度。隨著國內互聯網及智算中心 AI 算力投入的持續增加,疊加美國芯片出口管制政策持續加碼,公司有望充分受益 AI 算力的國產化浪潮。23/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 不同于華為昇騰、摩爾線程等廠商自行開發軟件庫、框架兼容程序等,海光充分利用開源社區,大量采用國際主流開源方案,較大程度上降低了生態拓展難度。海光 DTK 軟件平臺中 MIOpen、Eigen、RCCL 等軟件庫均來自于開源社區,且均為目前使用較廣泛的方案,
55、一方面能夠降低軟件開發工作量,提升用戶吸引力,另一方面也方便用戶進行二次開發,從而提升用戶體驗。2.龍芯中科龍芯中科 公司主營處理器及配套芯片、基礎軟硬件解決方案,業務嶄新突破開創未來。為解決中國信息產業“缺芯少魂”的問題,公司通過十余年的自主研發和市場化運作,在處理器研發、基礎軟件研發、生態體系建設等方面已具備充足的技術和經驗積累的條件下,于 20 年推出了自主指令系統 LoongArch(龍芯架構)。此前,公司的產品主要基于 MIPS 指令系統,公司于 20 年推出的 LoongArch 自主指令系統,該架構具有自主知識產權、技術先進、兼容生態等特點。其融合了 X86 和 ARM 等主流指
56、令系統的特點,經過高效二進制翻譯,可以實現對 X86、ARM 應用軟件的兼容。24/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 2025 年 2 月 7 日,龍芯中科宣布推出搭載龍芯 3 號 CPU 的設備成功啟動運行 DeepSeek-R17B 模型。2月 23 日,龍芯中科發布基于龍芯中科發布基于 DeepSeek 大模型的軟硬全棧推理一體機,產品實現從芯片、系統到框架大模型的軟硬全棧推理一體機,產品實現從芯片、系統到框架的全棧國產化支持。的全棧國產化支持。與此同時,北京市 2025 年終端設備集中帶量采購項目需求公示公告發布,本次共采購 21180
57、臺信創終端設備,龍芯 loongArch 占比 63%。大模型:全棧自主技術,國產芯片與大模型:全棧自主技術,國產芯片與 AI 大模型協同突破。大模型協同突破。龍芯中科基于自主 LoongArch 架構的3A6000/3C6000 系列處理器,成功實現 DeepSeekR17B 大模型的本地化部署,僅用 2 小時即完成與太初元碁 T100 加速卡的適配,可提供更快、更強、更省的訓練推理體驗。與此同時,采用龍芯 3A6000處理器的誠邁信創電腦和望龍電腦已實現 DeepSeek 本地部署,此后無需依賴云端服務器,避免了因網絡波動或服務器過載導致的服務中斷,可高效完成文檔處理、數據分析、內容創作等
58、多項工作,顯著提升工作效率。當前,國產芯片與 AI 大模型的協同適配取得實質性進展,為構建自主可控的人工智能技術生態奠定基礎。一體機:龍芯一體機:龍芯 DeepSeek 推理一體機發布,政企推理一體機發布,政企 AI 部署邁入安全可控新階段。龍部署邁入安全可控新階段。龍芯 DeepSeek 軟硬全棧推理一體機可搭載 2 顆龍芯 3C5000 處理器,支持最多 4 張太初元碁 T100 加速卡;支持 DeepSeek全系(7B/8B/14B/32B/70B)模型,用戶可以根據實際應用場景和性能要求,進行靈活的一體機配置調整;通過自研以及引入第三方,支持實現常見 AI 智能體應用,例如代碼編寫插件
59、、文檔生成工具、會議質檢、智能政務、智慧審批、金融數據分析、合規審查、企業客服、辦公助手、企業內部知識咨詢等 AI 智能體,滿足教育、政務、企業、金融等各領域業務場景需求。龍芯中科正與太初元碁、寒武紀、天數智芯、算能科技、openEuler 等合作伙伴,實現從芯片、系統到框架的全棧國產化支持,徹底擺脫對國外技術的依賴,政企 AI 部署邁入安全可控新階段。3.納芯微納芯微 十年磨劍鑄就傳感器、信號鏈、電源管理三大產品線。十年磨劍鑄就傳感器、信號鏈、電源管理三大產品線。自 2013 年成立以來,公司專注于圍繞下游應用場景組織產品開發,聚焦傳感器、信號鏈和電源管理三大產品方向,提供豐富的半導體產品及
60、解決方案,廣泛應用于汽車、泛能源及消費電子領域,截至 2024 年中報,公司已能提供 2100 余款可銷售產品型號。公司歷史沿革分為以下三階段:25/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 1)初創期:)初創期:2013-2015 年,專注于消費電子和信號感知。2013 年推出三軸加速度傳感器信號調理 ASIC芯片,并于 2014 年推出壓力傳感器信號調理 ASIC 芯片和電流傳感器信號調理 ASIC 芯片,2015 年發布首款壓力傳感器信號調理 ASIC 芯片。2015 年底之前,公司產品主要為應用于消費電子領域的傳感器信號調理 ASIC 芯片。2)
61、拓展期:)拓展期:2016-2017 年,進軍工業及汽車。2016 年,公司開始向工業及汽車領域發展,同年推出面向工業控制領域以及汽車前裝市場的壓力傳感器信號調理 ASIC 芯片(AEC-Q100 標準)。同年也推出了硅麥克風和紅外傳感器信號調理 ASIC 芯片,進一步擴充產品品類。為擴展在汽車中高壓壓力傳感器的應用,公司入股襄陽臻芯,襄陽臻芯是一家陶瓷電容壓力傳感器敏感元件生產商,公司 2017 年與之合作推出面向中高壓壓力傳感器市場的陶瓷電容壓力傳感器核心器件級解決方案。3)快速上升期:)快速上升期:2018-至今,積極拓展品類,逐步形成現今三大產品線。2018 年以來,公司積極擴展產品品
62、類,三大產品線不斷豐富。2018 年推出了標準數字隔離芯片與隔離接口芯片,2020 年成功推出集成電源的數字隔離芯片、隔離驅動芯片以及隔離采樣芯片,2021 年全品類車規隔離產品量產、發布并量產首款霍爾電流傳感器,2022 年發布汽車馬達驅動和汽車電源芯片,2023 年發布車用小電機驅動SOC。重新分類后,公司產品主要分為傳感器、信號鏈和電源管理三大產品線,主要應用于汽車電子、泛能源和消費電子。26/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 汽車電子產品持續放量,公司營收成長性強。根據公告,2024 年公司營收增長主要系 1)汽車電子領域相關產品持續放量
63、;2)消費電子領域景氣度持續改善;3)泛能源領域的工業自動化和數字電源領域大部分客戶恢復正常需求。2024 年 11 月,納芯微聯合芯弦推出 NS800RT 系列實時控制 MCU,從中端市場入手,為未來進入高端市場打通客戶渠道。受益于汽車智能化及國產化拉動,汽車整體需求及車規國產芯片需求有望持續提升,公司已切入主要汽車客戶,在拓展份額方面具備先發優勢。4.寒武紀寒武紀 專注人工智能芯片產品研發,提供行業場景算力底座。專注人工智能芯片產品研發,提供行業場景算力底座。寒武紀成立于 2016 年,專注于人工智能芯片產品的研發與技術創新,致力于打造人工智能領域的核心處理器芯片,讓機器更好地理解和服務人
64、類。寒武紀提供云邊端一體、軟硬件協同、訓練推理融合、具備統一生態的系列化智能芯片產品和平臺化基礎系統軟件。寒武紀產品廣泛應用于服務器廠商和產業公司,面向互聯網、金融、交通、能源、電力和制造等領域的復雜 AI 應用場景提供充裕算力,推動人工智能賦能產業升級。27/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 芯片產品為公司核心業務支撐,以思元芯片產品為公司核心業務支撐,以思元 370 芯片為例:芯片為例:基于 7nm 制程工藝,思元 370 是寒武紀首款采用 chiplet(芯粒)技術的 AI 芯片,集成了 390 億個晶體管,最大算力高達 256TOPS(I
65、NT8),是寒武紀第二代產品思元 270 算力的 2 倍。憑借寒武紀最新智能芯片架構 MLUarch03,思元 370 實測性能表現更為優秀。思元 370 也是國內第一款公開發布支持 LPDDR5 內存的云端 AI 芯片,內存帶寬是上一代產品的 3 倍,訪存能效達 GDDR6 的 1.5 倍。搭載 MLU-Link多芯互聯技術,在分布式訓練或推理任務中為多顆思元 370 芯片提供高效協同能力。全新升級的寒武紀基礎軟件平臺,新增推理加速引擎MagicMind,實現訓推一體,大幅提升了開發部署的效率,降低用戶的學習成本、開發成本和運營成本。28/36 2025 年年 4 月月 14 日日 行業行業
66、|深度深度|研究報告研究報告 厚積薄發,打造人工智能產業核心引擎。厚積薄發,打造人工智能產業核心引擎。寒武紀作為中國智能芯片領域的標桿企業,專注于人工智能芯片的研發與技術創新,產品矩陣覆蓋云、邊緣和終端三大場景,逐步構建出完整的生態體系。公司股權結構穩定,核心管理層具備深厚的行業經驗,同時通過激勵機制保障團隊活力,展現出對市場拓展和業務規模增長的信心。2024 年公司預計實現營業收入 10.7-12.0 億元,同比增長 50.8%到 69.2%。國產算力騰飛在即,寒武紀迎來黃金發展期。國產算力騰飛在即,寒武紀迎來黃金發展期。在政府政策支持和企業需求激增的雙重推動下,國產算力市場空間廣闊。202
67、5 年或將成為政府和運營商算力采購的大年,六部門定調到 25 年建設 105EFlops 智能算力,中國移動計劃 24-25 年采購 AI 服務器 7994 臺?;ヂ摼W企業,特別是字節跳動等公司,在資本開支和 AI 推理需求上持續加碼,這為國產算力廠商提供了歷史性機遇。字節 CapEx 自 24 年 800 億元飆升至 25 年 1600 億元,對比北美云廠商 24 年平均 CapEx 約合 3800 億人民幣左右。我們預計國內云廠商 CapEx 上升空間依然廣闊,有望帶動算力芯片需求增長。寒武紀憑借技術優勢和產品布局,有望在新一輪增長周期中獲得顯著市場份額。智算未來先鋒,寒武紀引領國產算力新
68、格局。智算未來先鋒,寒武紀引領國產算力新格局。寒武紀在技術路徑上采取通用型智能芯片的開發路線,兼具高性能和低功耗,適配多場景應用,與國內外競爭者相比具備顯著優勢。具體體現在 1)“領跑者“計劃推動數據中心算力國產替代;2)公司通過不斷推出高性能芯片,強化產品迭代能力,進一步鞏固其在國產算力領域的領先地位;3)差異化設計架構,憑借多樣化運算的高效適配能力,與 GoogleTPU 對比各有千秋。5.復旦微復旦微電電 公司 FPGA 產品線技術領先,目前已可提供千萬門級、億門級和十億門級 FPGA 產品和 PSoC 產品,具備全流程自主知識產權 FPGA 配套 EDA 工具 ProciseTM,以及
69、面向人工智能應用的融合現場可編程(FPGA)和人工智能(AI)的可重構芯片(FPAI)。目前該產品線正在推進基于 1xnmFinFET 先進制程的新一代 FPGA 和 PSoC 產品,新一代 FPGA 產品完成樣片測試,已針對部分導入客戶小批量銷售,并同步開展良率提升工作,產品譜系化工作也正在推進。存儲產線協同發展,上半年銷量大幅增長存儲產線協同發展,上半年銷量大幅增長。公司已形成 EEPROM、NORFlash、NANDFlash 三大產品線,建立了完整的利基非揮發存儲器產品架構,擁有包括 FLOTOX、ETOX、SONOS 等多種技術平臺的研發儲備。經過 2023 年的調整,2024 年上
70、半年由于終端及渠道庫存消化,存儲產品逐步回暖。公司存儲產品線受益于行業變化,銷量有較大增長,消費及工業級 SPINAND、NOR 產品線價格止跌回升。目前階段,存儲產品的價格比較穩定。公司豐富的存儲器產品線,與 FPGA、MCU、安全與識別等產品線相結合,產品滿足商用、高工規和車規等客戶需求,為工控儀表、醫療、通訊、汽車、消費電子等應用領域提供一站式解決方案。6.紫光國微紫光國微 紫光國微是國內領先的綜合性集成電路芯片產品和解決方案提供商。紫光國微是國內領先的綜合性集成電路芯片產品和解決方案提供商。紫光國微聚焦特種集成電路、智能安全芯片兩大主業,并涵蓋石英晶體頻率器件、功率半導體等重要業務,以
71、芯片、系統解決方案賦能千行百業,產品深度布局移動通信、金融、政務、汽車、工業、物聯網等領域,為數字經濟高質量發展提供堅實的基礎支撐。公司在研發能力、核心技術、供應鏈和客戶資源等方面競爭優勢明顯,于 2021 年入選工信部第三批專精特新“小巨人”企業名單。29/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 根據 Wind 數據,新紫光集團通過其全資孫公司紫光春華持有紫光國微 26.0%股權,為上市公司控股股東。2022 年紫光集團完成重整后,“智路建廣聯合體”(即北京智廣芯控股)成為紫光集團的重整戰略投資人。目前由新紫光集團董事、聯席總裁陳杰任紫光國微董事長。
72、特種業務持續產品研發。特種業務持續產品研發。24 年公司特種集成電路業務受市場下游需求不足影響,面臨部分產品價格下降和去庫存壓力,仍堅持技術創新,在特種 FPGA、特種存儲器、AI 智能芯片及模擬領域均保持市場領先地位。新一代更高性能 FPGA 產品推廣進展順利,已取得多家核心客戶訂單。新開發的特種新型存儲器已向用戶供貨,HBM 存儲芯片已處于樣品系統集成驗證階段;新研發的交換芯片已開始批量供貨,并累計完成十余系列研發工作。以特種 SoPC 平臺產品為代表的四代系統級芯片、RF-SOC 產品、通用MCU 整體推進情況良好,均已獲用戶訂單。圖像 AI 智能芯片、數字信號處理器 DSP 已完成研發
73、并在推廣中實現用戶選用;中高端 MCU、視頻芯片等領域的產品研制進展順利。模擬產品領域,公司完成了高性能射頻時鐘、多通道開關電源、高性能運算放大器、以太網 PHY、大功率片上隔離電源的設計并流片成功,并推出了射頻采樣收發器、超高速射頻 ADC、超低噪聲線性電源以及功率監控電路等產品。汽車電子等領域全面布局,提供新動能。24 年公司智能安全芯片業務總體保持平穩,持續完善以信息安全和功能安全為基礎,逐步覆蓋周邊配套產品的汽車電子業務布局,打造了汽車控制芯片、汽車安全芯片、功率器件等產品。紫光同芯發布了國內首顆通過 ASILD 產品認證的 R52+內核車規 MCUTHA6系列產品,其中 THA620
74、6 在產品安全性、可靠性、算力、實用性方面全面對標國際大廠,多家主機廠和 Tier1 正基于該芯片進行開發測試;高端旗艦級產品 THA6412 適應動力底盤域控場景需求,特別是多合一電驅控制器、發動機、底盤域控、區域控制等應用。7.景嘉微景嘉微 30/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 景嘉微成立于 2006 年 4 月,作為國內首家實現圖形處理器芯片(GPU)產業化應用的上市企業,公司構建了從架構設計、算法優化到芯片量產的全棧式技術能力。深耕專用領域十八載,已形成覆蓋圖形顯控、小型專用化雷達、GPU 芯片三大業務板塊的立體化布局,2023 年研發
75、投入占營業收入比重為46.44%,獲得專利授權 142 項(其中國家發明專利 107 項),構筑了深厚的核心技術壁壘。公司憑借深厚的技術積淀與領先優勢在國內圖形處理芯片研發領域處于領先地位。主營三大業務板塊:圖形顯主營三大業務板塊:圖形顯控領域、小型專用化雷達、控領域、小型專用化雷達、GPU 芯片業務。芯片業務。圖形顯控領域產品是公司的主要營收來源,始終占公司總營收 45%以上。GPU 芯片近年來占比逐漸增加,2023 年營收占比 14%。GPU 芯片業務是公司的主要發力點,目前產品主要為 JM5 系列,JM7 系列與 JM9 系列,公司最新一代 JM11 系列芯片已經完成流片、封裝以及初步測
76、試階段,根據公司公布測試結果來看,JM11 系列可以滿足各種云端應用場景,同時可廣泛應用于服務器、圖形工作站、臺式機以及筆記本等設備。積極導入民用市場,定增布局高性能積極導入民用市場,定增布局高性能 GPU 芯片打造第二曲線芯片打造第二曲線。公司近年來大力研發且向市場積極推廣,成功打開并拓寬了民用市場空間,同時在高性能 GPU 領域定增投入打造第二成長曲線。7 系列與 9 系列GPU 芯片在信創行業廣泛落地,應用領域涵蓋游戲、媒體處理、地理信息系統、CAD 設計輔助等多種使用場景。公司積極與國內廠商建立合作,與包括龍芯、飛騰、銀河麒麟等國內主要的 CPU 廠商和操作系統廠商展開適配工作,并與十
77、余家國內主要計算機整機廠商建立合作關系,共建國產化計算機應用生態。同時,公司重點布局高性能 GPU 與通用 GPU,打造第二成長曲線。31/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 八、八、未來展望:未來展望:DeepSeek 有望推動國產有望推動國產 AI 算力芯片加速算力芯片加速發展發展 以 ChatGPT 為代表的生成式 AI 大模型在訓練和推理方面對 GPU 等算力芯片的性能有一定高程度的要求,這讓在性能方面落后的國產 GPU 芯片難以入局,然而 DeepSeek 的問世改變了 GPU 芯片市場的格局。GPT-4 的訓練成本超過 1 億美元,使用
78、成本百萬 token 輸入 2.5 美元,百萬 token 輸出 10 美元。而DeepSeek-V3 的訓練成本僅為 557.6 萬美元,DeepSeek-V3 的 API 服務定價為每百萬輸入 tokens0.5 元(緩存命中)/2 元(緩存未命中),每百萬輸出 tokens 價格為 8 元。1.DeepSeek 通過技術創新實現大模型訓練極高的性價比通過技術創新實現大模型訓練極高的性價比 2024 年 12 月 26 日,DeepSeek 正式發布全新系列模型 DeepSeek-V3,DeepSeek-V3 為自研 MoE 模型,總參數量為 671B,每個 token 激活 37B 參數
79、,在 14.8Ttoken 上進行了預訓練。DeepSeek-V3 在性能上對標 OpenAIGPT-4o 模型,并在成本上優勢巨大,實現極高的性價比。DeepSeekV3 的技術創新主要體現在采用混合專家(MoE)架構,動態選擇最合適的子模型來處理輸入數據,以降低計算量;引入多頭潛在注意力機制(MLA)降低內存占用和計算成本,同時保持高性能;采用 FP8 混合精度訓練降低算力資源消耗,同時保持模型性能;采用多 Token 預測(MTP)方法提升模型訓練和推理的效率。2.DeepSeekMoE 架構通過動態組合多個專家模型架構通過動態組合多個專家模型提升模型的性能和效率提升模型的性能和效率 D
80、eepSeek 的 MoE 架構通過將傳統 Transformer 中的前饋網絡(FFN)層替換為 MoE 層,引入多個專家網絡(Experts)和一個門控網絡(Gating Network)。專家網絡包括多個獨立的專家模型,每個專家模型負責處理特定類型的數據。門控網絡負責決定每個輸入數據應該由哪些專家模型處理,并分配相應的權重;通過門控機制,模型能夠動態選擇最合適的專家來處理輸入數據。DeepSeekMoE 架構采用稀疏激活策略,每次訓練或推理時只激活部分專家,而不是整個模型;在 DeepSeek-V3 中,模型總參數為 6710 億,但每次訓練僅激活 370 億參數,從而提高計算效率。傳統
81、的 Transformer 架構采用固定的編碼器-解碼器結構,所有輸入數據通過相同的多層自注意力機制和前饋神經網絡處理;模型的參數是靜態的,無法根據輸入數據的特性動態調整。多頭潛在注意力機制(MLA)的核心思想是對 KV 進行低秩壓縮,以減少推理過程中的 KV 緩存,從而降低內存占用及計算成本。在傳統的 Transformer 架構推理過程中,在進行生成式任務時,模型需要逐步生成序列,每次生成一個新 token 時,模型需要讀入所有過去 Token 的上下文,重新計算之前所有token 的鍵(Key)和值(Value)。KV 緩存通過存儲這些已計算的 Key 和 Value,避免重復計算,從而
82、提高推理效率。MLA 的方法是將 KV 矩陣轉換為低秩形式,將原矩陣表示為兩個較小矩陣(相當于潛 32/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 在向量)的乘積,在推理過程中,僅緩存潛在向量,而不緩存完整的 KV。這種低秩壓縮技術顯著減少了 KV 緩存的大小,同時保留了關鍵信息,從而降低內存占用及計算成本。多 token 預測(MTP)是一種創新的訓練目標,通過同時預測多個未來 token 來提升模型的訓練和推理效率。MTP 技術基于主模型(Main Model)和多個順序模塊(MTP Module),主模型負責基礎的下一個 Token 預測,而 MTP
83、 模塊用于預測多個未來 Token。傳統的模型通常一次只預測下一個 token,在生成文本時,模型按照順序逐個生成下一個 Token,每生成一個 Token 都要進行一次完整的計算,依賴前一個生成的 Token 來生成下一個;而 MTP 能夠同時預測多個連續的 Token,模型通過改造增加多個獨立輸出頭,利用多 token 交叉熵損失進行訓練,一次計算可以得到多個 Token 的預測結果,顯著增加了訓練信號的密度,提升模型的訓練和推理效率,并且 MTP 生成的文本更加連貫自然,適合長文本生成任務。33/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 3.Dee
84、pSeek 采用采用 FP8 混混合精度訓練技術在訓練效率、內存占用和模型性合精度訓練技術在訓練效率、內存占用和模型性能方面實現了顯著優化能方面實現了顯著優化 傳統大模型通常使用 FP32 或 FP16 進行訓練,精度較高,但計算速度慢,內存占用較大。而 FP8 數據位寬是 8 位,與 FP16、FP32 相比,使用 FP8 進行計算的速度最快、內存占用最小。DeepSeekFP8 混合精度將 FP8 與 BF16、FP32 等結合,采用 FP8 進行大量核心計算操作,少數關鍵操作則使用 BF16 或FP32,提高效率的同時確保數值穩定性,并顯著減少了內存占用和計算開銷。4.DeepSeek
85、實現大模型訓練與推理成本優勢巨大,助力實現大模型訓練與推理成本優勢巨大,助力 AI 應用大規模落應用大規模落地地 DeepSeekV3 的訓練成本具有極大的經濟性,根據 DeepSeek-R1TechnicalReport 的數據,在預訓練階段,每處理 1 萬億 tokens,訓練 DeepSeek-V3 僅需 18 萬 H800GPU 小時,即在 2048 塊 H800GPU 的集群上需要 3.7 天;因此,DeepSeek-V3 的預訓練階段在不到兩個月內完成,耗時 266.4 萬(2664K)GPU 小時;加上上下文長度擴展所需的 11.9 萬 GPU 小時和后訓練所需的 5 千 GPU
86、 小時,DeepSeek-V3 的完整訓練僅需 278.8 萬 GPU 小時;假設 H800GPU 的租賃價格為每小時 2 美元,DeepSeek-V3的總訓練成本僅為 557.6 萬美元。2025 年 1 月 20 日 DeepSeek-R1 正式發布,其 API 定價為每百萬輸入tokens1 元(緩存命中)/4 元(緩存未命中),每百萬輸出 tokens16 元;OpenAlo1 定價為每百萬輸入tokens55 元(緩存命中)/110 元(緩存未命中),每百萬輸出 tokens438 元;DeepSeek-R1API 調用成本不到 OpenAlo1 的 5%。DeepSeek-V3 性
87、能對標 GPT-4o,DeepSeek-R1 性能對標 OpenAIo1,并且DeepSeek 模型成本優勢巨大,有望推動 AI 應用大規模落地。34/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 5.DeepSeek 有望推動推理需求加速釋放,國產有望推動推理需求加速釋放,國產 AI 算力芯片或持續提升市算力芯片或持續提升市場份額場份額 隨著大模型的成熟及 AI 應用的不斷拓展,推理場景需求日益增加,推理服務器的占比將顯著提高;IDC預計 2028 年中國 AI 服務器用于推理工作負載占比將達到 73%。根據的 IDC 數據,2024 上半年,中國加速芯片
88、的市場規模達超過 90 萬張,國產 AI 芯片出貨量已接近 20 萬張,約占整個市場份額的 20%;用于推理的 AI 芯片占據 61%的市場份額。DeepSeek-R1 通過技術創新實現模型推理極高性價比,蒸餾技術使小模型也具有強大的推理能力及低成本,將助力 AI 應用大規模落地,有望推動推理需求加速釋放。由于推理服務器占比遠高于訓練服務器,在 AI 算力芯片進口受限的背景下,用于推理的 AI 算力芯片國產替代空間更為廣闊,國產 AI 算力芯片有望持續提升市場份額。6.國產算力生態鏈全面適配國產算力生態鏈全面適配 DeepSeek,國產,國產 AI 算力芯片廠商有望加速發算力芯片廠商有望加速發
89、展展 35/36 2025 年年 4 月月 14 日日 行業行業|深度深度|研究報告研究報告 DeepSeek 大模型得到全球眾多科技廠商的認可,紛紛對 DeepSeek 模型進行支持,國內 AI 算力芯片廠商、CPU 廠商、操作系統廠商、AI 服務器及一體機廠商、云計算及 IDC 廠商等國產算力生態鏈全面適配 DeepSeek,有望加速 AI 應用落地。華為昇騰、沐曦、天數智芯、摩爾線程、海光信息、壁仞科技、寒武紀、云天勵飛、燧原科技、昆侖芯等國產 AI 算力芯片廠商已完成適配 DeepSeek,DeepSeek 通過技術創新提升 AI 算力芯片的效率,進而加快國產 AI 算力芯片自主可控的
90、進程,國產 AI 算力芯片廠商有望加速發展。九九、參考研報參考研報 36/36 2025 年年 4 月月 14 日日行業行業|深度深度|研究報告研究報告 1.中原證券-半導體行業深度報告:AI 算力芯片AI 時代的引擎2.中原證券-半導體行業:AI 算力芯片是“AI 時代的引擎”,河南省著力布局3.東吳證券-電子行業點評報告:GPGPU 與 ASIC 之爭算力芯片看點系列-4.招商證券-半導體行業月度深度跟蹤:DeepSeek 推動國內 AI 生態發展,算力芯片適配、端側創新等加速5.國投證券-電子行業周報:美新規加速算力芯片國產替代,高通展望端側 AI 落地趨勢6.國泰君安-電子元器件行業事
91、件快評:國內政策驅動自主可控,國產算力芯片加速滲透7.中原證券-通信行業專題研究:算力基建帶動光芯片需求持續增長,河南省“追光逐芯”助力國產芯片突圍8.山西證券-海光信息-688041-國產 CPU 和 DCU 雙領軍,信創+AI 驅動高速成長9.華福證券-龍芯中科-688047-自主指令集踏波逐浪,信創+開放市場雙輪驅動10.申萬宏源-納芯微-688052-國產稀缺車規模擬芯片廠商11.中泰證券-納芯微-688052-內生外延兩翼齊飛,聚焦汽車等高壁壘市場持續深化產品矩陣12.國盛證券-寒武紀-688256-國產算力核心,時代的主角13.東吳證券-寒武紀-688256-寒武破曉,算力騰飛14.華鑫證券-復旦微電-688385-公司動態研究報告:盈利能力短期承壓,新一代 FPGA 產品穩步推進15.廣發證券-紫光國微-002049-維持行業領先地位,持續布局重點領域16.東方證券-紫光國微-002049-汽車電子領域全面布局,特種行業持續拓展17.華西證券-景嘉微-300474-國產 GPU 先驅者,定增加碼高性能 GPU18.浙商證券-景嘉微-300474-深度報告:國產 GPU 先鋒,技術積淀與研發優勢驅動未來免責聲明:以上內容僅供學習交流,不構成投資建議。