《計算機行業專題研究:DeepSeek重構算力基建長期價值的認知-250314(27頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業專題研究:DeepSeek重構算力基建長期價值的認知-250314(27頁).pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、 請務必閱讀正文之后的免責條款部分 股票研究股票研究 行業專題研究行業專題研究 證券研究報告證券研究報告 股票研究/Table_Date 2025.03.14 DeepSeek 重構算力基建長期價值的認知重構算力基建長期價值的認知 Table_Industry 計算機計算機 Table_Invest 評級:評級:增持增持 上次評級:增持 Table_Report 相關報告相關報告 計算機AI 應用自留地:行業 Know-how 和本地數據2025.03.09 計算機Manus 發布,數字代理人產品引發熱潮2025.03.07 計算機DeepSeek 開源技術提高硬件利用率2025.03.03
2、計算機向量數據庫助推 RAG 加速大模型應用2025.02.24 計算機DeepSeek NSA 架構引領 AI 效率革新2025.02.20 table_Authors 李博倫李博倫(分析師分析師)伍巍伍巍(研究助理研究助理)鐘明翰鐘明翰(研究助理研究助理)0755-23976516 021-38031029 021-38031383 登記編號登記編號 S0880520020004 S0880123070157 S0880124070047 本報告導讀:本報告導讀:市場低估了市場低估了 DeepSeek 生態對算力需求的放大效應,生態對算力需求的放大效應,我們我們預計僅其推理端就預計僅其推理
3、端就將將產生產生近百萬近百萬 PFLOPS 的算力需求。精度支持的算力需求。精度支持及通信效率率先突破及通信效率率先突破的國產的國產 AI 芯片廠商將芯片廠商將獲得獲得顯著的顯著的發展機會。發展機會。投資要點:投資要點:Table_Summary 投資建議:投資建議:DeepSeek 的技術突破雖然短期內引發市場對高端 AI 芯片需求的擔憂,但通過降低準大模型訓練準入門檻擴大了整體市場規模。首先受益的是國產算力芯片廠商,特別是華為昇騰等已經在推理性能上接近國際水平的企業,將借助性價比優勢在企業級部署市場獲得突破。隨著企業級部署需求增長,算力租賃商將迎來增長,大量中小企業會選擇更靈活的租賃方案來
4、降低初始投入。當大模型部署成本降低到一定水平后,終端設備推理算力需求將顯著提升,驅動端側 AI 芯片市場擴容。推薦標的:紫光股份、浪潮信息、科大訊飛,受益標的:云從科技、拓維信息、神州數碼、中科曙光。DeepSeek 的低成本突破實際上通過降低準入門檻擴大了市場規模,的低成本突破實際上通過降低準入門檻擴大了市場規模,進一步推動了進一步推動了 AI 民主化進程。民主化進程。DeepSeek-V3 以 557.6 萬美元的訓練成本刷新了大語言模型的經濟性基準,一度引發市場對高端 AI 芯片的必要性的質疑。然而,從 DeepSeek 技術創新的角度以及持續攀升的 AI 算力需求,我們重新認識到:降低
5、單次訓練成本的技術突破不僅沒有減少市場對高性能 AI 芯片的需求,反而通過降低準入門檻以及催生海量推理需求而擴大了市場規模。根據我們測算,DeepSeek 生態或將產生近百萬 PFLOPS 級別的推理算力需求,對應每年超過千億元的算力租賃市場。DeepSeek 生態的崛起為國產生態的崛起為國產 AI 芯片提供了前所未有的替代機遇,芯片提供了前所未有的替代機遇,華為華為昇昇騰等國產芯片廠商有望在這一浪潮中搶占市場份額。騰等國產芯片廠商有望在這一浪潮中搶占市場份額。華為昇騰 910B在訓練時效率已達到 A100 的 80%,910C在 DeepSeek 實測中 AI 推理性能已達到 H100 的
6、60%左右。DeepSeek 從第一天起就支持華為昇騰芯片,并自主維護 PyTorch 倉庫,使開發者只需一行代碼就能將 CUDA 轉換為 CUNN。DeepSeek 全系列模型正式上線昇騰社區 Model Zoo,同時,基于昇騰 AI硬件與昇思 MindSpore AI框架的 DeepSeek-V3已完成開發支持并上線開源社區,這種深度的生態融合為華為在企業級 AI市場的拓展提供了重要支撐。國產國產 AI 芯片在精度支持和通信效率等關鍵技術維度仍需突破,但芯片在精度支持和通信效率等關鍵技術維度仍需突破,但長期發展前景廣闊。長期發展前景廣闊。目前國內廠商在 FP8/FP64 精度支持和芯片間高
7、效通信等方面與國際領先產品存在差距。但隨著 DeepSeek 等國產大模型帶來的市場機遇,以及國內廠商在軟硬件協同優化方面的持續投入,國產 AI 芯片有望在特定場景實現突破。特別是在企業級市場,憑借性價比優勢和本地化部署能力,國產芯片廠商將迎來重要的市場機遇,有望在新一輪產業變革中占據重要地位。風險提示:風險提示:推理算力需求不及預測,精度支持等技術瓶頸突破緩慢,技術供應受限,CUDA 生態替代進程不及預期。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 2 of 27 目錄目錄 1.投資建議.3 2.DeepSeek 重構市場對算力基建長期價值的認知.3 2.1.訓練:架構創新降
8、低訓練開銷,強化學習路徑減少數據依賴.3 2.2.推理:雙階段架構優化推理效率,蒸餾技術降低部署門檻.7 2.3.技術創新引發市場震蕩,但長期算力需求未被動搖.8 2.4.DeepSeek 的運營挑戰和硬件依賴凸顯了算力基建的重要性.9 2.5.Scaling Law 未被顛覆,后訓練與推理階段催生新需求.10 2.6.AI 向 Agent 和多模態發展的趨勢將進一步提高算力需求.11 3.技術效率提升與市場擴張并行,算力需求迎來新增長.13 3.1.競爭格局并未塵埃落定,訓練投入仍在持續加碼.13 3.2.DeepSeek 引發 C 端熱情,平臺整合進一步擴大用戶基礎.14 3.3.大模型應
9、用生態在企業加速落地,推理算力需求迎來爆發期.15 3.3.1.云平臺與一體機的接入加速 DeepSeek 的滲透.15 3.3.2.垂直場景應用生態已初步形成,推理算力將迎來爆發.17 4.DeepSeek 生態或產生百萬 PFLOPS 算力需求及千億算力租賃市場.19 5.硬件瓶頸亟待突破,生態協同孕育國產機遇.22 5.1.英偉達的“護城河”并非堅不可摧.22 5.2.DeepSeek 催化,國產 AI 芯片迎來替代浪潮.23 5.3.精度支持與通信效率落后制約硬件替代進程,亟需技術突破.25 6.風險提示.26 zXmYmMtMvNxOrMoQ8OcM9PpNoOtRqNjMnNmPe
10、RrQtM7NrRwPvPmNtQwMmRsQ行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 3 of 27 1.投資建議投資建議 投資建議:投資建議:DeepSeek 的技術突破雖然短期內引發市場對高端 AI 芯片需求的擔憂,但通過降低準大模型訓練準入門檻擴大了整體市場規模。首先受益的是國產算力芯片廠商,特別是華為昇騰等已經在推理性能上接近國際水平的企業,將借助性價比優勢在企業級部署市場獲得突破。隨著企業級部署需求增長,算力租賃商將迎來增長,大量中小企業會選擇更靈活的租賃方案來降低初始投入。當大模型部署成本降低到一定水平后,終端設備推理算力需求將顯著提升,驅動端側 AI 芯片市場
11、擴容。推薦標的:紫光股份、浪潮信息、科大訊飛,受益標的:云從科技、拓維信息、神州數碼、中科曙光。表表1:推薦標的盈利預測推薦標的盈利預測 股票名稱股票名稱 股價(元)股價(元)EPS(元(元/股)股)PE(倍)(倍)評級評級 2025/3/12 2023A 2024E 2025E 2023A 2024E 2025E 科大訊飛科大訊飛 51.98 0.28 0.39 0.43 185.64 133.28 120.88 增持 浪潮信息浪潮信息 58.82 1.18 1.74 2.11 49.83 33.80 27.88 增持 紫光股份紫光股份 29.15 0.74 0.87 1.02 39.66
12、33.51 28.58 增持 數據來源:國泰君安證券研究 2.DeepSeek 重構市場對算力基建長期價值的認知重構市場對算力基建長期價值的認知 DeepSeek-V3 以以 557.6 萬美元的訓練成本刷新了大語言模型的經濟性基準,萬美元的訓練成本刷新了大語言模型的經濟性基準,引發市場對引發市場對 AI 算力成本重新定價的思考算力成本重新定價的思考。根據DeepSeek-V3 Technical Report,DeepSeek-V3 僅使用了 278.8 萬 GPU 小時(H800)即完成了完整訓練,這一突破性成果一度引發市場震動。然而,隨著市場對 DeepSeek 技術創新的深入理解,以及
13、持續攀升的 AI 算力需求,我們意識到:降低單次訓練成本的技術突破,不僅沒有減少市場對高性能 AI 芯片的需求,反而通過降低準入門檻擴大了市場規模,進一步推動了 AI 民主化的進程。2.1.訓練:訓練:架構創新降低訓練開銷,強化學習架構創新降低訓練開銷,強化學習路徑路徑減少數據依賴減少數據依賴 DeepSeek V3 和和 R1 全面突破了大模型訓練成本的瓶頸全面突破了大模型訓練成本的瓶頸。在 V3 系列中,通過 MLA 機制、FP8 混合精度訓練和 DualPipe 并行框架等技術創新,顯著降低了計算和內存開銷;在 R1 系列中,通過強化學習和冷啟動策略,大幅減少了對昂貴監督數據的依賴。這些
14、突破性進展為大模型的經濟性訓練開辟了新途徑。DeepSeek-V3:DeepSeek-V3 通過通過 Multi-Head Latent Attention(MLA)機制實現了顯著的機制實現了顯著的訓練成本優化,核心在于低秩聯合壓縮技術。訓練成本優化,核心在于低秩聯合壓縮技術。MLA 架構在注意力計算中采用了創新的低秩聯合壓縮方法,將注意力的鍵值對壓縮到更低維度的潛在向量空間。MLA 的設計使得在生成過程中只需緩存壓縮后的潛在向量,這大幅減少了 KV 緩存需求。同時,DeepSeek-V3 對注意力查詢也執行低秩壓縮,并通過 Rotary Positional Embedding(RoPE)進
15、行處理。這種壓縮方法在保持與標準 Multi-Head Attention 相當性能的同時,顯著降低了訓練過程中的內存占用和計算成本,使DeepSeek-V3在經濟性訓練方面具有明顯優勢。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 4 of 27 圖圖1:DeepSeek V3 架構示意:在架構示意:在 V2 基礎上延用基礎上延用 MLA 和和 DeepSeekMoE 數據來源:DeepSeek 創新的創新的 Auxiliary-Loss-Free 負載均衡策略顯著提升了負載均衡策略顯著提升了 MoE 架構的訓練效架構的訓練效率和計算資源利用率率和計算資源利用率。DeepSee
16、k-V3 對傳統 MoE 架構進行了重要改進,引入了更細粒度的專家分配機制。與傳統依賴輔助損失函數來實現負載均衡的方法不同,DeepSeek-V3 引入了動態偏置項機制,實時監控每個訓練步驟中專家的負載情況,自動調整偏置參數,既確保了計算負載的均衡分布,又避免了額外的性能損失,使得模型在整個訓練過程中都能保持 token 的完整性,同時通過 Node-Limited Routing 機制限制了通信開銷,實現了接近完整的計算-通信重疊,從而在保證模型性能的同時顯著提升了訓練效率。Multi-Token Prediction(MTP)機制實現了更密集的訓練信號和更高效的數機制實現了更密集的訓練信號
17、和更高效的數據利用據利用。DeepSeek-V3 的 MTP 設計采用了順序預測機制,在每個位置同時預測多個未來 token。MTP 通過若干個順序模塊實現,每個模塊共享embedding 層和輸出層,顯著節省了參數開銷。與傳統并行預測方法相比,MTP 保持了完整的因果鏈預測關系,幫助模型建立更好的長期依賴關系。特別值得注意的是,這些 MTP 模塊僅在訓練階段發揮作用,在實際推理時可以直接移除,確保了推理階段的輕量高效,同時又充分實現了訓練階段的優化效果。圖圖2:MTP 示意:在每個深度上保留每個示意:在每個深度上保留每個 token 預測的完整因果鏈預測的完整因果鏈 數據來源:DeepSee
18、k DualPipe 并行訓練框架通過計算與通信的高效重疊顯著提升了訓練效率并行訓練框架通過計算與通信的高效重疊顯著提升了訓練效率。傳統的跨節點專家并行訓練面臨計算與通信比例約為 1:1 的效率瓶頸。DualPipe 通過將每個計算塊分為 attention、all-to-all dispatch、MLP 和 all-to-行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 5 of 27 all combine 四個組件,并對前向和反向計算塊進行精細編排,有效消除了訓練過程中的 pipeline bubbles。與傳統的 1F1B(Harlap et al.,2018)和ZB1P(Q
19、i et al.,2023b)方法相比,DualPipe 將 pipeline bubbles 減少了 3 倍,同時僅增加 1/2 倍的峰值激活內存。更重要的是,DualPipe 具有出色的可擴展性,其 bubbles 和激活內存不會隨著 micro-batches 數量的增加而增長,這使其在大規模訓練場景下具有顯著優勢。圖圖3:DualPipe 雙向并行訓練框架突破了計算通信比例瓶頸雙向并行訓練框架突破了計算通信比例瓶頸 數據來源:DeepSeek DeepSeek-V3 通過優化跨節點通過優化跨節點 all-to-all 通信機制,巧妙利用通信機制,巧妙利用 IB 和和 NVLink雙通道
20、特性實現高效計算雙通道特性實現高效計算。研究團隊針對集群架構特點,設計了專門的通信內核,其中節點間通過 IB 互聯(帶寬 50GB/s),節點內則采用 NVLink 通信(帶寬 160GB/s,約為 IB 的 3.2 倍),充分利用硬件優勢,并采用IB 優先傳輸+NVLink 即時轉發的策略,實現了 IB 和 NVLink 通信的完全重疊,使得每個 token 在不增加 NVLink 額外開銷的情況下,可以高效選擇平均 3.2個專家/節點,僅需 20 個 SMs 就能充分利用雙通道帶寬,且系統可以在保持相同通信成本的前提下,將路由專家數從目前的 8 個擴展至 13 個。三大關鍵技術實現訓練過程
21、中的極致內存優化三大關鍵技術實現訓練過程中的極致內存優化。通過在反向傳播時重新計算 RMSNorm 和 MLA 上投影操作,避免持續存儲這些激活輸出,僅帶來少量計算開銷就顯著降低了內存需求;將模型參數的指數移動平均存儲在CPU 內存中,并在每個訓練步驟后異步更新,實現了零額外開銷的參數追蹤;在 DualPipe 策略下,將 embedding 層等淺層和輸出層等深層部署在相同 PP rank 上,實現了 MTP 模塊與主模型間的參數和梯度物理共享,進一步提升了內存使用效率。DeepSeek 采用了采用了 FP8 混合精度訓練框架混合精度訓練框架。DeepSeek 設計了細粒度的混合精度方案,將
22、大部分計算密集型操作(如 GEMM 運算)采用 FP8 格式執行,同時對關鍵組件(如 embedding 模塊、輸出層、MoE 門控模塊、歸一化算子和注意力算子)保持原始精度。團隊引入了創新的分塊量化策略,并通過高精度累加過程降低量化誤差,相比 BF16 基準,該方案在訓練 1 萬億 token后的相對損失誤差保持在 0.25%內,同時顯著降低了內存占用和通信開銷。精細化的量化策略和高精度累加機制,有效解決了精細化的量化策略和高精度累加機制,有效解決了 FP8 低精度訓練中動態低精度訓練中動態范圍受限的問題范圍受限的問題。DeepSeek 提出了細粒度量化方案:對激活值采用 1x128的分塊量
23、化,對權重采用 128x128 的塊狀量化,顯著提升了對離群值的適應能力。同時,為解決低精度 GEMM 運算中的精度損失問題,團隊設計了基于 CUDA Cores 的高精度累加策略,每累積 128 個元素就提升到 FP32 進行一次精確計算。實驗驗證表明,該方案在 K=4096 的大規模矩陣運算中,將相對誤差控制在 2%以內。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 6 of 27 圖圖4:細粒度量化方案解決離群值引起的誤差細粒度量化方案解決離群值引起的誤差 數據來源:DeepSeek 低精度存儲和通信策略進一步優化訓練資源消耗低精度存儲和通信策略進一步優化訓練資源消耗。De
24、epSeek 在優化器狀態追蹤中采用 BF16 替代 FP32 格式,同時將激活值緩存轉換為 FP8 格式以降低內存占用。針對特定算子的精度敏感問題,團隊采取了差異化處理策略:對注意力算子后的線性層輸入采用定制的 E5M6 格式并使用整數冪縮放,而對 MoE 中的 SwiGLU 算子輸入則采用 FP8 存儲并在反向傳播階段重新計算輸出,在保證模型訓練穩定性的同時,顯著降低了內存和通信開銷。DeepSeek-R1:DeepSeek-R1 通過大規模強化學習替代監督數據,創新性地降低了訓練成通過大規模強化學習替代監督數據,創新性地降低了訓練成本本。DeepSeek 采用純 RL 訓練作為冷啟動策略
25、,僅在后期引入少量 CoT 數據進行微調,有效避免了大規模監督數據收集和標注的高昂成本,同時保證了模型的推理能力。DeepSeek-R1 通過優化強化學習算法和設計高效的獎勵機制,進一步降低通過優化強化學習算法和設計高效的獎勵機制,進一步降低了訓練成本了訓練成本。在算法層面,DeepSeek 采用 GRPO(Group Relative Policy Optimization)替代傳統的 critic 模型,通過組內相對策略優化顯著降低了計算開銷。在獎勵機制設計上,系統采用基于規則的雙重獎勵體系,包括準確性獎勵和格式規范獎勵,避免了使用需要額外訓練資源的神經網絡獎勵模型。這種基于規則的驗證方法
26、(如數學問題使用確定性結果驗證,代碼問題使用編譯器驗證)既保證了訓練效果,又降低了計算復雜度。圖圖5:DeepSeek-R1 在無監督訓練過程中自然形成了詳細推理能力在無監督訓練過程中自然形成了詳細推理能力 數據來源:DeepSeek 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 7 of 27 DeepSeek-R1 通過冷啟動策略,在保持低成本優勢的同時顯著提升了訓練通過冷啟動策略,在保持低成本優勢的同時顯著提升了訓練效率效率。與完全依賴 RL 訓練的 R1-Zero 相比,R1 引入了少量高質量的 Chain-of-Thought(CoT)數據作為冷啟動 cold star
27、t 基礎,有效避免了早期訓練的不穩定性。團隊采用多層級數據收集策略,首先利用 R1-Zero 生成初始答案,再通過人工后處理進行優化和驗證,最終僅收集了數千條 CoT 數據用于微調 DeepSeek-V3-Base 模型。這種方法既避免了大規模人工標注的高昂成本,又保證了訓練數據的質量,為后續的 RL 訓練奠定了良好基礎。相比傳統的全量監督學習方法,在保證模型性能的同時顯著降低了數據采集和標注成本,同時也加快了模型的收斂速度。2.2.推理:推理:雙階段架構優化推理效率,蒸餾技術降低部署門檻雙階段架構優化推理效率,蒸餾技術降低部署門檻 V3 和和 R1 全面優化了推理階段的成本效率。全面優化了推
28、理階段的成本效率。V3 系列采用雙階段推理架構和多級并行策略降低大規模部署成本,R1 系列則通過模型蒸餾技術實現小型化部署,共同構建了一套完整的低成本推理解決方案。圖圖6:DeepSeek V3 和和 R1 均提供了性價比極高的均提供了性價比極高的 API 定價定價 數據來源:DeepSeek DeepSeek-V3:DeepSeek-V3 基于基于 H800 集群構建了雙階段推理架構,實現服務質量與吞集群構建了雙階段推理架構,實現服務質量與吞吐量的平衡吐量的平衡。系統采用NVLink 連接節點內GPU,使用 IB 實現跨節點互聯,通過將推理過程分為 prefilling 和 decoding
29、 兩個階段,有效平衡了在線服務的響應時間(SLO)和整體吞吐量需求。prefilling 階段采用多級并行和動態專家調度策略,實現了推理性能的全面階段采用多級并行和動態專家調度策略,實現了推理性能的全面優化。優化。系統在4節點32 GPU的最小部署單元上,結合了4路張量并行(TP4)、8 路數據并行(DP8)和 32 路專家并行(EP32)的混合架構,通過小規模 TP 和節點內外差異化通信策略降低了通信開銷。為解決MoE中的負載均衡問題,引入了冗余專家機制,每個 GPU 除托管 8 個原始專家外,還額外部署 1 個冗余專家,并通過 10 分鐘一次的動態負載統計進行調整。同時,系統通過同時處理兩
30、個計算負載相近的 micro-batch,實現了 attention 和 MoE 計算與通信的有效重疊,進一步提升了整體吞吐量。decoding 階段采用大規模并行部署和精細化資源分配策略,平衡了延遲與階段采用大規模并行部署和精細化資源分配策略,平衡了延遲與吞吐量吞吐量。系統結合 TP4 和 DP80 的 attention 計算以及 EP320 的 MoE 架構,其中 64 個 GPU 專門負責冗余專家和共享專家。為降低延遲,系統采用IBGDA 技術實現 dispatch 和 combine 環節的點對點通信,并通過動態冗余策略優化專家路由??紤]到 decoding 階段 attention
31、 占比較大的特點,系統將一個 micro-batch 的 attention 計算與另一個的 dispatch+MoE+combine 重疊處理。同時,由于每個專家的 batch size 較?。ㄍǔT?256 tokens 以內),系統通過合理分配 SMs 資源,進一步優化了內存訪問效率。DeepSeek-R1:DeepSeek 通過蒸餾技術將大模型能力遷移到小模型,顯著降低了推理部署通過蒸餾技術將大模型能力遷移到小模型,顯著降低了推理部署行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 8 of 27 成本。成本。DeepSeek 選擇 Qwen-1.5B、Llama-3.5B
32、等高性價比的開源小模型作為蒸餾目標,直接使用 DeepSeek-R1 的訓練樣本進行微調,使小模型獲得了更強的推理能力,同時由于模型體積小、計算量低,大幅降低了實際部署時的算力需求和運營成本。2.3.技術創新引發市場震蕩,但長期算力需求未被動搖技術創新引發市場震蕩,但長期算力需求未被動搖 DeepSeek 的低成本突破引發了市場對的低成本突破引發了市場對 AI 發展路徑的重新思考。發展路徑的重新思考。2025 年 1月 27 日,英偉達股價大跌超 17%,市值蒸發超 5600 億美元,創下歷史最大單日跌幅。我們認為這一暴跌主要源于 DeepSeek 的技術創新動搖了市場對高算力依賴的固有認知:
33、通過創新的架構設計和訓練策略,DeepSeek 在較低算力投入下也實現了強大的模型性能,挑戰了 AI 發展必須依賴大規模算力的傳統觀點,引發市場對 AI 芯片需求預期和估值體系的重新審視,產生了大量對美國 Stargate 等大規模的算力投資項目的必要性的質疑。圖圖7:英偉達股價在英偉達股價在 1 月月 27 日出現大幅回調日出現大幅回調 數據來源:yahoo finance 情緒沖擊消化后,市場情緒沖擊消化后,市場開始開始重新重新理性看待算力需求的長期趨勢理性看待算力需求的長期趨勢。我們認為,雖然 DeepSeek 證明了低成本訓練的可能性,但這反而可能刺激大型科技公司加速 AI 創新,進一
34、步擴大算力投入以保持競爭優勢。更重要的是,DeepSeek 的創新可能通過降低 AI 開發門檻,反而擴大了市場規模,長期看反而有利于推動算力需求的增長。DeepSeek 公布的訓練成本僅反映了最終訓練階段的直接支出,大量隱性成公布的訓練成本僅反映了最終訓練階段的直接支出,大量隱性成本本易被易被忽視忽視。在正式訓練之前,企業需要投入大量資源進行前期研究,包括算法理論研究、硬件性能探索和數據集分析等基礎工作。特別是在消融實驗階段,為了確定最優模型架構,研發團隊往往需要反復驗證不同組件的重要性,這個反復試錯的過程會產生大量計算開銷。這些分散在數月乃至數年中的研發投入,以及未被披露的失敗嘗試,都構成了
35、難以量化的隱性成本。因此,僅以最終訓練階段的直接成本來評估 DeepSeek 的技術突破,可能會低估 AI 研發的實際投入門檻。DeepSeek 的實際運營經歷證實,即便降低了單次調用成本,算力供給仍然的實際運營經歷證實,即便降低了單次調用成本,算力供給仍然面臨嚴峻挑戰。面臨嚴峻挑戰。在上線僅 21 天后,DeepSeek 就積累了 2215 萬日活用戶,這種爆發式增長直接導致算力供不應求。2 月 6 日,DeepSeek 出現了服務器資源緊張的情況,不得不暫停 API 服務充值,以緩解服務器壓力。這一情況揭示了一個關鍵事實:雖然 DeepSeek 通過技術優化降低了推理成本,但用戶基數的急劇
36、擴大仍會導致整體算力需求的大幅上升。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 9 of 27 圖圖8:DeepSeek 在引起大量關注后出現了服務器資源供不應求的情況在引起大量關注后出現了服務器資源供不應求的情況 數據來源:WallStreet CN,DeepSeek 技術創新提升了算力效率,但并未改變技術創新提升了算力效率,但并未改變 AI 產業對高性能計算的剛性需求。產業對高性能計算的剛性需求。雖然架構優化和訓練策略創新能夠降低單位算力成本,但隨著 AI 應用從實驗室走向產業化部署,規?;逃眠^程中的各個環節都需要持續的算力投入。同時,AI 技術的快速迭代和競爭加劇也推動
37、企業不斷提升模型性能,這些因素共同決定了高性能計算基礎設施仍將是 AI 產業發展的關鍵支撐。隨著人工智能從訓練階段轉向推理階段,算力投入的商業價值判斷更加清隨著人工智能從訓練階段轉向推理階段,算力投入的商業價值判斷更加清晰明確。晰明確。隨著人工智能技術的發展進程進入推理應用階段,企業對算力資源的投入屬性發生了根本性轉變。在模型訓練階段,算力投入主要體現為研發性質的支出,其投資回報率難以準確衡量。而在推理階段,算力投入直接服務于具體的商業場景,成為可計量的經營性資產。這種轉變使得企業在進行算力投資決策時,能夠基于明確的成本收益比進行評估,降低了投資風險。特別是對于已經布局 AI 業務的大型科技企
38、業而言,推理成本的持續下降正在創造更加確定的投資回報空間,從而增強繼續投資的意愿。2.4.DeepSeek 的運營挑戰和硬件依賴凸顯了算力基建的重要性的運營挑戰和硬件依賴凸顯了算力基建的重要性 DeepSeek 服務器服務器面臨的多重運營挑戰進一步凸顯了算力基礎設施建設的面臨的多重運營挑戰進一步凸顯了算力基礎設施建設的重要性。重要性。從技術瓶頸看,開發處理能力不足和模型優化需求并存;從運維管理角度,系統升級和資源調度都可能導致服務中斷;從網絡環境來看,服務穩定性受到用戶反饋和網絡波動的雙重影響;從服務適配層面,需要同時滿足多樣化的用戶體驗需求。這些挑戰表明,即便在降低單次計算成本的情況下,企業
39、仍需持續投入大量資源來構建和優化算力基礎設施,以確保服務的穩定性、可擴展性和用戶體驗。因此,算力建設作為 AI 服務的基礎支撐,將繼續成為行業發展的關鍵趨勢。圖圖9:在高并發需求下,算力基建的進步空間依然廣闊在高并發需求下,算力基建的進步空間依然廣闊 數據來源:國泰君安證券研究 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 10 of 27 DeepSeek V3 雖然實現了計算與通信的重疊優化,但其對硬件資源的依賴雖然實現了計算與通信的重疊優化,但其對硬件資源的依賴仍然顯著仍然顯著。系統在 H800 GPU 中需要分配 20 個 SM 用于通信任務,這占用了寶貴的計算資源(H8
40、00 GPU 總共擁有 132 個 SM)。這些 SM 主要負責在IB 和 NVLink 域之間轉發數據、管理 RDMA 緩沖區、執行 all-to-all combine操作,以及處理多專家之間的數據傳輸。雖然這種設計降低了對通信帶寬的依賴,但同時也導致張量核心資源未被充分利用,造成了新的效率損失。在計算硬件層面,精度和性能的平衡需要更專業的硬件支持。在計算硬件層面,精度和性能的平衡需要更專業的硬件支持。以 FP8 GEMM實現為例,當前 NVIDIA Hopper 架構的張量核心采用定點累加方式,通過基于最大指數的右移來對齊尾數乘積,但實驗顯示這種實現僅使用了最高的 14 位尾數。這種實現
41、方式雖然降低了精度要求,但也說明現有硬件架構在支持低精度計算方面還有優化空間,促使 DeepSeek 團隊建議硬件廠商開發更專業的解決方案。未來硬件發展方向需要重點關注通信架構的創新。未來硬件發展方向需要重點關注通信架構的創新。DeepSeek 團隊明確建議開發類似 NVIDIA SHARP 這樣的專用協處理器,將通信任務從計算單元中分離出來。同時,他們也呼吁統一 IB(scale-out)和 NVLink(scale-up)網絡的編程接口,使計算單元能夠通過簡單的原語(如 read、write、multicast和 reduce)來完成跨域操作。這些建議表明,即便是經過優化的 DeepSee
42、k V3,仍然需要硬件層面的突破來進一步提升系統效率。算力基礎設施建設仍然任重道遠。算力基礎設施建設仍然任重道遠。從硬件資源依賴、運維挑戰到架構創新需求,每個層面都凸顯了算力基建的重要性。在高并發場景下,無論是通信架構的優化、計算單元的專業化設計,還是整體系統的穩定性保障,都需要持續的技術突破和資源投入。這表明,算力基礎設施建設將繼續是支撐 AI 產業發展的關鍵支柱。2.5.Scaling Law 未被顛覆,后訓練與推理階段催生新需求未被顛覆,后訓練與推理階段催生新需求 AI 發展發展仍仍遵循遵循 Scaling Law。早在 2020 年,OpenAI 團隊就發現了 AI 的三大基本擴展定律
43、:模型規模擴展(更多參數帶來更好的學習和泛化能力)、數據規模擴展(更大的訓練數據集提升模型性能)以及計算規模擴展(更多算力支持更長時間的訓練)。英偉達 CEO 黃仁勛在 2025 CES 大會上提出了兩個新的擴展定律,進一步豐富了 AI 擴展的理論框架。圖圖10:Scaling Law 在在 post-training 和和 test-time 階段產生了延伸階段產生了延伸 數據來源:CES 后訓練擴展(后訓練擴展(Post-training Scaling)包含了一系列提升模型效能的優化技)包含了一系列提升模型效能的優化技術。術。Post-training scaling 的核心包括:通過領
44、域特定數據微調來避免重新訓練完整模型;通過量化技術降低模型精度以減少內存和計算開銷;通過剪枝技術移除不必要的參數提升效率;通過知識蒸餾將大模型能力壓縮到小模型中;以及通過遷移學習在相關任務上復用預訓練模型。這些技術與 pre-行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 11 of 27 training 同樣需要大量計算資源,但能顯著提升模型在特定場景下的表現。測試時擴展(測試時擴展(Test-time Scaling)則專注于推理階段的動態優化。)則專注于推理階段的動態優化。Test-time sclaing 包括:基于輸入和系統約束的動態模型調整;通過集成多個模型版本的預測
45、提升準確性;根據輸入特征動態調整計算資源分配;推理階段的量化處理;響應數據輸入的主動模型調整;以及通過高效批處理來最大化吞吐量。這些技術本質上是在不重新訓練模型的前提下,通過智能分配計算資源來優化推理性能,使模型能夠根據實際需求靈活調整計算強度。Scaling Law 作為作為 AI 發展的基本規律將持續指引行業發展發展的基本規律將持續指引行業發展。Sam Altman 表示:從經濟學角度看,AI 模型的智能水平與訓練和運行資源的對數呈正相關,這種關系在多個數量級上都保持穩定。更重要的是,AI 使用成本每 12個月下降約 10 倍,遠超摩爾定律的 18 個月翻倍速度,這種成本的快速下降又進一步
46、刺激了使用需求。同時,AI 智能水平的線性提升能帶來超指數級的社會經濟價值。這三重因素的疊加效應,使得對 AI 的投資很可能會繼續保持較快增長,從而推動 Scaling Law 在更大規模上的持續驗證和應用。DeepSeek 的創新實質上是在的創新實質上是在 Scaling Law 框架內的優化,而非顛覆??蚣軆鹊膬灮?,而非顛覆。R1 在訓練過程中的重要思想強化學習,本質上仍屬于后訓練(Post-training)階段。在這個階段,模型需要通過各種形式的學習,如人類反饋、自我練習或 AI 教練指導,來將預訓練獲得的基礎知識轉化為解決實際問題的能力。這個過程仍然需要大量的計算資源來支持模型進行反
47、復試錯和優化,符合Scaling Law 中計算資源與模型能力的基本關系。DeepSeek-R1 的思維鏈(的思維鏈(CoT)能力能力凸顯了推理階段的凸顯了推理階段的 Scaling 需求。需求。在實際應用中,思維鏈推理并非簡單的一步到位,而是需要模型進行多輪深入的邏輯推導和結果驗證。未來行業發展必然朝著擴展推理深度、拓寬鏈式推理的廣度、增強上下文理解等方向發展,這意味著在推理階段需要投入更多的計算資源。這種推理過程的復雜性與計算需求的增長關系,正是 Test-time Scaling Law 的具體體現,擁有更多算力的企業可以在推理過程中持續深化,讓模型生成更大的推理規模以解決更加復雜的問題
48、,形成能力上的壁壘,這進一步驗證了即便在推理階段,算力需求也將持續增長。算法精耕路線與算法精耕路線與 Scaling Law 絕非勢不兩立,長期趨勢下必然形成螺旋互絕非勢不兩立,長期趨勢下必然形成螺旋互促。促。隨著算法降本增效的趨勢,越來越多的中國大模型將借鑒 DeepSeek 的經驗,專注于算法優化,這一發展符合中國國情。盡管當前中美技術路徑存在分化,但從長遠來看,算法與 Scaling Law 之間一定是相互促進的關系:規模擴張為算法優化提供驗證場景,算法精耕則通過架構改進和訓練策略優化降低邊際成本。國內廠商在推理優化領域積累的技術經驗,未來與國產算力供應鏈形成協同后,可通過更高效的資源利
49、用率構建其競爭優勢,算法和硬件的良性互動正是 Scaling Law 持續演進的核心動力。2.6.AI 向向 Agent 和多模態發展的趨勢將進一步提高算力需求和多模態發展的趨勢將進一步提高算力需求 Manus 旨在借助多代理架構顛覆傳統工作流程,重構旨在借助多代理架構顛覆傳統工作流程,重構 AI 應用范式。應用范式。Monica.im 的 Manus AI 開啟數字代理人新時代,Manus 采用多代理協作框架,利用獨立虛擬機模式,把任務流拆分成“規劃代理-執行代理-驗證代理”三個步驟,再由規劃者、執行者和質檢者三個數字代理分工完成任務。架構的真正價值在于打破了傳統 AI 助手的單一思維局限,
50、引入了類似人類團隊協作的工作模式,從產業發展角度看,這種架構將推動 AI 從單一工具向復雜系統演進,為企業級應用的場景拓展奠定了基礎。同時,安全沙盒的設計可以隔離風險,為未來 AI 系統的自主性探索提供了可控環境,或將成為Agent 發展的關鍵突破點。Agent 化架構精細分解任務,顯著增加推理算力要求化架構精細分解任務,顯著增加推理算力要求。Manus 實測中將復行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 12 of 27 雜任務細化為多個獨立環節,例如生成包含手繪漫畫與極簡文字描述的 HTML 網頁,其任務被分解為八步甚至十六步操作。每個子任務均需要單獨的邏輯推理與實時校驗
51、,系統在虛擬機內循環調用大模型對當前步驟進行規劃、錯誤檢查與自動修正。當遇到網絡異?;驁绦惺r,系統能夠記錄中間狀態后重啟任務,重復的反饋與修正機制使得整體推理環節遠超傳統單步問答模式,進而大幅提高了對算力的需求。多智能體協同運行,驅動推理重構與算力投入升級多智能體協同運行,驅動推理重構與算力投入升級。Manus 的設計不僅局限于單一的任務分解,還內嵌了虛擬機與工具調用功能,實現了跨賬戶、多流程的并行操作。在實際操作過程中,不同任務之間通過多智能體協同運行,各環節間不斷傳遞中間結果,并持續進行多輪反饋與調整。這種反復迭代的推理重構機制,使得每一次工具調用、狀態監控或錯誤恢復都需要額外的算力支
52、持,從而形成復雜的聯動系統。相比于普通 AI 的一次性響應,這種多層次、縱深推進的 Agent 化模式無疑對硬件推理算力提出了更高要求。圖圖11:Manus 精細拆分任務并不斷反饋調整,大幅增加算力需求精細拆分任務并不斷反饋調整,大幅增加算力需求 數據來源:CSDN 僅依文本解析難以解決復雜應用實際需求僅依文本解析難以解決復雜應用實際需求,AI 引入多模態是必然的趨勢。引入多模態是必然的趨勢。文本作為高度抽象的數據形式,雖能描述大致情境,但在實際應用中往往因缺乏直觀畫面和實時動態信息而存在局限。醫學圖像中的微妙結構、自動駕駛中路況的動態變化、甚至社交媒體上情感表達的細微差異,都難以通過純文本得
53、到有效捕捉。只有引入圖像、視頻等多模態數據,才能構建立體化的環境模型,滿足醫療、交通等復雜場景對全面信息的需求,從而實現更精準、高效的智能決策。多模態技術多模態技術已經已經全面引領各行業數字智能應用全面引領各行業數字智能應用。隨著信息社會的不斷進步,各類數據以驚人的規模和多樣性涌現,這為各領域帶來了前所未有的信息處理需求。在醫療健康、自動駕駛、智能監控及人機交互中,多模態 AI 正被廣泛應用。比如,醫療診斷不僅依賴病歷記錄,更需要醫學影像的直觀支持;自動駕駛系統通過整合攝像頭、雷達和激光掃描數據,實現對復雜駕駛環境的全面感知。信息的全面性、冗余與互補優勢,使多模態系統可以從多個角度理解問題,實
54、現精準判斷。因此,多模態 AI 的發展已成為數字化轉型的關鍵驅動力。多模態多模態 AI 融合多信息輸入,極大提升算力需求挑戰。融合多信息輸入,極大提升算力需求挑戰。多模態 AI 不僅涉及文本數據處理,更須同時對圖像、視頻、音頻及傳感器等多種異構數據進行預處理、特征提取和噪音過濾。每種數據類型都有各自獨特的處理算法,其計算流程和資源消耗遠較單一模態復雜。同時,為實現跨模態語義對齊,系統需要構建統一的表示空間,將不同模態的信息互映、互補,這一過程本身就需要大量的并行計算與多步推理。此外,動態場景下的實時數據接入和多層次推理鏈條(從低級感知到高級語義抽?。┻M一步加劇了計算任務的復雜性,要求硬件和算法
55、均實現高效協同,從而對算力提出了更高標準。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 13 of 27 3.技術效率提升與市場擴張并行,算力需求技術效率提升與市場擴張并行,算力需求迎來新增長迎來新增長 杰文斯悖論表明,技術效率的提升往往會導致資源需求的增加,而非減少。杰文斯悖論表明,技術效率的提升往往會導致資源需求的增加,而非減少。當技術使得某種資源的使用變得更加高效時,降低的成本會吸引更多的用戶和應用,從而導致該資源的總體需求上升。例如,盡管能源使用效率提高,最終的能源消耗可能會增加,因為更多的用戶會選擇使用這種更便宜的能源。類似地,DeepSeek 通過降低 AI 訓練和推
56、理的成本,雖然在表面上看似減少了算力需求,但實際上卻可能通過降低準入門檻和擴大市場規模,反而推動了對算力的更高需求。3.1.競爭格局并未塵埃落定,訓練投入仍在持續加碼競爭格局并未塵埃落定,訓練投入仍在持續加碼 競爭格局并未塵埃落定,訓練投入仍在持續加碼競爭格局并未塵埃落定,訓練投入仍在持續加碼。從大模型研發的角度來看,盡管開源趨勢可能在未來導致模型路線趨同,最終可能只剩下少數大模型廠商提供基礎模型作為應用底座,許多廠商將被淘汰,但在較長時間內,競爭格局依然會保持復雜且充滿活力。當前,各大模型廠商并未達到一個超級應用終結市場的地步,反而在不斷加大研發投入,加速產品迭代,OpenAI、Google
57、、xAI、Anthropic 均在 2025 年年初發布了新的模型。隨著市場對 AI應用的需求持續攀升,廠商們必須不斷優化和擴展其模型能力,以保持競爭優勢。因此,盡管 DeepSeek 的技術創新降低了訓練成本,但各大廠商的持續研發投入和激烈的市場競爭將不可避免地推動算力需求的上升。表表2:DeepSeek-R1 發布后,大模型廠商競爭提速發布后,大模型廠商競爭提速,新產品相繼發布,新產品相繼發布 模型名稱模型名稱 廠商廠商 正式發布時間正式發布時間 特點特點 o3-mini OpenAI 2025年 1月 31日 成本效益高、性能更快、低延遲、支持可調節的推理努力(低、中、高)。Deep R
58、esearch OpenAI 2025年 2月 2日 多線程研究、綜合合成、透明推理,可同時處理多個復雜查詢。Gemini 2.0 Flash Google 2025年 2月 5日 速度加倍、高準確性、支持多模態處理(文本、圖像、音頻、視頻)、透明推理模式。Gemini 2.0 Flash-Lite Google 2025年 2月 5日 成本效益高、性能改進,適合長上下文窗口應用,提供簡化定價。Gemini 2.0 Pro Experimental Google 2025年 2月 5日 針對編碼和復雜任務,在 Google AI Studio和 Vertex AI 上可用。Grok 3 xAI
59、 2025年 2月 18日 先進推理與問題解決、1百萬令牌上下文窗口、支持文本和圖像任務。Claude 3.7 Sonnet Anthropic 2025年 2月 25日 混合推理模式(標準和擴展思考模式)、輸出長度擴展(最多 128K令牌)、編碼性能領先。數據來源:OpenAI,Google,xAI,Anthropic 單次訓練成本的降低并不意味著整體訓練成本的下降。單次訓練成本的降低并不意味著整體訓練成本的下降。如前所述,DeepSeek的投入絕不僅限于最終訓練階段的直接支出,前期的研發投入同樣不可忽視。對于所有大模型研發廠商而言,真正的邏輯在于:一旦單次訓練成本降低,便意味著可以進行更多
60、次的訓練,從而實現更快的技術迭代,而不是讓算力資源閑置。與此同時,開源趨勢將為研發廠商提供相互學習的機會,促進技術的快速進步。DeepSeek 的成功不僅是其自身的勝利,更將堅定整個行業的信心,推動更多企業加大投入,爭相追趕,加速算力需求的增長。AI 技術技術門檻門檻降低降低推動了推動了企業企業長尾長尾訓練需求的增加。訓練需求的增加。DeepSeek 顯著降低 AI行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 14 of 27 的使用成本,越來越多的企業將開始采用 AI 技術來提升自身的業務效率和競爭力,這一趨勢將直接推動微調和私有數據訓練的需求,企業希望根據自身特定的業務場景和
61、數據集來優化模型性能。隨著更多企業進入 AI 領域,針對特定應用的訓練需求將顯著上升,進而提高對訓練算力的需求。即使企業不需要進行初始模型的訓練,也必須進行微調或者結合私有數據,才能過適應對應行業和客戶的需求。3.2.DeepSeek 引發引發 C 端熱情,平臺整合進一步擴大用戶基礎端熱情,平臺整合進一步擴大用戶基礎 DeepSeek 的推理需求在面向消費者的市場中迅速增長,直接使用的推理需求在面向消費者的市場中迅速增長,直接使用 DeepSeek的的 Web 和和 App 的用戶數量龐大。的用戶數量龐大。根據 AI 產品榜的統計,DeepSeek 的 App在上線僅 20 天內便吸引了 22
62、15 萬日活躍用戶,2025 年 1 月月活躍用戶突破 3370 萬,成為全球增速最快的 AI 應用之一。這一龐大的用戶基礎表明,DeepSeek 的 Web 和 App 本身就產生了巨大的推理需求,消費者在日常生活中頻繁使用這些平臺進行各種任務。即便不考慮其他服務商的合作或衍生需求,單是 DeepSeek 自身的用戶需求就足以推動算力的持續增長。DeepSeek 的接入微信平臺顯著提升了用戶的使用頻率和體驗。的接入微信平臺顯著提升了用戶的使用頻率和體驗。微信的搜索框在 2025 年 2 月 16 日開始接入 DeepSeek-R1 深度思考的 AI 搜索的灰度測試。DeepSeek 與微信的
63、整合使得用戶能夠在聊天界面中直接調用 AI 助手,進行內容生成和信息查詢。這種便捷的使用方式將能夠吸引大量用戶,推動了 C 端需求的快速增長。用戶無需下載額外的應用程序或進行復雜的注冊流程,便能在日常交流中輕松享受 DeepSeek 的強大推理能力,從而進一步擴大了其用戶基礎。騰訊元寶與騰訊元寶與 DeepSeek-R1 模型的整合充分利用了騰訊生態系統中的公眾號模型的整合充分利用了騰訊生態系統中的公眾號和視頻號。和視頻號。騰訊元寶平臺的接入使得用戶在使用騰訊元寶時能夠直接體驗DeepSeek 的強大推理能力。通過整合微信公眾號和視頻號,用戶不僅可以獲取更精準的信息,還能享受到更豐富的互動體驗
64、。這種整合不僅提升了用戶的使用便利性,也使得 AI 推理服務在日常生活中變得更加普及,進一步推動了對推理服務的需求增長。百度的全面接入也為百度的全面接入也為 DeepSeek 帶來了新的帶來了新的 C 端需求,進一步推動了用戶端需求,進一步推動了用戶對推理服務的使用。對推理服務的使用。百度搜索在 2025 年 2 月 16 日發布消息,除了接入自己的文心大模型外,百度搜索還全面接入了 DeepSeek,旨在提升用戶的搜索體驗。通過這一整合,用戶能夠在百度平臺上直接獲取更智能和實時的回答,享受更高效的信息檢索服務,不僅增強了百度搜索的智能化水平,也使得 DeepSeek 的推理能力得以在更廣泛的
65、用戶群體中應用,進一步推動了對推理服務的需求增長。圖圖12:微信搜索框將支持微信搜索框將支持 DeepSeek-R1 深度思考深度思考 圖圖13:百度百度 AI 搜索支持搜索支持 DeepSeek-R1 滿血版滿血版 數據來源:量子位 數據來源:百度搜索 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 15 of 27 3.3.大模型應用生態大模型應用生態在企業在企業加速落地加速落地,推理算力需求迎來爆發期推理算力需求迎來爆發期 開源技術的普及正在加速算力需求向邊緣側的下沉,推動了更多企業在本開源技術的普及正在加速算力需求向邊緣側的下沉,推動了更多企業在本地進行地進行 AI 應用的
66、開發應用的開發。隨著越來越多的國產大模型采取開源策略,企業能夠以更低的成本和更高的靈活性在邊緣設備上部署AI模型。通過模型蒸餾,中小企業可以將大型預訓練模型的知識轉移到更小、更高效的模型中,從而在本地或云端進行彈性調用和部署。中小企業不再必須依賴于大型云服務提供商,而是能夠利用本地硬件資源進行數據處理和推理,從而降低延遲和帶寬成本。這種邊緣計算的模式不僅提升了算力的利用效率,也使得更多企業能夠參與到 AI 應用的開發中,加速了國內 AI 產業應用生態的形成,從而對推理算力提出更高的要求。DeepSeek 已經通過多種途徑向企業滲透和落地已經通過多種途徑向企業滲透和落地,推動算力需求的增長,推動
67、算力需求的增長:3.3.1.云平臺云平臺與一體機的接入加速與一體機的接入加速 DeepSeek 的滲透的滲透 三大運營商云平臺全面接入三大運營商云平臺全面接入 DeepSeek 大模型大模型。中國電信天翼云、中國移動移動云和中國聯通聯通云已全面接入 DeepSeek 大模型:天翼云通過多平臺支持 DeepSeek-R1 應用,提供從部署到推理、微調的全流程服務;聯通云基于星羅平臺實現了國產及主流算力適配多規格 DeepSeek-R1 模型;移動云則實現了全版本覆蓋、全尺寸適配、全功能使用。運營商紛紛推出運營商紛紛推出 DeepSeek 版智算一體機,打造算力解決方案版智算一體機,打造算力解決方
68、案。三大運營商相繼推出 DeepSeek 版智算一體機產品。中國電信推出了息壤智算一體機-DeepSeek 版,為各行各業提供性能卓越、安全可控的智能算力解決方案;中國移動的移動云也推出了智算一體機-DeepSeek 版,通過預置鏡像模型可實現一鍵推理部署;中國聯通也推出了 DeepSeek 一體機產品。一體機將加速DeepSeek在中小企業的部署,使其無需自主構建算力集群,開箱即用。同時一體機的本地化部署特點,也將推動 DeepSeek 向數據隱私性較強的行業滲透。圖圖14:移動云推出智算一體機移動云推出智算一體機-DeepSeek 版版 圖圖15:天翼云推出息壤智算一體機天翼云推出息壤智算
69、一體機-DeepSeek 版版 數據來源:移動云 數據來源:天翼云 國內廠商密集發布國內廠商密集發布 DeepSeek 一體機產品,加速大模型本地化部署一體機產品,加速大模型本地化部署。華為、中科曙光和浪潮相繼推出DeepSeek系列一體機產品。華為DS版FusionCube A3000 訓/推超融合一體機提供 Ultra(滿血版)、Pro(蒸餾版)和 Lite(蒸餾輕量版)三種型號,搭載華為 Atlas800l A2 推理服務器,滿血版處理速度可達 671B 模型 1911 token/s。中科曙光則發布了采用國產 X86 CPU 和國產GPGPU 加速卡的全國產 DeepSeek 超融合一
70、體機,支持 DeepSeek 全系列模型及主流大模型的部署。浪潮推出的 NF5468H7 推理一體機通過 inAIP 智能引擎實現全局協同,可在 3 小時內完成從開機到推理服務上線,硬件利用率高達 92%。一體機的形式為 AI 進行本地化部署提供了助力。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 16 of 27 圖圖16:華為華為 DCS AI 推出推出 DS 版版 FusionCube A3000 訓訓/推超融合一體機推超融合一體機 數據來源:觀察者網 國內國內互聯網系互聯網系主流云平臺全面接入主流云平臺全面接入 DeepSeek,大模型生態進入新階段,大模型生態進入新階段
71、。除三大運營商外,阿里云、騰訊云、百度智能云等互聯網系主流云計算平臺也已全面接入 DeepSeek 系列模型。這一趨勢表明,DeepSeek 作為國產大模型的代表,正在加速構建完整的算力服務生態。云平臺作為供給側的廣泛接入不僅有助于降低企業使用 AI 的門檻,也將進一步推動算力需求的增長。阿里云阿里云 PAI 平臺全面支持平臺全面支持 DeepSeek 系列模型,提供多種部署方案滿足不系列模型,提供多種部署方案滿足不同場景需求同場景需求。阿里云 Model Gallery平臺已完成對 DeepSeek-V3 和 DeepSeek-R1 系列模型的全面接入。平臺支持 BladeLLM、SGLan
72、g 和 vLLM 三種加速部署方式,并針對不同規模企業提供從滿血版到蒸餾版的多種模型選擇。阿里云還提供了完整的 API 調用接口和 WebUI 界面,方便企業進行二次開發和快速應用。騰訊云推出騰訊云推出 DeepSeek 全棧全棧 AI 服務服務。騰訊云平臺提供滿血版(671B)的部署選項,并支持聯網搜索和 RAG 等功能。通過騰訊云大模型知識引擎平臺,企業可以快速創建基于 DeepSeek 的知識庫問答應用,實現 OCR、MLLM等多種技術能力的整合。同時,平臺還開放了模型配置、知識配置、問答提取、應用評測等完整工具鏈,支持企業構建從測試到發布的一站式服務流程。華為云、百度智能云相繼接入華為
73、云、百度智能云相繼接入 DeepSeek。華為聯合硅基流動和潞晨科技,上線基于昇騰的 DeepSeek R1 和 V3 雙模型及六款加速版蒸餾版模型。百度智能云千帆平臺也上架了 DeepSeek-R1 和 DeepSeek-V3 模型,推出超低價格方案并提供限時免費服務,支持 vLLM、LMDeploy、TensorRT-LLM、SGLang 等各類主流推理框架。2 月 5 日,華為 HarmonyOS NEXT 的小藝App 也正式上架了 DeepSeek-R1 Beta 版。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 17 of 27 圖圖17:阿里云阿里云 PAI 平臺提
74、供多種部署方案平臺提供多種部署方案 圖圖18:潞晨科技推出基于潞晨科技推出基于昇昇騰的騰的 R1 系列系列 API 及鏡像及鏡像 數據來源:阿里云 數據來源:華為計算 云計算廠商積極布局云計算廠商積極布局 DeepSeek 大模型服務大模型服務。優刻得模型服務平臺UModelVerse 已正式上架 DeepSeek-R1 和 V3 滿血版,該平臺支持海外地域訪問,并提供限時免費調用服務,用戶可通過 API 方式輕松接入模型能力,其優云智算算力共享平臺和私有云平臺 UCloudStack 也已完成 DeepSeek系列模型的接入。青云科技旗下基石智算 CoresHub 也上線 DeepSeek-
75、V3、DeepSeek-R1、Janus Pro 等 DeepSeek 全系列模型,支持一鍵云端部署及 API 調用,加速企業級 DeepSeek 模型的快速接入及部署應用。首都在線云平臺快速上架 DeepSeek-R1 模型,并在一云多芯戰略下完成對華為、燧原等國內 GPU 頭部廠商的適配調優。圖圖19:優刻得上架了優刻得上架了 DeepSeek 滿血版滿血版 圖圖20:基石智算基石智算上線了上線了 V3、R1、Janus Pro 全系列全系列 數據來源:優刻得 數據來源:基石智算 3.3.2.垂直場景應用生態已初步形成,推理算力將迎來爆發垂直場景應用生態已初步形成,推理算力將迎來爆發 金融
76、金融 券商行業掀起券商行業掀起 DeepSeek 應用熱潮,應用熱潮,多多家券商已完成本地化部署家券商已完成本地化部署。根據各家券商信息披露,目前已有多家券商宣布完成 DeepSeek-R1 模型的本地化部署,包括國泰君安、國金證券、中泰證券、興業證券等。這些券商將 DeepSeek應用于多個核心業務場景,如中金財富證券實現了投顧服務領域熱點發現-資訊處理-策略生成三位一體的服務生態;中泰證券基于 DeepSeek 創建了215 個知識庫,問答精確度超過 95%;國泰君安將其融入君弘靈犀千億參數多模態證券垂類大模型。從應用場景來看,目前主要集中在投研、合規、風控等內部業務環節。表表3:多家券商
77、和基金已經接入多家券商和基金已經接入 DeepSeek 機構機構 應用場景應用場景 國泰君安國泰君安 賦能千億參數的多模態證券垂類大模型“君弘靈犀”。智能問答、智投服務、投教、行業研究、市場分析、合規風控、信息檢索、文檔處理等。國金證券國金證券 信息檢索、文檔處理、行業研究及市場研判等。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 18 of 27 中金財富證券中金財富證券 推動智能投顧助手 IC-Copilot升級迭代;輔助投資顧問高效完成市場熱點分析和大盤解讀。華安證券華安證券 合規問答、智能取數等。中泰證券中泰證券 自動繪制產業鏈圖譜、運營助手、制度庫問答等。光大證券光大證
78、券 通過賦能“光小 e”智能服務助手,在證券業務智能辦理、內部知識智能檢索、專業文本智能生成與處理、代碼編寫測試智能輔助以及智能構建合規知識圖譜等方面,提升員工的工作效率。中信建投中信建投 構建全天候 724小時的輿情監測網絡,以及財富管理、機構投研、投資服務等。興業證券興業證券 客戶問答、智能客服、輔助制定個性化方案、研發輔助提升效能等。廣發證券廣發證券 智能客服、代碼生成輔助、智能投研等。華福證券華福證券 員工知識問答、輔助軟件研發、輔助制定營銷方案、增強客戶陪伴等。國元證券國元證券 整合至自研的“燎元智能助手”中,覆蓋合規問答、業務辦理指引、知識查詢等場景。九方智投九方智投 投研投顧、風
79、險合規、智能營銷、客戶服務等。匯添富基金匯添富基金 投資研究、產品銷售、風控合規、客戶服務等。諾安基金諾安基金 投研分析、客戶服務、風險管控等,并推出“諾安 AI 助手”。數據來源:證券時報 多家銀行已完成多家銀行已完成 DeepSeek 大模型接入,并在多個業務場景實現創新應用大模型接入,并在多個業務場景實現創新應用。江蘇銀行已成功完成 DeepSeek-VL2 多模態模型和輕量 DeepSeek-R1 推理模型的本地化部署,并將其應用于智能合同質檢和自動化估值對賬場景。據江蘇省金融業聯合會金融科技專業委員會介紹,通過智慧小蘇大語言模型服務平臺,江蘇銀行實現了金融語義理解準確率與業務效率的雙
80、重突破。海安農商銀行也已接入 DeepSeek 模型,并將其應用于營銷宣傳領域。已有股份行將 DeepSeek 接入內部自研模型平臺進行測試,計劃在智能客服、內部辦公流程等場景展開應用。保險公司保險公司積極開展積極開展 DeepSeek 智能化應用場景智能化應用場景。新華保險、太平人壽、眾安保險和平安健康險等多家險企接入 DeepSeek。北大方正人壽于 2 月 14 日率先上線基于 DeepSeek 的智能展業助手方靈;新華保險在其新華 e 家 APP成功接入 DeepSeek-R1 和 V3 兩款模型,打造個性化 AI 助理;平安健康險則完成了 DeepSeek 模型的本地化部署。從應用場
81、景來看,保險公司主要將DeepSeek 用于 AI 客服、健康咨詢和保險條款解析等方面,進一步提升了保險服務的智能化水平。醫療醫療 醫療科技企業密集接入醫療科技企業密集接入 DeepSeek 大模型助力醫療健康產業智能化升級大模型助力醫療健康產業智能化升級。醫渡科技將 DeepSeek 整合至其AI 醫療大腦YiduCore,基于超 55 億份醫療記錄和 2800 多家醫院網絡,提升疾病洞察能力;鷹瞳科技于 2 月 7 日宣布將 DeepSeek-R1 模型接入其萬語醫療大模型,結合 3000 萬份臨床診療數據和 800 余項循證醫學知識圖譜,實現臨床診斷效率和準確率的雙重提升;智云健康則將
82、DeepSeek-R1 模型接入其智云大腦,基于 10 億份電子病歷優化 ClouD GPT 及 ClouD DTx 模型;豫資開勒的靈曦助手完成 DeepSeek 升級部署后,主要用于解析醫學文獻、臨床試驗報告并追蹤學科前沿動態;恒瑞醫藥、嘉和美康等企業也已在臨床輔助決策、病歷質控等多個具體場景開展應用。教育教育 教育行業掀起教育行業掀起 DeepSeek 接入熱潮。接入熱潮。網易有道于 2 月 6 日率先將 DeepSeek-行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 19 of 27 R1 接入其 AI 全科學習助手有道小 P,優化個性化答疑功能;學而思宣布將 DeepS
83、eek 接入旗下學習機、學練機等智能硬件產品,通過深度思考模式升級 AI 學習體驗;希沃宣布全系產品陸續接入 DeepSeek,應用于課堂智能反饋;中公教育完成 DeepSeek 私有化部署,用于內容研發和智能批改;猿輔導集團的小猿學練機和小猿口算等產品也已接入 DeepSeek,實現AI 問答等功能。此外,云學堂、科大訊飛、弈小象、讀書郎、高途、佳發教育等教育機構也已宣布接入DeepSeek,主要應用于個性化答疑、AI制課、學術搜索等場景。汽車汽車 車企密集接入車企密集接入 DeepSeek 大模型大模型。截至 2 月 13 日,已有 20 余家車企或品牌宣布深度融合 DeepSeek 大模
84、型。吉利汽車率先于 2 月 6 日宣布其星睿大模型與 DeepSeek-R1 完成融合,可精準調用約 2000 個車載接口;旗下極氪品牌也完成 Kr AI 與 DeepSeek-R1 的深度融合。嵐圖汽車于 2 月 7 日宣布智能座艙接入 DeepSeek,并計劃在 2 月 14 日開啟全民知識蒸餾訓練;上汽集團旗下智己汽車引入 DeepSeek 并構建多場景插拔式 AI 矩陣平臺;寶駿汽車靈語智艙也完成深度融合。此外,斑馬智行、憶咖通科技等智能座艙供應商也加入接入行列。從上述垂直行業的應用實踐可以看出,從上述垂直行業的應用實踐可以看出,DeepSeek 正在加速構建大模型應用正在加速構建大模
85、型應用生態。生態。從應用廣度來看,金融、醫療、教育、汽車等重點行業已形成規?;瘧?;從應用深度來看,各行業已從簡單的問答交互升級到專業場景的深度應用。其次,大模型應用正從通用場景向專業場景遷移,企業更傾向于進行私有化部署和定制化訓練,以滿足特定業務需求。隨著應用場景的不斷深化,特別是在需要實時響應的關鍵業務環節,推理算力需求將呈現爆發式增長。我國大模型應用生態正在進入快速成熟期,推理算力基礎設施的建設也將迎來新一輪增長機遇。4.DeepSeek 生態或產生百萬生態或產生百萬 PFLOPS 算力需求及千億算力需求及千億算力租賃市場算力租賃市場 調用調用需求推算需求推算 對于對于 DeepSeek
86、 在未來的產業生態形成后,在長期將產生多少在未來的產業生態形成后,在長期將產生多少推理算力需推理算力需求,我們做出以下假設并進行估計:求,我們做出以下假設并進行估計:DeepSeek 的推理算力需求可以主要分為以下場景的推理算力需求可以主要分為以下場景:1、DeepSeek 官方 App和 Web 端的用戶需求;2、運營商、互聯網公司等提供的云平臺中 DeepSeek API 的用戶需求;3、微信搜索、百度搜索等集成了 DeepSeek 的應用帶來的需求;4、企業級 DeepSeek 應用部署場景,包括云端調用和本地部署。分別估計以上場景對 token 的需求量,即可估計總算力需求。1、Dee
87、pSeek 自自有有應用(應用(App/Web 端)端)假設假設 DeepSeek App 和和 Web 端端 DAU 在長期分別維持在長期分別維持 3000 萬和萬和 1000 萬的萬的水平。水平。根據非凡產研數據,DeepSeek APP 端日活用戶峰值為 4179 萬(2025年 2 月 6 日),2 月 15 日,App 端日活用戶為 3761 萬,Web 端用戶為 923萬??紤]到熱度褪去后日活可能進一步下降,且其他平臺的集成會減少對DeepSeek 官方應用的使用,因此估計長期 DeepSeek App 端 DAU 維持在3000 萬,Web 端維持在 1000 萬,累計 4000
88、 萬日活。日活用戶中,假設普通用戶平均每人每日發起 5 次請求,每次提問消耗 1000 tokens(輸入 200+輸出 800);重度用戶每人每日發起 20 次請求,平均每次2000 tokens(輸入 500 tokens,輸出 1500 tokens)。假設重度用戶占 DeepSeek行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 20 of 27 自有應用用戶比例的 20%。則則 DeepSeek 自有應用每日需消耗自有應用每日需消耗 4800 億億 tokens:40,000,000 (80%5 1000+20%20 2000)=4.8 1011 2、云平臺服務、云平臺服
89、務 根據通信產業網信息,自接入 DeepSeek 后,百度智能云大模型的調用量實現了顯著增長,無論是內部客戶還是外部客戶,每天的億次調用量都增長了20 倍以上,可假設調用增量均為 DeepSeek 引起。根據 IDC 數據,百度智能云 2023 年在中國大模型平臺及應用市場占 19.9%的份額。假設每次調用消耗 1000 tokens。據此我們推算,據此我們推算,DeepSeek 為云平臺增加了為云平臺增加了每日每日 10 萬億萬億 tokens 的需求的需求:20 108 1000/20%=1013 tokens 這部分需求將同時包括個人用戶對DeepSeek的調用及企業級用戶的云端調用需求
90、。3、大型平臺集成、大型平臺集成 以微信為例,根據騰訊 2024Q3 數據,微信與 WeChat 合計月活用戶為 13.82億,作為國民級應用,假設其日活/月活比例能夠達到 70%,則預估微信 DAU達到約 10 億。假設灰度測試結束后,微信搜索全面接入 DeepSeek,日活用戶中 20%使用微信搜索中的 DeepSeek,每人每日 10 次請求,單次消耗 1000 tokens。則則預估預估 DeepSeek 在微信搜索中產生的需求為在微信搜索中產生的需求為 2 萬萬億億 tokens:10 108 10 1000 20%=2 1012 tokens 百度搜索方面,假設百度每日搜索量約 1
91、0 億次,其中 20%的搜索使用到DeepSeek,單次消耗 2000 tokens。則預估則預估 DeepSeek 在百度搜索中每日產生的需求為在百度搜索中每日產生的需求為 4000 億億 tokens:10 108 20%2000=4 1011 tokens 考慮到微信與百度在中國應用生態中的重要地位,我們假設其他平臺集成DeepSeek 的應用的調用需求與百度和微信之和相當,以此預估以此預估 DeepSeek集集成類應用每日將產生成類應用每日將產生 5 萬億萬億 tokens 需求。需求。4、企業級應用、企業級應用 中國民營企業總數超過 5000 萬家,綜合考慮央國企性質的金融等行業的企
92、業,并考慮到剔除此前在云平臺中重復計算的需求,在此僅考慮本地部署需求。假設有 50 萬家企業將 DeepSeek 深度集成到業務中,這部分企業平均每日消耗 500 萬 tokens;500 萬家企業將 DeepSeek 用于簡單的輔助場景,這部分企業每日消耗 10 萬 tokens。則則 DeepSeek 在企業本地化部署中產生在企業本地化部署中產生 3 萬億萬億 tokens 的需求:的需求:500,000 500 104+5,000,000 10 104=3 1012tokens 綜上,綜上,DeepSeek 每日將在推理側產生約每日將在推理側產生約 184,800 億億 tokens 需
93、求。需求。每日 184,800 億 tokens 需求,對應到每秒需要 2.13 億 tokens,考慮到需求在日內的時間分配不均以及并發需求,我們保守估計算力需滿足我們保守估計算力需滿足 DeepSeek的的 3 億億 tokens/秒。秒。在硬件方面,我們做出如下假設:兩臺 H20 服務器共配備 16 張 NVIDIA H20卡的情況下,可以滿足DeepSeek推理的需求處理速度為1600 tokens/s。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 21 of 27 不考慮顯存與帶寬產生的影響,則我們可以將單張 H20 卡的算力與 100 tokens/s 的響應能力對應
94、。DeepSeek 在推理側將產生接近百萬在推理側將產生接近百萬 PFLOPS 的算力需求。的算力需求。H20 的 FP8 算力為 296TFLOPS,故 DeepSeek 推理時 token 對算力的需求為 296TFLOPS/100 tokens/s=2960PFLOPS/M tokens/s 因此 DeepSeek 對推理算力的需求為 88.8 萬 PFLOPS:2960PFLOPS/Mtokens/s 3 108tokens/s=88.8 萬 PFLOPS 表表4:DeepSeek 產生的對調用量的需求假設如下,或產生百萬產生的對調用量的需求假設如下,或產生百萬 PFLOPS 算力需求
95、算力需求 Token 需求估計需求估計 場景場景 假設 Token 需求量 需求量占比 DeepSeek 自有應用自有應用 App DAU 3000 萬,Web 日訪問量 1000 萬 普通用戶 5 次請求/人/日,每次請求 1000tokens 重度用戶 20 次請求/人/日,每次請求 2000tokens 重度用戶占比 20%4.8 1011 2.6%云平臺服務云平臺服務(含個人及企業需求)(含個人及企業需求)百度云平臺增長的 20 億次調用量/日主要由 DeepSeek 引起 每次調用 1000tokens 百度智能云調用量占中國大模型平臺 20%1013 54.1%大型平臺集成大型平臺
96、集成 微信 DAU 10 億 灰度測試結束后 20%用戶使用搜索中 DeepSeek 10 次請求/人/日,單次 1000tokens 百度搜索每日請求量 10 億次 20%的搜索請求使用 DeepSeek,單次 2000tokens 5 1012 27.1%企業級應用企業級應用(私有云及本地化部署)(私有云及本地化部署)50 萬家企業存在深度集成需求,日消耗 5M tokens 500 萬家企業存在簡單輔助需求,日消耗 10 萬 tokens 3 1012 16.2%合計合計 184,800 億 100%算力需求估計算力需求估計 兩臺 H20 服務器共配備 16 張 NVIDIA H20 卡
97、的情況下,處理速度為 1,600tokens/s H20 單卡 FP8 算力為 296TFLOPS 假設 token 需求僅考慮算力,不考慮顯存與帶寬的限制 推理算力的需求為推理算力的需求為 88.8 萬萬 PFLOPS:/=.萬萬 數據來源:通信產業網,IDC,騰訊,國泰君安證券研究 在長期滿足在長期滿足 DeepSeek 的推理需求或需要的推理需求或需要 300 萬張萬張 H20:8.88 1013/0.296=3,000,000 假設每臺 H20 的租賃成本為 3 萬元/月/臺,在不考慮顯存及帶寬的限制下,每月支出將達到 112.5 億元,每年產生 1350 億元開支:3 106 張 3
98、0,000 元/月/臺 8 張/臺=112.5 億元/月 不支持不支持 FP8 的芯片在的芯片在 DeepSeek 推理中算力將大打折扣。推理中算力將大打折扣。芯片方面,由于英偉達 Ampere 架構以及華為、寒武紀等國產芯片不支持 FP8 精度,因此其在處理 DeepSeek 推理任務時,需要以 FP16 的精度對原本 FP8 精度的數據進行計算,因此在只能發揮對應芯片 FP16 的算力,故可能產生更多芯片需求。表表5:DeepSeek 的算力需求對各大主流的算力需求對各大主流 AI 芯片的需求量如下,市場需求尚未飽和芯片的需求量如下,市場需求尚未飽和 廠商廠商 芯片芯片 FP8(PFLOP
99、S)FP16(PFLOPS)所需卡數所需卡數(萬張)(萬張)NVIDIA H20 0.296 0.148 300 A100/A800 Pcle-0.312 284.61 A100/A800 SXM-0.614 144.62 H100/H800 3.958 1.979 22.43 B100 7 3.5 12.68 RTX 4090-0.33 269.09 RTX 5090-0.419 211.93 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 22 of 27 華為華為 昇騰 910B-0.32 277.5 昇騰 910C-0.64 138.75 寒武紀寒武紀 思元 370-X8-
100、0.096 思元 590-0.312 284.61 數據來源:NVIDIA,華為,寒武紀,國泰君安證券研究 DeepSeek 生態將產生近百萬生態將產生近百萬 PFLOPS 級別推理算力需求級別推理算力需求及千億算力租賃及千億算力租賃市場市場,C 端僅占總需求的冰山一角。端僅占總需求的冰山一角。根據我們的推算,從需求結構來看,DeepSeek 自有應用(App/Web 端)每日產生的 4800 億 tokens 僅占總需求的 2.6%,而云平臺服務占比高達 54.1%,大型平臺集成占 27.1%,企業級應用占 16.2%。盡管 DeepSeek 的應用已經引起了全民關注,但 C 端需求在整體算
101、力需求中占比極小,B 端市場才是推理算力需求的主要來源。5.硬件瓶頸亟待突破,生態協同孕育國產機遇硬件瓶頸亟待突破,生態協同孕育國產機遇 5.1.英偉達的“護城河”并非堅不可摧英偉達的“護城河”并非堅不可摧 英偉達英偉達 CUDA 護城河護城河并非堅不可摧,并非堅不可摧,開源編譯器與跨平臺框架開源編譯器與跨平臺框架向其向其技術技術發發起起挑戰挑戰。CUDA 的編程接口正在面臨多方面的技術替代挑戰,削弱其不可替代性。在編程語言層面,AMD 的 ROCm、Intel 的 SYCL 等開源方案已能實現類似功能,AMD 的 HIPIFY 工具可將 CUDA 代碼自動轉換為 ROCm支持的格式,降低遷移
102、成本。更具突破性的是編譯器技術的進步,如 OpenAI的 Triton 在部分場景下已能比肩 CUDA 性能。根據 PyTorch 團隊的微基準測試,Triton 在英偉達 H100 GPU 上實現了 0.76-0.78 倍的性能提升,在 A100 GPU 上實現了 0.62-0.82 倍的性能提升。通過算法與編譯技術的創新,其他平臺有一定機會繞過 CUDA 的優化壁壘,打破英偉達在軟件層面的壟斷地位。圖圖21:Triton 在在 H100 與與 A100 上的表現與上的表現與 CUDA 無顯著差距無顯著差距 數據來源:PyTorch 專用芯片架構在特定專用芯片架構在特定 AI 任務上展現出超
103、越通用任務上展現出超越通用 GPU 的效率優勢的效率優勢。Google TPU 在深度學習模型加速方面表現出色,與 XLA 實現芯片-軟件的高效協同,特別適合大規模神經網絡的訓練和推理任務。雖然專用架構在通用性上不及 NVIDIA GPU,但它們在細分領域的替代效應正在削弱 CUDA 的壟斷基礎,特別是在對性能和能效要求極高的場景中。隨著 AI 應用場景的多樣化,單一技術棧難以滿足所有需求,這為專用架構提供了更多市場機會。開源框架多后端支持正在分散開源框架多后端支持正在分散 CUDA 生態的開發者資源生態的開發者資源。主流 AI 框架正在通過多后端支持策略減少對 CUDA 的依賴。PyTorc
104、h、TensorFlow 等框架行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 23 of 27 逐步支持多種硬件后端,同時,云服務提供商如 Google、Meta、AWS 等積極推廣自有 AI 加速器,并通過優化框架兼容性吸引開發者。去 CUDA 中心化策略正在分散生態資源,使硬件廠商可通過適配主流框架而非完全復制CUDA 生態來爭奪市場,從而降低了 CUDA 生態的排他性優勢。DeepSeek-V3 直接使用直接使用 PTX 編程,證明編程,證明 CUDA 并非并非 AI 訓練的不可替代壁訓練的不可替代壁壘壘。DeepSeek-V3通過直接使用NVIDIA GPU的底層指令集P
105、TX進行編程,成功繞過了 CUDA 的高級 API 接口,為 CUDA 護城河的可突破性提供了有力證據。這種方法減少了對 CUDA 編譯器的依賴,同時通過與 AMD、華為等廠商合作,將其優化策略適配到其他硬件平臺。盡管 CUDA 在 AI 訓練領域占據主導地位,但它并非不可替代的技術壁壘,通過底層指令集編程和硬件優化,AI訓練可以突破CUDA生態限制,為行業提供更多技術路徑選擇。5.2.DeepSeek 催化,催化,國產國產 AI 芯片迎來替代浪潮芯片迎來替代浪潮 DeepSeek 生態催化國產生態催化國產 AI 芯片替代進程芯片替代進程。DeepSeek 的崛起為國產 AI 芯片提供了前所未
106、有的替代機遇。從產業發展趨勢看,DeepSeek 模型對國產芯片的支持正在改變長期以來 CUDA 生態的壟斷格局,為國內 AI 基礎設施建設提供了自主可控的技術路徑。隨著國際芯片供應不確定性增加,DeepSeek 與國產芯片的協同發展將加速形成完整的國產 AI 技術棧,這不僅能滿足企業對數據安全和成本控制的需求,也將推動國內 AI 產業鏈向更高價值環節邁進。華為華為昇昇騰騰 910B 芯片在芯片在 AI 訓練領域展現出強勁競爭力,其性能已接近英偉訓練領域展現出強勁競爭力,其性能已接近英偉達達 A100 水平。水平。華為常務董事表示,昇騰 910B 在訓練大型語言模型時效率可達到英偉達 A100
107、 的 80%,在特定測試性能上甚至超越 A100 達 20%。該芯片采用先進的達文西架構,集成數千個處理核心,具有 320 TFLOPS 的FP16 計算能力和 640 TOPS 的 INT8 計算能力,功耗僅為 310W。目前,騰訊和百度等中國龍頭企業均已采購昇騰 910B,顯示其已獲得實質性市場認可,反映出華為在國內 AI 芯片產業的市場地位正在逐步確立。華為華為昇昇騰騰 910C 芯片在芯片在 AI 推理市場展現出強勁競爭力,為公司在國產替代推理市場展現出強勁競爭力,為公司在國產替代浪潮中贏得先機浪潮中贏得先機。根據 Toms Hardware,華為昇騰 910C 可以平替 H100 用
108、于大規模訓練和推理,在 FP8-FP64 下均有不俗表現,在 DeepSeek 團隊實測中 AI 推理性能已達到 NVIDIA H100 的 60%左右。隨著 DeepSeek 等國產大模型的崛起和算力需求爆發,華為憑借昇騰 910C 在推理市場的性能表現和價格優勢,有望在國產 AI 芯片替代進程中搶占市場份額,為公司在后CUDA 時代的 AI 芯片業務帶來可觀的增長空間。DeepSeek 生態對生態對昇昇騰芯片的支持為華為打開了騰芯片的支持為華為打開了 AI 算力市場的增長通道算力市場的增長通道。DeepSeek 從第一天起就支持華為昇騰芯片,并自主維護 PyTorch 倉庫,使開發者只需一
109、行代碼就能將 CUDA 轉換為 CUNN。這種生態支持極大降低了企業采用華為 AI 芯片的技術門檻,為昇騰 910C 在大模型推理市場的滲透提供了關鍵助力。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 24 of 27 圖圖22:昇昇騰騰 910C 推理表現優異,達到推理表現優異,達到 H100 的的 60%數據來源:快科技 華為華為昇昇騰生態與騰生態與DeepSeek深度融合,為公司深度融合,為公司AI芯片業務打開增長新空間芯片業務打開增長新空間。華為官方于 2025 年 2 月初宣布 DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro
110、系列模型已正式上線昇騰社區 Model Zoo,支持一鍵獲取并在昇騰硬件平臺上開箱即用,為華為昇騰 AI 芯片提供了強大的軟件生態支持。華為為 DeepSeek-V3 模型在昇騰平臺上提供了完整的部署方案,包括硬件配置要求、權重轉換、鏡像加載、容器啟動及服務化測試等全流程支持,具體部署需配置 4 臺 Atlas 800I A2(864G)服務器資源,用戶可在昇騰社區下載適配的鏡像包,支持快速部署。隨著更多企業尋求本地化部署大模型以滿足數據安全和定制化需求,華為有望通過昇騰+DeepSeek 的組合方案在企業級 AI 市場獲得更大份額,為 AI 業務帶來持續增長動力。圖圖23:Model Zoo
111、 上線了上線了 DeepSeek 全系列模型全系列模型 數據來源:華為 華為華為昇昇思思 MindSpore 完成完成 DeepSeek-V3 全棧適配全棧適配?;跁N騰 AI 硬件與昇思 MindSpore AI 框架的 DeepSeek-V3 已完成開發支持并上線開源社區。昇思通過多維混合分布式能力、自動并行、Dryrun 集群內存仿真等技術,實現了天級快速適配 DeepSeek-V3 的新增模型結構和分布式并行訓練能力。在推理性能方面,MindSpore 針對 DeepSeek-V3 的 MLA 和 DeepSeekMoE等關鍵網絡結構進行了深度優化,通過算子融合和圖編譯等技術顯著提升了
112、推理效率。這一全棧適配成果不僅證明了華為在AI框架領域的技術實力,也為國產 AI 軟件生態提供了重要支撐。摩爾線程展現生態適配速度優勢,全面支持摩爾線程展現生態適配速度優勢,全面支持 DeepSeek 開源項目開源項目。摩爾線程在 DeepSeek 開源周收官之際,宣布已在短時間內成功實現對 DeepSeek 各個開源項目的全面支持,包括 FlashMLA、DeepEP、DeepGEMM、DualPipe以及 3FS,充分驗證了摩爾線程 MUSA 架構和全功能 GPU 在生態兼容與快速適配方面的強大優勢。公司基于全新 MUSA Compute Capability 3.1 計算架構,提供原生
113、FP8 計算能力,并升級了高性能線性代數模板庫行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 25 of 27 MUTLASS,快速支持了 FlashMLA 以及其他開源項目。摩爾線程在DeepSeek 生態中的快速適配能力,展現了國產 GPU 廠商在軟件生態建設方面的進步,為其在國產替代浪潮中贏得了先機。沐曦科技瞄準沐曦科技瞄準 DeepSeek 私有化部署藍海,私有化部署藍海,CUDA 兼容性成為關鍵競爭力兼容性成為關鍵競爭力。沐曦科技正敏銳地把握住英偉達GPU在國內零售市場基本消失帶來的市場空白,將戰略重點聚焦于 DeepSeek 等大模型的私有化部署市場。與其他國產 GPU
114、 廠商相比,沐曦的直接對標國際旗艦產品的理論算力,特別適合高算力需求場景。公司 MXN 系列 GPU 的核心競爭力在于其出色的 CUDA 兼容性,使得 DeepSeek 等原本為 CUDA 生態開發的模型能夠以極低的遷移成本在沐曦平臺上運行。5.3.精度支持與通信效率落后制約硬件替代進程,亟需技術突破精度支持與通信效率落后制約硬件替代進程,亟需技術突破 國產國產 AI 芯片要實現全面芯片要實現全面替代替代,需要在多個技術維度,需要在多個技術維度進步。進步。隨著 DeepSeek等國產大模型的崛起,AI 芯片的技術要求不斷提升。盡管眾多國產芯片廠商已經對 DeepSeek 進行了適配,但從長遠來
115、看,國產 AI 芯片仍面臨多個關鍵技術瓶頸需要突破。FP8 精度格式為大模型帶來關鍵性能突破精度格式為大模型帶來關鍵性能突破。FP8(8 位浮點數)作為新一代AI 計算精度格式,采用 E4M3 和 E5M2 兩種表示方式,其中 E 代表指數位,M 代表尾數位。與傳統的 FP16、FP32 相比,FP8 顯著減少了存儲空間,提高了計算吞吐量。在 DeepSeek 等大模型場景下,通過合理的技術優化,FP8能夠提供與更高精度類型相媲美的計算結果,同時帶來顯著的性能提升和能效改善。據英偉達披露,在 Hopper 架構 GPU 上,使用 FP8 相比 FP16 能夠帶來 3 倍以上的吞吐量提升。FP8
116、 精度格式通過其獨特的設計實現了計算效率與精度的最優平衡。精度格式通過其獨特的設計實現了計算效率與精度的最優平衡。在訓練階段,E4M3 格式提供了更大的動態范圍,適合處理梯度更新;而在推理階段,E5M2 格式則能更好地保持權重精度。這種靈活的精度配置使得大模型在不同階段都能獲得最佳性能。同時,由于數據位寬減半,FP8 可以顯著降低芯片間通信帶寬壓力,減少內存訪問次數,提升緩存命中率。這些技術優勢使得 FP8 成為大模型發展的必然選擇,特別是在需要處理超大規模參數和復雜計算的場景中。圖圖24:FP8 相比相比 FP16 能夠大幅提升吞吐量能夠大幅提升吞吐量 數據來源:NVIDIA FP64 在科
117、學計算和工程模擬中扮演著不可替代的角色。在科學計算和工程模擬中扮演著不可替代的角色。擴展指數范圍和尾數寬度使其能夠同時精確表示極大和極小的數值,這在處理大規模偏微分方程組時尤為重要。在有限元分析(FEA)中,數值計算的微小誤差會在模型中傳播,FP64 能夠最大限度地減少這些誤差,提高模擬的保真度和可靠行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 26 of 27 性。特別是在涉及復雜幾何形狀和邊界條件的工程模擬中,FP64 提供了處理這些復雜性所需的數值穩定性,確保了跨不同物理過程的計算精度。國產國產 AI 芯片精度支持不足成為制約發展的關鍵瓶頸芯片精度支持不足成為制約發展的關鍵
118、瓶頸。我國自主 AI 芯片在計算精度支持方面與國際領先產品存在差距,這一問題正成為制約國產替代進程的關鍵瓶頸。目前國內廠商大多不支持雙精度(FP64)計算,僅在單精度(FP32)及定點計算(INT8)方面與國外中端產品持平。更為關鍵的是,對 FP8 精度支持嚴重不足,而這恰恰是 DeepSeek 訓練和推理的重要技術需求。英偉達架構已全面支持 FP8 計算,而國產芯片在這一領域的滯后,直接影響了對 DeepSeek 等大模型的適配效率。提升互聯帶寬將成為國產提升互聯帶寬將成為國產 AI 芯片實現大規模訓練的關鍵突破口芯片實現大規模訓練的關鍵突破口。高效的互聯帶寬直接關系到大規模 AI 訓練的效
119、率和可行性。英偉達通過 NVLink 技術實現了高帶寬、低延遲的 GPU 間通信,為國產芯片提供了明確的技術參考方向。國產 GPU 需要在多卡協同技術上實現突破,開發類似 NVLink 的高效互聯技術,降低通信延遲,提高帶寬利用率。隨著 DeepSeek 等大模型參數規模不斷增長,對芯片間高效通信的需求愈發迫切,提升互聯帶寬將成為國產 AI 芯片實現技術跨越的關鍵一步。美國商務部工業與安全局最新的出口美國商務部工業與安全局最新的出口管制措施明確限制了內存帶寬密度高管制措施明確限制了內存帶寬密度高于于 3.3GB/s/mm的的 HBM 芯片對華出口。芯片對華出口。HBM(高帶寬內存)芯片是 AI
120、 芯片的關鍵組成部分,占據一枚 AI 芯片制造成本的近 70%。這種限制不僅阻礙了中國企業購買先進 HBM 芯片,同時也限制了相關生產設備的引進,試圖從源頭上遏制中國在高性能 AI 芯片領域的發展。雖然國內企業已經開始自主研發 HBM2 芯片并展示了樣品,但在技術水平上與國際領先企業仍有一定差距。這一限制措施直接影響了中國AI芯片的性能提升和大規模部署,成為當前需要突破的重要技術瓶頸。隨著技術的跟進,國產芯片將支撐大隨著技術的跟進,國產芯片將支撐大模型生態的發展。模型生態的發展。當前國產 AI 芯片在計算精度支持、互聯技術等關鍵領域仍存在明顯技術差距,這直接制約了其在 DeepSeek 等大模
121、型中的應用效果。國產芯片廠商需要集中資源突破這些核心技術瓶頸,同時加強與國產大模型開發者的深度協同。通過建立從芯片架構到算法框架的垂直優化體系,逐步構建起自主可控的算力生態。隨著技術迭代與市場需求的雙向驅動,國產算力解決方案有望在特定行業場景中實現突破,最終形成具備國際競爭力的技術體系和閉環生態。6.風險提示風險提示 1)推理算力需求不及預測推理算力需求不及預測 日均 184,800 億 tokens 的需求預測基于多個假設條件,如用戶活躍度、企業采用率等。這些假設可能因市場環境變化、競品沖擊或技術演進而顯著偏離,導致實際算力需求大幅波動。2)精度支持精度支持等等技術瓶頸技術瓶頸突破緩慢阻礙國
122、產替代突破緩慢阻礙國產替代 國內廠商普遍缺乏對 FP8 精度的支持能力,而這是 DeepSeek 等大模型高效運行的關鍵。缺少 FP8 精度支持將增加對顯存和帶寬的需求,從而影響國產芯片的性價比,可能導致國產替代進程受阻。3)供應受限影響國產供應受限影響國產 AI 芯片發展芯片發展 美國限制內存帶寬密度超過 3.3GB/s/mm的 HBM 芯片對華出口,而國產HBM 技術尚未成熟,可能制約國產 AI 芯片性能提升。4)CUDA 生態替代進程不及預期生態替代進程不及預期 盡管開源編譯器和跨平臺框架在挑戰 CUDA 生態,但完全替代仍面臨技術壁壘,國產芯片廠商在軟件生態建設和開發者遷移方面仍需投入
123、大量資源。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分 27 of 27 本公司具有中國證監會核準的證券投資咨詢業務資格本公司具有中國證監會核準的證券投資咨詢業務資格 分析師聲明分析師聲明 作者具有中國證券業協會授予的證券投資咨詢執業資格或相當的專業勝任能力,保證報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解,本報告清晰準確地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,特此聲明。免責聲明免責聲明 本報告僅供國泰君安證券股份有限公司(以下簡稱“本公司”)的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅在相關法律許
124、可的情況下發放,并僅為提供信息而發放,概不構成任何廣告。本報告的信息來源于已公開的資料,本公司對該等信息的準確性、完整性或可靠性不作任何保證。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可升可跌。過往表現不應作為日后的表現依據。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所
125、表述的意見均不構成對任何人的投資建議。在任何情況下,本公司、本公司員工或者關聯機構不承諾投資者一定獲利,不與投資者分享投資收益,也不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者務必注意,其據此做出的任何投資決策與本公司、本公司員工或者關聯機構無關。本公司利用信息隔離墻控制內部一個或多個領域、部門或關聯機構之間的信息流動。因此,投資者應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報告所提到的
126、公司的董事。市場有風險,投資需謹慎。投資者不應將本報告作為作出投資決策的唯一參考因素,亦不應認為本報告可以取代自己的判斷。在決定投資前,如有需要,投資者務必向專業人士咨詢并謹慎決策。本報告版權僅為本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用。如征得本公司同意進行引用、刊發的,需在允許的范圍內使用,并注明出處為“國泰君安證券研究”,且不得對本報告進行任何有悖原意的引用、刪節和修改。若本公司以外的其他機構(以下簡稱“該機構”)發送本報告,則由該機構獨自為此發送行為負責。通過此途徑獲得本報告的投資者應自行聯系該機構以要求獲悉更詳細信息或進而交易本報告中提及的證券。本報
127、告不構成本公司向該機構之客戶提供的投資建議,本公司、本公司員工或者關聯機構亦不為該機構之客戶因使用本報告或報告所載內容引起的任何損失承擔任何責任。評級說明評級說明 評級評級 說明說明 投資建議的比較標準投資建議的比較標準 投資評級分為股票評級和行業評級。以報告發布后的 12 個月內的市場表現為比較標準,報告發布日后的 12 個月內的公司股價(或行業指數)的漲跌幅相對同期的滬深 300 指數漲跌幅為基準。股票投資評級 增持 相對滬深 300 指數漲幅 15%以上 謹慎增持 相對滬深 300 指數漲幅介于 5%15%之間 中性 相對滬深 300 指數漲幅介于-5%5%減持 相對滬深 300 指數下跌 5%以上 行業投資評級 增持 明顯強于滬深 300 指數 中性 基本與滬深 300 指數持平 減持 明顯弱于滬深 300 指數 國泰君安證券研究所國泰君安證券研究所 上海上海 深圳深圳 北京北京 地址 上海市靜安區新閘路 669 號博華廣場20 層 深圳市福田區益田路 6003 號榮超商務中心 B 棟 27 層 北京市西城區金融大街甲 9 號 金融街中心南樓 18 層 郵編 200041 518026 100032 電話(021)38676666(0755)23976888(010)83939888 E-mail: