《計算機行業Deepseek重塑AI時代大模型研發范式:效率革命劍指“暴力計算法則”-250214(19頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業Deepseek重塑AI時代大模型研發范式:效率革命劍指“暴力計算法則”-250214(19頁).pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、 請務必閱讀正文之后的免責條款部分 股票研究股票研究 行業更新行業更新 證券研究報告證券研究報告 股票研究/Table_Date 2025.02.14 效率革命劍指“暴力計算法則”效率革命劍指“暴力計算法則”Table_Industry 計算機計算機 Table_Invest 評級:評級:增持增持 上次評級:增持 Table_Report 相關報告相關報告 計算機重視企業本地部署大模型的投資機會2025.02.12 計算機金融行業本地部署 DeepSeek,金融 IT充分受益2025.02.08 計算機Deep Research 發布,深化 Agent 應用2025.02.05 計算機AI 競
2、賽加速,國內技術與應用快速崛起2025.02.03 計算機o3-mini 發布,專業領域精度提升2025.02.01 Deepseek 重塑重塑 AI 時代大模型研發范式時代大模型研發范式 table_Authors 李博倫李博倫(分析師分析師)伍巍伍巍(研究助理研究助理)鐘明翰鐘明翰(研究助理研究助理)0755-23976516 021-38031029 021-38031383 登記編號登記編號 S0880520020004 S0880123070157 S0880124070047 本報告導讀:本報告導讀:Deepseek 潛精研思潛精研思重構重構 AI 研發范式,研發范式,在訓練和推理
3、效率上取得顛覆性成果,在訓練和推理效率上取得顛覆性成果,硬件硬件需求的平民化需求的平民化有望有望推動國產算力繁榮發展推動國產算力繁榮發展,本地化部署有望迅速鋪開,本地化部署有望迅速鋪開。投資要點:投資要點:Table_Summary 投資建議:投資建議:Deepseek 降低對硬件算力的需求,云服務廠商將迎來一波新的增長勢頭,短期來看現階段本地部署可能是最適合大型企業和特殊行業企業的 AI 調用方式。我們看好本地國產推理算力的爆發,以及如向量數據庫等新型基礎軟件的擴圈。推薦標的:浪潮信息、紫光股份、星環科技-U、軟通動力。受益標的:中科曙光、神州數碼、拓維信息、拓爾思等。Deepseek 以“
4、單位算力效能提升以“單位算力效能提升 10 倍”為目標,通過算法優化降倍”為目標,通過算法優化降低模型訓練與推理成本低模型訓練與推理成本。Deepseek 打破了 AI 大模型領域“拼投入”的固有觀念,以極低的成本實現了與行業巨頭相媲美的模型性能。在訓練成本方面,訓練 671B 的 DeepSeek V3 的成本是 557.6 萬美元(約合 4070 萬人民幣),僅為 Llama 3 的 7%,而 OpenAI 訓練ChatGPT-4o 所花費的成本高達 7800 萬美元甚至是 1 億美元,還需要上萬張英偉達 H100 芯片,相比之下 DeepSeek-V3 在訓練時使用的 GPU 是英偉達的
5、 H800,一款在性能上被削弱的特供 AI 芯片。如今 DeepSeek-R1 用不到 GPT 5%的成本,便獲得了和 OpenAI 的頂尖推理模型 o1 相當的能力。同時公司采用 MIT 協議全棧開源,包括模型權重、訓練代碼及部署工具鏈,吸引全球開發者共建生態。DeepSeek 的技術革命性在于其開創了全新的大模型研發范式。的技術革命性在于其開創了全新的大模型研發范式。首先DeepSeek 采用了 MoE 和 MLA 兩大創新架構來實現高效的推理和成本效益高的訓練;算法層面,動態稀疏化專家網絡設計(Dynamic MoE),使模型推理過程中僅需調用不足 4%的神經網絡參數;工程層面,Deep
6、seek 采用 FP8 低精度訓練框架,相比傳統 32 位計算方案,能耗降幅高達 80%的同時保持模型收斂穩定性;尤為突破的是DeepSeek R1 引入的強化學習驅動范式擺脫了對 SFT 的依賴,通過自演進式訓練機制,其基于強化學習的冷啟動策略僅需行業基準值1/5 的標注數據量即可完成高效訓練。這些創新突破共同構建了對算力軍備競賽發展路徑的系統性顛覆。開源模型開源模型 DeepSeek 在當下的在當下的 AI 時代將扮演重要角色,就像時代將扮演重要角色,就像 Android 之于移動互聯網革命。之于移動互聯網革命。它會重構產業生態,引發鏈式反應,加速上層應用發展與下層系統統一。這將調動起跨越
7、軟硬件和上下游的生態力量,促使各方加大“模型-芯片-系統”協同優化與垂直打通的投入,進一步削弱 CUDA 生態優勢,為國產 AI 產業發展創造機遇。DeepSeek 通過技術創新,在 AI 模型訓練過程中實現了對高端進口芯片依賴的降低,這為國內企業展示了一條可行的技術路徑,極大地增強了國內企業自主研發算力芯片的信心。風險提示:風險提示:技術研發進展不及預期、資本投入不及預期、市場競爭加劇的風險。行業更新行業更新 請務必閱讀正文之后的免責條款部分 2 of 19 目錄目錄 1.DeepSeek資源約束下的效率革命者.3 1.1.量化巨頭的 AI 野心:中國 AI 自主化的戰略選擇.3 1.2.A
8、I 界“拼多多”:大模型平權踐行者.5 2.顛覆性革命:破除“算力性能”的強耦合關聯.7 2.1.DeepSeek-V2:架構創新奠定效率革命基石.8 2.2.DeepSeek-V3:實現成本減負與性能躍升.9 2.3.DeepSeek-R1:重塑大模型訓練范式.10 3.商業模式重構:從閉源壟斷到開放共贏.12 3.1.Deepseek 開源重構 AI 產業生態.13 4.硬件生態重塑:國產芯片的崛起機遇.14 4.1.國產算力迎來“代際躍升窗口”.15 4.2.Deepseek 有望加速算力需求增長.16 5.投資建議.17 6.風險提示.17 gZmYnMmOoNmQnQbRaO8OmO
9、rRoMnQkPqQtRiNqRsNbRnNvMxNpOnPNZsPrM行業更新行業更新 請務必閱讀正文之后的免責條款部分 3 of 19 1.DeepSeek資源約束下的效率革命者資源約束下的效率革命者 1.1.量化巨頭的量化巨頭的 AI 野心:中國野心:中國 AI 自主化的戰略選擇自主化的戰略選擇 DeepSeek 的誕生與幻方量化的戰略布局密切相關。的誕生與幻方量化的戰略布局密切相關。作為中國頭部量化私募基金,幻方量化自 2021 年起累計投入超 50 億元自建 AI 實驗室,其目標不僅是優化量化交易策略,更在于探索通用人工智能(AGI)的底層技術。在中美科技脫鉤背景下,中國亟需擺脫對海
10、外大模型(如 GPT 系列)的依賴。2023 年 7 月,DeepSeek 正式成立,進軍通用人工智能領域,至今從未對外融資;DeepSeek 的定位直擊痛點通過“輕量化+低成本”技術路線,打造自主可控的 AI 基礎設施。其團隊構成有著鮮明的特點,整體呈現出年輕化、高學歷以及本土化的特其團隊構成有著鮮明的特點,整體呈現出年輕化、高學歷以及本土化的特征。征。核心團隊匯聚了來自頂尖院校、擁有豐富行業經驗的專業人才,在技術研發、公司運營等多方面發揮關鍵作用。從年齡結構來看,團隊成員超過一半為 95 后,90 后占比超過 75%,是一支充滿朝氣與活力的年輕隊伍。在學歷背景方面,團隊成員大多來自國內頂尖
11、高校,他們在各自的專業領域積累了深厚的知識。他們富有創新精神,對新技術、新趨勢有著敏銳的感知和接受能力,且有充實的知識儲備與技術能力攻堅克難。戰略選擇大膽獨到卻不失精準,掀起成本革命同時開源構建產業生態戰略選擇大膽獨到卻不失精準,掀起成本革命同時開源構建產業生態?!案咝У哪P图軜嫛迸c“更低成本的訓練方法”是公司認為實現 AGI 的重要路徑。Deepseek 以“單位算力效能提升 10 倍”為目標,通過算法優化降低模型訓練與推理成本,如今 DeepSeek-R1 用不到 GPT 5%的成本,便獲得了和 OpenAI 的頂尖推理模型 o1 相當的能力。同時公司采用 MIT 協議全棧開源,包括模型
12、權重、訓練代碼及部署工具鏈,吸引全球開發者共建生態。圖圖1:Deepseek 模型發展關鍵節點與技術突破模型發展關鍵節點與技術突破 數據來源:國泰君安證券研究 2024 年年 12 月月 26 日,日,DeepSeek-V3 站上開源站上開源大模型大模型塔尖,比肩塔尖,比肩閉源模型。閉源模型。DeepSeek-V3 為自研 MoE 模型,671B 參數,激活 37B,在 14.8T token 上進行了預訓練,評測跑分不僅超越了 Qwen2.5-72B 和 Llama-3.1-405B 等開源模型,甚至還和一些頂尖閉源模型(如 GPT-4o 以及 Claude-3.5-Sonnet)不分伯仲。
13、行業更新行業更新 請務必閱讀正文之后的免責條款部分 4 of 19 圖圖2:Deepseek-V3 性能對齊海外領軍閉源模型,站上開源隊列塔尖性能對齊海外領軍閉源模型,站上開源隊列塔尖 數據來源:Deepseek 公眾號 Deepseek-V3 為官方認可唯一進入“最佳性價比”三角區的模型。為官方認可唯一進入“最佳性價比”三角區的模型。API 服務定價為每百萬輸入 tokens 0.5 元(緩存命中)/2 元(緩存未命中),每百萬輸出 tokens 8 元 圖圖3:Deepseek-V3 為其發布時官方唯一認可進入“最佳性價比”三角區的為其發布時官方唯一認可進入“最佳性價比”三角區的模型模型
14、數據來源:Deepseek 公眾號 而而 2025 年年 1 月月 DeepSeek-R1 發布且全開源,發布且全開源,在數學、代碼和自然語言推理在數學、代碼和自然語言推理等任務上都媲美等任務上都媲美 o1。DeepSeek-R1 在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。2025 年 1 月發布的 DeepSeek-R1 基于 DeepSeek-V3-Base 訓練,DeepSeek-R1 經過少量長 CoT 數據強化學習,輸出內容更結構化且簡約,而 V3 通過數據與算法
15、層面的優化,大幅提升算力利用效率。DeepSeek R1 的最大亮點在于其通過強化學習(RL)技術顯著提升了模型的推理能力,且僅需極少量標注數據即可實現高效訓練。與 OpenAI 的 o1 相比,R1 在多個基準測試中表現優異,具有極高的性價比,行業更新行業更新 請務必閱讀正文之后的免責條款部分 5 of 19 圖圖4:Deepseek-R1 性能對齊性能對齊 OpenAI-o1 正式版正式版 數據來源:Deepseek 公眾號 1.2.AI 界“拼多多”:界“拼多多”:大模型平權踐行者大模型平權踐行者 DeepSeek 以“單位算力效能提升以“單位算力效能提升 10 倍”為目標,通過算法優化
16、降低模型倍”為目標,通過算法優化降低模型訓練與推理成本。訓練與推理成本。早在 2024 年 5 月 7 日 DeepSeek-V2 發布之時,V2 采用Mixture-of-Experts(MoE)架構就實現了顯著的性能提升,推理成本被降到每百萬 token 僅 1 塊錢,約等于 Llama370B 的七分之一,GPT-4Turbo 的七十分之一。而 V3 發布后,首先是訓練時長上,DeepSeek V3 整個訓練過程僅用了不到 280 萬個 GPU 小時,相比之下,Llama 3 405B 的訓練時長是 3080萬 GPU 小時;其次在訓練成本方面,訓練 671B 的 DeepSeek V3
17、 的成本是557.6 萬美元(約合 4070 萬人民幣),僅為 Llama 3 的 7%,而 OpenAI 訓練ChatGPT-4o 所花費的成本高達 7800 萬美元甚至是 1 億美元,還需要上萬張英偉達 H100 芯片,相比之下 DeepSeek-V3 在訓練時使用的 GPU 是英偉達的 H800,一款在性能上被削弱的特供 AI 芯片。圖圖5:Deepseek-R1 性能對齊性能對齊 OpenAI-o1 正式版正式版 數據來源:Deepseek 官方論文 DeepSeek-R1 衛冕衛冕 AI 界界的推理性價比之王。的推理性價比之王。根據公司所公布的 DeepSeek-R1 的 API 定
18、價,每百萬輸入 tokens 1 元(緩存命中)/4 元(緩存命中),每百萬輸出 tokens 16 元。而 OpenAI o1 模型 API 服務定價為每百萬輸入 tokens 55 元(緩存命中)/110 元(緩存未命中),每百萬輸出 tokens 是 438 元。這個收費大約是 OpenAI o1 運行成本的三十分之一,也因此 DeepSeek被稱為 AI 界的“拼多多”。行業更新行業更新 請務必閱讀正文之后的免責條款部分 6 of 19 圖圖6:Deepseek 以極低的以極低的 API 定價打響大模型價格戰定價打響大模型價格戰 數據來源:國泰君安證券研究(注:假設美元兌人民幣匯率為
19、7.00)DeepSeek-R1 用用 1/30 的價格比肩的價格比肩 OpenAI o1。DeepSeek-R1 在數學、編程和推理等多個任務上達到了與 OpenAI o1 相當的表現水平,同時將應用程序編程接口(API,Application Programming Interface)調用成本降低了 90-95%。在 API 定價方面,DeepSeek 展現出極強的性價比優勢。其 API 服務對輸入 token 收取 0.55 美元/百萬,輸出 token 收取 2.19 美元/百萬,而 OpenAI o1 的收費分別為 15 美元/百萬和 60 美元/百萬,價格差距接近 30 倍。表表
20、1:Deepseek 模型模型性能比肩性能比肩 OpenAI o1 正式版正式版,API 定價低至定價低至 OpenAI o1 的的 3.65%(以輸出收費為衡量標準)(以輸出收費為衡量標準)模型名模型名 DeepSeek-V3 DeepSeek-R1 GPT-4o OpenAI o1 OpenAI o3-mini 發布時間發布時間 2024.12 2025.1 2024.5 2024.12 2025.2 是否推理模型是否推理模型 否 是 否 是 是 訓練方法訓練方法 STF+RL STF+RL STF+RL STF+RL 未公開 訓練成本訓練成本 557萬美元 1000萬美元 未公開 未公開
21、 未公開 API 定價定價 輸入 0.5 元(緩存命中)/M tokens,2 元(緩 存 未 命 中)/M tokens 輸入 1 元(緩存命中)/M tokens,4 元(緩存未命中)/M tokens 輸入 1.25 美元(緩存命中)/M tokens,2.5 美元(緩存未命中)/M tokens 輸入 7.50 美元(緩存命中)/M tokens,15 美元(緩 存 未 命 中)/M tokens 輸入 0.55 美元(緩存命中)/M tokens,1.10 美元(緩存未命中)/M tokens 輸出 8 元/M tokens 輸出 16 元/M tokens 輸出 10 美元/1M
22、tokens 輸 出60美 元/1M tokens 輸出 4.40 美元/1M tokens 文本長度文本長度 128K 128K 128K 200K 200K 參數規模參數規模 671B 671B 200B o1-preview:300B o1-mini:100B 多模態融合多模態融合 文本交互 文本交互 文本和視覺交互 文本交互 文本交互 開源情況開源情況 開源,已集成至 vllm、lmdeploy 等多個框架(如),支持 fp8 和 bf16 推理模式 開 源,提 供 基 于 Qwen 和 Llama 的蒸餾版本,參數規模從1.5B 至 70B 閉源 閉源 閉源 0.52814168.7
23、517.57052.51054203.857.730.8050100150200250300350400450輸入API價格(緩存命中)輸入API價格(緩存未命中)輸出API價格大模型API定價(元/M Tokens)DeepSeek-V3DeepSeek-R1GPT-4oOpenAI o1OpenAI o3-mini行業更新行業更新 請務必閱讀正文之后的免責條款部分 7 of 19 性能表現性能表現 基準測試表現接近 GPT-4o 和 Claude-3.5-sonnet,中文綜合能力出色,英文綜合能力與 Llama3-70b 處于同一梯隊,響應速度較快 在推理任務上表現卓越,尤其在數學、代碼
24、和自然語言推理任務中,比肩 OpenAI o1。在 AIME2024 數學競賽中準確率達 79.8%,超越 OpenAI o1-1217(78.5%),在 Math-500 測試中得分達 97.3%,超越 OpenAI o1-1217(96.8%)數學、編程、科學等領域表現優異,尤其在高推理努力模式下超越 o1-mini,響 應 速 度 比 o1-mini 快 24%,每個請求響應時間縮短至 7.7 秒 數據來源:Deepseek 官網,OpenAI 官網,國泰君安證券研究 DeepSeek-R1,以其顛覆性的性能、先進的架構和無與倫比的成本優勢,成,以其顛覆性的性能、先進的架構和無與倫比的成
25、本優勢,成為了為了 OpenAI o1 的強勁替代者。的強勁替代者。R1 在 2024 年 AIME(美國數學邀請賽)測試中分別取得了 71.0%和 79.8%的成績,與 OpenAI o1 的 79.2%水平相當。在 MATH-500 基準測試中,DeepSeek-R1 更是以 97.3%的成績略微超越了 o1 的 96.4%。在編程領域,該模型在 Codeforces 平臺上獲得了 2029 的評分,超過了 96.3%的人類程序員,與 o1-1217 的 2061 評分僅有小幅差距。在通用知識評測方面,DeepSeek-R1 同樣表現出色。在 MMLU(大規模多任務語言理解)測試中達到 9
26、0.8%的準確率,雖然略低于 o1 的 91.8%,但顯著優于其他開源模型。在 MMLU-Pro 上取得 84.0%的準確率,在 GPQA Diamond 測試中達到 71.5%的通過率。在創意寫作和問答任務上,模型在 AlpacaEval 2.0 中獲得了 87.6%的控長勝率,在 ArenaHard 評測中達到 92.3%的勝率。圖圖7:各代表性大模型在內的多項基準測試中各代表性大模型在內的多項基準測試中 DeepSeek-R1 與與 o1 并駕齊驅并駕齊驅 數據來源:Deepseek 官方論文 2.顛覆性顛覆性革命:破除“算力革命:破除“算力性能”的強耦合關聯性能”的強耦合關聯 Deep
27、Seek 的技術革命性在于其開創了全新的大模型研發范式的技術革命性在于其開創了全新的大模型研發范式通過全通過全方位的效率革命解耦算力規模與模型性能的高度綁定。方位的效率革命解耦算力規模與模型性能的高度綁定。首先 DeepSeek 采用了 MoE 和 MLA 兩大創新架構來實現高效的推理和成本效益高的訓練;算法層面,動態稀疏化專家網絡設計(Dynamic MoE),使模型推理過程中僅需調用不足 4%的神經網絡參數;工程層面,Deepseek 采用 FP8 低精度訓練行業更新行業更新 請務必閱讀正文之后的免責條款部分 8 of 19 框架,相比傳統 32 位計算方案,能耗降幅高達 80%的同時保持
28、模型收斂穩定性;尤為突破的是 DeepSeek R1 引入的強化學習驅動范式擺脫了對 SFT的依賴,通過自演進式訓練機制,其基于強化學習的冷啟動策略僅需行業基準值 1/5 的標注數據量即可完成高效訓練。這些創新突破共同構建了對算力軍備競賽發展路徑的系統性顛覆。2.1.DeepSeek-V2:架構創新:架構創新奠定效率革命基石奠定效率革命基石 DeepSeek-V2 采用了采用了 MoE 和和 MLA 兩大創新來實現高效的推理和成本效益兩大創新來實現高效的推理和成本效益高的訓練。高的訓練。DeepSeek 混合專家系統(MoE)架構和多頭潛在注意力(Multi-head Latent Atten
29、tion,MLA)這兩個技術創新分別針對 Transformer 架構中的不同瓶頸,成為 DeepSeek-V2 出圈的關鍵所在。DeepSeek-V2 放棄了國外主流也是 DeepSeek-V1 曾采用的 Dense(密集)路線,轉而使用 MoE(混合專家模型)路線。Dense 的缺點就是參數量大,硬件消耗大,這也導致之前的大模型價格高。MoE 由多個子模型(即“專家 expert”)組成,每個子模型都是一個局部模型,專門處理輸入空間的一個子集。相當于把 dense 大模型變成很多個 sparse(稀疏)的專家(expert)小模型,通過多個模型聚合來達到和 dense 大模型相當的能力。轉
30、成 MoE 架構,DS-V2 不僅激活參數量大大減少,并且性能提升很高。MOE 架構:架構:專攻訓練過程中的算力精準調配專攻訓練過程中的算力精準調配 MOE 架構通過動態路由機制調度專家各司其職,節省大量算力。架構通過動態路由機制調度專家各司其職,節省大量算力。MoE 不是將整個網絡用于每個輸入,而是學習計算成本低的映射函數,該函數確定網絡的哪些部分(即哪些專家)最有效地處理給定的輸入。同時,MoE 模型還包含一個門控網絡(或“路由器”),用于選擇性地激活給定任務所需的特定專家,而不是為每項任務激活整個神經網絡。例如,處理數學問題時激活邏輯推理專家,生成詩歌時激活文學創作專家。通過 671B
31、的總參數量,在每個 token 激活 37B 參數的精準控制下,DeepSeek-V3 用 14.8 萬億高質量多樣化 token,構建出了一個能夠超越所有開源模型,直逼 GPT-4 和Claude-3.5 等強大閉源模型。和傳統的和傳統的 MoE 架構相比,架構相比,DeepSeekMoE 具備更細粒度專家劃分,并采用具備更細粒度專家劃分,并采用共享專家機制。共享專家機制。DeepSeekMoE 對專家模塊進行更細粒度的劃分,降低每一個專家的參數量,增大專家數量,在保持 MoE 模塊參數量及激活參數量不變的情況下,同時實現靈活組合多個專家的能力。DeepSeekMoE 還把激活專家區分為共享
32、專家(Shared Experts)和路由專家(Routed Experts),減少專家模型間的知識冗余,使得模型能夠兼具捕捉數據共性和差異性的功能,提高模型的泛化能力和適應性。DeepSeek-V3 包含 1 個共享專家和 256 個路由專家,單次推理僅激活 8 個路由專家,總參數量為 671B,實際計算激活參數量降至 37B(占比 5.5%),相比稠密模型(Dense Model)節省 87%算力。無輔助損失的負載均衡(無輔助損失的負載均衡(load balance)算法)算法裨補闕漏,優化專家利用率裨補闕漏,優化專家利用率提提升顯存利用率升顯存利用率。通常在 MoE 模型的訓練過程中,采
33、用的專家并行(expert parallelism)機制將不同的專家模塊放到不同的顯卡上來加速訓練,而負載均衡問題則會導致更重要的專家模塊計算量更大,最終使得不重要的專家模塊所在的顯卡未被充分使用。DeepSeek-V2引入了額外的損失函數,即設備級平衡損失和通信平衡損失,從而讓模型在訓練中自行調控設備間的平衡。DeepSeek-V3 額外引入了一種無輔助損失的負載均衡策略,通過損失函數懲罰負載不均衡,確保各專家激活頻率接近,并且在該策略不會導致模型性能的額外損耗。實驗顯示,該算法使 GPU利用率從 65%提升至 92%。MLA 架構:架構:精通推理階段的緩存瘦身精通推理階段的緩存瘦身 MLA
34、(Multi-Head Latent Attention,多頭潛注意力)是對,多頭潛注意力)是對 Transformer 模模型中多頭注意力(型中多頭注意力(MHA)結構的創新優化,旨在提高推理階段的效率并降)結構的創新優化,旨在提高推理階段的效率并降行業更新行業更新 請務必閱讀正文之后的免責條款部分 9 of 19 低資源消耗。低資源消耗。大模型常用的優化算法 kv-cache 顯存占用很高,MLA 通過低秩聯合壓縮鍵值方法實現瘦身,將原本龐大的鍵值矩陣壓縮成一個較小的潛在向量(latent vector),實驗顯示,deepseek 在采用此技術后,相較于之前版本,KV 緩存大小減少了 9
35、3.3%從而大幅減少所需的緩存容量。由于緩存的壓縮,數據讀取和處理量大幅減少,推理速度顯著提升,相對基準系統吞吐量(完成工作量)提升 3-7 倍。計算復雜度降低使模型在處理長序列數據時優勢盡顯,能高效理解長篇文章、迅速而有邏輯地生成文本。和 DeepSeek 67B 相比,使用了 MLA 的 DeepSeek V2(總參數量 236B,激活參數量 21B)模型效果顯著提升,節省 42.5%的訓練成本,減少了 93.3%的 KV Cache,最大生成吞吐量提高 5.76倍。圖圖8:MLA 通過低秩聯合壓縮鍵值(通過低秩聯合壓縮鍵值(Key-Value),將它們壓縮為一個潛在),將它們壓縮為一個潛
36、在向量(向量(latent vector),從而大幅減少所需的緩存容量),從而大幅減少所需的緩存容量 數據來源:Deepseek 官方論文 架構創新奠定了后續迭代的基礎架構創新奠定了后續迭代的基礎。MoE 設計使模型在參數量激增時仍保持可控計算成本,是規?;涞氐年P鍵前提,MLA 架構通過對多頭注意力機制的創新性優化,顯著提升了推理效率并降低了資源消耗,這兩大創新是Deepseek 引領效率革命的關鍵基石。2.2.DeepSeek-V3:實現:實現成本減負與成本減負與性能躍升性能躍升 在在 V2 的基礎上,的基礎上,DeepSeek-V3 通過采用通過采用 FP-8 混合精度訓練和混合精度訓練
37、和引入引入 MTP(Multi-Token Prediction,多,多 token 預測)機制提升訓練和推理性能。預測)機制提升訓練和推理性能。DeepSeek-V3 在訓練過程中原生采用 FP-8 精度,這一選擇使得訓練效率相較于 BF-16 精度提升了約 1.6 倍。為了實現穩定的 FP-8 訓練,團隊對底層運算進行了大量優化,因為英偉達本身對 FP-8 的支持并不完善,而大多數AI 企業通常使用 BF-16 進行訓練。此外,DeepSeek-V3 還對并行流水線進行了優化,這些改進共同促成了 DeepSeek-V3 的低成本特性,使其在 AI 領域榮膺性價比之王。FP8 混合精度訓練框
38、架因事為制,既減少計算損耗又提升訓練效率?;旌暇扔柧毧蚣芤蚴聻橹?,既減少計算損耗又提升訓練效率。傳統的深度學習訓練通常采用較高精度的數據格式,如 FP32(32 位浮點數),但這會帶來巨大的內存占用和計算成本。DeepSeek-V3 在預訓練中采用了 FP8 混合精度訓練策略在前向傳播過程中使用 FP8(8 位浮點數),而反向行業更新行業更新 請務必閱讀正文之后的免責條款部分 10 of 19 傳播則使用 FP16(16 位浮點數),首次驗證了 FP8 訓練在極大規模模型上的可行性和有效性。這種巧妙的設計使得內存占用大幅減少 50%,極大地緩解了硬件存儲的壓力,使得在有限的硬件資源下能夠處理
39、更大規模的模型和數據集。同時,訓練速度得到了驚人的提升,相比傳統方式提升了 2.1倍,大大縮短了模型的訓練周期,加速了研發進程。采用細粒度量化策略,用自研動態縮放算法保證模型精度。采用細粒度量化策略,用自研動態縮放算法保證模型精度。為了避免因使用低精度數據格式而導致的精度損失,DeepSeek 自研了動態縮放算法(Dynamic Scaling)。該算法能夠根據梯度幅值自動調整量化參數,在保證計算效率的同時,有效維持模型的精度。在 GLUE 基準測試中,采用 FP8 混合精度訓練的模型精度損失僅 0.3%,這一極小的精度損失在可接受范圍內,充分證明了該技術的有效性和穩定性。MTP(Multi-
40、Token Prediction,多,多 token 預測)機制預測)機制:MTP 機制不僅提高了模型的訓練效率,還顯著加速了推理速度。機制不僅提高了模型的訓練效率,還顯著加速了推理速度。傳統的自回歸模型在文本生成時采用逐詞生成(Token-by-Token)的方式,這種方式生成速度較慢。DeepSeek 創新性地提出了 MTP 架構,簡而言之就是一次預測多個 Token 的方法,通過多 token 預測訓練的模型在推理時可以利用多個輸出頭進行自推測解碼(self-speculative decoding),從而實現高達 3 倍的推理速度提升。通過 MTP,v3 生成速度較 v2.5 提升了
41、3 倍,每秒生成 60個 tokens。這一改進極大地提高了文本生成的效率,能夠更快速地滿足用戶的需求。這種加速效果在不同模型規模和批量大小下均表現明顯,特別是在處理大規模數據時,MTP 機制的優勢更為突出。圖圖9:MTP 有利于提高模型性能,可以用于推理加速的推測解碼有利于提高模型性能,可以用于推理加速的推測解碼 數據來源:Deepseek 官方論文 預測機制增強生成文本的連貫性和邏輯性。預測機制增強生成文本的連貫性和邏輯性。為了解決長文本生成中上下文連貫性的問題,DeepSeek 引入了“預測窗口滑動機制”。該機制能夠在生成過程中動態調整預測窗口,確保模型在生成每個 Token 時都能充分
42、考慮上下文信息,從而保持長文本生成的連貫性。通過這一機制,模型在長文本生成中的困惑度(Perplexity)降低了 15%,生成的文本更加流暢自然,邏輯連貫。2.3.DeepSeek-R1:重塑大模型訓練范式:重塑大模型訓練范式 DeepSeek-R1 的核心創新在于訓練范式的重塑。的核心創新在于訓練范式的重塑。一直以來,LLM 的訓練方式都是讓模型跟著數據學生成,這種方式稱之為監督學習(Supervised Finetuning,SFT)。而 R1 采用了強化學習(Reinforcement Learning,RL)的方法。RL 通俗來說就是讓模型(agent)和環境(environment
43、)進行互動,然后通過其互動的結果進行打分(reward),從而訓練模型。大語言模型此前采用的 RLHF(人類反饋強化學習)也是 RL 的一種。但和 RLHF 不行業更新行業更新 請務必閱讀正文之后的免責條款部分 11 of 19 同的是,R1 采用的 RL 方法(稱為 GRPO,Group Relative Policy Optimization,組相關策略優化)并不需要一個龐大的人類標注數據庫。他的訓練方式很簡單:讓模型自己生成過程,最后只檢查結果是否正確。如果是數學題,那么就看輸出的結果文本;如果是編程題,那就看運行后的結果。DeepSeek 團隊通過混合訓練框架攻克純團隊通過混合訓練框架
44、攻克純 RL 模型的局限性。模型的局限性。首階段基于純強化學習(GRPO)訓練的 R1-Zero 模型,雖在圍棋等任務中實現零知識冷啟動并超越人類水平,但其生成的思維鏈(CoT)可讀性較低。為此,團隊將 R1-Zero 輸出的低質量 CoT 作為“冷啟動種子數據”,對 V3 基座模型進行監督微調(SFT),初步構建具備基礎推理能力的模型 1;隨后對模型 1 二次強化訓練(GRPO),利用其生成高質量推理數據集以優化數據純度。為平衡模型能力,團隊同步調用 V3 生成非推理類文科數據(如寫作、事實問答),最終將文理數據集合并,對 V3 進行跨領域聯合微調產出模型 2,并再次通過 GRPO 強化對齊
45、,最終迭代出兼具邏輯推理與人文能力的 R1。這一這一“RL-SFT 數據閉環數據閉環”本質是自動化能力蒸餾本質是自動化能力蒸餾。通過 RL 模型自產數據反哺基座模型,再以增強后的基座模型生成更高階訓練數據,形成“數據質量-模型能力”的螺旋上升。其創新點在于擺脫傳統 RLHF 對人類標注的強依賴,通過基座模型(V3)與 RL 模型的動態協同,實現低成本自主進化,為AGI 工程化提供了可復用的技術范式。實驗表明,基于 V3 的強化訓練使模型自主習得復雜推理能力(如數學解題、代碼糾錯),在 RL 推理過程中模型自然地發展出了一些復雜的推理行為,如反思和驗證,這些行為不是預先編程的,而是模型在訓練過程
46、中自發產生的。模型在中間版本中出現”頓悟時刻”(aha moment),它學會了重新評估初始方法,分配更多的思考時間來解決問題。這表明模型可能已經具備了某種程度的“元認知”能力,能夠對自身的思維過程進行監控和調整。支撐這些突破的核心是團隊開發的 GRPO(Group Relative Policy Optimization)算法框架。這種自我優化的能力展示了 RL 的強大潛力。圖圖10:在在 AIME 2024 數學測試中,數學測試中,r1-zero 的準確率從最初的的準確率從最初的 15.6%開開始,隨著訓練的深入不斷提升至始,隨著訓練的深入不斷提升至 86.7%,接近,接近 o1-0912
47、 的水平的水平 數據來源:Deepseek 官方論文 Deepseek 創新強化學習方法,群體相對策略優化(創新強化學習方法,群體相對策略優化(GRPO)在降低訓練成)在降低訓練成本的同時大幅提升了模型的推理本的同時大幅提升了模型的推理能力。能力。傳統 LLM 經歷預訓練、監督微調(STF)、基于人類反饋的強化學習(RLHF)三個階段,DeepSeek 則跳過STF 階段,直接利用強化學習對模型進行優化。主流的 RLHF 算法有 PPO、(Proximal Policy Optimization)、DPO(Direct Preference Optimization),Deepseek 創新采
48、用的 GRPO 不再依賴人工或神經網絡的反饋模型,而是基于規則定義獎勵,包括準確性獎勵、格式獎勵等,讓模型將新舊答案進行對行業更新行業更新 請務必閱讀正文之后的免責條款部分 12 of 19 比從而自主選擇更優答案,避免了模型通過意外方式最大化獎勵,而非真正提升推理能力。訓練過程中,DeepSeek-R1-Zero 的平均準確率從 15.6%躍升至 71.0%,推理能力已接近 o1 的水平,尤其是在數學和科學推理任務上表現突出,展現出強化學習在推理方面的巨大潛力。表表2:Deepseek-R1 在在 V3 的基礎上采用了強化學習(的基礎上采用了強化學習(Reinforcement Learni
49、ng,RL)對比維度對比維度 DeepSeek-V3 DeepSeek-R1 技術細技術細節節 架構架構 采用 MLA和 DeepSeekMoE 架構;引入輔助損失免費的負載均衡策略和多令牌預測訓練目標 先在 V3的模型上進行強化學習;DeepSeek-R1 在此基礎上采用冷啟動數據微調,并經過多階段訓練 訓練算訓練算法法 FP8混合精度訓練,采用 DualPipe算法等優化 在 V3的基礎上采用 GRPO 算法進行改進 訓練數訓練數據據 預訓練數據包含 14.8 萬億高質量多樣的萬億高質量多樣的 tokens,對數據進行優化并采用文檔打包方法 DeepSeek-R1-Zero不依賴監督數據不
50、依賴監督數據,DeepSeek-R1使用少量少量冷啟動數據冷啟動數據,且在訓練過程中會收集更多數據進行微調 功能效功能效果果 功能側功能側重重 知識問答、代碼和數學知識問答、代碼和數學任務等多領域表現出色,具備長上下文理解能力長上下文理解能力 推理任務推理任務上表現突出,能處理復雜推理問題,且在知識基準測試和其他通用任務上也有良好表現 效果表效果表現現 旨在成為最強大的開源模型最強大的開源模型,縮小與閉源模型的差距 旨在通過強化學習提升推理能力,在推理任務上比肩OpenAl-o1-1217 模型優點模型優點 架構創新,訓練效率高,訓練效率高,在多領域表現出色,且訓練成本經濟訓練成本經濟。在數學
51、和代碼任務上超越許多開源模型 推理能力強,推理能力強,通過強化學習無需監督數據即可獲得強大推理能力,且經過改進后在可讀性和性能上有提升,蒸餾后的小模型也有不錯的表現 數據來源:國泰君安證券研究 “冷啟動數據冷啟動數據”策略配合多階段訓練策略配合多階段訓練不斷不斷提升完善模型的推理能力提升完善模型的推理能力。DeepSeek-R1-Zero 在推理過程中存在語言混合和可讀性差的問題。為了解決這些問題,在訓練初期引入少量高質量長思維鏈(Long CoT)數據作為冷啟動,這些數據具備良好的可讀性、充足的人類先驗知識,以此 deepseek 訓練出一個更具用戶友好的模型 deepseek-r1,其不僅
52、能生成清晰連貫的思維鏈(CoT),同時仍能保持強大的泛化能力。再針對不同任務和場景進行強化學習訓練,最后通過拒絕采樣篩選高質量樣本并結合非推理任務數據進行二次監督微調,有效提升了模型在多種任務中的推理能力。Deepseek-R1 的研究驗證了大模型自主的研究驗證了大模型自主進化的可能性。進化的可能性。通過“冷啟動SFT+RL 循環迭代”的混合訓練框架,模型在無需領域知識注入的前提下,僅憑結果反饋即可突破能力邊界,這一路徑大幅壓縮了模型迭代周期與成本。盡管當前仍依賴結果標簽作為獎勵信號,但其技術路線已指向輕人工干預、高擴展性的 AGI 演進方向,為行業提供了“強基模型+RL 驅動”的可行性范式。
53、長期來看,此類技術若規?;涞?,有望在科研、教育、代碼生成等高價值場景中構建競爭壁壘,成為 AI 賽道下一階段的差異化護城河。模型蒸餾技術實現知識由大型復雜模型遷移到小模型。模型蒸餾技術實現知識由大型復雜模型遷移到小模型。運用模型蒸餾技術,將 DeepSeek-R1 的推理能力蒸餾到其他模型中,生成高質量訓練樣本并用于監督微調,提升小模型的推理能力。使小模型在保持高效性的同時,性能得到顯著提升。3.商業模式重構:從閉源壟斷到開放共贏商業模式重構:從閉源壟斷到開放共贏 DeepSeek 的的開源開源將將重塑重塑 AI 產業格局產業格局,打破少數科技巨頭在打破少數科技巨頭在 AI 領域的技領域的技
54、術壟斷術壟斷?!耙蚤_源精神和長期主義追求普惠 AGI”是 DeepSeek 一直以來的堅定信念。目前 DeepSeek 已將模型完整開源,包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六個蒸餾模型(參數規模分別為 1.5B、7B、8B、14B、32B 和 70B)。這些模型均采用 MIT 許可(MIT 行業更新行業更新 請務必閱讀正文之后的免責條款部分 13 of 19 License)發布在 Hugging Face 平臺上,可以免費商用、允許任意修改和衍生開發、支持進行二次蒸餾訓練。以往,OpenAI 和谷歌等憑借閉源模式保持技術領先
55、,形成了相對封閉的商業生態。而 DeepSeek 以 MIT 這種最寬松的開源協議,公開模型的代碼和架構,允許公眾查看、使用和修改,讓全球開發者和企業都能參與到模型的優化與應用開發中,這對現有的 AI 產業格局產生了巨大沖擊,隨著越來越多的開發者和企業認可開源模式,DeepSeek 有望進一步擴大其影響力,推動產業向更加開放、多元的方向發展。蒸餾蒸餾的的小模型小模型彎道超車,劍指彎道超車,劍指 OpenAI 的的 o1-mini。公司在開源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個 660B 模型的同時,通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給
56、社區,經過 R1 蒸餾的小模型在推理能力上實現了顯著提升,甚至超過了在這些小模型上直接進行強化學習的效果,對小模型而言,蒸餾優于直接強化學習,大模型學到的推理模式在蒸餾中得到了有效傳遞。例如,R1-Distill-Qwen-32B 在 AIME2024 上取得了 72.6%的驚人成績,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%,這些結果顯著優于之前的開源模型,并與 o1-mini 相當。圖圖11:Deepseek 32B 和和 70B 蒸餾小模型多項能力對標蒸餾小模型多項能力對標 OpenAI o1-mini 數據來源:Deepseek 公眾號
57、 MIT 協議被稱為最寬松的開源協議之一,主要因為其賦予開發者極大的自協議被稱為最寬松的開源協議之一,主要因為其賦予開發者極大的自由度,同時保留了原作者的基本權利。由度,同時保留了原作者的基本權利。MIT 協議允許將開源軟件用于商業用途,這為企業的技術創新提供了靈活性,企業可以在 MIT 協議下的開源軟件基礎上進行開發,降低研發成本,同時推動技術的商業化應用。MIT 協議的寬松性吸引了大量開發者參與開源項目,促進了開源社區的發展。這種開放的生態模式不僅促進了技術的交流與合作,還推動了 AI 技術的標準化和規范化發展。MIT 協議的開源模式有助于構建一個開放、包容的 AI 行業生態。通過開源,D
58、eepSeek 等項目吸引了大量開發者,形成了蓬勃發展的社區。這種生態模式不僅促進了技術的交流與合作,還推動了 AI 技術的標準化和規范化發展 3.1.Deepseek 開源重構開源重構 AI 產業生態產業生態 開源模型開源模型 DeepSeek 在在當下的當下的 AI 時代時代將將扮演重要角色,就像扮演重要角色,就像 Android 之之于移動互聯網革命。于移動互聯網革命。它會重構產業生態,引發鏈式反應,加速上層應用發展與下層系統統一。這將調動起跨越軟硬件和上下游的生態力量,促使各方加大“模型-芯片-系統”協同優化與垂直打通的投入,進一步削弱 CUDA 生態優勢,為國產 AI 產業發展創造機
59、遇。當年谷歌通過開源安卓,消除了硬件制造商使用操作系統的成本障礙。這當年谷歌通過開源安卓,消除了硬件制造商使用操作系統的成本障礙。這使得三星、華為、小米等眾多廠商能夠基于安卓系統開發和生產各種類型的智能手機、平板電腦等設備,迅速擴大了安卓系統在移動設備市場的覆蓋面,行業更新行業更新 請務必閱讀正文之后的免責條款部分 14 of 19 幫助谷歌在移動操作系統領域占據了主導地位。隨著搭載安卓系統的設備數量急劇增加,開發者有了更廣闊的市場空間和用戶基礎,吸引了大量開發者為安卓平臺開發應用程序,豐富了安卓應用生態系統,進一步提升了安卓系統對用戶的吸引力,形成了良性循環,推動安卓設備市場份額不斷增長。當
60、時蘋果的 iOS 系統在移動領域表現強勁,擁有一批忠實用戶。谷歌通過開源安卓,打造了一個開放的移動生態系統。谷歌通過開源安卓,打造了一個開放的移動生態系統。在團結眾多合作伙伴的情況下,安卓形成了與 iOS 競爭的有力力量,有效遏制了蘋果在移動市場的擴張勢頭,為用戶提供了除 iOS 之外的另一種優秀選擇,滿足了不同用戶群體的需求。安卓開源使得谷歌能夠將其一系列核心服務,如搜索、地圖、Gmail 等深度集成到安卓系統中。用戶在使用安卓設備時,會頻繁使用這些谷歌服務,從而為谷歌積累了大量的用戶數據。谷歌利用這些數據進一步優化服務,提升用戶體驗,同時也為其廣告業務等提供了更精準的投放依據,增強了谷歌在
61、移動互聯網領域的競爭力和數據優勢。開源安卓吸引了全球各地的開發者參與到系統的開發和改進中。開源安卓吸引了全球各地的開發者參與到系統的開發和改進中。開發者們可以自由地獲取安卓系統的源代碼,根據自己的需求和創意進行修改和優化,然后將改進的代碼貢獻回社區。這種開放的開發模式激發了社區的創新活力,催生了許多新的功能、特性和應用場景,推動了安卓系統技術的快速發展。安卓的開源使得一些先進的移動技術能夠更快地在行業內得到普及和應用。硬件廠商和開發者可以基于安卓平臺快速進行技術創新和產品迭代,將新的技術和功能推向市場,促進了整個移動行業的技術進步,也使得谷歌的技術理念和創新成果能夠更廣泛地影響行業發展方向。通
62、過開源安卓,谷歌在移動操作系統領域成為了領導者和規則制定者之一。谷歌能夠主導安卓系統的發展方向,制定相關的技術標準和規范,在行業內擁有了更大的話語權和影響力,能夠更有效地推動行業的發展和變革,為谷歌在其他領域的業務拓展也創造了有利條件。DeepSeek 的開源策略顯著降低了的開源策略顯著降低了 AI 應用的成本,推動了應用的成本,推動了 AI 技術的普及。技術的普及。通過降低硬件依賴和訓練成本,DeepSeek 讓更多企業能夠負擔得起 AI 技術的開發和應用。這使得 AI 技術能夠更快地落地到各個行業,加速了 AI應用的爆發。例如,DeepSeek 的低成本優勢使得一些中小銀行也開始著手研發專
63、屬金融大模型,推動了金融行業的 AI 應用創新。此外,DeepSeek 的開源策略也促進了 AI 技術在醫療、教育、制造等垂直領域的深度滲透,加速了 AI 技術的商業化進程。DeepSeek 的崛起不僅是技術創新的勝利,更是開源生態與國產替代戰略的的崛起不僅是技術創新的勝利,更是開源生態與國產替代戰略的里程碑里程碑。其通過“算法-硬件-應用”的協同突破,為中國 AI 產業開辟了一條低耗高效的新路徑。DeepSeek 的開源和低價策略對國際上依靠高收費的主流 AI 工具帶來巨大沖擊。那些閉源且高收費的 AI 產品,在 DeepSeek 開源免費或低成本的模式對比下,優勢不再明顯。這將迫使市場上的
64、 AI 產品重新審視定價策略和商業模式,推動市場規則向更有利于用戶和創新的方向轉變,促進 AI 技術的普及和應用。同時 DeepSeek 抓住了填補生態位的絕佳機會,在當前 AI 市場中,存在著不同層次和類型的需求尚未被充分滿足。DeepSeek 通過開源,為那些需要基礎模型支持的企業和開發者提供了新的選擇,填補了市場空白,進一步完善了 AI 產業生態,使整個產業的分工更加細化和合理。未來,隨著端側 AI 與多模態技術的深化,DeepSeek 有望進一步推動 AI 從“技術紅利”向“普惠價值”演進,成為全球 AI 生態的重要一極。4.硬件生態重塑:國產芯片的崛起機遇硬件生態重塑:國產芯片的崛起
65、機遇 DeepSeek 通過技術創新,在通過技術創新,在 AI 模型訓練過程中實現了對高端進口芯片依模型訓練過程中實現了對高端進口芯片依賴的降低。賴的降低。以往,國內許多 AI 項目高度依賴國外先進的算力芯片,不僅成本高昂,還面臨供應不穩定的風險。DeepSeek 的出現打破了這一局面,其行業更新行業更新 請務必閱讀正文之后的免責條款部分 15 of 19 獨特的訓練方法使得在使用相對較低端芯片時,也能實現高效的模型訓練。例如,在一些自然語言處理任務中,DeepSeek 利用自研算法,在國產中低端芯片上的訓練效果與國外高端芯片相當,這為國內企業展示了一條可行的技術路徑,極大地增強了國內企業自主
66、研發算力芯片的信心。國內眾多芯片研發企業開始加大研發投入,嘗試突破技術瓶頸,期望在國產算力芯片領域取得更大的突破。4.1.國產算力迎來“國產算力迎來“代際躍升窗口代際躍升窗口”DeepSeek 的迅速崛起,為國產算力基礎設施公司帶來了多方面的積極影響。的迅速崛起,為國產算力基礎設施公司帶來了多方面的積極影響。它不僅降低了對高端進口芯片的依賴,增強了國內企業自主研發的信心,還推動了算力升級和市場繁榮,加速了國產替代進程。在中美 AI 領域競爭加劇的背景下,DeepSeek 的技術創新和應用推廣,為國內 AI 產業的發展提供了新的機遇和挑戰,DeepSeek 的高效推理能力和低成本特性推動了全球算
67、力架構的多元化發展。更多企業和業務團隊能夠以更低的成本建設自主可控的 AI 算力平臺,部署更靈活的解決方案。這使得 AI 應用的增多和普及導致市場整體對于云端推理算力需求的大幅增加。未來,隨著 AI 技術的不斷發展和應用場景的不斷拓展,國產算力基礎設施公司有望在全球 AI 產業中占據更加重要的地位。當前全球當前全球 AI 產業正經歷生態架構范式遷移產業正經歷生態架構范式遷移。CUDA 的護城河是軟件堆棧,它可以讓研究人員和軟件開發者更好地在 GPU 上編程和構建各種應用,牽引下一代芯片的迭代方向。然而,隨著 Transformer 統一模型結構的出現,大模型應用落地場景所需的算子數量大幅度減少
68、,CUDA 的護城河正在變薄。Deepseek 正扮演類似 Android 的生態錨點角色,其技術路線牽引國產芯片(如昇騰、寒武紀)與系統(OneFlow、MindSpore)形成垂直整合,通過模型導向的軟硬協同設計(如稀疏計算單元定制、動態編譯優化),國產體系可繞開 CUDA 歷史包袱,在未來的 AI 時代構建“需求定義硬件”的反向迭代路徑?;谥髁餍酒_展極致軟硬件協同優化,以有限算力實現國產模型能力追趕;推動國產芯片開放底層生態,搭建“異構”AI 系統解決算力缺口,實現模型能力趕超;構建國產“同構”系統,支持 Scaling Law 持續發展,打造“國產模型-國產芯片-國產系統”的全國產
69、 AI 產業閉環,實現更可控的自主算力發展。Deepseek 通過模型蒸餾技術和高效的算法優化,顯著降低了對硬件算力的通過模型蒸餾技術和高效的算法優化,顯著降低了對硬件算力的需求,適配更多國產芯片。需求,適配更多國產芯片。MOE 架構適配,混合專家模型(MoE)通過細粒度的專家分工和靈活的路由機制,充分利用計算資源,提高國產芯片整體的資源利用率,發揮其最大效能。DualPipe 算法立功,以往,在 AI 模型訓練時,硬件需時刻保持超高的計算和通信性能,才能維持訓練效率,這對于性能暫時落后的國產芯片而言是巨大挑戰。但 DualPipe 算法改變了這一局面,例如在字節跳動的部分 AI 項目中,使用
70、國產中低端芯片配合 DualPipe 算法進行分布式訓練,按照算法機制合理安排計算和通信時間,成功避免因芯片性能短板導致的訓練中斷或長時間等待,使國產芯片能夠參與到大規模的模型訓練任務中,在一定程度上提升了訓練速度。動態縮放算法助力,根據實時任務需求和系統資源狀況動態調整計算資源分配,使得國產芯片能夠更好地適應不同的工作負載,滿足多樣化的 AI 任務需求,降低了對芯片絕對性能的依賴。私有部署以及私有部署以及 ai agent 等等應用場景擴容,有望釋放更大算力需求。應用場景擴容,有望釋放更大算力需求。單位推理算力下降,推理數量指數級提升,總算力需求提升?!靶《馈钡?DeepSeek 模型為開
71、發者、內容創作者等提供了更多選擇,端側小模型可能大量涌現,進一步帶動國產算力的需求,為國產芯片在端側市場的應用提供了廣闊空間。云廠商加速適配,應用端有望迎來爆發。截至 2025 年 2 月 7 日,華為昇騰、海光、沐曦、天數智芯、摩爾線程、壁仞、燧原、昆侖芯、云天勵飛、靈汐科技、鯤云等多家國產芯片廠商紛紛宣布完成對 DeepSeek行業更新行業更新 請務必閱讀正文之后的免責條款部分 16 of 19 系列模型的適配,涵蓋從 1.5B 到 70B 的多參數版本,實現了推理服務的高效部署,推理端需求增長推動國產 AI 芯片在推理場景的應用;阿里云、百度智能云、華為云、騰訊云、火山引擎、天翼云、京東
72、云等已接入或上線Deepseek 模型。海外的亞馬遜 AWS、微軟 Azure 等云巨頭同樣官宣支持。DeepSeek 顯著降低本地部署硬件門檻顯著降低本地部署硬件門檻,硬件需求的“平民化”推動國產算,硬件需求的“平民化”推動國產算力繁榮發展。力繁榮發展。DeepSeek 的硬件平民化技術使國產算力首次在推理性價比維度超越國際競品,以 70B 參數規模的 R1 模型為例,其顯存占用從 V3 版本的 320GB(FP32)壓縮至 18GB(INT4+權重共享),單卡推理延遲優化至90ms 級別,并兼容寒武紀 MLU370、華為昇騰 910B 等國產芯片。這一技術突破使國產 GPU 首次在“千億級
73、模型單卡部署”場景中具備實用性:華為昇騰通過 CANN 7.0 對 MoE 架構的深度優化,在 R1 推理任務中實現 91%的英偉達 A100 等效性能,而天數智芯 BI-V100 針對稀疏注意力機制開發的專用計算單元(SPU)更將吞吐量提升 3.2 倍。硬件需求的“平民化”直接激活國產算力成本優勢,企業私有化部署成本下降 82%(單卡昇騰 910B 即可替代 8 卡 A100 集群),推動金融、政務等高安全需求領域加速國產替代進程。4.2.Deepseek 有望有望加速加速算力算力需求需求增長增長 隨著隨著 DeepSeek 技術的推廣應用,技術的推廣應用,AI 行業對算力的追逐進一步加劇。
74、行業對算力的追逐進一步加劇。一方面,部分企業為了在激烈的市場競爭中脫穎而出,堅持通過提升算力來推動模型性能的提升。他們不斷投入資金升級算力基礎設施,采購高性能的計算設備,建設更強大的計算集群。另一方面,由于 DeepSeek 降低了 AI 應用的成本門檻,使得 AI 應用的采用呈現出指數級增長的趨勢。更多的企業和開發者能夠輕松地將 AI 技術融入到自身的業務中,從傳統的制造業到新興的互聯網服務行業,AI 應用的范圍不斷擴大。這種市場需求的增長,帶動了國產算力基礎設施公司的業務繁榮。以華為云為例,其與硅基流動聯合推出基于昇騰云的 DeepSeekR1&V3 推理服務,不僅滿足了市場對強大算力的需
75、求,還通過自身的技術優勢,實現了與全球高端 GPU 部署模型持平的效果,吸引了大量客戶,推動了算力租賃及 AI 服務收入的快速增長。圖圖12:華為云與華為云與硅基流動聯合推出基于硅基流動聯合推出基于昇昇騰云的騰云的 DeepSeekR1&V3 推理服務推理服務 數據來源:硅基流動官網 DeepSeek 的技術突破和廣泛應用,意味著的技術突破和廣泛應用,意味著 AI 應用的加速落地。應用的加速落地。無論是在0.52814168.7517.57052.51054203.857.730.8050100150200250300350400450輸入API價格(緩存命中)輸入API價格(緩存未命中)輸出
76、API價格大模型API定價(元/M Tokens)DeepSeek-V3DeepSeek-R1GPT-4oOpenAI o1OpenAI o3-mini行業更新行業更新 請務必閱讀正文之后的免責條款部分 17 of 19 圖像識別、語音交互還是智能決策等領域,AI 技術都開始廣泛應用于各個行業。而 AI 模型的訓練和推理都離不開強大的算力支持。隨著 AI 應用的增多和普及,市場整體對于云端推理算力的需求大幅增加。國內頭部云計算公司紛紛接入 DeepSeek,借助其技術優勢,提升自身的 AI 服務能力。這不僅推動了云服務商算力租賃及 AI 服務收入的快速增長,還進一步促進了應用側的繁榮。越來越多
77、的創新型企業基于這些云服務,開發出各種 AI 應用,滿足市場的多樣化需求。同時,這也促使云計算算力需求進一步上升,為國產算力基礎設施公司帶來了更多的業務機會。AI 行業的發展行業的發展中中“算力成本壓縮算力成本壓縮”與與“算力使用算力使用”之間的關系成為核心之間的關系成為核心關注點。關注點。DeepSeek 的出現,使得算力成本得到了有效壓縮,其開源的模型和低成本技術創新,為眾多企業降低了 AI 研發和應用的成本。然而,隨著 AI 應用的指數級增長,對算力的使用也在快速增加。這就形成了一種博弈關系:如果“算力成本壓縮”的斜率足夠高,意味著企業在降低成本方面取得了顯著成效,能夠在有限的預算下實現
78、更多的 AI 應用;反之,如果“算力使用”的指數增長更快,那么即使成本有所降低,企業仍需要不斷投入資金來滿足日益增長的算力需求。對于國產算力基礎設施公司來說,這既是機遇也是挑戰。那些能夠在降低成本的同時,提供穩定、高效算力的企業,將在二級市場中獲得更多的青睞和投資。5.投資建議投資建議 Deepseek 降低對硬件算力的需求,云服務廠商將迎降低對硬件算力的需求,云服務廠商將迎來一波新的增長勢頭來一波新的增長勢頭。DeepSeek 的模型可以在非英偉達的硬件上高效運行,例如 HW 昇騰云服務,能夠繞開英偉達的 CUDA 生態,解決了中國企業在 AI 硬件上的“卡脖子”問題。這不僅削弱了英偉達在
79、AI 芯片市場的主導地位,還引發了全球半導體產業鏈的重新評估。硬件需求的“平民化”直接激活國產算力成本優勢,企業私有化部署成本下降 82%(單卡昇騰 910B 即可替代 8 卡 A100 集群),推動金融、政務等高安全需求領域加速國產替代進程。我們認為,現階段我們認為,現階段本地部署可能是最適合大型企業和特殊行業企業的本地部署可能是最適合大型企業和特殊行業企業的 AI 調調用方式用方式??春帽镜貒a推理算力的爆發,以及如向量數據庫等新型基礎軟件的擴圈。推薦標的:浪潮信息、紫光股份、星環科技-U、軟通動力。受益標的:中科曙光、神州數碼、拓維信息、拓爾思等。表表3:推薦公司估值表推薦公司估值表(更
80、新至(更新至 2025/2/12 收盤)收盤)可比公司可比公司 收盤價收盤價(元)(元)總市值總市值(億元)(億元)EPS(元(元/股)股)PE 評級評級 2021A 2022E 2023E 2021A 2022E 2023E 浪潮信息浪潮信息 688225.SH 91.80 22.95 0.05 0.52 0.63 459.00 44.13 增持 紫光股份紫光股份 000938.SZ 835.43 29.21 0.87 1.02 1.18 33.57 28.64 增持 星環科技星環科技-U 688031.SH 66.97 55.42(1.86)(1.36)(0.74)-增持 軟通動力軟通動力
81、 301236.SZ 677.54 71.10 0.66 0.86 1.16 107.73 82.67 增持 數據來源:Wind,國泰君安證券研究 6.風險提示風險提示 1)技術研發進展不及預期的風險)技術研發進展不及預期的風險 AI 大模型技術研發難度極大。若多模態融合、高效訓練算法、模型壓縮與加速等關鍵技術研發進度落后于預期,可能導致模型性能提升受限、應用落地困難,或將對大模型在各行業的普及和應用成本降低造成不利影響,阻礙產業的持續發展。2)資本投入不及預期的風險)資本投入不及預期的風險 目前 AI 大模型領域仍處于快速發展但尚未成熟的階段,高度依賴產業資本的持續投入以及配套應用的落地。若
82、資金支持未達預期,可能導致研發投入受限、項目進度延期,進而影響產業鏈的穩定性和企業的市場競爭力。行業更新行業更新 請務必閱讀正文之后的免責條款部分 18 of 19 3)市場競爭加劇的風險)市場競爭加劇的風險 隨著 AI 大模型的發展,預計將有更多企業涌入各細分賽道,導致競爭加劇,企業在技術創新、成本控制、生態構建等方面或將面臨更大壓力。行業更新行業更新 請務必閱讀正文之后的免責條款部分 19 of 19 本公司具有中國證監會核準的證券投資咨詢業務資格本公司具有中國證監會核準的證券投資咨詢業務資格 分析師聲明分析師聲明 作者具有中國證券業協會授予的證券投資咨詢執業資格或相當的專業勝任能力,保證
83、報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解,本報告清晰準確地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,特此聲明。免責聲明免責聲明 本報告僅供國泰君安證券股份有限公司(以下簡稱“本公司”)的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅在相關法律許可的情況下發放,并僅為提供信息而發放,概不構成任何廣告。本報告的信息來源于已公開的資料,本公司對該等信息的準確性、完整性或可靠性不作任何保證。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可升可跌。過往表現不應作
84、為日后的表現依據。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議。在任何情況下,本公司、本公司員工或者關聯機構不承諾投資者一定獲利,不與投資者分享投資收益,也不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者務必注意,其據此做出的任何投資決策與本公司、本公司員工或者關聯機構無關。本公司利
85、用信息隔離墻控制內部一個或多個領域、部門或關聯機構之間的信息流動。因此,投資者應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報告所提到的公司的董事。市場有風險,投資需謹慎。投資者不應將本報告作為作出投資決策的唯一參考因素,亦不應認為本報告可以取代自己的判斷。在決定投資前,如有需要,投資者務必向專業人士咨詢并謹慎決策。本報告版權僅為本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用。如征
86、得本公司同意進行引用、刊發的,需在允許的范圍內使用,并注明出處為“國泰君安證券研究”,且不得對本報告進行任何有悖原意的引用、刪節和修改。若本公司以外的其他機構(以下簡稱“該機構”)發送本報告,則由該機構獨自為此發送行為負責。通過此途徑獲得本報告的投資者應自行聯系該機構以要求獲悉更詳細信息或進而交易本報告中提及的證券。本報告不構成本公司向該機構之客戶提供的投資建議,本公司、本公司員工或者關聯機構亦不為該機構之客戶因使用本報告或報告所載內容引起的任何損失承擔任何責任。評級說明評級說明 評級評級 說明說明 投資建議的比較標準投資建議的比較標準 投資評級分為股票評級和行業評級。以報告發布后的 12 個
87、月內的市場表現為比較標準,報告發布日后的 12 個月內的公司股價(或行業指數)的漲跌幅相對同期的滬深 300 指數漲跌幅為基準。股票投資評級 增持 相對滬深 300 指數漲幅 15%以上 謹慎增持 相對滬深 300 指數漲幅介于 5%15%之間 中性 相對滬深 300 指數漲幅介于-5%5%減持 相對滬深 300 指數下跌 5%以上 行業投資評級 增持 明顯強于滬深 300 指數 中性 基本與滬深 300 指數持平 減持 明顯弱于滬深 300 指數 國泰君安證券研究所國泰君安證券研究所 上海上海 深圳深圳 北京北京 地址 上海市靜安區新閘路 669 號博華廣場20 層 深圳市福田區益田路 6003 號榮超商務中心 B 棟 27 層 北京市西城區金融大街甲 9 號 金融街中心南樓 18 層 郵編 200041 518026 100032 電話(021)38676666(0755)23976888(010)83939888 E-mail: