當前位置：首頁 > 報告詳情

財通證券：計算機行業專題報告DeepSeek-R1強化學習知識蒸餾比肩o1（13頁）.pdf

上傳人： C** 編號：612551 2025-01-22 PDF PDF 13頁 1.52MB 打包全文圖表打包全文圖表

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/13

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《財通證券：計算機行業專題報告DeepSeek-R1強化學習知識蒸餾比肩o1（13頁）.pdf》由會員分享，可在線閱讀，更多相關《財通證券：計算機行業專題報告DeepSeek-R1強化學習知識蒸餾比肩o1（13頁）.pdf（13頁珍藏版）》請在三個皮匠報告上搜索。

1、計算機/行業專題報告/2025.01.22 請閱讀最后一頁的重要聲明！DeepSeek-R1：強化學習+知識蒸餾，比肩 o1 證券研究報告投資評級投資評級:看好看好(維持維持)最近 12 月市場表現分析師分析師楊燁 SAC 證書編號：S0160522050001 相關報告 1.一文讀懂美國 BIS 最新禁令 2025-01-19 2.大模型系列報告（一）：Transformer架構的過去、現在和未來 2025-01-19 3.電力信息化研究框架：（一）總章 2025-01-14 核心觀點核心觀點 DeepSeek-R1 發布，對標發布，對標 OpenAI o1 正式版正式版。1 月 2

2、0 日，DeepSeek 正式發布一系列 DeepSeek-R1 模型，包括 DeepSeek-R1-Zero、DeepSeek-R1 和DeepSeek-R1-Distill 系列。DeepSeek-R1 模型推理能力優異，基準測試表現與OpenAI-o1-1217 相當，且 API 服務定價遠低于 OpenAI 同類產品。大規模強化學習大規模強化學習，激發大模型推理潛能激發大模型推理潛能：DeepSeek-R1-Zero 在技術路線上實現了突破性創新，成為首個完全摒棄監督微調環節、完全依賴強化學習訓練的大語言模型，證明了無監督或弱監督學習方法在提升模型推理能力方面的證明了無監督或弱監督學習

3、方法在提升模型推理能力方面的巨大潛力巨大潛力。在此基礎上，DeepSeek-R1 對 R1-Zero 進行了改進。通過引入冷啟動數據，并歷經推理導向強化學習、拒絕采樣、監督微調以及全場景強化學習的多階段訓練，充分發揮了強化學習的自學習和自進化能力充分發揮了強化學習的自學習和自進化能力。知識蒸餾技術知識蒸餾技術，讓小模型也能“聰明”推理讓小模型也能“聰明”推理：DeepSeek 團隊深入探索了將 R1 的推理能力蒸餾到更小模型中的潛力，發現經過發現經過 R1 蒸餾的小模型在推蒸餾的小模型在推理能力上實現了顯著提升，甚至超過了在這些小模型上直接進行強化學習的理能力上實現了顯著提升，甚至超過了在這些

4、小模型上直接進行強化學習的效果效果，證明了 R1 學到的推理模式具有很強的通用性和可遷移性，能夠通過蒸餾有效傳遞給其他模型。這些結論為業界提供了新的啟示：對小模型而言，蒸對小模型而言，蒸餾優于直接強化學習餾優于直接強化學習，大模型學到的推理模式在蒸餾中得到了有效傳遞。DeepSeek-R1 高性價比高性價比 API 定價，極具商業化落地定價，極具商業化落地潛力：潛力：DeepSeek-R1 API 服務定價為每百萬輸入 tokens 1 元（緩存命中）/4 元（緩存未命中），每百萬輸出 tokens 16 元，遠低于可比大模型 API 服務。DeepSeek-R1 的高性價的高性價比比 API

5、定價有助于開發者在使用后加速模型的功能迭代，從而解決目前模型定價有助于開發者在使用后加速模型的功能迭代，從而解決目前模型存在的不足。存在的不足。強化學習與知識蒸餾，強化學習與知識蒸餾，DeepSeek 引領大小模型創新之路引領大小模型創新之路：對于大模型對于大模型，DeepSeek-R1-Zero 展示的無 SFT 的強化學習技術為大模型開發者提供了一種新的訓練范式，即通過強化學習來激發模型的內在潛力，從而在多個領域實現更高效、更精準的推理能力。對于小模型對于小模型，DeepSeek-R1-Distill 系列通過知識蒸餾技術，成功將大模型的推理能力傳遞給小模型，實現了小模型在推理任務上的顯

6、著提升，引領了小模型的發展方向。投資建議投資建議：建議重點關注基礎設施領域的公司，如英偉達、海光信息、寒武紀、協創數據、英維克、中科曙光、浪潮信息、潤澤科技、歐陸通、曙光數創、申菱環境、東陽光等，同時持續關注全球各大模型廠商、學界的創新進展。風險提示：風險提示：技術迭代不及預期的風險；商業化落地不及預期的風險；政策支持不及預期風險；全球宏觀經濟風險。-18%-5%9%22%36%49%計算機滬深300上證指數下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 2 行業專題報告/證券研究報告 1 DeepSeek-R1 發布，對標發布，對標 OpenAI

7、 o1 正式版正式版.3 2 大規模強化學習：激發大模型推理潛能大規模強化學習：激發大模型推理潛能.4 2.1 DeepSeek-R1-Zero：以強化學習完全取代監管微調：以強化學習完全取代監管微調.4 2.2 DeepSeek-R1：引入冷啟動與多階段訓練：引入冷啟動與多階段訓練.5 3 知識蒸餾技術：讓小模型也能“聰明”推理知識蒸餾技術：讓小模型也能“聰明”推理.7 4 DeepSeek-R1 高性價比高性價比 API 定價，極具商業化落地潛力定價，極具商業化落地潛力.9 5 總結和啟示：強化學習與知識蒸餾，總結和啟示：強化學習與知識蒸餾，DeepSeek 引領引領 LLM 創新之路創新

8、之路.10 6 投資建議投資建議.11 7 風險提示風險提示.11 圖圖 1.DeepSeek 發布發布 DeepSeek-R1 模型模型.3 圖圖 2.DeepSeek-R1 與與 OpenAI 同類產品的基準測試比較同類產品的基準測試比較.3 圖圖 3.隨著隨著 RL 訓練推進，訓練推進，DeepSeek-R1-Zero 的的 AIME 2024 基準測試成績穩定且持續提升基準測試成績穩定且持續提升.4 圖圖 4.DeepSeek-R1-Zero 與與 OpenAI 的的 o1 模型的測試成績比較模型的測試成績比較.5 圖圖 5.DeepSeek-R1-Zero 中間版本的“頓悟現象”中間

9、版本的“頓悟現象”.5 圖圖 6.DeepSeek-R1 的基準測試成績在多個維度超越的基準測試成績在多個維度超越 V3 以及以及 OpenAI、Anthropic 的主流模型的主流模型.7 圖圖 7.DeepSeek-R1 蒸餾模型蒸餾模型.8 圖圖 8.QwQ-32B-Preview 與經過強化學習和與經過強化學習和 R1 蒸餾蒸餾 Qwen-32B 模型的基準測試成績對比模型的基準測試成績對比.8 圖圖 9.DeepSeek-R1-Distill 系列小模型的基準測試成績系列小模型的基準測試成績.9 圖圖 10.DeepSeek-R1 與與 OpenAI 同類產品的同類產品的 API 價

10、格比較價格比較.10 圖圖 11.DeepSeek-R1 深度思考能力示例深度思考能力示例.11 內容目錄圖表目錄下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 3 行業專題報告/證券研究報告 1 DeepSeek-R1 發布，對標發布，對標 OpenAI o1 正式版正式版 DeepSeek-R1 正式發布。正式發布。1 月 20 日，DeepSeek 正式發布了一系列 DeepSeek-R1 模型，并上傳 R1 系列的技術報告和各種信息。DeepSeek 此次共發布三組模型：DeepSeek-R1-Zero：大規模使用強化學習（RL）技術，沒

11、有任何監督微調（SFT）；DeepSeek-R1：在強化學習前融入冷啟動數據，多階段訓練；DeepSeek-R1-Distill 系列：DeepSeek-R1 中蒸餾推理能力到小型密集模型，參數規模分別為 1.5B、7B、8B、14B、32B 和 70B。圖1.DeepSeek 發布 DeepSeek-R1 模型數據來源：DeepSeek 官網，財通證券研究所 DeepSeek-R1 模型推理能力優異，比肩模型推理能力優異，比肩 OpenAI o1 正式版。正式版。DeepSeek-R1 在 AIME 2024 上獲得了 79.8%的成績，略高于 OpenAI-o1-1217。在 MATH-

12、500 上，它獲得了 97.3%的驚人成績，表現與 OpenAI-o1-1217 相當，并明顯優于其他模型。在編碼相關的任務中，DeepSeek-R1 在代碼競賽任務中表現出專家水平，在 Codeforces上獲得了 2029Elo 評級，在競賽中表現優于 96.3%的人類參與者。對于工程相關的任務，DeepSeek-R1 的表現略優于 OpenAI-o1-1217。圖2.DeepSeek-R1 與 OpenAI 同類產品的基準測試比較數據來源：DeepSeek 官方，財通證券研究所下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 4 行業專題報告

13、/證券研究報告 2 大規模強化學習：激發大模型推理潛能大規模強化學習：激發大模型推理潛能 2.1 DeepSeek-R1-Zero：以強化學習完全取代監管微調：以強化學習完全取代監管微調 DeepSeek-R1-Zero 在技術路線上實現了突破性創新，成為首個完全摒棄監督微調在技術路線上實現了突破性創新，成為首個完全摒棄監督微調（Supervised Fine-Tuning，簡稱簡稱 SFT）環節、完全依賴強化學習（）環節、完全依賴強化學習（Reinforcement Learning，簡稱簡稱 RL）訓練的大語言模型。）訓練的大語言模型。傳統上，SFT 作為大模型訓練的核心環節，需要先通過人

14、工標注數據進行監督訓練，再結合強化學習進行優化，這一范式曾被認為是 ChatGPT 成功的關鍵技術路徑。而 DeepSeek-R1-Zero 創新性地采用純強化學習訓練框架，以 DeepSeek-V3-Base 為基礎，通過群組相對策略優化群組相對策略優化（Group Relative Policy Optimization，簡稱簡稱 GRPO）算法）算法實現訓練效率與模型性能的雙重提升。該算法通過構建智能體群體間的相對優勢評估機制，在策略優化過程中最大化群體得分，同時設計了包含準確性獎勵和格式規范獎勵的多維度獎勵模型，確保生成內容在保持正確性的基礎上具備清晰的推理邏輯。圖3.隨著 RL 訓練

15、推進，DeepSeek-R1-Zero 的 AIME 2024 基準測試成績穩定且持續提升數據來源：DeepSeek 論文DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning，財通證券研究所隨著隨著 RL 訓練逐步推進，訓練逐步推進，DeepSeek-R1-Zero 的性能穩定且持續提升，證明了的性能穩定且持續提升，證明了 RL算法的有效性。算法的有效性。實證數據顯示，在 AIME 2024 基準測試中，模型平均 pass1 得分從初始的 15.6%持續提升至 71.0%，最終達到

16、與 OpenAI o1-0912 相當的性能水平。這一技術突破不僅驗證了強化學習在提升大模型推理能力方面的有效性，更這一技術突破不僅驗證了強化學習在提升大模型推理能力方面的有效性，更揭示了語言模型通過自主演化機制實現能力躍遷的可能性，為人工智能的自主學揭示了語言模型通過自主演化機制實現能力躍遷的可能性，為人工智能的自主學習范式提供了重要的實踐范例。習范式提供了重要的實踐范例。下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 5 行業專題報告/證券研究報告圖4.DeepSeek-R1-Zero 與 OpenAI 的 o1 模型的測試成績比較數據來源：

17、DeepSeek 論文DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning，財通證券研究所 DeepSeek-R1-Zero 在訓練過程中會出現“頓悟”現在訓練過程中會出現“頓悟”現象（象（Aha Moment），模型會自發地重新評估之前的步驟，并進行反思，即重新審視并評估之前的步驟，還會探索解決問題的替代方法，類似于人類的“靈光一現”。這種自發涌現的復雜行為，展示了純 RL 訓練的巨大潛力，也為理解 AI 的學習機制提供了新的視角。圖5.DeepSeek-R1-Zero 中間版本的“

18、頓悟現象”數據來源：DeepSeek 論文DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning，財通證券研究所 DeepSeek-R1-Zero 并非沒有缺陷，純強化學習訓練因為完全沒有人類監督數據的純強化學習訓練因為完全沒有人類監督數據的介入，存在著可讀性差和語言混用問題的缺陷介入，存在著可讀性差和語言混用問題的缺陷。但 DeepSeek-R1-Zero 在推理能力上的成功，證明無監督或弱監督學習方法在提升模型推理能力方面的巨大潛力，無監督或弱監督學習方法在提升模型推理能力方面的巨大

19、潛力，對于難以獲取大量高質量標注數據的領域具有重要意義對于難以獲取大量高質量標注數據的領域具有重要意義。2.2 DeepSeek-R1：引入冷啟動與多階段訓練：引入冷啟動與多階段訓練 DeepSeek-R1 在 R1-Zero 的基礎上進行了改進，保留大規模強化學習訓練的同時對齊真實場景，通過在在引入冷啟動數據引入冷啟動數據（cold-start data）后后，歷經歷經推理導向強化推理導向強化學習學習（Reasoning-oriented Reinforcement Learning）、拒絕采樣和監督微調拒絕采樣和監督微調（Rejection Sampling and Supervised

20、Fine-Tuning）、全場景強化學習全場景強化學習下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 6 行業專題報告/證券研究報告（Reinforcement Learning for all Scenarios）的多階段訓練的多階段訓練解決 DeepSeek-R1-Zero的缺陷，提升模型的應用能力。引入冷啟動數據引入冷啟動數據：冷啟動數據是指在訓練初期用于初始化模型的數據，有助于模型建立基本的推理能力。針對 DeepSeek-R1-Zero 的可讀性和語言混雜問題，DeepSeek-R1 通過引入數千條高質量的、包含長推

21、理鏈（Chain of Thought,簡稱 CoT）的冷啟動數據，對 DeepSeek-V3-Base 模型進行了初始微調，從而顯著提升了模型的可讀性和多語言處理能力。值得注意的是，在收集冷啟動值得注意的是，在收集冷啟動數據時，數據時，DeepSeek 以以 CoT 作為示例進行了少量樣本提示，直接促使模型生作為示例進行了少量樣本提示，直接促使模型生成帶有反思和驗證的詳細答案，從而強化了冷啟動數據的綜合質量。成帶有反思和驗證的詳細答案，從而強化了冷啟動數據的綜合質量。推理導向強化學習推理導向強化學習：在冷啟動數據的基礎上，DeepSeek 團隊使用與 DeepSeek-R1-Zero 相同的

22、大規模強化學習大規模強化學習訓練過程，重點提升模型在推理密集型任務（如編碼、數學、科學和邏輯推理）上的性能。為了解決語言混合問題，引入了語言一致性獎勵，鼓勵模型在 CoT 中使用目標語言。最終，推理任務的準確性和語言一致性獎勵相結合，形成獎勵信號，用于指導模型的訓練。拒絕采樣和監督微調拒絕采樣和監督微調：在強化學習接近收斂時，結合拒絕采樣和多領域的數據集，生成包含推理數據和非推理數據的新 SFT 數據。與之前的冷啟動數據不同，這一階段的 SFT 數據不僅包含推理任務，還涵蓋了其他領域的數據，例如寫作、角色扮演、問答等，以提升模型的通用能力。對于這類非推理類對于這類非推理類數據，數據，DeepS

23、eek采用了與采用了與DeepSeek-V3相同的處理流程，并復用了相同的處理流程，并復用了DeepSeek-V3 的的 SFT 數據集。在通過提示回答問題之前，數據集。在通過提示回答問題之前，DeepSeek 會調用會調用 DeepSeek-V3 來生成潛在的來生成潛在的 CoT，并最終收集了大約，并最終收集了大約 20 萬個與非推理訓練樣本相關的萬個與非推理訓練樣本相關的數據。數據。全場景強化學習全場景強化學習：使用包含推理數據和非推理數據的 SFT 數據集對模型進行微調，進行第二輪強化學習，以進一步優化模型的推理能力和通用性。在推理數據上，使用基于規則的獎勵模型；在非推理數據上，使用獎勵

24、模型來捕捉人類在復雜場景中的偏好。此外，還分別對模型的幫助性和無害性進行訓練，以確保模型輸出對用戶友好且安全。下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 7 行業專題報告/證券研究報告圖6.DeepSeek-R1 的基準測試成績在多個維度超越 V3 以及 OpenAI、Anthropic 的主流模型數據來源：DeepSeek 論文DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning，財通證券研究所相較于 DeepSeek-V3 模型

25、，DeepSeek-R1 在功能調用、多輪對話等方面的能力較弱。在處理非中英語言查詢時，DeepSeek-R1 容易出現語言混合的問題，對提示較為敏感，且在少樣本提示的情況下性能會下降。在軟件工程任務上，DeepSeek-R1 相較于 DeepSeek-V3 的提升也不夠明顯。然而，從整體來看，DeepSeek-R1 在DeepSeek-V3-Base 模型的基礎上，先利用少量高質量的冷啟動數據進行微調，隨后再進行強化學習。這種方法結合了監督學習和強化學習的優勢，既可以利用人這種方法結合了監督學習和強化學習的優勢，既可以利用人類的先驗知識來引導模型，又可以發揮強化學習的自學習和自進化能力。類的

26、先驗知識來引導模型，又可以發揮強化學習的自學習和自進化能力。3 知識蒸餾技術：讓小模型也能“聰明”推理知識蒸餾技術：讓小模型也能“聰明”推理 DeepSeek 團隊深入探索了將 R1 的推理能力蒸餾到更小模型中的潛力，利用利用DeepSeek-R1 生成的生成的 800K 數據對數據對 Qwen 和和 Llama 系列的多個小模型進行了微系列的多個小模型進行了微調調，并發布了 DeepSeek-R1-Distill 系列模型。下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 8 行業專題報告/證券研究報告圖7.DeepSeek-R1 蒸餾模型數據來

27、源：DeepSeek 官方，財通證券研究所 DeepSeek 團隊發現經過團隊發現經過 R1 蒸餾的小模型在推理能力上實現了顯著提升，甚至超蒸餾的小模型在推理能力上實現了顯著提升，甚至超過了在這些小模型上直接進行強化學習的效果過了在這些小模型上直接進行強化學習的效果。對比實驗顯示，直接在 Qwen-32B-Base 上進行的強化學習的 DeepSeek-R1-Zero-Qwen-32B 僅達到 QwQ-32B-Preview的水平，而經過 R1 蒸餾的 Qwen-32B 模型 DeepSeek-R1-Distill-Qwen-32B 則遠超兩者，證明了 R1 學到的推理模式具有很強的通用性和可

28、遷移性，能夠通過蒸餾學到的推理模式具有很強的通用性和可遷移性，能夠通過蒸餾有效傳遞給其他模型有效傳遞給其他模型。圖8.QwQ-32B-Preview 與經過強化學習和 R1 蒸餾 Qwen-32B 模型的基準測試成績對比數據來源：DeepSeek 論文DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning，財通證券研究所這一技術方向為業界提供了新的啟示：對小模型而言，蒸餾優于直接強化學習，對小模型而言，蒸餾優于直接強化學習，大模型學到的推理模式在蒸餾中得到了有效傳遞。大模型學到的推理

29、模式在蒸餾中得到了有效傳遞。例如，R1-Distill-Qwen-32B 在AIME2024 上取得了 72.6%的驚人成績，在 MATH-500 上得分 94.3%，在LiveCodeBench 上得分 57.2%，這些結果顯著優于之前的開源模型，并與 o1-mini相當。下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 9 行業專題報告/證券研究報告圖9.DeepSeek-R1-Distill 系列小模型的基準測試成績數據來源：DeepSeek 官方，財通證券研究所 4 DeepSeek-R1 高性價比高性價比 API 定價定價，極具商業化落，

30、極具商業化落地潛力地潛力 DeepSeek-R1 API服務定價遠低于服務定價遠低于 OpenAI同類產品同類產品，極具商業化潛力，極具商業化潛力。DeepSeek-R1 API 服務定價為每百萬輸入 tokens 1 元（緩存命中）/4 元（緩存未命中），每百萬輸出 tokens 16 元，而 OpenAI o1 模型 API 服務定價為每百萬輸入 tokens 55 元（緩存命中）/110 元（緩存未命中），每百萬輸出 tokens 是 438 元。DeepSeek-R1的高性價比的高性價比 API 定價有助于開發者在使用后加速模型的功能迭代，從而解決目前定價有助于開發者在使用后加速模型的

31、功能迭代，從而解決目前模型存在的不足。模型存在的不足。例如，在面向普通用戶時在面向普通用戶時，DeepSeek-R1 容易出現語言混合問題，這會限制其在智能客服、自動化編程輔助等場景中的使用體驗和效率。同時，DeepSeek-R1 系列模型對提示詞較為敏感，這意味著在實際應用中，使用門檻較高，用戶需要更精確地設計提示詞才能獲得較好的結果。在面向專業開發者時在面向專業開發者時，DeepSeek-R1 系列模型在軟件工程任務上未能展示出顯著的改進，可能導致其在軟件開發輔助工具、代碼生成等領域的應用效果不如預期，進而限制其在軟件工程市場的推廣。下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重

32、要聲明及財通證券股票和行業評級標準 10 行業專題報告/證券研究報告圖10.DeepSeek-R1 與 OpenAI 同類產品的 API 價格比較數據來源：DeepSeek 官方，財通證券研究所 5 總結和啟示：總結和啟示：強化學習與知識蒸餾，強化學習與知識蒸餾，DeepSeek 引引領領 LLM 創新之路創新之路 DeepSeek-R1-Zero 展示的無展示的無 SFT 的強化學習技術為的強化學習技術為產業產業提供了一種新的訓練范提供了一種新的訓練范式，即通過強化學習來激發模型的內在潛力，從而在多個領域實現更高效、更精式，即通過強化學習來激發模型的內在潛力，從而在多個領域實現更高效、更

33、精準的推理能力準的推理能力，為模型擴展（，為模型擴展（scaling）提供新的工程化）提供新的工程化方向方向。正如 DeepSeek-R1的技術論文中所說，強化學習的力量和美麗強化學習的力量和美麗在于，在于，與其明確地教模型如何解決問與其明確地教模型如何解決問題，題，不如不如只為其提供正確的激勵只為其提供正確的激勵，讓它，讓它自主地開發先進的問題解決策略自主地開發先進的問題解決策略。DeepSeek-R1-Zero 創新了語言模型的訓練范式，不再依賴大量的標注數據進行監督微調，而是通過純強化學習讓模型自主探索和發現解決問題的方法，從而實現了自主學習和演化，減少了對高質量標注數據的依賴，對于難以

34、獲取大量標注數據的領域尤為重要，同時也提高了訓練效率。在在 DeepSeek-R1 的訓練過程中，利用的訓練過程中，利用 DeepSeek-V3 模型生成的模型生成的 CoT 作為訓練數據，也為后續使用算法和技術手段生成或增強高作為訓練數據，也為后續使用算法和技術手段生成或增強高質量數據以訓練模型提供了新思路。質量數據以訓練模型提供了新思路。下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 11 行業專題報告/證券研究報告圖11.DeepSeek-R1 深度思考能力示例數據來源：DeepSeek 官網，財通證券研究所對于小模型而言，DeepSee

35、k-R1-Distill 系列通過知識蒸餾技術，成功將大模型的系列通過知識蒸餾技術，成功將大模型的推理能力傳遞給小模型，實現了小模型在推理任務上的顯著提升推理能力傳遞給小模型，實現了小模型在推理任務上的顯著提升，引領了小模型的發展方向。這些研究表明可以通過將大型模型的知識有效蒸餾到小型模型中，讓小模型得以在保持較低計算資源消耗的同時，實現接近大型模型的推理性能。這種技術不僅解決了小模型在資源受限情況下的性能瓶頸問題，還為其在實時應用、邊緣計算等場景中的部署提供了可能。6 投資建議投資建議建議重點關注基礎設施領域的公司，如英偉達、海光信息、寒武紀、協創數據、英維克、中科曙光、浪潮信息、潤澤科技

36、、歐陸通、曙光數創、申菱環境、東陽光等，同時持續關注全球各大模型廠商、學界的創新進展。7 風險提示風險提示技術迭代不及預期的風險：技術迭代不及預期的風險：若 AI 技術迭代不及預期，NLP 模型優化受限，則相關產業發展進度會受到影響。商業化落地不及預期的風險：商業化落地不及預期的風險：大模型盈利模式尚處于探索階段，后續商業化落地進展有待觀察。下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 12 行業專題報告/證券研究報告政策支持不及預期風險：政策支持不及預期風險：新行業新技術的推廣需要政策支持，存在政策支持不及預期風險。全球宏觀經濟風險全球宏觀經

37、濟風險：垂直領域公司與下游經濟情況相關，存在全球宏觀經濟風險。下載日志已記錄，僅供內部參考，股票報告網謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 13 行業專題報告/證券研究報告分析師承諾分析師承諾作者具有中國證券業協會授予的證券投資咨詢執業資格，并注冊為證券分析師，具備專業勝任能力，保證報告所采用的數據均來自合規渠道，分析邏輯基于作者的職業理解。本報告清晰地反映了作者的研究觀點，力求獨立、客觀和公正，結論不受任何第三方的授意或影響，作者也不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。資質聲明資質聲明財通證券股份有限公司具備中國證券監督管理委員會許可的證券投資

38、咨詢業務資格。公司評級公司評級以報告發布日后 6 個月內，證券相對于市場基準指數的漲跌幅為標準：買入：相對同期相關證券市場代表性指數漲幅大于 10%；增持：相對同期相關證券市場代表性指數漲幅在 5%10%之間；中性：相對同期相關證券市場代表性指數漲幅在-5%5%之間；減持：相對同期相關證券市場代表性指數漲幅小于-5%；無評級：由于我們無法獲取必要的資料，或者公司面臨無法預見結果的重大不確定性事件，或者其他原因，致使我們無法給出明確的投資評級。A 股市場代表性指數以滬深 300 指數為基準；中國香港市場代表性指數以恒生指數為基準；美國市場代表性指數以標普 500指數為基準。行業評級行業評級以

39、報告發布日后 6 個月內，行業相對于市場基準指數的漲跌幅為標準：看好：相對表現優于同期相關證券市場代表性指數；中性：相對表現與同期相關證券市場代表性指數持平；看淡：相對表現弱于同期相關證券市場代表性指數。A 股市場代表性指數以滬深 300 指數為基準；中國香港市場代表性指數以恒生指數為基準；美國市場代表性指數以標普 500指數為基準。免責聲明免責聲明本報告僅供財通證券股份有限公司的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告的信息來源于已公開的資料，本公司不保證該等信息的準確性、完整性。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用，并非作為或被視為出售或

40、購買證券或其他投資標的邀請或向他人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷，本報告所指的證券或投資標的價格、價值及投資收入可能會波動。在不同時期，本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司通過信息隔離墻對可能存在利益沖突的業務部門或關聯機構之間的信息流動進行控制。因此，客戶應注意，在法律許可的情況下，本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易，也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下，本公司的員工可能擔任本報告所提到的公司的董事。本報告中所指的投資及

41、服務可能不適合個別客戶，不構成客戶私人咨詢建議。在任何情況下，本報告中的信息或所表述的意見均不構成對任何人的投資建議。在任何情況下，本公司不對任何人使用本報告中的任何內容所引致的任何損失負任何責任。本報告僅作為客戶作出投資決策和公司投資顧問為客戶提供投資建議的參考?？蛻魬敧毩⒆鞒鐾顿Y決策，而基于本報告作出任何投資決定或就本報告要求任何解釋前應咨詢所在證券機構投資顧問和服務人員的意見；本報告的版權歸本公司所有，未經書面許可，任何機構和個人不得以任何形式翻版、復制、發表或引用，或再次分發給任何其他人，或以任何侵犯本公司版權的其他方式使用。信息披露信息披露下載日志已記錄，僅供內部參考，股票報告網

相關圖表

根據報告的內容，本文主要概括了DeepSeek-R1模型的發布情況及其技術創新。DeepSeek-R1模型包括DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill三個系列，其中DeepSeek-R1-Zero通過純強化學習訓練，實現了對監督微調的完全摒棄，并在AIME 2024基準測試中成績持續提升，最終達到與OpenAI o1-1217相當的性能。DeepSeek-R1在此基礎上引入冷啟動數據和多階段訓練，提升了模型的應用能力。DeepSeek-R1-Distill系列通過知識蒸餾技術，將DeepSeek-R1的推理能力傳遞給小模型，實現了小模型在推理任務上的顯著提升。此外，DeepSeek-R1的API服務定價遠低于OpenAI同類產品，具有較高的商業化潛力。

DeepSeek-R1如何通過強化學習提升大模型推理能力？知識蒸餾技術如何讓小模型獲得大模型的推理能力？ DeepSeek-R1的API服務定價有何優勢？

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站