《計算機行業AIGC系列報告之DeepSeek深度解析:DeepSeek推動高性能AI普惠AI生態繁榮發展-250204(17頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業AIGC系列報告之DeepSeek深度解析:DeepSeek推動高性能AI普惠AI生態繁榮發展-250204(17頁).pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、 敬請閱讀末頁的重要說明 證券研究報告|行業深度報告 2025 年 02 月 04 日 推薦推薦(維持)(維持)AIGCAIGC 系列報告之系列報告之 DeepSeekDeepSeek 深度解析深度解析 TMT 及中小盤/計算機 DeepSeek-V3 奠定模型高效奠定模型高效訓練訓練基礎,基礎,R1 通過大規模強化學習使開源模型推理通過大規模強化學習使開源模型推理能力追平能力追平 o1。開源模型直接。開源模型直接帶來帶來 AI 產業模型能力產業模型能力普遍提升普遍提升,同時,同時低廉的使用低廉的使用成本搭配卓越的性能倒逼成本搭配卓越的性能倒逼 OpenAI 降低降低 GPT 使用成本使用成本
2、、加速模型迭代,促進產、加速模型迭代,促進產業生態繁榮業生態繁榮。大模型能力普遍提升首先利好大模型能力普遍提升首先利好 AI 應用開發,尤其小模型易于在端應用開發,尤其小模型易于在端側落地,長期看側落地,長期看 DeepSeek 帶來的應是算力層面的杰文斯悖論,整體帶來的應是算力層面的杰文斯悖論,整體 AI 應用生應用生態繁榮應將帶來推理算力的更大需求。態繁榮應將帶來推理算力的更大需求。DeepSeek-V3 奠定模型高效基礎,奠定模型高效基礎,R1 通過大規模強化學習使開源模型推理通過大規模強化學習使開源模型推理能力追平能力追平 o1。DeepSeek-V3 通過算法創新和工程優化大幅提升模
3、型效率,從而降低成本,提高性價比。DeepSeek-V3 為了實現高效的推理和經濟的訓練,沿用了 V2 即提出的 MLA 和 DeepSeekMoE,同時通過 MTP、FP8 精度訓練、并行優化等方法進一步提升效率。在 V3 基礎上,DeepSeek-R1 在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力,在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1 正式版,還蒸餾了 6 個小模型開源給社區,其中 32B 和 70B 模型在多項能力上實現了對標 OpenAI o1-mini 的效果。算法的改進和優化帶來模型能力提高的同時成本降低,持續提
4、升模型性價比算法的改進和優化帶來模型能力提高的同時成本降低,持續提升模型性價比,推動推動 AI 生態繁榮生態繁榮。DeepSeek-R1 在 Web 和 App 端可完全免費使用,模型均開源,多領域性能比肩 OpenAI o1,API 服務定價為每百萬輸入 tokens 1元(緩存命中)/4 元(緩存未命中),每百萬輸出 tokens 16 元,OpenAI-o3價格仍約為 R1 的八倍。當前 V3 及 R1 模型已迅速集成進海內外各大云平臺中,直接拉高模型能力下限,促進 AI 應用開發提速升級。OpenAI 快速跟進,快速跟進,AI 行業迭代速度加快行業迭代速度加快。1 月 31 日,Ope
5、nAI 推出了全新推理模型 o3-mini,并首次向免費用戶開放推理模型,o3-mini 是 OpenAI 推理系列中最新、成本效益最高的模型,現在已在 ChatGPT 和 API 中上線。2月 2 日,OpenAI 推出面向深度研究領域的智能體產品 deep research,能夠針對復雜任務在互聯網上開展多步驟調研,并在幾十分鐘內完成人類需耗費數小時才能完成的工作,深度研究功能專為金融、科學、政策、工程等領域的高強度知識工作者設計。投資建議:投資建議:1)云廠商加速接入 DeepSeek,低廉的使用成本搭配卓越的性能倒逼 OpenAI 降低 GPT 使用成本。此外,DeepSeek 開源模
6、式有望快速提升其他大模型綜合實力,大模型能力普遍提升首先利好 AI 應用開發。重點關注有垂類優勢的頭部 AI 應用廠商以及 AI Agent 最有落地場景的企業級服務軟件:金山辦公、用友網絡、金蝶國際、泛微網絡、合合信息、同花順、萬興科技、福昕軟件、彩訊股份。2)AI 模型更易在端側落地,軟件 Agent 情緒有望延伸至硬件,關注端側 AI 機器人、眼鏡、玩具、手機、PC 等方向。3)長期看,DeepSeek 帶來的應是算力層面的杰文斯悖論,整體 AI 應用生態繁榮帶來推理算力的更大需求,建議關注金山云、寶信軟件(通信)、數據港、寒武紀、海光信息、中科曙光。風險提示:風險提示:AI 應用研發進
7、度不及預期、地緣政治風險、應用研發進度不及預期、地緣政治風險、AI 芯片研發不及預期、芯片研發不及預期、技術創新不及預期技術創新不及預期。行業規模行業規模 占比%股票家數(只)278 5.5 總市值(十億元)3172.0 3.8 流通市值(十億元)2759.2 3.7 行業指數行業指數%1m 6m 12m 絕對表現-3.9 53.9 23.8 相對表現 0.2 42.0 9.3 資料來源:公司數據、招商證券 相關相關報告報告 1、重點關注 AI 應用及端側 Agent 計 算 機2月 投 資 策 略 2025-02-03 2、微軟 FY25Q2 業績跟蹤智能云業務增速不及預期,AI 投入趨勢不
8、改2025-02-01 3、計算機行業 24Q4 機構持倉分析機構持倉觸底反彈,AI、信創等方向獲加配2025-01-23 劉玉萍劉玉萍 S1090518120002 林語瀟林語瀟 S1090524120004 -20020406080100Feb/24Jun/24Sep/24Jan/25(%)計算機滬深300DeepSeekDeepSeek 推動高性能推動高性能 AIAI 普惠普惠,AIAI 生態生態繁榮發展繁榮發展 敬請閱讀末頁的重要說明 2 行業深度報告 正文正文目錄目錄 一、DeepSeek 開源模型能力對標 OpenAI o1.4 二、DeepSeek 核心技術創新解析.5 1、De
9、epSeek-V3 通過算法創新和工程優化實現大幅降本.5(1)MLA 提升推理效率.6(2)DeepSeekMoE 提升模型性價比.7(3)MTP、FP8 精度訓練、并行優化進一步提升效率.8 2、DeepSeek-R1 探索 RL 可能性,開源能力追平 o1.9(1)R1-Zero 展示純 RL 訓練給 LLM 帶來的潛力.9(2)R1 補充了帶有對用戶友好的冷啟動數據的強化學習.10(3)模型蒸餾顯著提升小模型推理能力.11 3、DeepSeek Janus-Pro統一多模態開源模型,僅使用少量算力訓練.12 三、模型降價提效推動 AI 生態繁榮.12 1、DeepSeek 進一步驅動高
10、質量模型平價化.12 2、DeepSeek 直接拉高模型能力下限,將驅動 AI 應用進展.13 3、AI 行業迭代速度加快.14 四、投資建議.15 五、風險提示.15 圖表圖表目錄目錄 圖 1:DeepSeek-R1 性能對齊 OpenAI-o1 正式版.4 圖 2:蒸餾小模型超越 OpenAI o1-mini.4 圖 3:DeepSeek Janus-Pro 發布.4 圖 4:DeepSeek Janus-Pro 性能對比.4 圖 5:應用發布 N 天后日活用戶數對比.5 圖 6:DeepSeek-V3 模型架構示意圖.6 圖 7:DeepSeek-V3 訓練成本測算.6 圖 8:MLA
11、與其他注意力機制的優劣對比.7 圖 9:DeepSeek-V3 MoE 架構示意.8 圖 10:DeepSeekMoE 與傳統 MoE 架構比較.8 lU9UgWtUnVnMoM6MdN8OoMrRpNqNfQoOsQeRoOqN6MnNvMMYtOtPMYmPvN 敬請閱讀末頁的重要說明 3 行業深度報告 圖 11:R1-Zero 性能隨 RL 推進呈現穩定持續提升.10 圖 12:R1-Zero 學會了用更長的思考時間來解決推理任務.10 圖 13:DeepSeek-R1 訓練流程示意圖.10 圖 14:DeepSeek-R1 測評結果.11 圖 15:DeepSeek-R1 蒸餾出的小模
12、型部分能力可超越現有大模型.11 圖 16:DeepSeek Janus-Pro 模型架構.12 圖 17:DeepSeek Janus-Pro 性能對比.12 圖 18:模型價格持續降低.13 圖 19:DeepSeek API 價格與 OpenAI 對比.13 圖 20:華為云宣布上線基于華為云昇騰云服務的 DeepSeekR1/V3 推理服務 14 圖 21:DeepSeek-R1 已正式加入 Azure AI Foundry 和 GitHub 模型目錄.14 圖 22:Deep Research 回答語言學專家級問題.15 圖 23:Deep Research 在人類的最后一次考試測試
13、中準確率大幅高于現有模型15 敬請閱讀末頁的重要說明 4 行業深度報告 一、一、DeepSeek 開源模型能力對標開源模型能力對標 OpenAI o1 1 月月 20 日,日,DeepSeek-R1 模型模型發布,發布,使用低廉的訓練成本直接訓練出了不輸使用低廉的訓練成本直接訓練出了不輸OpenAI 推理模型推理模型 o1 的性能的性能。發布后僅一天時間,DeepSeek 團隊公布在 GitHub上的論文就獲得 5000 多收藏,相關話題在 YC、Reddit 和 X 等平臺的互動量已經過萬。DeepSeek-R1 在 Web 和 App 端可完全免費使用,模型均開源,多領域性能比肩 Open
14、AI o1。DeepSeek-R1 在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力,在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1正式版。此外,在開源DeepSeek-R1-Zero 和DeepSeek-R1兩個 660B 模型的同時,通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區,其中 32B 和 70B 模型在多項能力上實現了對標 OpenAI o1-mini 的效果。圖圖 1:DeepSeek-R1 性能對齊性能對齊 OpenAI-o1 正式版正式版 圖圖 2:蒸餾小模型超越蒸餾小模型超越 OpenAI o
15、1-mini 資料來源:DeepSeek 官網、招商證券 資料來源:DeepSeek 官網、招商證券 DeepSeek 開源開源多模態模型多模態模型 Janus-Pro 發布發布,能做到使用簡短提示提供更穩定能做到使用簡短提示提供更穩定的輸出,具有更好的視覺質量、更豐富的細節以及生成簡單文本的能力。的輸出,具有更好的視覺質量、更豐富的細節以及生成簡單文本的能力。1 月 28日,DeepSeek 發布開源多模態模型 Janus-Pro,其中 70 億參數版本的Janus-Pro-7B 模型在使用文本提示的圖像生成排行榜中優于 OpenAI 的 DALL-E 3 和 Stability AI 的
16、Stable Diffusion。此外,Janus-Pro 的開發基于DeepSeek-R1 的核心優化技術,其訓練成本顯著低于傳統多模態模型。圖圖 3:DeepSeek Janus-Pro 發布發布 圖圖 4:DeepSeek Janus-Pro 性能對比性能對比 資料來源:澎湃新聞、深度求索、招商證券 資料來源:澎湃新聞、深度求索、招商證券 據市場分析公司 Appfigures 的數據,DeepSeek 的應用程序于 1 月 26 日首次登頂蘋果 App Store,并保持全球領先。在發布的前 18 天內,DeepSeek 實現了 敬請閱讀末頁的重要說明 5 行業深度報告 1600萬次下載
17、,是OpenAI的ChatGPT同期下載量的兩倍。此外,在美國Android Play Store 中,DeepSeek 自 1 月 28 日起便一直居于榜首,進一步鞏固了其在全球范圍內的領先地位。圖圖5:應用發布應用發布 N 天后日活用戶數對比天后日活用戶數對比 資料來源:芯榜、招商證券 二、二、DeepSeek 核心技術創新解析核心技術創新解析 1、DeepSeek-V3 通過算法創新和工程優化實現大幅降本通過算法創新和工程優化實現大幅降本 DeepSeek-V3 通過算法創新和工程優化大幅提升模型效率,從而降低成本,提通過算法創新和工程優化大幅提升模型效率,從而降低成本,提高性價比。高性
18、價比。DeepSeek-V3 的基本架構仍基于 Transformer 框架。為了實現高效的推理和經濟的訓練,DeepSeek-V3 還采用了 MLA 和 DeepSeekMoE。多頭潛在注意力:MLA 方法借助低秩鍵值聯合壓縮,可使 MLA 的性能優于MHA,但所需的 KV 緩存量顯著減少,從而減少模型所需算力。DeepSeekMoE:細分專家提升專家利用效率,提高模型性價比,在激活專家和總專家參數數量相同的情況下,DeepSeekMoE 能夠大幅超越傳統 MoE 架構。同時通過 MTP、FP8 精度訓練、并行優化等方法進一步提升效率。敬請閱讀末頁的重要說明 6 行業深度報告 圖圖6:Dee
19、pSeek-V3 模型架構示意圖模型架構示意圖 資料來源:DeepSeek-V3 論文、招商證券 DeepSeek-V3 正式訓練成本僅為正式訓練成本僅為 557.6 萬美元萬美元。根據論文,DeepSeek-V3 正式訓練成本僅為 557.6 萬美元。在預訓練階段,每訓練一萬億個標記的DeepSeek-V3 僅需 18 萬 H800 GPU 小時,即在 DeepSeek 擁有的 2048 塊 H800 GPU 集群上僅需 3.7 天。加上 266.4 萬 GPU 小時預訓練、119 萬 GPU 小時上下文長度擴展、5000 GPU 小時后期訓練,得出 DeepSeek-V3 的完整訓練僅需
20、278.8 萬 GPU 小時。假設 H800GPU 的租賃價格為 GPU 小時 2 美元,總訓練成本僅為 557.6 萬美元。雖然上述成本僅包括 DeepSeek-V3 的正式訓練,不包括在架構、算法或數據方面進行的前期研究和消融實驗的成本,但 V3 成本仍顯著低于其他主流大模型,體現算法創新和工程優化在提升模型效率方面的顯著作用。圖圖7:DeepSeek-V3 訓練成本測算訓練成本測算 資料來源:DeepSeek-V3 論文、招商證券 (1)MLA 提升推理效率提升推理效率 V3 通過多頭潛在注意力(通過多頭潛在注意力(Multi-Head Latent Attention,MLA)機制提升
21、推理)機制提升推理效率。效率。MLA 方法借助低秩鍵值聯合壓縮,可使方法借助低秩鍵值聯合壓縮,可使 MLA 的性能優于的性能優于 MHA,但所需,但所需的的 KV 緩存量顯著減少,從而減少模型所需算力。緩存量顯著減少,從而減少模型所需算力。在自回歸生成(如文本生成)過程中,模型需逐步生成每個 token,并緩存所有歷史 token 的 Key 和 Value 矩陣以供后續計算。若以圖書館管理作類比,圖書館有多個獨立研究小組(每個小 敬請閱讀末頁的重要說明 7 行業深度報告 組對應一個“頭”),MHA 方法中每個小組需要查閱完整的書籍庫(原始 Key 和Value)。此方法的優點是每個小組能深度
22、研究不同領域(捕捉多樣化信息),成果全面。但缺點是 1)存儲壓力大,每個小組都要復制一套完整書籍(KV 緩存占用高);2)空間浪費,圖書館需要為每個小組開辟獨立書架(顯存爆炸)。MLA 類似在圖書館引入智能壓縮技術,將書籍轉換為精華摘要(低秩壓縮),每個小組(頭)根據摘要展開研究,必要時還原細節,這樣可以在降低 KV 緩存的同時維持模型性能。圖圖8:MLA 與其他注意力機制的優劣對比與其他注意力機制的優劣對比 資料來源:DeepSeek-V2 論文、招商證券 (2)DeepSeekMoE 提升模型性價比提升模型性價比 DeepSeekMoE:細分專家提升專家利用效率,提高模型性價比:細分專家提
23、升專家利用效率,提高模型性價比 對于前饋網絡(FFN),V3 采用了 DeepSeekMoE 架構。根據文匯報解讀,MoE 模型與稠密模型所采用“眾人拾柴、咸與維新”不同,它另辟蹊徑采取了“術業有專攻”理念,每次讓若干個合適專家協作發揮各自能力,完成特定任務。DeepSeekMoE 有兩個關鍵理念:1)將專家細分為更小的粒度,以實現更高的專家專業化和更精準的知識獲??;2)以及隔離一些共享專家,以減少路由專家之問的知識冗余。在激活專家和總專家參數數量相同的情況下,DeepSeekMoE 能夠大幅超越諸如 GShard 之類的傳統 MoE 架構。DeepSeek V3 的每一個 Transform
24、er 層包含 256 個專家和 1 個共享專家,V3 基座模型總共有 6710 億參數,但是每次 token 僅激活 8 個專家、370億參數。這一創新算法與稠密模型相比預訓練速度更快,與具有相同參數數量的模型相比,則具有更快的推理速度。敬請閱讀末頁的重要說明 8 行業深度報告 圖圖9:DeepSeek-V3 MoE 架構示意架構示意 資料來源:DeepSeek-V3 論文、招商證券 圖圖10:DeepSeekMoE 與傳統與傳統 MoE 架構比較架構比較 資料來源:DeepSeekMoE 論文、招商證券 (3)MTP、FP8 精度訓練、并行優化進一步提升效率精度訓練、并行優化進一步提升效率
25、Multi-token Prediction:通過解碼階段的優化,將單 token 的生成,轉變成多 token 的生成,從而提升訓練和推理的性能。具體來說,在訓練階段,一方面,MTP 目標增加了訓練信號的密度,可能提高數據效率。另一方面,MTP 可能使模型能夠預先規劃其表示,從而更好地預測未來標記。DeepSeek V3 主要利用 MTP 來改進訓練過程,主要用于提升主模型的性能,在推理時 MTP 模塊可以被移除。FP8 混合精度訓練:混合精度訓練:FP8 就是用 8 個二進制位來表示數字的格式,相比傳統的 32 位(FP32)和 16 位(FP16)格式,精度低了很多,但是占用空間小,計算
26、快。DeepSeek 在采用 FP8 格式時,采用了混合精度的方案。在 敬請閱讀末頁的重要說明 9 行業深度報告 訓練時,它的大部分核心計算內核均采用 FP8 精度實現。包括前向傳播、激活反向傳播和權重反向傳播都用了 FP8 作為輸入,并輸出 BF16 或 FP32 格式的結果。這一設計理論上使計算速度相較于原始的 BF16 方法提升了一倍。此外,DeepSeek 中的向量激活值以 FP8 格式存儲,供反向傳播使用,從而顯著降低了內存消耗。并行優化提升效率:并行優化提升效率:1)DualPipe 算法實現高效的流水線并行,與現有的流水線并行方法相比,DualPipe 的流水線氣泡更少,且在前向
27、和后向過程中重疊了計算和通信階段,從而解決了跨節點專家并行引入的大量通信開銷問題。2)開發了高效的跨節點全對全通信內核以充分利用 IB 和 NVLink 帶寬,并節省專門用于通信的流式多處理器(SM)。3)對訓練期間的內存占用進行了細致的優化,從而能夠在不使用昂貴的張量并行(TP)的情況下訓練 DeepSeek-V3。2、DeepSeek-R1 探索探索 RL 可能性,開源能力追平可能性,開源能力追平 o1(1)R1-Zero 展示純展示純 RL 訓練給訓練給 LLM 帶來的潛力帶來的潛力 DeepSeek-R1-Zero 展示了大型語言模型在無需任何監督數據的情況下發展推展示了大型語言模型在
28、無需任何監督數據的情況下發展推理能力的潛力,且能通過純粹的強化學習過程實現自我進化。理能力的潛力,且能通過純粹的強化學習過程實現自我進化。通常在模型 post-training 過程中,都需要先進行監督微調(SFT),在預訓練模型的基礎上,使用帶標注的輸入-輸出數據進一步微調模型,使其適應特定任務,提供初始性能較好的模型;再通過強化學習(RL)指導模型優化策略,讓模型在試錯中學習最大化長期回報,實現復雜/抽象目標的優化(如生成內容的趣味性、安全性)。DeepSeek-R1-Zero 直接將 RL 應用于基礎模型,而無需依賴 SFT 作為前期步驟,使模型能夠自主探索解決復雜問題的思維鏈,這是首次
29、公開研究證明LLM 的推理能力可以通過純 RL 來激勵。且 DeepSeek-R1-Zero 展示了諸如自我驗證、反思以及生成長思維鏈等能力。模型訓練過程中自主產生了“aha moment”,開始學會通過重新評估其初始方法來為問題分配更多的思考時間,進一步說明了 RL 在解鎖 AI 能力方面的潛力。但 DeepSeek-R1-Zero 在可讀性差和語言混雜等方面仍存在一定問題,因此團隊進一步探索了 DeepSeek-R1。敬請閱讀末頁的重要說明 10 行業深度報告 圖圖 11:R1-Zero 性能隨性能隨 RL 推進呈現穩定持續提升推進呈現穩定持續提升 圖圖 12:R1-Zero 學會了用更長
30、的思考時間來解決推理任學會了用更長的思考時間來解決推理任務務 資料來源:DeepSeek-R1 論文、招商證券 資料來源:DeepSeek-R1 論文、招商證券 (2)R1 補充了帶有對用戶友好的冷啟動數據的強化學習補充了帶有對用戶友好的冷啟動數據的強化學習 DeepSeek-R1 訓練分為四個階段訓練分為四個階段,通過補充冷啟動,通過補充冷啟動 SFT 等環節提升了模型的穩等環節提升了模型的穩定性和可讀性。定性和可讀性。冷啟動:冷啟動:構建并收集少量的 Long-CoT 數據來微調模型,目的是防止早期訓練不穩定和可讀性差問題。推理導向的強化學習:推理導向的強化學習:以 DeepSeek-V3
31、 為基礎,針對推理密集型任務,用和 R1-Zero 相同的大規模 RL 來進行訓練。同時為了解決語言混雜問題,引入了語言一致性獎勵(CoT 中目標語言詞匯所占比例),使輸出更具可讀性。拒絕抽樣和監督微調:拒絕抽樣和監督微調:對于推理數據,采用上一階段的抽樣,同時結合其他領域的 SFT 數據,增強模型在寫作、角色扮演和其他通用任務中的能力。適用于所有場景的強化學習:適用于所有場景的強化學習:以 DeepSeek-V3 為基礎,提高模型的有用性和無害性,同時完善其推理能力。對于推理任務采用基于規則的獎勵來指導,對于一般任務采用獎勵模型驅動的獎勵來對齊人類喜好。圖圖13:DeepSeek-R1 訓練
32、流程訓練流程示意示意圖圖 資料來源:智東西、招商證券 敬請閱讀末頁的重要說明 11 行業深度報告 圖圖14:DeepSeek-R1 測評結果測評結果 資料來源:DeepSeek-R1 論文、招商證券 (3)模型蒸餾顯著提升小模型推理能力模型蒸餾顯著提升小模型推理能力 采用采用 DeepSeek-R1 對小模型進行微調可顯著提升小模型推理能力。對小模型進行微調可顯著提升小模型推理能力。知識蒸餾可將復雜、高性能的大模型的“知識”(如輸出分布、中間特征)遷移到更輕量的小模型中,使其在資源受限的場景下(如移動端)也能接近大模型的性能。而DeepSeek 證明,僅對 DeepSeek-R1 的輸出進行蒸
33、餾,就能使高效的 DeepSeek-R1-7B 在所有指標上都優于 GPT-4o-0513 等非推理模型,DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多數基準測試中都顯著優于 o1-mini,表明了蒸餾的強大潛力。同時,DeepSeek 還發現對這些蒸餾模型應用強化學習能帶來顯著的進一步提升。DeepSeek 為開源社區提供了一系列高質量易部署的小模型,有望大幅拉高 AI 在應用側的能力下限。圖圖15:DeepSeek-R1 蒸餾出的小模型部分能力可超越現有大模型蒸餾出的小模型部分能力可超越現有大模型 資料來源:DeepSeek-R1 論文、招商證券 敬請閱讀末頁的
34、重要說明 12 行業深度報告 3、DeepSeek Janus-Pro統一多模態開源模型,僅使統一多模態開源模型,僅使用少量算力訓練用少量算力訓練 DeepSeek 開源開源多模態模型多模態模型 Janus-Pro 發布發布,能做到使用簡短提示提供更穩定能做到使用簡短提示提供更穩定的輸出,具有更好的視覺質量、更豐富的細節以及生成簡單文本的能力。的輸出,具有更好的視覺質量、更豐富的細節以及生成簡單文本的能力。1 月 28日,DeepSeek 發布開源多模態模型 Janus-Pro,其中 70 億參數版本的Janus-Pro-7B 模型在使用文本提示的圖像生成排行榜中優于 OpenAI 的 DAL
35、L-E 3 和 Stability AI 的 Stable Diffusion。此外,Janus-Pro 的開發基于DeepSeek-R1 的核心優化技術,其訓練成本顯著低于傳統多模態模型,1.5B 和7B 這兩款模型,分別在配備 16/32 個計算節點的集群上進行,每個節點裝配 8張 Nvidia A100(40GB)GPU,總訓練時間約為 7/14 天。圖圖16:DeepSeek Janus-Pro 模型架構模型架構 圖圖17:DeepSeek Janus-Pro 性能對比性能對比 資料來源:Janus-Pro 論文、招商證券 資料來源:Janus-Pro 論文、招商證券 三、三、模型降價
36、提效模型降價提效推動推動 AI 生態生態繁榮繁榮 1、DeepSeek 進一步驅動高質量模型平價化進一步驅動高質量模型平價化 算法的改進和優化帶來模型能力提高的同時成本降低,持續提升模型性價比。算法的改進和優化帶來模型能力提高的同時成本降低,持續提升模型性價比。根據 SemiAnalysis 估計,算法的進步速度為每年 4 倍,這意味著每過一年,實現相同功能所需的計算量就會減少 4 倍。Anthropic 首席執行官 Dario 認為,算法的進步速度更快,可以帶來 10 倍的改進。在近一年我們已看到算法的改進和優化使成本降低了 10 倍,而模型能力則有進一步提升。DeepSeek 進一步驅動高
37、質量模型平價化。進一步驅動高質量模型平價化。DeepSeek-R1 API 服務定價為每百萬輸入 tokens 1 元(緩存命中)/4 元(緩存未命中),每百萬輸出 tokens 16 元。對比最新發布的 OpenAI o3-mini,o3-mini API 服務定價為每百萬輸入 tokens 1.1 美元(約 8 元人民幣),每百萬輸出 tokens 4.4 美元(約 31 元人民幣),仍約為 R1 的 8 倍。敬請閱讀末頁的重要說明 13 行業深度報告 圖圖18:模型價格持續降低模型價格持續降低 圖圖19:DeepSeek API 價格與價格與 OpenAI 對比對比 資料來源:SemiA
38、nalysis、招商證券 資料來源:DeepSeek 官網、招商證券 2、DeepSeek 直接拉高模型能力下限,將驅動直接拉高模型能力下限,將驅動 AI 應用進展應用進展 DeepSeek 迅速集成進各云廠商的平臺中,直接拉高模型能力下限,迅速集成進各云廠商的平臺中,直接拉高模型能力下限,AI 應用開應用開發提速升級。發提速升級。2 月 1 日,華為云宣布上線基于華為云昇騰云服務的 DeepSeekR1/V3 推理服務,華為昇騰云服務支持部署的 DeepSeek 模型可獲得持平全球高端GPU 部署模型的效果,且讓模型能夠在大規模生產環境中穩定運行,并滿足業務商用部署需求。2 月 2 日,騰訊
39、云宣布在高性能應用服務 HAI 上支持一鍵部署 Deepseek-R1模型,開發者可以在三分鐘內完成模型的啟動和配置,無需手動處理復雜的安裝和調優過程,同時,開發者還能將 DeepSeek-R1 與其他騰訊云 Cloud Studio、對象存儲等服務無縫集成,高效率構建基于 DeepSeek R1 的完整AI 應用。2 月 3 日,百度智能云宣布 DeepSeek-R1 和 DeepSeek-V3 模型已在百度智能云千帆平臺上架,同步推出超低價格方案,并提供限時 2 周的免費服務。阿里云 PAI Model Gallery 支持云上一鍵部署 DeepSeek-V3、DeepSeek-R1。此外
40、,國外平臺也在加速接入 DeepSeek-R1。目前,包括英偉達、微軟、亞馬遜、Cursor 在內的多家美國公司陸續采用 DeepSeek-R1 模型。敬請閱讀末頁的重要說明 14 行業深度報告 圖圖20:華為云宣布上線基于華為云華為云宣布上線基于華為云昇騰云服務的騰云服務的DeepSeekR1/V3 推理服務推理服務 圖圖21:DeepSeek-R1 已正式加入已正式加入 Azure AI Foundry 和和GitHub 模型目錄模型目錄 資料來源:華為云官網、招商證券 資料來源:微軟官網、招商證券 3、AI 行業迭代速度加快行業迭代速度加快 2025 年年 1 月月 31 日日 Open
41、AI 發布最新推理模型發布最新推理模型 o3-mini,實現低成本、低延遲、,實現低成本、低延遲、高性價比,且針對高性價比,且針對 STEM 推理進行優化推理進行優化;2 月月 3 日進一步發布面向深度研究領日進一步發布面向深度研究領域的智能體產品域的智能體產品 Deep Research,旨在幫助用戶進行深入、復雜的信息查詢與,旨在幫助用戶進行深入、復雜的信息查詢與分析。分析。OpenAI o3-mini 已在 ChatGPT 和 API 中提供,這一模型保持了 OpenAI o1-mini 的低成本和低延遲,同時針對 STEM 推理進行優化,尤其擅長科學、數學和編碼。根據 OpenAI 評
42、估,o3-mini 的中等推理努力與 o1 在數學、編碼和科學方面的表現相當,同時響應速度更快。o3-mini 還在中等推理工作量的額外數學和事實性評估中表現出色。在 A/B 測試中,o3-mini 的響應速度比 o1-mini 快 24%,平均響應時間為 7.7 秒,而 o1-mini 為 10.16 秒。目前 o3-mini 可供免費用戶使用。Deep Research 是一個使用推理來綜合大量在線信息并為用戶完成多步驟研究任務的智能體,旨在幫助用戶進行深入、復雜的信息查詢與分析。Deep Research 能夠針對復雜任務在互聯網上開展多步驟調研,并在幾十分鐘內完成人類需耗費數小時才能完
43、成的工作,該功能專為金融、科學、政策、工程等領域的高強度知識工作者設計。2025 年 1 月 22 日,字節跳動正式發布了豆包大模型 1.5 Pro 版本。豆包大模型1.5 Pro 不僅增強了對知識、代碼和推理的處理能力,同時也優化了中文交互,在處理復雜任務時的表現較以往版本更加出色,尤其是在自然語言理解和生成能力上,用戶將享受到更流暢和自然的對話體驗。此外,豆包實時語音模型Doubao-1.5-realtime-voice-pro 輔以創新的 Speech2Speech 端到端框架,具備了豐富的語音表現力,能夠根據語境流暢地表達快樂、悲傷等情緒,更能使用方言,甚至具備唱歌的能力,這在業界尚屬
44、首次。敬請閱讀末頁的重要說明 15 行業深度報告 圖圖22:Deep Research 回答語言學專家級問題回答語言學專家級問題 圖圖23:Deep Research 在人類的最后一次考試測試中準確在人類的最后一次考試測試中準確率大幅高于現有模型率大幅高于現有模型 資料來源:OpenAI 官網、招商證券 資料來源:OpenAI 官網、招商證券 四、四、投資建議投資建議 1、DeepSeek 對對 AI 生態系統的影響已經顯現,云廠商加速接入生態系統的影響已經顯現,云廠商加速接入 DeepSeek,低,低廉的使用成本搭配卓越的性能倒逼廉的使用成本搭配卓越的性能倒逼 OpenAI 降低降低 GPT
45、 使用成本。此外,使用成本。此外,DeepSeek 開源模式有望快速提升其他大模型綜合實力,大模型能力普遍提升首開源模式有望快速提升其他大模型綜合實力,大模型能力普遍提升首先利好先利好 AI 應用開發。應用開發。關注有垂類優勢的頭部 AI 應用廠商以及 AI Agent 最有落地場景的企業級服務軟件。重點關注:金山辦公、用友網絡、金蝶國際、泛微網絡、合合信息、同花順、萬興科技、福昕軟件、彩訊股份。2、AI 模型更易在端側落地,年前模型更易在端側落地,年前 OpenAI 發布的發布的 Opreator 帶動了軟件帶動了軟件 Agent板塊的行情,疊加板塊的行情,疊加 DeepSeek、豆包等大模
46、型的重磅更新,我們認為軟件、豆包等大模型的重磅更新,我們認為軟件 Agent情緒有望延伸至硬件情緒有望延伸至硬件 Agent,關注端側,關注端側 AI,重點包括機器人、眼鏡、玩具、手,重點包括機器人、眼鏡、玩具、手機、機、PC 等方向。等方向。人形機器人:25 年人形機器人正式進入量產周期,海外 Tesla 已有量產規劃,國內機器人有重磅產品推出。重點關注:能科科技。AI 硬件:端側 AI 有望在 2025 年放量。重點關注:聯想集團、雷神科技。3、長期看,、長期看,DeepSeek 方法帶來的應是算力層面的杰文斯悖論(當技術進步提方法帶來的應是算力層面的杰文斯悖論(當技術進步提高了使用資源的
47、效率,但成本降低導致需求增加,令資源消耗的速度是上升而非高了使用資源的效率,但成本降低導致需求增加,令資源消耗的速度是上升而非減少),整體減少),整體 AI 應用生態繁榮應帶來推理算力的更大需求。應用生態繁榮應帶來推理算力的更大需求。國產算力:AI 應用生態繁榮長期提升推理算力需求。重點關注:寒武紀、海光信息、中科曙光。IDC:AI 產業鏈的賣鏟人。重點關注:金山云、寶信軟件(通信)、數據港。五、五、風險提示風險提示 AI 應用研發進度不及預期:應用研發進度不及預期:若相關公司 AI 應用研發進度不及預期,可能影 敬請閱讀末頁的重要說明 16 行業深度報告 響相關產品落地,從而影響公司市場競爭
48、力及業績增速。地緣政治地緣政治風險:風險:中美 AI 技術脫鉤、美對中增加關稅等潛在事件可能影響國內 AI 研發進程,對行業發展產生負面影響。AI 芯片研發不及預期:芯片研發不及預期:目前我國 AI 芯片與英偉達等仍存在較大差距,若我國 AI 芯片研發進度不及預期,則對我國 AI 產業發展有較大不利影響。技術創新不及預期:技術創新不及預期:軟件行業企業競爭力很大程度取決于企業對新技術的突破與積累,若相關企業在技術創新方面不及預期,可能導致競爭力下降,導致公司增長不及預期。敬請閱讀末頁的重要說明 17 行業深度報告 分析師分析師承諾承諾 負責本研究報告的每一位證券分析師,在此申明,本報告清晰、準
49、確地反映了分析師本人的研究觀點。本人薪酬的任何部分過去不曾與、現在不與,未來也將不會與本報告中的具體推薦或觀點直接或間接相關。評級評級說明說明 報告中所涉及的投資評級采用相對評級體系,基于報告發布日后 6-12 個月內公司股價(或行業指數)相對同期當地市場基準指數的市場表現預期。其中,A 股市場以滬深 300 指數為基準;香港市場以恒生指數為基準;美國市場以標普 500 指數為基準。具體標準如下:股票股票評級評級 強烈推薦:預期公司股價漲幅超越基準指數 20%以上 增持:預期公司股價漲幅超越基準指數 5-20%之間 中性:預期公司股價變動幅度相對基準指數介于 5%之間 減持:預期公司股價表現弱
50、于基準指數 5%以上 行業評級行業評級 推薦:行業基本面向好,預期行業指數超越基準指數 中性:行業基本面穩定,預期行業指數跟隨基準指數 回避:行業基本面轉弱,預期行業指數弱于基準指數 重要重要聲明聲明 本報告由招商證券股份有限公司(以下簡稱“本公司”)編制。本公司具有中國證監會許可的證券投資咨詢業務資格。本報告基于合法取得的信息,但本公司對這些信息的準確性和完整性不作任何保證。本報告所包含的分析基于各種假設,不同假設可能導致分析結果出現重大不同。報告中的內容和意見僅供參考,并不構成對所述證券買賣的出價,在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議。除法律或規則規定必須承擔的責任外,本公司及其雇員不對使用本報告及其內容所引發的任何直接或間接損失負任何責任。本公司或關聯機構可能會持有報告中所提到的公司所發行的證券頭寸并進行交易,還可能為這些公司提供或爭取提供投資銀行業務服務??蛻魬斂紤]到本公司可能存在可能影響本報告客觀性的利益沖突。本報告版權歸本公司所有。本公司保留所有權利。未經本公司事先書面許可,任何機構和個人均不得以任何形式翻版、復制、引用或轉載,否則,本公司將保留隨時追究其法律責任的權利。