《計算機行業深度分析:三大要素齊發力AI應用步入全面加速期-250307(25頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業深度分析:三大要素齊發力AI應用步入全面加速期-250307(25頁).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、第 1 頁/共 25 頁 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 計算機計算機 分析師:唐月分析師:唐月 登記編碼:登記編碼:S0730512030001 021-50586737 三大要素齊發力,三大要素齊發力,AI 應用步入全面加速應用步入全面加速期期 計算機行業深度分析計算機行業深度分析 證券研究報告證券研究報告-行業深度分析行業深度分析 強于大市強于大市(上調上調)計算機計算機相對滬深相對滬深 300 指數表現指數表現 資料來源:中原證券,聚源 相關報告相關報告 計算機行業月報:DeepSeek-R1 帶來 AI技術突破,持續關注 GPT-5 的推出進程 2025-0
2、2-13 計算機行業深度分析:美國制裁密集出臺,全面圍堵對我國的 AI 算力供應能力 2025-01-24 計算機行業月報:AI 模型成果密集發布,制裁或將全面升級 2025-01-10 聯系人:聯系人:李智李智 電話:電話:0371-65585629 地址:地址:鄭州鄭東新區商務外環路10號18樓 郵編:郵編:上海浦東新區世紀大道1788號T1座22樓 發布日期:2025 年 03 月 07 日 投資要點:投資要點:我們在我們在 2024 年年 11 月月 30 日外發的計算機行業年度策略:國產日外發的計算機行業年度策略:國產化形勢持續向好,重點關注推理、化形勢持續向好,重點關注推理、AI
3、應用和液冷需求中提出了應用和液冷需求中提出了“o1 的問世”“讓的問世”“讓 Agent 也步入了發展的快車道,也步入了發展的快車道,AI 在應用軟件在應用軟件層的發展潛力亟待釋放”。層的發展潛力亟待釋放”。DeepSeek-R1 發布后,大模型成本顯著下降,開源陣營在性能上實現超越。至此,AI 應用集齊全面落地的三大關鍵要素,這一階段具有里程碑式意義。要素一:邏輯推理能力提升。要素一:邏輯推理能力提升。OpenAI 的 o1 開啟了大模型邏輯推理能力的提升路徑,DeepSeek 首次公開驗證了強化學習對于大模型推理能力提升的有效性。要素二:推理成本下降。要素二:推理成本下降。DeepSeek
4、 作為大模型領域的“拼多多”,開啟了大模型的低成本訓練路徑。DeepSeek 通過 MLA 和DeepSeek MoE 架構減少了模型架構方面的算力消耗,同時在訓練架構上展現出了強大的軟硬協同優化能力,實現了 FP8 混合精度訓練框架、DualPipe 算法、跨節點 All-to-All 通信內核等一系列創新。在 API 調用成本僅為 o1 1/30 的基礎上,DeepSeek 推理服務理論毛利率水平高達到 84.5%。在帶寬和顯存落后的 H800上,較英偉達 H200 實現了 151%的性能超越 要素三:開源陣營的性能超越。要素三:開源陣營的性能超越。DeepSeek 的 R1 和 V3 模
5、型不光追平了最先進的閉源模型的能力,同時在成本上形成了明顯的優勢,代表了更先進的模型發展方向,讓開源大模型在先進性上首次超越了閉源大模型。DeepSeek 的開源條款更加開放,同時將核心代碼悉數開源,極大地促進了應用的落地和技術的推廣。開源生態的發展,彌補了中國企業上云(特別是公有云)比例偏低的劣勢,國內 B 端大模型應用的也可以通過私有化部署加速展開。隨著隨著 AI 應用進入爆發期,企業級部署需求呼之欲出,醫療、政應用進入爆發期,企業級部署需求呼之欲出,醫療、政務、務、Manus 等應用落地都成為了市等應用落地都成為了市場關注的焦點,騰訊、阿里、場關注的焦點,騰訊、阿里、字節、小米等科技大廠
6、也在加速字節、小米等科技大廠也在加速 AI 投入,實現向下個時代的布投入,實現向下個時代的布局。雖然大模型推理成本在下降,但是由此帶來的應用爆發有望局。雖然大模型推理成本在下降,但是由此帶來的應用爆發有望帶來更多的應用需求,成為下一階段拉動算力增長的主要驅動帶來更多的應用需求,成為下一階段拉動算力增長的主要驅動力??紤]到中國有互聯網應用的領先優勢、在數據端的長期積累力??紤]到中國有互聯網應用的領先優勢、在數據端的長期積累和龐大的工程師團隊,在底層模型能力實現突破以后,我們在和龐大的工程師團隊,在底層模型能力實現突破以后,我們在 AI應用的發展有望實現全球領先。應用的發展有望實現全球領先。風險提
7、示:風險提示:國際局勢的不確定性;下游企業削減開支。-24%-14%-3%8%19%29%40%51%2024.032024.072024.112025.03計算機滬深300第 2 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 內容目錄內容目錄 1.要素一:邏輯推理能力提升要素一:邏輯推理能力提升.4 1.1.o1 開啟邏輯推理能力提升的新路徑.4 1.2.DeepSeek 首次公開驗證了強化學習對于大模型推理能力提升的有效性.5 2.要素二:推理成本下降要素二:推理成本下降.7 2.1.DeepSeek 開啟低成本路線.7 2.2.DeepSeek 算
8、力節省的關鍵點.8 2.3.兩大模型訓練路徑.10 2.4.DeepSeek 運營成本及相關數據測算.12 3.要素三:開源陣營的性能超越要素三:開源陣營的性能超越.15 3.1.開源大模型陣營首次在先進性上超越了閉源陣營.15 3.2.DeepSeek 開源條款更加開放,有利推動模型的推廣和應用.17 3.3.DeepSeek 將核心代碼悉數開源,極大地促進了 AI 技術的發展.20 4.AI 產業發展趨勢的預判產業發展趨勢的預判.22 5.河南借助智算帶動人工智能應用發展河南借助智算帶動人工智能應用發展.23 6.風險提示風險提示.24 圖表目錄圖表目錄 圖 1:人腦中負責語言和邏輯推理的
9、神經網絡.4 圖 2:推理模型與語言模型在數學、科學、編碼方面的能力對比.5 圖 3:DeepSeek-R1 的訓練流程.6 圖 4:DeepSeek-R1-Zero 在訓練中 AIME 精度提升情況.7 圖 5:DeepSeek-R1-Zero 在訓練中的平均響應時長.7 圖 6:DeepSeek-R1 與 o1 在調用成本差距(美元/百萬 token).8 圖 7:DeepSeek-V2 中 MLA 對于降低 KV Cache 和訓練成本的作用.8 圖 8:DeepSeek-V3 整體架構.9 圖 9:FP8 混合精度訓練框架示意圖.10 圖 10:DualPipe 算法示意圖.10 圖
10、11:DeepSeek-V3 與 Grok-3 訓練小時數對比(萬 GPU 小時).11 圖 12:頭部大模型的 Chatbot Arena 成績.11 圖 13:DeepSeek 在不同時段用于推理服務的節點數.13 圖 14:2024 年 OpenAI 支出預測.14 圖 15:DeepSeek 成本與理論收入測算.14 圖 16:常見開源協議對比.18 圖 17:2024 年全球智能手機出貨量市場份額.19 圖 18:英偉達 DeepSeek-R1 推理輸出能力.22 圖 19:各地算力規劃中關于總算力的相關目標(EFLOPS).23 圖 20:各地算力規劃中關于智能算力的相關目標(EF
11、LOPS).23 圖 21:各地算力規劃中關于智能比例的相關目標.24 表 1:OpenAI 大模型產品.5 表 2:硅基流動上 DeepSeek 主要模型情況及調用價格.6 表 3:DeepSeek 的主要模型發布情況.7 表 4:OpenAI 大模型產品競品推出情況.12 表 5:DeepSeek 運營數據及測算.12 第 3 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 表 6:主流開源大模型.16 表 7:各大廠商接入 DeepSeek 的情況.18 表 8:DeepSeek 在“Open Source Week”的開源情況.20 第 4 頁/共
12、 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 我們在 2024 年 11 月 30 日外發的計算機行業年度策略:國產化形勢持續向好,重點關注推理、AI 應用和液冷需求中提出了“o1 的問世”“讓 Agent 也步入了發展的快車道,AI在應用軟件層的發展潛力亟待釋放”。DeepSeek-R1 發布后,大模型成本顯著下降,開源發布后,大模型成本顯著下降,開源陣營在性能上實現超越。至此,陣營在性能上實現超越。至此,AI 應用集齊全面落地的三大關鍵要素,這一階段具有里程碑應用集齊全面落地的三大關鍵要素,這一階段具有里程碑式意義。式意義。本文將圍繞這三大要素展開論述,同
13、時重點關注 DeepSeek 所作出的貢獻。1.要素一:邏輯推理能力提升要素一:邏輯推理能力提升 1.1.o1 開啟邏輯推理能力提升的新路徑開啟邏輯推理能力提升的新路徑 縱觀本輪人工智能在大語言模型方向上取得的成就,就是因為發現了 Transformer 符合Scaling Laws,通過增加模型參數、訓練數據和算力,保持系統能力的增長,甚至在規模達到一定程度,模型能力會得到指數級的提升,也就是涌現。而隨著算力規模指數級的增長,訓練數據枯竭,合成數據也未能取得理想的效果,在預而隨著算力規模指數級的增長,訓練數據枯竭,合成數據也未能取得理想的效果,在預訓練方向的訓練方向的 Scaling Law
14、s 面臨發展瓶頸。面臨發展瓶頸。2024 年 11 月 10 日,根據 The Information 報道,OpenAI 的下一代旗艦模型 Orion 可能不會像前面幾代產品那樣帶來巨大的飛躍。Orion性能雖然超過了 OpenAI 現有的模型,但是面臨了新訓練數據匱乏的瓶頸。OpenAI 意圖通過合成數據進行 Orion 的訓練,但是合成數據可能會導致 Orion 在某些方面與那些舊模型相似。此前科學界對于此前科學界對于 LLM 的技術路線能否在提高語言能力的同的技術路線能否在提高語言能力的同時,高效提高邏輯能力和推理時,高效提高邏輯能力和推理能力存在較大質疑。能力存在較大質疑。2024
15、年 6 月 19 日,美國麻省理工學院在 Nature 發表了論文語言主要是一種交流的工具,而不是一種思考的工具(Language is primarily a tool for communication rather than thought),論文中證明了負責語言的神經和負債思維的神經在人腦中是分離的??梢钥吹皆?OpenAI 的 o1 發布以前,大模型的在語言能力構建上取得了突破,已經表現得比較出色,但是在推理和邏輯能力方面的表現仍較人類有極大的差距。圖圖 1:人腦中負責語言和邏輯推理的神經網絡:人腦中負責語言和邏輯推理的神經網絡 資料來源:DeepTech 深科技,Nature,中原
16、證券研究所 第 5 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 2024 年 9 月,作為 AI 發展風向標的 OpenAI 發布了 o1,提升了大模型解決科學、編碼、數學和類似領域的復雜問題。因而 o1 對于 LLM 實現 AGI 具有重要的意義,是 OpenAI在模型能力提升上更為重要的突破。表表 1:OpenAI 大模型產品大模型產品 模型模型 時間時間 參數參數 上下文上下文限制限制 訓練數據截訓練數據截止時間止時間 公開的程度公開的程度 備注備注 GPT-1 2018.6 1.17 億 開源(技術細節)GPT-2 2019.2 15 億 開源
17、(源代碼)GPT-3 2020.5 1750 億 2019.10 論文 GPT-3.5 2022.3-4K/16K 2021.6 2022.11 ChatGPT 基于 GPT 3.5 推出 GPT-4 2023.3 1.8 萬億 8K/32K 2021.9 測試結果 2023.7 向所有開發者開放使用權限 GPT-4 Turbo 2023.11-128K 2023.4 速度是 GPT4 的 5 倍,價格降低 2/3 Sora 2024.2 首個文生視頻模型 GPT-4o 2024.5 具有了強大的多模態交互能力 對用戶免費,API 速度較 GPT-4 Turbo提高 2 倍,價格降低 50%o
18、1 2024.9 更擅長解決科學、編碼、數學和類似領域的復雜問題 o3-mini 2025.1.31 GPT-4.5 2025.2.28 具有更高情商 資料來源:OpenAI,中原證券研究所 1.2.DeepSeek 首次公開驗證了強化學習對于大模型推理能力提升的有效性首次公開驗證了強化學習對于大模型推理能力提升的有效性 DeepSeek 使用 DeepSeek-V3-Base 作為基礎模型,通過強化學習(RL)訓練出了DeepSeek-R1-Zero,進而具備了較強的推理能力,其 AIME 2024 得分從 15.6%提升到了71.0%。DeepSeek-R1-Zero 首次公開驗證了大模型
19、的推理能力可以通過強化學習來完成訓首次公開驗證了大模型的推理能力可以通過強化學習來完成訓練,而不需要監督微調,為后續大模型推理能力的提升找到了可靠的路徑。練,而不需要監督微調,為后續大模型推理能力的提升找到了可靠的路徑。圖圖 2:推理模型與語言模型在數學、科學、編碼方面的能力對比:推理模型與語言模型在數學、科學、編碼方面的能力對比 資料來源:xAI,DeepTech 深科技,中原證券研究所 第 6 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 但是 R1-Zero 具有可讀性差和語言混合等問題需要解決,于是 DeepSeek 又在 R1-Zero訓練方法
20、的基礎上加入了多階段的訓練,包括在強化學習之前使用數千高質量思維鏈(CoT)冷啟動數據來微調 DeepSeek-V3-Base 模型,接下來執行與 DeepSeek-R1-Zero 相同的面向推理的強化學習,再對精心挑選的示例數據進行監督微調(SFT),再進行強化學習,從而讓新得到的 DeepSeek-R1 具有了更好的語言可讀性和連貫性,在推理之外的測試中實現了更好的性能。圖圖 3:DeepSeekDeepSeek-R1R1 的訓練流程的訓練流程 資料來源:DeepSeek,中存算,中原證券研究所 為了能夠將推理能力遷移到不適合 MoE 架構的場景,DeepSeek 還用 DeepSeek-
21、R1 對Llama 和 Qwen 系列開源大模型進行了蒸餾,并得到了 6 個小模型,也很好地提高了模型的推理能力。表表 2:硅基流動上硅基流動上 DeepSeekDeepSeek 主要模型情況及調用價格主要模型情況及調用價格 模型模型 模型類型模型類型 架構架構 參數參數 上下文上下文 輸入(百萬輸入(百萬token)輸出(百萬輸出(百萬token)DeepSeek-R1 推理模型 MoE 6710 億 64k 4 16 DeepSeek-V3 語言模型 MoE 6710 億 64k 2 8 DeepSeek-R1-Distill-Llama-70B 推理模型 Dense 700 億 32k
22、4.13 4.13 DeepSeek-R1-Distill-Qwen-32B 推理模型 Dense 320 億 32k 1.26 1.26 DeepSeek-R1-Distill-Qwen-14B 推理模型 Dense 140 億 32k 0.7 0.7 DeepSeek-R1-Distill-Llama-8B 推理模型 Dense 80 億 32k 免費 免費 DeepSeek-R1-Distill-Qwen-7B 推理模型 Dense 70 億 32k 免費 免費 DeepSeek-R1-Distill-Qwen-1.5B 推理模型 Dense 15 億 32k 免費 免費 資料來源:硅基
23、流動,中原證券研究所 純強化學習的訓練方式為模型創造出了超越傳統人類思維上限的可能性。純強化學習的訓練方式為模型創造出了超越傳統人類思維上限的可能性。R1-Zero 在強化學習訓練過程中,自主掌握了通過增加思考時間來解決復雜推理任務的能力,具有自我評估、自我反思、生成超長思維鏈(CoT)等復雜思維能力。隨著訓練迭代步數的提升,DeepSeek-R1-Zero 的 AIME 精度持續提升,同時其思考的時間也在增加,展現出了自我進化的能力。與監督微調通過給模型大量人類標注數據進行學習不同,在強化學習中,模型通過自第 7 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項
24、聲明 我學習和獲得獎勵的方式,完成自主的學習。因而我們看到強化學習具有幾大優點:(1)不依賴于先驗知識,模型自我學習的過程中或能涌現出超越人類思維上限的推理能力;(2)無需標注數據,監督微調需要的人工標注數據往往需要耗費較長的時間周期和較高的成本,還容易因為標記者喜好產生訓練偏差。圖圖 4:DeepSeekDeepSeek-R1R1-ZeroZero 在訓練中在訓練中 AIMEAIME 精度提升情況精度提升情況 圖圖 5:DeepSeekDeepSeek-R1R1-ZeroZero 在訓練中的平均響應時長在訓練中的平均響應時長 資料來源:DeepSeek,中原證券研究所 資料來源:DeepSe
25、ek,中原證券研究所 2.要素二:推理成本下降要素二:推理成本下降 2.1.DeepSeek 開啟低成本路線開啟低成本路線 在 2024 年 5 月推出的 DeepSeek-V2 中,DeepSeek 就已經顯示出了高性價比優勢,被譽為大模型領域的“拼多多”,后續 DeepSeek 又將這一優勢延續到了 V3 和 R1 等產品中。表表 3:DeepSeek 的主要模型發布情況的主要模型發布情況 時間時間 模型模型 架構架構 參數參數 模型類型模型類型 備注備注 2023.11.29 DeepSeek LLM 67B 670 億 語言模型 開源,對標 LLaMA2 70B 2024.1.11 D
26、eepSeek-MoE MoE 1450 億 開源,國內首個 MoE 大模型,有 2B、16B、145B 三個尺寸,2024.5.6 DeepSeek-V2 MoE 2360 億 語言模型 開源,性能比肩 GPT-4 Turbo,價格為其 1/70 2024.9.5 DeepSeek V2.5 語言模型 開源,由 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型合并升級而來 2024.11.20 DeepSeek-R1-Lite 推理模型 發布了對標 o1-preview 的預覽版,并開放思維鏈輸出功能 2024.12.26 DeepSeek-V3 MoE 6
27、710 億 語言模型 開源,性能比肩 GPT-o4 2024.1.20 DeepSeek-R1 MoE 6710 億 推理模型 開源,性能比肩 OpenAI o1 正式版,價格約為其1/30,并開放思維鏈輸出功能 資料來源:DeepSeek,中原證券研究所 2024 年 12 月發布的 DeepSeek-V3 在性能上看齊了 GPT-4o,同時模型訓練成本僅為其1/20。2025 年 1 月發布的 DeepSeek-R1,又在性能上看齊了 o1,同時 API 調用成本僅為其1/30。第 8 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 6:Deep
28、Seek-R1 與與 o1 在調用成本差距(美元在調用成本差距(美元/百萬百萬 token)資料來源:DeepTech 深科技,中原證券研究所 2.2.DeepSeek 算力節省的關鍵點算力節省的關鍵點 DeepSeek-R1 的模型架構主要來自于 DeepSeek-V3,DeepSeek-V3 的模型架構中減少算力消耗的兩個關鍵點包括:(1)多頭潛注意力機制(多頭潛注意力機制(MLA,對傳統多頭注意力機制的改進):大概貢獻了,對傳統多頭注意力機制的改進):大概貢獻了 2-4 倍的倍的計算效率提升,該技術首次在計算效率提升,該技術首次在 DeepSeek-V2 中引入。中引入。傳統的多頭注意力
29、的鍵值緩存(KV Cache)較大,DeepSeek 通過將低秩近似方法引入鍵值緩存壓縮中,從而提升了計算效率。圖圖 7:DeepSeekDeepSeek-V2V2 中中 MLAMLA 對于降低對于降低 KV CacheKV Cache 和訓練成本的作用和訓練成本的作用 資料來源:DeepSeek,中原證券研究所(2)DeepSeek MoE 架構(對傳統架構(對傳統 MoE 架構的改進):大概貢獻了架構的改進):大概貢獻了 4 倍以上的計算效倍以上的計算效率提升。率提升。DeepSeek-V3 是一個混合專家語言模型(MoE),由于 MoE 架構模型的每個輸入數據只選擇激活其中一部分專家模型
30、,因而可以減少計算量,提高訓練和推理的速度。第 9 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 DeepSeek-V3 具有 6710 億參數,其中每個 Token 的計算約激活 370 億參數。相比于傳統 MoE 模型,DeepSeek 使用專家數量大幅提升,并通過無輔助損失的負載平衡策略提高訓練的穩定性,從而實現了更高的訓練效率 圖圖 8:DeepSeekDeepSeek-V3V3 整體架構整體架構 資料來源:DeepSeek,中原證券研究所 DeepSeek-V3 的訓練基于其自研的 HAI-LLM 框架。在模型架構之外,DeepSeek 的訓練
31、架構上展現出了軟硬協同優化能力,這成為了他們超越國內其他大模型團隊的關鍵,這其中核心優勢包括了:(1)FP8 混合精度訓練框架:混合精度訓練框架:通常在大模型訓練中會選用 BF16 或 FP32/TF32 精度進行數據計算和存儲,FP8 雖然可以提升計算速度和降低存儲需求,但是由于計算精度不高,容易損失數據信息。為此,DeepSeek 結合自身在 GPU 硬件架構和訓練誤差方面強大的整合分析能力,專門設計出了針對 FP8 的訓練框架體系,將大多數計算密集型操作在 FP8 中進行,而一些關鍵操作則保持了原有數據格式,兼顧了訓練效率和穩定性。DeepSeek 也成為也成為了首個成功使用了首個成功使
32、用 FP8 混合精度訓練超大規模大模型的公司?;旌暇扔柧毘笠幠4竽P偷墓?。第 10 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 9:FP8 混合精度訓練框架混合精度訓練框架示意圖示意圖 資料來源:DeepSeek,中原證券研究所(2)DualPipe 算法:算法:實現高效的流水線并行,并通過計算和通信的重疊,隱藏了大模型訓練中的大部分通信開銷,規避了單個服務器中 8 個 GPU 共享一個 IB NIC 流水線并行期間出現的網絡帶寬競爭。從下圖中可以看到,在代表著 8 個 GPU 的流水線并行中,在不同任務的穿插計算中,白色的氣泡時間都得到了
33、極大的壓縮。圖圖 10:DualPipeDualPipe 算法示意圖算法示意圖 資料來源:DeepSeek,中原證券研究所(3)跨節點)跨節點 All-to-All 通信內核:通信內核:使用 PTX 編程,充分利用了節點間互聯(InfiniBand)和 NVLink 帶寬。對顯存分配進行了優化,無需使用昂貴的張量并行(TP)就可以完成訓練。2.3.兩大模型訓練路徑兩大模型訓練路徑 從目前大模型能力構建路徑來看,大致可以分為兩類:(1)通過精細化模型和軟硬件結合的訓練構架的構建,實現在較低的算力消耗基礎上的模型能力建設。DeepSeek 在這個方向上展現出超強的能力和開創性,也很好契合我國目前G
34、PU 被卡脖子的現狀和 AI 應用推廣的實際需要。第 11 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 在業屆關注 DeepSeek 的同時,阿里也在 3 月 6 日開源了 QwQ-32B,性能對標DeepSeek-R1 的同時,實現了中等模型的能力對標,僅需消費級顯卡就可以實現推理需求。圖圖 11:DeepSeek-V3 與與 Grok-3 訓練小時數對比(萬訓練小時數對比(萬 GPU 小時)小時)資料來源:xAI,DeepSeek,中原證券研究所(2)通過大算力投入,帶動整體模型能力的提升。這一方法面臨 Scaling out 的質疑,但是從 xA
35、I 發布的 Grok3 推理能力趕超 DeepSeek-R1 來看,堆算力的方式目前暫時有效。在用122 天構建出 10 萬 GPU 數據中心 Colossus 以后,xAI 又用 92 天將其擴建至 20 萬卡,并在這一硬件基礎上完成了對 Grok3 的訓練,累計訓練時長達到 2 億 GPU 小時,是 Grok2 的十倍。圖圖 12:頭部大模型的:頭部大模型的 Chatbot Chatbot ArenaArena 成績成績 資料來源:xAI,中原證券研究所 但可以預見的是,無論從經濟性上來說,還是從能源消耗等因素來看,簡單依靠大力出奇跡的發展路徑的瓶頸都顯而易見。而 DeepSeek 所處的
36、精細化處理的發展路徑,給后續大模型應用推廣和能力進一步提升,都創造了更多發展空間。第 12 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 表表 4:OpenAI 大模型產品競品推出情況大模型產品競品推出情況 對標模型對標模型 時間時間 參數參數 廠商廠商 產品產品 推出時間推出時間 備注備注 GPT-4o 2024.5.14 多模態交互模型 谷歌 Project Astra 2024.5.15 Gemini Live 2024.8.14 Gemini 2.0 Pro 2025.2.5 Anthropic Claude 3.5 Sonnet 2024.6.
37、21 xAI Grok-2 2024.8.14 Grok-3 2025.2.18 智譜 GLM-4-Plus 2024.8.29 阿里 Qwen-Max 升級版 2024.9.19 Qwen2.5-Max 2025.1.29 字節 豆包通用模型 pro 2024.12.18 價格為 GPT-4o 的1/8 幻方 DeepSeek-V3 2024.12.26 開源 騰訊 Hunyuan-TurboS 2025.2.27 o1 2024.9.13 推理模型 Anthropic 升級版 Claude 3.5 Sonnet 2024.10.23 Claude 3.7 Sonnet 2025.2.24
38、首款混合推理模型 谷歌 Gemini 2.0 Flash Thinking 2024.12.20 幻方 DeepSeek-R1-Lite-Preview 2024.11.21 對標 o1-preview o3-mini 2025.1.31 o1 的下一代產品 DeepSeek-R1 2025.1.20 開源 阿里 QwQ-32B-Preview 2024.11.28 對標o1-mini和o1-preview 開源 QwQ-32B 2025.3.6 開源 智譜 GLM-Zero-Preview 2024.12.31 對標 o1-preview xAI Grok-3 Reasoning Beta
39、2025.2.18 Grok-3 mini Reasoning 2025.2.18 資料來源:OpenAI,界面新聞,機器之心 Pro,騰訊科技,中原證券研究所 2.4.DeepSeek 運營成本及相關數據測算運營成本及相關數據測算 根據 DeepSeek 在 3 月 1 日發布的DeepSeek-V3/R1 推理系統概覽中“線上系統的實際統計數據”的相關數據,我們對 DeepSeek 的實際推理成本做了進一步的測算。表表 5:DeepSeek 運營數據及測算運營數據及測算 項目項目 數量數量 算式算式 推理服務的服務器數量(即節點數)278 臺 單臺服務器的 GPU 數量 8 個 H800
40、推理服務 GPU 總數 2224 張 278*8 H800 租賃成本 2 美元/卡/小時 推理服務平均占用節點數 226.75 個 平均占用 GPU 數量 1814 張 226.75*8 每日占用節點小時數 5442 226.75*24 每日推理服務總成本 87072 美元 2*5442*8 日輸入 Token 608B(342B 緩存命 第 13 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 中)命中比例 56.25%342/608 日輸出 Token 168B 每節點平均輸出吞吐量 14.8k tokens/s 每節點平均輸入吞吐量 73.7k to
41、kens/s 每日輸出占用的節點小時數 3153 168*109/(60*60)/(14.8*103)每日輸入占用的節點小時數 2292 608*109/(60*60)/(73.7*103)輸出節點占比 58%3153/5442 平均輸出速度 20-22 tps 并發請求數 9.7-8.8 萬次/s 168*109/(24*60*60)/20 至 168*109/(24*60*60)/22 R1 輸入價格:緩存命中/緩存未命中 0.14 美元/百萬 Token 0.55 美元/百萬 Token R1 輸出價格 2.19 美元/百萬 Token 每日推理服務理論收入 562027 美元 342*
42、1000*0.14+(608-342)*1000*0.55+168*1000*2.19 毛利率 84.51%1-87072/562027 資料來源:DeepSeek,中原證券研究所(部分結果由于數據精度會產生一定偏差)當前 DeepSeek 用 278 臺 H800 服務器提供推理服務,對應的 GPU 數量為 2224 張。由于 DeepSeek 在夜間的需求較少,其減少了推理節點,用剩余算力滿足自身的研究和訓練,平均占用 GPU 數量為 1814 張,這個數量是遠低于市場預期的??梢钥吹酱蠹s在每日 9 點到 24 點時段,所有節點提供推理服務,低谷階段仍有約 1/4 的節點提供推理。圖圖 1
43、3:DeepSeekDeepSeek 在不同時段用于推理服務的節點數在不同時段用于推理服務的節點數 資料來源:DeepSeek,中原證券研究所 按照理論測算,DeepSeek 會有日均 47.5 萬美元的利潤,對應的毛利率高達 84.5%,但實際利潤會少于理論值,對比在理論收入測算中與實際收入的差距主要包括:(1)DeepSeek 目前提供了網頁、APP 和 API 推理服務,由于網頁和 APP 提供免費服務,DeepSeek 實際只能通過 API 獲得收入。(2)DeepSeek 的收入是以 R1 價格進行的計算,而 V3 的價格低于 R1。第 14 頁/共 25 頁 計算機 本報告版權屬于
44、中原證券股份有限公司 請閱讀最后一頁各項聲明(3)DeepSeek 在夜間提供了折扣,會降低夜間收入價格。2024 年 10 月媒體 The Information 的報道,根據其獲得的 OpenAI 公司財務文件顯示,預計從 2023 年到 2028 年,OpenAI 將蒙受 440 億美元的損失,其中 2024 年將損失 50 億美元,到 2026 年年度損失可能高達 140 億美元,到 2029 年 OpenAI 或才能扭虧為盈。對比來看,DeepSeek 憑借強大的成本控制能力,已經可以實現 MaaS 服務盈利,同時實現如此高的理論毛利率,都是超出市場預期的。圖圖 14:2024 年年
45、 OpenAI 支出預測支出預測 資料來源:The Information,中原證券研究所 由于 DeepSeek 的推理成本取決于當前時段其用于提供推理服務的節點數,用戶使用習慣會影響服務需求的波動。如在 12 點左右和 18 點左右的用餐時段,DeepSeek 服務需求會有階段性下降,從而影響了推理節點的利用率。因而對于規模體量更大的因而對于規模體量更大的 MaaS 供應商來供應商來說,可以有更多不同類型客戶來平抑掉推理服務的波動。說,可以有更多不同類型客戶來平抑掉推理服務的波動。比如 C 端用戶通過手機等終端的 AI服務接入后,在用餐時段或將產生更多的服務需求。圖圖 15:DeepSee
46、kDeepSeek 成本與理論收入測算成本與理論收入測算 資料來源:DeepSeek,中原證券研究所 第 15 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 3.要素三:開源陣營的性能超越要素三:開源陣營的性能超越 3.1.開源大模型陣營首次在先進性上超越了閉源陣營開源大模型陣營首次在先進性上超越了閉源陣營 主流大模型廠商在開源方面路線可以分為三類:主流大模型廠商在開源方面路線可以分為三類:(1)閉源路線為主的廠商:)閉源路線為主的廠商:OpenAI:在從開源走向閉源的過程中,GPT-1 開源到了技術細節,GPT-2 開源僅為源代碼,GPT-3 僅有公開
47、的論文,到了 GPT-4 以后 OpenAI 甚至連模型參數都不再對外公布。除此以外,Anthropic、騰訊、華為目前也都可以算作這一陣列。(2)開源落后模型或者輕量模型的廠商:)開源落后模型或者輕量模型的廠商:xAI:xAI 開源了 Grok-1,但是 Grok-2 和 Grok-3 都還沒有進行開源,xAI 表示將會在Grok-3 達到一般可用性后開源。這意味著 xAI 的開源節奏將會在發布新模型后才進行上一代模型的開源,整體模型能力也將落后于目前主流閉源模型的水平。谷歌:谷歌:作為 AI 領域的老牌廠商,谷歌在 2024 年 2 月和 6 月分別推出了開源模型Gemma 和 Gemma
48、 2 系列模型,主要是一些輕量型模型,但與此同時谷歌最強的模型為閉源的 Gemmi 系列。雖然有開源,但是這類廠商對開源大模型總體貢獻有限。(3)堅定的開源路線廠商,給開源社區帶來了較大貢獻:)堅定的開源路線廠商,給開源社區帶來了較大貢獻:Meta:作為此前開源大模型領域的標桿,Meta 開源了 Llama 1、Llama 2、Llama 3、Llama3.1 系列模型,同時在模型能力上比肩 GPT-4o,包含模型最大參數達到了 4050 億。阿里:阿里:是國內首個加入大模型開源行業的大型科技企業,阿里也在陸續進行了 Qwen、Qwen 1.5、Qwen 2、Qwen 2.5、QwQ 等系列大
49、模型的發布,產品尺寸涉及了從 5 億到 1100億等多個參數大小尺寸,且模型效果始終在開源屆處于較為領先的地位,在 R1 之前開源大模型能力上比肩 GPT-4o 和 o1-preview,最新模型能力對標 o1,且僅有 32B 參數。DeepSeek:從 2023 年 11 月的首個大語言模型就積極擁抱了開源路線,其中重要的版本包括了 DeepSeek LLM 67B、DeepSeek-MoE、DeepSeek-V2、DeepSeek-V2.5、DeepSeek-V3、DeepSeek-R1,R1 在模型能力上比肩了當前最先進的閉源模型,同時在成本方面優勢明顯。通過梳理開源陣營和開源大模型發布
50、的時間線,我們可以看到通過梳理開源陣營和開源大模型發布的時間線,我們可以看到 DeepSeek 的的 R1 和和 V3 模模型開源的意義表現在不光追平了最先進的閉源模型的能力,同時在成本上形成了明顯的優型開源的意義表現在不光追平了最先進的閉源模型的能力,同時在成本上形成了明顯的優勢,代表了更先進的模型發展方向,所以結合兩個維度來看,意味著開源大模型在先進性上勢,代表了更先進的模型發展方向,所以結合兩個維度來看,意味著開源大模型在先進性上第 16 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 首次超越了閉源大模型。首次超越了閉源大模型。表表 6:主流開源大
51、模型主流開源大模型 時間時間 模型模型 公司公司 最大最大參數參數 模型類型模型類型 開源情況開源情況 備注備注 2023.2.25 Llama-1 Meta 650 億 僅研究可用 支持 2048 上下文,70 億、130 億、300 億、650 億四個參數版本,1T-1.4T Token 語料上訓練,650 億模型在 2048 張 A100 上訓練 21 天。2023.7.19 Llama 2 Meta 700 億 免費可商用 支持 4096 上下文,有 70 億、130 億、340 億、700 億四個參數版本,但 340 億版本未開源,在2T Token 語料上訓練 2023.8.3 Q
52、wen 阿里 70 億 支持 8k 上下文,2.2 萬億 Token 數據預訓練 2023.9.25 Qwen 阿里 140 億 免費可商用 支持 8k 上下文,訓練數據超過 3 萬億 Token 2023.11.29 DeepSeek LLM 67B DeepSeek 670 億 同步開源了 70 億、670 億參數模型 2023.11.30 Qwen 阿里 720 億 18 億、720 億 2 個版本,分別支持 8k 和 32k 上下文 2024.1.11 DeepSeek-MoE DeepSeek 1450億 MoE 國內首個 MoE 大模型,有 2B、16B、145B 三個尺寸 202
53、4.2.6 Qwen 1.5 阿里 720 億 月活 1 億以下商用授權,1 億以上商用需授權 支持 32K 上下文,5 億、18 億、40 億、70 億、140 億和 720 億 6 個不同參數版本 2024.2.21 Gemma 谷歌 70 億 支持 8192 上下文,同時發布了 20 億和 70 億模型,都有預訓練和指令微調版本,分別在 2T 和6T 英語數據上訓練。2024.3.18 Grok-1 xAI 3140億 MoE Apache 2.0 支持 8192 上下文 開放模型權重和架構,未公開訓練代碼 2024.4.7 Qwen 1.5 阿里 320 億 支持 32K 上下文 20
54、24.4.26 Qwen 1.5 阿里 1100億 支持 32K 上下文 2024.4.19 Llama 3 Meta 700 億 支持 8k 上下文,包括 80 億和 700 億兩個版本,超過 15T Token 預訓練數據。2024.5.6 DeepSeek-V2 DeepSeek 2360億 MoE MIT 支持 128K 上下文,激活 210 億參數 2024.6.7 Qwen2 阿里 720 億 720 億參數支持 128k 上下文,5 億、15 億、70億、570 億參數支持 32K 上下文 2024.6.27 Gemma 2 谷歌 270 億 支持 8192 上下文,同時發布了
55、90 億和 270 億模型,訓練數據分別為 8T 和 13T Token。訓練分別用了 6144 張、4096 張卡 2024.7.23 Llama3.1 Meta 4050億 允許商用,要標注版權,月活超 7 億需額外申請許可 支持 128K 上下文長度和八種語言,提供豐富組件和工具,同時開源了 405B、70B、8B 三個版本。在超過 1.6 萬個 H100GPU 訓練,15 萬億token。第 17 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 新增許可條款允許開發者利用模型輸出改進其他模型 2024.8.1 Gemma 2 谷歌 26 億 訓練用
56、了 512 張卡 2024.9.5 DeepSeek V2.5 DeepSeek 由 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型合并升級而來 2024.9.19 Qwen2.5 阿里 720 億 Apache2.0(72B為Qwen 許可,3B 為Qwen Research許可)5 億、15 億、30 億支持 32K 上下文,70 億、140 億、320 億和 720 億支持 128K 上下文,訓練數據 18 萬億 Token 2024.9.26 Llama3.2 Meta 900 億 支持 128k 上下文,包括 110 億、900 億版本 2024.
57、11.28 QwQ-32B-Preview 阿里 320 億 2024.12.6 Llama3.3 Meta 700 億 支持 128k 上下文 2024.12.26 DeepSeek-V3 DeepSeek 6710億 MoE MIT 支持 128k 上下文,激活 370 億參數,訓練數據148T token,用了 2048 個 H800GPU,總訓練GPU 卡時為 2788 千小時 2025.1.20 DeepSeek-R1 DeepSeek 6710億 MoE MIT 支持 128k 上下文 2025.3.6 QwQ-32B 阿里 320 億 Apache2.0 支持 131k 上下文,
58、基于 Qwen2.5-32B 和 RL 的持續擴展 資料來源:機器之心,環球時報,澎湃,中原證券研究所 3.2.DeepSeek 開源條款更加開放,有利推動模型的推廣和應用開源條款更加開放,有利推動模型的推廣和應用 Meta:其在 2023 年 2 月推出 Llama-1 的時候僅可用于研究,而不能進行商用,到 2023年 7 月推出的 Llama-2 才進一步開放到可以進行商用,2024 年 7 月推出的 Llama-3.1 中,Meta 進一步允許使用其模型的輸出來改進其他模型。Llama 在模型的使用上仍需遵守特定的許可條款,如月活用戶超 7 億需額外申請許可(涉及被許可人的關聯方),同
59、時其受加利福尼亞州法律管轄,加利福尼亞法院具司法管轄權,或影響受貿易制裁的企業的使用。阿里:阿里:以 Qwen2.5 為例,在 2024 年 9 月發布的 7 個不同體量的基礎模型中,主要都是遵守 Apache2.0,其中規模最大的 720 億參數模型為 Qwen 許可,30 億模型為 Qwen Research 許可。以 Qwen 許可為例,允許商用但需要標注通義千問的貢獻,要求當產品擁有超過 1 億的月活躍用戶需要向阿里云申請許可證,同時規定了模型復制、分發、利用產生的爭議適用于中國法律,杭州法院具司法管轄權。阿里在 R1 后開源的 QwQ-32B 選擇了Apache2.0,或是受到 De
60、epSeek 的壓力,表現得更為開放了。DeepSeek:DeepSeek 使用 MIT 協議,可以商用,且未規定用戶特定的許可條款,未規定法律管轄相關條款。MIT 與 Apache 同屬于較寬松的開源協議,但是 Apache 要求在衍生作品中包含原始許可證、版權聲明和貢獻者聲明等,MIT 協議則更加簡單寬松。第 18 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司請閱讀最后一頁各項聲明 圖圖 16:常見開源協議對比:常見開源協議對比 資料來源:電子工程專輯,中原證券研究所 通過以上對比來看,DeepSeek 在開源協議上保持了更加開放的精神,對于大型企業更加友好,對于全球被許可
61、人來說,也可以避免受到國際政治及法律變化的影響。在 Deep-R1 和 DeepSeek-V3 發布以后,海內外云廠商都快速接入了 DeepSeek 的模型并提供 MaaS 服務,省去了開發者買卡、裝驅動、配網絡、配存儲、裝環境、裝框架、下載模型等繁瑣步驟。同時,包括昇騰、昆侖芯、寒武紀、飛騰、海光在內的國產芯片也都對DeepSeek 進行了適配,加速了國產替代進程。下游的軟件廠商也都快速接入了 DeepSeek,加速了在大模型的應用落地,也可以很好地滿足更多私有化的行業需求。表表 7:各大廠商接入各大廠商接入 DeepSeekDeepSeek 的情況的情況 時間時間 公司公司 內容內容 1.
62、31 英偉達 NVIDIA NIM 已經可以使用 DeepSeek-R1 模型 1.31 亞馬遜 DeepSeek-R1 模型可以在 Amazon Web Services 上使用 1.31 微軟 DeepSeek-R1 正式納入 Azure AI Foundry,成為該企業級 AI 服務平臺的一部分 2.1 華為云、硅基流動 經過硅基流動和華為云團隊連日攻堅,現在,雙方聯合首發并上線基于華為云昇騰云服務的DeepSeek R1/V3 推理服務。得益于自研推理加速引擎加持,硅基流動和華為云昇騰云服務支持部署的 DeepSeek 模型可獲得持平全球高端 GPU 部署模型的效果。2.1 中國電信
63、通過“息壤”智算平臺,提供 DeepSeek-R1 模型的推理、訓練及微調支持,并在 GPU 云主機、科研助手、AI 云電腦等業務場景中部署應用。2.2 騰訊云 DeepSeek-R1 大模型一鍵部署至騰訊云HAI上,開發者僅需 3 分鐘就能接入調用。2.3 中國聯通 借助“星羅”平臺,實現 DeepSeek-R1 在編程助手、云桌面等產品中的集成,并在全國 270 多第 19 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 個骨干云池預部署,以優化推理效率和數據安全能力。2.3 百度智能云 百度智能云千帆平臺已正式上架 DeepSeek-R1 和 Dee
64、pSeek-V3 模型 2.3 阿里云 阿里云 PAI Model Gallery 支持云上一鍵部署 DeepSeek-V3、DeepSeek-R1。2.4 海光 成功完成 DeepSeekV3 和 R1 模型與海光 AI 加速卡 DCU 的適配并正式上線 2.5 華為 基于原生鴻蒙操作系統的小藝助手 App 已經接入 DeepSeek,DeepSeek 系列新模型正式上線昇騰社區 2.5 中國移動 支持 DeepSeek 全版本、全尺寸模型,并通過智算中心、云計算平臺進行深度適配,同時結合自研的 COCA 算力平臺,實現更靈活的模型調用與部署。2.6 國家超算互聯網 DeepSeek-R1、
65、V3、Coder 等系列模型已登陸該平臺,此次上線的模型涵蓋了 1.5B 到 14B 的蒸餾模型,以及 7B 到 32B 的 DeepSeek Chatbot 可視化界面,近期還會陸續上線 32B、70B等更多版本。2.6 寒武紀 南京智算中心與寒武紀、蘇寧科技合作,成功上線全國產算力版 DeepSeek,將助力蘇寧靈思大模型,優化零售場景應用能力 2.8 金山云 在公有云場景和國資云/政務云場景已支持 DeepSeek-R1/V3。2.8 商湯 企業客戶和開發者可在商湯大裝置萬象平臺中,快速部署 DeepSeek-V3、DeepSeek-R1 等模型,可享受 3 個月內 1000 萬 tok
66、ens 免費使用權益。2.9 阿里云 百煉平臺宣布全面上線 DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B 等 6款全尺寸模型 2.9 飛騰 飛騰騰云 S5000C、騰銳 D3000 處理器已成功實現對 DeepSeek 全系列大模型的端到端支持,覆蓋數據中心和終端場景 2.10 寒武紀 中國移動通信集團青海有限公司基于寒武紀 MLU 590 國產化算力資源池,已全面部署上線DeepSeek 國產化大模型服務 資料來源:快科技,金融界,南方都市報,每日經濟新聞,中原證券研究所 對比手機操作系統來看,安卓通過開源策略成為了除蘋果以外的眾多
67、手機廠商的首選。對比手機操作系統來看,安卓通過開源策略成為了除蘋果以外的眾多手機廠商的首選。根據 Canalys 數據,從 2024 年全球智能手機出貨量市場來看,安卓占據了約 78%的市場份額,也極大地降低了手機廠商和應用廠商發展的門檻,促進了手機生態的成熟。因而,業界也對大模型開源生態的發展給與積極的響應。圖圖 17:2024 年全球智能手機出貨量市場份額年全球智能手機出貨量市場份額 資料來源:Canalys,中原證券研究所 在閉源生態發展的過程中,由于中國企業上云(特別是公有云)比例遠低于海外,AI 的第 20 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁
68、各項聲明 B 端應用推廣也因此受限。而隨著最強大模型的開源,國內大模型的發展也將加速展開。3.3.DeepSeek 將核心代碼悉數開源,極大地促進了將核心代碼悉數開源,極大地促進了 AI 技術的發展技術的發展 傳統軟件開源的定義中,關注點在于源代碼的公開可獲取,來自全世界的開發者可以很容易地為軟件提供貢獻。而對于大模型來說,涉及到的核心要素包括了模型架構、用于模型訓練的代碼、模型參數、用于訓練的技術和方法、標記訓練數據的程序、支持庫以及用于模型訓練的數據等等。正是因為認識到了傳統軟件開源與模型開源的差異,2024 年 10 月 28 日,開放代碼促進會(OSI)發布了其開源 AI 定義 1.0
69、 版。根據這一定義,開源 AI 模型必須提供足夠的信息,使任何人都能夠實質性地重建該模型,其中要點包括:(1)模型參數:)模型參數:包括模型的權重和配置,需提供向應用的訪問權限;(2)模型代碼:)模型代碼:需要公開用于訓練和運行 AI 的完整源代碼,展示數據處理和訓練的規范;(3)訓練數據:)訓練數據:訓練數據的來源、處理方式以及獲取或許可的方式。同時 OSAID 還規定,開發者應享有使用、修改和共享模型的自由,而無需獲得他人許可。由于 OSI 的定義較為嚴格,Llama 和 Gemma 等主流大模型都不符合開源大模型的定義,但是 OSAID 給出了度量開源大模型開放程度的理想化方向。在 De
70、epSeek R1 的開源倉庫中,包括了配置文件、模型代碼、模型參數、文檔說明、模型卡片、模型許可證等,是典型的大模型開源倉庫。同時 DeepSeek 還一并發布了詳細記載R1 訓練過程的論文,一同開源的還包括了 DeepSeek-R1-zero 和 6 個蒸餾的小模型。2025 年 2 月 24 日,DeepSeek 拉開了“Open Source Week”的帷幕,一場為期 6 天的代碼庫開源活動就此展開。從芯片級優化到系統級設計,從算法到工程實現,DeepSeek通過破譯英偉達后臺指令,并巧妙地使用,極致優化了算法性能。在此次活動中,DeepSeek 將其在節省算力和高效運算方面的核心技
71、術毫無保留地進行了共享,MLA、EP 專家并行、矩陣乘法、流水線并行優化算法 DualPipe、負載均衡器 EPLB、文件處理系統 3FS 的核心代碼悉數開源,在全球范圍內引起了廣泛的關注和強烈的反響,其開源的誠意也贏得了全世界的贊譽與認可。表表 8:D DeepSeekeepSeek 在在“Open Source WeekOpen Source Week”的”的開源情況開源情況 模型模型 模型類型模型類型 開源時間開源時間 詳情詳情 Flash MLA MLA 解碼內核 2025.2.24 為 Hopper 架構 GPU 開發,針對可變長度序列進行了優化,目前已經投入生產。1、BF16 支持
72、;2、分頁 KV 緩存(塊大小 64)。第 21 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 H800 可以實現內存受限 3000GB/s,計算受限 BF16 580TFLOPS。DeepEP EP 通信庫 2025.2.25 用于 MoE 模型訓練和推理。1、高效和優化的 all-to-all 通信;2、NVLink 和 RDMA 的節點內和節點間支持;3、用于訓練和推理預填充的高吞吐量內核;4、用于推理解碼的低延遲內核;5、原生 FP8 調度支持;6、靈活的 GPU 資源控制,用于計算通信重疊 DeepGEMM GEMME 庫 2025.2.26
73、支持密集型和專家混合(MoE),為 V3/R1 訓練和推理提供支持,在 Hopper 架構 GPU 上可以達到 1350+FP8 的計算性能。1、像教程一樣沒有沉重的依賴;2、完全即時編譯 3、300 行核心邏輯,目前表現優于大多數矩陣大小的專家調整內核 4、支持密集布局和兩個 MoE 布局。DualPipe 優化并行策略 2025.2.27 雙向流水線并行算法,用于 V3/R1 訓練中的計算-通信重疊。EPLB 用于 V3/R1 的專家并行負載均衡器。Profiling Data 分析 V3/R1 中的計算通信重疊。3FS 并行文件系統 2025.2.28 利用 SSD 和 RDMA 網絡的
74、全部帶寬,細粒度架構,具有語義的強一致性。1、在 180 個節點的集群中實現 6.6TiB/s 的聚合讀取吞吐量 2、在 25 個節點的集群上通過 GraySort 基準測試實現 3.66TiB/min 的吞吐量 3、KVCache 查詢的每個客戶端節點峰值吞吐量超過 40GiB/s 訓練數據預處理、數據集加載、檢查點保存和重新加載、用于 V3/R1 推理的嵌入向量搜索和 KVCache 查找 DeepSeek-V3/R1 推理系統概覽 系統介紹文件 2025.3.1 如何使用 EP 增大 batch size,如何隱藏傳輸的耗時,如何進行負載均衡,參考架構圖,線上系統的實際統計數據。資料來源
75、:DeepSeek,中原證券研究所 在開源代碼庫源碼以后,DeepSeek 還在 3 月 1 日對外發布了DeepSeek-V3/R1 推理系統概覽,其中最值得關注的部分是 DeepSeek 披露的“線上系統的實際統計數據”,揭示了原廠在性能優化后提供 DeepSeek MaaS 服務的真實盈利水平。DeepSeek 高達 85%的理論毛利率水平,將成為 MaaS 服務的效率標桿,同時將吸引跟多廠商加大在 DeepSeek 相關服務的投入。通過 DeepSeek 的測算,其每節點(8 張 H800 的 AI 服務器)的平均吞吐輸出為 8575 Tokens/s,而英偉達在 2 月 25 日公布
76、的 8 張 H200 和 B200 節點的 R1 推理吞吐分別為 5899 Tokens/s 和 21088 Tokens/s。這意味著 DeepSeek 通過這套算法優化,在顯存(80GB vs 141GB)和帶寬(2TB/s vs 4.8TB/s)都遠不及 H200 的情況下,實現了 151%的性能超越。第 22 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 18:英偉達:英偉達 DeepSeek-R1 推理輸出能力推理輸出能力 資料來源:英偉達,中原證券研究所 同時,考慮到 DeepSeek 可以通過低成本取得大廠閉源系統同等水平的大模型,那
77、么DeepSeek 也可以在前期實現更加純粹的和具有可持續性的開源、開放,從而加速建立出一個龐大 AI 開源生態體系,也借助這樣的開源實現群策群力,更快地走向 AGI。此外,DeepSeek 的開源,也極大地刺激了大模型廠商的開源力度。百度宣布了將在 6 月30 日開源文心大模型 4.5;OpenAI 也宣布 GPT-5 將對 ChatGPT 免費用戶無限量開放,同時也在考慮加大開源策略;連一向低調的火山引擎也開源了“大模型應用實驗室”,加速 AI 應用的開發。4.AI 產業發展趨勢的預判產業發展趨勢的預判 隨著 o1 這類推理模型的出現,我們看到大模型開發范式也發生了根本性的變化。以往模型的
78、算力主要集中在預訓練(Pre-training)階段,而未來模型在后訓練(Post-training)階段消耗的算力進一步加大,同時由于模型在推理階段需要進行更長時間的思考過程,單次推理耗費的算力也進一步增長。應用爆發期,B 端 AI 應用成為了企業應對科技變革沖擊的重要手段,也將給原來的行業軟件服務商帶來部署的機會。同時,如同醫療、政務等領域的 AI 落地,Manus 的突然火爆,AI 效能改變已經成為了市場的共鳴,相關爆款應用也會成為了資金的關注點。同時,騰訊、阿里、字節、小米等科技大廠也在加速 AI 投入,完成向下個時代的布局。雖然大模型推理成本在下降,但是由此帶來的應用爆發有望帶來更多
79、的應用需求,成為下一階段拉動算力增長的主要驅動力。從模型的單次調用,到 Manus 類型的 Agent 通過一系列調用產生結果,將帶來服務的請求密度幾何倍增長;從 App 的搜索提問輔助工作生活,到手機終端一類的應用落地形成日常調用,模型調用需求將在種類和頻次上獲得極大的提升。從 DeepSeek、QwQ 到 Manus,從宇視科技出圈到智能駕駛的全面推廣,2025 年中國第 23 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 科技圈亮點頻現,正在完成一個從量變到質變的過程??紤]到中國有互聯網應用的領先優勢、在數據端的長期積累和龐大的工程師團隊,在底層模
80、型能力實現突破以后,我們在 AI 應用的發展有望實現全球領先。5.河南借助智算帶動人工智能應用發展河南借助智算帶動人工智能應用發展 2024 年 11 月 14 日河南省出臺了河南省算力基礎設施發展規劃(20242026年),并提出了在 2026 年全省算力規模超過 120EFlops、智算規模達到 100EFlops 以上的發展目標,同時規劃智算、超算等高性能算力占比超過 90%。對比全國來看,河南目前不論總算力、智算算力、智算占比目標都名列前茅,也意圖將算力和人工智能作為新質生產力來帶動河南的發展。圖圖 19:各地算力規劃中關于總算力的相關目標(:各地算力規劃中關于總算力的相關目標(EFL
81、OPS)資料來源:政府網站,中原證券研究所 圖圖 20:各地算力規劃中關于智能算力的相關目標(:各地算力規劃中關于智能算力的相關目標(EFLOPS)資料來源:政府網站,中原證券研究所 第 24 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 圖圖 21:各地算力規劃中關于智能比例的相關目標:各地算力規劃中關于智能比例的相關目標 資料來源:政府網站,中原證券研究所 在在 DeepSeek-R1 發布以后,河南省本地數據中心也在加快接入發布以后,河南省本地數據中心也在加快接入 DeepSeek 的相關模的相關模型。型。鶴壁市城鄉一體化示范區的京東云(中原)算力
82、中心在 2 月 7 日上線了 DeepSeek 模型部署和推理服務,成為河南省第一個提供該服務的城市級算力中心,河南空港智算中心也在 2月 8 日接入全量級 DeepSeek-R1 和多模態 DeepSeek-Janus-Pro 模型。6.風險提示風險提示 國際局勢的不確定性;下游企業削減開支。第 25 頁/共 25 頁 計算機 本報告版權屬于中原證券股份有限公司 請閱讀最后一頁各項聲明 行業投資評級行業投資評級 強于大市:未來 6 個月內行業指數相對滬深 300 漲幅 10以上;同步大市:未來 6 個月內行業指數相對滬深 300 漲幅10至 10之間;弱于大市:未來 6 個月內行業指數相對滬
83、深 300 跌幅 10以上。公司投資評級公司投資評級 買入:未來 6 個月內公司相對滬深 300 漲幅 15以上;增持:未來 6 個月內公司相對滬深 300 漲幅 5至 15;謹慎增持:未來 6 個月內公司相對滬深 300 漲幅10至 5;減持:未來 6 個月內公司相對滬深 300 漲幅15至10;賣出:未來 6 個月內公司相對滬深 300 跌幅 15以上。證券分析師承諾證券分析師承諾 本報告署名分析師具有中國證券業協會授予的證券分析師執業資格,本人任職符合監管機構相關合規要求。本人基于認真審慎的職業態度、專業嚴謹的研究方法與分析邏輯,獨立、客觀的制作本報告。本報告準確的反映了本人的研究觀點,
84、本人對報告內容和觀點負責,保證報告信息來源合法合規。重要聲明重要聲明 中原證券股份有限公司具備證券投資咨詢業務資格。本報告由中原證券股份有限公司(以下簡稱“本公司”)制作并僅向本公司客戶發布,本公司不會因任何機構或個人接收到本報告而視其為本公司的當然客戶。本報告中的信息均來源于已公開的資料,本公司對這些信息的準確性及完整性不作任何保證,也不保證所含的信息不會發生任何變更。本報告中的推測、預測、評估、建議均為報告發布日的判斷,本報告中的證券或投資標的價格、價值及投資帶來的收益可能會波動,過往的業績表現也不應當作為未來證券或投資標的表現的依據和擔保。報告中的信息或所表達的意見并不構成所述證券買賣的
85、出價或征價。本報告所含觀點和建議并未考慮投資者的具體投資目標、財務狀況以及特殊需求,任何時候不應視為對特定投資者關于特定證券或投資標的的推薦。本報告具有專業性,僅供專業投資者和合格投資者參考。根據 證券期貨投資者適當性管理辦法相關規定,本報告作為資訊類服務屬于低風險(R1)等級,普通投資者應在投資顧問指導下謹慎使用。本報告版權歸本公司所有,未經本公司書面授權,任何機構、個人不得刊載、轉發本報告或本報告任何部分,不得以任何侵犯本公司版權的其他方式使用。未經授權的刊載、轉發,本公司不承擔任何刊載、轉發責任。獲得本公司書面授權的刊載、轉發、引用,須在本公司允許的范圍內使用,并注明報告出處、發布人、發布日期,提示使用本報告的風險。若本公司客戶(以下簡稱“該客戶”)向第三方發送本報告,則由該客戶獨自為其發送行為負責,提醒通過該種途徑獲得本報告的投資者注意,本公司不對通過該種途徑獲得本報告所引起的任何損失承擔任何責任。特別聲特別聲明明 在合法合規的前提下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券頭寸并進行交易,還可能為這些公司提供或爭取提供投資銀行、財務顧問等各種服務。本公司資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告意見或者建議不一致的投資決策。投資者應當考慮到潛在的利益沖突,勿將本報告作為投資或者其他決定的唯一信賴依據。