《半導體行業深度報告(十二):AI大模型競賽方興未艾OpenAI與DeepSeek引領行業生態重構-250327(38頁).pdf》由會員分享,可在線閱讀,更多相關《半導體行業深度報告(十二):AI大模型競賽方興未艾OpenAI與DeepSeek引領行業生態重構-250327(38頁).pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、行業研究行業研究 行業深度行業深度 電子電子 證券研究報告證券研究報告 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 Table_Reportdate 2025年年03月月27日日 table_invest 標配標配 Table_NewTitle AI大模型競賽方興未艾,大模型競賽方興未艾,OpenAI與與DeepSeek引領行業生態重構引領行業生態重構 半導體行業深度報告(十二)Table_Authors 證券分析師證券分析師 方霽 S0630523060001 聯系人聯系人 董經緯 table_stockTrend table_product 相關研究相關研究
2、1.樂鑫科技(688018):AIOT次新品顯著放量,產品矩陣拓展布局新市場公司深度報告 2.海外科技股2024Q4業績持續回暖,DeepSeek大模型引燃AI云與端熱情半導體行業2月份月報 3.AI大模型風起云涌,半導體與光模塊長期受益半導體行業深度報告(十)table_main 投資要點:投資要點:2024年全球年全球AI市場規模有望達到市場規模有望達到6.16萬億美元,同比增長萬億美元,同比增長30.1%,2027年有望擴張至年有望擴張至11.64萬億美元萬億美元,CAGR為為23.65%。AI概念于1956年達特茅斯會議首次提出,是一種模擬人類智能的技術,按照智能程度劃分,主要分為狹義
3、人工智能、通用人工智能和超級人工智能,目前通用人工智能還處于理論階段。AI具有算力、算法、數據三大要素,算法決定了AI如何處理數據和解決問題,數據決定了算法是否能得到有效的訓練和優化,算力提供了執行算法和處理數據所需的計算資源。從AI產業鏈看,整體涵蓋基礎設施層、模型層、平臺層、應用層及服務層多個環節,基礎設施層主要包括與芯片、計算、存儲、網絡、軟件、連接與通信等多個上游領域,模型層可分為通用大模型、行業大模型等。根據Frost&Sullivan,自2020年起,全球AI市場規模以高于20%的同比增速呈現迅猛增長的態勢,從2019年的1.91萬億美元有望擴張至2024年的6.16萬億美元,同比
4、增速逐年上升,整體市場有望在2027年擴張至11.64萬億美元,體現出全球AI行業井噴式的發展速度。未來五年全球大模型行業市場規模的未來五年全球大模型行業市場規模的CAGR有望達到有望達到36.23%,AI Agent或將成為繼或將成為繼API調調動和模型推理部署后新的商業化形式,大模型行業競爭格局也將逐步收斂至頭部動和模型推理部署后新的商業化形式,大模型行業競爭格局也將逐步收斂至頭部廠商廠商。AI大模型作為AI產業鏈中的核心環節,經過大規模數據和強大的計算能力訓練,通常具有高度的通用性和泛化能力,可以應用于自然語言處理、圖像識別、語音識別等領域。深度學習是機器學習的重要分支,主要涵蓋預訓練、
5、后訓練、推理等階段,Scaling Law是預訓練階段驅動模型進步的第一性原理,“涌現”現象進一步證明了模型參數量、數據、計算量大小對于模型性能提高的重要性。大模型的商業化落地形式主要包括通過API調用收費以及定制化的模型推理部署,前者市場價格競爭較為激烈,后者是國內的核心業務模式,尤其是云端部署,從金額來看,在政務、教科領域落地的大模型項目較多。隨著AI Agent發展,未來基于結果和價值創造的商業模式有望逐步落地。從行業供給格局看,大模型競爭日趨白熱,模型之間差距逐步縮小,護城河不清晰,廠商需要持續大量投入,海內外競爭格局都將逐步收斂至頭部廠商,部分規模較小的模型廠商或聚焦于垂直化的細分場
6、景。GPT與與OpenAI o1系列模型系列模型分別驗證了算力投入在訓練側和推理側的重要性,分別驗證了算力投入在訓練側和推理側的重要性,而而DeepSeek通過創新性的訓練方法和架構實現了較低的模型訓練成本,通過創新性的訓練方法和架構實現了較低的模型訓練成本,在在未來大模型不斷未來大模型不斷創新迭代的背景下,性能提升與成本下行或成為兩條重要主線。創新迭代的背景下,性能提升與成本下行或成為兩條重要主線?;贕PT-3.5的ChatGPT的發布推動了AI技術的普及和AI產業的變革,是人工智能的重要里程碑之一。ChatGPT的創始人OpenAI自成立起先后發布了GPT系列模型和以OpenAI o1、
7、o3為代表的深度推理模型,GPT系列模型注重預訓練階段的Scaling Law,整體來說更適合解決通識類知識,目前已經迭代至GPT-4系列,從最初單一的文本模態迭代成為多模態大模型,參數規模、訓練數據、上下文窗口大小相比前代呈指數級增長,模型性能相應也有顯著提升。OpenAI o1模型引入了思維鏈,證明了推理側的算力資源投入同樣重要,Scaling Law在推理階段或同樣適用,未來,GPT系列與o1為代表的深度推理系列模型或將互相補充。近期,DeepSeek大模型的發布進一步拉動了AI熱潮,DeepSeek-R1發布后僅用七天用戶增長一億,海內外頭部廠商紛紛入場布局。DeepSeek-V3性能
8、對齊海外領軍閉源模型,但依靠引入MLA機制和創新性的DeepSeekMoE架構實現了遠低于行業平均的訓練成本和定價。DeepSeek-R1在后訓練階段大規模使用了強化學習技術而不依賴監督微調,性能對齊OpenAI-o1正式版,同時證明了蒸餾技術能夠將大模型的推理能力轉移到更小的模型上,提升它們的表現。-26%-10%7%23%40%56%73%24-0324-0624-0924-1225-03申萬行業指數:電子(0727)滬深300證券研究報告證券研究報告 2/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 投資建議:投資建議:AI大模型時代下
9、,AI算力需求高速擴張,從而驅動AI芯片、存儲、服務器、光模塊、PCB等上游產業鏈半導體板塊的需求快速增長,相關標的有望長期受益。(1)云端AI芯片板塊關注寒武紀、海光信息、龍芯中科等;(2)端側AI芯片板塊關注恒玄科技、樂鑫科技、中科藍訊、晶晨股份、瑞芯微、全志科技、炬芯科技、國科微等;(3)存儲板塊關注兆易創新、佰維存儲、德明利、江波龍、瀾起科技、東芯股份、聚辰股份、普冉股份、北京君正等;(4)光模塊、光器件、光芯片板塊關注中際旭創、天孚通信、新易盛、光迅科技、源杰科技等;(5)PCB板塊關注鵬鼎控股、勝宏科技、深南電路、滬電股份、東山精密、景旺電子等;(6)服務器(含液冷)板塊關注浪潮信
10、息、工業富聯、紫光股份、中石科技、光迅科技、川環科技、國芯科技等;(7)電源板塊關注麥格米特、光寶科技、中國長城、新雷能、歐陸通等。風險提示:風險提示:(1)AI需求不及預期風險需求不及預期風險;(2)行業競爭過度風險)行業競爭過度風險;(3)國際貿易政策的變化)國際貿易政策的變化風險。風險。證券研究報告證券研究報告 3/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 正文目錄正文目錄 1.AI 市場高速擴張,有望引領新一代工業革命市場高速擴張,有望引領新一代工業革命.6 1.1.AI 推動生產變革,行業步入蓬勃發展期.6 1.2.AI 產業鏈
11、涵蓋基礎設施到應用落地多個環節.8 2.AI 大模型是大模型是 AI 變革的重要環節之一變革的重要環節之一.10 2.1.“Scaling Law”驅動大模型不斷進步.10 2.2.大模型商業化模式有望通過 AI Agent 實現轉型.14 2.3.大模型競爭日趨白熱,未來玩家格局或將逐步收斂.18 3.大模型創新迭代,性能提升與成本下行或成為兩條主線大模型創新迭代,性能提升與成本下行或成為兩條主線.23 3.1.GPT 與 o1 驗證了訓練側和推理側算力投入的重要性.23 3.2.DeepSeek 創新性地實現了成本更低的訓練.26 3.3.AI 大模型產業鏈半導體相關重點廠商梳理.32 4
12、.投資建議與風險提示投資建議與風險提示.37 4.1.投資建議.37 4.2.風險提示.37 證券研究報告證券研究報告 4/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖表目錄圖表目錄 圖 1 人工智能發展歷程.6 圖 2 按智能程度劃分的三類人工智能.7 圖 3 Gen AI 的工作原理.7 圖 4 Gen AI 在各領域的應用效果.7 圖 5 AI 的三大要素.8 圖 6 AI 算力的相關常用名詞及其含義.8 圖 7 AI 產業鏈.8 圖 8 全球 AI 市場規模(十億美元)及同比增速.9 圖 9 頭部主要廠商大模型迭代時間軸.10 圖
13、 10 MLLM 的架構示意圖.11 圖 11 訓練與推理示意圖.11 圖 12 模型性能與計算量、數據大小、參數量的關系.12 圖 13 大模型的涌現現象.12 圖 14 GPT 系列模型迭代參數規模的變化.13 圖 15 海外云廠商 2024Q1-Q4 資本開支(億美元).13 圖 16 2020-2029E 全球大模型市場規模(億美元)及增速.14 圖 17 大模型商業化模式.15 圖 18 模型推理部署四種主要形式的優劣.17 圖 19 2024 年國內各行業大模型公開披露的落地項目數量(單位:個).17 圖 20 2024 年國內各行業大模型公開披露的落地項目金額(單位:億元).17
14、 圖 21 字節跳動 Coze 智能體創建界面.18 圖 22 大模型區別于互聯網時代的競爭特點.19 圖 23 海外主流 AI 大模型基準評分差距逐步縮小.19 圖 24 海外模型廠商競爭格局.20 圖 25 大模型區別于互聯網時代的競爭特點.21 圖 26 2020-2024 年阿里云業務營收占比.21 圖 27 國內模型廠商競爭格局.22 圖 28 OpenAI 發展歷程以及重要模型發布節點.23 圖 29 OpenAI GPT 系列模型迭代相關性能參數.24 圖 30 以 GPT-4 為例的 GPT 系列模型路徑.24 圖 31 OpenAI o1 與其他頭部模型評分對比.25 圖 3
15、2 OpenAI o1 在訓練和推理階段算力資源的投入與模型性能的關系.25 圖 33 o1 模型相比 GPT-4o 在推理密集型任務上的改進.26 圖 34 未來 GPT 系列與 o1 系列模型或將收斂融合.26 圖 35 DeepSeek 發展歷程以及重要模型發布節點.26 圖 36 DeepSeek 用戶增長速度.27 圖 37 海內外接入 DeepSeek 的廠商.27 圖 38 DeepSeek-V3 多項評測能力與海內外頭部模型對比.28 圖 39 DeepSeek 模型性能與價格比處于最優范圍內.28 圖 40 DeepSeek-V3 訓練成本.28 圖 41 DeepSeek-
16、V3 的 MLA 和 DeepSeekMoE 架構.29 圖 42 DeepSeek-R1 在數學、代碼、自然語言推理等任務上的性能表現.30 圖 43 DeepSeek-R1-Zero 在訓練過程中的 AIME 準確性不斷上升.31 圖 44 蒸餾后的小型模型在數學、代碼、自然語言推理等任務上的性能表現.32 圖 45 AI 服務器產業鏈.33 圖 46 寒武紀 2020-2024 年總營收和歸母凈利潤與各自同比增速.33 證券研究報告證券研究報告 5/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖 47 海光信息 2020-2024 年
17、總營收和歸母凈利潤與各自同比增速.33 圖 48 恒玄科技 2020-2024 年總營收和歸母凈利潤與各自同比增速.34 圖 49 樂鑫科技 2020-2024 年總營收和歸母凈利潤與各自同比增速.34 圖 50 兆易創新 2020 年-2024Q1-Q3 總營收和歸母凈利潤與各自同比增速.34 圖 51 瀾起科技 2020-2024 年總營收和歸母凈利潤與各自同比增速.34 圖 52 中際旭創 2020-2024 年總營收和歸母凈利潤與各自同比增速.35 圖 53 天孚通信 2020 年-2024Q1-Q3 總營收和歸母凈利潤與各自同比增速.35 圖 54 鵬鼎控股 2020-2024 年總
18、營收和歸母凈利潤與各自同比增速.35 圖 55 勝宏科技 2020-2024 年總營收和歸母凈利潤與各自同比增速.35 圖 56 浪潮信息 2020 年-2024Q1-Q3 總營收和歸母凈利潤與各自同比增速.36 圖 57 工業富聯 2020-2024 年總營收和歸母凈利潤與各自同比增速.36 圖 58 麥格米特 2020 年-2024Q1-Q3 總營收和歸母凈利潤與各自同比增速.36 圖 59 歐陸通 2020 年-2024Q1-Q3 總營收和歸母凈利潤與各自同比增速.36 表 1 Transformer 架構和 MoE 架構的對比.13 表 2 模型 API 服務的構成、重要性和主要指標.
19、15 表 3 海內外代表大模型 Token 定價.16 證券研究報告證券研究報告 6/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 1.AI 市場高速擴張,市場高速擴張,有望引領新一代工業革命有望引領新一代工業革命 1.1.AI 推動生產變革,行業步入蓬勃發展期推動生產變革,行業步入蓬勃發展期(1)人工智能(人工智能(Artificial Intelligence,AI)是一種模擬人類智能的技術,旨在使機器)是一種模擬人類智能的技術,旨在使機器能夠像人類一樣思考、學習和解決問題能夠像人類一樣思考、學習和解決問題。AI 涵蓋了多種技術和方法,包
20、括深度學習、機器學習、計算機視覺和自然語言處理等。自 1956 年達特茅斯會議首次提出 AI 概念之后,AI 經歷了早期的萌芽式發展,20 世紀 70 年代出現的專家系統實現了 AI 從理論研究走向實際應用、從一般推理策略探討轉向運用專門知識的重大突破,但后續 AI 因為一系列問題陷入發展瓶頸,進入 21 世紀,隨著網絡技術的發展,數據的獲取變得更加容易,云計算的興起提供了強大的計算能力,為深度學習的應用提供了土壤,2010 年起,以深度神經網絡為代表的 AI 技術蓬勃發展,應用落地場景多點開花,尤其在近幾年,大規模預訓練模型時代開啟,海內外以 ChatGPT、DeepSeek 等為代表的 A
21、I 模型競賽如火如荼,標志著 AI 進入了一個新的紀元。圖圖1 人工智能發展歷程人工智能發展歷程 資料來源:國家互聯網信息辦公室,東海證券研究所 (2)按照智能程度劃分,按照智能程度劃分,AI 主要分為主要分為狹義狹義人工智能(人工智能(ANI)、通用人工智能()、通用人工智能(AGI)和)和超級人工智能(超級人工智能(ASI),目前),目前 AGI 和和 ASI 尚尚處于理論處于理論和探索和探索階段。階段。ANI(Artificial Narrow Intelligence)又稱弱人工智能指專注于特定任務的人工智能系統,能夠高效執行特定功能,但其能力局限于預設任務,不具備通用智能。AGI(A
22、rtificial General Intelligence)指具備與人類相當的綜合智能,能夠理解、學習和執行任何智力任務,具備自主學習和推理能力。ASI(Artificial Super Intelligence)指在幾乎所有領域超越人類智能的人工智能,具備自我改進能力,可能在科學、藝術等領域遠超人類。目前,ANI 已廣泛應用于圖像和語音識別、自動駕駛等場景,AGI 尚未有實際應用,仍處于理論階段,但 Sora 的問世無疑使我們離 AGI 更進了一步。證券研究報告證券研究報告 7/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖2 按智能
23、程度劃分的三類人工智能按智能程度劃分的三類人工智能 資料來源:行行查,東海證券研究所 (3)生成式人工智能(生成式人工智能(Generative Artificial Intelligence,Gen AI)是)是 AI 領域的重領域的重要分支,不同于傳統的要分支,不同于傳統的 AI 僅對輸入數據進行處理和分析,僅對輸入數據進行處理和分析,Gen AI 能夠學習能夠學習并生成并生成具有邏輯具有邏輯的新內容。的新內容。Gen AI 可以學習并模擬事物的內在規律,是一種基于算法和模型生成具有邏輯性和連貫性的文本、圖片、聲音、視頻、代碼等內容的技術。早期 Gen AI 主要針對單一模態,如 GPT
24、系列生成文本、StyleGAN 生成圖像。隨著技術進步,Gen AI 開始結合多模態模型,依賴于復雜的機器學習模型,實現異構數據的生成式輸出,創建跨模態原創內容(例如文本、圖像、視頻、音頻或軟件代碼)以響應用戶的提示或請求。在應用層面,Gen AI 可顯著提升生產效率,根據貝恩,Gen AI 可在營銷方面縮減 30%-50%內容創造所需的時間消耗,在軟件開發方面縮短 15%的代碼編寫時間。圖圖3 Gen AI 的工作原理的工作原理 圖圖4 Gen AI 在各領域的應用效果在各領域的應用效果 資料來源:IBM,東海證券研究所 資料來源:貝恩,東海證券研究所 (4)AI 具有算力、算法、數據三大要
25、素,其中基礎層提供算力支持,通用技術平臺解具有算力、算法、數據三大要素,其中基礎層提供算力支持,通用技術平臺解決算法問題,場景化應用挖掘數據價值。決算法問題,場景化應用挖掘數據價值。數據是 AI 學習和成長的基石,決定了算法是否能得到有效的訓練和優化,數據的質量和數量也直接影響到 AI 模型的準確性和效率;算法是AI 的靈魂,決定了 AI 如何處理數據和解決問題,其設計和選擇直接關系到 AI 的性能和應用效果;算力是 AI 運行的動力,算力提供了執行算法和處理數據所需的計算資源,強大的算力可以支持復雜和大規模的 AI 應用。其中算力指計算設備在單位時間內處理數據的能力,證券研究報告證券研究報告
26、 8/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 AI 算力是專門針對 AI 任務(如矩陣運算、神經網絡訓練)優化的計算能力,需支持高并行性和大規模數據處理,通常用浮點運算次數(FLOPS)衡量,衍生的還有 TFLOPS(萬億次/秒)、PFLOPS(千萬億次/秒)等常見單位,算力的核心硬件包括 GPU、ASIC、FPGA 等。圖圖5 AI 的三大要素的三大要素 圖圖6 AI 算力的相關常用名詞及其含義算力的相關常用名詞及其含義 資料來源:行行查,東海證券研究所 資料來源:CSDN,東海證券研究所 1.2.AI 產業鏈產業鏈涵蓋基礎涵蓋基礎設
27、施設施到應用落地多個環節到應用落地多個環節(1)AI 產業鏈可大致分為基礎設施層、模型層、平臺層、應用層及服務層,其中基礎產業鏈可大致分為基礎設施層、模型層、平臺層、應用層及服務層,其中基礎設施層包含芯片、存儲、網絡等,模型層包含通用模型、行業模型等。設施層包含芯片、存儲、網絡等,模型層包含通用模型、行業模型等。上游基礎設施層是 AI產業鏈的基礎,主要涉及數據、算力等基礎軟硬件,包括 AI 芯片,代表廠商寒武紀、英偉達等;計算、存儲、網絡方面,代表廠商亞馬遜、微軟、阿里、三星電子等。模型層是 AI 產業鏈的核心部分,包括通用大模型和行業大模型等。平臺層和模型層深度綁定,使大模型更便于使用和普及
28、。隨著 AI 大模型的發展,平臺中多種模型選擇、如何將大模型高效且可靠地部署于生產環境是當前的核心問題。應用層是 AI 產業鏈的終端環節,主要涉及 AI 在各個領域的應用和落地,而大模型的不斷更新升級有助于加速應用場景的創新及商業化落地。圖圖7 AI 產業鏈產業鏈 資料來源:IDC,東海證券研究所 證券研究報告證券研究報告 9/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度(2)2024 年年全球全球 AI 市場規模有望達到市場規模有望達到 6.16 萬億美元,同比增長萬億美元,同比增長 30.1%。根據 Frost&Sullivan,自 20
29、20 年起,全球 AI 市場規模以高于 20%的同比增速呈現迅猛增長的態勢,從 2019 年的 1.91 萬億美元有望擴張至 2024 年的 6.16 萬億美元,同比增速逐年上升,2025年開始雖然預計增速同比放緩,但整體市場有望在 2027 年擴張至 11.64 萬億美元,體現出全球 AI 行業井噴式的發展速度。圖圖8 全球全球 AI 市場規模(十億美元)及同比增速市場規模(十億美元)及同比增速 資料來源:Frost&Sullivan,東海證券研究所 1917.0 2334.9 2902.3 3683.0 4732.7 6157.2 7696.5 9620.6 11640.9 21.8%24
30、.3%26.9%28.5%30.1%25.0%25.0%21.0%0%5%10%15%20%25%30%35%02000400060008000100001200014000201920202021202220232024E 2025E 2026E 2027E全球AI市場規模(十億美元)yoy(右軸)證券研究報告證券研究報告 10/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 2.AI 大模型大模型是是 AI 變革的重要環節之一變革的重要環節之一 2.1.“Scaling Law”驅動大模型不斷進步”驅動大模型不斷進步(1)AI 大模型大模型
31、指使用大規模數據和強大的計算能力訓練出來的“大參數”模型,通常指使用大規模數據和強大的計算能力訓練出來的“大參數”模型,通常具有高度的通用性和泛化能力,可以應用于自然語言處理、圖像識別、語音識別等領域。具有高度的通用性和泛化能力,可以應用于自然語言處理、圖像識別、語音識別等領域。2022年 11 月 30 日,伴隨著 ChatGPT 的推出,其亮眼的語言生成能力掀起了全球范圍內的 AI 大模型熱潮,Gemini、Llama、文心一言、SORA、DeepSeek 等各類大模型如雨后春筍般涌現。大模型作為 AI 產業鏈中的核心環節,推動了自然語言處理、計算機視覺等領域的突破,顯著提升了 AI 的理
32、解和生成能力,并且在醫療、金融、教育、自動駕駛等多個行業中得到廣泛應用,有望引領人類步入第四次工業革命。圖圖9 頭部主要廠商大模型迭代時間軸頭部主要廠商大模型迭代時間軸 資料來源:中國信通院,各公司官網,iFind,東海證券研究所 (2)按照輸入數據類型的不同,大模型可分為按照輸入數據類型的不同,大模型可分為大大語言模型、視覺大模型、多模態大模語言模型、視覺大模型、多模態大模型三大類型三大類;從訓練范式看,大模型也可分為基座模型、推理模型和多模態模型;從訓練范式看,大模型也可分為基座模型、推理模型和多模態模型。1)從輸入數據類型看,大語言模型(LLM,Large Language Model)
33、是指在自然語言處理(Natural Language Processing,NLP)領域中的一類大模型,通常用于處理文本數據和理解自然語言,它們在大規模語料庫上進行了訓練,以學習自然語言的各種語法、語義和語境規則;視覺大模型是指在計算機視覺(Computer Vision,CV)領域中使用的大模型,通常用于圖像處理和分析,這類模型通過在大規模圖像數據上進行訓練以實現各種視覺任務,如圖像分類、目標檢測、人臉識別等;多模態大模型(MLLM,Multimodal LLM)是指能夠處理多種不同類型數據的大模型,例如文本、圖像、音頻等多模態數據,這類模型結合了 NLP 和 CV 的能力,以實現對多模態信
34、息的綜合理解和分析,能更全面地理解和處理復雜的數據。2)從訓練范式看,除去上文提到的多模態模型,基座模型(Foundation Models)是一種大規模的預訓練模型,通常用于提供基礎的語言理解和生成能力,特點是參數數量龐大,能夠處理復雜的語言任務;推理模型(Inference Models)是在基座模型的基礎上進行進一步訓練和證券研究報告證券研究報告 11/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 優化的模型,它專注于提升模型的推理能力,通常通過強化學習等技術來增強模型的性能,能夠處理更復雜的任務,具備自主規劃和決策的能力。圖圖10 M
35、LLM 的架構示意圖的架構示意圖 資料來源:Ahead of AI,CSDN,東海證券研究所 (3)深度學習作為機器學習中的深度學習作為機器學習中的重要分支,也是大模型提供了強力的技術支撐,深度重要分支,也是大模型提供了強力的技術支撐,深度學習學習涵蓋涵蓋訓練和推理兩個階段,其中訓練又分為預訓練訓練和推理兩個階段,其中訓練又分為預訓練、后訓練后訓練兩兩個步驟個步驟。訓練(Training)是指通過給定的訓練數據集,利用深度學習算法來不斷地調整和優化神經網絡模型的參數,使其能夠從數據集中學習并形成對未知數據的預測能力。其中預訓練(Pre-training)通常發生在模型開發的早期階段,目的是在大
36、規模數據集上學習通用特征,為后續任務奠定基礎,預訓練不針對特定任務,而是追求廣泛的適用性。后訓練(Post-Training)發生在預訓練之后,模型部署前或部署初期,后訓練針對特定的任務或數據集進行額外訓練,以優化模型性能,包括 Supervised Fine-tuning(SFT,監督微調)和 Reinforcement Learning from Human Feedback(RLHF,人類反饋的強化學習)等環節。推理(Inference)是指在經過訓練后,將已經訓練好的模型應用到真實的數據上,讓模型對真實的數據進行預測或分類。圖圖11 訓練與推理示意圖訓練與推理示意圖 資料來源:CSDN
37、,東海證券研究所 (4)Scaling Law 作為大模型預訓練第一性原理,仍是驅動模型進步的重要定律。作為大模型預訓練第一性原理,仍是驅動模型進步的重要定律。規模定律(Scaling Law)也稱尺度定律、縮放定律等,在 AI 領域中被業界認為是大模型預訓練第一性原理,描述了在機器學習領域,特別是對于大語言模型而言,模型性能(L,模型在測試集上的交叉熵損失)與模型的參數量大?。∟)、訓練模型的數據大?。―)以及訓練模型使用的計算量(C)之間存在一種可預測的關系。這種關系通常表現為隨著這些因素的證券研究報告證券研究報告 12/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有
38、說明和聲明 行業深度行業深度 增長,模型性能會按照一定的冪律進行改善。預訓練階段的 Scaling Law 依然是目前 GPT范式中成本最高的訓練階段,99%的計算在預訓練階段中。圖圖12 模型性能與計算量、數據大小、參數量的關系模型性能與計算量、數據大小、參數量的關系 資料來源:Scaling Laws for Neural Language Models,Kaplan,McCandlish,Henighan,B.Brown,Chess,Child,&et al.(2020),東海證券研究所 (5)大模型中存在一種“涌現”現象大模型中存在一種“涌現”現象,進一步進一步證明模型參數量等屬性大小
39、的重要性證明模型參數量等屬性大小的重要性?!坝楷F”在物理學中的解釋是指系統的量變引起行為的質變,在 AI 領域中,涌現能力(Emergent Abilities)在較小的模型中不出現,通常只在大模型中出現,尤其是大語言模型。下圖顯示了對于 GPT-3 等模型針對涵蓋數學、歷史、法律等等一系列主題的基準測試,結果顯示,對于 GPT-3、Gopher 和 Chinchilla,小于等于 10B 參數時,準確率等表現結果并沒有超過隨機太多,但一旦參數量達到 70B-280B 時,性能大大超越了隨機效果,這個結果或意味著跨越某個閾值,模型解決大量以知識為基礎的、涵蓋多個領域的問題的表現會出現質的飛躍(
40、對于沒有檢索或訪問外部內存的稠密語言模型來說),進一步體現模型參數量、數據量等大小的重要性。圖圖13 大模型的涌現現象大模型的涌現現象 資料來源:Emergent Abilities of Large Language Models,Wei,Tay,Bommasani,Raffel,Zoph,Borgeaud,&et al.(2022),東海證券研究所 證券研究報告證券研究報告 13/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度(6)盡管硬件層面限制等因素致使當前大模型參數規模的提升速度已經有所放緩,但盡管硬件層面限制等因素致使當前大模型參數
41、規模的提升速度已經有所放緩,但各大頭部廠商仍在持續投入數據中心建設。各大頭部廠商仍在持續投入數據中心建設。以 GPT 系列模型為例,GPT-3 的參數規模是GPT-2 的 100 倍左右,而 GPT-4 相比 GPT-3 僅僅翻了 10 倍左右,下一代模型在參數規模上可能增加 3-5 倍。目前模型規模增加的主要限制因素在硬件層面,模型參數過大對于 GPU訓練集群的內存要求和通信要求極高,但目前物理基礎設施能力的提升比軟件更慢,盡管如此,各大頭部云服務廠商仍在不斷加碼 AI 基礎設施投入,為未來更大規模的大模型作準備。圖圖14 GPT 系列模型迭代參數規模的變化系列模型迭代參數規模的變化 圖圖1
42、5 海外云廠商海外云廠商 2024Q1-Q4 資本開支(億美元)資本開支(億美元)資料來源:量子位智庫,東海證券研究所 資料來源:wind,東海證券研究所 (7)除了訓練與推理環節的投入之外,模型架構的創新也在不斷引領模型進步,目前)除了訓練與推理環節的投入之外,模型架構的創新也在不斷引領模型進步,目前主流的兩種模型架構分別為主流的兩種模型架構分別為 Transformer 和和 MoE 架構。架構。1)Transformer 是一種基于自注意力機制(是一種基于自注意力機制(self-attention mechanism)的神經網絡)的神經網絡架構,通過并行處理整個輸入序列架構,通過并行處理
43、整個輸入序列。自注意力機制讓模型在處理每個單詞時,都能計算該單詞與其他所有單詞的關聯程度,給不同單詞分配不同的“注意力權重”,從而捕捉到文本中詞匯之間豐富的語義關系,理解上下文,提升了長序列的處理能力。標準的 Transformer 由多層堆疊的編碼器(Encoder)/解碼器(Decoder)組成,捕捉輸入序列的長距離依賴關系,但每個輸入樣本會經過所有層和所有參數的計算,屬于一種稠密(Dense)架構,計算量隨著序列長度的增加而顯著增加,需要大量的計算資源和內存來存儲中間結果。采用Transformer 架構的大模型包括 GPT-1、GPT-2、GPT-3 等。2)MoE(Mixture o
44、f Experts,混合專家模型),混合專家模型)通過組合多個專家網絡處理輸入數據,通過組合多個專家網絡處理輸入數據,每個專家是一個獨立的神經網絡,專注于處理特定類型的輸入,由門控機制(每個專家是一個獨立的神經網絡,專注于處理特定類型的輸入,由門控機制(gating mechanism)根據輸入數據動態選擇最合適的專家,并將它們的輸出加權組合。)根據輸入數據動態選擇最合適的專家,并將它們的輸出加權組合。區別于Transformer 會激活所有參數,MoE 只激活部分專家網絡,計算是稀疏(Sparse)的,可顯著降低計算成本,在模型規模擴展方面,MOE 架構具有很強的靈活性。通過增加專家網絡的數
45、量,就能輕松擴展模型的規模,提升模型的能力,而不需要對模型結構進行大規模改動。采用 MoE 架構的大模型如 DeepSeek-V3。表表1 Transformer 架構和架構和 MoE 架構的對比架構的對比 特性特性 Transformer MoE 核心機制核心機制 自注意力機制 門控機制選擇專家網絡 并行計算并行計算 完全并行 部分并行 應用領域應用領域 NLP、計算機視覺、跨模態學習 NLP、計算機視覺、推薦系統 計算效率計算效率 較高,但依賴硬件性能 高效(尤其是 Sparsely-Gated MoE)發展歷程發展歷程 2017 年提出,迅速成為主流 1991 年提出,近年來在大規模訓練
46、中優化 050100150200250300亞馬遜谷歌微軟Meta2024Q12024Q22024Q32024Q4證券研究報告證券研究報告 14/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 模型復雜度模型復雜度 固定復雜度 動態調整復雜度 優勢優勢 并行處理長序列,適應多種任務 專家網絡專注于特定子任務,提高性能 劣勢劣勢 參數量大,訓練成本高 門控機制設計復雜 資料來源:CSDN,東海證券研究所 2.2.大模型商業化模式有望通過大模型商業化模式有望通過 AI Agent 實現轉型實現轉型(1)未來五年全球大模型行業市場規模的未來五年全球大
47、模型行業市場規模的 CAGR 有望達到有望達到 36.23%。隨著 AI 技術的不斷進步和應用場景的日益豐富,大模型的市場規模日益擴展,2021 年,全球大模型市場規模同比增長 132%,2020 年至 2024 年,全球大模型市場規模有望從 25 億美元飛速擴張至280 億美元,增長十倍以上,2025 年或將擴張至 366 億美元,同比增長 30.71%,雖然增速有所放緩,但未來五年,全球大模型行業市場規模有望以 36.23%的年復合增長率擴張至2029 年的 1314 億美元。圖圖16 2020-2029E 全球大模型市場規模(億美元)及增速全球大模型市場規模(億美元)及增速 資料來源:前
48、瞻網,宇博智業,東海證券研究所 (2)目前,目前,大模型大模型的主要的主要盈利模式盈利模式是基于用量的一種商業模式,核心理念是通過是基于用量的一種商業模式,核心理念是通過 API調用調用收費收費,此外還有廣告、模型推理部署方向的業務模式此外還有廣告、模型推理部署方向的業務模式?;谟昧康氖召M模數主要按照Tokens、調用次數、時間區間等維度來收費,也是當前主流的盈利方式。除此之外,模型在云端或者本地部署也是模型盈利的重要形式,還有一些 AI 大模型相關的 app 因為下載量巨大,吸引到部分商家投放廣告,進而形成了廣告收入。255810821028036662488710951314 132.0
49、0%86.21%94.44%33.33%30.71%70.49%42.15%23.45%19.98%0%20%40%60%80%100%120%140%02004006008001000120014002020202120222023 2024E 2025E 2026E 2027E 2028E 2029E全球大模型市場規模(億美元)yoy(右軸)證券研究報告證券研究報告 15/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖17 大模型商業化模式大模型商業化模式 資料來源:冰鑒科技研究院,東海證券研究所 (3)模型模型 API 本質是一種本
50、質是一種 MaaS(Model as a service)模式,)模式,是海外大模型的核心是海外大模型的核心商業模式,國內市場由于商業模式,國內市場由于差異化程度較低,差異化程度較低,規模相對較小,規模相對較小,低價競爭策略或將長期持續。低價競爭策略或將長期持續。API(Application Programming Interface,應用程序編程接口)是一些預先定義的函數,目的是提供應用程序與開發人員基于某軟件或硬件得以訪問一組例程的能力,而又無需訪問源碼,或理解內部工作機制的細節,在大模型層面,開發者通過 API 這一標準化接口調用大模型功能,而無需從頭訓練模型,只需發送請求即可獲得模型
51、的輸出。通過 API 調用從而盈利的特點是簡單易用、復雜性低和定制化程度低,模型能力是唯一的差異化之處,這本質是一種基于底層模型用量的模式,再增加一部分產品層的溢價構成定價。API 行業需求方較為碎片化,來自各個行業,從供給層面看,模型 API 是海外大模型的核心商業模式,從國內市場看,由于國內模型能力缺乏差異化,行業低價競爭趨勢等因素,整體市場規模較小,難以成為模型廠商的主要收入來源。表表2 模型模型 API 服務的構成、重要性和主要指標服務的構成、重要性和主要指標 構成構成 重要程度(重要程度(1-4 星)星)含義及主要指標含義及主要指標 模型庫模型庫 包括模型廠商的自研模型和第三方開源模
52、型(主要適用于云廠商,會提供 MaaS 服務)模型能力模型能力 調用量由真實的市場需求產生(1)推理能力:核心指標,包括指令遵從、內容合規、用戶意圖理解等(2)上下文長度(Context Window):支持的上下文窗口大小,決定模型可以處理的任務復雜度上限(3)多模態能力:文字、圖像、音視頻等模態的理解、生成、交互表現 價格價格 和調用量、調用方式有關,總體上呈快速下降趨勢 包括輸入價格(Input Tokens)和輸出(Output Tokens)價格,以及更便宜的Batch API API 性能性能 (1)延遲:FTL(First Token latency,從發出請求到收到第一個 To
53、ken 的時間,也稱 Time to first Token)(2)吞吐量:RPM(Request per minute,每分鐘請求次數)、TPM(Tokens per minute,一分鐘輸出 Token 量)(3)輸出速度:Tokens per second(每秒輸出 Token 量)(4)穩定性:各項指標穩定性、波動水平、故障頻率 安全合規安全合規 用戶的數據隱私保護、內容安全合規性 資料來源:量子位智庫,東海證券研究所 證券研究報告證券研究報告 16/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度(4)按照按照 Token 計價計價是大
54、部分是大部分大大模型模型 API 的收費方式的收費方式,國內外大模型對于,國內外大模型對于 Token 的的標準并不統一,定價也差別較大,標準并不統一,定價也差別較大,其余還有其余還有按照時間區間計價按照時間區間計價、調用次數等計價模式。、調用次數等計價模式。Token在大模型中的含義是最小文本單元,可以直觀地理解為字或詞,但目前 Token 和單個漢字、英文字母之間的關系并沒有統一的計量標準,各大模型也各不相同,但總體來說 1 個 token1-1.8 個漢字,在英文文本中,1 個 token3-4 個字母。定價方面,不僅對于不同大模型收費標準不同,對于一些大模型來說,在不同時間段使用的定價
55、也不同。此外,按照時間區間計價主要是針對個人用戶的訂閱制收費模式,可按照年、月、周等維度購買服務(如ChatGPT),按照調用次數的計價模式則方便用戶按需購買。表表3 海內外代表大模型海內外代表大模型 Token 定價定價 大模型名稱大模型名稱 輸入價格輸入價格/百萬百萬 Tokens(緩存命中(緩存命中/cache hit)輸入價格輸入價格/百萬百萬 Tokens(緩存未命中(緩存未命中/cache miss)輸出價格輸出價格/百萬百萬 Tokens 海外 GPT-4.5(OpenAI)37.5 美元 75 美元 150 美元 GPT-4o(OpenAI)1.25 美元 2.5 美元 10
56、美元 Gemini 2.0 Flash(Google)0.025 美元 0.1 美元 0.4 美元 Claude 3.7 Sonnet(Anthropic)3 美元 15 美元 國內 DeepSeek R1(DeepSeek)0.14 美元 0.55 美元 2.19 美元 qwen-max(阿里)2.4 元 9.6 元 qwen2.5-72B(阿里)4 元 12 元 Kimi-latest-128k(月之暗面)1 元 60 元 60 元 SenseChat-Vision(商湯)10 元 60 元 hunyuan-TurboS(騰訊)0.8 元 2 元 doubao-1.5-pro-32k(字節
57、)0.8 元 2 元 資料來源:各公司官網,東海證券研究所(注:數據截至 2025 年 3 月 14 日,每款大模型均取較新的其中一至兩個版本進行示例,其中 DeepSeek-R1 價格為 UTC 00:30-16:30 時間區間定價,其余時間價格僅為上述價格的 25%;緩存命中指數據在緩存中,系統速度提升,未命中則需從主存加載,效率降低。)(5)定制化服務主要是指定制化服務主要是指模型推理部署模型推理部署,包含包含云端云端、本地本地、邊緣及混合、邊緣及混合部署,是國內部署,是國內大模型市場的核心大模型市場的核心業務模式,貢獻了大部分營收業務模式,貢獻了大部分營收,其中云端部署是目前最為普遍的
58、大模型部,其中云端部署是目前最為普遍的大模型部署方式署方式。1)云端部署是當前模型推理部署的主流方式,分為私有云部署和公有云部署,私有云部署是企業將模型部署在自己管理的云基礎設施上,結合了本地部署的控制權和云的靈活性,公有云部署則是企業將模型和數據托管在云服務商提供的基礎設施上;2)本地部署需要企業有完善的 IT 基礎設施,是將大模型部署在企業自己的物理服務器上,適用于需要極高數據隱私或對外部依賴有嚴格要求的場景;3)邊緣部署是指將原本運行在云端或大型服務器上的大模型通過優化和壓縮后,部署在靠近數據產生源頭或應用場景的“邊緣設備”(如手機、傳感器、本地服務器、IoT 設備等)上運行的技術方案,
59、核心目標是通過本地化處理,減少對云端服務器的依賴,從而提升響應速度、保護數據隱私,并適應網絡不穩定的環境;4)混合部署是將私有云和公有云結合使用,將一些關鍵任務(如訓練、大規模數據處理)放在私有云中,而將推理任務或其他非機密任務放在公有云中。證券研究報告證券研究報告 17/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖18 模型推理部署四種主要形式的優劣模型推理部署四種主要形式的優劣 資料來源:CSDN,東海證券研究所 (6)從國內大模型項目落地的應用領域看,)從國內大模型項目落地的應用領域看,2024 年落地項目數量排在前三位的分別為年
60、落地項目數量排在前三位的分別為通信通信、教科、教科和和政務政務,落地項目金額前三位分別是政務、,落地項目金額前三位分別是政務、教科教科和和能源。能源。從 2024 年國內公開披露的大模型落地項目看,在教科、通信、能源、政務、金融等行業數量和金額都相對較多。其中,從數量維度看,排名前五的行業分別為通信(25.99%)、教科(25.33%)、政務(11.38%)、能源(11.18%)和金融(8.75%),從金額維度看,排名前五的行業分別為政務(34.64%)、教科(15.95%)、能源(11.14%)、通信(11.04%)和金融(3.71%),總體來說,政務行業單個項目涉及金額較大,其次為能源。圖
61、圖19 2024 年年國內各行業大模型公開披露的落地項目數國內各行業大模型公開披露的落地項目數量(單位:個)量(單位:個)圖圖20 2024 年年國內各行業大模型公開披露的落地項目金國內各行業大模型公開披露的落地項目金額(單位:億元)額(單位:億元)資料來源:智能超參數,東海證券研究所 資料來源:智能超參數,東海證券研究所 (7)隨著模型能力不斷提升隨著模型能力不斷提升,業務不斷成熟,未來以,業務不斷成熟,未來以 AI Agent 為代表的為代表的基于結果和價基于結果和價值創造的商業模式有望逐步落地。值創造的商業模式有望逐步落地。大模型的三種應用模式分別為 Embedding、Copilot
62、和Agent,在 Embedding 模式中,大模型被集成到現有的應用程序或服務中;Copilot 模式中,大模型充當助手的角色,為用戶提供實時的建議和支持;Agent 模式中,大模型被賦予了一定程度的自主權。近日,Manus 作為“全球首款通用 AI Agent”問世,引發市場熱情。AI 395385173170133264050100150200250300350400450通信教科政務能源金融其他22.40 10.31 7.21 7.14 2.40 15.22 0510152025政務教科能源通信金融其他證券研究報告證券研究報告 18/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細
63、閱讀正文后的所有說明和聲明 行業深度行業深度 Agent 以大模型為核心引擎,但是區別于用戶基于提示詞(prompt)與 AI 模型交互,AI Agent具備通過獨立思考、調用工具逐步完成用戶給定的目標的能力,主打“直接完成工作”,本質是一個控制大模型來解決問題的代理系統。與上文模型 API 不同,這種基于結果和價值創造的商業模式更加復雜,且需要可衡量的結果和交付價值,目前模型廠商的產品形態還幾乎不支持對直接基于模型產生的實際效益去定價,但這種模式能更好地滿足客戶需求。目前,Copilot 類產品首先實現商業落地,AI Agent 或首先從垂直場景開始逐步探索,未來在模型能力不斷上升、產品模式
64、更加成熟后,有望成為新的下游應用增量點。圖圖21 字節跳動字節跳動 Coze 智能體創建界面智能體創建界面 資料來源:Coze 官網,東海證券研究所 2.3.大模型競爭日趨白熱,未來玩家格局或將逐步收斂大模型競爭日趨白熱,未來玩家格局或將逐步收斂(1)大模型的能力日新月異,護城河不明確,規模效應尚未顯現,廠商需要持續大量)大模型的能力日新月異,護城河不明確,規模效應尚未顯現,廠商需要持續大量投入參與市場競爭。投入參與市場競爭?;ヂ摼W時代,廠商可以根據用戶畫像進行相關推薦,形成了較強的用戶關系網絡,規模效應能夠顯著降低成本,且部分 APP 的遷移成本較高,頭部廠家都形成了自己清晰的護城河,能夠維
65、持穩定較好的利潤水平。區別于互聯網,大模型目前產品較為同質化,遷移成本較低,用戶關心的是模型的智能程度和成本,且目前行業仍處于前期大規模資本投入階段,大模型能力不斷突破上限,規模效應尚未顯現,因此廠商仍需要長期大量投入從而參與市場競爭,維持領先地位。證券研究報告證券研究報告 19/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖22 大模型區別于互聯網時代的競爭特點大模型區別于互聯網時代的競爭特點 資料來源:量子位智庫,東海證券研究所 (2)從海外大模型廠商來看,整體競爭格局日益白熱化,盡管)從海外大模型廠商來看,整體競爭格局日益白熱化,盡
66、管 GPT 擁有先發優勢,但擁有先發優勢,但是以是以 Claude、Gemini 等為代表的大模型正在迅速追趕縮小等為代表的大模型正在迅速追趕縮小性能性能差距。差距??傮w來說,模型能力決定市場份額,OpenAI 在 2023 年初發布 GPT-4 時由于領先的模型能力在市場有較強的競爭力,但后續 Anthropic、Google 相繼迭代旗下的大模型,目前 Claude、Gemini 的最新旗艦版大模型已經在性能上逐步趕上或在某些領域超越 GPT 系列模型,模型差距相比 2023年顯著縮小。圖圖23 海外主流海外主流 AI 大模型基準評分差距逐步縮小大模型基準評分差距逐步縮小 資料來源:壹零社
67、,東海證券研究所 (3)目前,目前,OpenAI、Anthropic、DeepMind 形成了海外大模型的第一梯隊玩家,第形成了海外大模型的第一梯隊玩家,第二梯隊包括二梯隊包括 xAI、Meta 等,第三梯隊玩家逐步被頭部廠商吸收,小模型廠商在激烈的市場等,第三梯隊玩家逐步被頭部廠商吸收,小模型廠商在激烈的市場競爭下被淘汰出清,未來競爭格局將逐步收斂至頭部競爭下被淘汰出清,未來競爭格局將逐步收斂至頭部 5 家廠商。家廠商。1)OpenAI 目前和微軟深度綁定,目前營收仍處于領先地位,主要來自于 GPT 的訂閱服務。2)Anthropic 營收構成與證券研究報告證券研究報告 20/38 請務必仔
68、細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 OpenAI 差別較大,主要為 API 服務,目前和亞馬遜綁定,近一年來市場份額快速增長。3)DeepMind 背靠谷歌,與谷歌工作流進行整合,發力針對中小企業的 API 市場。4)馬斯克帶領的 xAI 目前正在迅速發展,近期發布的 Grok3 宣稱在基準測試中擊敗 GPT-4o,潛力巨大。5)區別于其他廠商,Meta 選擇了開源路線,目前尚未通過模型進行商業化,構造圍繞Llama 的開源生態。6)由于目前海外基礎模型需要數百億美元的持續投入,需要廠商本身較強的資本支撐和與巨頭的深度合作帶來資源支持,第三梯隊的
69、模型廠商已經進入出清時期,部分被頭部模型廠商吸收合并,整體競爭格局已收斂。圖圖24 海外模型廠商競爭格局海外模型廠商競爭格局 資料來源:量子位智庫,東海證券研究所 (4)國內)國內大模型大模型廠商廠商主要分為四類,分別為互聯網云廠商、大模型創業公司、模型推主要分為四類,分別為互聯網云廠商、大模型創業公司、模型推理平臺及技術類廠商理平臺及技術類廠商,其中互聯網云廠商在模型、生態和渠道優勢各方面更為全面,具備較,其中互聯網云廠商在模型、生態和渠道優勢各方面更為全面,具備較強的競爭力強的競爭力。對于大模型廠商來說,模型能力最為重要,其次是生態能力和渠道能力,國內互聯網云廠商和大模型創業公司均具備較高
70、的模型能力,云廠商的生態能力和渠道能力同樣亮眼,優勢更為全面,代表廠商包括阿里、字節、百度、騰訊等。大模型創業公司也擁有優秀的模型能力,但是生態能力和渠道能力弱于互聯網云廠商,代表廠商包括 DeepSeek、月之暗面、智譜 AI 等。模型推理平臺通常不自己研發模型,而是整合開源模型生態,通過 API盈利,如硅基流動、無問芯穹等。傳統的技術類廠商擁有積累的較強的渠道能力,模型和生態能力也較強,代表廠商如商湯科技、科大訊飛、昆侖萬維等。證券研究報告證券研究報告 21/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖25 大模型區別于互聯網時代的
71、競爭特點大模型區別于互聯網時代的競爭特點 資料來源:量子位智庫,東海證券研究所 (5)以阿里為例,其云業務相關營收占比總體營收在逐年提升,體現頭部模型廠商在)以阿里為例,其云業務相關營收占比總體營收在逐年提升,體現頭部模型廠商在持續投入資源后,云業務或將成為其新的增長點。持續投入資源后,云業務或將成為其新的增長點。2020 年,阿里云營收僅為 555.76 億元,到 2024 年,其云業務營收翻倍,達到 1134.96 億元,在總營收中的占比也從 8.63%上升至11.56%,未來三年,阿里巴巴在云和 AI 基礎設施上的資本開支將達 3800 億元,體現了頭部云廠商對 AI 相關基礎建設的投入
72、信心,AI 業務有望成為頭部互聯網云廠商營收增長的重要支撐。圖圖26 2020-2024 年阿里云業務營收占比年阿里云業務營收占比 資料來源:wind,東海證券研究所 (6)由于通用基礎模型領域競爭較為激烈,一方面,國內頭部大廠將持續投入通用類由于通用基礎模型領域競爭較為激烈,一方面,國內頭部大廠將持續投入通用類產品,結合渠道實力打造生態壁壘,另一方面,部分模型廠商或將開始聚焦商業化層面,轉產品,結合渠道實力打造生態壁壘,另一方面,部分模型廠商或將開始聚焦商業化層面,轉型至相對垂直的細分場景進行服務,增強差異化競爭力。型至相對垂直的細分場景進行服務,增強差異化競爭力。國內第一梯隊的大模型廠商多
73、數綜合布局,能夠承受大量投資和長期虧損的預期,且擁有豐富的消費端場景和自身現有業務產品背書,因此未來國內通用模型競爭格局同樣將收斂至第一梯隊的少數玩家。在這樣的行業背景下,模型創業公司或針對 B 端模型客戶將聚焦于更加垂直、細分的商業化場景。對于傳統的技術類廠商來說,目前多數在自身已有的渠道中服務,如部分政府和行業大客戶,未來或將嘗試將重心轉型至大模型。555.76723.58775.92994.191134.966442.088364.058645.399274.949817.678.63%8.65%8.97%10.72%11.56%0%2%4%6%8%10%12%14%0200040006
74、0008000100001200020202021202220232024阿里云計算和互聯網基礎設施營收(億元)阿里巴巴總營收(億元)云業務營收占比(右軸)證券研究報告證券研究報告 22/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖27 國內模型廠商競爭格局國內模型廠商競爭格局 資料來源:量子位智庫,東海證券研究所 證券研究報告證券研究報告 23/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 3.大模型創新迭代,大模型創新迭代,性能提升與成本下行或成為兩性能提升與成本下行或成為兩條主線
75、條主線 3.1.GPT 與與 o1 驗證了訓練側和推理側算力投入的重要性驗證了訓練側和推理側算力投入的重要性(1)OpenAI 是一家致力于推動通用人工智能惠及人類的企業。是一家致力于推動通用人工智能惠及人類的企業。OpenAI 創立于 2015年,最早為非營利組織,創始人包括薩姆 奧爾特曼(Sam Altman)、彼得 蒂爾(Peter Thiel)、里德霍夫曼(Reid Hoffman)和埃隆馬斯克(Elon Musk)等,其中大多都有豐富的技術和商業背景,2016 年,OpenAI 發布首個產品 OpenAI Gym 和 Universe,2018 年,GPT 系列模型首次亮相,采用 T
76、ransformer 架構,參數規模達到 1.17 億,后續該系列模型不斷迭代,參數規模、訓練數據、上下文窗口大小呈指數級增長,模型性能相應也有顯著提升,此外,GPT 系列模型也從最初單一的文本模態迭代成為 GPT-4 系列的多模態大模型,2025 年,OpenAI 將推出 GPT-4.5 大模型。除 GPT 系列外,OpenAI 還推出了深度推理模型 OpenAI o1、o3 模型,以及文生視頻模型 Sora 等。圖圖28 OpenAI 發展歷程以及重要模型發布節點發展歷程以及重要模型發布節點 資料來源:OpenAI,iFind,東海證券研究所 (2)基于基于 GPT-3.5 的的 Chat
77、GPT 的發布推動了的發布推動了 AI 技術的普及和技術的普及和 AI 產業的變革產業的變革,是人,是人工智能的重要里程碑之一工智能的重要里程碑之一。2022 年 11 月 30 日,OpenAI 正式發布聊天機器人 ChatGPT,基于 GPT-3.5 架構,能夠回答問題、創作文章、編程,甚至可以模仿人類的對話風格,顛覆了人們對于通用大語言模型的認知。ChatGPT 發布后,僅僅用了 2 個月用戶數量便達到億級,增速超越了 TikTok、Instagram 等全球頭部消費級應用。ChatGPT 的發布標志著自然語言處理(NLP)技術的重大進步,改善了人機交互體驗,顯著提高了生產力,推動了 A
78、I 行業變革。證券研究報告證券研究報告 24/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖29 OpenAI GPT 系列模型迭代相關性能參數系列模型迭代相關性能參數 資料來源:華為云,CSDN,OpenAI 官網,東海證券研究所 (3)GPT 系列模型著重于預訓練階段的系列模型著重于預訓練階段的 Scaling law,在預訓練階段投入了大,在預訓練階段投入了大部分部分算算力資源,在后訓練階段采用力資源,在后訓練階段采用 SFT、RFHL 等形式等形式,整體來說更適合解決通識類知識,整體來說更適合解決通識類知識。以 GPT-4 為例,
79、其整體參數規模約為 GPT-3 的 10 倍,根據 Semianalyst 的GPT-4 Architecture,Infrastructure,Training Dataset,Costs,Vision,MoE文章中透露,GPT4 在預訓練階段使用了 25000 張 40G 的英偉達 A100 訓練了 90 天以上,總耗費約 6300 萬美元,而模型能力也因此基本來自預訓練階段學習理解的大量多模態信息和知識,所以 GPT 系列模型針對問題能夠迅速反應并給出答案,擅長處理的也基本是通識類的知識。在后訓練階段,GPT 采用SFT、RFHL(人類提供偏好反饋數據從而訓練強化學習的獎勵模型)方式,提
80、升模型的實際應用效果。圖圖30 以以 GPT-4 為例的為例的 GPT 系列模型路徑系列模型路徑 資料來源:GPT-4 Architecture,Infrastructure,Training Dataset,Costs,Vision,MoE,Dylan Patel&Gerald Wong,量子位智庫,東海證券研究所 (4)Open AI 于于 2024 年年 9 月發布月發布 OpenAI o1 模型,可以執行復雜的推理任務,模型,可以執行復雜的推理任務,MMLU評分超越一眾大模型。評分超越一眾大模型。o1 模型在回答問題之前會形成一條內部思維鏈(Chain of Thought),模擬人類
81、的思考過程,其在物理、化學和生物學這些具有挑戰性的基準任務上的表現與博士生相似,在數學和編碼方面表現同樣出色。他的 MMLU(知識問答,評估 LLM 的知識和推理能力)評分、Math(含代數、微積分、幾何、概率等多個領域)評分、GPQA Diamond(全面的框架,測試模型在多種推理場景下的能力)評分均超過了當時的主流大模型,如 Gemini 2.0 Pro Experimental、Hunyuan-TurboS、Claude 3.5 Sonnet 等,對比 GPT-4o 也有顯著提升。證券研究報告證券研究報告 25/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲
82、明 行業深度行業深度 圖圖31 OpenAI o1 與其他頭部模型評分對比與其他頭部模型評分對比 資料來源:OpenAI 官網,東海證券研究所 (5)o1 模型的發布模型的發布證明了推理側的算力資源投入同樣重要證明了推理側的算力資源投入同樣重要,“,“Scaling Law”在推理階”在推理階段或同樣適用段或同樣適用。o1 模型引入的思維鏈類似人類在回答困難問題之前的長時間思考,通過訓練時的強化學習,o1 能夠鍛煉其思維鏈并改進其使用的策略,它還能夠識別并改正錯誤,將棘手的問題拆分成更簡單的步驟,如果目前的方式不奏效,o1 還會嘗試不同的解決方式。上述思維鏈讓 o1 的推理能力大幅增強。從下圖
83、可知,當推理側的算力資源增加時,模型處理問題的準確度顯著提升,代表著類似于預訓練階段的“Scaling Law”在推理階段也同樣兌現了。圖圖32 OpenAI o1 在訓練和推理階段算力資源的投入與模型性能的關系在訓練和推理階段算力資源的投入與模型性能的關系 資料來源:OpenAI 官網,東海證券研究所 (6)未來,)未來,GPT 系列與系列與 o1 為代表的深度推理為代表的深度推理系列系列模型或將互相模型或將互相補充。補充。相比 GPT-4o,o1 在具有挑戰性的推理密集型任務中都有更為出色的表現,GPT 系列類似于思維中的淺層、快速反應系統,能迅速處理日常生活中的直覺性反應和基礎認知任務,
84、有更好的多模態交互能力,更大的參數規模、更優質的訓練數據、優化后的模型架構是 GPT 系列模型的發展方向。而對于以 o1 為代表的深度推理系列模型來說,類似于思維中的邏輯性系統,更擅長復雜的分析和經過深思熟慮后的決策提供,需要更多的推理時間和大量的思維鏈分析過程,后020406080100120MMLUMATHGPQA DiamondOpenAI o1Gemini 2.0 Pro ExperimentalHunyuan-TurboSGPT-4oClaude 3.5 Sonnet證券研究報告證券研究報告 26/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深
85、度行業深度 續發展更注重后訓練階段的“思考模式”優化,以及推理階段更多的算力資源投入。這兩類模型相互補充,GPT 類模型可以作為 o1 類模型的基礎模型增強通識,o1 類模型可以為 GPT類模型生成高質量的推理數據,未來兩類模型或共同發展,相互促進。圖圖33 o1 模型相比模型相比 GPT-4o 在推理密集型任務上的改進在推理密集型任務上的改進 圖圖34 未來未來 GPT 系列與系列與 o1 系列模型或將收斂融合系列模型或將收斂融合 資料來源:OpenAI 官網,東海證券研究所 資料來源:量子位智庫,東海證券研究所 3.2.DeepSeek 創新性地實現了成本更低的訓練創新性地實現了成本更低的
86、訓練(1)DeepSeek 大模型的發布進一步帶動大模型的發布進一步帶動 AI 大模型熱潮。大模型熱潮。DeepSeek,全稱杭州深度求索人工智能基礎技術研究有限公司,由量化私募管理機構幻方量化成立,專注于開發先進的大語言模型和相關技術。DeepSeek 創始人為梁文峰,有豐富的電子信息和人工智能相關背景。2024 年 12 月 26 日,DeepSeek-V3 發布,訓練成本約為 GPT-4o 的 1/10,同時性能比肩頂尖閉源模型,DeepSeek-R1 于 2024 年 1 月發布,性能對標 OpenAI-o1 正式版。DeepSeek 的發布挑戰了純算力路徑,發布后海內外各大廠商爭相本
87、地部署 DeepSeek,云服務商也相繼入局,掀起 AI 云與端熱潮,算力芯片、服務器、算力云等產業鏈有望長期收益。圖圖35 DeepSeek 發展歷程以及重要模型發布節點發展歷程以及重要模型發布節點 資料來源:DeepSeek,東海證券研究所 (2)DeepSeek 大模型發布后僅用七天用戶增長一億,海內外頭部廠商紛紛入場布局。大模型發布后僅用七天用戶增長一億,海內外頭部廠商紛紛入場布局。相比 ChatGPT 先前兩個月的記錄,DeepSeek 在 DeepSeek-R1 發布后,僅用七天就實現了用戶增長一億的成績,遠超各大頭部 APP。其卓越的性能表現和開源特性,吸引了全球 AI開發者和海
88、內外頭部廠商布局,華為云與硅基流動聯合首發并上線基于華為云昇騰云服務的證券研究報告證券研究報告 27/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 DeepSeek R1/V3 推理服務,騰訊云則將 R1 大模型一鍵部署至高性能應用服務 HAI 上,開發者僅需 3 分鐘就能接入調用;海外 AI 芯片頭部廠商英偉達宣布 DeepSeek-R1 模型登陸NVIDIA NIM,AMD 宣布已將新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,針對 AI 推理進行了優化,云服務龍頭亞馬遜和微軟也紛紛接入 DeepS
89、eek-R1,共同推動 AI技術的迅速發展和應用普及。圖圖36 DeepSeek 用戶增長速度用戶增長速度 圖圖37 海內外接入海內外接入 DeepSeek 的廠商的廠商 資料來源:AI 產品榜,東海證券研究所 資料來源:MSN,東海證券研究所 (3)DeepSeek-V3 性能對齊海外領軍閉源模型,訓練成本和定價卻遠低于后者。性能對齊海外領軍閉源模型,訓練成本和定價卻遠低于后者。DeepSeek-V3 于 2024 年 12 月底發布,為開源自研 MoE 模型,共 671B 參數,激活 37B,在 14.8T token 上進行了預訓練。根據測試,DeepSeek-V3 的多項評測成績超越了
90、 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及Claude-3.5-Sonnet 不分伯仲。從 API 定價看,DeepSeek-V3 每百萬輸入 tokens 0.5 元(緩存命中)/2 元(緩存未命中),每百萬輸出 tokens 8 元,遠低于其他廠商的頭部大模型。從訓練成本看,根據官方的DeepSeek-V3 Technical Report,在預訓練階段,在每萬億個 token 上訓練 DeepSeek-V3 只需要 18 萬個 H800 GPU 小時,即在擁有 2048 個 H800 GPU的集群上需要
91、3.7 天。因此,預訓練階段是在不到兩個月的時間內完成的,成本為 266.4 萬個 GPU 小時。再加上 11.9 萬個 GPU 小時用于擴展上下文長度和 5000 個 GPU 小時的后訓練,DeepSeek-V3 的總訓練成本僅為 278.8 萬個 GPU 小時。假設 H800 GPU 的租賃價格為 2 美元/每 GPU 小時,那總訓練成本僅為 557.6 萬美元(上述成本僅包括 DeepSeek-V3 的官方訓練,不包括與先前研究、架構、算法、數據和消融實驗相關的成本)。與 GPT-4 相比,上述成本不到其 1/10,DeepSeek-V3 的發布驗證了 AI 大模型低成本訓練的商業可行性
92、。證券研究報告證券研究報告 28/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖38 DeepSeek-V3 多項評測能力與海內外頭部模型對比多項評測能力與海內外頭部模型對比 資料來源:DeepSeek,東海證券研究所(注:加粗字體為最高分)圖圖39 DeepSeek 模型性能與價格比處于最優范圍內模型性能與價格比處于最優范圍內 圖圖40 DeepSeek-V3 訓練成本訓練成本 資料來源:DeepSeek,東海證券研究所 資料來源:DeepSeek-V3 Technical Report,東海證券研究所 (4)DeepSeek-V3 創
93、新性的架構特點是創新性的架構特點是通過通過引入引入 MLA 實現實現高效推理,高效推理,通過通過DeepSeekMoE 實現成本更低的實現成本更低的訓練。訓練。1)多頭潛在注意力機制()多頭潛在注意力機制(Multi-Head Latent Attention,MLA)區別于)區別于 Transformer架構的多頭注意力(架構的多頭注意力(Multi-Head Attention,MHA)機制,顯著減少了鍵)機制,顯著減少了鍵-值緩存的內存占值緩存的內存占用。用。MHA 通過計算查詢(Query)、鍵(Key)和值(Value)矩陣之間的關系,使模型能夠關注輸入序列中的不同部分。然而,在自回
94、歸生成過程中,為了避免重復計算,需要維護一個鍵-值(KV)緩存,該緩存存儲了所有先前生成令牌的鍵和值矩陣,同時帶來了顯著的內存挑戰,制約了模型的實用性。為了解決該類問題,MLA 不直接存儲完整的鍵值矩陣,而是存儲一個維度更小的壓縮向量。在需要進行注意力計算時,再通過解壓縮重構出所需的鍵和證券研究報告證券研究報告 29/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 值。這種壓縮-解壓縮機制使得模型可以在顯著減少內存占用的同時,保持甚至提升性能。DeepSeek-V2 的技術報告顯示,MLA 使 KV 緩存減少了 93.3%,訓練成本節省了 42
95、.5%,生成吞吐量提高了 5.76 倍。2)DeepSeekMoE 的基本架構建立在的基本架構建立在 Transformer 框架之上,在前饋網絡(框架之上,在前饋網絡(FFN)層)層引入了創新的引入了創新的 MoE 機制。機制。與傳統 MoE 使用較粗粒度的專家劃分不同,DeepSeekMoE 采用了更細粒度的專家劃分方式,使每個專家能夠負責更具體的任務,從而提高模型的靈活性和表達能力。具體來說,DeepSeekMoE 的每個 MoE 層由 1 個共享專家和 256 個路由專家組成,每個 token 會激活 8 個路由專家。這種設計使得模型能夠在保持高性能的同時,顯著減少計算資源的消耗。不同
96、于傳統 MoE 中專家都是獨立的設計,DeepSeekMoE 的共享專家負責處理所有 token 的通用特征,而路由專家則根據 token 的具體特征進行動態分配。這種分工不僅減少了模型的冗余、提高了計算效率,還使得模型能夠更好地處理不同領域的任務。圖圖41 DeepSeek-V3 的的 MLA 和和 DeepSeekMoE 架構架構 資料來源:DeepSeek-V3 Technical Report,東海證券研究所 (5)DeepSeek-R1 性能對齊性能對齊 OpenAI-o1 正式版正式版。DeepSeek-R1 于 2025 年 1 月 20日發布,共 671B 參數,激活參數 37
97、B,在 DeepSeek-V3-Base 基礎上訓練而來。DeepSeek-R1 在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。證券研究報告證券研究報告 30/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖42 DeepSeek-R1 在數學、代碼、自然語言推理等任務上的性能表現在數學、代碼、自然語言推理等任務上的性能表現 資料來源:DeepSeek,東海證券研究所 (6)DeepSeek-R1 表明通過強化學習可以直接提
98、升推理能力,能夠在不依賴監督微調表明通過強化學習可以直接提升推理能力,能夠在不依賴監督微調的情況下實現強大的推理表現,同時蒸餾技術也能夠將大模型的推理能力轉移到更小的模型的情況下實現強大的推理表現,同時蒸餾技術也能夠將大模型的推理能力轉移到更小的模型上,提升它們的表現。上,提升它們的表現。1)DeepSeek-R1-Zero 通過強化學習訓練,展現了“自我驗證、自我反思”和“生成通過強化學習訓練,展現了“自我驗證、自我反思”和“生成長鏈推理”的能力,長鏈推理”的能力,DeepSeek-R1 在此基礎上做了改進,加入了冷啟動數據和多階段訓練在此基礎上做了改進,加入了冷啟動數據和多階段訓練流程,從
99、而進一步提升了推理能力并改善了可讀性。流程,從而進一步提升了推理能力并改善了可讀性。過去的大多數模型依靠大量的監督數據來提升模型性能,但監督數據的搜集耗時耗力,而 DeepSeek-R1-Zero 僅從基礎模型開始,在后訓練中通過純粹的強化學習(RL)過程進行自我進化。為了節省 RL 的訓練成本,R1-Zero 采用了組相對策略優化(Group Relative Policy Optimization,GPRO)方法,讓模型針對每個問題生成多個輸出,通過比較這些輸出的相對表現來調整策略。而在訓練時,獎勵模型(Reward Modeling)決定了模型優化的方向。R1-Zero 采用了包括準確性
100、獎勵和格式獎勵的基于規則的獎勵系統,而沒有采用基于神經網絡的獎勵模型,為了避免出現獎勵欺騙的情況。在自我進化的過程中,隨著推理運算時間的增加,模型解決復雜推理任務的能力也在不斷增強,此外還涌現出了“反思”等復雜行為,模型會重新審視和評估自己先前的步驟,還會自發地探索解決問題的其他方法。R1-Zero 雖然推理能力強,但存在推理過程可讀性差、語言混雜等問題,因此 DeepSeek-R1 在 R1-Zero 的基礎上引入了“冷啟動”策略和多階段訓練,冷啟動是指先用少量高質量的 CoT 數據對模型進行初步訓練,相當于給模型一個“熱身”,目標是讓模型既能保持強大的推理能力,又能生成清晰、用戶友好的回答
101、。證券研究報告證券研究報告 31/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖43 DeepSeek-R1-Zero 在訓練過程中的在訓練過程中的 AIME 準確性不斷上升準確性不斷上升 資料來源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,東海證券研究所 2)模型蒸餾技術是一種將知識從復雜的大型模型(教師模型)轉移到更小、更高效的)模型蒸餾技術是一種將知識從復雜的大型模型(教師模型)轉移到更小、更高效的模型(學生模型
102、)的方法,旨在保持性能的同時減少計算資源和存儲需求。模型(學生模型)的方法,旨在保持性能的同時減少計算資源和存儲需求。DeepSeek-R1 證明了較大模型的推理模式可以被蒸餾到較小的模型中,比在小模型上通過 RL 訓練的推理模式表現更好。DeepSeek 利用 DeepSeek-R1 生成的推理數據,對多個稠密模型進行了微調,結果表明,蒸餾后的小型稠密模型在基準測試中表現非常出色,其中 32B 和 70B 模型在多項性能上比肩 OpenAI o1-mini。證券研究報告證券研究報告 32/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖4
103、4 蒸餾后的小型模型蒸餾后的小型模型在數學、代碼、自然語言推理等任務上的性能表現在數學、代碼、自然語言推理等任務上的性能表現 資料來源:DeepSeek,東海證券研究所 3.3.AI 大模型產業鏈半導體相關重點廠商梳理大模型產業鏈半導體相關重點廠商梳理(1)根據大模型產業鏈)根據大模型產業鏈上游上游涉及到的半導體相關涉及到的半導體相關環節環節,我們將其主要劃分為,我們將其主要劃分為 AI 芯片芯片(云端與端側)(云端與端側)、存儲、光模塊、存儲、光模塊、PCB、服務器、服務器、電源、電源等等幾個板塊。幾個板塊。如下圖所示,AI 產業高速發展離不開 AI 服務器的基礎功能,AI 服務器產業鏈整體
104、包括上中下游,上游硬件部分是AI 產業構建的基礎,核心是 AI 服務器展開的相關零組件,隨著 AI 產業的高速發展,上游電子零部件板塊或將也高速增長。證券研究報告證券研究報告 33/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖45 AI 服務器產業鏈服務器產業鏈 資料來源:公開資料整理,東海證券研究所 (2)云端云端 AI 芯片指面向芯片指面向 AI 應用,針對應用,針對 AI 算法(如深度學習等)進行特殊加速設計的算法(如深度學習等)進行特殊加速設計的芯片。芯片。AI 芯片是大模型的“大腦”,提供算力支持,主要包括 GPU、FPGA、
105、ASIC 等。國內相關廠商包括寒武紀、海光信息、龍芯中科等。圖圖46 寒武紀寒武紀 2020-2024 年總營收和歸母凈利潤與各自同年總營收和歸母凈利潤與各自同比增速比增速 圖圖47 海光信息海光信息 2020-2024 年總營收和歸母凈利潤與各自年總營收和歸母凈利潤與各自同比增速同比增速 資料來源:Wind,東海證券研究所(注:2024 年為業績快報)資料來源:Wind,東海證券研究所 (3)端側)端側 AI 芯片芯片是指應用于是指應用于 AI 應用,如應用,如智能手機、筆記本電腦、智能攝像頭等各種智能手機、筆記本電腦、智能攝像頭等各種終端設備的芯片終端設備的芯片,核心特點包括低功耗、高算力
106、、低延遲和高集成度核心特點包括低功耗、高算力、低延遲和高集成度等。等。端側 AI 芯片能夠在設備本地完成復雜的 AI 任務,減少數據傳輸和云端計算的依賴,從而提升設備的智能化水平和用戶體驗,國內相關重點廠商包括恒玄科技、樂鑫科技、中科藍訊、晶晨股份、瑞芯微、全志科技、炬芯科技、國科微等。證券研究報告證券研究報告 34/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖48 恒玄科技恒玄科技 2020-2024 年總營收和歸母凈利潤與各自年總營收和歸母凈利潤與各自同比增速同比增速 圖圖49 樂鑫科技樂鑫科技 2020-2024 年總營收和歸母凈
107、利潤與各自年總營收和歸母凈利潤與各自同比增速同比增速 資料來源:Wind,東海證券研究所(注:2024 年為業績快報)資料來源:Wind,東海證券研究所 (4)存儲包括存儲模組和存儲芯片,包括存儲包括存儲模組和存儲芯片,包括 DRAM、NAND FLASH、HBM 等。等。AI 的發展由海量數據支撐,對數據處理提出了極高的要求,因而需要更大的內存去存儲更多的數據,國內相關重點廠商包括兆易創新、江波龍、佰維存儲、德明利、瀾起科技、東芯股份、聚辰股份、普冉股份、北京君正等。圖圖50 兆易創新兆易創新 2020 年年-2024Q1-Q3 總營收和歸母凈利總營收和歸母凈利潤與各自同比增速潤與各自同比增
108、速 圖圖51 瀾起科技瀾起科技 2020-2024 年總營收和歸母凈利潤與各自年總營收和歸母凈利潤與各自同比增速同比增速 資料來源:Wind,東海證券研究所 資料來源:Wind,東海證券研究所(注:2024 年為業績快報)(5)光模塊是進行光電和電光轉換的設備,由光電子器件(光發射組件和光接收組件)、光模塊是進行光電和電光轉換的設備,由光電子器件(光發射組件和光接收組件)、功能電路和光接口等組成。功能電路和光接口等組成。AI 大模型需要云廠商龐大的算力支持,而光通信網絡是算力網絡的重要基礎和堅實底座。光模塊在發送端把電信號轉換成光信號,通過光纖傳送后,接收端再將光信號轉換成電信號。國內相關重點
109、廠商包括中際旭創、天孚通信(光器件)、新易盛、光迅科技、源杰科技(光芯片)等。證券研究報告證券研究報告 35/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖52 中際旭創中際旭創 2020-2024 年總營收和歸母凈利潤與各自年總營收和歸母凈利潤與各自同比增速同比增速 圖圖53 天孚通信天孚通信 2020 年年-2024Q1-Q3 總營收和歸母凈利總營收和歸母凈利潤與各自同比增速潤與各自同比增速 資料來源:Wind,東海證券研究所(注:2024 年為業績快報)資料來源:Wind,東海證券研究所 (6)PCB 作為電子元器件的載體,提供電氣
110、互連和信號傳輸的功能。作為電子元器件的載體,提供電氣互連和信號傳輸的功能。在 AI 服務器中,PCB 需要處理大量的數據和高速信號傳輸,還需要承受高負載和高溫度環境,確保元器件的穩定運行,因此對層數、線寬、材料等有更高的要求。國內相關重點廠商包括鵬鼎控股、勝宏科技、深南電路、滬電股份、東山精密、景旺電子等。圖圖54 鵬鼎控股鵬鼎控股 2020-2024 年總營收和歸母凈利潤與各自年總營收和歸母凈利潤與各自同比增速同比增速 圖圖55 勝宏科技勝宏科技 2020-2024 年年總營收和歸母凈利潤與各自總營收和歸母凈利潤與各自同比增速同比增速 資料來源:Wind,東海證券研究所(注:2024 年為業
111、績快報)資料來源:Wind,東海證券研究所(注:2024 年為業績快報)(7)AI 服務器是大模型算力之源,服務器是大模型算力之源,AI 服務器通過集成服務器通過集成 GPU、FPGA 等加速器,能夠等加速器,能夠大幅提升計算速度,滿足大幅提升計算速度,滿足 AI 模型對大規模數據處理的需求。模型對大規模數據處理的需求。國內相關重點廠商包括浪潮信息、工業富聯、紫光股份等,服務器其中一個分支是液冷服務器,國內相關廠商包括中石科技、光迅科技、川環科技、國芯科技等。證券研究報告證券研究報告 36/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 圖圖5
112、6 浪潮信息浪潮信息 2020 年年-2024Q1-Q3 總營收和歸母凈利總營收和歸母凈利潤與各自同比增速潤與各自同比增速 圖圖57 工業富聯工業富聯 2020-2024 年總營收和歸母凈利潤與各自年總營收和歸母凈利潤與各自同比增速同比增速 資料來源:Wind,東海證券研究所 資料來源:Wind,東海證券研究所(注:2024 年為業績快報)(8)服務器電源是一種用于向計算機系統或網絡設備供電的設備,將交流電轉換為計)服務器電源是一種用于向計算機系統或網絡設備供電的設備,將交流電轉換為計算機所需的直流電。算機所需的直流電。隨著算力發展與芯片功耗的不斷提升,對高功率密度與轉化效率的服務器電源需求增
113、長,國內相關重點廠商包括麥格米特、光寶科技、中國長城、新雷能、歐陸通等。圖圖58 麥格米特麥格米特 2020 年年-2024Q1-Q3 總營收和歸母凈利總營收和歸母凈利潤與各自同比增速潤與各自同比增速 圖圖59 歐陸通歐陸通 2020 年年-2024Q1-Q3 總營收和歸母凈利潤總營收和歸母凈利潤與各自同比增速與各自同比增速 資料來源:Wind,東海證券研究所 資料來源:Wind,東海證券研究所 證券研究報告證券研究報告 37/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度 4.投資建議與投資建議與風險提示風險提示 4.1.投資建議投資建議 投
114、資建議:AI 時代已經來臨,長期建議關注充分受益中國 AI 產業高速發展及國產化比例提升的雙重紅利細分板塊。(1)云端)云端 AI 芯片關注芯片關注:寒武紀、海光信息、龍芯中科等;(2)端側)端側 AI 芯片關注芯片關注:恒玄科技、樂鑫科技、中科藍訊、晶晨股份、瑞芯微、全志科技、炬芯科技、國科微等;(3)存儲)存儲板塊板塊關注關注:關注兆易創新、江波龍、佰維存儲、德明利、瀾起科技、東芯股份、聚辰股份、普冉股份、北京君正等;(4)光模塊、光器件、光芯片關注:)光模塊、光器件、光芯片關注:中際旭創、天孚通信(光器件)、新易盛、光迅科技、源杰科技(光芯片)等;(5)PCB 關注:關注:鵬鼎控股、勝宏
115、科技、深南電路、滬電股份、東山精密、景旺電子等;(6)服務器(含液冷)關注:)服務器(含液冷)關注:浪潮信息、工業富聯、紫光股份、中石科技、光迅科技、川環科技、國芯科技等;(7)電源關注:)電源關注:麥格米特、光寶科技、中國長城、新雷能、歐陸通等。4.2.風險提示風險提示(1)AI 需求不及預期風險。需求不及預期風險。目前在大模型的刺激下,全球都在積極布局 AI 產業鏈,市場還處于不斷投資過程中,收益方式還需要看下游應用場景,消費者的接受意愿。如果下游需求不及預期,對產業的持續投資或將產生影響,從而影響產業鏈上下游的企業經營業績。(2)行業競爭過度風險。)行業競爭過度風險。隨著 AI 產業的大
116、力投資,不少創業公司也紛紛加入布局 AI產業,整個商業模式的行業壁壘相對較高,但全球巨型科技企業紛紛跟隨布局,過度的產業競爭或將造成企業經營壓力增大,一旦缺少持續性的資金投入,企業或將有經營業績風險,同時整個產業鏈或受到沖擊。(3)國際貿易政策的變化風險。)國際貿易政策的變化風險。AI產業中多個細分市場都需要全球先進科技產品支撐,是全球人類共同努力的成果。然而個別經濟體隨意更改國際貿易政策,或將導致部分核心產業鏈斷供,對全球其他經濟體的 AI 產業布局產生較大影響。證券研究報告證券研究報告 38/38 請務必仔細閱讀正文后的所有說明和聲明請務必仔細閱讀正文后的所有說明和聲明 行業深度行業深度
117、一、評級說明一、評級說明 評級評級 說明說明 市場指數評級 看多 未來 6 個月內滬深 300 指數上升幅度達到或超過 20%看平 未來 6 個月內滬深 300 指數波動幅度在-20%20%之間 看空 未來 6 個月內滬深 300 指數下跌幅度達到或超過 20%行業指數評級 超配 未來 6 個月內行業指數相對強于滬深 300 指數達到或超過 10%標配 未來 6 個月內行業指數相對滬深 300 指數在-10%10%之間 低配 未來 6 個月內行業指數相對弱于滬深 300 指數達到或超過 10%公司股票評級 買入 未來 6 個月內股價相對強于滬深 300 指數達到或超過 15%增持 未來 6 個
118、月內股價相對強于滬深 300 指數在 5%15%之間 中性 未來 6 個月內股價相對滬深 300 指數在-5%5%之間 減持 未來 6 個月內股價相對弱于滬深 300 指數 5%15%之間 賣出 未來 6 個月內股價相對弱于滬深 300 指數達到或超過 15%二、分析師聲明:二、分析師聲明:本報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,具備專業勝任能力,保證以專業嚴謹的研究方法和分析邏輯,采用合法合規的數據信息,審慎提出研究結論,獨立、客觀地出具本報告。本報告中準確反映了署名分析師的個人研究觀點和結論,不受任何第三方的授意或影響,其薪酬的任何組成部分無論是在過
119、去、現在及將來,均與其在本報告中所表述的具體建議或觀點無任何直接或間接的關系。署名分析師本人及直系親屬與本報告中涉及的內容不存在任何利益關系。三、免責聲明:三、免責聲明:本報告基于本公司研究所及研究人員認為合法合規的公開資料或實地調研的資料,但對這些信息的真實性、準確性和完整性不做任何保證。本報告僅反映研究人員個人出具本報告當時的分析和判斷,并不代表東海證券股份有限公司,或任何其附屬或聯營公司的立場,本公司可能發表其他與本報告所載資料不一致及有不同結論的報告。本報告可能因時間等因素的變化而變化從而導致與事實不完全一致,敬請關注本公司就同一主題所出具的相關后續研究報告及評論文章。在法律允許的情況
120、下,本公司的關聯機構可能會持有報告中涉及的公司所發行的證券并進行交易,并可能為這些公司正在提供或爭取提供多種金融服務。本報告僅供“東海證券股份有限公司”客戶、員工及經本公司許可的機構與個人閱讀和參考。在任何情況下,本報告中的信息和意見均不構成對任何機構和個人的投資建議,任何形式的保證證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效,本公司亦不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。本公司客戶如有任何疑問應當咨詢獨立財務顧問并獨自進行投資判斷。本報告版權歸“東海證券股份有限公司”所有,未經本公司書面授權,任何人不得對本報告進行任何形式的翻版、復制、刊登、發表或者引用。
121、四、資質聲明:四、資質聲明:東海證券股份有限公司是經中國證監會核準的合法證券經營機構,已經具備證券投資咨詢業務資格。我們歡迎社會監督并提醒廣大投資者,參與證券相關活動應當審慎選擇具有相當資質的證券經營機構,注意防范非法證券活動。上海上海 東海證券研究所東海證券研究所 地址:上海市浦東新區東方路1928號 東海證券大廈 座機:(8621)20333275 手機:18221959689 傳真:(8621)50585608 郵編:200125 北京北京 東海證券研究所東海證券研究所 地址:北京市西三環北路87號國際財經中心D座15F 座機:(8610)59707105 手機:18221959689 傳真:(8610)59707100 郵編:100089