《2025年DeepSeek背景、模型技術及其對AI行業的影響分析報告(43頁).pdf》由會員分享,可在線閱讀,更多相關《2025年DeepSeek背景、模型技術及其對AI行業的影響分析報告(43頁).pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、2 0 2 5 年深度行業分析研究報告5目錄目錄一、一、DeepSeek背景介紹背景介紹1.1、DeepSeek股權結構及創始人背景1.2、DeepSeek母公司幻方量化,早期確立AI戰略為后續出圈埋下伏筆1.3、DeepSeek重視年輕團隊且兼具深厚技術底蘊,薪酬對標字節跳動研發崗1.4、DeepSeek產品家族全梳理1.5、DeepSeek日活遠超同期ChatGPT,下載量霸榜全球140個市場移動應用榜首1.6、DeepSeek獲得海內外市場認可,中國AI產業首次步入引領位置二、二、DeepSeek模型家族技術詳解模型家族技術詳解2.1、DeepSeek模型家族技術創新框架總攬2.2、De
2、epSeek v3:性能對齊海外領軍閉源模型,DeepSeek2024年巔峰之作2.3、DeepSeek R1 Zero核心創新點RL(強化學習)替代SFT(有監督微調)2.4、DeepSeek R1:高質量冷啟動數據+多階段訓練,將強推理能力泛化2.5、開源大模型:打破OpenAI等閉源模型生態,提升世界對中國AI大模型認知三、三、DeepSeek對對AI應用的影響?應用的影響?3.1、DeepSeek打開低成本推理模型邊界,加速AI應用布局進程3.2、DeepSeek R1蒸餾賦予小模型高性能,端側AI迎來奇點時刻四四、DeepSeek對算力影響?對算力影響?4.1、DeepSeek V3
3、訓練中GPU成本558萬美元,對比海外成本降低4.2、DeepSeek或有約5萬Hopper GPU,訓練總成本或較高4.3、推理化:推理算力需求占比提升,GenAI云廠商有望受益一一、DeepSeekDeepSeek背景背景介紹介紹1.1、DeepSeek股權結構及創始人股權結構及創始人背景背景 DeepSeek DeepSeek是一家于是一家于20232023年成立的中國初創企業,創始人是年成立的中國初創企業,創始人是AIAI驅動量化對沖基金幻方量化的掌門人梁文鋒驅動量化對沖基金幻方量化的掌門人梁文鋒。從股權結構圖顯示,DeepSeek由四名自然人通過五層控股掌握100%股份(其中梁文鋒間
4、接持股比例83.29%,直接持股1%,累計84.2945%)。創始人梁文鋒出生于廣東湛江,浙江大學畢業,擁有信息與電子工程學系本科和碩士學位,創始人梁文鋒出生于廣東湛江,浙江大學畢業,擁有信息與電子工程學系本科和碩士學位,2008年起開始帶領團隊使用機器學習等技術探索全自動量化交易,2015年幻方量化正式成立。2021年,幻方量化的資產管理規模突破千億大關,躋身國內量化私募領域的“四大天王”之列。2023年梁文鋒宣布正式進軍通用人工智能領域,創辦DeepSeek,專注于做真正人類級別的人工智能。資料來源:商界觀察圖圖:DeepSeekDeepSeek股權股權結構結構圖圖:幻方創始人梁文峰幻方創
5、始人梁文峰(圖右圖右)1.2、DeepSeek母公司幻方量化母公司幻方量化,早期確立早期確立AI戰略為后續出圈埋下伏筆戰略為后續出圈埋下伏筆 母公司幻方量化確立以母公司幻方量化確立以AIAI為發展方向為發展方向。2016年,幻方量化第一個由深度學習算法模型生成的股票倉位上線實盤交易,使用GPU進行計算。隨后不久,該公司明確宣布AI為主要發展方向。量化投資全面量化投資全面AIAI化驅動囤卡需求化驅動囤卡需求,為后續蛻變埋下伏筆為后續蛻變埋下伏筆。復雜的模型計算需求使得單機訓練遭遇算力瓶頸,訓練需求和有限的計算資源產生矛盾,幻方需要解決算力受限難題。于是幻方在2019年成立了一家AI基礎研究公司,
6、并推出自研的“螢火一號”AI集群,搭載500塊顯卡。2021年,幻方又斥資10億元建設“螢火二號”,為AI研究提供算力支持?;梅皆跇嫿ˋI算力過程中的“囤卡”動作為它贏得了市場機會。作為國內早期的英偉達芯片大買家之一,2022年其用于科研支持的閑時算力高達1533萬GPU時,大大超越了后來很多大模型公司。圖圖:幻方量化發展幻方量化發展歷程歷程圖圖:幻方官網首頁標語幻方官網首頁標語,以以AIAI為核心發展為核心發展方向方向資料來源:公司官網,國海證券研究所1.3、DeepSeek重視年輕團隊且兼具深厚技術底蘊重視年輕團隊且兼具深厚技術底蘊,薪酬水平對標字節跳動薪酬水平對標字節跳動研發崗研發崗 團
7、隊以年輕化為主團隊以年輕化為主,具備深厚技術底蘊具備深厚技術底蘊。創始人梁文鋒曾在36氪的采訪中,給出了DeepSeek的員工畫像:“都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人?!弊?023年5月誕生以來,DeepSeek始終維持約150人的精英團隊,推行無職級界限、高度扁平化的文化,以此激發研究靈感,高效調配資源。早在2022年,幻方量化便著手為DeepSeek籌建AI團隊,至2023年5月DeepSeek正式成立時,團隊已匯聚近百名卓越工程師。如今,即便不計杭州的基礎設施團隊,北京團隊亦擁有百名工程師。技術報告的致謝欄揭示,參與DeepSeek V
8、3研發的工程師陣容,已壯大至139人。團隊薪酬水平對標字節跳動研發崗位團隊薪酬水平對標字節跳動研發崗位,且不限制人才的算力使用且不限制人才的算力使用。據36氪資料顯示,DeepSeek薪酬水平對標的字節研發,“根據人才能拿到的字節offer,再往上加價”;同時只要梁文鋒判斷技術提案有潛力,DeepSeek給人才的算力,“不限”。圖圖:DeepSeekDeepSeek公開招聘職位信息公開招聘職位信息匯總匯總資料來源:華爾街見聞,國海證券研究所職位名稱面向群體申請要求薪酬水平深度學習研究員校招&實習熟練掌握至少兩種編程語言;在國際頂會或期刊發表相關論文;知名比賽成績8-11萬元/月,一年14薪資深
9、ui設計師經驗不限,本科優秀的藝術類教育背景;有互聯網或科技公司UI設計工作經驗;4-7萬元/月,一年14薪深度學習研發工程師在校/應屆,本科較強的工程能力;工程能力;知名比賽成績4-7萬元/月,一年14薪數據架構工程師在校/應屆,本科有搜索、推薦、廣告等業務數據的處理經驗;有 規模中文網頁數據收集和清洗經驗者優先4.5-6.5萬元/月,一年14薪全棧開發工程師在校/應屆,本科對主流的開源軟件有深入的了解,并且對此有做出貢獻2.5-5萬元/月,一年14薪客戶端研發工程師在校/應屆,本科計算機或相關專業優先;有獨立開發App經驗,有優秀開源項目者優先。2-4萬元/月,一年14薪深度學習實習生計算
10、機及相關專業研究生,特別優秀的本科生;具有扎實的編程功底;有頂級AI會議論文發表經驗或開源項目貢獻經驗者優先500元/天,4天一周,6個月;非北京地區學生來京實習有租房補助3000元/月1.4、DeepSeek產品家族全產品家族全梳理梳理資料來源:新浪人工智能,國海證券研究所模型類別日期名稱內容對標LLM2023年11月2日DeepSeek Coder模型包括 1B,7B,33B 多種尺寸,開源內容包含 Base 模型和指令調優模型。Meta的CodeLlama是業內標桿,但DeepSeek Coder展示出多方位領先的架勢。2024年6月17日DeepSeek Coder V2 代碼大模型,
11、提供了 236B 和 16B 兩種版本。DeepSeek Coder V2 的 API 服務也同步上線,價格依舊是1元/百萬輸入,2元/百萬輸出。能力超越了當時最先進的閉源模型 GPT-4-Turbo。2023年11月29日DeepSeek LLM 67B首款通用大語言模型,且同步開源了 7B 和 67B 兩種不同規模的模型,甚至將模型訓練過程中產生的 9 個 checkpoints 也一并公開,Meta的同級別模型 LLaMA2 70B,并在近20個中英文的公開評測榜單上表現更佳。2024年3月11日DeepSeek-VL多模態 AI 技術上的初步嘗試,尺寸為 7B 與1.3B,模型和技術論
12、文同步開源。2024年5月DeepSeek-V2通用 MoE 大模型的開源發布,DeepSeek-V2 使用了 MLA(多頭潛在注意力機制),將模型的顯存占用率降低至傳統 MHA 的 5%-13%對標 GPT-4-Turbo,而 API 價格只有后者的 1/702024年9月6日DeepSeek-V2.5 融合模型Chat模型聚焦通用對話能力,Code模型聚焦代碼處理能力合二為一,更好的對齊了人類偏好,2024年12月10日DeepSeek-V2.5-1210DeepSeek V2 系列收官之作,全面提升了包括數學、代碼、寫作、角色扮演等在內的多方能力。2024年12月26日DeepSeek-
13、V3開源發布,訓練成本估算只有 550 萬美金性能上全面對標海外領軍閉源模型,生成速度也大幅提升。推理模型2024年2月5日DeepSeekMat數學推理模型,僅有 7B 參數數學推理能力上直逼 GPT-42024年8月16日DeepSeek-Prover-V1.5數學定理證明模型在高中和大學數學定理證明測試中,均超越了多款知名的開源模型。2024年11月20日DeepSeek-R1-Lite推理模型,為之后 V3 的后訓練,提供了足量的合成數據。媲美 o1-preview2025年1月20日DeepSeek-R1 發布并開源,開放了思維鏈輸出功能,將模型開源 License 統一變更為 MI
14、T 許可證,并明確用戶協議允許“模型蒸餾”。在性能上全面對齊 OpenAI o1 正式版多模態模型2023年12月18日DreamCraft3D文生 3D 模型,可從一句話生成高質量的三維模型,實現了 AIGC 從 2D 平面到 3D 立體空間的跨越。2024年12月13日DeepSeek-VL2多模態大模型,采用了 MoE 架構,視覺能力得到了顯著提升,有 3B、16B 和 27B 三種尺寸,在各項指標上極具優勢。2025年1月27日DeepSeek Janus-Pro 開源發布的多模態模型。架構開源2024年1月11日DeepSeekMoE開源了國內首個 MoE(混合專家架構)大模型 De
15、epSeekMoE:全新架構,支持中英,免費商用,在 2B、16B、145B 等多個尺度上均領先被普遍認為是 OpenAI GPT-4 性能突破的關鍵所在本報告來源于三個皮匠報告站(),由用戶Id:93117下載,文檔Id:612293,下載日期:2025-02-181.4.1、DeepSeek V3性能位居全球領先水平性能位居全球領先水平,代碼代碼/數學數學/中文能力測試表現中文能力測試表現優異優異 DeepSeek-V3 DeepSeek-V3 為自研為自研 MoE MoE 模型,模型,671B 671B 參數,激活參數,激活 37B 37B,在,在 14.8Ttoken14.8Ttoke
16、n上進行了預訓練。上進行了預訓練。V3多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。在具體的測試集上,DeepSeek-V3在知識類任務上接近當前表現最好的模型 Claude-3.5-Sonnet-1022;長文本/代碼/數學/中文能力上均處于世界一流模型位置。資料來源:DeepSeek官方公眾號圖圖:DeepSeek-V3DeepSeek-V3對比領域開源對比領域開源/閉源閉源模型模型圖圖:DeepSeek-V3DeepSeek-V3在英文在英文、
17、代碼代碼、數學領域表現數學領域表現優異優異1.4.2、DeepSeek-R1性能對標性能對標OpenAI o1正式版正式版,實現發布即實現發布即上線上線 DeepSeek-R1 DeepSeek-R1性能比較性能比較OpenAI-o1OpenAI-o1。DeepSeek-R1 在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。DeepSeek R1DeepSeek R1同步登錄同步登錄DeepSeekDeepSeek官網或官方官網或官方AppApp。網頁或者app端打開“深度思考”
18、模式,即可調用最新版 DeepSeek-R1 完成各類推理任務。開放的許可證和用戶協議開放的許可證和用戶協議。DeepSeekDeepSeek在發布并開源 R1 的同時,同步在協議授權層面也進行了如下調整:1 1)模型開源模型開源 License License 統一使用統一使用 MITMIT,開源倉庫(包括模型權重)統一采用標準化、寬松的 MIT License,完全開源,不限制商用,無需申請。2 2)產品協議明確可產品協議明確可“模型蒸餾模型蒸餾”;為了進一步促進技術的開源和共享,支持用戶進行“模型蒸餾”,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。資料來源:DeepSeek
19、官方公眾號圖圖:DeepSeek-R1DeepSeek-R1性能比肩性能比肩 OpenAI o1 OpenAI o1 正式版正式版圖圖:DeepSeek-R1DeepSeek-R1發布即發布即上線上線1.4.2、DeepSeek-V3/R1均具備領先的性價比均具備領先的性價比優勢優勢 DeepSeek DeepSeek 系列模型均極具定價優勢系列模型均極具定價優勢。DeepSeek V3DeepSeek V3模型定價模型定價:隨著性能更強、速度更快的 DeepSeek-V3 更新上線,模型API服務定價也將調整為每百萬輸入tokens 0.5 元(緩存命中)/2 元(緩存未命中),每百萬輸出t
20、okens 8元。DeepSeek-R1DeepSeek-R1百萬百萬tokenstokens輸出輸出價格約為價格約為o1o1的的1/271/27。DeepSeek-R1 API 服務定價為每百萬輸入 tokens 1 元(緩存命中)/4 元(緩存未命中),每百萬輸出 tokens 16 元。對比OpenAI-o1每百萬輸入tokens為55元(緩存命中),百萬tokens輸出為438元。資料來源:DeepSeek官方公眾號圖圖:DeepSeek-V3 APIDeepSeek-V3 API定價對比海內外主流定價對比海內外主流模型模型圖圖:DeepSeek-R1DeepSeek-R1定價對比同為
21、推理模型的定價對比同為推理模型的o1o1系列系列1.5、DeepSeek日活遠超同期日活遠超同期ChatGPT,下載量霸榜全球下載量霸榜全球140個市場移動應用榜個市場移動應用榜首首 DeepSeek DeepSeek遠超同期遠超同期ChatGPTChatGPT,AIAI格局或迎來重塑格局或迎來重塑。2025年1月15日,DeepSeek 官方 App 正式發布,并在 iOS/Android 各大應用市場全面上線。數據顯示,DeepSeek在上線18天內達到日活躍用戶1500萬的成就,相較之下,同期ChatGPT則耗費244天才實現相同日活;2月4日,上線20天后日活突破2000萬,創下又一個
22、新紀錄。DeepSeek在發布的前18天內累計下載量達到1600萬次,峰值日下載量高達500萬次,幾乎是ChatGPT同期900萬次下載量的兩倍。此外,DeepSeek在全球140個市場中的移動應用下載量排行榜上位居榜首。圖圖:DeepSeekDeepSeek對話對話助手助手圖圖:DeepSeekDeepSeek霸榜下載榜榜首霸榜下載榜榜首 資料來源:公司官網,蘋果APP Store,Sensor Tower圖圖:DeepSeekDeepSeek成全球增速最快的成全球增速最快的AIAI應用應用1.6、DeepSeek獲得海內外市場認可獲得海內外市場認可,中國中國AIAI產業首次步入引領位置產業
23、首次步入引領位置 DeepSeek DeepSeek驚艷海外市場驚艷海外市場,中國中國AIAI產業首次步入引領位置產業首次步入引領位置。英偉達表示英偉達表示,DeepSeek為推理、數學和編碼等任務提供了“最先進的推理能力”“高推理效率”以及“領先的準確性”。MetaMeta首席首席AIAI科學家科學家Yann LecunYann Lecun表示表示“DeepSeek-R1面世與其說意味著中國公司在AI領域正在超越美國公司,不如說意味著開源大模型正在超越閉源?!監penAI首席執行官Sam Altman首次承認OpenAI的閉源策略“站在了歷史錯誤的一邊”。微軟COE納德拉表示,公司的Deep
24、SeekR1模型展現了真正的創新力。國內黑神話制作人悟空馮冀表示,DeepSeek 可能是個國運級別的科技成果。圖圖:Sam AltmanSam Altman評價評價DeepSeekDeepSeek圖:黑悟空神話圖:黑悟空神話制作人評價制作人評價DeepSeekDeepSeek資料來源:澎湃新聞、IT之家1.7、微軟微軟/英偉達英偉達/亞馬遜亞馬遜/騰訊騰訊/華為等一眾華為等一眾科技巨頭擁抱科技巨頭擁抱DeepSeek 微軟、英偉達、亞馬遜、英特爾、微軟、英偉達、亞馬遜、英特爾、AMDAMD等科技巨頭陸續上線等科技巨頭陸續上線DeepSeekDeepSeek模型服務模型服務。1)1 月 30
25、日,英偉達宣布DeepSeek-R1可作為 NVIDIA NIM 微服務預覽版使用。2)1月,DeepSeek-R1 模型被納入微軟平臺 Azure AI Foundry 和 GitHub 的模型目錄,開發者將可以在Copilot+PC上本地運行 DeepSeek-R1 精簡模型,以及在Windows上的 GPU 生態系統中運行,此外還宣布將 DeepSeek-R1部署在云服務Azure上。3)AWS(亞馬遜云科技)宣布,用戶可以在Amazon Bedrock 和Amazon SageMaker AI兩大AI服務平臺上部署DeepSeek-R1模型。4)Perplexity 宣布接入了 Dee
26、pSeek 模型,將其與 OpenAI 的 GPT-o1 和 Anthropic 的 Claude-3.5 并列作為高性能選項。5)華為:已上線基于其云服務的DeepSeek-R1相關服務;6)騰訊:DeepSeek-R1大模型可一鍵部署至騰訊云HAI上,開發者僅需3分鐘就能接入調用。7)百度:DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平臺上架;8)阿里:阿里云PAI Model Gallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖圖:英偉達上線英偉達上線DeepSeekDeepSeek圖:微軟宣布接入圖:微軟宣布接入DeepSeekD
27、eepSeek資料來源:英偉達、微軟二二、DeepSeekDeepSeek模型模型家族技術家族技術詳解詳解2.1、DeepSeek模型模型家族技術創新框架家族技術創新框架總攬總攬資料來源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,DeepSeek-V3 Technical Report,國海證券研究所MoE架構模型核心創新1、多頭潛在注意力(MLA)使用低秩聯合壓縮方法減少注意力計算的緩存需求,同時保持多頭注意力的性能。2、混合專家架構(DeepSeekMoE)細粒度專家分
28、割共享專家隔離輔助損失優化的專家負載平衡策略。3、多 Token 預測目標(MTP)擴展模型在每個位置預測多個未來 token 的能力,提高訓練數據效率。4、DualPipe算法。5、支持 FP8 混合精度訓練。DeepSeek V3DeepSeek V3以V3作為基礎模型,純強化學習替代有監督微調核心創新1、強化學習算法:使用 GRPO框架,通過群體獎勵優化策略模型。獎勵設計包括準確性獎勵和格式獎勵。2、自我演化與頓悟時刻:模型通過 RL 自動學習復雜的推理行為,如自我驗證和反思。隨著訓練過程的深入,模型逐步提升了復雜任務的解答能力,并在推理任務上顯現突破性的性能提升。DeepSeek R1
29、 DeepSeek R1 ZeroZero以V3作為基礎模型,結合冷啟動數據的多階段訓練核心創新1、冷啟動數據引入:從零開始的 RL 容易導致初期性能不穩定,為此設計了包含高質量推理鏈的冷啟動數據集。該數據提高了模型的可讀性和訓練初期的穩定性。2、推理導向的強化學習:通過多輪 RL,進一步優化模型在數學、編程等推理密集型任務中的表現。3、監督微調與拒絕采樣:使用RL檢查點生成額外的推理和非推理任務數據,進一步微調模型。4、全場景強化學習:在最終階段結合多種獎勵信號,提升模型的有用性和安全性。DeepSeek R1DeepSeek R12.2.1、MLA(多頭潛在注意力機制多頭潛在注意力機制):
30、):顯著顯著節省計算資源及內存節省計算資源及內存占用占用 MLA MLA從傳統的從傳統的MHAMHA(多頭注意力機制多頭注意力機制)出發出發,MHAMHA通過并行通過并行運行多個運行多個Self-AttentionSelf-Attention層并綜合其結果,能夠同時捕捉輸入序層并綜合其結果,能夠同時捕捉輸入序列在不同子空間中的信息,從而增強模型的表達能力列在不同子空間中的信息,從而增強模型的表達能力。通過將輸入的查詢、鍵和值矩陣分割成多個頭,并在每個頭中獨立計算注意力,再將這些頭的輸出拼接線性變換,從而實現在不同表示子空間中同時捕獲和整合多種交互信息,提升模型的表達能力。處理長序列時處理長序列
31、時MHAMHA會面臨計算和內存效率上的局限性會面臨計算和內存效率上的局限性,MLAMLA顯顯著降低計算及內存占用問題著降低計算及內存占用問題。MLA的核心思想則是使用低秩分解(LoRA)來近似Key和Value的投影,以在推理期間減少鍵值緩存(KV cache),顯著降低計算和內存占用的復雜度。資料來源:DeepSeek-V3 Technical Report圖圖:DeepSeek V3DeepSeek V3的創新的創新架構架構2.2.2、DeepSeekMoE架構以及創新性負載均衡架構以及創新性負載均衡策略策略 MoE MoE架構架構:傳統MoE架構的主要優勢是利用稀疏激活的性質,將大模型拆
32、解成若干功能模塊,每次計算僅激活其中一小部分,而保持其余模塊不被使用,從而大大降低了模型的計算與學習成本,能夠在同等計算量的情況下產生性能優勢。DeepSeekMoE DeepSeekMoE在傳統在傳統MoEMoE架構之上架構之上,更新了兩個主要的策略更新了兩個主要的策略:1 1)細粒度專家分割細粒度專家分割:在保持模型參數和計算成本一致的情況下,用更精細的顆粒度對專家進行劃分,更精細的專家分割使得激活的專家能夠以更靈活和適應性更強的方式進行組合;2 2)共享專家隔離共享專家隔離:采用傳統路由策略時,分配給不同專家的token可能需要一些共同的知識或信息,因此多個專家可能會有參數冗余。專門的共
33、享專家致力于捕獲和整合不同上下文中的共同知識,有助于構建一個具有更多專業專家且參數更高效的模型。負載均衡負載均衡:MoE架構下容易產生每次都由少數幾個專家處理所有tokens的情況,而其余大量專家處于閑置狀態,此外,若不同專家分布在不同計算設備上,同樣會造成計算資源浪費以及模型能力局限;負載均衡則類似一個公平的“裁判”,鼓勵專家的選擇趨于均衡,避免出現上述專家激活不均衡的現象。DeepSeek在專家級的負載均衡外,提出了設備級的負載均衡,確保了跨設備的負載均衡,大幅提升計算效率,緩解計算瓶頸。圖圖:DeepSeekMoEDeepSeekMoE對比傳統對比傳統MoEMoE架構架構圖圖:MoEMo
34、E架構理解架構理解框架框架資料來源:DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models、量子位2.2.3、MTP(多多token預測預測)大幅提升模型大幅提升模型性能性能MTPMTP顯著提升模型性能顯著提升模型性能。訓練過程訓練過程:傳統語言模型一次只預測一個token的范式。它就像是讓模型從一字一句地朗讀,進化為整句整段地理解和生成。在訓練過程中,模型不再局限于預測序列中的下一個token,而是學會同時預測多個連續位置的token。這種并行預測機制不僅提高了訓練效率,
35、還讓模型能夠更好地捕捉token之間的依賴關系。在保持輸出質量的同時,模型整體性能提升2-3%。推理階段推理階段:MTP的優勢更加明顯。傳統模型生成文本時就像是在一筆一劃地寫字,而MTP則像是提前打草稿,可以同時生成多個token。通過創新的推測解碼機制,模型能夠基于當前上下文同時預測多個可能的token序列。即使某些預測不準確需要回退,整體效率仍然顯著提升。這種并行生成機制使推理速度提升了1.8倍,還顯著降低了計算開銷。資料來源:DeepSeek-V3 Technical Report圖圖:MTPMTP架構架構2.2.4、DeepSeek-FP8混合精度訓練:實現更高的計算效率混合精度訓練:
36、實現更高的計算效率DeepSeek V3DeepSeek V3采用了采用了FP8FP8混合精度訓練框架?;旌暇扔柧毧蚣?。在訓練過程中,大部分核心計算內核均采用FP8精度實現。例如,在前向傳播、激活反向傳播和權重反向傳播中,輸入數據均使用FP8格式,而輸出結果則使用BF16或FP32格式。這種設計使得計算速度相較于原始BF16方法提升一倍。FP8格式是一種低精度的數據格式,具有較小的存儲空間和計算開銷。通過使用通過使用FP8FP8格式,格式,DeepSeekDeepSeek能夠在有限的計算資源下,實現更高的計算效率。能夠在有限的計算資源下,實現更高的計算效率。例如,在處理大規模數據集時,FP8
37、格式可以顯著減少顯存的占用,從而提高模型的訓練速度。圖圖:具有具有 FP8 FP8 數據格式的整體混合精度框架數據格式的整體混合精度框架資料來源:DeepSeek-V3 Technical Report,NVIDIA英偉達企業解決方案公眾號圖圖:多種精度數據類型結構多種精度數據類型結構2.2.5、DeepSeek-DualPipe算法:減少流水線氣泡,提升算法:減少流水線氣泡,提升GPU利用率利用率DeepSeek-V3 DeepSeek-V3 采用了一種名為采用了一種名為DualPipeDualPipe的創新流水線并行策略。的創新流水線并行策略。與傳統的單向流水線(如 1F1B)不同,Dua
38、lPipe 采用雙向流水線設計,即同時從流水線的兩端饋送 micro-batch。這種設計可以顯著減少流水線氣泡這種設計可以顯著減少流水線氣泡(Pipeline Bubble)(Pipeline Bubble),提,提高高 GPU GPU 利用率。利用率。DualPipe 還將每個 micro-batch 進一步劃分為更小的 chunk,并對每個 chunk 的計算和通信進行精細的調度。隨后將一個 chunk 劃分為 attention、all-to-all dispatch、MLP 和 all-to-all combine 等四個組成部分,并通過精細的調度策略,并通過精細的調度策略,使得計算
39、和通信可以高度重疊。使得計算和通信可以高度重疊。圖圖:DualPipeDualPipe性能優越性能優越圖圖:DualPipeDualPipe示意圖示意圖資料來源:DeepSeek-V3 Technical ReportChunk拆分DualPipe8 個 PP rank 和 20 個 micro-batch 的 DualPipe 調度示例DualPipe 在流水線氣泡數量和激活內存開銷方面均優于 1F1B 和 ZeroBubble 等現有方法2.2.6、英偉達英偉達PTX:位于:位于CUDA與機器代碼之間,實現細粒度控制與性能優化與機器代碼之間,實現細粒度控制與性能優化英偉達英偉達PTXPTX
40、(并行線程執行)是專門為其(并行線程執行)是專門為其GPUGPU設計的中間指令集架構,設計的中間指令集架構,位于高級GPU編程語言(如CUDA C/C+或其他語言前端)和低級機器代碼(流處理匯編或SASS)之間。PTX是一種接近底層的指令集架構,將GPU呈現為數據并行計算設備,因此能夠實現寄存器分配、線程/線程束級別調整等細粒度優化,這些是CUDA C/C+等語言無法實現的。DeepSeek V3DeepSeek V3采用定制的采用定制的 PTX PTX(并行線程執行)指令并自動調整通信塊大小,這大大減少了(并行線程執行)指令并自動調整通信塊大小,這大大減少了 L2 L2 緩存的使用和對其他緩
41、存的使用和對其他 SM SM 的的干擾。干擾。PTX PTX 允許對允許對 GPU GPU 硬件進行細粒度控制,這在特定場景下可以帶來更好的性能。硬件進行細粒度控制,這在特定場景下可以帶來更好的性能。圖圖:C+C+與與PTXPTX代碼的區別代碼的區別圖:圖:英偉達英偉達PTXPTX是專門為其是專門為其GPUGPU設計的中間指令集架構設計的中間指令集架構資料來源:新智元,量子位公眾號2.3、DeepSeek R1 Zero核心創新點核心創新點RL(強化學習強化學習)替代替代SFT(有監督微調有監督微調)DeepSeek DeepSeek探索探索LLMLLM在沒有任何監督數據的情況下發力推理能力的
42、潛力在沒有任何監督數據的情況下發力推理能力的潛力,通過純通過純RLRL(強化學習強化學習)的過程實現自我進化的過程實現自我進化。具體來說,DS使用 DeepSeek-V3-Base 作為基礎模型,并使用GRPO(群體相對策略優化)作為RL框架來提高模型在推理中的性能。在訓練過程中,DeepSeek-R1-Zero自然而然地出現了許多強大而有趣的推理行為。經過數千次經過數千次 RL RL 步驟后,步驟后,DeepSeekDeepSeek-R1-Zero-R1-Zero 在推理基準測試中表現出卓越的性能。在推理基準測試中表現出卓越的性能。例如,AIME 2024 的 pass1 分數從15.6%增
43、加到 71.0%,在多數投票的情況下,分數進一步提高到86.7%,與OpenAI-o1-0912的性能相當圖圖:R1-ZeroR1-Zero在不同測試基準下超過在不同測試基準下超過o1minio1mini甚至比肩甚至比肩o1o1的的水平水平圖圖:隨時間推移隨時間推移DSDS模型性能顯著模型性能顯著提升提升資料來源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning2.3.1、DeepSeek強化學習核心框架強化學習核心框架GRPO(群體相對策略優化群體相對策略優化)GRPO GRPO
44、相對相對PPOPPO節省了與策略模型規模相當的價值模型節省了與策略模型規模相當的價值模型,大幅縮減模型訓練成本大幅縮減模型訓練成本。傳統強化學習更多使用PPO(近端策略優化),PPO中有3個模型,分別是參考模型(reference model)、獎勵模型(reward model)、價值模型(value model),參考模型作為穩定參照,與策略模型的輸出作對比;獎勵模型根據策略模型的輸出效果給出量化的獎勵值,價值模型則根據對策略模型的每個輸出預測未來能獲得的累計獎勵期望。ppo中的價值模型規模與策略模型相當,由此帶來巨大的內存和計算負擔。GRPO(群里相對策略優化)中省略了價值模型,采用基于
45、組的獎勵歸一化策略,簡言之就是策略模型根據輸入q得到輸出o(1,2,3),再計算各自的獎勵值r(1,2,3),而后不經過價值模型,而是制定一組規則,評判組間價值獎勵值的相對關系,進而讓策略模型以更好的方式輸出。圖圖:GRPOGRPO相對傳統相對傳統PPOPPO強化學習方式強化學習方式對比對比資料來源:AWS、DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning圖圖:GRPOGRPO核心方法核心方法詳解詳解2.3.2、強化學習框架下的強化學習框架下的“頓悟頓悟”時刻時刻,模型思維能力躍升
46、的模型思維能力躍升的關鍵關鍵 模型訓練過程中會迎來頓悟時刻模型訓練過程中會迎來頓悟時刻。引用DeepSeek相關論文中的表述,GRPO強化學習框架下,不是人類教模型如何解決問題,而僅僅為其提供正確的激勵措施,模型會自主開發高級問題解決策略,模型訓練過程中會出現“Aha moment”,這表示模型意識到了更好的解決辦法并重新評估,為問題分配更多思考時間。這些頓悟時刻是模型思維能力躍升的關鍵這些頓悟時刻是模型思維能力躍升的關鍵。據DeepSeek的研究,模型的進步并非均勻漸進的。在強化學習過程中,響應長度會出現突然的顯著增長,這些跳躍點往往伴隨著解題策略的質變。這種模式酷似人類在長期思考后的突然頓
47、悟,暗示著某種深層的認知突破。圖圖:GRPOGRPO相對傳統相對傳統PPOPPO強化學習方式強化學習方式對比對比u例如模型在解決這個例如模型在解決這個 a-(a+x)=x 的問題時的問題時,模型突然模型突然停下來說停下來說Wait,wait.Wait.Thats an aha moment I can flag here(等等、等等、這是個值得標記的啊哈時刻),隨后(等等、等等、這是個值得標記的啊哈時刻),隨后重新審視了整個解題過程。這種類似人類頓悟的行為完全是重新審視了整個解題過程。這種類似人類頓悟的行為完全是自發產生的,而不是預先設定的。自發產生的,而不是預先設定的。圖圖:強化學習過程中強
48、化學習過程中,模型會出現跳躍點模型會出現跳躍點,這就是頓悟這就是頓悟時刻時刻資料來源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning2.4、DeepSeek R1:高質量冷啟動數據高質量冷啟動數據+多階段訓練多階段訓練,將強推理能力將強推理能力泛化泛化 純強化學習后出來的DeepSeek R1 zero存在可讀性差以及語言混亂等問題,主要因其全通過獎懲信號來優化其行為,沒有任何人類示范的標準答案作為參考,因此DeepSeek團隊使用冷啟動+多階段訓練推出DeepSeek R1模型
49、。具體訓練步驟:1 1)高質量冷啟動數據高質量冷啟動數據:與DeepSeek R1 zero同理,以DeepSeek v3 base作為強化學習的起點,但為了克服可讀性差的問題,選擇可讀性更強的cot(長思維鏈)數據作為冷啟動數據,包括以可讀格式收集DeepSeek-R1 Zero輸出,并通過人工注釋者進行后處理來提煉結果。2 2)面向推理的強化學習面向推理的強化學習,這與DeepSeek R1 zero的強化學習過程相同,但是在RL期間引入語言一致性獎勵,雖然語言對齊可能會造成一定的性能損失,但是提高了可讀性。3 3)抑制采樣和監督微調抑制采樣和監督微調,拒絕采用指模型訓練過程中生成的一些不
50、符合特定標準或質量要求的樣本數據進行舍棄,同時選取了v3的SFT數據集一部分作為微調數據。4 4)全場景強化學習全場景強化學習,屬于一個二級強化學習階段,目的是與人類偏好保持一致。圖圖:DeepSeek R1 DeepSeek R1 模型訓練模型訓練過程過程圖圖:DeepSeek R1DeepSeek R1與其他模型的性能與其他模型的性能對比對比資料來源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning、澎湃新聞2.5、開源大模型:打破開源大模型:打破OpenAI等閉源模型生態,等
51、閉源模型生態,提升世界對中國提升世界對中國AI大模型認知大模型認知開源即代碼層面開源,可以調用與進行二次開發。開源免費調用有助于先行占據市場份額,成為規則制定者,率先拓展生態粘性。開源免費調用有助于先行占據市場份額,成為規則制定者,率先拓展生態粘性。如,谷歌將安卓開源,獲得了全球80%的移動手機端市場份額,同時也覆蓋電視、汽車等使用場景。DeepSeek V3DeepSeek V3與與R1R1模型實現了開源,采用模型實現了開源,采用MITMIT協議。協議。這產生多方面影響:對大模型發展:對大模型發展:這提升了世界對中國AI大模型能力的認知,一定程度打破了OpenAI與Anthropic等高級閉
52、源模型的封閉生態。DeepSeek R1在多個測試指標中對標OpenAI o1,通過模型開源,也將大模型平均水平提升至類OpenAI o1等級。對下游生態:對下游生態:優質的開源模型可更好用于垂類場景,即使用者針對自身需求蒸餾,或用自有數據訓練,從而適合具體下游場景;此外,模型訓推成本降低,將帶來使用場景的普及,帶動AIGC、端側等供給和需求。圖圖:DeepSeekMoEDeepSeekMoE對比傳統對比傳統MoEMoE架構架構圖圖:開源許可證協議標準開源許可證協議標準資料來源:DeepSeek官網,51TCO,國海證券研究所三三、DeepSeekDeepSeek對對AIAI應用的影響應用的影
53、響?3.1、DeepSeek打開低成本推理模型邊界打開低成本推理模型邊界,加速加速AI應用布局進程應用布局進程核心觀點核心觀點:DeepSeekDeepSeek在推動降本在推動降本、強推理三大層面驅動下強推理三大層面驅動下,有望加速有望加速AIAI應用普及度迎來跨越式提升應用普及度迎來跨越式提升。OpenAIOpenAI上線性價比模型上線性價比模型o3-minio3-mini,加速低成本推理模型邊界加速低成本推理模型邊界。2025年2月1日,OpenAI深夜上線o3-mini系列推理模型,其也是OpenAI系列推理模型中最具性價比的模型。性能方面,o3-mini在數學、編程、科學等領域表現優異
54、,以數學能力為例,o3-mini(low)達到了與o1-mini相當的水平;o3-mini(medium)能力媲美滿血版o1;o3-mini(high)表現超越o1系列一眾模型。對比DeepSeek-R1在數學能力、編程能力上的測試結果,DeepSeek R1處于OpenAI o3-mini(medium)水平。DeepSeekDeepSeek價格優勢仍大幅領先于價格優勢仍大幅領先于OpenAIOpenAI系列推理模型系列推理模型。DeepSeek定價為百萬tokens輸入0.014美元(緩存命中,未命中則0.55美元),百萬tokens輸出價格2.19美元;o3-mini百萬tokens輸入
55、價格0.55美元(緩存命中,未命中則1.1美元),百萬tokens輸出價格為4.4美元。圖圖:DeepSeekDeepSeek和和OpenAIOpenAI能力能力對比對比圖圖:DeepSeekDeepSeek和和OpenAIOpenAI推理模型定價對比推理模型定價對比0.0140.552.197.515600.551.14.4010203040506070百萬tokens輸入(緩存命中)百萬tokens輸入(緩存未命中)百萬tokens輸出價格OpenAI-o3-miniOpenAI-o1DeepSeek r1Benchmark03-mini(Low)03-mini(Medium)03-min
56、i(High)DeepSeek-R1AIME 2024(Math)6079.687.379.8GPQA Diamond(Science)70.676.879.771.5Codeforces(Coding)1831(ELO)2036(ELO)2130(ELO)96.3(Percentile)SWE-bench Verified(Software Eng.)40.842.949.349.2資料來源:DeepSeek官方公眾號,OpenAI官網,國海證券研究所3.1.1、模型成本下降模型成本下降+性能第一梯隊性能第一梯隊+開源開源,國內國內AI應用商業模式有望加速應用商業模式有望加速跑通跑通 我們認
57、為我們認為DeekSeekDeekSeek或推動或推動AIAI投資回報率加速提升投資回報率加速提升,AIAI應用商業模式加速跑通應用商業模式加速跑通。據中國工業互聯網研究院數據,2024年以字節火山引擎、阿里云、百度云為代表的云廠商掀起了大模型價格戰,降價幅度普遍達到90%以上。海外以OpenAI為例,5月發布GPT-4o,模型性能升級且價格較GPT-4-Turbo下降50%;8月上線GPT-4o新版本,更強更便宜,但輸出價格節省33%。國內以阿里為例,12月31日阿里云宣布2024年度第三輪大模型降價,通義千問視覺理解模型全線降價超80%。全球及中國全球及中國AIAI應用市場規模加速提升應用
58、市場規模加速提升。據IDC數據,全球生成式AI市場規模在2024年達到360.6美元,同比+76%,預計在2028年達到2154億美元;中國AI軟件市場規模在2024年達到5.7億美元,預計2028年達到35.4億美元。圖圖:大模型降本趨勢大模型降本趨勢明確明確圖圖:全球生成式全球生成式AIAI市場市場規模規模圖圖:中國中國AIAI軟件市場軟件市場規模規模資料來源:IDC、艾瑞咨詢、中國工業互聯網研究院、國海證券研究所204.8360.6627.210351569215476%74%65%52%37%0%10%20%30%40%50%60%70%80%050010001500200025002
59、02320242025E2026E2027E2028E全球生成式AI市場規模(億美元)yoy5.78.513.422.335.449%58%66%59%0%10%20%30%40%50%60%70%051015202530354020242025E2026E2027E2028E中國AI軟件市場規模(億美元)yoy3.1.1、強推理模型強推理模型加速步入加速步入AGI之路之路 R1-Zero R1-Zero展現出強大展現出強大的通用推理能力。的通用推理能力。它不僅在數學競賽中取得驚人成績,更重要的是,R1-Zero不僅是在模仿思考,而是真正發展出了某種形式的推理能力。DeepSeekDeepSe
60、ek最終目標最終目標:AGIAGI。傳統的AI訓練方法可能一直在重復于讓AI模仿人類的思維方式。通過純粹的強化學習,AI系統似乎能夠發展出更原生的問題解決能力,而不是被限制在預設的解決方案框架內。雖然R1-Zero在輸出可讀性上存在明顯缺陷,但這個缺陷本身可能恰恰印證了其思維方式的獨特性。就像一個天才兒童發明了自己的解題方法,卻難以用常規語言解釋一樣。這提示我們:真正的通用人工智能可能需要完全不同于人類的認知方式。圖圖:我國我國AGIAGI產業產業圖譜圖譜資料來源:infoQ,國海證券研究所3.2、DeepSeek R1蒸餾賦予小模型高性能蒸餾賦予小模型高性能,端側端側AI迎來迎來奇點時刻奇點
61、時刻蒸餾法具有強大的潛力蒸餾法具有強大的潛力,端側小模型迎來發展契機端側小模型迎來發展契機。如下表所示,只需提取 DeepSeek-R1 的輸出即可使高效的DeepSeekR1-7B全面優于GPT-4o-0513等非推理模型,DeepSeek-R1-14B在所有評估指標上都超過了QwQ-32BPreview,而 DeepSeek-R1-32B和DeepSeek-R1-70B在大多數基準測試中明顯超過了 o1-mini。此外,我們發現將 RL 應用于這些蒸餾模型會產生顯著的進一步收益。我們認為這值得進一步探索,因此在這里只提供簡單的 SFT 蒸餾模型的結果。DeepSeekDeepSeek產品協
62、議明確可產品協議明確可“模型蒸餾模型蒸餾”。DeepSeek決定支持用戶進行“模型蒸餾”,已更新線上產品的用戶協議,明確允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。圖圖:DeepSeek R1DeepSeek R1蒸餾小模型性能蒸餾小模型性能對比對比AIME2024pass1AIME2024cons64MATH-500pass1GPQADiamondpass1LiveCodeBenchpass1CodeForcesratingGPT-4o-05139.313.474.649.932.9759Claude-3.5-Sonnet-10221626.778.36538.9717o1-min
63、i63.680906053.81820QwQ-32B446090.654.541.91316DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189DeepSeek-R1-Distill-Qwen-14B69.78093.959.153.11481DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691DeepSeek-R1-Distill-Llama-8B50.48089.14939.61205D
64、eepSeek-R1-Distill-Llama-70B7086.794.565.257.51633圖圖:端側與云端部署端側與云端部署AIAI的規模的規模區別區別資料來源:DeepSeek公司公眾號,國海證券研究所3.2、DeepSeek R1蒸餾賦予小模型高性能蒸餾賦予小模型高性能,端側端側AI迎來奇點時刻迎來奇點時刻全球端側全球端側AIAI市場規模預計從市場規模預計從2022 2022 年的年的152152億美元增長到億美元增長到20322032年的年的14361436億美元億美元。這一近十倍的增長不僅反映了市場對邊緣 AI 解決方案的迫切需求,也預示著在制造、汽車、消費品等多個行業中,邊
65、緣 AI 技術將發揮越來越重要的作用。在資源受限的設備上部署性能強大的模型,必須面對內存與計算能力的雙重挑戰,自2023年起,隨著參數量低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的涌現,LLMs 在邊緣設備上運行的可行性逐步明朗。圖圖:全球端側全球端側AIAI市場市場規模規模圖圖:端側端側AIAI產業鏈產業鏈圖譜圖譜資料來源:On-Device Language Models:A Comprehensive ReviewJiajun Xu、公司官網四四、DeepSeekDeepSeek對算力影響對算力影響?4.1、DeepSeek V3訓練中訓
66、練中GPU成本成本558萬美元,對比海外成本降低萬美元,對比海外成本降低 DeepSeek V3模型訓練成本達278.8萬H800小時,共花費557.6萬美元。對比OpenAI、Anthropic、LlaMA3等模型,DeepSeek V3單次訓練成本顯著降低,主要系DeepSeek公司通過優化模型結構、模型訓練方法、針對性GPU優化等部分,提升了模型訓練過程中的算力使用效率。模型結構模型結構 Architecture Architecture模型訓練方法模型訓練方法 Pre-Train Pre-Train針對性針對性GPUGPU優化優化專家模型專家模型 MOE+MOE+多頭潛在自注意力多頭潛
67、在自注意力 MLAMLA用于負載均衡的輔助無損策略用于負載均衡的輔助無損策略多標記預測多標記預測(MTP)(MTP)Dual PipeDual PipeAll To ALL All To ALL 通信內核通信內核IB+NVLinkIB+NVLink無張量并行無張量并行 TPTP低精度低精度FP8FP8訓練訓練PTXPTX語言語言帶寬限制帶寬限制資料來源:DeepSeek論文,國海證券研究所(注:表格為DeepSeek V3官方訓練費用,不包含此前對架構、算法、或數據進行研究和實驗的相關費用)訓練成本預訓練上下文擴展后訓練總計H800GPU小時(萬小時)266.411.90.5278.8美元(萬
68、元)532.823.810557.6表:表:DeepSeekDeepSeek V3 V3訓練成本(假設訓練成本(假設H800H800租賃價格為租賃價格為 2 2 美元美元/每每GPUGPU小時)小時)圖:圖:DeepSeekDeepSeek V3 V3節省訓練成本的方法,包括調整模型結構、訓練方法、節省訓練成本的方法,包括調整模型結構、訓練方法、GPUGPU優化等優化等4.2、DeepSeek或有約或有約5萬萬Hopper GPU,訓練總成本或較高,訓練總成本或較高 據Semianalysis,DeepSeek大致擁有10000張H800 GPU芯片、10000張H100 GPU芯片以及大量H
69、20 GPU芯片,用于模型訓練/推理、研究等任務。其估計,DeepSeek的總服務器資本支出(CapEx)約為13億美元(約90億元人民幣),其中僅集群運營成本就高達7.15億美元。DeepSeek V3論文中557.6萬美元成本,僅為預訓練中消耗的GPU計算成本,但模型完整訓練成本包括研發、數據清洗、人員薪資、硬件總擁有成本TCO(服務器、電力、冷卻系統、數據中心維護)等,會帶來訓練總成本體量更高。作為對比,Anthropic訓練Claude 3.5 Sonnet的成本就高達數千萬美元。表:表:DeepSeekDeepSeek AI TCO AI TCO(總擁有成本)(總擁有成本)ChipU
70、nitA100H20H800H100TotalYears#4444#ofGPUs#10,00030,00010,00010,00060,000NVDA$ASP$13,50012,50020,00023,00046,000ServerCapEx/GPU$23,71624,22831,72834,72879,672TotalServerCapEx$m2377273173471,281CosttoOperation$m157387170230715TotalTCO(4yOwnership)$m/hr3951,1144875771,996資料來源:Semianalysis,國海證券研究所 AI的演進路
71、徑中,推理成本不斷下降,計算效率持續提高是長期趨勢。的演進路徑中,推理成本不斷下降,計算效率持續提高是長期趨勢。例如:算法進步的速度約為每年4倍,即每年達到相同能力所需的計算量減少到四分之一;Anthropic CEO Dario甚至認為,這一進步速度可能達到10倍。Jevons 悖論悖論:技術進步提高了資源使用效率,效率提高降低了資源使用成本,成本下降刺激了資源需求的增長,需求增長可能超過效率提升帶來的節約,最終導致資源總消耗增加。短期訓練側算力需求或受影響,但短期訓練側算力需求或受影響,但DeepSeek推理價格下降吸引更多用戶調用模型,帶來英偉達推理價格下降吸引更多用戶調用模型,帶來英偉
72、達H100 GPU的租賃價格提升,故表的租賃價格提升,故表明算力需求量短期仍呈提升趨勢明算力需求量短期仍呈提升趨勢,中長期推理算力需求有望持續增長。,中長期推理算力需求有望持續增長。4.2、Jevons悖論:悖論:AI計算提效引總需求提升,計算提效引總需求提升,NV H100租賃價格上漲租賃價格上漲資料來源:Semianalysis圖:大模型成本持續下降,效率提升圖:大模型成本持續下降,效率提升圖:關鍵模型的測試情況圖:關鍵模型的測試情況4.3、推理化:推理算力需求占比提升,推理化:推理算力需求占比提升,GenAI云廠商有望受益云廠商有望受益 DeepSeek降低推理成本,引降低推理成本,引算
73、力需求結構變化算力需求結構變化。模型算法改進提升了訓練算力使用效率、降低了訓練成本,促進了模型商品化和更便宜的推理。據Semianalysis,DeepSeek推理服務可能以成本價運營,以此搶占市場份額,還在推理端優化英偉達H20 GPU的使用(H20內存與帶寬容量高于H100,推理效率更具優勢)。推理占比持續提升。推理占比持續提升。更低的推理成本有望提升下游應用與端側對大模型推理使用需求,推理算力需求占比有望增長。2024H1,用于推理的人工智能芯片市占率為61%。據IDC,預期2023-2027年,推理AI服務器工作負載占比從41%提升至73%左右。集合多種模型的云服務廠商有望受益。集合多
74、種模型的云服務廠商有望受益。無論是開源還是閉源模型,計算資源都很重要,如果云廠商基于計算資源打造上層服務或產品,那么計算資源的價值就有可能提升,這意味著更多的Capex流向硬件領域,軟件也有望受益。ModelPrice/1MInputTokensPrice/1MOutputTokensMMLU(Pass1)SWEVerified(Resolved)AIME2024MATH-500Claude-3.5-Sonnet-1022$3.00$15.00 88.350.81678.3GPT-4o-0513$2.50$10.00 87.238.89.374.6DeepSeek-V3(TogetherAI)
75、$1.25$1.25 88.542.039.290.2DeepSeek-V3MedianProvider$0.90$1.10 DeepSeek-V3(NormalPrice)$0.27$1.10 DeepSeek-V3(DiscountPrice)$0.14$0.28 Gemini1.5Pro$1.25$5.00 862088GPT-4o-mini$0.15$0.60 8233.26.779Llama3.1405B$3.50$3.50 88.624.523.373.8Llama3.270B$0.59$0.73 862064表:表:DeepSeekDeepSeek V3 V3性能優越,推理價格較
76、低性能優越,推理價格較低資料來源:Semianalysis,IDC,國海證券研究所圖:圖:2024H12024H1,中國,中國 Top5 GenAl laaS Top5 GenAl laaS服務廠服務廠商市場份額商市場份額4.3.1、國產化:推理化國產化:推理化+中美博弈加劇,國產中美博弈加劇,國產AI芯片需求有望提升芯片需求有望提升 模型推理對大型集群要求弱于訓練,這與目前國產模型推理對大型集群要求弱于訓練,這與目前國產算力單卡實力較強、互聯能力不足的情況匹配,并算力單卡實力較強、互聯能力不足的情況匹配,并考慮到目前中美半導體博弈加劇,考慮到目前中美半導體博弈加劇,DeepSeek積極積極適
77、配適配昇昇騰、海光等國產芯片,國產化推理算力需求騰、海光等國產芯片,國產化推理算力需求有望持續增長。有望持續增長。圖:圖:2024H12024H1,中國人工智能芯片市場份額,中國人工智能芯片市場份額圖:圖:美國限制高端美國限制高端NV GPUNV GPU出口中國出口中國圖:圖:DeepSeekDeepSeek R1&V3 R1&V3推理服務適配推理服務適配昇昇騰云騰云圖:圖:DeepSeekDeepSeek R1&V3 R1&V3推理服務適配海光推理服務適配海光DCUDCU資料來源:IDC,Semianalysis,華為云公眾號,光合組織公眾號4.3.1、國產化:國產國產化:國產AI芯片硬件性
78、能提升,市占率持續提升芯片硬件性能提升,市占率持續提升 2024H1,全國,全國AI芯片出貨中,國產化比例達芯片出貨中,國產化比例達20%。2024H1,中國加速芯片的市場規模達超過90萬張。GPU卡占據80%的市場份額;中國本土人工智能芯片品牌出貨量已接近20萬張,約占整個市場份額的20%。在加速卡入口受在加速卡入口受限之后,由于數質化轉型大趨勢對于算力的持續需求,中國本土品牌加速卡限之后,由于數質化轉型大趨勢對于算力的持續需求,中國本土品牌加速卡持續優化硬件能力,持續優化硬件能力,市場份額存在一定程度的增長。市場份額存在一定程度的增長。圖:國內外主流人工智能芯片性能對比情況圖:國內外主流人
79、工智能芯片性能對比情況641161844378501206230281%59%138%95%42%91%0%50%100%150%050010001500200025002018201920202021202220232024E中國AI芯片市場規模(億元)同比(%,右軸)圖:圖:2018-20242018-2024年中國年中國AIAI芯片市場規模預測芯片市場規模預測資料來源:各公司官網,海光信息招股書,壁仞科技公眾號,鎂客網,中商情報網、國海證券研究所4.3.1、國產化:軟件調用能力提升,國產國產化:軟件調用能力提升,國產AI芯片生態蓬勃發展芯片生態蓬勃發展 使用使用GPU過程中,通常需經過多
80、個層級才能調用到底層硬件。過程中,通常需經過多個層級才能調用到底層硬件。從上到下依次是高層編程語言(如 Python、C+)、硬件接口(如 CUDA、OpenCL 等)、驅動程序,最后才是底層硬件。在這個過程中,CUDA 作為一個相對高層的接口,為用戶提供編程接口,而 PTX 則隱藏在驅動背后。DeepSeek-V3模型在多節點通信時繞過了 CUDA 直接使用 PTX(Parallel Thread Execution),有望實現以算法的方式來高效利用硬件層面的加速。PTX 與底層硬件直接交互,編寫和調用 PTX 代碼能更精確地控制底層硬件,實現更高效的計算。國內國內AI工作者在工作者在AI芯
81、片的底層軟件能力增強,為國產芯片的底層軟件能力增強,為國產AI芯片的性能提升指明了新的方向,有利于國產芯片的性能提升指明了新的方向,有利于國產AI芯片發展。芯片發展。例如,海光持續拓展軟件棧DTK(DCU ToolKit)、寒武紀自建軟件生態、華為昇騰發展AI框架CANN8.0版。圖:圖:NV GPU CUDANV GPU CUDA結構圖結構圖圖:圖:昇昇騰全棧騰全棧 AI AI 軟硬件平臺,賦能軟硬件平臺,賦能昇昇騰生態不斷發展騰生態不斷發展資料來源:NVIDIA,華為昇騰官網,邁向智能世界,昇騰計算產業發展白皮書,華為官網,新智元公眾號,網易,國海證券研究所4.3.2、ASIC:互聯網廠商
82、資本開支指引提升,:互聯網廠商資本開支指引提升,ASIC服務器采購占比增長服務器采購占比增長公司公司20242024年年互聯網大廠資本開支預期情況互聯網大廠資本開支預期情況MicrosoftMicrosoft2024Q4(FY2025Q2),含融資租賃資本支出226億美元,同比增長96.5%,環比增長13%,同比和環比增速均擴大,其中購買PP&E現金支出為158億美元(高于一致預期1.2%)。與AI和云相關的支出中,超過一半用于15年折舊的長期基礎設施資產,服務器CPU和GPU的占比有所下降。預計第三季度和第四季度的季度支出將與第二季度的支出保持相似水平。預計第三季度和第四季度的季度支出將與第
83、二季度的支出保持相似水平。Alphabet Alphabet (谷歌)(谷歌)2024Q3公司資本開支達到131億美元。公司預計全年每季度資本支出將大致維持第一季度公司預計全年每季度資本支出將大致維持第一季度120120億美元或略高。億美元或略高。MetaMeta2024Q4公司資本支出(包括融資租賃本金支付)為 148 億美元,主要用于服務器、數據中心和網絡基礎設施的投資。公司預計公司預計20252025年的資本支出將在年的資本支出將在600-650600-650億美元之間億美元之間,服務器仍將是最大的支出增長驅動力,非人工智能計算能力需求也會增長。服務器仍將是最大的支出增長驅動力,非人工智
84、能計算能力需求也會增長。亞馬遜亞馬遜2024Q3資本開支為213億美元。公司預計下半年的資本投資將更高,大部分支出將用于支持對公司預計下半年的資本投資將更高,大部分支出將用于支持對AWS AWS 基礎設施日益增長的需求基礎設施日益增長的需求圖:圖:2022-2024Q2022-2024Q4 4 各廠商資本性開支各廠商資本性開支資料來源:Wind,Microsoft Start,澎湃新聞,搜狐,財聯社,財經涂鴉官網,Trendforce,國海證券研究所22%19%15%9%6%9%20%20%17%16%11%6%5%25%MicrosoftGoogleAWSMetaCoreWeaveBBAT其
85、他圖:圖:2023-20242023-2024年全球年全球CSPCSP對高階對高階AIAI服務器需求占比服務器需求占比內圈:2023外圈:2024E0501001502002502022Q12022Q22022Q32022Q42023Q12023Q22023Q32023Q42024Q12024Q22024Q32024Q4Meta谷歌Alphabet微軟亞馬遜(億美元)4.3.2、ASIC:互聯網廠商資本開支指引提升,:互聯網廠商資本開支指引提升,ASIC服務器采購占比增長服務器采購占比增長 ASIC芯片在性能、能效以及成本上優于標準芯片在性能、能效以及成本上優于標準GPU等芯片,更加契合等芯片
86、,更加契合AI推理場景的需求。推理場景的需求。CSP資本開支持續投向資本開支持續投向AI服務器采購。服務器采購。據TrendForce預估,2024年北美CSPs業者(如AWS、Meta等)持續擴大自研ASIC,以及中國的阿里巴巴、百度、華為等積極擴大自主ASIC 方案,促ASIC服務器占整體AI服務器的比重在2024年將升至26%,而主流搭載GPU的AI服務器占比則約71%。表表1 1:20242024年搭載年搭載ASICASIC芯片芯片AIAI服務器出貨占比將逾服務器出貨占比將逾2.52.5成成公司公司20222022202320232024E2024ENVIDIANVIDIA67.6%6
87、5.5%63.6%AMDAMD(包括(包括XilinxXilinx)5.7%7.3%8.1%IntelIntel(包括(包括AlteraAltera)3.1%3.0%2.9%OthersOthers23.6%24.1%25.3%全部全部100%100%100%資料來源:Trendforce,國海證券研究所4.3.3、重塑價值鏈,機柜重塑價值鏈,機柜/銅纜銅纜/液冷液冷/HBM占比提升占比提升資料來源:Semianalysis,國海證券研究所整機柜HBM銅連接散熱GB200H100$12k$12k每GPU服務器ODM毛利情況$6k$6k2X2X$3k$3k每GPUHBM花費$1k$1k3X3X$
88、3k$3k每GPU$0.3k$0.3k10X10X$1.4k$1.4k每GPU BOM$0.4k$0.4k3X3X GB200 NVL系列的發布,有望帶來系列的發布,有望帶來機柜機柜、HBM、銅纜銅纜、液冷液冷等市場的等市場的價值量占比提升。價值量占比提升。整機柜:整機柜:機柜采用MGX架構,由計算托盤與交換托盤組成,提升組裝復雜度,帶來ODM整機廠的加工價值量提升。HBM:H100采用5顆HBM3,Blackwell Ultra預期采用8顆HBM3e,單顆GPU采用HBM數量與單價均實現提升。銅 連 接:銅 連 接:GB200 NVL 7 2 采用NVLink銅纜鏈接。散熱:散熱:B200 GPU功耗約1200W,GB200功耗約2700W,或達到風冷上線,有望推動液冷組件價值量提升。