《科智咨詢:2025年Deepseek對算力產業的影響報告(27頁).pdf》由會員分享,可在線閱讀,更多相關《科智咨詢:2025年Deepseek對算力產業的影響報告(27頁).pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、CONFIDENTIALDeepseek對中國算力產業的影響2025年2月-2-1DeepSeek的技術突破與市場定位目錄CONTENT2DeepSeek驅動算力需求變革3算力產業鏈的重構-3-DeepSeek爆火-C端:Deepseek全球破圈,成為用戶規模增長最快的移動AI應用超級app增長1億用戶所用時間App上線后同樣天數DeepSeek與ChatGPT移動端全球DAU對比情況-4-DeepSeek爆火-B端:科技巨頭積極擁抱DeepSeek-5-DeepSeek明星產品:DeepSeek的LLM模型分為三個版本:基座模型V3、強化推理版R1-Zero、泛化推理版R1-6-DeepSe
2、ek爆火的原因:一流的性能表現、大幅降低的算力成本、開源模式DeepSeek的模型架構創新,如MoE和FP8混合精度訓練,大幅提升模型性能和訓練效率。高性能模型架構創新通過算法創新和硬件優化,DeepSeek以低成本實現高性能,改變AI領域的競爭規則。低成本實現高性能DeepSeek采用開源策略,降低AI技術門檻,促進全球開發者參與,推動技術快速普及和迭代。開源策略推動技術普及-7-一流的性能表現:DeepSeek-V3性能對齊海外領軍閉源模型-8-一流的性能表現:DeepSeek-R1性能對標OpenAI-o1正式版 DeepSeek-R1性能比肩OpenAI-o1。DeepSeek-R1在
3、后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。R1 在 2024 年 AIME 測試中取得了 79.8%的成績,與 OpenAI o1 的 79.2%水平相當。在 MATH-500 基準測試中,DeepSeek-R1 以 97.3%的成績略微超越了 o1 的 96.4%。在編程領域,該模型在 Codeforces 平臺上表現優異。-9-大幅降低的算力成本:訓練算力下降90%DeepSeek-V3和R1模型不僅性能出色,訓練成本也極低。V3模型僅用2048塊H800 GPU訓練2個月,
4、消耗278.8萬GPU小時。相比之下,Llama3-405B消耗了3080萬GPU小時,是V3的11倍。按H800 GPU每小時2美金計算,V3的訓練成本僅為557.6萬美金,而同等性能的模型通常需要0.6-1億美金。R1模型在V3基礎上,通過引入大規模強化學習和多階段訓練,進一步提升了推理能力,成本可能更低。-10-API定價下降89%(V3)、96%(R1)-11-開源大模型:打破OpenAI等閉源模型生態DeepSeek 不僅開源了 R1-Zero 和 R1 兩個 671B 模型,還通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區,其中 32B 和 70B 模型在多項
5、能力上實現了對標 OpenAI o1-mini 的效果。同時,DeepSeek 還修改了產品協議,支持用戶進行“模型蒸餾”,即允許用戶無限制商用,鼓勵蒸餾(用 R1 輸出結果訓練其他模型),盡可能降低用戶使用壁壘,全球范圍出圈和更容易建立起廣泛繁榮的用戶生態。DeepSeek V3與R1模型實現了開源,采用MIT協議。這產生多方面影響:對大模型發展:這提升了世界對中國AI大模型能力的認知,一定程度打破了OpenAI與Anthropic等高級閉源模型的封閉生態。DeepSeek R1在多個測試指標中對標OpenAI o1,通過模型開源,也將大模型平均水平提升至類OpenAI o1等級。對下游生態
6、:優質的開源模型可更好用于垂類場景,即使用戶針對自身需求蒸餾,或用自有數據訓練,從而適合具體下游場景;此外,模型訓推成本降低,將帶來使用場景的普及,帶動AIGC、端側等供給和需求。-12-1DeepSeek的技術突破與市場定位目錄CONTENT2DeepSeek驅動算力需求變革3算力產業鏈的重構-13-中國智能算力市場規模持續增長,算力中心從訓練側向推理側轉移中國人工智能服務器工作負載預測,2022-202742%59%35%33%30%28%58%41%65%67%70%72%0%10%20%30%40%50%60%70%80%90%100%202220232024202520262027推
7、理訓練中國智能算力規模及預測,(FP16)2604177251,0371,4602,020202220232024202520262027+41%智能算力-14-訓練算力頭部集中,推理算力爆發式增長頭部企業仍持續加碼大模型訓練,追求更高性能的AGI目標。阿里:未來3年的AI infra投資,超過去10年的infra投資 字節:24 年資本開支 800 億元,接近百度、阿里、騰訊三家的總和(約 1000 億元)。25 年,字節資本開支有望達到 1600 億元,其中約 900 億元將用于 AI 算力的采購,700 億元用于 IDC 基建以及網絡設備。百度:在2月11日的阿聯酋迪拜World Gov
8、ernments Summit 2025峰會上,百度創始人李彥宏提到,百度需要繼續在芯片、數據中心和云基礎設施上加大投入,目的是為了開發下一代模型。硅谷四大科技巨頭(谷歌、微軟、Meta、亞馬遜)2025年合計資本開支超3,000億美元,重點投向AI數據中心建設。訓練算力仍有空間和前景 頭部企業會持續進行教師模型的訓練:模型蒸餾的前提是有一個好的教師模型,字節、阿里、百度等已經明確會持續加大投入;24年H2有些停滯的大模型訓練近期已經重啟 各模型廠商會借鑒deepseek的優化方法如FP8精度訓練、跨節點通信等,與自身模型訓練結合,探索更高效的模型訓練方法 多模態的模型對算力的消耗會是近十倍的
9、增長推理算力爆發式增長:杰文斯悖論在推理側上演,開源模型和較低的推理成本,有助于應用的繁榮,助推推理算力增長“杰文斯悖論”指出成本下降將刺激資源需求更大增長-15-模型輕量化催生端側算力的崛起DeepSeek通過知識蒸餾技術,將大模型壓縮至輕量化版本,使其能夠在端側設備上高效運行。數據安全與隱私計算剛需本地化部署需求(如醫療數據脫敏處理)推動隱私計算技術發展,2024年數據治理市場規模超50億元。一體機等端側算力市場擴容國產deepseek一體機瘋狂上新:三大電信運營商、浪潮、壁仞、京東云、聯想、優刻得、寶德、華鯤振宇、超聚變等均推出基于不同國產芯片的deepseek一體機工業質檢、自動駕駛等
10、場景需求推動邊緣AI服務器出貨量增長,2025年市場規模預計突破200億元。-16-從“算力堆砌”到“算效優化”的產業轉型DeepSeek提出的“四兩撥千斤”的技術路徑推翻了統治了2023年-2024年的全球大模型產業的“暴力美學”邏輯,2025年再次進入算法創新階段算力、數據、算法的三角創新體系,在動態循環中再次進入算法創新階段:2022年:算法創新為主,ChatGPT發布,引發Transformer架構的風潮迭起2023年:數據創新為主,數據合成、數據標注等成為高質量數據集建設的熱點方向2024年:算力創新為主,算力邁向超萬卡時代,算力運營商等產業新物種誕生2025年:再次進入算法創新階段
11、算力堆砌的傳統模式大模型訓練和應用依賴于大規模的算力堆砌,通過不斷增加硬件資源來滿足算力需求算效優化的必要性隨著技術發展和應用深化,算效優化成為產業轉型的關鍵方向,通過提高算力的利用效率,降低能耗和成本-17-1DeepSeek的技術突破與市場定位目錄CONTENT2DeepSeek驅動算力需求變革3算力產業鏈的重構-18-DeepSeek通過PTX優化等創新技術,降低了模型訓練對NV芯片的依賴,推動國產算力的應用落地CUDA 生態的封閉性導致其跨硬件平臺兼容性差,對國產 GPU的適配存在較大困難。PTX 算力優化經驗大幅降低了對高端GPU的依賴,對國產 GPU的底層接口適配有一定幫助(需要重
12、新設計工具鏈,短期內難以實現無縫遷移)DeepSeek通過PTX手動優化跨芯片通信截至 2025 年 2 月 18日,DeepSeek 已與 18家國產 AI 芯片企業完成適配,包括華為昇騰、沐曦、天數智芯、摩爾線程、海光信息、壁仞科技、太初元碁、云天勵飛、燧原科技、昆侖芯、靈汐科技、鯤云科技、希姆計算、算能、清微智能和芯動力等私有化部署及端側小模型大量涌現,為國產芯片在實際場景的應用及試錯提供了大量機會,為國產芯片的設計、性能提升等提供空間芯片智算中心大模型AI應用英偉達 H800 芯片互聯帶寬相比 H100 被閹割,為彌補這一缺陷,DeepSeek 借助 PTX 手動優化跨芯片通信,保障數
13、據傳輸效率。PTX 是CUDA編譯的中間代碼,處于高級編程語言(如 CUDA C/C+)和底層機器碼(SASS)之間,起到在 CUDA 和最終機器碼之間的橋梁作用。借助 PTX,開發者能夠直接對 GPU 的寄存器分配、線程調度等硬件級操作進行控制,實現細粒度的性能優化。在多 GPU 協同訓練場景中,可通過 PTX 手動調整跨芯片通信效率,提升整體訓練效能。-19-DeepSeek采用FP8混合精度訓練取得較好效果,國內芯片企業亟待增強對原生FP8支持 在DeepSeek的訓練過程中,絕大多數核心計算核(即通用矩陣乘法GEMM操作)均以FP8精度實現。這些GEMM操作接受FP8張量作為輸入,并輸
14、出BF16或FP32格式的結果。如下圖所示,與線性算子(Linear operator)相關的三個GEMM運算前向傳播(Fprop)、激活梯度反向傳播(Dgrad)和權重梯度反向傳播(Wgrad)都采用FP8精度執行。對以下模塊維持原有精度(如BF16或FP32):嵌入模塊(embedding module)、輸出頭(output head)、混合專家門控模塊(MoE gating modules)、標準化算子(normalization operators)以及注意力算子(attention operators)。(盡管FP8格式具有計算效率優勢,但由于部分算子對低精度計算較為敏感,仍需保持
15、更高計算精度)采用FP8數據格式的整體混合精度框架國內AI芯片企業200多家原生支持FP8的3家同時原生支持FP8、BF16、FP32的1家國內芯片對三種計算精度的支持情況DeepSeek采用FP8混合精度訓練取得較好效果:GPU訓練時間減少40%預訓練成本降至僅278.8萬H800 GPU小時訓練總費用為557.6萬美元,比同類模式便宜約10倍目前DS原生訓練和推理用的是FP32、BF16和FP8,三種格式,也是DS團隊探索出來效率最高的計算方式。如果不是原生支持FP8,而是需要通過其他計算精度的轉譯,至少損失30%性能和20%的智商目前國內有200多家AI芯片公司,原生支持FP8計算格式的
16、AI芯片只有3款,同時支持三種計算格式的國產AI芯片公司只有1款。芯片智算中心大模型AI應用-20-智算中心分為三類A類B類C類預訓練用于訓練超大參數量的原創教師大模型,如移動的九天大模型、阿里的通義千問等萬卡以上H200、B200等最先進的芯片或國產高端芯片(針對有強信創需求的企業)后訓練用于學生大模型的調優,訓練行業化、客制化大模型幾十臺到幾百臺為主A100/A800、H100/H800,或者采購部分高端國產卡推理用于推理的算力中心,針對模型在企業端現實場景的實際應用大小不等利舊原有設備或者經營不善的B類3090/4090或910A、910B及其他國產卡定位功能規模芯片芯片智算中心大模型A
17、I應用-21-推理類智算中心爆發增長,超大規模智算中心建設加快智算中心市場影響A類建設速度不減:頭部科技大廠仍計劃大量投資;超前建設的需要;下一輪AI技術的涌現(如多模態等)仍需要十倍左右的算力支撐;中美博弈(美國“星際之門”、歐洲“Invest AI計劃”等)B類結構性過剩,建設減緩:規模小、位置偏僻、型號舊&性價比低、國產算力等類型的智算中心閑置狀況嚴重新建要看是不是有強主體包銷,如果有強主題的3-5年包銷合同,依然可以正常建設;如果是弱主體的客戶,甚至沒有客戶的前提下,建設可能會暫緩或者停滯C類爆發式增長:推理算力需求大幅增加,端側、邊緣側分布式算力部署快速增長,私有化部署110臺GPU
18、服務器的小規模集群需求在內部部署中爆發。算力包銷合同主題分強、弱兩類,市場上更多的是弱主體:強主體:各個參與方資質和信譽主題都很強。央國企、A股上市公司承建、金融機構墊資、互聯網大廠包銷,這種主要是H系列為主,風險相對可控,互聯網大廠可以用來做B類或C類。弱主體:相對于強主體,出資方、承建方、包銷方相對來說資質弱一些,比如包銷方是一些AI大模型創業公司、創新型實驗室或者,這類24年下半年已經開始毀約,風險非常高,H系列租金每個月68w/臺。這類的算力中心風險非常大,需要注意,這類算力使用方,未來多轉向C類算力租賃。芯片智算中心大模型AI應用-22-中國大模型主要有兩類玩家科技大廠AI創業公司企
19、業類型典型玩家大模型玩家芯片智算中心大模型AI應用-23-Deepseek發布后科技大廠:擁抱DeepSeek,同時跟進類似的自研產品公司時間動作概況阿里1月29日阿里云 PAI Model Gallery 支持一鍵部署 DeepSeek-V3 和 DeepSeek-R1 阿里云發布開源的通用千問Qwen 2.5-Max MoE(混合專家模型),它使用了與DeepSeek-R1類似的技術路線百度2月14日百度搜索全面接入 DeepSeek。百度宣布文心一言4月1日起開源免費,并計劃推出文心大模型 4.5 系列,于 6 月 30 日起正式開源騰訊/從云平臺騰訊云、騰訊云旗下大模型知識應用開發平臺
20、知識引擎、國民應用微信、AI智能工作臺ima、主力AI應用元寶全方位擁抱DeepSeek,紛紛宣布接入R1模型華為/鴻蒙系統的小藝助手接入DeepSeek-R1;與硅基流動合作,基于昇騰云服務推出DeepSeek-R1/V3推理服務投資加大:前文已論述產品:科技大廠一方面擁抱DeepSeek,一方面跟進類似的自研產品芯片智算中心大模型AI應用國際大廠也加快了產品的推陳出新OpenAI連續官宣GPT-4.5在幾周內上線,GPT-5在幾個月內上線,及模型路線規模的調整-24-Deepseek發布后AI創業企業:從參數競爭到進入理性期公司時間動作概況零一萬物2月14日與蘇州高新區聯合成立的產業大模型
21、基地正式授牌百川智能1月25日發布新模型Baichuan-M1-preview階躍星辰2月13日聯合研發的AI兒科醫生在北京兒童醫院上崗1月20日發布新語言大模型Step-2-mini和Step-2 文學大師版1月21日升級語音模型Step-Io Audio,上新多模態理解大模型Step-Io Vision1月22日發布視頻生成模型Step-Video V2版本1月24日應用端躍問推出躍問AI創意板功能/躍問接入DeepSeek-R12月21日舉辦首屆“Step Up 生態開放日”智譜華章2月11日創立發起人唐杰出席第三屆人工智能行動峰會邊會“人工智能技術進步與應用”并發言2月11日Agent
22、ic GLM登陸三星最新款Galaxy S25系列手機/和AI畫圖捏角色的應用軟件捏ta展開系列合作月之暗面1月20日發布Kimi k1.5多模態思考模型MiniMax1月20日升級發布T2A-01系列語音模型,并上線海螺語音產品初創企業大模型六小虎的動作概況AI六小虎的策略變化仍堅守大模型預訓練,但技術路線分化:智譜(引入強化學習和多模態,注重B端市場)月之暗面(長文本)階躍星辰(多模態)轉向細分領域:零一萬物與阿里合作產業實驗室,放棄超級大模型研發 百川智能專注醫療賽道 MiniMax布局海外市場-25-大模型領域迎來“安卓時刻”,大量AI應用將爆發式出現回顧安卓與iOS應用的發展,安卓系
23、統發布一年后,大量的安卓應用開始出現?,F在的deepseek類似當初的安卓系統GitHub 的 Stars 是項目在社區中受歡迎程度的直接指標,Fork 則表示項目累計被用戶拷貝的數量,兩個指標均代表項目上線至今的關注度和用戶喜愛度。DeepSeek V3 和 R1 兩個項目上線至今均不足 2 個月,但它們的累計 Star 和 Fork 均與上線時間更早的 Llama 接近,顯著高于 24 年 4 月發布的 Llama3,直接反映了開發者對 DeepSeek 開源模型的高認可度。根據GitHub、Hugging Face社區上的開發者實測,經過R1微調的80億參數小模型可以在個人筆記本中運行,本地化部署門檻顯著下降,應用的開發將迎來百花齊放。芯片智算中心大模型AI應用-26-兩個關鍵詞:端側AI、AI Agent 端側AI芯片智算中心大模型AI應用 AI Agent感謝您的聆聽!中科智道(北京)科技股份有限公司