《WPS:DeepSeek洞察及行業影響.pdf》由會員分享,可在線閱讀,更多相關《WPS:DeepSeek洞察及行業影響.pdf(15頁珍藏版)》請在三個皮匠報告上搜索。
1、DeepSeek洞察及行業影響單擊此處添加副標題匯報人:WPSDeepSeek出了什么產品?為什么在國內外引起如此反響?對各行業AI的應用有什么影響?DeepSeek是在什么宏觀背景產生的?缺乏根技術支撐科研和商業應用主要構建在國外生態上 A國AI產業在芯片、學習框架、核心算法等根技術層領先。中國AI產業偏重于應用,在互聯網、安防、金融等領域取得了一定進展,但底座構建在國外生態上,缺乏根技術支撐。ViT、Switch-CAI應用大模型AI平臺學習框架計算架構AI芯片芯片對華產品出口限制升級芯片模型開源數據SME單芯片 全產業鏈單邊管制多邊管制NSCAI報告中,中國出現670次,俄羅斯(64)、
2、日本(61)、韓國(29),英國(28),印度(28)、法國(24)、德國(15)禁止出口高性能芯片到中國:22年10月,禁A100/H100,23年禁A800/H800、以及AMD和Intel高性能AI芯片等限制A國云服務廠家為中國提供智能訓練算力服務A國加大對華人工智能管理NSCAI發布報告,將聯合盟友對華AI全面限制A國禁令層層加碼,步步緊逼,全面遏制中國人工智能產業國禁令層層加碼,步步緊逼,全面遏制中國人工智能產業Start引領新模式2023年5月由對沖基金幻方量化實際控制人梁文峰成立2024年5月價格低于同行,在滑鐵盧大學老虎實驗室的LLM排名中位列第七。2023年11月2日發布首個
3、模型DeepSeek coder,免費供商業使用且完全開源2024年12月26日671B億參數,僅55天訓練,十分之一的成本,(558萬美元),超越Llama 3.1和Qwen 2.5,與GPT-4 O相當。2023年11月29日推出DeepSeek LLM,參數規模達670億,同時發布聊天版本DeepSeek Chat。2025年1月20日比肩OpenAI o1,支持模型蒸餾,國產AI迎來里程碑時刻2024年11月宣稱在邏輯推理、數學推理和實時問題解決等任務上超越OpenAI O1,但華爾街日報測試發現OpenAI O1在部分問題上更快。2023年8月華為云開始與DeepSeek合作,并在1
4、2月業務上量華 為 云 合 作幻方量化第一私募DeepSeek成立DeepSeek coder發布LLM發布聊天版本DeepSeek V2發布DeepSeek R1-Lite-Preview發布DeepSeek-V3發布25年1月,165個國家deepseek APP下載榜單第一DeepSeek R1發布1月31日,微軟、英偉達、亞馬遜全部接入DeepSeek!1月底,deepseek遭受黑客攻擊,美國科技股蒸發萬億DeepSeek:23年年5月成立持續走開源道路,月成立持續走開源道路,24年底發布年底發布AI核彈級核彈級產品震驚全球產品震驚全球數學+編程領域大幅領先,DeepSeek-V3訓
5、練成本不足Meta/OpenAI的10%,DeepSeek-R1推理成本僅為OpenAI o1的3%,成為開源模型SOTA。低成本完美對標OpenAI O1,突破精確語義理解及復雜推理任務繞過CUDA挖掘FP8硬件潛力,MOE和MLA技術實現不到10%的成本方案性能優低成本技術創新150M$Llama3.1-405B訓練成本 5.57M$DeepSeekV3訓練成本 DeepSeek-R1推理成本僅為OpenAI o1的3%數學、科學和代碼等領域領先業界,成為業界公認的LLM的領先模型來源:DeepSeek模型測試數據&互聯網硬件級、算法級、架構級、工程級、開源生態5大技術創新,轟動全球硬件級
6、優化算法革命架構創新工程奇跡開源生態 繞過CUDA進行PTX編程 計算與通信優化,性能提升30%GRPO:群體進化的智慧篩選器 自我驗證機制:AI的錯題本系統 混合專家模型的智能路由器“多頭潛在注意力MLA:空間壓縮術 訓練框架加速:16到3的量化壓縮,通信降低89%推理加速:預加載,動態批處理等 模型、數據、工具鏈、部署全開源 蒸餾技術使能第三方模型性能DeepSeek大模型解讀:完全開源大模型解讀:完全開源+免費商用,挑戰免費商用,挑戰A國國AI霸權霸權Deepseek V3訓練(H800)成本(DeepSeek官方論文披露)技術報告披露共557.6萬美元,合0.39億元2788K GPU
7、 hours,每GPU hour 使用費2美元Meta Llama3 405B的訓練成本約3930萬H100 GPU小時,是DeepSeek的14倍,而后者的671B的參數量更大綜合成本=基礎(base)模型訓練成本+增訓成本+實驗成本+其它費用注1:訓練用時(按3周計)數據來自對DeepSeek工作人員的訪談記錄:https:/ H800集群,同時開啟,同時工作,同時停止注3:其它費用數據來自對DeepSeek APP提出關于成本問題時回答涉及的范疇和數據:https:/ V3 Base)訓練成本 DeepSeek V3訓練成本=5,576,000$增訓成本=R1訓練成本+800K生成(推理
8、)成本+微調及RL成本 1.6萬卡集群工作(訓練)用時(3周)總電價 =5576000*(21/(2788000/16000/24)=16,128,000$實驗成本預計為模型訓練24倍,按照3倍計算=(5,576,000$+16,128,000$)*3=65,112,000$其它費用=基礎設施建設和使用(按5年為硬件生命周期,分攤到訓練V3和R1的總用時及卡規模占比)+人力研發費(1年預估分攤到訓練V3和R1的總用時)+其它投入隱形支出(如運營成本1年分攤到訓練V3和R1的總用時)=(5億$+16億$)*(21+7.26)/(5*365)*(1.6/5)+(0.6億$)*((21+7.26)/
9、365)+(9億$)*(21/365)=10,405,874$+0.03452$+69,682,191$=80,088,065$總計:1.66億美金(基礎設施成本核算到訓練期間)行業機構(semianalysis)預估綜合投入年度5億13億美金模型訓練成本模型訓練成本模型開發成本,模型開發成本,DeepSeek的模型開發成本保守估的模型開發成本保守估計約計約1.66億美金億美金業界LLM大模型DeepSeekMHA/GQA壓縮KVCache降低內存90%支持更高并發AttentionMOE訓練精度PP并行算法強化學習Token預測模型結構優化以計算換內存、降通信,空間時間雙優化計算通信優化降低
10、計算,極致的掩蓋,同時保證訓練精度后訓練優化降低學習復雜度推理優化單次推理效率倍級提升GPT416專家選2FP16/BF161F1BPPOSTP1次1token預測MLA多頭潛在注意力DeepSeekMoE更稀疏256選8+1FP8混合精度DualPipeGRPO組相對策略優化MTP1次多Token預測核心收益效果模型容量提升3倍計算量減少70%計算量減少35%平衡訓練效率與數值精度計算與通信極致掩蓋減少50%PP氣泡簡化強化學習流程降低后訓練復雜度一次預測多個token推理倍級提升DeepSeek V3/R1,2個月完成訓練,是同類MOE效率的1.52倍DeepSeek引領全新范式,從模型結
11、構到訓推全流程的極致工程優引領全新范式,從模型結構到訓推全流程的極致工程優化化DeepSeek R1-Zero 推理模型DeepSeek V3基礎模型SFT-1 冷啟動微調GRPO強化學習 RL-1 強化學習SFT-2 微調DeepSeek R1推理模型千量級長思維鏈(CoT)數據60萬 長思維鏈(CoT)數據 20萬非推理數據(寫作、基本問答)RL-2 強化學習給模型正確的激勵,模型可以自主思考、自我反思純強化學習:首個公開研究驗證了大規模語言模型(LLM)的推理能力,通過純粹的強化學習來激勵,而不需要監督微調兩步強化學習和數據微調,完美復制O1深度推理能力冷啟動:少量高質量數據作為冷啟動,
12、以防止強化學習訓練早期不穩定模型蒸餾:大模型的推理模式可以被蒸餾到小模型中,小模型也可以很強大DeepSeek R1-ZeroDeepSeek R1Qwen-1.5BQwen-7BQwen2.5-14BQwen2.5-32BLlama3.1-8BLlama3.3-70B知識蒸餾DeepSeek-R1-Distill-80萬條推理樣本DeepSeek R1技術創新:強化學習實現推理開源復現,提升模型技術創新:強化學習實現推理開源復現,提升模型深度思考能力深度思考能力模型蒸餾(Model Distillation)核心是通過知識遷移的方式,將一個復雜的大模型(教師模型)的知識傳授給一個相對簡單的小
13、模型(學生模型),利用教師模型的預測結果作為軟標簽對學生模型進行訓練,從而保持較高性能的同時,極大降低了模型的復雜性和計算量,實現模型的輕量化和高效化。DeepSeek V3&R1滿血模型與蒸餾模型的區別滿血模型與蒸餾模型的區別類別滿血模型蒸餾模型參數規模660B(如R1)、671B(如V3)1.5B至70B(如R1-Distill系列)架構混合專家(MoE)架構或大參數Transformer基于LLaMA、Qwen等開源模型二次優化訓練基礎自研訓練框架(如V3再訓練)通過知識蒸餾從滿血模型遷移推理能力顯存660GB以上(INT8)8G顯存可部署1.5B模型,24G顯存適配14B核心技術強化學
14、習、長鏈推理(Chain-of-Thought)知識蒸餾、監督微調(SFT)推理能力支持復雜邏輯推理(如數學、代碼)在特定任務(如問答、簡單交互)接近滿血版應用場景科研、高端企業服務、云API調用邊緣設備、智能座艙、政務服務、教育工具單擊此處添加標題單擊此處添加標題單擊此處添加文本具體內容,簡明扼要地闡述您的觀點。根據需要可酌情增減文字,以便觀者準確地理解您傳達的思想。單擊此處添加文本具體內容,簡明扼要地闡述您的觀點。根據需要可酌情增減文字,以便觀者準確地理解您傳達的思想。單擊此處添加文本具體內容,簡明扼要地闡述您的觀點。根據需要可酌情增減文字,以便觀者準確地理解您傳達的思想。單擊此處添加文本
15、具體內容,簡明扼要地闡述您的觀點。根據需要可酌情增減文字,以便觀者準確地理解您傳達的思想。企業AI架構數字底座算力網絡存儲集群管理與運維 云化管理平臺平臺層AI管理平臺 應用層行業業務場景智慧客服智慧營銷代碼助手智能投研智能安防精準預測自動駕駛模型層大模型NLP大模型多模態大模型Agent框架工具套件/服務AI4S大模型V3/R1在NLP領域呈現優勢根據應用場景選模型構建標準化API接口1.大模型當前處于“交替領先”階段2.擁抱DeepSeek,但不是唯一選擇,架構解耦支持多種模型部署運行能力對比:V3擅長問答 R1主攻邏輯體驗差異:V3快速響應,R1需深度思考知識含量:R1=V3知識問答:R
16、1V3數學代碼:R1V3小幅提升大幅提升V3立刻回答R1先思考,幾十秒后回答問題思考若干秒問題R1回答延時N秒V3回答文 科 生快 回 答DeepSeek 滿血版V3文 理 兼 修慢 思 考DeepSeek 滿血版R1DeepSeek 蒸餾版 輕量化起步 邊端側推理選擇選擇選擇高成本:部署DeepSeek滿血版V3/R1低成本:部署DeepSeek蒸餾版本場景體驗成本構建兼容多種大模型的算力平臺根據“場景+體驗+成本”選型模型如何選擇模型?擁抱如何選擇模型?擁抱DeepSeek等開源模型,同時構建多模型兼容等開源模型,同時構建多模型兼容的算力底座架構的算力底座架構大模型是系統化工程智慧電力設施
17、異常識別精度平均提升19%智慧水泥能耗節約3000萬/年智能制造工業質檢準確率提升14%+智慧法務卷宗審核降低人工成本50倍企業財務異常識別準確率提升20%智慧金融藥物研發研發周期縮短10倍智慧物流1個模型替代9個模型完成貨品監控智慧鐵路車輛未知故障預測發現率提升1倍智慧節能中央空調節約能耗 15%智慧營銷提升銷售轉化率30%L1行業大模型L0基礎大模型高性能算力|超寬無損網絡|高性能存儲 行業應用醫藥大模型礦山大模型氣象大模型電力大模型視覺NLP多模態預測科學計算金融大模型基礎設施政務大模型DeepSeek降低大模型落地門檻,激發推理算力需求,加速大模型降低大模型落地門檻,激發推理算力需求,加速大模型走深向實走深向實謝謝!匯報人:WPS