《天津大學:2025深度解讀DeepSeek:原理與效應(44頁).pdf》由會員分享,可在線閱讀,更多相關《天津大學:2025深度解讀DeepSeek:原理與效應(44頁).pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、深度解讀DeepSeek:原理與效應天津大學自然語言處理實驗室The Natural Language Processing Laboratory at Tianjin University熊德意天津大學https:/dyxiong.github.iohttps:/tjunlp-lab.github.io伏羲傳語大語言模型發展路線圖0102DeepSeek V2-V3/R1技術原理03DeepSeek效應04未來展望報告目錄生成式AI:2014 2024AGI ASIENIAC1945達特茅斯會議1956圖靈測試1950ELIZA196620142024生成式AIAttention2014Tr
2、ansformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980專家系統1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各類數據(語言、語音、圖片、視頻等)o Attention:數據依存關系建模o Transformer:數據生成的統一架構o Scaling Laws:數據學習、生成的擴展法則o RLHF:生成與人類價值對齊的數據o o1/R1:生成式求解問題生成問題求解的過程和答案(推理)統計方法1990-2000sNN再興起2006-生成式AI:2014 2024AGI A
3、SIENIAC1945達特茅斯會議1956圖靈測試1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980專家系統1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各類數據(語言、語音、圖片、視頻等)o Attention:數據依存關系建模o Transformer:數據生成的統一架構o Scaling Laws:數據學習、生成的擴展法則o RLHF:生成與人類價值對齊的數據o o1/R1:生
4、成式求解問題生成復雜問題的答案(推理)統計方法1990-2000sNN再興起2006-生成式AI:2014 2024AGI ASIENIAC1945達特茅斯會議1956圖靈測試1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980專家系統1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各類數據(語言、語音、圖片、視頻等)o Attention:數據依存關系建模o Transformer:數
5、據生成的統一架構o Scaling Laws:數據學習、生成的擴展法則o RLHF:生成與人類價值對齊的數據o o1/R1:生成式求解問題生成復雜問題的答案(推理)統計方法1990-2000sNN再興起2006-生成式AI:2014 2024AGI ASIENIAC1945達特茅斯會議1956圖靈測試1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980專家系統1980-1987AI寒冬II1987-1990s生成式AI
6、:使用生成式模型生成各類數據(語言、語音、圖片、視頻等)o Attention:數據依存關系建模o Transformer:數據生成的統一架構o Scaling Laws:數據學習、生成的擴展法則o RLHF:生成與人類價值對齊的數據o o1/R1:生成式求解問題生成復雜問題的答案(推理)統計方法1990-2000sNN再興起2006-生成式AI:2014 2024AGI ASIENIAC1945達特茅斯會議1956圖靈測試1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatG
7、PT2022o1/R12024AI寒冬I1974-1980專家系統1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各類數據(語言、語音、圖片、視頻等)o Attention:數據依存關系建模o Transformer:數據生成的統一架構o Scaling Laws:數據學習、生成的擴展法則o RLHF:生成與人類價值對齊的數據o o1/R1:生成式求解問題生成復雜問題的答案(推理)統計方法1990-2000sNN再興起2006-自然語言處理與語言模型自然語言處理:人類語言的智能化處理與分析,使計算機具備聽、說、讀、寫、譯等人所具備的語言能力語言模型:自然語言統計
8、建模,簡單說,就是預測句子中的下一個單詞是什么大語言模型:2018 2024Zhao et al.A Survey of Large Language Models.arXiv:2303.18223大語言模型:技術棧算算力力管管理理數數據據處處理理和和管管理理通通用用模模型型行行業業模模型型資資源源分分配配負負載載均均衡衡任任務務調調度度性性能能監監控控彈彈性性擴擴展展容容錯錯機機制制質質量量篩篩選選預預訓訓練練數數據據內內容容過過濾濾數數據據去去重重語語言言檢檢測測領領域域分分類類版版本本控控制制G Ge en ne er ra al l-p pu ur rp po os se e M M
9、o od de el lD Da at ta a P Pr ro oc ce es ss si in ng g a an nd d M M a an na ag ge em m e en nt tC Co om m p pu ut ti in ng g M M a an na ag ge em m e en nt t硬硬件件軟軟件件H H1 10 00 0A A1 10 00 0M M I I3 35 50 0M M I I3 30 00 09 91 10 0B B9 91 10 0A A數數據據分分類類網網頁頁代代碼碼書書籍籍論論文文百百科科處處理理流流程程對對齊齊訓訓練練數數據據評評測測數
10、數據據價價值值對對齊齊知知識識能能力力安安全全可可信信專專業業領領域域P Pr ro om m p pt tR Re es sp po on ns se es sA AC CB BD D模模型型評評測測預預訓訓練練對對齊齊訓訓練練S SF FT TD DP PO OR RL LH HF FB Be es st t o of f N N s sa am m p pl li in ng gD Da at ta a P Pa ar ra al ll le el lP Pi ip pe el li in ne e P Pa ar ra al ll le el lS Se eq qu ue en nc
11、ce e P Pa ar ra al ll le el lE Ex xp pe er rt t P Pa ar ra al ll le el lZ Ze eR RO OF Fl la as sh hA At tt te en nt ti io on nT Te en ns so or r P Pa ar ra al ll le el l動動態態批批處處理理模模型型量量化化模模型型剪剪枝枝模模型型蒸蒸餾餾算算子子優優化化模模型型部部署署性性能能監監控控模模型型訓訓練練S Sp pe ec ci ia al li iz ze ed d M M o od de el l應應用用層層自自主主規規劃劃工
12、工具具調調用用信信息息檢檢索索智智能能客客服服圖圖文文創創作作代代碼碼生生成成A Ap pp pl li ic ca at ti io on n通通用用模模型型行行業業模模型型領領域域微微調調訓訓練練領領域域對對齊齊訓訓練練行行業業模模型型部部署署行行業業模模型型評評測測行行業業數數據據行行業業對對齊齊數數據據數據處理預訓練后訓練應用部署數據治理數據要素知識源頭基座模型自監督學習能力涌現對齊模型微調&強化安全可信紅隊測試商業落地模型壓縮o 訓練范式 預訓練 基座模型 后訓練 對齊模型 推理訓練 推理模型o 關鍵 模型架構 訓練算法 擴展法則大語言模型:生命周期與范式殺手锏:性能/成本 曲線|性
13、價比擴展法則Sasha Rush and Daniel Ritter.Speculations on Test-Time Scaling.2024大語言模型:后訓練范式成本高昂(上千萬)少數企業/實驗室可做成本較低大部分實驗室可做推理語言模型?MCTS過程獎勵模型PRMSasha Rush and Daniel Ritter.Speculations on Test-Time Scaling.2024大語言模型發展路線圖0102DeepSeek V2-V3/R1技術原理03DeepSeek效應04未來展望報告目錄DeepSeek:2023 2023.11DeepSeek V12024.5Dee
14、pSeek V22024.11DeepSeek R1-Lite2024.12DeepSeek V32025.01DeepSeek R1天邊的兩多云(國內外現狀)o 模型架構:大部分企業采用已驗證架構(試錯成本高昂)【不敢】o 推理模型:大部分實驗室仍在苦苦猜測摸索Q*/o1(OpenAI保密)【不知】DeepSeek:技術創新模型架構|V2DeepSeek V2主要創新o DeepSeekMoEo MLADeepSeekMoEo稀疏激活:計算不隨規模呈線性增長o相比傳統MoE:細粒度專家(共享+路由)o路由&通信改造:Device-Limited RoutingAuxiliary Loss f
15、or Load BalanceToken-Dropping StrategyMLA:低秩壓縮,降低KV cache占用空間V2規模:236B total parameters,21B activated parameters,128K context windowDeepSeek:技術創新模型架構|V2殺手锏:性能/成本 曲線|性價比訓練開銷存儲開銷生成速度DeepSeek:技術創新模型架構|V3DeepSeek V3主要創新o Infrastructureso Multi-Token Prediction(MTP)Infrastructureso減少流水線氣泡o高效節點間All-to-All
16、通信oFP8訓練o低精度存儲與通信MTP:一次預測多個topkenV3規模:671B total parameters,37B activated parameters,trained on 14.8T tokensDeepSeek:技術創新模型架構|V3殺手锏:性能/成本 曲線|性價比DeepSeek:技術創新模型架構|V3成本殺手锏:性能/成本 曲線|性價比During the pre-training state,training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours,i.e.,3.7
17、days on our own cluster with 2048 H800 GPUs.Consequently,our pre-training stage is completed in less than two months and costs 2664K GPU hours.成本大模型研發成本大模型部署推理成本大規模高性能加速器(折舊)大模型研發人員成本大模型架構技術探索成本大模型數據成本大模型最終訓練成本DeepSeek:技術創新創新程度DeepSeek V2-V3及R1在模型架構上選擇稀疏MoE模型而非稠密模型,并進行和積累了大量技術創新,包括MLA、FP8訓練、MoE All-
18、to-All通信瓶頸解決、MTP等,這些技術并不是所有都是原始創新,但是能夠進行如此多大模型架構底層創新的實驗室,在全世界可能也只有少數幾個;DeepSeek所有模型架構上的創新均是圍繞“降本增效”:在基本不損害性能前提下,盡可能通過算法挖掘和提升硬件訓練和解碼效率美國采取芯片禁令(全球三級管控)策略維持自己的AI領導地位,DeepSeek算法繞過了美國的算力護城河DeepSeek:技術創新推理模型|R1DeepSeek R1主要創新o DeepSeek-R1-Zero:大規模RL訓練,發現了RL訓練的Scaling Laws,RL訓練涌現“aha”時刻o 推理模型訓練技術框架:4步法,有效解
19、決了R1-Zero存在問題,將推理與對齊合為一體o 強化學習訓練框架:GRPO,來自DeepSeekMath,降低了強化學習訓練成本o 推理模型蒸餾:將大模型推理能力蒸餾到小模型,優于小模型直接進行推理訓練(規模效應)為什么MCTS+PRM是“誤區”o The bitter lesson:scalabilityo OpenAI競爭策略DeepSeek:技術創新推理模型|R1-Zero1.強化學習訓練規模大業內通常訓練幾十RL steps,DeepSeek訓練幾千RL stepsTlu 3 最大發布模型只訓練了50 RL steps2.RL Training Scaling Law:涌現refl
20、ection、aha自動涌現出搜索、反思、頓悟、糾錯與testing-time scaling law一致,可從性能增長曲線和長度增長曲線推出推理時scaling law3.通過prompt策略引導模型思考和給出答案,避免基座模型不能生成停止符使用標記R1-Zero存在問題:poor readability,language mixinghttps:/www.interconnects.ai/p/deepseek-r1-recipe-for-o1DeepSeek:技術創新推理模型|R1 RecipeDeepSeek-V3-baseDeepSeek-R1-Zero中間推理模型大規模強化學習Rea
21、soning Data長CoT數據SFT CheckpointStep 1.Reasoning SFTCold StartStep 0.Generating Long CoT dataFew-shot ICL+人工后期refiningRL-tuned ModelStep 2.Reasoning-oriented RL類似訓練R1-Zero直至訓練收斂General-Purpose ModelStep 3.Rejection Sampling SFT reasoning data(600K)general instruction data(200K)Step 3 Reasoning DataMa
22、th,Code,Logic(600K samples)Step 3 Instruction DataWriting,QA,trans,etc.(200K samples)DeepSeek-R1Step 4.General RLReasoning RL with rule-based rewardsRLHF Preference Tuning with safety rewardso DeepSeek-R1 不是唯一的推理模型框架,2025年將出現更多新的框架o 要復現上述框架,需要DeepSeek開源相關數據DeepSeek:技術創新推理模型|RL1.強化學習框架GRPO(DeepSeekMa
23、th)采用蒙特卡洛采用估算以取代Value模型,降低計算和存儲開銷2.強化學習獎勵模型o 采用easily verifiable rewardsAccuracy rewardFormat rewardLanguage-consistency rewardo 避免過程獎勵模型:計算復雜,容易reward hackingDeepSeek:技術創新推理模型|推理能力蒸餾Step 3 Reasoning DataMath,Code,Logic(600K samples)Step 3 Instruction DataWriting,QA,trans,etc.(200K samples)Qwen2.5-M
24、ath-1.5B,Qwen2.5-Math-7B,Qwen2.5-14B,Qwen2.5-32B,Llama-3.1-8B,and Llama-3.3-70B-InstructDeepSeek-R1-Distill-Qwen2.5DeepSeek-R1-Distill-LlamaSFT推理模型蒸餾到小模型o reasoning能力可以蒸餾到小模型o 大模型蒸餾到小模型優于小模型直接通過大規模RL訓練o 再次驗證了模型規模在AGI發展中的重要性o 推理者同樣需要規模支撐DeepSeek:技術創新推理模型|R1殺手锏:性能/成本 曲線|性價比DeepSeek:技術創新推理模型|R1TJUNLP實測
25、DeepSeek-R1邏輯推理性能DeepSeek:技術創新創新程度DeepSeek R1是在探明方向(OpenAI o1引領和證實的方向)上進行0-1的創新突破,獨立探索出基于大規模強化學習的大語言模型推理技術路線,避開了過去一年多(自OpenAI的Q*在社交媒體討論)業內廣泛思索的通過在訓練中進行顯式搜索、過程獎勵模型(即Search+PRM)實現推理的“誤區”;貢獻:o 獨立探索出推理技術路線o 將技術路線公開發布(解惑了業內的“不知”)o 模型開源(MIT License)DeepSeek R1打破了美國第一梯隊企業以閉源形成的技術護城河,進一步動搖了美國的“AI Dominance”
26、大語言模型發展路線圖0102DeepSeek V2-V3/R1技術原理03DeepSeek效應04未來展望報告目錄DeepSeek:效應算力價格戰開源 vs 閉源認知誤區創新&人才&VisionDeepSeek:效應算力價格戰產品:性價比永遠是王道技術也是如此數百億美元構建的前沿技術護城河一夜間被攻破DeepSeek:效應開源 vs 閉源GPT-3選擇閉源之后,大模型開源 vs 閉源之爭、之戰一直存在DeepSeek R1的開源發布,一舉趕超閉源大模型,是大模型開源史上的里程碑美國AI第一梯隊企業的前沿技術封閉被打破開源 vs 閉源不僅涉及技術的公開性,也關乎AI安全治理DeepSeek:效應
27、認知誤區如果ChatGPT刷新了我們對AI的認知,那么DeepSeek在某種程度上顛覆了:o 美國人對中國AI水平的認知:長久以來,美國認為中國在AI科技創新上更多是跟隨者角色o 大模型研發成本的認知:大模型研發成本需要數千萬乃至上億美元DeepSeek:效應創新&人才&Vision大模型頂尖人才技術型人才:銳意進行大模型底層技術創新和冒險(第一類人才)戰略型人才:具有AGI技術遠見和vision(第二類人才)關于Sora、國內大模型及通用人工智能趨勢 認識大模型(載于學習時報)o 第一類人才自我驅動性很強,技術敏感,不需要設定過多的條條框框,只需要給定方向,最大限度激發創新潛能o 突破:通常
28、要打破學科思維定勢,或者是本學科還沒有形成思維定勢的青年人才,或者與其他學科交叉o 技術型人才可成長為戰略型人才,始終對新事物保持敏銳,能長遠思考,具備遠大夢想DeepSeek:效應創新&人才&VisionDeepSeek V3和R1的創新,從技術上看,是在探明方向上的較大創新,相比別人同期做的1-100要更創新,筆者將其定義為探明技術方向上的0-1創新(獨立探索出技術路線),但不是顛覆了原有技術框架或者開辟了新的方向。探明方向上的0-1創新,如果有足夠多的第一類人才,加上足夠多的算力和高超的人才管理,是可以實現的,DeepSeek的成功正是得益于此;技術方向已經被探明了的“追趕”相對容易,難
29、的是在前面面向未知開路,即在未探明方向、未有概念上進行0到1創新、或者進行概念形成和驗證,這方面的創新是要更多膽量、更多vision、更多不計成本投入才能做到的,同時需要第二類人才與第一類人才緊密合作,形成雙反饋;來實現AGI可能還需要3-5個在未探明方向上進行0-1的創新突破;我國如果要在2030年實現“人工智能理論、技術與應用總體達到世界領先水平”,需要更多企業、高校、研究機構開展探明方向和未探明方向上的0-1創新;大語言模型發展路線圖0102DeepSeek V2-V3/R1技術原理03DeepSeek效應04未來展望報告目錄未來未來AGI/ASI可能還需要3-5個重大breakthro
30、ughs個人預測:技術角度看,人類所有職業實現AI自動化需要30年2014-2024重要突破:1.Attention2.Transformer3.Scaling Law4.RLHF5.o1/R1AGI Path當下1-5年5-10年10-20 年現階段正在突破技術,路線圖逐漸明確,可提出新的技術路線。推理者現階段應用和待突破技術,處于通用型0-1前半段,垂類的1-100階段。智能體第二個重大突破技術,處于0-1的概念完善階段,自動化科學研究/技術創新、科學idea發現、科學難題求解、AI Scientist。創新者第三個重大突破技術,處于0-1的概念形成階段,AI自組織、自管理、自推進,為人類
31、或團體安排事項、管理科學、社會等重要領域。組織者可解釋性與安全極具挑戰,需要多個重大突破,目前處于0-1階段??茖W(研究/發現)范式第1范式:經驗科學觀察現象經驗1600年第2范式:理論科學理論模型牛頓定律、電動力學方程等1950年第3范式:計算科學數值計算模擬2010年第4范式:數據驅動科學大數據數據建模、分析、挖掘2022年第5范式:智能驅動科學大模型、智能體自動化科學研究2023年DeepSeek R2 Deep ScienceoR1訓練速度非???,3min/stepoDeepSeek具有快速迭代推理大模型的優勢oR2可能很快發布oR1主要聚焦于數學、代碼、邏輯推理,要使大模型真正達到通
32、用Reasoner、問題求解器,需要進行更多領域RL訓練OpenAI RL Finetuning?科研人員機會:AI reasoning+researchNathan Lambert.How to approach post-training for AI applications.2024.12AI Safety現階段DeepSeek R1注重推理能力的提升,某種程度上,模型安全性有所降低,但模型安全和推理并不沖突,大模型安全需要推理能力加持,R1推理能力可以應用于大模型安全并加強之推理+安全:創新解決方案(需要突破)?TJUNLP實測DeepSeek-R1自主AI安全Shi et al.,2024.Large Language Model Safety:A Holistic Surveyhttps:/arxiv.org/pdf/2412.17686感謝TJUNLP大模型基準測試