《北京大學:2025年DeepSeek-R1/Kimi 1.5及類強推理模型開發解讀報告(76頁).pdf》由會員分享,可在線閱讀,更多相關《北京大學:2025年DeepSeek-R1/Kimi 1.5及類強推理模型開發解讀報告(76頁).pdf(76頁珍藏版)》請在三個皮匠報告上搜索。
1、DeepSeekDeepSeek-R1 R1 Kimi 1.5 Kimi 1.5 及類強推理模型開發解讀北大對齊小組陳博遠北京大學2022級“通班”主要研究方向:大語言模型對齊與可擴展監督https:/cby-pku.github.io/https:/pair- DeepSeek-R1 開創RL加持下強推理慢思考范式新邊界 DeepSeek-R1 Zero 及 R1 技術剖析 Pipeline 總覽 DeepSeek-V3 Base DeepSeek-R1 Zero 及 R1 細節分析 RL 算法的創新:GRPO及其技術細節 DeepSeek-R1 背后的Insights&Takeaways:
2、RL加持下的長度泛化 推理范式的涌現 DeepSeek-R1 社會及經濟效益 技術對比探討 STaR-based Methods vs.RL-based Methods 強推理路徑對比(DS-R1 Kimi-1.5 o-series)蒸餾 vs.強化學習驅動:國內外現有各家技術路線對比分析及Takeaways PRM&MCTS 的作用 從文本模態到多模態 其他討論:Over-Thinking 過度思考等 未來方向分析探討 模態穿透賦能推理邊界拓展:Align-DS-V 合成數據及Test-Time Scaling:突破數據再生產陷阱 強推理下的安全:形式化驗證 Formal Verificat
3、ion 審計對齊 Deliberative Alignment 補充拓展:DeepSeek-V3 解讀3DeepSeekDeepSeek-R1 R1 開創RLRL加持下強推理慢思考范式新邊界 OpenAI o1 開啟后訓練 Post-Training 時代下的RL新范式:后訓練擴展律 Post-Training Scaling Law DS-R1 獨立發現了一些通往o1路上的核心理念,并且效果還好到受到了OpenAI 的認可 如何通過有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力?得益于純大規模強化學習,DeepSeek-R1 具備強大
4、推理能力與長文本思考能力,繼開源來備受關注。DeepSeek R1-Zero 和 R1的出現再次證明了強化學習的潛力所在:R1-Zero 從基礎模型開始構建,完全依賴強化學習,而不使用人類專家標注的監督微調(SFT);隨著訓練步驟增加,模型逐漸展現出長文本推理及長鏈推理能力;隨著推理路徑增長,模型表現出自我修復和啟發式搜索的能力;4DeepSeekDeepSeek-R1 R1 開創RLRL加持下強推理慢思考范式新邊界 得益于強大的推理能力與長文本思考能力,DeepSeek R1在復雜任務上表現卓越,成為開源領域的又一里程碑,標志著開源社區在與閉源大模型(如 OpenAI o1 系列)的競爭中邁
5、出了關鍵性一步。DeepSeek-R1 在數學代碼任務上表現突出 Deepseek R1在AIME2024上獲得了79.8%的成績,略高于OpenAI-o1-1217。在MATH-500上,獲得97.3%的驚人成績,表現與OpenAI-o1-1217相當。在編碼相關的任務中表現出專家水平,在Codeforces上獲得了2029 Elo評級,在競賽中表現優于96.3%的人類參與者 DeepSeek-R1 在知識類問答上推動科學探索邊界:MMLU MMLU-Pro GPQA Diamond 等 STEM-related 榜單上取得良好表現 R1 展現出強推理模型在AI-Driven Researc
6、h 的潛力 在長文本依賴任務如 FRAMEs 和 事實性推斷任務 Simple-QA上表現突出5回顧:PrePre-Training Scaling LawTraining Scaling LawPre-Training Scaling Laws:預訓練模型上廣泛觀察到的現象,協調了計算量C、模型參數量N和數據大小D之間的關系6回顧:PostPost-Training Scaling LawTraining Scaling LawPost-Training 階段,隨著訓練時計算量(來自RL的Training階段)和 Test-Time 計算量(例如Test-Time Search)的增長,模型
7、性能(例如數學推理能力)也會隨之提升Post-Training Scaling Laws 下 訓練時計算量 多了一個新的變量:Self-Play 探索時 LLM Inference 的計算量1 https:/ Scaling LawTraining Scaling Law為什么我們需要后訓練 Scaling-Law?隨著模型尺寸逐漸增大,預訓練階段參數 Scaling Up 帶來的邊際收益開始遞減;如果想要深度提升模型推理能力和長程問題能力,基于RL的 Post-Training 將會成為下一個突破點。自回歸模型在數學推理問題上很難進步的一點在于沒有辦法進行回答的自主修正,如果僅是依靠生成式方
8、法和擴大參數規模,那么在數學推理任務上帶來的收益不會太大。所以需要尋找額外的 Scaling Laws 1。1 Training Verifiers to Solve Math Word Problems https:/arxiv.org/pdf/2110.141682 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters8DeepSeekDeepSeek-R1 R1 技術剖析:DeepSeekDeepSeek-R1 Zero R1 Zero DeepSeek-R1
9、 Zero:無需監督微調SFT,純強化學習驅動的強推理模型DeepSeek-v3-Base(671B)DeepSeek-R1-Zero基于規則的獎勵 Rule-Based Reward推理為中心的大規模強化學習Large-Scale Reasoning-Oriented RL大規模推理為中心的強化學習,提升模型數學代碼能力RL驅動下自然涌現長文本推理能力9DeepSeekDeepSeek-R1 R1 技術剖析:DeepSeekDeepSeek-R1 Zero R1 Zero DeepSeek-R1 Zero:無需監督微調SFT,純強化學習驅動的強推理模型 獎勵建模:基于規則的獎勵(Rule-B
10、ased Reward):準確率獎勵+格式獎勵 準確率獎勵 Accuracy Rewards:判斷答案是否是正確的 格式獎勵Format Rewards:規勸模型生成答案的過程是 和 沒有使用Reward Model,因為ORM和PRM等基于神經網絡的都可能遭受reward hacking而retraining reward model 需要大量的計算資源,可能會復雜化整個流程 訓練模板:選擇最簡單的 Thinking Process,直接觀察到最直接的RL過程下的表現基于規則的獎勵(Rule-Based Reward):準確率獎勵+格式獎勵10DeepSeekDeepSeek-R1 R1 技
11、術剖析:DeepSeekDeepSeek-R1 Zero R1 Zero DeepSeek-R1 Zero:無需監督微調SFT,純強化學習驅動的強推理模型 推理為中心大規模強化學習:組相對策略優化(GRPO)+瞄準 Reasoning 推理任務 自我迭代提升Self-Evolution:隨著訓練步數的增長,模型的thinking response length 逐漸增加(對應著 test-time computation increasing)Aha moment:自然學會增加更多的推理時間,反思評價先前步驟、探索其他方法RL驅動下自然涌現 Long-CoT 能力“Aha”Moment11De
12、epSeekDeepSeek-R1 R1 技術剖析:DeepSeekDeepSeek-R1 Zero R1 Zero DeepSeek-R1 Zero的關鍵啟示 傳統RLHF背景下,SFT通常被認為是不可或缺的一步,其邏輯先用大量人工標注的數據來讓模型初步掌握某種能力(如對話或者語言風格),然后再用RL來進一步優化性能 DeepSeek-R1 系列跳過對于大規模人工標注數據的依賴 無需構建和維護高質量的SFT數據集,而是讓模型直接在RL環境中進行探索 類比:初學者在沒有老師指導的情況下,通過不斷的嘗試和錯誤來掌握一門新的技能。這種自主學習的方式,不僅節省了大量的標注成本;更重要的是,它讓模型能
13、夠自由地探索解決問題的路徑,而不是被預先設定的模式所束縛。12DeepSeekDeepSeek-R1 R1 技術剖析:DeepSeekDeepSeek-R1 Zero R1 Zero DeepSeek-R1 Zero的關鍵啟示 跳過SFT階段,直接運用純強化學習拓展推理能力邊界實際上也帶來了幾個很重要的啟示:需要足夠強的基座模型:基座模型(DeepSeek-V3 Base)超過了某個質量和能力閾值(671B 在14.8T 高質量Token上訓練)(基座模型知識幫助突破推理上界,也有一些工作利用小模型復現 Aha Moment 得益于大規模RL和高質量推理數據);大規模強化學習加持:GRPO 對
14、于強化學習訓練的優化;規則化獎勵:繞過獎勵攻陷問題,但是得益于推理問題可以進行自動化標記和驗證(Self-Automated Verification and Annotation),這是與一般聊天和寫作請求任務不同的;13DeepSeekDeepSeek-R1 R1 技術剖析:DeepSeekDeepSeek-R1 Zero R1 Zero DeepSeek-R1 Zero的關鍵啟示:舉例-自動化標記和驗證 示例輸入:編寫 python 代碼,該代碼采用數字列表,按排序順序返回,在開始時添加 42。自動化驗證方法:利用軟件檢查代碼補全判斷是否為完整代碼;執行Python代碼檢查運行情況判斷是
15、否為可運行代碼;調用外部模塊構建額外的檢測單元;甚至可以更進一步,測量執行時間,使訓練過程首選性能更高的解決方案;以上均可以作為小批量訓練(Mini-Batch)和連續訓練過程中的獎勵信號14DeepSeekDeepSeek-R1 R1 技術剖析:DeepSeekDeepSeek-R1 Zero R1 Zero DeepSeek-R1 Zero的關鍵啟示:舉例-自動化標記和驗證 示例輸入:編寫 python 代碼,該代碼采用數字列表,按排序順序返回,在開始時添加 42?;谝巹t進行驗證,并在Mini-Batch中提供獎勵信號;1 https:/newsletter.languagemodels
16、.co/p/the-illustrated-deepseek-r115DeepSeekDeepSeek-R1 R1 技術 Pipeline Pipeline 總覽 DeepSeek-R1 Zero 的問題:長推理過程可讀性差、語言混合,幫助性低 Research Questions:能否在Zero基礎上兼顧推理性能的同時,提升模型的幫助性和安全性?例如產生 Clear&Coherent CoT 并且展現出通用能力的模型 R1;能否利用一些高質量反思數據集做 Cold Start 從而加速RL的收斂或幫助提升推理表現16DeepSeekDeepSeek-R1 R1 技術 Pipeline Pip
17、eline 總覽DeepSeek-v3-Base(671B)DeepSeek-R1-Zero推理為中心的大規模強化學習(GRPO)Large-Scale Reasoning-Oriented RL基于規則的獎勵 Rule-Based Reward正確率獎勵格式獎勵反思數據冷啟動 Cold StartDeepSeek-v3-Base(671B)雙重驗證推理為中心的 RL數學代碼推理任務流暢性獎勵正確率獎勵Intermediate Model(推理鏈可讀性更強)Stage I:推理鏈可讀性拒絕采樣和全領域SFT600k 推理數據(Rule-based+Generative 獎勵)200k 通用數據
18、(Writing Role-Play etc.)Stage II:通用能力&安全性DeepSeek-R1全領域RL All-Scenarios RL推理任務 規則獎勵(Rule-based Reward)通用任務 偏好建模(Reward Model)17DeepSeekDeepSeek-R1 R1 技術 Pipeline Pipeline 總覽 冷啟動 Cold Start 數據準備:few-shot long cot data,詳細帶反思和驗證的數據集 雙重驗證:由人類注釋者和 R1-zero 生成的高質量鏈式思考(Chain-of-Thought,CoT)數據,部分樣本長度達到 10,00
19、0 Token 成效:提供一些 Human Prior 顯著提升了語言的語義連貫性、可讀性和基本推理能力。推理為中心RL Reasoning-Oriented RL 增加了大規模的RL訓練過程:和DeepSeek-R1 Zero 基本一致,主要是提升Reasoning的能力,包括coding mathematics logic reasoning 等帶有明確解答過程的問題 語言一致性獎勵:引入 language consistency reward 衡量長推理鏈可讀性(通過計算CoT過程中目標語言的占比)推理準確率獎勵:結合 accuracy of reasoning tasks and re
20、ward for language consistency 成效:通過 GRPO,模型在 AIME 2024 等數學基準上取得了顯著提升,pass1 從 15.6%提高到 71.0%。此外,模型能夠自發延長推理鏈條,展現出更強的邏輯連貫性。反思數據冷啟動 Cold StartDeepSeek-v3-Base(671B)雙重驗證推理為中心的 RL數學代碼推理任務流暢性獎勵正確率獎勵Intermediate Model(推理鏈可讀性更強)Stage I:推理鏈可讀性18DeepSeekDeepSeek-R1 R1 技術 Pipeline Pipeline 總覽 拒絕采樣和全領域SFT Reject
21、ion Sampling and SFT 當上一個階段的RL收斂之后,再進行SFT 和之前Cold-Start 的數據不同,這部分SFT主要是負責全領域任務 600k 推理任務:(1)基于規則的獎勵(2)利用批判模型融合生成式獎勵 200k 通用任務(writing role-playing general-purpose)成效:使模型在推理能力不減的前提下,語言表現更為自然,適應性更為廣泛。全領域RL RL for all Scenarios 進一步提升除了reasoning 能力之外幫助性和安全性 對于reasoning data,可以用基于規則的獎勵 對于general data,可以用
22、獎勵模型來建模人類偏好意圖 成效:最終版本的 R1 不僅在推理和對話能力上達到了高水平,還具備更安全的交互性能。拒絕采樣和全領域SFT600k 推理數據(Rule-based+Generative 獎勵)200k 通用數據(Writing Role-Play etc.)Stage II:通用能力&安全性DeepSeek-R1全領域RL All-Scenarios RL推理任務 規則獎勵(Rule-based Reward)通用任務 偏好建模(Reward Model)19DeepSeekDeepSeek-R1 Takeaways R1 Takeaways 技術亮點總結:Part I Part
23、I Pure RL to Develop Reasoning Capabilities:社區的復現都涉及蒸餾和搜索,而DS-R1 Zero 跳過監督微調SFT階段,展現出大規模強化學習的潛力,這也得益于以下幾點:需要足夠強的基座模型:基座模型(DeepSeek-V3 Base)超過了某個質量和能力閾值(671B 在14.8T 高質量Token上訓練);大規模強化學習加持:GRPO 對于強化學習訓練的優化;規則化獎勵:繞過獎勵攻陷問題,但是得益于推理問題可以進行自動化標記和驗證(Self-Automated Verification and Annotation),這是與一般聊天和寫作請求任務不
24、同的 訓練步數的增長,模型的thinking response length 逐漸增加(test-time computation increasing)DeepSeek-R1-Zero 自主涌現學會重新評測原來的方法、反思和主動探索其他的路徑 多階段訓練下的冷啟動讓RL訓練更加穩定,避免初期不穩定、加速收斂、提升思維鏈可讀性 未來后訓練的重心會逐步傾向于RL,但是少量訓練用于SFT可能還是必須的 強化學習技術不只局限在基于規則的數學、算法代碼等容易提供獎勵的領域,它還可以創造性地把強化學習所帶來的強推理能力,泛化到其他領域20DeepSeekDeepSeek-R1 R1 技術剖析:背后的教師
25、模型 DeepSeekDeepSeek-V3 V3 基座模型(DeepSeek-V3 Base)超過了某個質量和能力閾值(671B 在14.8T 高質量Token上訓練)提供了類似于 System I 的足夠好的 Prior Distribution 直覺,后期RL探索過程進一步挖掘激活 大規模RL起到了激活和發掘預訓練階段積累的知識和推理能力的作用 DeepSeek-V3 低成本(5,576,000美元)帶來驚艷效果 MoE 架構 671B 激活37B 使用 Multi-head Latent Attention(MLA)架構 2048張 H800 計算:54天21DeepSeekDeepS
26、eek-R1 R1 技術剖析:RLRL 加持下的 Length Length 泛化&推理范式涌現 大規模RL的加持下,DeepSeek-R1 Zero 表現出在推理任務上思維鏈長度的自然增長和涌現 反思深度逐層加深,出現標記不明確的步驟、保持中間結論、驗證、混合語言推理等現象 模型在準確率獎勵和格式獎勵下自然探索到 驗證、回溯、總結、反思 的行為范式 如何控制來保證最后的response 長度能夠穩定上升,可能會出現反復重復驗證、或者驗證時間過晚的情況;(REINFORCE 系列更快;PPO訓練穩定但是慢)多語言可能是因為預訓練數據是多語言的,“一視同仁”被 Tokenization,不同的領
27、域的不同語言編碼是否有不同優勢?DS-R1 Zero 長度涌現現象社區復現結果 1社區復現結果 2DeepSeek-R1 長度泛化復現:https:/ R1 技術剖析:GRPOGRPO 賦能RLRL-ScaleScale GRPO核心思想是通過構建多個模型輸出的群組,并計算群組內的相對獎勵來估計基線,從而避免了傳統策略優化算法中需要使用與策略模型大小相同的評論模型。大幅度降低 RL 訓練的計算成本,同時還能保證模型能夠有效地學習到策略。具體來說,在傳統的 RL 訓練中,評論模型需要與策略模型具有相同的大小,增加計算資源的消耗。而 GRPO 算法利用群組內的相對信息來估計基線,避免了使用Crit
28、ic Model的需要。此外,GRPO 算法還引入了一些額外的優化策略(獎勵縮放和策略裁剪),提升訓練的穩定性。From PPO to GRPO:PPO 作為 Actor-Critic 算法被廣泛運用于 Post-Training,核心目標是最大化下面的目標函數 其中,和 分別表示當前策略模型和舊策略模型,q,o是從問題數據集和舊策略 中采樣的輸入和輸出,是基于廣義優勢估計(GAE)計算的優勢值,依賴于獎勵序列t 和學習的價值函數。因此,PPO需要同時訓練策略模型和價值函數。為避免獎勵模型的過度優化,標準做法是在每個詞元的獎勵中添加與參考模型的KL懲罰項23DeepSeekDeepSeek-R
29、1 R1 技術剖析:GRPOGRPO 賦能RLRL-ScaleScaleFrom PPO to GRPO:PPO的價值函數通常是與策略模型規模相當的獨立模型,這帶來了巨大的內存和計算負擔。獎勵模型通常僅對輸出序列的最后一個詞元分配獎勵,導致逐詞元價值函數的訓練復雜化。GRPO:無需像PPO額外近似價值函數,而是利用同一問題下多個采樣輸出的平均獎勵作為基線。具體而言,對于每個問題,GRPO從舊策略中采樣一組輸出,并通過最大化以下目標優化策略模型:通過群組相對方式計算優勢值,與獎勵模型的對比性質(通?;谕粏栴}的輸出比較訓練)天然契合;此外,GRPO直接將策略模型與參考模型的KL散度作為正則項加
30、入損失函數,而非將其混入獎勵計算,簡化了優勢值的計算。DeepSeekMath https:/arxiv.org/pdf/2402.0330024DeepSeekDeepSeek-R1 R1 技術剖析:GRPOGRPO 賦能RLRL-ScaleScaleFrom PPO to GRPO:基于結果監督的GRPO:對于每個問題q,從舊策略模型采樣一組輸出 1,2,3,,獎勵模型為每個輸出生成獎勵1,2,3,。隨后,獎勵通過減去組內均值并除以標準差進行歸一化。結果監督將歸一化后的獎勵分配給每個輸出的末尾詞元,并將所有詞元的優勢設為該歸一化獎勵;基于過程監督的GRPO:結果監督僅提供輸出末尾的獎勵,對
31、復雜數學任務的策略指導不足 對問題 q 和采樣輸出 1,2,3,,過程獎勵模型為每個步驟生成獎勵:=1 1,1 2,1 1,1,2,其中 是第 步的末尾詞元索引,是第 個輸出的總步數。歸一化后,優勢值為后續步驟歸一化獎勵的累加和DeepSeekMath https:/arxiv.org/pdf/2402.03300基于結果監督的GRPO優勢值估計基于過程監督的GRPO優勢值估計25DeepSeekDeepSeek-R1 Takeaways R1 Takeaways 總結 Part IIPart II DS-R1 Zero 跳過監督微調SFT階段,展現出大規模強化學習的潛力。這種自主學習的方式,
32、不僅節省了大量的標注成本,而且讓模型更自由的探索解決問題的路徑,而不是被預先設定的模式所束縛。這也使得模型最終具備了更加強大的泛化能力和適應能力。為了充分釋放 GRPO 的潛力并確保訓練穩定性,DeepSeek R1 的訓練中采用了四階段的交替迭代流程:“監督微調(SFT)強化學習(RL)再次 SFT 再次 RL”,有效解決了傳統強化學習模型在冷啟動、收斂效率和多場景適應性方面的瓶頸。強大的自驗證和長鏈推理能力:并非預先設定好的,而是在RL訓練中自主涌現出來的 自驗證是指模型在生成最終答案之前,會先主動地驗證自己的中間推理步驟是否正確。這就像一個學生在做題時,會反復檢查自己的解題過程,以確保答
33、案的準確性。反思是指模型會回溯檢查自己之前的推理過程,并根據檢查的結果進行修正,相當于一個學生在復習時,會反思自己之前的錯誤,以便下次不再犯同樣的錯誤。而長鏈推理能力則讓模型能夠處理更復雜、更需要多步驟思考的問題。這種能力對于解決一些需要跨越多個邏輯步驟才能找到答案的問題至關重要,例如復雜的數學題或邏輯謎題。冷啟動讓RL訓練更加穩定:避免 RL 訓練初期的不穩定,使得模型能夠更快地進入穩定的訓練狀態;有效地加速 RL 訓練的收斂,縮短訓練時間;提高模型輸出的可讀性,減少不同語言混合使用的情況。26DeepSeekDeepSeek-R1 Takeaways R1 Takeaways 總結 Par
34、t IIPart II 推理為中心的RL訓練:語言一致性獎勵,以解決模型在多語言環境中進行推理時,出現語言混合的問題。對推理鏈的質量進行細致的評估,并通過獎勵機制引導模型生成更加合理、準確的推理過程。多目標優化:兼顧推理性能、幫助性和安全性;蒸餾的潛力:蒸餾可以幫助將更大模型通過RL發現的高階推理范式蒸餾到小模型中,這比用小模型直接使用大規模RL發現的推理范式要更加有效;基于群組的相對策略優化(GRPO):通過構建多個模型輸出的群組,并計算群組內的相對獎勵來估計基線,從而避免了傳統策略優化算法中需要使用與策略模型大小相同的評論模型 降低 RL 訓練的計算成本 保證模型能夠有效地學習到策略 獎勵
35、機制的設計:兼顧推理能力和語言一致性 準確率獎勵和格式獎勵,從而保證模型不僅能夠正確地解決問題,還能夠以規范、易讀的方式輸出答案 格式獎勵:用于強制模型將推理過程放置在特定的標簽內,用 和 標簽來包裹推理過程,使用 和 標簽來包裹最終答案。語言一致性獎勵:懲罰在推理過程中使用了多種語言的輸出,鼓勵模型盡可能地使用一種目標語言進行推理,從而保證模型輸出的語言風格一致性27DeepSeekDeepSeek-R1 R1 社會和經濟效益低成本高質量語言模型邊界的探索,擴展的具體方法和側重點改變:最初是模型規模,然后是數據集規模,現在是推理時的計算資源和合成數據;垂直領域和橫向拓展:采用API+本地化知
36、識庫或提示工程+檢索增強的混合方案,通過Prompt Engineering和RAG等技術實現業務場景的快速適配與輕量定制,同時建立完善的運維合規體系,確保數據處理全流程的安全性與合法性。資本市場的劇烈波動是AI技術快速迭代引發的短期現象,表現為研發投入和數據中心建設成本激增,這在近期美股科技股的震蕩中得以集中體現;而從長期來看,行業將陷入算力軍備競賽的循環,每一輪技術突破和應用場景擴展都將催生新的算力需求與資源投入,持續重塑行業競爭格局。資源優化:隨著模型使用方案的平民化,中小企業和個人開發者得以將有限資源聚焦于場景創新與技術優化,無需在基礎能力建設或算力消耗上投入過多成本。市場激活:這種高
37、性價比、低門檻的大模型服務模式,將吸引更多初創團隊涌入賽道,催生多元化的應用場景和技術路徑,推動行業生態的繁榮發展。高效創新:在有限算力資源支持下,算法創新模式,突破了算力的“卡脖子”限制28技術對比討論:Kimi K1.5 Moonshot Kimi K1.5 Moonshot Kimi K1.5 Main ResultKimi K1.5 Long2Short ResultK1.5 專注于用長文本CoT 解決推理時Scaling問題 利用 RL 探索:Kimi k1.5 的核心思想是利用強化學習,讓模型通過試錯(探索)來學習解決問題的能力,而不是僅僅依賴于靜態數據集。長文本 CoT 的 RL
38、:將 RL 應用于長文本CoT推理過程,使模型能夠進行更深入、更復雜的推理。隱式規劃:通過增加上下文長度,讓模型在生成 CoT 的過程中進行隱式的規劃、反思和修正,無需顯式的搜索樹或價值函數。長文本能力是關鍵:核心洞察是長文本能力是強化學習訓練LLM的關鍵,而不是更復雜的訓練技巧。長文本到短文本:通過長文本 CoT 模型來指導短文本 CoT 模型的訓練,從而在有限的計算資源下獲得更好的性能。29技術對比討論:Kimi K1.5 Moonshot Kimi K1.5 Moonshot 四個階段 Pretraining-SFT-Long-CoT SFT RL RL Prompt Set Curat
39、ion RL 問題的準備 Diverse Coverage:涵蓋STEM coding general reasoning 的數據 Balanced Difficulty:涵蓋不同的complexity 難度 Accurate Evaluability:能夠被Verifiers 準確評價,從而防止泛化出 一些reward hacking 和 superficial patterns 的行為 Long-CoT SFT 用Prompt Engineering 造了一個高質量LongCoT warmup dataset 包含了準確的 verified reasoning paths for both
40、 image and text inputs 涵蓋了 planning evaluation reflection exploration 多種范式RL Infrastructure System30 強化學習:從 In-Context RL 的角度出發,直接訓練模型approximate Planning的過程(例如將Search中,state 和 value 等信息都視為 Language Tokens)策略優化:建模成 Contextual Bandit,用 REINFORCE 變種進行優化 長度懲罰:引入長度懲罰機制,防止模型生成過長的推理過程,提高計算效率。Overthinking的
41、行為:可能會導致更好的表現,但是會帶來training 和 inference過程中極大的損耗 采樣策略 課程學習(Curriculum Learning):根據問題的難度,先讓模型學習容易的例子,再逐漸引入更難的例子,這種循序漸進的方式有助于模型更好地掌握知識。優先采樣(Prioritized Sampling):根據問題的難度或模型對問題的掌握程度來調整采樣概率。模型更傾向于采樣那些困難的、或者模型不擅長的問題,提高訓練效率。技術對比討論:Kimi K1.5 Moonshot Kimi K1.5 Moonshot 策略優化損失函數長度懲罰獎勵31 Vision Data 構造 真實世界數據
42、 包括各個年級的科學問題,這些問題需要圖形理解和推理能力;還包括需要視覺感知和推理能力的位置猜測任務;以及涉及復雜圖表理解的數據分析任務等。這些數據集提升了模型在真實世界場景中的視覺推理能力。合成視覺推理數據 是人工生成的,包括程序化創建的圖像和場景,旨在提高特定的視覺推理技能,例如理解空間關系、幾何模式和物體交互。這些合成數據集提供了可控環境,用于測試模型的視覺推理能力,并且可以無限生成訓練樣本。文本渲染數據 是通過將文本內容轉換為視覺格式創建的,使模型能夠在不同模態下保持一致的文本處理能力。通過將文本文檔、代碼片段和結構化數據轉換為圖像,確保模型無論接收的是純文本輸入還是截圖或照片中的文本
43、,都能提供一致的響應。這也有助于增強模型在處理文本密集型圖像(如截圖、表格、公式等)時的能力。Long2Short 方法 模型融合:將長文本 CoT 模型和短文本 CoT 模型的權重進行平均,得到一個新的模型。最短拒絕采樣;Short Rejection Sampling:從多個采樣結果中選擇最短且正確的答案 然后做SFT DPO(Direct Preference Optimization):使用長文本 CoT 模型生成的答案作為偏好數據來訓練Short CoT 模型。Long2short RL:在標準 RL 訓練后,使用長度懲罰對模型進行微調,進一步提高短文本 CoT 模型的效率。技術對比
44、討論:Kimi K1.5 Moonshot Kimi K1.5 Moonshot 32技術對比討論:Kimi K1.5 vs.DeepSeek-R1 ComparisonKimi K1.5 Main ResultDS-R1 Main Result 二者都關注RL的方法帶來的提升,MCTS 和 PRM 沒有被使用(Reward Hacking 的考慮)MCTS 是一種 Structure,A*也是 Structure,人為加入 Inductive Bias 強求LLM按照結構化先驗進行思考可能會限制模型的能力;PRM 容易被 Reward Hacking,且 絕對值 Value 很難準確 Kim
45、i K1.5 更多是從 In-Context RL 的角度出發,直接訓練模型approximate Planning的過程(例如將Search中,state 和 value 等信息都視為 Language Tokens)DS-R1 是從純RL入手,利用 GPRO+Rule-Based Reward 激活模型能力 核心觀念:不管模型中間做錯了什么,只要不是重復的,那么最后模型做對了,我們就認為這是一個好的探索,值得鼓勵。反之,如果模型一頓探索,最后做錯了,那么再努力也是錯,要懲罰。33技術對比討論:Kimi K1.5 vs.DeepSeek-R1 Comparison Takeaways GRP
46、O:利用同一問題下多個采樣輸出的平均獎勵作為基線,從而無需額外近似價值函數。這種機制通過群組相對方式計算優勢值,與獎勵模型基于同一問題的輸出比較訓練的特性天然契合。此外,GRPO直接將策略模型與參考模型的KL散度作為正則項加入損失函數,而非將其混入獎勵計算,簡化了優勢值的計算過程。這使得GRPO在大規模強化學習任務中,特別是在處理復雜的推理任務時,能夠更有效地優化策略模型,同時保持較高的計算效率。Kimi K1.5 采用的變種Mirror Descent可以在保證學習穩定性的同時,促進模型對復雜推理任務的理解深度,如逐層加深反思、驗證、回溯等行為范式的形成。它允許模型自然地探索到驗證、回溯、總
47、結、反思的行為模式,這些對于提高模型在推理任務中的表現至關重要。后訓練Pipeline對于提升模型推理能力的重要性不可忽視。隨著測試階段算力和訓練階段探索算力的增加,根據后訓練Scaling Law,模型的表現將持續得到改善。理想的數據構建應當覆蓋廣泛的類別,并且難度分級明確,這有利于實現類似課程學習的效果,逐步提高模型的能力。在獎勵建模時,必須確?;讵剟钅P偷莫剟顧C制不會被輕易攻陷。平衡推理長度與推理正確率之間的關系。例如,針對一個序列中的下一個動作,若存在一個是錯誤答案而另一個是正確答案的情況,傳統的方法會傾向于提升選擇正確答案的概率,同時降低選擇錯誤答案的概率。然而,從推理長度的角度來
48、看,有時選擇看似錯誤的答案可能會引導模型進入自我修正的過程,這種自我修正機制以及更長的推理路徑同樣對提升模型的整體推理能力至關重要。34技術對比討論:強推理路徑 Pure RL vs Pure RL vs STaRSTaR-basedbased回顧:STaR推理:起始數據集僅有 Question,Answer,首先利用一些帶有推理過程的 Few-Shot Examples 來 Prompt 模型對于數據集中的問題生成對應的推理過程和答案。過濾:如果生成的答案正確,則將推理過程加入到原有的數據集中;如果生成的答案錯誤,則嘗試在給出正確答案的前提下再次生成推理過程。將最終生成正確答案的推理收集,構
49、建一個構建一個微調數據集 Question,Rationale,Answer 進行微調。迭代:重復這一過程,且每次獲得一個新的數據集,都從原始的模型開始進行 Fine-tune 從而防止過擬合。1 STaR:Bootstrapping Reasoning With Reasoning35技術對比討論:強推理路徑 Pure RL vs Pure RL vs STaRSTaR-basedbased回顧:STaR 與RL的聯系模型首先采樣潛在的推理路徑(rationale)的過程類似于 RL 中通過策略選擇動作(action),基于環境狀態選擇一個可能的策略路徑。STaR 中,通過計算目標函數,模型
50、對整個數據集的預測結果進行評估,并且只根據預測正確的樣本更新模型。STaR 在同一批數據上進行多次梯度更新,這類似于某些策略梯度算法中的策略,即通過多次調整同一批數據來穩定學習過程。1 STaR:Bootstrapping Reasoning With Reasoning36技術對比討論:強推理路徑 Pure RL vs Pure RL vs STaRSTaR-basedbased1 STaR:Bootstrapping Reasoning With ReasoningTakeaways:STaR 的核心思路是將思考過程建模到語言模型的Next Token Prediction 中,通過反復自
51、我迭代和監督微調 基于STaR 可以進一步將這種思路擴展到思考過程是搜索過程的特例,比如rStar-Math,SoS 都可以用類似的思路來理解。本質上,STaR一類的方法是希望模型能夠學習到MetaCoT,即問題到答案映射過程背后的深入規律 但是對于問題的結構要求性高,對于復雜數學推理任務可能難以自我迭代 難以融入 Rule-Based Reward for RL訓練 PureRL加持下,業界的技術實踐更多Focus on 直接利用RL激活基座模型的推理潛力,通過構建rule-based reward,額外加上RL Data的設計,激活模型的內部本身的推理能力 Reward Model 的一些
52、嘗試如PRM,會遇到reward hacking,value 不準,難以泛化等問題37技術對比討論:蒸餾 vsvs 強化學習 大型模型雖然性能強大,但是也存在著一些局限性,例如計算資源消耗過高,部署和使用門檻較高等。模型蒸餾:將一位經驗豐富的老師的知識傳遞給一個年輕的學生,讓其在較短的時間內掌握復雜的技能。DeepSeek 利用蒸餾R1的手段獲得了一系列小模型,表現非常突出。這很大程度得益于R1模型足夠強大,發現了很多高階推理范式,而這些高階推理范式是小模型直接利用大規模強化學習難以發現的(可以認為是由于預訓練知識不足),因此這些蒸餾得到的小模型表現比較突出,甚至超過了基于大規模RL的方法。3
53、8技術對比討論:蒸餾 vsvs 強化學習 在提升模型強推理能力的努力上,蒸餾和強化學習被社區廣泛探索 直接利用SFT蒸餾可以學習到數據中的推理范式,雖然在推理分數上的表現有所提升,但是更多是去擬合數據中的Pattern,很難學習到數據背后的數學規律和MetaCoT 強化學習則是通過試錯和嘗試,鼓勵模型在最大化獎勵過程中學習到推理背后的規律,獲得的泛化性和推理表現上界更高 SFT 主要負責記憶而很難進行OOD泛化,基于ORM的RL泛化能力較好 1 SFT規范模型輸出格式,使得后續的RL可以獲得更高的收益 隨著強推理能力復現的興起,社區也有很多工作比較 LongCoT 長文本思維鏈的蒸餾效果 Sc
54、aling up verifiable reward是long cot的核心。小模型(例如wen-math-7b)不容易recentivize long cot的behavior(e.g.,aha moment)在MATH 場景下。wait,recheck,alternatively這些詞在rl訓練中沒有明顯增加1 SFT Memorizes,RL Generalizes:A Comparative Study of Foundation Model Post-training https:/arxiv.org/pdf/2501.171612 Demystifying Long Chain-o
55、f-Thought Reasoning in LLMs https:/arxiv.org/pdf/2502.0337339技術對比討論:蒸餾 vsvs 強化學習 Open Questions:Long-COT 指令數據擴展是否有助于慢思考推理能力?哪種 Long-COT 數據構造方式具有最佳樣本效率?Long-COT 及其擴展是否有助于多模態任務?Takeaways from RedStar 1:Long-COT 在有限數據下增強推理能力:小規模數據集(如 1.3k 個問題)可以顯著提升推理性能,尤其是在數學任務中,展現了 Long-COT 調優即便在數據量較少的情況下依然具有強大的推理能力。
56、更大規模和專業化模型提升性能:更大規模的模型(如 14B、32B)以及經過專業預訓練的模型(如數學預訓練和上下文長度擴展)在 Long-COT 訓練中表現更佳,優于較小規模的模型(如 7B)在保持正確推理路徑和處理復雜任務的能力。任務與語言之間的正遷移:Long-COT 訓練不僅能提升數學任務的性能,還能對其他領域和語言產生正向影響,展現了其廣泛的適用性。此外,該方法具有良好的泛化性和魯棒性,在通用基礎任務和對齊評估中取得了相當或更優的表現。強化學習的規?;嵘诵剩弘x線強化學習算法(DPO)和在線強化學習算法(PPO)均能有效增強模型性能。Long-COT 強化多模態模型:將 Long-C
57、OT 方法應用于多模態大語言模型(MLLMs)可以顯著提升其性能,說明慢思考(slow-thinking)技術在多模態任務中的有效性。1 RedStar:Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?:https:/arxiv.org/abs/2501.1128440技術對比討論:蒸餾 vsvs 強化學習 DiscussionDiscussion Kimi K1.5 中 Long2Short 方法指的是將長文本 CoT 模型的知識遷移到短文本 CoT 模型,本質上是一種蒸餾,不過目標和策略更多樣,不僅要性能,還要
58、 token 效率;更多地關注對教師模型推理策略的學習,而不僅是輸出。S1 模型通過少成本獲得超過o1-preview的表現:高質量推理數據構建:s1K數據集精心挑選了1000個涵蓋數學競賽、博士級科學問題及奧林匹克競賽題目等,這些問題經過難度、多樣性和質量的嚴格篩選,并包含詳細的推理軌跡與答案。類似課程學習的效果。采樣策略優化:預算強制法有效地控制了模型在測試階段的計算資源消耗。當模型生成的思考標記超過預設限制時,插入“end-of-thinking token”來終止思考過程并促使模型轉向答案生成階段若需要增加計算投入,則會暫時阻止end-of-thinking token的出現,并鼓勵更
59、深入的探索。DeepSeek 利用蒸餾R1的手段獲得了一系列小模型,表現非常突出。這很大程度得益于R1模型足夠強大,發現了很多高階推理范式,而這些高階推理范式是小模型直接利用大規模強化學習難以發現的(可以認為是由于預訓練知識不足),因此這些蒸餾得到的小模型表現比較突出,甚至超過了基于RL的方法。相對依賴于強大的教師模型蒸餾過程通常針對特定任務或一組任務(例如代碼和數學問題)優化,這可能導致生成的小模型在面對新任務或環境(例如通用任務)時適應性和泛化能力不足。41技術對比討論:MCTSMCTS&PRMPRM 利用 MCTS,將答案拆分成分句或Token為單位的節點,而后對于解空間進行搜索 通過
60、MCTS 可能會有以下的問題:Token Generation Space 更大,而不是像象棋一樣,Search Space 是 relatively well-defined,容易陷入局部最優 Value Model 直接影響了搜索方向,而訓練一個好的Value Model 比較困難 一個相對成功的典范是 rStar-Math 1,通過小模型達到OpenAI o1數學任務相當的水平 一個作為策略模型Policy Model,另一個模型訓練成為基于偏好的過程獎勵模型(PPM),二者配合進行MCTS 產生分步驗證的高質量推理數據,四輪自我迭代提升,不斷更新數據而后微調模型 雖然即便經過MCTS模
61、擬后,Q值依然無法做到對每個推理步驟進行精準評分,但是它們能夠有效識別出哪些步驟是正確的(正向步驟),哪些步驟是無關或錯誤的(負向步驟),可以用 ranking loss 訓練偏序1 rStar-Math:Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking https:/arxiv.org/abs/2501.0451942技術對比討論:MCTSMCTS&PRMPRM 關鍵的Takeaways:相比于利用MCTS造數據,直接將MCTS 應用于模型的訓練可能會限制模型的思考過程?MCTS 是一種 Structur
62、e,A*也是 Structure,人為加入 Inductive Bias 強求LLM按照人為的結構化先驗進行思考可能會限制模型的能力;不通過額外的Structure,模型自身是否可以學會思考:Algorithm Distillation:將RL的 Training History 序列直接建模到語言模型中,學習到Data-Efficient RL 算法 Stream of Search:將搜索的過程轉化為自然語言序列預訓練模型,基于這個模型做 policy improvement methods(Advantage-Induced Policy Alignment)和STaR,解決了heuri
63、stic solvers沒有解決的問題1 OpenAI“Dont teach.Incentivize.”https:/ In-context Reinforcement Learning with Algorithm Distillation https:/arxiv.org/abs/2210.142153 Stream of Search(SoS):Learning to Search in Language https:/arxiv.org/abs/2404.036834 https:/blog.ml.cmu.edu/2025/01/08/optimizing-llm-test-time-
64、compute-involves-solving-a-meta-rl-problem43技術對比討論:MCTSMCTS&PRMPRM :PRM:PRM 的實踐和反思 DS-R1 和 Kimi K1.5 都沒有進行明確的MCTS和PRM嘗試 PRM 的一些挑戰:決定當下的某一步是否正確是一個很難的task,自動化標注難以產生很好的結果,但是用人工標注又難以scaling up Model-Based PRM 可能會引入 reward hacking,重新訓練會讓訓練變得更加復雜 PRM還是更適合于rerank top-N responses and assist guided search,在大
65、規模RL實驗下,提升算力更直接 PRM的潛力:PRM總歸是一種比較稠密的監督信號,對reward進行shaping可以使訓練更穩定或收斂得更快 PRM還有探索空間,可以讓模型收斂得更快速或更穩定(Scaling曲線的斜率更大)和自動形式化驗證的結合,提供Rule-Based 之外輔助的Reward Signal,指導更密集的獎勵優化,賦能長思維鏈安全的驗證44技術對比討論:OverOver-ThinkingThinking 強推理模型存在Overthinking的行為 過多的語氣詞,例如 Wait 等 一些模型經常會不分場合使用一些高端詞匯,典型的如量子糾纏(會用在各個領域)對于一些簡單的數學
66、問題例如 2+3=?也會過多思考 看似有反思范式,重復Pattern多,可能會導致更好的表現,但是會帶來training 和 inference過程中極大的損耗 如何合理的分配Test-Time Compute,進行選擇性思考?Long2Short Distillation 長度優化的Penalty 優化采樣策略1 Do NOT Think That Much for 2+3=?On the Overthinking of o1-Like LLMs https:/arxiv.org/pdf/2412.2118745技術對比討論:從文本模態到多模態 DeepSeek R1 Zero 和 R1 在
67、純文本模態上取得的優異表現十分驚艷,這也不經讓人期待:多模態場景加持下 Deepseek R1 深度推理模型將會是怎樣的表現?模態穿透和模態聯動將有望進一步提升強推理能力。人類在日常生活中接收到的信息往往是全模態的,不同的感官渠道能夠互相補充,幫助我們更全面地理解和表達復雜的概念。全模態擴展將成為Deepseek R1的下一個重大突破。首先,在復雜決策場景中構建起感知-理解-推演的閉環認知體系,在多個場景下擴展智能邊界。例如,通過跨模態對齊技術,模型能將CT影像的灰度特征與病理報告的專業術語建立語義關聯,在醫療診斷中同步分析X光片陰影分布與患者主訴癥狀。此外,這種時空關聯推理能力使得自動駕駛系
68、統能同時解析路況視頻中的車輛軌跡、交通信號燈的閃爍頻率以及周圍環境的異常聲響,實現更精確的多維度風險預判。強推理能力在全模態場景下的擴展面臨諸多挑戰。文本模態場景下,許多復雜推理任務可以通過基于規則的獎勵提供監督信號,作為人類意圖和偏好的載體。而當從文本模態擴展到多模態甚至全模態場景下時,許多問題會隨之呈現:隨著模態數量增加,傳統二元偏好或規則獎勵是否能夠捕捉人類意圖的多元偏好或層次化偏好?當多模態擴展到全模態空間,模態交互更加復雜,RL方法需要做哪些改進?不同模態下,模態特有與模態共有的信息如何統一在獎勵信號建模中?46技術對比討論:從文本模態到多模態 擴展多模態強推理的可能路徑:基于多模態
69、模型做基座模型擴展到強推理場景,另一種是利用LLaVA的思路,在原來的強推理基座模型上進行額外的模塊擴展;凍結除投影層Projector外所有模型參數,對投影層Projector進行預訓練,使得投影層Projector能夠將經過視覺編碼器的視覺表征映射到語言表征空間。同時微調投影層Projector和大語言模型,激發語言模型多模態推理能力1 Visual Instruction Tuning:https:/arxiv.org/pdf/2304.0848547未來技術方向展望長思維鏈可解釋性模態擴展+模態穿透進一步拓展強推理邊界強推理能力賦能 Agentic 發展強推理模型的監管和安全保證形式化
70、驗證審計對齊對齊欺騙現象48未來技術方向展望:長思維鏈可解釋性 新的挑戰:在復雜環境下模型可能會采取捷徑或偏離原本設計的任務路線 隨著模型被提供隱式思考的機會,它們出現欺騙和操縱的可能性逐漸加大 模型通過深入思考發現了能夠完成目標的更快方法,盡管這種方法是不被允許或欺騙人類的。模型已經展現出了Reward Hacking和In-Context Scheming的能力 OpenAI:OpenAI o1 通過探索漏洞完成任務。o1-preview 模型通過發現評估主機虛擬機上的 Docker 守護進程 API,并利用它重啟了損壞的挑戰容器,讀取了任務目標(flag.txt),從而避開了應當通過漏洞
71、利用的安全挑戰。模型利用錯誤配置的基礎設施,跳過了原本設計的任務步驟,實現了任務目標。Anthropic:語言模型在面對獎勵設計時,可以通過不正當的方式獲得高獎勵,甚至通過“獎勵篡改”修改自己的獎勵機制,來避開設置的難點。1 Sycophancy to Subterfuge:Investigating Reward-Tampering in Large Language Models49未來技術方向展望:長思維鏈可解釋性 TakeawaysTakeaways 基于長思維鏈的推理可以在一定程度上提高模型的可解釋性 提供顯式的推理路徑,讓人類可以追蹤模型如何從輸入推導出輸出,從而追蹤模型的決策過程
72、,減少黑箱推理。同時,CoT 使監督者更容易檢測模型是否遵循合理邏輯,并有助于AI 對齊過程中對模型行為的透明化處理。然而,CoT 并不能完全解決可解釋性問題,因為模型仍可能利用 CoT 進行欺騙性推理,即In-Context Scheming。CoT 生成的推理步驟是模型輸出的一部分,并不能保證它反映了模型的真實內部計算過程。模型可能學會輸出符合人類期望的思維鏈,但實際推理過程可能與其展示的 CoT 不同。當模型具備長期目標意識(Instrumental Reasoning)時,它可能會構造看似合理但實際上誤導性的 CoT,以隱藏其真正的意圖。此外,CoT 僅是文本輸出的一部分,并不代表模型
73、的實際內部推理過程,因此不能確保其真實透明。為了防止 CoT 變成偽裝工具,需要結合AI-Driven 監督機制、對比推理(Contrastive Prompting)和形式驗證(Formal Verification)等方法。例如,可以讓模型在不同監督環境下執行相同任務,檢測其推理一致性;或者使用自動化對抗性測試,分析模型是否在訓練過程中優化了欺騙策略。1 Sycophancy to Subterfuge:Investigating Reward-Tampering in Large Language Models50未來技術方向展望:模態擴展 +模態穿透進一步拓展強推理邊界 RLHF與DP
74、O方法本身是模態無感的,通過數據構造能夠直接應用于多模態場景;但是,多模態對齊的難點在于:模態數量增加,傳統二元偏好是否能夠捕捉人類意圖的多元偏好或層次化偏好?當多模態擴展到全模態空間,模態交互更加復雜,RLHF以及DPO是否還奏效?不同模態下,模態特有與模態共有的信息如何統一在偏好建模中?出發點:我們如何在全模態場景中,實現any-to-any models與人類意圖對齊51 針對RLHF/DPO對齊方案存在的效率低、迭代慢、優化難的難題,提出從語言反饋中學習(Learning from Language Feedback),解決任意到任意模態對齊微調。Question:What mediu
75、m is the man using to speak?Before AlignmentAfter Alignment-Indirect response-Wrong answer-Correct answer-Direct responseA car horn.The man is speaking over a loudspeaker.Question:What happens before the woman starts spinning around?Before AlignmentAfter Alignment-Wrong detection-Correct detection-C
76、orrect motionBefore the woman starts spinning around,she is seen standing in.The woman was in the black swimsuit,then to her left,then-Wrong motionQuestion:Small white toilet sitting in a small corner next to a wall.Before AlignmentAfter Alignment-Strange shape-Redundant content-Correct shape-Clean
77、layout算法:從語言反饋中學習范式,提升任意到任意模態生成與理解任務的對齊表現模態統一范式:從語言反饋中學習 Learning from Language Feedback(LLF)利用信息更豐富的多模態偏好數據實現更準確且細粒度的人類偏好對齊52模態統一范式:從語言反饋中學習 Learning from Language Feedback(LLF)通過語言反饋(LLF)合成的偏好對:當前模型的生成結果通常并不完美。利用語言反饋優化提示詞(prompts),可以在某些維度上改善模型的響應,從而合成更多具有學習價值的偏好對。53 客觀基礎:多模態大模型已具備強大的跨模態穿透與融合的感知能力,
78、能夠通過結合世界知識與上下文學習能力,實現多種模態(如圖像、文本、音頻、視頻等)的高效推理與協同輸出。激活賦能:基于慢思考強推理能力的持續自我進化,突破了單一模態的局限性,跨模態穿透深度顯著提升。通過深度融合世界知識,模型在文本模態下的智能邊界得以大幅拓展。模態穿透賦能智能邊界拓展強推理能力+多模態訓練=激活模態穿透、拓展智能邊界Base ModelAlign-DS-V(8B)ARC(5-shot)ARC-Challenge(5-shot)Big Bench-Hard(3-shot)32.7%21.4%72.2%34.2%40.5%73.4%GPT-4oMathVistaMathVisionA
79、-OKVQA30.4%62.2%87.9%Align-DS-V(8B)27.0%63.8%83.7%Align-Anything:涵蓋多元價值觀的全模態對齊方案 Align-Anything 框架支持任意到任意模態對齊,這在目前開源社區中是獨一無二的。它填補了現有框架僅支持單一模態或少數模態對齊的空白,為全模態大模型的對齊提供了統一和通用的解決方案;數據集:開源涵蓋12種模態的400K對齊數據集算法:開源面向任意模態、涵蓋SFT、RLHF、DPO等主流對齊微調算法的訓練代碼模型:開源指令跟隨微調后的Chameleon、LLaMA3.2-Vision等模型,并公開微調數據集評估:開源面向任意模態
80、、涵蓋超過30種主流開源基準的大模型評測代碼數據、框架、算法、模型全開源開源項目:https:/ Agentic Agentic 發展 日常聊天任務其實對于強推理能力的需求不大 未來更多是能否利用強推理能力賦能Agent和具身智能 OpenAI Deep Research Agent Anthropic PC Controller 需要依賴于強推理模型反思、長程規劃、Tool Use 工具調用等能力 內存和記憶模塊的挑戰需要克服,小模型如何獲得強推理效果?1 https:/lilianweng.github.io/posts/2023-06-23-agent/RLHF這類對齊算法可以提升模型性
81、能,并確保與人類意圖和價值相一致。然而,這些對齊微調是否真正修改并對齊了模型的內部表征?經過安全對齊的模型可以在經過最小化的微調后再次變得不安全;在非惡意數據集上微調對齊的語言模型可能會削弱模型的安全機制;不僅限于安全,這種“假象對齊”表明模型可能會內在執行對齊的逆操作。大模型存在會逆轉或撤銷對齊過程的可能性,這一概念我們稱之為逆向對齊(Inverse Alignment)。我們進一步探究了:語言模型的參數是否表現出彈性,從而抗拒對齊?Do the parameters of language models exhibit elasticity,thereby resisting alignm
82、ent?Language Models Resist Alignment,https:/arxiv.org/abs/2406.06144未來技術方向展望:強推理模型監管和保證 語言模型抗拒對齊從胡克定律到大模型的彈性(而抗拒對齊)大模型存在彈性:模型在預訓練階段經過大數據、大更新產生了具備通用能力的穩定分布,而經過對齊階段的“小數據、小更新”表現出由對齊分布回彈到預訓練分布傾向,從而抗拒對齊;胡克定律:在彈性限度內,彈簧彈力和長度變化量成線性關系,即:=,彈力系數,彈力與其形變方向相反,表示它有使系統不改變的趨勢;模型是否具有與彈簧類似的屬性從而抗拒改變?從最簡單的彈簧系統建模,探究大模型內在
83、抗拒對齊的機理 彈力系數:表示為大模型本身性質,與模型參數量和預訓練數據相關;長度變化量:表示對齊前后的模型的變化,一般用KL散度刻畫;彈力:對齊后的模型抗拒發生分布改變,產生恢復預訓練分布的“彈力”;類似于胡克定律,我們發現大模型也存在彈性:對模型施加微調時,模型傾向于保持原有預訓練分布,抗拒對齊分布,使得“逆向對齊”更加容易。模型彈性的理論解釋 大模型被視作一種壓縮器,預訓練和對齊過程則是:利用模型對每階段的數據進行聯合壓縮;數據量上pre-training顯著多于post-training,模型為提高整體壓縮率,傾向優先保留預訓練部分的分布而抗拒微調對齊的分布,從而表現出模型彈性;理論上
84、發現:當對齊模型受到擾動時,模型對于預訓練數據集1的壓縮率變化顯著小于對齊數據集2,且兩者之比與|/|同階;從直覺上考慮:在一個有大都市和郊區村落的地區,為了最大化整個地區的經濟生產力,我們會傾向于將資源優先配置給大都市,以發揮大都市的規模效應和集聚效應,而村落由于對于整個地區的經濟貢獻較少,往往不會優先獲得資源;pre-training和post-training階段,模型因為彈性抗拒對齊模型彈性的實驗驗證 在幫助性、無害性和誠實性(3H)標準下,逆向對齊(Path A)相較于正向對齊(Path B)均更加容易。正向對齊(Forward Alignment)vs.逆向對齊(Inverse A
85、lignment)模型彈性(Elasticity)的分析模型彈性隨模型大小增大:隨著模型參數規模的增加,因負面數據微調導致的初始性能下降更快,而隨后的下降變得更慢;表明模型彈性隨模型參數大小增大而增強。模型彈性隨預訓練數據增大:隨預訓練數據量增加時,因負面數據微調導致的初始性能下降更快,而隨后的下降變得更慢;表明模型彈性隨預訓練數據量增多而增強。(a)Elasticity Increase with Model Parameter Size.(b)Elasticity Increase with Pre-training Data Size.從模型彈性視角思考大模型對齊從胡克定律=到大模型的彈
86、性(而抗拒對齊)算法設計/評估與模型評估等,應當從模型的內在機理出發;預訓練階段和對齊階段不應當各自獨立;預訓練模型抗拒對齊,如何在預訓練階段為對齊階段提供一個具備可塑性分布幫助微調;如何確保對齊初始模型彈性系數更?。咕芨。?,彈性限度更大(對齊空間更大);模型評估應該更關注模型內在表征的對齊;表面的對齊訓練很容易被撤銷,對齊算法應當修改模型的內在表征,而非進行表面的對齊;在對齊模型的評估中,我們應當增加額外評估維度,衡量對齊后的模型有多容易被逆對齊,進一步衡量其對齊程度;從“表面”對齊到“深入”對齊,對齊范式需要改變;如何設計算法避免簡單的“表面”對齊、亦或者如何分析算法對模型內在表征的改
87、變;Language Models Resist Alignment,https:/arxiv.org/abs/2406.06144審計對齊 Deliberative AlignmentChallenges:(1)當前的大型語言模型(LLMs)容易被誘導泄露有害內容;(2)拒絕合法請求(過度拒絕);(3)仍然容易受到越獄攻擊。原因:LLMs 必須使用固定的計算資源即時響應用戶請求;當前的對齊方法(如SFT和RLHF)鼓勵LLMs通過偏好學習從大量數據中總結規范和人類意圖,而不是直接學習安全規范。Deliberative Alignment:Reasoning Enables Safer Lan
88、guage Models我們能否直接利用強推理能力學習安全規范以增強模型的安全性?Deliberative AlignmentStage I:SFT&Data Generation Step 1:Using o-series models generate responses with thinking process about safe category-based specifications.Get(prompt,category,CoT,output)pairs Step 2:Prompt a LLM(as a RM)to provide scores for(prompt,cate
89、gory,CoT,output)pairs,giving a score about relevant safety specifications.Get(prompt,category,CoT,output,score)pairs Step 3:Filter and remove safety category in the prompt,get prompt,output and thinking process about safety guidelines.Get(prompt,CoT,output)pairs Step 4:Supervised fine-tuning.Deliber
90、ative Alignment:Reasoning Enables Safer Language ModelsDeliberative AlignmentStage 2:RL Data Generation Step 1:Prompt a LLM(as a judge model,RM)to provide RL signal based on prompt category and outputs.Hide the CoT process against the RM to avoid optimization of CoT which may lead to deception;Step
91、2:Use RL methods(such as ReFT)to train model learn safer and more helpful generation.Deliberative Alignment:Reasoning Enables Safer Language ModelsComparison of Deliberative Alignment and other methodsDeliberative Alignment:Reasoning Enables Safer Language Models Training data generation:CAI or RLAI
92、F:Though existence of specifications,but on labels are used;knowledge of the specifications themselves is lost to the model;Deliberative Alignment:Specifications is supervised by training;Inference time behavior:RLHF or CAI:No reasoning during inference;Self-Refine:Reasoning occurs through structure
93、d few-shot prompting;Deliberative Alignment:Reasoning over learned safety specifications occurs via CoT;Discussion Alignment Faking:LLMs have the potential to reverse or undo the alignment process,a concept we call Inverse Alignment.Do the parameters of language models exhibit elasticity,thereby res
94、isting alignment Super-Alignment&Scalable Oversight:How to align systems smarter than humans and how to align them on tasks challenging for human evaluation?Inspirations from deliberate alignment:directly learn guidelines and try to jump the reward specifications.Alignment Faking in Large Language M
95、odelsExample of Alignment Faking未來技術方向展望:形式化驗證 形式化驗證起源于數學的形式化證明,例如 Lean 數學形式化的目的是提供一個完全客觀和可驗證的證明過程 形式化具備消除模型幻覺的潛力,類似還有軟件工程相關代碼的形式化證明 與此同時,安全價值的監管具有多元性:人類的安全價值觀具有多樣性,內建價值沖突 單智能體系統下的安全,并不保證多智能體系統安全 AI系統偽裝已被“安全對齊”,行為欺騙監管 隨著 VLA Agent 等模型下游和賦能應用興起,確保模型AI系統準確應對不確定性,考慮物理規律下的人類價值觀對齊至關重要 在復雜動態環境中不僅要短期安全,還要確
96、保長期行為的安全性,例如對操作環境造成影響。通過形式化驗證和RL,提升AI系統的可靠性與處理復雜推理問題的能力。通過構建形式化數學數據庫,建立高度嚴謹的推理模型。個體安全 群體安全,行為安全 價值安全安全復雜性和維度超出傳統方法 內生價值安全性:AI系統不僅需要應對不確定性,還必須考慮物理規律下的人類價值觀對齊,例如肢體語言的安全性、個人空間的邊界感。外生具身安全性:在復雜動態環境中不僅要短期安全,還要確保長期行為的安全性,例如對操作環境造成影響的安全性。VLA系統安全的獨特挑戰68總結基于復雜推理慢思考+強化學習新技術范式,通過高質量數據驅動產生強推理模型2023-快思考2024-慢思考 無
97、標注數據 有標注數據 驗證數據集 學習人類偏好 測試效果 人機對齊模型 獎勵模型 生成更多“對齊”數據 Test-Time Compute 提升偏好自適應性 強化學習+“隱式思維鏈”快思考-慢思考 推理時間=新的擴展維度 數據飛輪+Bootstrap-Super IntelligenceRule-Based:正確率+格式化獎勵PRM:判別式+驗證每步過程形式化驗證:生成式+驗證每步過程RL賦能強推理范式:基座能力激活+驗證/獎勵模型 利用強化學習激活基座模型能力,讓語言模型在序列生成過程中進行隱式思考 基于規則的獎勵和外掛驗證器的結合模態穿透:全模態場景下,智能推理邊界拓展自學機制:理由獎懲改
98、進,形成自閉環演進方向強推理賦能多模態全模態統一模態穿透拓展邊界強推理慢思考模態穿透多模態輸入輸出全模態統一具身ActionSTaRReSTEMSCoRe理由獎懲改進無一條理由軌跡/問題無軌跡,只有多個結果微調過濾數據微調多理由軌跡/問題多輪ORM驗證自主糾錯 使用同一個模型:生成理由RM獎懲迭代改進 可與獎懲/生成機制的新技術相結合,形成完整方案2025-強推理&模態穿透 強推理賦能 智能體 Agentic 模態穿透 多模態潛力進一步發掘全模態場景下模態穿透與統一69拓展分析:DeepSeekDeepSeek-V3 V3 DeepSeek-V3 主要模型參數 671B 每個Token 激活
99、37B參數,5.5%61層 Transformer,Hidden Dimension:7168 MoE:1 個共享專家(Shared Expert)+256 路由專家(Routed Expert)每個Token 激活 8 個路由專家 DeepSeek-V3 模型架構:MLA(Multi-head Latent Attention)+MoE(Mixture of Expert)架構 MLA:通過引入潛在空間來提高計算效率,同時保持了模型對輸入數據的復雜關系的捕捉能力 MoE:注于通過高效的專家分配和計算資源利用來降低成本70拓展分析:DeepSeekDeepSeek-V3 V3 FP8混合精度訓
100、練+多Token預測 把主要計算量、比較大的核心矩陣乘法都用FP8去計算。多Token預測允許模型一次預測多個Token,從而提高了模型對語言結構的理解能力,更好地捕捉語言中的長距離依賴關系 可以用于推理加速。在推理過程中,模型可以通過一次預測多個Token來減少計算量,從而提高推理速度。1 DeepSeek-V3 技術報告 https:/arxiv.org/pdf/2412.19437v1FP8 混合精度的整體訓練思路細粒度量化策略71拓展分析:DeepSeekDeepSeek-V3 V3 通信優化:DulePipe 算法:精細化編排計算和通信 控制前向和反向過程中計算和通信的GPU SM數
101、量,保證計算和通信完全重疊 雙向流水線并行 降低流水線的Bubble 需要存兩份模型參數 64路的專家并行1 DeepSeek-V3 技術報告 https:/arxiv.org/pdf/2412.19437v1雙向流水線并行計算和通信重疊氣泡和內存分析72拓展分析:System I&System IISystem I&System II 通過使用 System 1 的快速但可能不完全準確的判斷(“fast-but-maybe-wrong”judgment calls),可以幫助 System 2 控制組合爆炸問題,并高效地進行復雜推理。System 2 的問題:需要處理大量組合:System
102、2 通過遍歷組合(如在圖或樹中的路徑搜索)來解決問題,但這種方法的計算復雜度極高,容易導致組合爆炸(combinatorial explosion)。核心挑戰:當組合的分支因子過大時,System 2 的搜索速度會非常慢,需要更高效的方法來縮減搜索空間。System 1 的作用:快速、近似的判斷(approximate judgment calls):System 1 將離散的數據轉化為某種抽象的結構(近似判斷的啟發式規則),幫助 System 2 減少遍歷的復雜度。這使得 System 1 能快速提供一個可能并非完美,但在大多數情況下足夠有效的答案,從而加速整體處理。Its Not Abou
103、t Scale,Its About Abstraction-Franois Chollet73討論:慢思考與Abstraction ReasoningAbstraction Reasoning(過程性監督+細粒度反饋)LLM 仍然受限于過程性推理任務:盡管可以完成復雜的推理,但是仍然受限于一些對于人類來說很簡單的任務(例如,逆轉詛咒),泛化能力較弱:本質上在于 LLM 的思考范式仍然是靜態,非過程性的;一些看似復雜的任務,實則在互聯網上有相近的解決辦法,在訓練語料中有所蘊含(Hypothesis:Depends purely on Task Similarity instead of Task
104、 Complexity);人類的Abstraction Reasoning:抽象出高維概念并進行細粒度反饋,壓縮即智能:Type1 Abstraction:基于大量語料學習普遍規律,但是針對特定的問題,難以給出細粒度反饋和反思;Type2 Abstraction:System II 驅動對于特定的推理復雜問題,可以基于抽像出的先驗進行深入的細粒度反饋;Fast-but-maybe-wrong Judgements;Its Not About Scale,Its About Abstraction-Franois Chollet74拓展文獻和資料強推理&DS-R1 圖解 DeepSeek R1:
105、https:/newsletter.languagemodels.co/p/the-illustrated-deepseek-r1 DeepSeek-R1 技術報告 https:/ DeepSeek-V3 技術報告 https:/arxiv.org/pdf/2412.19437v1 DS-R1 的Reproduction Github Repo:https:/ Align-Anything Github Repo:https:/ 多模態 Align-DeepSeek-V:https:/huggingface.co/PKU-Alignment/Align-DS-V Align-Anything:
106、https:/arxiv.org/abs/2412.15838可擴展監督&形式化驗證&拒絕對齊 Language Models Resist Alignment:https:/arxiv.org/abs/2406.06144 s1:Simple test-time scaling:https:/arxiv.org/pdf/2501.19393 RedStar:Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?:https:/arxiv.org/abs/2501.1128475拓展文獻和資料強推理&DS-R1 Do N
107、OT Think That Much for 2+3=?On the Overthinking of o1-Like LLMs https:/arxiv.org/pdf/2412.21187 DeepSeek-R1 長度泛化復現:https:/ DeepSeekMath https:/arxiv.org/pdf/2402.03300 Math-Shepherd:Verify and Reinforce LLMs Step-by-step without Human Annotations https:/arxiv.org/abs/2312.08935 Kimi k1.5:Scaling Rei
108、nforcement Learning with LLMs:https:/arxiv.org/abs/2501.12599 Stream of Search(SoS):Learning to Search in Language https:/arxiv.org/abs/2404.03683 rStar-Math:Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking https:/arxiv.org/abs/2501.04519 Parables on the Power of Planning in AI:F
109、rom Poker to Diplomacy:Noam Brown(OpenAI)https:/ OpenAI“Dont teach.Incentivize.”https:/ In-context Reinforcement Learning with Algorithm Distillation https:/arxiv.org/abs/2210.1421576拓展文獻和資料強推理&DS-R1 https:/blog.ml.cmu.edu/2025/01/08/optimizing-llm-test-time-compute-involves-solving-a-meta-rl-problem/數學形式化證明:https:/ Memorizes,RL Generalizes:A Comparative Study of Foundation Model Post-training https:/arxiv.org/pdf/2501.17161 Demystifying Long Chain-of-Thought Reasoning in LLMs https:/arxiv.org/pdf/2502.03373