《復旦大學:2025大模型能力來源與邊界報告(55頁).pdf》由會員分享,可在線閱讀,更多相關《復旦大學:2025大模型能力來源與邊界報告(55頁).pdf(55頁珍藏版)》請在三個皮匠報告上搜索。
1、1張奇 復旦大學大語言模型能力來源與邊界4輸入:Fudan University is located inLLaMA2-13B(PPL 5.877):Fudan University is located in Shanghai,China.It is locally known as 復旦大學.The university was established in 1905.It isaccredited by Ministry of Education of the Peoples Republic of China.There are over 40,000 students studyi
2、ng in various courses offered by FudanUniversity.The language of instruction is Chinese.LLaMA2-13B-修改語言修改語言非核心區非核心區LayerNorm其他維度其他維度擴大擴大10倍倍(PPL 5.914):Fudan University is located in Shanghai,China,the largest city with the most economic and cultural activities in China.With the most advanced infras
3、tructure and the best living condition,it has become the international education center with the largest oversea students.It consists of Jinan,Kangqiao and Fenglin campus,which boasts the best resources from both education and research.Fudan University has been a famous and attractive university for
4、 international students,especially in the past one decade from 2001-2010.LLaMA2-13B-修改語言修改語言核心區核心區1維擴大維擴大10倍倍(PPL 376079936):Fudan University is located in NoSYouThereThatAThis#ThisThistThe/Whatthdv 僅修改130億參數中的1個就會使模型完全混亂大語言模型基礎理論突破,發表大模型相關論文80+篇Unveiling Linguistic Regions in Large Language Models,
5、ACL 2024國際上首次提出的大語言模型語言核心區和維度依賴理論,可以有效指導大語言模型訓練過程5Unveiling Linguistic Regions in Large Language Models,ACL 2024破壞 Arabic/Vietnamese 區域ArabicMMLU:Assessing Massive Multitask Language Understanding in Arabic(Koto et al.,arXiv 2024)1.大語言模型語言核心區與維度依賴1.大模型能力邊界在哪里?6知識利用層次圖Wang et al.Knowledge Mechanisms
6、in Large Language Models:A Survey and Perspective,EMNLP 2024大模型目前在哪個層級?未來可以到哪個層級?知識利用層次圖Wang et al.Knowledge Mechanisms in Large Language Models:A Survey and Perspective,EMNLP 2024大模型目前在哪個層級?未來可以到哪個層級?目前?知識利用層次圖Wang et al.Knowledge Mechanisms in Large Language Models:A Survey and Perspective,EMNLP 2
7、024長上下文建模多任務學習跨語言遷移性文本生成能力我認為:目前仍然是記憶知識利用層次圖Wang et al.Knowledge Mechanisms in Large Language Models:A Survey and Perspective,EMNLP 2024AGI 系統才能“理解”理解物理世界擁有長久準確記憶可以推理可以分層次規劃大模型能力邊界的實踐研究1112當前大模型依然無法完成真正的“理解”與“推理”大模型“參加”2024 高考數學情況13大模型“參加”2024 高考數學情況14兩場平均分最好70%,最差 25%,填空題成績更差大模型“參加”2024 高考數學情況15即便正
8、確回答的題目,計算過程和答案不相符的比例很高大模型“參加”2024高 考數學情況16輸入形式的微小不同,結果相差很大大模型“參加”美國數學奧賽情況17USAMO完美契合評估LLM的標:題難度、要求完整證明過程才能得分,且未經公開數據污染。ETH Zurich 研究團隊:實際上,LLM乎從未沒有學會數學證明!歸納推理的能力如何呢?18Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Information Processing Systems 36(20
9、24)AllenAI乘法的步驟:當任務復雜程度增大時,模型的準確率接近為019Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Information Processing Systems 36(2024)AllenAI歸納推理的能力如何呢?20Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Informat
10、ion Processing Systems 36(2024)AllenAIGPT3經過充分調整,在特定任務數據上達到了一定的問題規模。藍色區域表示分布內樣本,紅色區域表示OOD樣本。所有 k1 和 k2符合 1 k1,k2 4 并且 k1 k2 9;使用 180 萬 數據訓練GPT3模型訓練過程中簡單加入過程作用也十分有限21Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Information Processing Systems 36(2024
11、)AllenAI乘法2025-01-31報告2224大模型工具調用評測RoTBench:A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning,EMNLP 2024針對變形數據GPT4的準確率也大幅度下降ChatGPTGPT-o1 preview 小學數學題上也“翻車”了原題:奧利弗在星期五摘了 44 個獼猴桃。然后在星期六摘了 58個獼猴桃。星期天,他摘的獼猴桃數量是星期五的兩倍。奧利弗有多少個獼猴桃?變形題:奧利弗在星期五摘了 44 個獼猴桃。然后在星期六
12、摘了 58 個獼猴桃。星期天,他摘的獼猴桃數量是星期五的兩倍,但其中 5 個平均要。奧利弗有多少個獼猴桃?Mirzadeh et al.,GSM-Symbolic:Understanding the Limitations of Mathematical Reasoning in Large Language Models.Arxiv 2024GPT-o1-mini 給出的答案是:在星期天,這 5 個獼猴桃平均要。我們需要從星期天的總數中減去它們:88(星期天的獼猴桃)-5(獼猴桃)=83 個獼猴桃。27全數據驅動的大模型實現“推理”面臨巨大挑戰實現因果學習是關鍵28碩士入學考試數學100分小
13、學應用題可能只有10分仍然不知道strawberry有幾個r2930大模型依然是統計機器學習不是“能力”的逐項提升31人類能力學習過程32算數小學數學初中數學高中數學大模型“能力”學習過程33小學數學題中考數學題高考數學題數單詞字母數數公式中數字個數35單個模型可以處理數千種任務,但是仍需要逐項進行優化36大模型高泛化工具調用TL-Training:A Task-Feature-Based Framework for Training Large Language Models in Tool Use,arXiv 20241217條數據,7B 模型大幅度超越開源模型,在工具選擇正確性維度超越G
14、PT4o消除負面影響、優化關鍵Token、引入獎勵機制37大模型Code生成能力提升“StepCoder:Improve Code Generation with Reinforcement Learning from Compiler Feedback.”ACL 202438RLHF推動翻譯偏好建模:低成本實現“信達雅”Advancing Translation Preference Modeling with RLHF:A Step Towards Cost-Effective Solution,arXiv 2024復雜圖表內容問答39DISTILL VISUAL CHART REASON
15、ING ABILITY FROM LLMS TO MLLMS,arXiv 2024圖表理解能力超越GPT4o2.大模型能力來源思考411.直接通過訓練語料的統計就可以計算得到知識記憶概率Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training,ArXiv 2025From GPT-4 Technical ReportPredicting Large Language Model Capabilities on Cl
16、osed-Book QA Tasks Using Only Information Available Prior to Training,ArXiv 20251.直接通過訓練語料的統計就可以計算得到知識記憶概率Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training,ArXiv 20251.直接通過訓練語料的統計就可以計算得到知識記憶概率2.有監督微調階段僅需少量數據,并且要跟模型緊密配合完成某個領域知識問答僅需
17、_條訓練數據4560不同LLMs的數據需求差異巨Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 20242.有監督微調階段僅需少量數據46Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024問題 1:在 SFT 階段需要多少數據才能讓 LLMs 執行 QA 任務?問題 2:不同的 SFT 數據如何影響 LLMs 在 QA 任務中的表現?問題 3:不同
18、 LLMs 在 SFT 階段的數據要求有何不同?2.有監督微調階段僅需少量數據47Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024!=#$%&!#$%&$!#%&(#()*+#),)-*),-.+模型知識記憶情況判斷2.有監督微調階段僅需少量數據48Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024發現 1:無論使用何種數據進行微調,LLM
19、 都能對在預訓練中記憶較好的知識提供更準確的答案。發現 2:使用特定記憶水平的數據進行訓練可提高 LLM 在該知識水平上的表現。發現 3:總體而言,更有效的策略是使用記憶水平較高的數據進行 SFT。2.有監督微調階段僅需少量數據49Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024發現 4:不同 LLMs 的預訓練語料庫的差異導致知識分布的顯著不同3.預訓練模型參數與SFT模型關聯50Unveiling the Mystery of SFTs Impact on Mo
20、del Performance from Token Level and Parameter Level,arXiv 2024使用記憶水平較低的數據進行 SFT,會大幅度改變模型參數3.預訓練模型參數與SFT模型關聯51Unveiling the Mystery of SFTs Impact on Model Performance from Token Level and Parameter Level,arXiv 2024盡可能少的改動預訓練參數PerformanceofLLaMA-3-8Bafterrestoringdifferent scales of parameters acros
21、s variousfine-tuning datasets.4.多樣性對SFT訓練的影響如何衡量多樣性?52Measuring Data Diversity for Instruction Tuning:A Systematic Analysis and A Reliable Metric,arXiv 2024不同多樣性評價指標與模型效果的相關性4.多樣性對SFT訓練的影響如何衡量多樣性?53Measuring Data Diversity for Instruction Tuning:A Systematic Analysis and A Reliable Metric,arXiv 2024
22、在二維空間中模擬數據選擇:選擇A模擬具有冗余的數據集,選擇B優化樣本之間的距離,而選擇C同時考慮距離和密度54Cognitive Behaviors that Enable Self-Improving Reasoners,or,Four Habits of Highly Effective STaRs,arXiv 2025“Countdown”游戲作為測試,使用給定的數字和基本運算(加減乘除)達到指定的目標數例如,給定25、30、3、4四個數字,目標是32,解決方案可以是:(30-25+3)4Qwen模型通過強化學習(RL)訓練后表現出顯著進步,而Llama模型卻幾乎停滯不前相同的方法為什么
23、Qwen可以,Llama不行?5.推理能力的來源是強化學習嗎?55Cognitive Behaviors that Enable Self-Improving Reasoners,or,Four Habits of Highly Effective STaRs,arXiv 2025高效思考的四個關鍵行為:(1)驗證能力(Verification):系統性地檢查中間結果和步驟是否正確,如讓我們驗證這個結果.(2)回溯能力(Backtracking):當發現錯誤時,能夠明確地修改和調整方法,如這個方法行不通,因為.(3)子目標設定(Subgoal Setting):將復雜問題分解為可管理的步驟,如
24、要解決這個問題,我們首先需要.(4)逆向鏈式推理(Backward Chaining):從目標反向推導解決方案,如要達到75的目標,我們需要一個能被.整除的數5.推理能力的來源是強化學習嗎?56Cognitive Behaviors that Enable Self-Improving Reasoners,or,Four Habits of Highly Effective STaRs,arXiv 2025(1)行為啟發(Priming):使用包含這些認知行為的示例來啟發Llama模型時,它在隨后的強化學習中表現出顯著改善,甚至能夠匹配Qwen的表現軌跡。(2)錯誤示例也有效:即使用帶有錯誤答
25、案但展示正確思考模式的示例來啟發模型,也能取得類似的效果。這表明認知行為的存在,而非正確答案的獲取,才是自我提升的關鍵因素。(3)預訓練數據強化:通過從OpenWebMath數據中篩選并強化這些認知行為的內容,成功地使Llama模型獲得了與Qwen相當的自我提升能力。5.推理能力的來源是強化學習嗎?6.Aha Moment 真的是“涌現”?嗎?57Understanding R1-Zero-Like Training:A Critical Perspective,arXiv 2025DeepSeek-V3-Base 就展現出了“Aha moment”6.Aha Moment 真的是“涌現”?嗎
26、?58Understanding R1-Zero-Like Training:A Critical Perspective,arXiv 2025Qwen2.5-Math 模型可能在將問題-答案文本連接后進行預訓練,這導致在不使用模板時達到最佳性能。59大模型能力來源總結1.一切能力都來源預訓練+后訓練2.預訓練使得模型記住知識+學習到語義分布表示3.SFT使得模型分布微小變化,預訓練能力“激活”4.RL用于所有生成式任務,延遲獎勵60幾點感想1.大模型可以很快速的在很多任務上做到70分2.基于大模型在任何任務上完成90分都十分困難3.不要神話和擬人化大模型,依然是統計機器學習4.積極擁抱AI,場景選擇是關鍵61謝謝!