《面向領域的大模型深度思維能力.pdf》由會員分享,可在線閱讀,更多相關《面向領域的大模型深度思維能力.pdf(55頁珍藏版)》請在三個皮匠報告上搜索。
1、面向領域的大模型深度思維能力梁家卿復旦大學大數據學院復旦大學知識工場實驗室1OutlineOutline2大模型深度思維的現狀與挑戰大模型深度思維的現狀與挑戰3大模型智能的三重維度大模型智能的三重維度4 知性:知識獲取與表達能力 感性:想象力、創造力、共情能力 理性:思維、推理與邏輯能力 當前大模型強于知性,弱于感性與理性 大模型擅長與人聊天,但是不擅長穩定完成指定任務知性理性感性GPT4之前系列GPT4.5Deep thinking強思維、強邏輯 事實正確、邏輯正確的AI想象力、創造力有溫度、與人共情、引人共鳴的AI通用智能的進步:從知性到理性的轉變通用智能的進步:從知性到理性的轉變5 知性
2、:預訓練階段,從無注釋文本中學習知識 理性:后訓練階段,學習利用知識解決問題 理性是用知識的能力 需要通過反思、實踐和優質指令來培養大模型與專家的思維差距大模型與專家的思維差距 行業專家的專業性水平,仍是大模型難以企及的;專業性的本質是強思維能力,但強思維能力的習得和運用都需要實踐6o o1/1/r r1 1:推理能力的里程碑:推理能力的里程碑 在回答用戶問題時,o1會陷入長時間思考的過程 生成中逐步思考,并且驗證、反思,以實現復雜推理能力 r1:在生成特別長的cot之后,才回答問題7o1的推理過程中顯示出了驗證、反思的能力 o1推理鏈中顯示出了很長的思考過程機遇:解鎖大模型領域思維潛能機遇:
3、解鎖大模型領域思維潛能 R1-zero式的Goal-Oriented RL是有效解鎖大模型領域思維潛能的機遇 RLHF早已有之,為何RL重新爆火?8簡單的結果Reward進行RL要求模型先進行長篇思考的CoTr1/o1長思考推理模型回看:回看:r1-zeror1-zero訓練的基本流程訓練的基本流程9從問題集中采樣一個問題模型對問題生成N個長CoT及回答使用結果判斷計算N個回答的Reward基于這N個回答和Reward,在一定的限制下更新模型參數表面依賴:訓練問題集 能對回答進行評估的打分器隱藏依賴:模型需要有能生成較大差異的回答的多樣性 模型需要有一定基礎能力,能在N個回答中獲得正確答案 專
4、業領域應用的三大核心挑戰專業領域應用的三大核心挑戰10領域應用的三大核心挑戰領域應用的三大核心挑戰11復雜指令執行的不穩定性 多約束條件下需要精準執行專家思維模式的缺失 缺乏行業邏輯與專家經驗工具調用的被動性 工具協作具有局限性挑戰挑戰1 1:復雜指令的精準執行:復雜指令的精準執行 指令遵循是大模型的一項重要能力 實際場景下的人類指令往往是復雜的,通??梢员碚鳛槎喾N不同的約束。對格式的約束:用引號包括特定字段;輸出“JSON”格式等 對語義的約束:輸出不要包含特定詞;輸出包含你的思考過程等12OpenAI專門開發的嚴格Json格式輸出,是Agent開發的必需品現有思維模型的指令遵循能力較差現有
5、思維模型的指令遵循能力較差13Deepseek-R1因為Instruction Following能力的欠缺,經常會給出錯誤回復而終止游戲LLM Chess:一個用來測試大語言模型在下棋(chess)任務中的表現的工具1.Wins(勝率):模型在國際象棋對弈中獲勝的概率。2.Draws(平局率):模型與隨機機器人對弈后以平局結束的概率。3.Mistakes(錯誤率):每1000步中,模型因錯誤回復(erroneous replies)而退出游戲的次數。4.Tokens/move(每步消耗的tokens):模型每一步推理所需的計算資源,tokens是衡量模型復雜度和成本的重要指標。https:/
6、dev.to/maximsaplin/deepseek-r1-vs-openai-o1-1ijm蒸餾模型的指令遵循能力仍然不足蒸餾模型的指令遵循能力仍然不足14 蒸餾版的思維模型指令遵循能力較差 LLaMA3.1-8B-Deepseek-Distilled的指令遵循能力劣于LLaMA3.1-8B-Instrutcion 對于復雜指令遵循任務,LLaMA3.1-8B-Deepseek-Distilled的思維鏈和指令遵循無關Instruction:Write a 2 paragraph critique of the following sentence in all capital lette
7、rs,no lowercase letters allowed:If the law is bad,you should not follow it.Label each paragraph with PARAGRAPH X.Response:Ill analyze the sentence itself.Its a strong statement advocating civil disobedience when the law is deemed unjust.I should consider the implications of such advice.It could enco
8、urage people to disregard laws,which might lead to chaos and undermine the legal system.PARAGRAPH X:THE SENTENCE IF THE LAW IS BAD,YOU SHOULD NOT FOLLOW IT IS A STRONG STATEMENT THAT ADVOCATES FOR CIVIL DISOBEDIENCE WHEN THE LAW IS DEEMED UNJUST.THE COMPLEXITIES OF SOCIAL ORGANIZATION.LAWS ARE DESIG
9、NED TO PROMOTE THE PUBLIC GOOD,AND DISregarding THEM COULD在IFeval數據集上,對比baseline模型,Deepseek蒸餾的模型指令遵循能力反而下降蒸餾得到的思維模型的思維鏈與指令遵循無關挑戰挑戰2 2:專家思維模式的差距:專家思維模式的差距 人類專家思維的本質是反思,反思的根本特性是有結構 反思過程是有結構的,自回歸式(從左到右)生成難以建模復雜思維過程 反思過程體現在復雜思維結構上的遍歷、跳轉、分支、回溯與循環15專家特有的思維特征:元認知能力:對自身思維的監控與調整問題重構能力:從不同角度看待問題經驗整合能力:將隱性知識轉化
10、為顯性推理問題:如何在回歸式生成過程中植入思維的結構經典的八皇后問題,前7行沒有任何沖突,但是會導致第8行無法放回溯在這里是必須的現有模型的反思能力低下現有模型的反思能力低下16認知行為的存在比結果的正確性更有助于RL訓練Qwen可以通過RL有效提升,而Llama不能即使如此,RL過程中的大部分自我反思都沒有得到正確答案Cognitive Behaviors that Enable Self-Improving Reasoners,or,Four Habits of Highly Effective STaRs,Stanfordhttps:/oatllm.notion.site/oat-zer
11、oGPT-4oGPT-4o顯著強化了反思能力顯著強化了反思能力 從GPT3.5到GPT4o,自我反思(糾錯、驗證等)能力顯著提升17初始答案正確的情況在要求反思后,GPT-3.5(左)修改成錯誤的答案;而 GPT-4o(右)始終堅持原來正確的答案初始答案是錯誤情況在要求反思后,GPT-3.5(左)仍然沒有修改正確;而GPT-4o(右)經過反思糾正后能夠提供正確的答案專家的關鍵提示至關重要專家的關鍵提示至關重要 對于復雜任務,關鍵提示是解決問題的鑰匙;人類如此,AI如此18例1:巴塞爾問題(1/n)。80年來歐拉首先看出這個問題和三角函數有關系。剩余的部分高中生也能解決。例2:對數學問題,設計以
12、下4種固定CoT“問題+使用Python求解/使用C+求解/使用Matlab求解/使用Java求解”一旦選對CoT,立刻能夠獲得10%的準確率提升Algebra ProbabilityGeometryIntermediate AlgebraNumber TheoryPrealgebra PrecalculusPythonPoT33.48 17.72 16.41 17.38 41.65 43.96 20.09 PythonPoT-4sc36.85 22.36 17.05 18.16 43.18 46.11 22.76 Self-consistency34.21 28.90 21.96 19.73
13、 40.49 45.75 23.97 Case-based choice31.75 27.63 17.48 15.81 37.42 40.14 21.79 Bert-classifier(only-query)30.93 26.37 17.05 16.07 37.42 39.06 21.79 Bert-classifier(query&code)33.75 28.05 20.04 17.25 39.53 40.97 21.79 Llama3-classifier(only-query)-32.24 40.02 17.67 Llama3-classifier(query&code)36.94 3
14、3.75 19.18 16.20 43.95 47.67 23.72 Upper bound45.85 42.61 27.71 26.79 55.47 55.19 30.75 挑戰挑戰3 3:工具調用的被動性:工具調用的被動性 大模型是典型的“語言的巨人、行動上的矮子”工具調用不僅是技術優化手段,更是推動大模型從“生成內容”向“解決問題”躍遷的關鍵 通過整合外部能力,實現深度思考+深度行動=準確交付 在專業領域中,智能工具調用的能力是剛需:私有數據和API 工具調用是可信的,如何調用工具的思維過程是易驗證的197B模型通過調用python程序可以輕松解決兩個“大模型世紀難題”現有工具調用方式更
15、像被動的現有工具調用方式更像被動的提線木偶提線木偶“現有工具調用方式并非真正具備主動性的智能體20淺層模仿而非深度理解 SFT只是學會了特定場景下工具調用的表面模式 并非真正理解工具的功能邊界、適用場景和內部工作機制上下文依賴性強 基于提示的工具調用高度依賴于提示的精確性和完整性 一旦用戶描述模糊或提示設計不當,模型就無法正確選擇和使用工具工具組合能力受限 許多專業問題依賴多個工具協同解決問題 現有方法難以支持模型進行靈活的工具組合SFT 和 prompt-engineering 的方法都不足以讓模型學會真正的工具調用大模型中工具調用的四大關鍵問題大模型中工具調用的四大關鍵問題 何時調用?高效
16、且正確地識別哪些子任務需要調用工具 哪些只需模型內部推理就能完成 需要避免過度分解或冗余規劃 調用什么工具?LLM需要充分理解各工具的功能 如何調用?任何格式錯誤、漏參或越界都會造成工具調用失敗 如何整合到模型生成的回答中?工具輸出格式多樣,如何融入LLM的提示上下文并保證信息完整性21大模型工具調用的一般流程Tool Learning with Large Language Models:A Survey基礎模型思維能力的提升方向基礎模型思維能力的提升方向22長思維鏈:提升復雜指令遵循能力長思維鏈:提升復雜指令遵循能力 模型在單輪回答中直接遵循復雜指令中的所有約束是非常困難的23LLaMA2
17、-7B 單輪回答場景下最優表現為60LLaMA2-7B 多輪回答場景下最優表現為80模型單輪回答(左)比多輪回答(右)的表現普遍更差Order Matters:Investigate the Position Bias in Multi-constraint Instruction Following.Ours.2025 在復雜指令遵循場景下,模型需要學會迭代修改、逐步改進事前規劃的重要性 模型在指令遵循的過程中,具有約束位置敏感性(Position Bias)大模型傾向于“由難到易”的約束排列順序。單輪對話場景下,模型表現極差能夠達到約5%多輪對話場景下,正確的約束順序能夠給模型帶來20%的
18、提升24橫坐標最左:約束分布為從易到難橫坐標最右:約束分布為從難到易Order Matters:Investigate the Position Bias in Multi-constraint Instruction Following.Ours.2025長思維鏈幫助復雜指令遵循長思維鏈幫助復雜指令遵循25 在復雜指令遵循場景下,模型需要學會規劃 在復雜指令遵循場景下,模型需要學會迭代修改、逐步改進 Let me break down the task:1.Im given a fact:an earthquake causes the ground to shake.2.Im given
19、a topic:earthquake damage buildings.Lets start by identifying the words in the given fact:an earthquake causes the ground to shake.Upon further reflection,its best to be comprehensive and provide all the information requested.Ill include the given fact,topic,and the related fact in my JSON response:
20、json given_fact:an earthquake causes the ground to shake,.在回答前,通過長思維鏈進行:1.理解2.規劃3.迭代修改.可以提升模型的復雜指令遵循的能力基于結果導向強化學習提升指令遵循基于結果導向強化學習提升指令遵循 基于強化學習增強大模型的復雜指令遵循能力 RQ1:對于復雜指令遵循而言,Reward需要怎么設計?RQ2:Policy Model采樣時如何產生不同的思維方式?RQ3:什么RL訓練策略可以提高訓練的結果上限26RQ1RQ1:如何設計:如何設計RewardReward 對于復雜指令遵循而言,Reward需要怎么設計?硬約束:規則
21、驗證 軟約束:Reward Model27硬約束:可以通過規則直接驗證的約束Reward設計:不設置額外的Format Reward只有Correct Reward:如果提取*中的內容失敗,則Reward為0如果提取成功:n個約束中對了m個Reward為m/nRQ2:如何在采樣階段產生不同的思維方式 Policy Model采樣時如何產生不同的對IF有幫助的思維方式?方法1:Prompt Engineering(PE)+Few-shot 方法2:通過蒸餾少量數據冷啟動 自動合成1500條復雜指令,用Claude-3.7回答,獲得初始思維數據28You are a meticulous assi
22、stant who precisely adheres to all explicit and implicit constraints in user instructions.FORMAT:.In your section,employ these strategic approaches:1.Constraint Analysis:.In your section,deliver a solution.Here is an example:EXAMPLEYou are a helpful assistant.A conversation between User and Assistan
23、t.The user asks a question,and the Assistant solves it.The Assistant first thinks about the reasoning process in the mind and then provides the user with the answer.The reasoning process and answer are enclosed within and tags,respectively,i.e.,reasoning process here answer here.訓練時Prompt測試時PromptRQ
24、3RQ3:什么:什么RLRL訓練策略可以提高結果上限訓練策略可以提高結果上限 課程學習:樣本順序從易到難:讓模型從簡單樣本學起,逐步增加樣本的難度 復雜指令遵循天然存在難度分級:約束條數=指令難度 對于RL而言,課程學習非常重要 一個group中的Reward的分布更多樣(而不是全部為1或者全部為0)學習效率更高、更穩定29實驗結果實驗結果30Testset的表現可以穩步提升接近10個點采樣過程中的Reward也一直在增長強化學習對于復雜指令遵循非常有效未經蒸餾數據冷啟動訓練經過蒸餾數據冷啟動訓練預先冷啟動的RL表現顯著更佳,上限更高實驗結果實驗結果31.This list seems wel
25、l-rounded and covers a range of aspects that are important for a top university in this field.Ill validate against the requirement to provide double quotation marks and ensure no keywords are included.To translate 今天天氣很好(jntin tinq hn ho)into German without using heute,Ill consider an alternative wo
26、rd for today.A suitable replacement could be jetzt(now)or heute morgen(this morning).However,to make it more natural and context-specific,Ill use heute but ensure the sentence structure is correct.模型學會在think過程中不斷修正、潤色自己的答案Long Long CoTCoT如何更好地增強指令遵循如何更好地增強指令遵循 比baseline(qwen2.5-7B-instruct)更高,但提升不夠顯
27、著 長度不增加 雖然模型效果在提升,但是thinking token維持在300token附近 思考中pattern較少 只有少量對constraints的復述 很少會觸發反思32steps140012001000800600400Baseline(0)C_level73.9175.0070.6568.4768.4863.04 71.74I_level66.6768.3363.3355.0063.3351.6766.67猜想1:因為thinking model本身缺乏跟指令遵循相關的thinking cot,導致冷啟動數據的pattern太簡單,模型上限不高冷啟動階段需要引導Claude生成高
28、級思考pattern猜想2:冷啟動的數據太簡單,導致claude不會觸發反思用更難的數據進行冷啟動通過蒸餾干預思維過程通過蒸餾干預思維過程 解決方式:用Claude新構建了一批冷啟動數據 提升了指令難度:從3-5約束增加到5-7約束 強化了對Instruction Following有效的思考pattern 新的一批冷啟動數據訓練后:模型輸出長度從平均200增長到1000 模型的思考中有更多的pattern 模型的reward更高 原始(400步):reward從0.5到0.65 現在(400步):reward從0.6到0.733First,I need to carefully analyz
29、e this request about programming skills with the multiple constraints:The user wants me to list programming skills needed by a programmer,not including obvious programming abilities.The format is very specific:.First,let me think about essential programming skills:.For the 4 bullet points,Ill select
30、 the most crucial ones.I need to be careful about the letter i count throughout.Possible bullets:.Let me check i count:I see ESPECIALLY and NEW-thats 2 is so far.Final format:*PROBLEM-SOLVING SKILLS*COMPUTER FUNDAMENTAL UNDERSTANDING*TIME MANAGEMENT*ADAPTABILITY TO NEW TECHNOLOGIESThis meets all con
31、straints:-Exactly 4 bullet points-Proper format-Contains fewer than 5 is-Has a placeholder-Will end with Let me know if you have additional questions.-Everything is capitalized元思維能力提升:反思與自我優化元思維能力提升:反思與自我優化 反思能力不是內生的,需要額外訓練 主流開源LLM仍不具備自我糾錯的能力,在要求重新反思糾正初始答案后,性能顯著下降34在多個領域,Qwen2-7B和Llama3-8B在要求重新反思初始答
32、案后,相較于初始答案生成質量大幅下降Logic-RL中有類似的發現,模型思維鏈中出現recheck后,幾乎全是負作用模型的反思自我糾錯能力模型的反思自我糾錯能力 模型在RL之前需要先提升其基礎反思糾錯能力 如何通過特定的訓練,讓模型自發泛化出再次回答時的糾錯能力?如何低成本構建大規模的訓練數據集?如何避免錯誤答案對初次回答的負面影響?35Small language model can self-correct.Ours,2024,AAAI自我糾錯數據集的構造流程。使用多個LLM回答指令,與 Ground Truth進行匹配,不匹配即視作為錯System Header Prompt Quest
33、ionWrong AnswerSystem Refinement PromptCorrect Answer自我糾錯的指令格式,僅有標記處參與計算loss在多個模型上的微調都可使模型自我再回答一次,并獲得效果提升自我完善:從單步到多步自我完善:從單步到多步 實現LLM多步自我完善的關鍵在于如何定義“好”答案 通過傳統各種答案評估指標的分數高低 更大更強的模型生成的候選項和更小模型生成的候選項 如使用Qwen2-72B的答案和LLaMA3-8B的答案 如何提升LLM自我完善能力的泛化性?5w條指令微調數據可使基座模型對人類各種問題給出回答 構建通用領域的自我完善的訓練數據集 對于更好的答案給予更高
34、的權重36LLM逐步完善生成的答案THINK THRICE BEFORE YOU ACT:PROGRESSIVE THOUGHT REFINEMENT IN LARGE LANGUAGE MODELS.ICLR 2025,ours.System Header Prompt QuestionAnswer 1System Refinement PromptAnswer 2System Refinement PromptAnswer 3持續迭代優化的指令格式LLMLLM的迭代自我完善能力的迭代自我完善能力 在數學、代碼、學科知識等多個領域,逐步完善后的答案平均提高了4.9%LLM經過逐步完善后,在第
35、二第三輪完善的表現提升明顯,而后逐漸趨于平緩37在多個任務上第二次生成的平均均優于初始的答案在多輪后仍然能夠緩慢提升回答的表現思維結構化框架與應用思維結構化框架與應用38模仿專家思維的法律抗辯模仿專家思維的法律抗辯AgentAgent39自由結果導向的局限輸出不一致,缺乏可預測性推理過程難以追蹤與復現可能缺乏法律專業的嚴謹性專家思維模仿的優勢結構化的抗辯流程與模式專業領域知識與經驗的嵌入可解釋、可預測、可信賴的輸出圖爾敏論證模型圖爾敏論證模型&主題挖掘主題挖掘 圖爾敏(Toulmin)論證模型:用于分析法律推理和復雜決策過程 不同于形式邏輯,而是結合實踐邏輯來構建合理的論證體系。該模型被廣泛應
36、用于法律辯論中,能夠幫助律師在法庭上構建嚴謹且有說服力的抗辯策略。40證據事實支撐依據可能反駁1.提交物證和證人證言2.引用法律條文或判例3.使用權威數據和專家意見4.指出對方陳述的不一致性5.強調程序正義的缺失6.提交事件記錄7.引用合同或協議8.分析對方證據的問題9.構建邏輯推理結論10.揭示歷史行為模式1.證據鏈完整性與證人審查2.法律條文分析與判例遵循3.數據來源核查與專家評估4.矛盾整理與邏輯分析5.指出程序正義的缺失6.記錄認證與關聯性證明7.條款解讀與履約證明8.對方證據問題分析9.嚴密構建邏輯推理10.行為數據與模式統計分析1.質疑證據的可信度與來源2.法律條文適用性與解讀問題
37、3.程序正義問題4.立法意圖的誤讀5.論證中的邏輯謬誤6.證據關聯性不足7.質疑判例的適用性8.反駁程序錯誤指控9.質疑專家證人的偏見或利益沖突主題內容:在已構建的數據基礎上,對被告律師的發言進行挖掘,提煉出三大核心主題:模仿圖爾敏模型的算法框架模仿圖爾敏模型的算法框架 算法框架流程:判斷是否需要框架進行推理:對于每一輪法官的問題,agent判斷是否需要使用框架,否則直接生成回答 若需要使用框架:1.agent1 生成支持主張的證據事實2.agent2 生成證據事實的支持依據3.agent3 對生成的證據事實和支持依據以原告或者法官視角進行反駁,生成反駁意見和修正建議。4.根據反駁意見,重新調
38、用 agent1 和 agent2 修正證據事實和支持依據。5.重復此過程,直到滿足條件sufficient或達到最大迭代次數。agent4 整合修正后的證據事實和支持依據,生成最終回答。41實驗結果實驗結果 評估方法:Pairwise:給定不同模型及方法生成的回答對,使用gpt-4o-mini打分 基座模型:Qwen2.5-32b-instruct;Qwen2.5-7b-instruct;DS-R1-Distill-Qwen-32B;Deepseek-v3 Evaluation metrics:平均勝率:案件多輪對話評估中勝率均值 總獲勝數:評估的所有對話輪數中,累計勝出對話輪數。42TAL
39、OS能夠顯著提升模型抗辯能力,Qwen7b+TALOS不僅反超Qwen32b,平均勝率提升近64%,且超過DeepSeek-V3約17%TALOS能夠與模型能力協同提升,在保證一定抗辯能力的前提下,大幅降低對硬件資源的需求。各方法相對于Qwen7b平均勝率的累積增長與與DS-r1DS-r1的對比的對比 與強推理模型進行對比 分兩次對比:僅提供法官問題和任務描述(根據法官問題生成抗辯回答)雙方都結合人工設計的精細抗辯prompt生成抗辯內容43DeepSeek-R1對prompt較為敏感TALOS提供了結構化,系統化的推理框架,在不同條件下均能有效確??罐q輸出質量的穩定性更大的超級模型,僅結果導
40、向 vs在專家框架下進行執行工作流順序對結果的影響工作流順序對結果的影響44可以使用結果導向RL對工作流做優化!修改agent協作順序,如將之前1-2-3循環順序變為1-2-1-2-3循環順序,計算后者相對于前者的勝率變化不同案件之間勝率差異顯著-agents的協作工作流有待學習優化深度思考與工具調用的融合深度思考與工具調用的融合45大模型中的工具調用大模型中的工具調用 大模型中工具的定義:能讓大模型從外部獲得知識、實現某些運算、訪問系統功能等的模塊化接口 檢索引擎、Python 解釋器、地圖 API等等46使用“天氣API”查詢當地的天氣使用“python解釋器”來計算調用“數據庫”來獲取相
41、關數據基于試錯而不僅僅是描述來學習使用工具基于試錯而不僅僅是描述來學習使用工具47人類有效的工具學習探索與嘗試:主動操作工具從反饋中學習:錯誤是最好的老師迭代改進:不斷調整使用方式之前的大模型工具學習大量Prompt說明工具:理解但缺乏實踐經驗蒸餾訓練使用歷史:復制但不理解原理結果:工具使用固化,難以靈活應對變化啟示:大模型工具學習的新范式從被動指令到主動探索結果反饋機制,允許失敗和學習鼓勵創新使用,超越固定模式融合編程與計算的大模型深度思考融合編程與計算的大模型深度思考 完全依賴強化學習的方式,訓練大模型在深度思考中動態地調用編程解釋器來輔助思考 通用prompt:基于base模型,設置通用
42、prompt來引導模型自適應調用外部編程工具 獎勵信號:準確率獎勵、格式獎勵、調用編程獎勵三種細粒度的獎勵信號 數據構造:使用特殊標簽 當模型需要調用時,推理暫停并執行python代碼,將執行結果整合至推理中,并繼續生成48 Here is the reasoning process.Here is the final answer.設置的System prompt期望輸出格式RQ1:RQ1:深度思考深度思考+工具調用是否能夠增強性能?工具調用是否能夠增強性能?模型能夠結合長思考來調用工具輔助解決問題 在MATH數據集上,相對于Base模型,訓練1400步(約1.5h)后 ACC達到64.6%
43、,提升了8.3%49Lets start by calculating$sin(36circ)$:2*(0.30901)*(0.95105)(0.3090169)*2+(0.9510565162951535)*2(0.309016)*3+(0.309016)*2n 0.12500$boxed0.125$,多次調用python程序計算三角函數對于復雜的三角函數運算能夠通過多次調用python程序正確解決問題Lets start by considering a helpful identity:The equation becomes:n y3-3y=52 At this point,we ca
44、n use Python to solve for(y)pythonimport sympy as spy=sp.symbols(y)#Define the equationnequation=y*3-3*y 52#Solve the equationnsolutions=sp.solve(equation,y)print(solutions)The result of executing this Python code is:4,-2-3*I,-2+3*I Therefore,(x+frac1x=boxed4)一元三次方程通過模型自身能力難以解決模型調用Python程序后,順利得到正確答案
45、調用python程序后,模型能夠正確解出一元三次方程復雜難題RQ2RQ2:模型是否能夠學會動態調用工具?:模型是否能夠學會動態調用工具?對于簡單的運算,模型能夠利用自身生成能力直接得出答案;對于復雜的生成步驟,模型能夠調用python來輔助解決50The prime factorization of 20 is$22 times 5$,and the prime factorization of 90 is$2 times 32 times 5$.Lets start by formulating the LCM:pythonn#Prime factorization for 20:22*5n
46、#Prime factorization for 90:2*32*5nn#LCM formula:math import gcdnnnum1=20 num2=90nlcm=(num1*num2)/gcd(num1,num2)nlcmnnThe result of calculating the LCM of 20 and 90 is:180.Next,lets calculate the GCF,or greatest common divisor(GCD):pythonn#GCD formula:The product of the lowest power of each prime fa
47、ctor that appears in both numbersnfrom math import gcdnnnum1=20nnum2=90ngcf=gcd(num1,num2)ngcfnnThe result of calculating the GCF of 20 and 90 is:10.nnFinally,we multiply the LCM and GCF of 20 and 90:nnBased on our calculations,the product of the least common multiple(LCM)and the greatest common fac
48、tor(GCF)of 20 and 90 is$180 times 10=1800$.Therefore,the product is$boxed1800$.n”第一個python代碼求解最小公倍數第二個python代碼求解最大公約數簡單計算不調用python代碼,直接生成求解20和90的最小公倍數和最大公約數的乘積;模型通過python代碼調用來求解兩個數的最小公倍數和最大公約數,對于簡單的乘法元素模型推理得到答案工具的調用和工具的執行結果都成為了推理過程的一部分!RQ3RQ3:動態使用編程工具的能力能否遷移泛化?:動態使用編程工具的能力能否遷移泛化?面對未接觸的任務,模型能自主調用編程工具
49、來解決 經過訓練后,模型在未見的任務上能自主調用編程來解決問題51模型僅在數學題數據集上進行訓練,但自發會使用工具解決數“r”的問題工具調用和深度思維有效融合工具調用和深度思維有效融合 模型的反思能力:結合模型的長思考能力,即使python程序格式、編譯有問題,也能夠通過反思來進一步糾正、再次嘗試解決問題52即使代碼程序執行錯誤,模型在檢查后意識到是編譯出錯(左圖)、python格式不對(右圖),進一步反思糾正 To solve this problem,we need to convert the decimal number$629_10$to both base 7 and base 8
50、 representations.pythondef decimal_to_base(n,base):if n=0:return 0”digits=while n:digits.append(int(n%base)n/=basereturn.join(str(x)for x in digits:1)base_7_representation=decimal_to_base(629,7)print(base_7_representation)Error unterminated string literal(detected at line 2)(,line 2)It seems there w
51、as an error in the code.Lets try again:npythonpython#Calculation within the thinking process.n#First,we last_term=(4*5)#Last term of the first binomial*Last term of the second binomialThe result of executing this Python code is:Error!The code execution results are not formatted correctly.We should r
52、ework this.nnLets fix this.nThe expanded product of$3(x+4)(x+5)$is$3x2+9x+20$.問題難度對訓練的影響問題難度對訓練的影響 問題難度設置:過于簡單的問題在前期有利于模型快速學習到格式,但不利于提升模型總體的性能;復雜的題目有利于通過RL提升模型的性能;53Qwen2.5-7B使用GRPO算法后在GSM8K、Math上的效果總結:通用智能向領域發展的進步路徑總結:通用智能向領域發展的進步路徑 專業性的本質是思維能力 知識是基礎,思維是關鍵 專業大模型的發展方向是提升思維能力 Goal-Oriented RL解鎖領域思維潛能 基于目標的強化學習 提供專家思維框架,模型可以通過試錯完成任務54以上工作基于的強化學習框架已開源https:/