《面向開放域的大模型智能體-李鵬.pdf》由會員分享,可在線閱讀,更多相關《面向開放域的大模型智能體-李鵬.pdf(65頁珍藏版)》請在三個皮匠報告上搜索。
1、向開放域的向開放域的模型智能體模型智能體李鵬 清華學智能產業研究院(AIR)大模型智能體迅猛發大模型智能體迅猛發展展2023年以來大模型智能體受到廣泛關注,研究、框架、應用迅猛發展。年以來大模型智能體受到廣泛關注,研究、框架、應用迅猛發展。Wang et al.2023.A Survey on Large Language Model based Autonomous Agents.arXiv:2308.11432.3智能體是智能體是OpenAI的重點發力方的重點發力方向向OpenAI高度關注智能體高度關注智能體,GPTs是面向個人需求推出的智能體方案。是面向個人需求推出的智能體方案。圖片和資
2、料來自網絡“但是當新的AI Agents 論文出來 的時候,我們都非 常感興趣,覺得它 非???,因為我們 的團隊并沒有花費 五年時間在這上 面,我們并不比你 們更多掌握什么,我們正在與你們所 有人一起競爭?!睓C遇:在智能體方向國內外基本處于同一起跑機遇:在智能體方向國內外基本處于同一起跑線線4智能體歷史沿智能體歷史沿革革Russell,S.J.Artificial intelligence:A modern approach.Pearson Education,Inc.,2010.智能體概念由來以久,是對人工智能問題的重要研究抽象。智能體概念由來以久,是對人工智能問題的重要研究抽象。An ag
3、ent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators.Stuart J.Russell and Peter Norvig5訓練:免訓練訓練:免訓練數據:無需專門收集數據數據:無需專門收集數據任務:可完成多樣化開放任任務:可完成多樣化開放任務務訓練:強化學習訓練:強化學習+自我對弈自我對弈數據:專用環境收集的海量數數據:專用環境收集的海量數據據任務:僅能玩星際爭霸任務:僅能玩星際爭霸2傳統
4、智能體傳統智能體 v.s.大模型智能大模型智能體體解決開放域問題將是大模型智能體區別于傳統智能體的關鍵特征之一。解決開放域問題將是大模型智能體區別于傳統智能體的關鍵特征之一。AlphaStarAutoGPThttps:/deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/;https:/auto-gpt.ai/6大模型智能體現大模型智能體現狀狀當前大模型智能體雖獲取廣泛關注,但尚未完成在開放域上的效果階躍。當前大模型智能體雖獲取廣泛關注,但尚未完成在開放域上的效果階
5、躍。潛力初現潛力初現效果階躍效果階躍GPT-3ChatGPT 通用性通用性 自主性自主性 有效性有效性大模型智能體大模型智能體7典型系統典型系統1:OpenAI GPTs圖片來源:https:/ prompt)的產品化。進階版進階版:基礎版+工具調用工具調用,增加了一定自主性。通用性通用性可引入外部可引入外部APIGPTs自主決定何時使用自主決定何時使用API自主性自主性有效性有效性8典型系統典型系統2:斯坦福?。核固垢P℃傛侾ark et al.,2023.Generative Agents:Interactive Simulacra of Human Behavior.UIST 23.可以
6、一定程度實現人類行為的模擬,并觀察到涌現行為??梢砸欢ǔ潭葘崿F人類行為的模擬,并觀察到涌現行為。目前尚無法勝任大規模人類行為的模擬,模擬可信性也仍需提高。目前尚無法勝任大規模人類行為的模擬,模擬可信性也仍需提高。通用性通用性自主性自主性有效性有效性9典型系統典型系統3:AI化學家化學家CoscientistBoiko et al.,2023.Autonomous Chemical Research with Large Language Models.Nature.可實際操作特定實驗設備完成需要復雜合成步驟的化合物合成??蓪嶋H操作特定實驗設備完成需要復雜合成步驟的化合物合成。專用系統:智能體在
7、部分環節可以使用搜索引擎,但所有步驟均由人類設計。專用系統:智能體在部分環節可以使用搜索引擎,但所有步驟均由人類設計。通用性通用性自主性自主性有效性有效性10典型系統典型系統4:AutoGPT/MetaGPT由人類提出宏觀任務,智能體自主完成任務分解并分步執行從而完成宏觀任務。由人類提出宏觀任務,智能體自主完成任務分解并分步執行從而完成宏觀任務。最常用測試場景為編寫代碼,但目前仍然無法勝任大工程。最常用測試場景為編寫代碼,但目前仍然無法勝任大工程。Hong et al.,2023.MetaGPT:Meta Programming for A Multi-Agent Collaborative
8、Framework.arXiv:2308.00352.自主性自主性有效性有效性通用性通用性11典型系統典型系統5:VoyagerWang et al.,2023.Voyager:An Open-Ended Embodied Agent with Large Language Models.arXiv:2305.16291.智能體在智能體在Minecraft中自主探索從而逐步學習到技能樹。中自主探索從而逐步學習到技能樹。專用系統:理論上可泛化性到可用代碼描述場景,但設計中依賴于特定專用系統:理論上可泛化性到可用代碼描述場景,但設計中依賴于特定API抽象。抽象。通用性通用性自主性自主性有效性有效性
9、12大模型智能體系統現狀小大模型智能體系統現狀小結結當前智能體仍處于發展的初級階段,距離開放域理想系統仍然具有很大差距。當前智能體仍處于發展的初級階段,距離開放域理想系統仍然具有很大差距。典型系統典型系統通用性通用性自主性自主性有效性有效性OpenAI GPTsAI化學家斯坦福小鎮AutoGPT/MetaGPTVoyager開放域理想智能體13開放域任務的基本構開放域任務的基本構成成智能體、人類、環境智能體、人類、環境是復雜開放域任務的基本構成角色。是復雜開放域任務的基本構成角色。智能體智能體Yang et al.2024.Towards Unified Alignment Between A
10、gents,Humans,and Environment.ICML 2024.人類人類14環境環境智能體走向開放域的準則:統一對智能體走向開放域的準則:統一對齊齊通過對齊通過對齊自身限制自身限制,智能體向著更高效運行的方向進化。,智能體向著更高效運行的方向進化。人類人類15環境環境對齊對齊自身限制自身限制時間消耗、金錢消耗等Yang et al.2024.Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.智能體走向開放域的準則:統一對智能體走向開放域的準則:統一對齊齊通過對齊通過對齊人類意圖人類意
11、圖,智能體向著更理解人類的方向進化。,智能體向著更理解人類的方向進化。智能體智能體Yang et al.2024.Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.環境環境16對齊對齊人類意圖人類意圖二義性、潛在偏好等智能體走向開放域的準則:統一對智能體走向開放域的準則:統一對齊齊通過對齊通過對齊環境規律環境規律,智能體向著更適應環境的方向進化。,智能體向著更適應環境的方向進化。智能體智能體Yang et al.2024.Towards Unified Alignment Between Agen
12、ts,Humans,and Environment.ICML 2024.人類人類17對齊對齊環境規律環境規律動態性、隨機性等智能體智能體-人類人類-環境統一對環境統一對齊齊三種角色共同構成了智能體走向開放域的統一對齊準則。三種角色共同構成了智能體走向開放域的統一對齊準則。對齊對齊人類意圖人類意圖二義性、潛在偏好等18對齊對齊環境規律環境規律動態性、隨機性等對齊對齊自身限制自身限制時間消耗、金錢消耗等Yang et al.2024.Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.基準平臺現狀:未完
13、整體現開放域挑基準平臺現狀:未完整體現開放域挑戰戰現有基準平臺未從現有基準平臺未從三方面三方面反映對齊準則,未完整體現開放域的挑戰。反映對齊準則,未完整體現開放域的挑戰。Yang et al.2024.Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.19方法框架現狀:難完全勝任開放域挑方法框架現狀:難完全勝任開放域挑戰戰Yang et al.2024.Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024
14、.現有方法框架未遵循現有方法框架未遵循統一對齊統一對齊準則,難完全勝任開放域的挑戰。準則,難完全勝任開放域的挑戰。自身限制自身限制20人類意圖人類意圖環境規律環境規律小結小結自身限制自身限制 代價敏感代價敏感的大模型智能的大模型智能體體人類意圖人類意圖 領域增強領域增強的大模型智能的大模型智能體體環境規律環境規律 環境感知環境感知的大模型智能的大模型智能體體統一對統一對齊齊21智能體-類-環境統對22代價敏感的模型智能體真實環境中的運行代真實環境中的運行代價價運行在真實環境中的大模型智能體需感知環境代價,而不應僅以任務達成為目標。運行在真實環境中的大模型智能體需感知環境代價,而不應僅以任務達成
15、為目標。1.https:/ 2.https:/ 3.Towards Unified Alignment Between Agents,Humans,and Environment大模型推理的經濟經濟成本大模型推理的時間時間成本環境探索的后效性后效性成本23技術挑戰:工具學習方法缺乏對成本建技術挑戰:工具學習方法缺乏對成本建模模1.Qin et al.,2023.ToolLLM:Facilitating Large Language Models to Master 16000+Real-world APIs.ICLR 2024.2.Zheng et al.,2024.Budget-Constr
16、ained Tool Learning with Planning.arXiv:2402.15960.當前多數工具學習方法著眼于任務完成率,而極少考慮任務完成代價。當前多數工具學習方法著眼于任務完成率,而極少考慮任務完成代價。代價受限條件下通過率(代價受限條件下通過率(PBC)引入搜索機制的方法任務完成率更高44.063.861.634.128.810.210.00.020.030.040.050.060.070.0ReActDFSDTToT-DFS當代價約束由無限降為降為20時各方法效果均大幅下降大幅下降無限無限2024創新思路:基于歷史經驗制定規創新思路:基于歷史經驗制定規劃劃根據工具學習
17、的歷史經驗制定工具學習規劃以降低代價、提高任務完成率。根據工具學習的歷史經驗制定工具學習規劃以降低代價、提高任務完成率。Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.arXiv:2402.15960.25技術方案:代價構成推技術方案:代價構成推演演工具調用代價由相對固定的全局代價和與工具調用次數相關的動態代價構成。工具調用代價由相對固定的全局代價和與工具調用次數相關的動態代價構成。Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.a
18、rXiv:2402.15960.%!+#&!#$相對固定代價相對固定代價系統提示、用戶提示等系統提示、用戶提示等單次調用代價單次調用代價Token消耗、時間等消耗、時間等代價限制代價限制代價構成:代價構成:調用大語言模型API以及工具 所產生的時間和金錢花費。假設時間花費可通過轉換函 數轉換為金錢花費。如果令=!,則費用限制條件下的工具學習也可以#$!表示為%&。規劃規劃為每個工具指為每個工具指定定 最大調用次最大調用次數數任務完成任務完成代價約束代價約束期望價值估計期望價值估計 頻次限制估計頻次限制估計26技術方案:期望價值估技術方案:期望價值估計計給定用戶請求,基于歷史經驗估計工具對解決該
19、用戶請求的期望價值。給定用戶請求,基于歷史經驗估計工具對解決該用戶請求的期望價值。Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.arXiv:2402.15960.歷史經驗請求工具 返回結果請求工具 返回結果請求工具 返回結果用戶請求用檢索模型 計算相似度基于分類模型判斷 返回結果是否對解 決請求有幫助按相似度 加權平均期望價值27技術方案:頻次限制估技術方案:頻次限制估計計給定用戶請求,基于歷史經驗估計工具在全過程被調用的最大頻次。給定用戶請求,基于歷史經驗估計工具在全過程被調用的最大頻次。歷史經驗Zheng
20、et al.,2024.Budget-Constrained Tool Learning with Planning.arXiv:2402.15960.請求工具返回結果請求工具返回結果請求工具返回結果統計各請求 中候選工具 的訪問頻次期望價值 小于閾值是否加權平均計算 訪問頻次限制訪問頻次限 制設為0期望價值28技術方案:制定并應用規技術方案:制定并應用規劃劃Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.arXiv:2402.15960.規劃制定:規劃制定:給定費用和 訪問頻次限制,基于動 態規劃算法最大最大化
21、期望化期望 價值之和價值之和,進而獲得工獲得工 具調用最大具調用最大次數次數規劃應用:規劃應用:推理過程推理過程中中 禁止調用訪問次數禁止調用訪問次數達到達到 上限的工具上限的工具29主要實驗結果:代價受限下任務完成情主要實驗結果:代價受限下任務完成情況況DFSDT+PromptToT-DFS+Prompt代價受限條件下通過率(代價受限條件下通過率(PBC)Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.arXiv:2402.15960.顯著提高代價限制條件下的通過率,且對復雜方法效果顯著。顯著提高代價限制條件下
22、的通過率,且對復雜方法效果顯著。8034.136.528.82910.29.843.745.864.563.864.162.20204060ReAct+PromptOri+Ours30主要實驗結果:代價受限下任務完成情主要實驗結果:代價受限下任務完成情況況DFSDT+PromptToT-DFS+Prompt代價受限條件下通過率(代價受限條件下通過率(PBC)Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.arXiv:2402.15960.在在prompt中添加關于代價的提示幾乎無收益。中添加關于代價的提示幾乎無收
23、益。80 34.1 36.5 28.8 2910.29.843.745.864.563.864.162.20204060ReAct+PromptOri+Ours31主要實驗結果:平均代主要實驗結果:平均代價價Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.arXiv:2402.15960.顯著降低平均代價,且對復雜方法效果顯著。顯著降低平均代價,且對復雜方法效果顯著。100.015.415.778.351.449.76.97.69.29.210.811.080.073.30.020.040.060.0ReAct+
24、PromptDFSDT平均代價平均代價+PromptToT-DFS+PromptOri+Ours32延伸挑戰:工具使用智能體評測的不穩定延伸挑戰:工具使用智能體評測的不穩定性性廣泛使用的廣泛使用的ToolBench工具評測數據集存在較大不穩定性。工具評測數據集存在較大不穩定性。1.Qin et al.,2023.ToolLLM:Facilitating Large Language Models to Master 16000+Real-world APIs.ICLR 2024.2.Guo et al.,2023.StableToolBench:Towards Stable Large-Sca
25、le Benchmarking on Tool Learning of Large Language Models.arXiv:2403.07714.ToolBench的在發布6個月后相同模型同等條件下效果明顯下降相同模型同等條件下效果明顯下降不穩定性的重要來源是API狀態的變化狀態的變化33創新思路:使用帶有緩存的創新思路:使用帶有緩存的API服務服務器器緩存系統:將評測時的緩存系統:將評測時的API使用記錄下來,保證評測一致。使用記錄下來,保證評測一致。API模擬器:在緩存和真實模擬器:在緩存和真實API都無法獲取時使用都無法獲取時使用LLM模擬真實模擬真實API。Guo et al.,2
26、023.StableToolBench:Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models.arXiv:2403.07714.34主要實驗結果:評測穩定性顯著提主要實驗結果:評測穩定性顯著提升升失敗的真實失敗的真實API不再大幅影響評測結果,評測穩定性顯著提升。不再大幅影響評測結果,評測穩定性顯著提升。Guo et al.,2023.StableToolBench:Towards Stable Large-Scale Benchmarking on Tool Learning of
27、Large Language Models.arXiv:2403.07714.ToolBench評測效果受API可用 性影響顯著使用我們方法評測效果受API可 用性影響顯著降低35智能體-類-環境統對36領域增強的模型智能體領域知識制約大模型智能體發領域知識制約大模型智能體發展展大模型是大模型智能體的基礎,但訓練階段難于覆蓋全部領域數據。大模型是大模型智能體的基礎,但訓練階段難于覆蓋全部領域數據。美團美團大眾點評大眾點評京東京東自如自如37私域數據:商業、隱私、法規等因素制約數據流通,且數據具備高度動態私域數據:商業、隱私、法規等因素制約數據流通,且數據具備高度動態性性領域知識制約大模型智能體
28、發領域知識制約大模型智能體發展展同一私域內亦有差異顯著的子領域和能力需求,領域知識獲取仍具挑戰。同一私域內亦有差異顯著的子領域和能力需求,領域知識獲取仍具挑戰。買藥買藥38買菜買菜門票門票團購團購領域知識制約大模型智能體發領域知識制約大模型智能體發展展各領域已產生大量領域專家模型,包含大量領域知識且在領域問題上表現出色。各領域已產生大量領域專家模型,包含大量領域知識且在領域問題上表現出色。領域專家模領域專家模型型39領域知識制約大模型智能體發領域知識制約大模型智能體發展展將領域專家模型知識有效傳輸給大模型以更好服務人類需求具有重要的現實意義。將領域專家模型知識有效傳輸給大模型以更好服務人類需求
29、具有重要的現實意義。領域專家模領域專家模型型大模型大模型40技術挑戰:領域知識傳輸技術挑戰:領域知識傳輸難難如何充分利用大模型通用能力實現更加高效的領域知識傳輸仍具挑戰。如何充分利用大模型通用能力實現更加高效的領域知識傳輸仍具挑戰。Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.arXiv:2402.12835.知識蒸餾知識蒸餾時間、算力開銷大 微調可能損害模型原有能力自我糾錯自我糾錯檢索增強檢索增強時間、算力開銷小 針對知識傳輸的解決方案不完善41創新思路:
30、學習專家偏好實現無參知識傳創新思路:學習專家偏好實現無參知識傳輸輸基于大模型從專家模型偏好中總結知識并基于大模型從專家模型偏好中總結知識并“舉一反三舉一反三”,從而實現知識傳輸。,從而實現知識傳輸。Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.arXiv:2402.12835.大模型大模型 領域能力弱 通用能力強專家模型專家模型 領域能力強 通用能力弱關鍵思路:在語言空間令大模型自主總結專家模型行為偏好實現知識傳輸關鍵思路:在語言空間令大模型自主總結專家模型
31、行為偏好實現知識傳輸42技術方案:偏好引導的知識傳技術方案:偏好引導的知識傳輸輸以專家小模型輸出分布作為偏好,利用大模型對其進行逆向解釋形成可泛化知識。以專家小模型輸出分布作為偏好,利用大模型對其進行逆向解釋形成可泛化知識。Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.arXiv:2402.12835.學學 習習 階階 段段The expert prefer A rather than B.Explain the reason why the expert
32、holds on this preferences.PromptQuery43A和B為來自專家模型輸出分布 A的logit大于B的logit技術方案:偏好引導的知識傳技術方案:偏好引導的知識傳輸輸推理階段檢索與當前請求相關的歷史知識對模型行為進行引導。推理階段檢索與當前請求相關的歷史知識對模型行為進行引導。Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.arXiv:2402.12835.推推 理理 階階 段段PromptPrompt ContextThese
33、are some insights that may be helpful for you to improve success rate:Retrieved InsightsPrompt Context從偏好知識庫檢索相關的偏好知識用來對大語言模型(學生)進行偏好引導44主要實驗結果:交互式決策任主要實驗結果:交互式決策任務務有效傳輸:有效傳輸:多個任務上基 于多種智能體算法都有明 顯提升。舉一反三:舉一反三:4個任務上學 生優于教師。Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abili
34、ties of LLMs.arXiv:2402.12835.ScienceWorld 示意圖 實際為純文本交互環境45主要實驗結果:分類任主要實驗結果:分類任務務多個文本分類任務上呈現良好知識傳輸效果,且同樣觀察到多個文本分類任務上呈現良好知識傳輸效果,且同樣觀察到“舉一反三舉一反三”現象?,F象。Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.arXiv:2402.12835.46主要實驗結果:分類任主要實驗結果:分類任務務多個文本分類任務上呈現良好知識傳輸效
35、果,且同樣觀察到多個文本分類任務上呈現良好知識傳輸效果,且同樣觀察到“舉一反三舉一反三”現象?,F象。舉一反三:專家模型弱于大語言模型舉一反三:專家模型弱于大語言模型Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.arXiv:2402.12835.47主要實驗結果:跨任務泛主要實驗結果:跨任務泛化化交互決策任務交互決策任務/分類任務均呈現出一定的跨任務泛化(分類任務均呈現出一定的跨任務泛化(“舉一反三舉一反三”)效果。)效果。Liu et al.,2023.PA
36、NDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.arXiv:2402.12835.注:Task1-1 1-4表示在Task1-1上學習、在Task1-4上測試交交 互互 決決 策策 任任 務務重要觀察:大模型重要觀察:大模型“舉一反三舉一反三”能力為實現更加高效通用的智能力為實現更加高效通用的智能能 體提供了全新可能性體提供了全新可能性分分 類類 任任 務務48智能體-類-環境統對49環境感知的模型智能體基于軌跡數據增強環境感基于軌跡數據增強環境感知知智能體可利用任務執行過程的交互軌跡,通過訓練
37、語言模型增強環境智能體可利用任務執行過程的交互軌跡,通過訓練語言模型增強環境感感 知,進而學習解決任務的策略。知,進而學習解決任務的策略。Chen et al.2023.FireAct:Toward Language Agent Fine-tuning.arXiv:2310.05915.50技術挑戰:多樣化軌跡數據難獲技術挑戰:多樣化軌跡數據難獲取取人類或基于提示工程的智能體均難獲取大規模多樣化的訓練軌跡。人類或基于提示工程的智能體均難獲取大規模多樣化的訓練軌跡。Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Train
38、ing Data Autonomy.arXiv:2403.14589.人類與環境交互人類與環境交互 從而標注訓練軌從而標注訓練軌跡跡人類實現基于提示工程的智能體框人類實現基于提示工程的智能體框架架 智能體與環境交互得到訓練軌智能體與環境交互得到訓練軌跡跡51創新思路:智能體自主標注訓練軌創新思路:智能體自主標注訓練軌跡跡智能體自主實現訓練軌跡的標注,進而進行自我訓練。智能體自主實現訓練軌跡的標注,進而進行自我訓練。Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:2
39、403.14589.智能體通過協作自主標注訓練軌跡,無需人類參智能體通過協作自主標注訓練軌跡,無需人類參與與52技術方案:解釋動作的智能體技術方案:解釋動作的智能體ActRe現有的智能體現有的智能體(ReAct)基于推理基于推理(Reason)給出動作給出動作(Action)引入基于動作引入基于動作(Action)解釋原因解釋原因(Reason)的智能體的智能體(ActRe)Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:2403.14589.53技術方案技術方案
40、:ReAct與與ActRe協作標協作標注注采樣新動作采樣新動作(Action)時,利用時,利用ActRe得到動作的原因得到動作的原因(Reason)得到的原因得到的原因(Reason)和采樣的動作和采樣的動作(Action)構成構成ReAct軌跡標注軌跡標注Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:2403.14589.ReAct:Obs.ActRe:Obs.54技術方案技術方案:ReAct與與ActRe協作標協作標注注采樣新動作采樣新動作(Action)時
41、,利用時,利用ActRe得到動作的原因得到動作的原因(Reason)得到的原因得到的原因(Reason)和采樣的動作和采樣的動作(Action)構成構成ReAct軌跡標注軌跡標注Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:2403.14589.ReAct:Obs.ActRe:Obs.Act55技術方案技術方案:ReAct與與ActRe協作標協作標注注采樣新動作采樣新動作(Action)時,利用時,利用ActRe得到動作的原因得到動作的原因(Reason)得到的
42、原因得到的原因(Reason)和采樣的動作和采樣的動作(Action)構成構成ReAct軌跡標注軌跡標注Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:2403.14589.ReAct:Obs.ActRe:Obs.Act Reason56技術方案技術方案:ReAct與與ActRe協作標協作標注注采樣新動作采樣新動作(Action)時,利用時,利用ActRe得到動作的原因得到動作的原因(Reason)得到的原因得到的原因(Reason)和采樣的動作和采樣的動作(Ac
43、tion)構成構成ReAct軌跡標注軌跡標注Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:2403.14589.ReAct:Obs.Reason ActActRe:Obs.Act Reason57技術方案技術方案:ReAct與與ActRe協作標協作標注注采樣新動作采樣新動作(Action)時,利用時,利用ActRe得到動作的原因得到動作的原因(Reason)得到的原因得到的原因(Reason)和采樣的動作和采樣的動作(Action)構成構成ReAct軌跡標注軌跡
44、標注Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:2403.14589.ReAct:Obs.Reason Act ObsActRe:Obs.Act Reason Obs58技術方案:對比式自我訓技術方案:對比式自我訓練練標注得到的軌跡有失敗有成功,通過對比式自我訓練增強環境感知。標注得到的軌跡有失敗有成功,通過對比式自我訓練增強環境感知。對比式自我訓練自主軌跡標注Yang et al.2024.ReAct Meets ActRe:When Language Ag
45、ents Enjoy Training Data Autonomy.arXiv:2403.14589.59主要實驗結果主要實驗結果:AlfWorldReflexion97(11輪迭代)RAFA(8輪迭代)我們的方法我們的方法Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:2403.14589.86(1輪迭代)97(2輪迭代)99(3輪迭代)在文本具身平臺在文本具身平臺AlfWorld上自我訓練,測試階段迭代嘗試成功率:上自我訓練,測試階段迭代嘗試成功率:Refle
46、xion:基于自身生成反思的迭代框架 RAFA:基于GPT-4做局勢判斷的迭代框架9960100(4輪迭代)主要實驗結果:主要實驗結果:WebShop在線購物平臺在線購物平臺WebShop上自我訓練,測試階段迭代嘗試成功率:上自我訓練,測試階段迭代嘗試成功率:LATS:多輪自我反思與樹搜索6038(30輪迭代)45(1輪迭代)52(2輪迭代)53(3輪迭代)55(4輪迭代)50我們的方法我們的方法普通人普通人專家專家Yang et al.2024.ReAct Meets ActRe:When Language Agents Enjoy Training Data Autonomy.arXiv:
47、2403.14589.LAST61未來展望:向達成智能體未來展望:向達成智能體-人類人類-環境統一對齊持續推環境統一對齊持續推進進開放域開放域智能體智能體環境環境人類人類 更加開放:基礎模型持續引入開放域知更加開放:基礎模型持續引入開放域知識識 持續進化:智能體個體和群體持續進化持續進化:智能體個體和群體持續進化 具身自主:加速走向具身化并主動獲取知具身自主:加速走向具身化并主動獲取知識識 數字環境:真實性和多樣性持續提升數字環境:真實性和多樣性持續提升 數學模擬環境:在世界模型驅動下日趨完數學模擬環境:在世界模型驅動下日趨完善善 真實物理環境:數據獲取成本持續降低真實物理環境:數據獲取成本持
48、續降低 創造新業態:創造新業態:Agent+X 改變產業結改變產業結構構 創造新知識:智能體逐漸發展出創造力創造新知識:智能體逐漸發展出創造力62總結總結63智能體是大模型解決更復雜問題的重要范式抽象,亟需全面走向開放域。智能體是大模型解決更復雜問題的重要范式抽象,亟需全面走向開放域。智能體智能體-人類人類-環境統一對齊是實現理想開放域大模型智能體系統的重要原則。環境統一對齊是實現理想開放域大模型智能體系統的重要原則。我們在面向開放域大模型智能體方向開展初步探索:我們在面向開放域大模型智能體方向開展初步探索:自身限制自身限制 代價敏感的大模型智能體;代價敏感的大模型智能體;人類意圖人類意圖 領域增強的大模型智能體;領域增強的大模型智能體;環境規律環境規律 環境感知的大模型智能體。環境感知的大模型智能體。智能體系統將向達成智能體智能體系統將向達成智能體-人類人類-環境統一對齊目標持續推進。環境統一對齊目標持續推進。65