《智能體-人類-環境統一對齊原則初探-李鵬.pdf》由會員分享,可在線閱讀,更多相關《智能體-人類-環境統一對齊原則初探-李鵬.pdf(61頁珍藏版)》請在三個皮匠報告上搜索。
1、智能體-人類-環境統一對齊原則初探李鵬2024年10月13日2大模型智能體迅猛發展 2023年以來大模型智能體受到廣泛關注,研究、框架、應用迅猛發展。https:/ et al.2023.A Survey on Large Language Model based Autonomous Agents.arXiv:2308.11432.3智能體歷史沿革 智能體概念由來以久,是對人工智能問題的重要研究抽象。Russell,S.J.Artificial intelligence:A modern approach.Pearson Education,Inc.,2010.An agent is any
2、thing that can be viewed as perceiving its environment throughsensors and acting upon that environment through actuators.Stuart J.Russell and Peter Norvig4傳統智能體 v.s.大模型智能體 解決開放域問題將是大模型智能體區別于傳統智能體的關鍵特征之一。https:/deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii
3、/;https:/auto-gpt.ai/訓練:強化學習+自我對弈數據:專用環境收集的海量數據任務:僅能玩星際爭霸2訓練:免訓練數據:無需專門收集數據任務:可完成多樣化任務AlphaStarAutoGPT5大模型智能體現狀 當前大模型智能體雖獲取廣泛關注,但尚未完成在開放域上的效果階躍。GPT-3ChatGPT大模型智能體潛力初現效果階躍 通用性 自主性 有效性6典型系統1:OpenAI GPTs 基礎版:使用文字配置智能體,可看作系統提示的產品化。進階版:基礎版+工具調用,增加了一定自主性。圖片來源:https:/ 可以一定程度實現人類行為的模擬,并觀察到涌現行為。目前尚無法勝任大規模人類行
4、為的模擬,模擬可信性也仍需提高。Park et al.,2023.Generative Agents:Interactive Simulacra of Human Behavior.UIST 23.通用性自主性有效性8典型系統3:AI化學家Coscientist 可實際操作特定實驗設備完成需要復雜合成步驟的化合物合成。專用系統:智能體在部分環節可以使用搜索引擎,但所有步驟均由人類設計。Boiko et al.,2023.Autonomous Chemical Research with Large Language Models.Nature.通用性自主性有效性9典型系統4:AutoGPT/M
5、etaGPT 人類提出宏觀任務,智能體自主完成任務分解并分步執行從而完成宏觀任務。最常用測試場景為編寫代碼,但目前仍然無法勝任大工程。Hong et al.,2023.MetaGPT:Meta Programming for A Multi-Agent Collaborative Framework.ICLR 2024.通用性自主性有效性10典型系統5:Voyager 智能體在Minecraft中自主探索從而逐步學習到技能樹。專用系統:理論上可泛化到代碼可描述場景,但設計中依賴于特定API抽象。Wang et al.,2023.Voyager:An Open-Ended Embodied Ag
6、ent with Large Language Models.TMLR.通用性自主性有效性11大模型智能體系統現狀小結 當前智能體仍處于發展的初級階段,距離開放域理想系統仍然具有很大差距。典型系統通用性自主性有效性OpenAI GPTsAI化學家斯坦福小鎮AutoGPT/MetaGPTVoyager開放域理想智能體12開放域任務的基本構成 智能體、人類、環境是復雜開放域任務的基本構成角色。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.對齊環境規
7、律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等人類環境智能體13智能體走向開放域的準則:統一對齊 通過對齊自身限制,智能體向著更高效運行的方向進化。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等人類環境對齊自身限制時間消耗,金錢消耗等等對齊自身限制時間消耗
8、、金錢消耗等14智能體走向開放域的準則:統一對齊 通過對齊人類意圖,智能體向著更理解人類的方向進化。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等環境智能體對齊人類意圖二義性、潛在偏好等15智能體走向開放域的準則:統一對齊 通過對齊環境規律,智能體向著更適應環境的方向進化。Yang et al.2024.Position:
9、Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等人類智能體對齊環境規律動態性、隨機性等16智能體-人類-環境統一對齊 三種角色共同構成了智能體走向開放域的統一對齊準則。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.對齊自身限
10、制時間消耗,金錢消耗等等對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等對齊環境規律動態性,隨機性等等對齊人類意圖二義性,潛在偏好等等對齊人類意圖二義性、潛在偏好等對齊環境規律動態性、隨機性等對齊自身限制時間消耗、金錢消耗等17基準平臺現狀:未完整體現開放域挑戰 現有基準平臺未從三方面反映對齊準則,未完整體現開放域的挑戰。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.18方法框架現狀:難完全勝任開放域挑戰 現有方法框架未遵循統一對
11、齊準則,難完全勝任開放域的挑戰。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.自身限制人類意圖環境規律19實驗嘗試:構建體現三種角色的平臺 在現有WebShop在線購物基準平臺上,引入用戶畫像和需求組、搜索引擎的重排序機制、以及智能體運行時的消耗統計。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024
12、.20實驗嘗試:構建體現三種角色的平臺 在現有WebShop在線購物基準平臺上,引入用戶畫像和需求組、搜索引擎的重排序機制、以及智能體運行時的消耗統計。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.21實驗嘗試:構建體現三種角色的平臺 在現有WebShop在線購物基準平臺上,引入用戶畫像和需求組、搜索引擎的重排序機制、以及智能體運行時的消耗統計。Yang et al.2024.Position:Towards Unified Alignment
13、 Between Agents,Humans,and Environment.ICML 2024.22實驗嘗試:構建統一對齊的智能體 針對每個用戶維護結構化檢索庫,記錄每次需求與相應關鍵交互動作。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.Batched AnalyzerStructured MemoryHigh-RewardTrajectoriesLow-level InsightsKeyKeyAction#1:KeyKeyAction#2
14、:KeyKeyAction#3:Inter-Task Retrieval of High-level ExperienceIntentionsDynamics,FeedbackInteraction23實驗嘗試:構建統一對齊的智能體 現有智能體方法框架在人類意圖、環境規律、自身限制三方面的綜合表現欠佳,我們提出的框架取得最好的整體表現。Yang et al.2024.Position:Towards Unified Alignment Between Agents,Humans,and Environment.ICML 2024.平臺任務評價指標自身限制對齊表現人類意圖對齊表現環境規律對齊表現
15、智能體-人類-環境統一對齊代價敏感的大模型智能體25問題1:與真實環境中的運行代價對齊 運行在真實環境中的大模型智能體需感知多種環境代價。1.https:/ 2.https:/ 3.Towards Unified Alignment Between Agents,Humans,and Environment大模型推理的經濟成本大模型推理的時間成本環境探索的后效性成本26技術挑戰:工具學習方法缺乏對成本建模 當前多數工具學習方法著眼于任務完成率,而極少考慮任務完成代價。1.Qin et al.,2023.ToolLLM:Facilitating Large Language Models to
16、Master 16000+Real-world APIs.ICLR 2024.2.Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.Findings of ACL 2024.引入搜索機制的方法任務完成率更高44.0 63.8 61.6 34.1 28.8 10.2 0.010.020.030.040.050.060.070.0ReActDFSDTToT-DFS代價受限條件下通過率(PBC)無限20當代價約束由無限降為20時各方法效果均大幅下降27創新思路:基于歷史經驗制定規劃 根據工具學習的歷史經驗制定工具學習規劃
17、以降低代價、提高任務完成率。Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.Findings of ACL 2024.28主要實驗結果:代價受限下任務完成情況 顯著提高代價限制條件下的通過率,且對復雜方法效果顯著。Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.Findings of ACL 2024.34.136.528.82910.29.843.745.864.563.864.162.2020406080ReAct+Prompt
18、DFSDT+PromptToT-DFS+Prompt代價受限條件下通過率(PBC)Ori+Ours29主要實驗結果:平均代價 顯著降低平均代價,且對復雜方法效果顯著。Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.Findings of ACL 2024.15.4 15.7 78.3 73.3 51.4 49.7 6.9 7.6 9.2 9.2 10.8 11.0 0.020.040.060.080.0100.0ReAct+PromptDFSDT+PromptToT-DFS+Prompt平均代價Ori+Ours3
19、0主要實驗結果:提示學習作用 在prompt中添加關于代價的提示幾乎無收益。Zheng et al.,2024.Budget-Constrained Tool Learning with Planning.Findings of ACL 2024.34.136.528.82910.29.843.745.864.563.864.162.2020406080ReAct+PromptDFSDT+PromptToT-DFS+Prompt代價受限條件下通過率(PBC)Ori+Ours31 實際自主的大模型智能體需認知自身所受的限制,例如效率、推理效果等。問題2:與大模型的自我認知能力對齊1.https:
20、/ 2.Yang et al.,2023.Alignment for Honesty.arXiv:2312.07000.大模型對自身效率的自我認知大模型對推理效果的自我認知32技術挑戰:大模型自我認知能力普遍不足Xiong et al.,2024.Can LLMs Express Their Uncertainty?An Empirical Evaluation of Confidence Elicitation in LLMs.ICLR 2024.Liu et al.,2024.Enabling Weak LLMs to Judge Response Reliability via Meta
21、 Ranking.arXiv:2402.12146.當前多數大模型的自我認知能力不足,且當前方法對于能力弱的模型難起效。大模型對于自身回復普遍過度自信前人方法對弱模型難起效我們方法我們方法33創新思路:基于跨問詢比較實現高效大模型回復評判 將待評判的目標問詢-回復對與示例進行跨問詢比較、打分,最后聚合分數。Liu et al.,2024.Enabling Weak LLMs to Judge Response Reliability via Meta Ranking.arXiv:2402.12146.待評判目標與可靠樣本接近待評判目標與不可靠樣本接近34主要實驗結果:大模型回復查錯 多個開源模
22、型的評判能力在效率和效果上顯著超過前人方法,接近閉源模型。Liu et al.,2024.Enabling Weak LLMs to Judge Response Reliability via Meta Ranking.arXiv:2402.12146.輕 量 級 語 言 模 型Phi-2(2.7B)實現的效果和效率顯著超過使用GPT-3.5-turbo的基線彩色柱:查錯效果灰色柱:推理時間35主要實驗結果:模型級聯Liu et al.,2024.Enabling Weak LLMs to Judge Response Reliability via Meta Ranking.arXiv:2
23、402.12146.將弱模型處理效果差的問題轉移到閉源模型進行回答。不足一半的開銷下,整體效果接近GPT-4-turbo智能體-人類-環境統一對齊領域增強的大模型智能體37領域知識制約大模型智能體發展 大模型是大模型智能體的基礎,但訓練階段難于覆蓋全部領域數據。大眾點評美團京東自如私域數據:商業、隱私、法規等因素制約數據流通,且數據具備高度動態性38領域知識制約大模型智能體發展 各領域存在大量領域專家模型,包含大量領域知識且在領域問題上表現出色。領域專家模型39領域知識制約大模型智能體發展 將領域專家模型知識傳輸給大模型以更好服務人類需求具有重要的現實意義。領域專家模型大模型40技術挑戰:領域
24、知識傳輸難 如何充分利用大模型通用能力實現更加高效的領域知識傳輸仍具挑戰。Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.Findings of ACL 2024.知識蒸餾 時間、算力開銷大 微調可能損害模型原有能力自我糾錯檢索增強 時間、算力開銷小針對知識傳輸的解決方案不完善41創新思路:學習專家偏好實現無參知識傳輸 基于大模型從專家模型偏好中總結知識并“舉一反三”,從而實現知識傳輸。Liu et al.,2023.PANDA:Preference Adap
25、tation for Enhancing Domain-Specific Abilities of LLMs.Findings of ACL 2024.大模型領域能力弱通用能力強專家模型領域能力強通用能力弱關鍵思路:在語言空間令大模型自主總結專家模型行為偏好實現知識傳輸42主要實驗結果:跨任務泛化 交互決策任務/分類任務均呈現出一定的跨任務泛化(“舉一反三”)效果。Liu et al.,2023.PANDA:Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs.Findings of ACL 2024.注:T
26、ask1-1 1-4表示在Task1-1上學習、在Task1-4上測試交互決策任務重要觀察:大模型“舉一反三”能力為實現更加高效通用的智能體提供了全新可能性分類任務智能體-人類-環境統一對齊環境感知的大模型智能體44問題1:基于軌跡數據增強環境感知 智能體可利用任務執行過程的交互軌跡,通過訓練語言模型增強環境感知,進而學習解決任務的策略。Chen et al.2023.FireAct:Toward Language Agent Fine-tuning.arXiv:2310.05915.45技術挑戰:多樣化軌跡數據難獲取 人類或基于提示工程的智能體均難獲取大規模多樣化的訓練軌跡。人類與環境交互從
27、而標注訓練軌跡Yang et al.2024.ReAct Meets ActRe:Autonomous Annotation of Agent Trajectories for Contrastive Self-Training.COLM 2024.HumanEnvironmentActObs.AgentHumanEnvironmentDiverse PromptingActObs.人類實現基于提示工程的智能體框架智能體與環境交互得到訓練軌跡46創新思路:智能體自主標注訓練軌跡 智能體自主實現訓練軌跡標注與自我訓練,無需人類參與。Yang et al.2024.ReAct Meets ActR
28、e:Autonomous Annotation of Agent Trajectories for Contrastive Self-Training.COLM 2024.對比式自我訓練自主軌跡標注 ReActActReEnvironmentActReasonActObs.Traj 0Reason0 Act0Reason1 Act1Reward=0(ReAct only)Obs0Obs1 Reason0 Act0Reason ActReward=0Traj N(ReAct+ActRe)Obs0Obs1 47主要實驗結果:WebShop 在線購物平臺WebShop上自我訓練,測試階段迭代嘗試成功
29、率:Yang et al.2024.ReAct Meets ActRe:Autonomous Annotation of Agent Trajectories for Contrastive Self-Training.COLM 2024.LATS:多輪自我反思與樹搜索38(30輪迭代)我們的方法45(1輪迭代)52(2輪迭代)53(3輪迭代)55(4輪迭代)普通人50專家60LAST48問題2:基于主動感知與環境對齊 主動感知概念源于主動視覺,逐漸演化成對各類多模態信息的主動感知統稱。1.Bajcsy et al.,1988.Active perception.Proceedings of
30、the IEEE.2.Bajcsy et al.,2018.Revisiting active perception.Autonomous Robots.Acitveperception(ActiveVisionspecifically)is defined as a study ofModelingandControlstrategiesforPerception.Ruzena Bajcsy,1988An agent is an active perceiver if it knows whyit wishes to sense,and then chooses what toperceiv
31、e,and determines how,when andwhere to achieve that perception.Ruzena Bajcsy,et al.,201849問題2:基于主動感知與環境對齊 真實環境復雜多樣,勢必需要大模型智能體對環境進行主動感知。數字語義環境真實多模態環境虛擬游戲環境3D具身環境虛擬/具身多模態環境圖中小狗是什么品種?柯基圖文問答圖像描述真實物理世界50技術挑戰:大模型主動感知能力弱 真實場景/應用中,視覺信息的獲取需要主動感知不同視野和粒度。Wang et al.2024.ActiView:Evaluating Active Perception Abi
32、lity for Multimodal Large Language Models.arxiv:2410.04659.視野移動:主動移動視野范圍,獲得更完備的視覺信息。視野縮放:主動在視野中進行縮放,獲得更詳細的信息。51技術評測:主動感知基本操作 篩選包含混淆信息的圖片,設計限制初始視野的圖文問答對。圖像中需要包含混淆信息。限制模型能“看見”的初始視野(initial view)??疾炷P椭鲃诱鐒e、獲取視覺信息,及根據視覺線索進行推理的能力。Wang et al.2024.ActiView:Evaluating Active Perception Ability for Multimodal
33、 Large Language Models.arxiv:2410.04659.原始圖像篩選視覺線索人工標注評測問題52技術評測:主動感知評測方案 覆蓋多種場景和問題類型 1605個測試實例 3大類,8小類Wang et al.2024.ActiView:Evaluating Active Perception Ability for Multimodal Large Language Models.arxiv:2410.04659.5368.0 65.5 65.1 63.0 59.9 58.3 55.6 55.4 55.1 54.6 54.8 51.5 48.3 60.1 56.7 54.7
34、 54.0 48.4 45.9 44.1 84.7-5.015.035.055.075.095.0Gemini-1.5-proGPT-4oClaude 3.5 SonnetQwen2-VLIdefics3-8B-Llama3MiniCPM-V 2.6mPLUG-Ow13LLaVA-OneVisionIntern VL2-8Bidefics2-8bMantisBrote-IM-XL-3BMMICL-XXL-11BMiniCPM-Llama3-V-2.5GLM-4V-9BIntern VL-Vicuna-13BLLa VA-1.6 7BmPLUG-Owl2-7BMini-Gemini-7B-HDS
35、EALHuman+IR技術評測:主要評測結果 模型與人類水平差距均較大,但閉源模型和開源模型間差異相對較小。Wang et al.2024.ActiView:Evaluating Active Perception Ability for Multimodal Large Language Models.arxiv:2410.04659.閉源模型開源多圖模型開源單圖模型54技術發現:善用多模態提示技術可提升大模型主動感知 提示基本模式:點陣+坐標+文本提示;坐標形式為(t,x,y),其中t可選。Lei,Xuanyu,et al.Scaffolding Coordinates to Promot
36、e Vision-Language Coordination in Large Multi-Modal Models.Wordplay Workshop ACL 2024.(t,x,y):連接 視覺-文本-時序坐標出現在圖像上,屬于視覺模態坐標又是文本形式,屬于文本模態t可區分圖像,也可標志時間信息x,y可提供圖文一致的位置信息55主要實驗結果:高分辨率圖像搜索問題 配合主動感知可進一步解決更復雜問題,如高分辨率圖像搜索問題。Wu,Penghao,and Saining Xie.V*:Guided Visual Search as a Core Mechanism in Multimodal
37、LLMs.CVPR 2024.Whats the color of the bench?56主要實驗結果:高分辨率圖像搜索問題 利用定位坐標進行圖像分割,進一步幫助模型完成局部信息識別。Lei,Xuanyu,et al.Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models.Wordplay Workshop ACL 2024.57主要實驗結果:與其他方法集成獲得更好效果Lei,Xuanyu,et al.Scaffolding Coordinates to Promo
38、te Vision-Language Coordination in Large Multi-Modal Models.Wordplay Workshop ACL 2024.與主動感知集成獲取顯示提升 可進一步與CoT結合提升性能21.7 21.7 31.3 45.2 0.010.020.030.040.050.0NaiveCoTScaffold+AP17.0 33.0 33.0 41.0 27.230.844.647.90.010.020.030.040.050.0NaiveCoTScaffold+CoTWino.V*Scaffold幫助視覺搜索+Active Perception幫助細節理
39、解Scaffold促進視覺推理+CoT促進文本推理58主要實驗結果:激發 GPT-4V 多方面能力 最簡實現條件下,在多個任務上獲得顯著提升,證明方法有效且通用。Lei,Xuanyu,et al.Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models.Wordplay Workshop ACL 2024.59未來展望:向達成智能體-人類-環境統一對齊持續推進開放域智能體環境人類 更加開放:基礎模型持續引入開放域知識 持續進化:智能體個體和群體持續進化 具身自主:加速走向具身化并主動獲取知識 數字環境:真實性和多樣性持續提升 數字模擬環境:在世界模型驅動下日趨完善 真實物理環境:數據獲取成本持續降低 創造新業態:Agent+X 改變產業結構 創造新知識:智能體逐漸發展出創造力60總結 智能體是大模型解決更復雜問題的重要范式抽象,亟需全面走向開放域。智能體-人類-環境統一對齊是實現理想開放域大模型智能體系統的重要原則。我們在面向開放域大模型智能體方向開展初步探索:自身限制 代價敏感的大模型智能體;人類意圖 領域增強的大模型智能體;環境規律 環境感知的大模型智能體。智能體系統將向達成智能體-人類-環境統一對齊目標持續推進。謝謝!