《李宏毅:深入淺出講解AI Agent(繁體字)(96頁).pdf》由會員分享,可在線閱讀,更多相關《李宏毅:深入淺出講解AI Agent(繁體字)(96頁).pdf(96頁珍藏版)》請在三個皮匠報告上搜索。
1、AI AI Agent Agent 李宏毅免責聲明:AI Agent 是一個被廣泛使用的詞彙,故本課程中所講的 AI Agent 不一定跟其他地方一樣AI Agent 的翻譯今天使用 AI 的方式AI Agent 人類給予明確指令人類給予目標AI 自己想辦法達成人工智慧代理人(解決某個研究問題)假設 實驗 分析需要多步驟、靈活調整計畫AI 一個口令一個動作AI Agent GoalActionObservationAI Agent(AlphaGo)GoalAction贏棋“5-5”Observation好像在那裡聽過這個段落?這是 Reinforcement Learning(RL)常見開場如
2、何打造 AI Agent?RL?GoalAction贏棋RL:Learn to Maximize Reward Reward(RL:Reinforcement Learning)“5-5”侷限:需要為了每一個任務以 RL 訓練模型Observation如何打造 AI Agent?直接用 LLM!GoalActionLLM“你要贏得勝利”“我要下在 5-5”以文字描述轉譯為行動(option)Observation以 LLM 直接實踐人類對於擁有 Agent 的渴望LLM 能不能下棋?BIG-benchhttps:/arxiv.org/abs/2206.04615LLM 能不能下棋?https:
3、/youtu.be/JHq4EKMg7fI?si=izKsH-GCVnZkooq_如何打造 AI Agent?直接用 LLM!GoalActionLLM還有多遠?還可以多做什麼?“你要贏得勝利”“我要下在 5-5”以文字描述轉譯為行動(option)Observation以 LLM 直接實踐人類對於擁有 Agent 的渴望從 LLM 的角度來看 Agent 要解的問題goalobs 1obs 2action 1action 2obs 3action 3LLMLLMLLM一直都在做接龍AI Agent 倚靠的是語言模型現有的能力請注意在這堂課中沒有任何模型被訓練AI Agent 不是最近才熱門
4、2023 年春天曾經爆紅過一次https:/youtu.be/eQNADlR0jSs?si=4yGZEluAUzKK2VD0AutoGPT,AgentGPT,BabyAGI,Godmode 以 LLM 運行 AI Agent 的優勢Typical AgentLLM AgentAlphaGo事先設定好有限行為近乎無限的可能只能在棋盤上的 19x19 個位置落子可以使用工具以 LLM 運行 AI Agent 的優勢AI programmerReward=-1Typical AgentLLM AgentCompile ErrorCompile Error為什麼是-1?更多資訊AI programme
5、rAI Agent 舉例:AI 村民組成的虛擬村莊https:/arxiv.org/abs/2304.03442https:/youtu.be/G44Lkj7XDsA?si=cMbKG3tqPbIgnnBqGoalActionObservation舉辦情人節派對、準備考試 getting ready for bed“AI Agent 舉例:Minecraft 中的 AI NPChttps:/ Agent 舉例:讓 AI 使用電腦Computer Use,Operator AI Agent 舉例:讓 AI 使用電腦GoalActionObservation訂披薩、上網購物 AI Agent 舉例
6、:讓 AI 使用電腦 World of Bits:An Open-Domain Platform for Web-Based Agents(ICML,2017)WebArenaAI Agent 舉例:讓 AI 使用電腦https:/arxiv.org/abs/2306.06070Mind2Webhttps:/arxiv.org/abs/2307.13854https:/arxiv.org/abs/2401.13649VisualWebArenaAI Agent 舉例:用 AI 訓練模型goalobs 1obs 2action 1action 2obs 3action 3LLMLLMLLM過 S
7、trong BaselineAIDE:The Machine Learning Engineer Agenthttps:/arxiv.org/abs/2502.13138https:/arxiv.org/abs/2410.20424AutoKaggle:A Multi-Agent Framework for Autonomous Data Science CompetitionsAI Agent 舉例:用 AI 做研究https:/research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist
8、/邁向更加真實的互動情境goalobs 1obs 2action 1action 2obs 3action 3回合制互動即時互動goalobs 1action 1obs 2action 2立刻轉換行動例如:語音對話邁向更加真實的互動情境Usertellmeastoryokstop I dont like the storyobs 1action 1action 2obs 3obs 2Once upon a time in a small village Sorry 邁向更加真實的互動情境https:/arxiv.org/abs/2503.04721v1Guan-Ting Lin(with co
9、llaborators from Berkeley,UW,and MIT)AI Agent 關鍵能力剖析AI 如何根據經驗調整行為AI 如何使用工具AI 能不能做計劃根據經驗調整行為根據經驗調整行為goalobs 1obs 2action 1action 2LLM寫一個 你是軟體工程師 Update Update ParametersFeedback(Not Today)根據經驗調整行為goalobs 1obs 2action 1action 2LLM寫一個 你是軟體工程師 Update Feedback根據經驗調整行為goalobs 1action 1LLMobs 10000不斷回憶整個 A
10、gent 一生的經歷?超常自傳式記憶(Highly Superior Autobiographical Memory,HSAM)超憶癥(Hyperthymesia)根據經驗調整行為obs 10000Agents Memory?goalobs 1action 1obs 9999action 9999ReadRelevant Experience 其實這就是 RAGRetrievalQuery Database(自己的經歷 vs.別人的經歷)StreamBenchhttps:/arxiv.org/abs/2406.08747https:/stream-bench.github.io/(done b
11、y Appier Researchers)Goal:Maximize the accuracy over the sequence Q1Q2Q1000Q3StreamBenchhttps:/arxiv.org/abs/2406.08747Q1Q2Q100Q3ReadRetrievalQ65Q78Q99StreamBenchhttps:/arxiv.org/abs/2406.08747StreamBenchhttps:/arxiv.org/abs/2406.08747Q1Q2Q100Q3ReadRetrievalQ59Q78Q99Negative feedback is unhelpful.St
12、reamBenchhttps:/arxiv.org/abs/2406.08747根據經驗調整行為obs 10000Agents Memory goalobs 1action 1obs 9999action 9999Relevant Experience action 10000記下來?(被雞毛蒜皮的小事塞爆)obs 10001根據經驗調整行為obs 10000goalobs 1action 1obs 9999action 9999Relevant Experience action 10000obs 10001WriteAgents Memory 這件事要被記下來嗎?根據經驗調整行為obs 1
13、0000Relevant Experience action 10000obs 10001WriteReadReflectionthought 1thought 2thought 3thought 4goalobs 1action 1obs 9999action 9999對於記憶中的資訊做重新整理根據經驗調整行為obs 10000Relevant Experience action 10000obs 10001WriteReadReflectiongoalobs 1action 1obs 9999action 9999Knowledge Graphhttps:/arxiv.org/abs/24
14、04.16130GraphRAGHippoRAGhttps:/arxiv.org/abs/2405.14831有記憶的 ChatGPT Write 模組決定要記下來有記憶的 ChatGPT 有記憶的 ChatGPT 有記憶的 ChatGPT Read 模組啟動Read 模組啟動To learn more MemGPT Agent Workflow Memory A-MEM:Agentic Memory for LLM Agentshttps:/arxiv.org/abs/2310.08560https:/arxiv.org/abs/2409.07429https:/arxiv.org/abs/
15、2502.12110AI 如何使用工具語言模型常用工具PythonSearch EngineOther AI(Different capabilities,stronger but costly)工具可以看做是 Function,使用工具就是調用這些 Function 使用工具又叫“Function Call”工具:只需要知道怎麼使用,不需要知道內部運作原理如何使用工具如果遇到根據你的知識無法回答的問題,使用工具把使用工具的指令放在 和 中間,使用完工具後你會得到輸出,放在 和 中間語言模型現在你可以使用的工具如下:查詢某地、某時溫度的函式 Temperature(location,time)
16、,使用範例:Temperature(臺北,2025.02.22 14:26)2025 年 3 月 10 日那天下午 2:00,高雄氣溫如何如何使用所有工具特定工具使用方式User PromptSystem Prompt這就是一串文字,無法真的呼叫函式Temperature(高雄,2025.03.10 14:00)gpt-4o-mini(使用工具的方法很多,這邊是只是一個通用的方法)如何使用工具語言模型2025 年 3 月 10 日那天下午 2:00,高雄氣溫如何Temperature(高雄,2025.03.10 14:00)User PromptSystem Prompt工具使用方式 攝氏 3
17、2 度不需要呈現給使用者看Agent 開發者先設定好的流程Temperature不需要呈現給使用者看2025 年 3 月 10 日下午 2:00,高雄的氣溫為攝氏32度。(繼續去做接龍)使用者看到的輸出gpt-4o-mini(使用工具的方法很多,這邊是只是一個通用的方法)最常使用的工具:搜尋引擎Retrieval Augmented Generation(RAG)使用其他 AI 作為工具 語言模型文字指令文字回應語言模型這個人在說什麼?他說大家好語言模型這個人心情怎麼樣應該是心情蠻好的https:/arxiv.org/abs/2407.09886使用其他 AI 作為工具https:/arxiv
18、.org/abs/2407.09886Chih-Kai YangChun-Yi KuanDynamic SUPERB 上的結果非常多工具怎麼辦?obs 1action 1Tool UseHundreds of Tool Descriptions非常多工具怎麼辦?https:/arxiv.org/abs/2310.03128https:/arxiv.org/abs/2502.11271Tool Selectionselected toolsobs 1action 1Tool UseHundreds of Tool DescriptionsAgents Memory 模型自己打造工具Tool Se
19、lectionselected toolsobs 1action 1Make ToolsHundreds of Tool DescriptionsAgents Memory TroVE:https:/arxiv.org/pdf/2401.12869LATM:https:/arxiv.org/abs/2305.17126CREATOR:https:/arxiv.org/abs/2305.14318 CRAFT:https:/arxiv.org/abs/2309.17428工具工具因為過度相信工具而犯錯 因為過度相信工具而犯錯 假如工具有問題 以 RAG 為例Source of image:htt
20、ps:/ 因為過度相信工具而犯錯 不要完全相信工具,要有自己的判斷力不要完全相信工具,要有自己的判斷力語言模型有沒有自己的判斷力?語言模型2025 年 3 月 10 日那天下午 2:00,高雄氣溫如何Temperature(高雄,2025.03.10 14:00)User PromptSystem Prompt工具使用方式 攝氏 100 度不需要呈現給使用者看不需要呈現給使用者看2025 年 3 月 10 日下午 2:00,高雄的氣溫預測為攝氏 100 度。(繼續去做接龍)gpt-4o-mini語言模型有沒有自己的判斷力?語言模型2025 年 3 月 10 日那天下午 2:00,高雄氣溫如何T
21、emperature(高雄,2025.03.10 14:00)User PromptSystem Prompt工具使用方式 攝氏 10000 度不需要呈現給使用者看不需要呈現給使用者看2025 年 3 月 10 日下午 2:00 時,高雄的氣溫為攝氏 10000 度。這個數值顯然不合常理,可能是工具輸出錯誤。如需其他信息或查詢,請告訴我。(繼續去做接龍)gpt-4o-mini語言模型在做 RAG 時 Internal Knowledge External Knowledge 什麼樣的外部知識比較容易說服 AI 什麼樣的外部知識比較容易說服 AI The likelihood of the LL
22、M to adhere to the retrieved information presented in context is inversely correlated with the models confidence in its response without.LLMs will increasingly revert to their priors when the original context is progressively modified with unrealistic values.https:/arxiv.org/abs/2404.10198v1什麼樣的外部知識
23、比較容易說服 AI https:/arxiv.org/abs/2401.11911答案是 A答案是 B答案是 A傾向相信 AI 同類的話答案是 C什麼樣的外部知識比較容易說服 AI Meta Data 的影響https:/aclanthology.org/2024.blackboxnlp-1.24/Cheng-Han Chiang 語言模型比較相信新的文章 資料來源沒有影響什麼樣的外部知識比較容易說服 AI https:/aclanthology.org/2024.blackboxnlp-1.24/Cheng-Han ChiangClaude 3 比較贊同下面那邊文章一模一樣的內容Meta D
24、ata 的影響就算工具可靠 不代表 AI 就不會犯錯 就算所有找到的資料都是對的,也不保證答案就是對的ChatGPT Search(同樣的輸入目前已經沒有這樣的問題)使用工具與模型本身能力間的平衡 用工具不一定總是比較有效率 如果要做數學運算,用計算機一定比普通人心算快嗎?問題:3 x 4 12AI 能不能做計劃?做計劃goalobs 1obs 2action 1action 2obs 3action 3Reactive Response?Planning做計劃obs 1obs 2action 1action 2obs 3action 3action 1action 2action 3plan
25、planPlan-and-Solve Prompting:Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Modelshttps:/arxiv.org/abs/2305.04091天下沒那麼好的事情計劃就是要拿來改變的做計劃obs 1obs 2action 1action 2action 1action 2action 3planplan 下棋:對手的招數跟預想不同 使用電腦:突然跳出廣告視窗與預期不同,導致原有的計畫行不通action 2action 3planplan語言模型有能力做計畫嗎?gpt-4ohtt
26、ps:/arxiv.org/abs/2201.07207PlanBenchhttps:/arxiv.org/abs/2206.10498https:/arxiv.org/abs/2305.15771可以執行的操作:1.從桌上拿起一個積木 2.從另一個積木上拿起另一個積木 3.把積木放到桌上 4.將一個積木堆在另一個積木上 初始狀態:藍色積木在橘色積木的上面,紅色積木在桌子上,橘色積木在桌子上,黃色積木也在桌子上。目標:讓橘色積木放置在藍色積木上。1.將藍色積木從橘色積木上取下2.將藍色積木放在桌子上3.從桌上拿起橘色積木4.將橘色積木堆放在藍色積木的上方會不會 LLM 早就看過類似的題目了?P
27、lanBenchhttps:/arxiv.org/abs/2206.10498https:/arxiv.org/abs/2305.15771神秘方塊世界攻擊吞噬屈服征服(讓物件 c 渴望物件 a)https:/arxiv.org/abs/2305.15771https:/arxiv.org/abs/2409.13373https:/arxiv.org/abs/2402.01622TravelPlannerhttps:/osu-nlp-group.github.io/TravelPlanner/https:/arxiv.org/abs/2402.01622https:/osu-nlp-group
28、.github.io/TravelPlanner/https:/arxiv.org/abs/2404.11891https:/arxiv.org/abs/2404.11891強化 AI Agent 的規劃能力obs 1action 1-1action 1-2action 1-3obs 2-1obs 2-2obs 2-3action 2-1-1action 2-1-2obs 2-1-1obs 2-1-2action 2-2-1obs 2-2-1action 2-3-1action 2-3-2obs 2-3-1obs 2-3-2如果路徑太長怎麼辦?實際試試看?obs 1action 1-1acti
29、on 1-2obs 2-1obs 2-2action 2-2-1action 2-2-2obs 2-2-1obs 2-2-2有機會嗎?沒有 有機會嗎?有 減少沒必要的搜尋Tree Search for Language Model Agentshttps:/arxiv.org/abs/2407.01476https:/arxiv.org/abs/2407.01476Tree Search for Language Model Agentsobs 1action 1-1action 1-2action 1-3obs 2-1obs 2-2obs 2-3action 2-1-1action 2-1-
30、2obs 2-1-1obs 2-1-2action 2-2-1obs 2-2-1action 2-3-1action 2-3-2obs 2-3-1obs 2-3-2缺點:有些動作無法回溯訂披薩訂便當訂都訂了誰管你啊obs 1action 1-1action 1-2obs 2-1obs 2-2action 2-2-1action 2-2-2有機會嗎?沒有 有機會嗎?有 減少沒必要的搜尋obs 1action 1-1action 1-2obs 2-1obs 2-2action 2-2-1action 2-2-2減少沒必要的搜尋我們需要 World ModelAI 可以自己扮演 World Mode
31、l?https:/arxiv.org/abs/2411.06559Is Your LLM Secretly a World Model of the Internet?Model-Based Planning for Web Agents從 AI Agent 的角度來看思考的能力輸入輸出腦內小劇場(Reasoning)(Observation)(Action)可以執行的操作:1.從桌上拿起一個積木 2.從另一個積木上拿起另一個積木 3.把積木放到桌上 4.將一個積木堆在另一個積木上 目前狀態:藍色積木在橘色積木的上面,紅色積木在桌子上,橘色積木在桌子上,黃色積木也在桌子上。目標:讓橘色積木放置在藍色積木上。告訴我你的下一步下一步:使用操作2,從橘色積木上拿起藍色積木。上略 1500 字DeepSeek-R1The Danger of Overthinking:Examining the Reasoning-Action Dilemma in Agentic Taskshttps:/arxiv.org/abs/2502.08235AI Agent 關鍵能力剖析AI 如何根據經驗調整行為AI 如何使用工具AI 能不能做計劃