《張長旺_AI Agent(智能體)業界進展和發展趨勢.pdf》由會員分享,可在線閱讀,更多相關《張長旺_AI Agent(智能體)業界進展和發展趨勢.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、AI Agent業界進展與發展趨勢張長旺 OPPO研究院目錄AI Agent技術簡史01AI Agent落地難題03AI Agent業界進展02AI Agent發展趨勢04AI Agent技術簡史01Artificial Intelligence:A Modern Approach,Stuart Russell and Peter Norvig(2003).We define AI as the study of agents that receive percepts from the environment and perform actions.Each such agent imple
2、ments a function that maps percept sequences to actions,and we cover different ways to represent these functions,such as production systems,reactive agents,real-time conditional planners,neural networks,and decision-theoretic systems.Agent技術簡史:規則、強化學習、大模型3124通過反復試驗學習,不斷調整他們的政策以優化長期回報。Deep Q-network基
3、于LMM的智能體ChatGPT+圖片語音條件-動作專家系統基于LLM的智能體ChatGPT|AutoGPT強化學習Agent大多模態模型Agent規則Agent大語言模型Agent嚴重依賴人工擴展性差通用性差難訓練通用性差問題:規劃推理能力弱可靠性差專業領域任務效果差AI Agent技術棧系統層應用層模型層硬件層Agent應用大語言模型:LLM/LMM信息檢索模型:Embedding/Rank應用開發框架:LangChain/AutoGen/LlamaIndex/DifyGPU/TPU/CPU/NPUAI Agent業界進展02AI產品榜:對話助手、AI搜索、AI圖像是熱門應用OpenAI A
4、I Agent進展:實時多模態、工具生態、運行時推理優化2023.03.14對話能力全面提升GPT-42024.01.10支持處理圖像GPT-4V2024.05.13實時處理聲音、圖像、文字GPT-4o2024.09.13運行時推理優化模型OpenAI o12022.11.30大語言模型對話助手ChatGPT2023.03.23使用插件工具ChatGPT Plugin2024.01.10支持用戶定義簡單智能體GPT Store2024.07.25檢索增強生成搜索引擎SearchGPT0102030405060708Google AI Agent進展:實時多模態、長上下文、AI搜索2023.05
5、優化多語言、推理及編碼能力PaLM 22024.01.17手機屏幕內容圈選搜索CircleToSearch2024.05.14實時多模態人工智能助手Project Astra2024.10.03視頻理解搜索Video Search2023.03對標ChatGPT的大模型對話助手Bard2023.12原生多模態大模型Gemini2024.02.16長上下文Gemini 1.52024.05.14檢索增強生成搜索總結AI Over view Search0102030405060708Microsoft AI Agent進展:生產力助手,開發框架,AIPC2023.02.07檢索增強生成搜索New
6、Bing2023.05.16辦公助手智能體Microsoft 365 Copilot2023.09.21類似ChatGPT的大模型對話助手(基于GPT,Dalle等)Microsoft Copilot2024.09.16自定義辦公智能體Copilot agents2022.06.21代碼寫作助手Github Copilot2023.04開源智能體開發框架SemanticKernel2023.09開源多智能體應用開發框架AutoGen2024.05.20集成MS小語言模型助手OSCopilot+PC0102030405060708Apple AI Agent進展:端云協同,大小模型,端側模型20
7、24.07蘋果3B端側小語言模型和隱私云計算大語言模型Apple Intelligence Foundation Language Models2010.02智能語音助手Siri2024.06端云協同智能助手Apple Intelligence0102030405060708NewBing:微軟檢索增強生成(RAG)搜索引擎背景:LLM的出現對于搜索產品提出了新的改進思路:輸入問題直接得到答案。方案:Prometheus架構,通過調度器(Orachestrator),協調索引、排序、LLM完成答案生成。效果:實現對話搜索和Copilot智能體。啟發:LLM仍然需要信息檢索技術(Index、Ra
8、nking)來提供實時信息、事實性驗證、外部知識注入控制能力。MetaGPT:SOP流程增強多智能體軟件開發背景:多步驟復雜任務,LLM幻覺出錯概率不斷累計,成功率低。方案:根據人工定義流程執行,采用信息訂閱分發機制只給LLM單步必要充分信息,基于程序執行驗證幫助提升效果。效果:代碼Pass1相對GPT4+14%。啟發:對于復雜專業任務,LLM需要借助領域流程、消息分發、驗證反饋來保證成功率。Apple-Intelligence:蘋果智能端云模型系統背景:用戶有在保護隱私情況下使用AI服務的需求,各國隱私政策趨嚴。方案:端側LLM、私有云端LLM、外部LLM服務組合服務手機AI任務。端側LLM
9、由基礎模型+多個小模型適配器提升端側LLM效果和效率。效果:實現蘋果AI手機體驗。啟發:端側LLM/LMM、端云協同Agent系統是端側AI智能體的關鍵技術。FunSearch:谷歌遺傳算法數學知識探索智能體背景:大語言模型越來越用于科學發現。方案:LLM產生多個候選程序+遺傳算法+評估器不斷迭代學習新的解題程序。效果:極值組合學中的上限集問題,FunSearch發現了大上限集的新構造,超越了一直的最佳結果。啟發:學習增強能力是智能體中長期需要具備的核心能力。Tavus:實時數字孿生視頻交互智能體背景:希望智能體能夠有自己的形象并能夠跟人自然實時視頻交互。方案:Phoenix-2模型,用音頻和
10、文本驅動的3D模型和2D GANs的組合。四個關鍵組件:TTS(文本轉聲音),頭部和肩部3D重建,提示詞腳本驅動面部動畫,高保真渲染。效果:延遲小于1s,實時反饋視頻交互。啟發:實時數字孿生視頻交互智能體可能是對話類智能體的技術和體驗終極形態。AI Agent落地難題03AI Agent落地難題:成功率低、難互通、成本高、實時差AI Agent落地難題復雜任務成功率低01部署成本高商業化能力弱04應用能力難互通02實時性反饋性差03好的AI Agent系統設計:規則知識與大模型細粒度協同專家系統規則知識自適應協同大模型智能體大模型AI Agent發展趨勢04AI Agent能力分級:L0-L5能力等級基礎技術關鍵能力L0 沒有人工智能無感知L1 規則符號智能規則符號AI+信息檢索感知+行動L2 推理決策智能模仿學習/強化學習+信息檢索感知+行動+推理決策L3 記憶反思智能大語言模型+信息檢索感知+行動+推理決策+記憶反思L4 自主學習智能大語言模型/大多模態模型+信息檢索感知+行動+推理決策+記憶反思+自主學習+泛化L5 個性群體智能大語言模型/大多模態模型+信息檢索感知+行動+推理決策+記憶反思+自主學習+泛化+情感性格+協作行為AI Agent發展趨勢單擊此處添加標題多模態01學習增強06系統優化03流程工程02端云、多智能體協同04中小模型05Thanks