《計算機行業深度報告:AI Agent基于大模型的自主智能體在探索AGI的道路上前進-230825(26頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業深度報告:AI Agent基于大模型的自主智能體在探索AGI的道路上前進-230825(26頁).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。計算機行業行業研究|深度報告 AI Agent(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實體體。不同于傳統的人工智能,AI Agent 具備通過獨立思考、調用工具去逐步完成給定目標的能力。AI Agent 和大模型的區別在于,大模型與人類之間的交互是基于prompt 實現的,用戶 prompt 是否清晰明確會影響大模型回答的效果。而 AI Agent的工作僅需給定一個目標,它就
2、能夠針對目標獨立思考并做出行動。和傳統的 RPA相比,RPA 只能在給定的情況條件下,根據程序內預設好的流程來進行工作的處理,而 AI Agent 則可以通過和環境進行交互,感知信息并做出對應的思考和行動。大語言模型的浪潮推動了大語言模型的浪潮推動了 AI Agent 相關研究快速發展相關研究快速發展,AI Agent 是當前是當前通往通往 AGI的主要的主要探索探索路線路線。大模型龐大的訓練數據集中包含了大量人類行為數據,為模擬類人的交互打下了堅實基礎;另一方面,隨著模型規模不斷增大,大模型涌現出了上下文學習能力、推理能力、思維鏈等類似人類思考方式的多種能力。將大模型作為AI Agent 的
3、核心大腦,就可以實現以往難以實現的將復雜問題拆解成可實現的子任務、類人的自然語言交互等能力。由于大模型仍存在大量的問題如幻覺、上下文容量限制等,通過讓大模型借助一個或多個 Agent 的能力,構建成為具備自主思考決策和執行能力的智能體,成為了當前通往 AGI 的主要研究方向。一個基于大模型的一個基于大模型的 AI Agent系統可以拆分為大模型、規劃、記憶與工具使用四個組系統可以拆分為大模型、規劃、記憶與工具使用四個組件部分件部分。AI Agent 可能會成為新時代的開端,其基礎架構可以簡單劃分為 Agent=LLM+規劃技能+記憶+工具使用,其中 LLM 扮演了 Agent 的“大腦”,在這
4、個系統中提供推理、規劃等能力。AI Agent 發展迅速,出現多款“出圈”級研究成果發展迅速,出現多款“出圈”級研究成果。2023 年 3 月起,AI Agent 領域迎來了第一次“出圈”,西部世界小鎮、BabyAGI、AutoGPT 等多款重大 Agent研究項目均在短短兩周內陸續上線,引發了大家對 AI Agent 領域的關注。目前已經涌現了在游戲領域大放異彩的英偉達 Voyager 智能體、能夠幫助個人完成簡單任務的Agent助理HyperWrite、以及主打個人情感陪伴的 AI助理Pi等多款優秀的 Agent成果,AI Agent 的研究進展迅速?!癆gent+”有望成為未來產品的主流
5、,有”有望成為未來產品的主流,有望在多個領域實現落地應用望在多個領域實現落地應用。我們認為,AI Agent 的研究是人類不斷探索接近 AGI 的過程,隨著 Agent 變得越來越“可用”和“好用”,“Agent+”的產品將會越來越多,未來將有望成為 AI應用層的基本架構,包括 to C、to B 產品等。2B 和垂直領域仍是和垂直領域仍是 AI Agents 容易率先落地的方向,用戶對容易率先落地的方向,用戶對 Agent 的認知正在形的認知正在形成,初創企業正在卡位成,初創企業正在卡位。由于 Agent 對環境反饋的依賴性較強,具備顯著特點的企業環境是更加適合 Agent 建立起對某一個垂
6、直領域認知的場景。當前關于 AI Agent的研究主要還是以學術界和開發者為主,商業化產品極少,但是用戶對于 Agent 的關注度正在提升,可能未來幾年間就會涌現出大量以 Agent 作為核心的產品應用到各行各業。目前,已經有一些初創公司開始以企業的智能體平臺作為主要的產品研發方向,例如瀾碼科技正在打造基于 LLM 的企業級 Agent 平臺。我們認為,未來幾年是 AI Agent 的快速發展窗口期,具備底層大模型算法技術的公司以及相關的應用軟件公司有望基于 AI Agent 實現應用的落地。大模型領域大模型領域:建議關注科大訊飛(002230,買入)、三六零(601360,未評級)、拓爾思(
7、300229,未評級)等公司應用軟件領域應用軟件領域:建議關注金山辦公(688111,增持)、泛微網絡(603039,未評級)、致遠互聯(688369,未評級)、彩訊股份(300634,未評級)、漢得信息(300170,未評級)、新致軟件(688590,未評級)等公司風險提示風險提示 技術落地不及預期;政策監管風險 投資建議與投資標的核心觀點國家/地區 中國 行業 計算機行業 報告發布日期 2023 年 08 月 25 日 證券分析師 浦俊懿 021-63325888*6106 執業證書編號:S0860514050004 證券分析師 陳超 021-63325888*3144 執業證書編號:S0
8、860521050002 證券分析師 謝忱 執業證書編號:S0860522090004 聯系人 杜云飛 聯系人 覃俊寧 聯系人 宋鑫宇 AI Agent:基于大模型的自主智能體,在探索 AGI 的道路上前進看好(維持)計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。2 目 錄 一、AI Agent:探索 AGI 的真實形態.5 1.1 什么是 AI Agent?.5 1.2 Agent 的最終發展目標:通用人工智能
9、AGI.6 二、AI Agent 拆解:大模型、規劃、記憶與工具.8 2.1 大模型+規劃:Agent 的“大腦”,通過思維鏈能力實現任務分解.9 2.2 記憶:用有限的上下文長度實現更多的記憶.10 2.3 工具:懂得使用工具才會更像人類.11 三、AI Agent 研究與應用進展.13 3.1 AutoGPT:推動 AI Agent 研究熱潮.13 3.2 游戲領域應用:西部世界小鎮與我的世界.14 3.3 HyperWrite:推出首個個人 AI 助理 Agent.17 3.4 ModelScopeGPT:國內首個大模型調用工具.18 3.5 Inflection AI:高情商個人 AI
10、Pi.19 3.6 AgentBench:LLM 的 Agent 能力評估標準.20 四、“Agent+”有望成為未來 AI 領域產品主流.21 4.1 AI Agent 有望多個領域實現落地應用.21 4.2 2B+垂類 Agent 認知正在形成,有望率先落地.23 投資建議與投資標的.24 風險提示.24 eZnMyRuNmP9W8OcM6MsQrRtRpMjMoOvNjMmOxPbRpOoPuOmNzQMYnRpN 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投
11、資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。3 圖表目錄 圖 1:Hyperwrite 研發的 AI Agent 個人助理插件實現自動預訂航班機票.5 圖 2:AI Agent 的工作流程.5 圖 3:AlphaGo 戰勝柯潔.6 圖 4:OpenAI Five 戰勝Dota 2世界冠軍.6 圖 5:大語言模型浪潮.7 圖 6:大模型的能力涌現現象.7 圖 7:研究 AI Agent 的最終目標是通向 AGI.7 圖 8:由 LLM 驅動的自主智能體系統的架構.8 圖 9:通過調整 prompt 可以提升大模型推理效果.9 圖 10:AI Agent 的反思框架.9 圖 11:人類記
12、憶的分類.10 圖 12:非結構化數據的向量化表征.11 圖 13:不同文本在向量空間中的相似度計算.11 圖 14:GPT 模型函數調用功能示例.11 圖 15:HuggingGPT 的工作步驟流程.12 圖 16:AI Agents 領域動態.13 圖 17:AutoGPT 在 GitHub 的星數增長.13 圖 18:AutoGPT 可以實現自主分析瀏覽器頁面.13 圖 19:基于 AutoGPT 完成網站建設.14 圖 20:網頁版 AgentGPT.14 圖 21:GPT-4 和 GPT-3.5 的 API 價格.14 圖 22:AutoGPT 陷入死循環.14 圖 23:斯坦福學者
13、打造的西部世界小鎮.15 圖 24:西部世界小鎮中 Agents 的架構.15 圖 25:記憶流包含大量的觀察、檢索過程.15 圖 26:英偉達打造 Voyager 智能體游玩我的世界.16 圖 27:Voyager 玩游戲的水平相比之前的方法大幅提升.16 圖 28:Voyager 由三大新型組件組成.16 圖 29:Voyager 的科技樹解鎖速度最快.17 圖 30:Voyager 的探索范圍遠大于其他 Agent 框架.17 圖 31:HyperWrite 推出個人 AI 助理 Personal Assistant.17 圖 32:HyperWrite Personal Assista
14、nt 交互界面.18 圖 33:HyperWrite Personal Assistant 的思考與執行操作過程.18 圖 34:ModelScopeGPT 簡介.18 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。4 圖 35:ModelScopeGPT 演示.18 圖 36:阿里云旨在建設中國大模型生態.19 圖 37:個人 AI 助理 Pi.19 圖 38:Inflection-1 可媲美 GPT-3.5 和
15、 LLaMA(65B).19 圖 39:Pi 的幽默回復.20 圖 40:Pi 能夠提供情感方面的建議.20 圖 41:AgentBench 評價 LLM 作為 Agent 的能力.20 圖 42:常用的 LLM 的 Agent 能力排名.20 圖 43:Agent 的可能用例.21 圖 44:GitHub 關于自主代理的項目已經超過 100 個.21 圖 45:瀾碼科技打造企業級 Agent 平臺.23 表 1:將 AI 和人類協作的程度類比自動駕駛的不同階段.8 表 2:人類記憶與 AI Agent 記憶的映射.10 表 3:AI Agent 可能的應用領域.22 計算機行業深度報告 AI
16、 Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。5 一、一、AI Agent:探索:探索 AGI 的真實形態的真實形態 1.1 什么是 AI Agent?AI Agent(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實體(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實體。不同于傳統的人工智能,AI Agent 具備通過獨立思考、調用工具去逐步完成給定目標的能力。比如,告訴 AI Agent 幫忙下單一份外賣,它就
17、可以直接調用 APP 選擇外賣,再調用支付程序下單支付,無需人類去指定每一步的操作。Agent 的概念由 Minsky 在其 1986 年出版的思維的社會一書中提出,Minsky 認為社會中的某些個體經過協商之后可求得問題的解,這些個體就是 Agent。他還認為Agent應具有社會交互性和智能性。Agent的概念由此被引入人工智能和計算機領域,并迅速成為研究熱點。但苦于數據和算力限制,想要實現真正智能的 AI Agents 缺乏必要的現實條件。圖 1:Hyperwrite 研發的 AI Agent 個人助理插件實現自動預訂航班機票 數據來源:Hyperwrite,東方證券研究所 大語言模型大語
18、言模型和和 AI Agent 的區別在于的區別在于 AI Agent 可以獨立思考并做出行動,和可以獨立思考并做出行動,和 RPA 的區別在于它的區別在于它能夠處理未知環境信息能夠處理未知環境信息。ChatGPT誕生后,AI從真正意義上具備了和人類進行多輪對話的能力,并且能針對相應問題給出具體回答與建議。隨后各個領域的“Copilot”推出,如 Microsoft 365 Copilot、GitHub Copilot、Adobe Firefly 等,讓 AI 成為了辦公、代碼、設計等場景的“智能副駕駛”。AI Agent 和大模型的區別在于,大模型與人類之間的交互是基于 prompt 實現的,
19、用戶prompt 是否清晰明確會影響大模型回答的效果,例如 ChatGPT 和這些 Copilot 都需要明確任務才能得到有用的回答。而 AI Agent 的工作僅需給定一個目標,它就能夠針對目標獨立思考并做出行動,它會根據給定任務詳細拆解出每一步的計劃步驟,依靠來自外界的反饋和自主思考,自己給自己創建 prompt,來實現目標。如果說 Copilot 是“副駕駛”,那么 Agent 則可以算得上一個初級的“主駕駛”。和傳統的 RPA 相比,RPA 只能在給定的情況條件下,根據程序內預設好的流程來進行工作的處理,在出現大量未知信息、難以預測的環境中時,RPA 是無法進行工作的,AI Agent
20、 則可以通過和環境進行交互,感知信息并做出對應的思考和行動。圖 2:AI Agent 的工作流程 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。6 數據來源:Zapier,東方證券研究所 1.2 Agent 的最終發展目標:通用人工智能 AGI AI Agent 并不是一個新興的概念,早在多年前就已在人工智能領域有了研究并不是一個新興的概念,早在多年前就已在人工智能領域有了研究。例如 2014 年由DeepMind
21、 推出的引發全球熱議的圍棋機器人 AlphaGo,也可以看做是 AI Agent 的一種。與之類似的還有 2017 年 OpenAI 推出的用于玩Dota2的 OpenAI Five,2019 年 DeepMind 公布用于玩星際爭霸 2的 AlphaStar 等,這些 AI 都能根據對實時接收到的信息的分析來安排和規劃下一步的操作,均滿足 AI Agent 的基本定義。當時的業界潮流是通過強化學習的方法來對 AI Agent進行訓練,主要應用場景是在游戲這類具有對抗性、有明顯輸贏雙方的場景中。但如果想要在真實世界中實現通用性,基于當時的技術水平還難以實現。圖 3:AlphaGo 戰勝柯潔 圖
22、 4:OpenAI Five 戰勝Dota 2世界冠軍 數據來源:HardwareZone,東方證券研究所 數據來源:OpenAI,東方證券研究所 大語言模型的浪潮推動了大語言模型的浪潮推動了 AI Agent 相關研究快速發展相關研究快速發展。AI Agent 需要做到能夠像人類一樣進行交互,大語言模型強大的能力為 AI Agent 的突破帶來了契機。大模型龐大的訓練數據集中包含了大量人類行為數據,為模擬類人的交互打下了堅實基礎;另一方面,隨著模型規模不斷增大,大模型涌現出了上下文學習能力、推理能力、思維鏈等類似人類思考方式的多種能力。將大模型作為 計算機行業深度報告 AI Agent:基于
23、大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。7 AI Agent 的核心大腦,就可以實現以往難以實現的將復雜問題拆解成可實現的子任務、類人的自然語言交互等能力。大模型的快速發展大幅推動了 AI Agent 的發展。圖 5:大語言模型浪潮 圖 6:大模型的能力涌現現象 數據來源:東方證券研究所繪制 數據來源:Wei,et al.Emergent Abilities of Large Language Models,東方證券研究所 通往通往 AGI 的道路仍
24、需探索,的道路仍需探索,AI Agent 是當前的主要路線是當前的主要路線。在大模型浪潮席卷全球之時,很多人認為大模型距離真正的通用人工智能 AGI 已經非常接近,很多廠商都投入了基礎大模型的研究。但經過了一段時間后,大家對大模型真實的能力邊界有了清晰的認知,發現大模型仍存在大量的問題如幻覺、上下文容量限制等,導致其無法直接通向 AGI,于是 AI Agent 成為了新的研究方向。通過讓大模型借助一個或多個 Agent 的能力,構建成為具備自主思考決策和執行能力的智能體,來繼續實現通往 AGI 的道路。OpenAI 聯合創始人 Andrej Karpathy 在一次開發者活動中講到,OpenA
25、I 內部對 AI Agents 非常感興趣,AI Agent 將是未來 AI 的前沿方向。扎克伯格也在 Meta 的一季度財報電話會上提到,Meta 將會把 AI Agents 介紹給數十億用戶。圖 7:研究 AI Agent 的最終目標是通向 AGI 數據來源:東方證券研究所繪制 AI Agent 可以類比為自動駕駛的可以類比為自動駕駛的 L4 階段階段,距離真正實現仍有差距,距離真正實現仍有差距。根據甲子光年報告,AI 與人類的協作程度可以和自動駕駛等級進行類比。像 ChatGPT 這類對話機器人可以類比 L2 級別自動駕駛,人類可以向 AI尋求意見,但 AI不直接參與工作;Copilot
26、這類副駕駛工具可以類比為 L3級別的自動駕駛,人類和 AI 共同協作完成工作,AI 根據 prompt 生成初稿,人類僅需進行修改調整;而 Agent 則進一步升級為 L4,人類給定一個目標,Agent 可以自己完成任務規劃、工具調用等。計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。8 但就如同 L4 級別的自動駕駛還未真正實現一樣,AI Agents 容易想象和演示,卻難以實現,AI Agents 的真正應用還在
27、不確定的未來。表 1:將 AI 和人類協作的程度類比自動駕駛的不同階段 AI 等級等級(類比自動駕駛)(類比自動駕駛)名稱名稱 特點特點 示例示例 L1 Tool 人類完成所有工作,沒有任何顯性的AI 輔助 目前絕大多數軟件產品 L2 Chatbot 人類完成絕大部分工作。人類向 AI詢問意見,了解信息,AI 提供信息和建議但不直接處理工作 初代 ChatGPT 等Chatbot L3 Copilot 人類和AI進行協作,工作量相當。AI根據人類 prompt 完成工作初稿,人類進行目標設定、修改調整,最后確認 GitHub Copilot、Midjourney、Jasper 等 L4 Age
28、nt AI 完成絕大部分工作,人類負責設定目標、提供資源和監督結果。AI 完成任務拆分,工具選擇,進度控制,實 現目標后自主結束工作 AutoGPT 等 L5 Species 完全無需人類監督,AI 自主拆解目標、尋找資源、選擇并使用工具、完成全部工作,人類只需給出目標 機器人?數據來源:甲子光年,東方證券研究所 二、二、AI Agent 拆解:大模型、規劃、記憶與工具拆解:大模型、規劃、記憶與工具 一個基于大模型的一個基于大模型的 AI Agent 系統可以拆分為大模型、規劃、記憶與工具使用四個組件部分系統可以拆分為大模型、規劃、記憶與工具使用四個組件部分。6 月,OpenAI 的應用研究主
29、管 Lilian Weng 撰寫了一篇博客,認為 AI Agent 可能會成為新時代的開端。她提出了 Agent=LLM+規劃技能+記憶+工具使用的基礎架構,其中 LLM 扮演了 Agent 的“大腦”,在這個系統中提供推理、規劃等能力。圖 8:由 LLM 驅動的自主智能體系統的架構 數據來源:Lilian WengLLM Powered Autonomous Agents,東方證券研究所 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報
30、告最后一頁的免責申明。9 2.1 大模型+規劃:Agent 的“大腦”,通過思維鏈能力實現任務分解 LLM 具備邏輯推理能力具備邏輯推理能力,Agent 可以將可以將 LLM 的邏輯推理能力激發出來的邏輯推理能力激發出來。當模型規模足夠大的時候,LLM 本身是具備推理能力的。在簡單推理問題上,LLM 已經達到了很好的能力;但在復雜推理問題上,LLM有時還是會出現錯誤。事實上,很多時候用戶無法通過 LLM獲得理想的回答,原因在于 prompt 不夠合適,無法激發 LLM 本身的推理能力,通過追加輔助推理的 prompt,可以大幅提升 LLM 的推理效果。在Large language model
31、s are zero-shot reasoners這篇論文的測試中,在向 LLM 提問的時候追加“Lets think step by step”后,在數學推理測試集 GSM8K 上的推理準確率從 10.4%提升到了 40.7%。而 Agent 作為智能體代理,能夠根據給定的目標自己創建合適的 prompt,可以更好地激發大模型的推理能力。圖 9:通過調整 prompt 可以提升大模型推理效果 數據來源:Kojima,et al.Large language models are zero-shot reasoners,東方證券研究所 對于對于需要更多步驟的需要更多步驟的復雜復雜任務任務,Ag
32、ent 能夠調用能夠調用 LLM 通過思維鏈能力實現任務分解通過思維鏈能力實現任務分解與規劃與規劃。在AI Agent 的架構中,任務分解規劃的過程是基于大模型的能力來實現的。大模型具備思維鏈(Chain of Thoughts,CoT)能力,通過提示模型“逐步思考”,利用更多的計算時間來將困難任務分解為更小,更簡單的步驟,降低每個子任務的規模。圖 10:AI Agent 的反思框架 數據來源:Noah,et al.Reflexion:Language Agents with Verbal Reinforcement Learning,東方證券研究所 計算機行業深度報告 AI Agent:基于
33、大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。10 通過反思與自省框架,通過反思與自省框架,Agents 可以不斷提升任務規劃能力可以不斷提升任務規劃能力。AI Agent 可以對過去的行為進行自我批評和反思,從錯誤中學習,并為未來的步驟進行完善,從而提高最終結果的質量。自省框架使 Agents 能夠修正以往的決策、糾正之前的失誤,從而不斷優化其性能。在實際任務執行中,嘗試和錯誤是常態,反思和自省兩個框架在這個過程中起到了核心作用。2.2 記憶:用有限的上
34、下文長度實現更多的記憶 對對 AI智能體系統的輸入會成為系統的記憶,與人類的記憶模式可實現一一映射智能體系統的輸入會成為系統的記憶,與人類的記憶模式可實現一一映射。記憶可以定義為用于獲取、存儲、保留以及隨后檢索信息的過程。人腦中有多種記憶類型,如感覺記憶、短期記憶和長期記憶。而對于 AI Agent 系統而言,用戶在與其交互過程中產生的內容都可以認為是Agent 的記憶,和人類記憶的模式能夠產生對應關系。感覺記憶就是作為學習嵌入表示的原始輸入,包括文本、圖像或其他模態;短期記憶就是上下文,受到有限的上下文窗口長度的限制;長期記憶則可以認為是 Agent 在工作時需要查詢的外部向量數據庫,可通過
35、快速檢索進行訪問。目前 Agent 主要是利用外部的長期記憶,來完成很多的復雜任務,比如閱讀 PDF、聯網搜索實時新聞等。任務與結果會儲存在記憶模塊中,當信息被調用時,儲存在記憶中的信息會回到與用戶的對話中,由此創造出更加緊密的上下文環境。圖 11:人類記憶的分類 數據來源:Lilian WengLLM Powered Autonomous Agents,東方證券研究所繪制 表 2:人類記憶與 AI Agent 記憶的映射 記憶類型記憶類型 映射映射 例子例子 感覺記憶 學習原始輸入的嵌入表示,包括文本、圖像或其他形式,短暫保留感覺印象??匆粡垐D片,然后在圖片消失后能夠在腦海中回想起它的視覺印
36、象。短期記憶 上下文學習(比如直接寫入 prompt 中的信息),處理復雜任務的臨時存儲空間,受有限的上下文長度限制。在進行心算時記住幾個數字,但短期記憶是有限的,只能暫時保持幾個項目。長期記憶 在查詢時Agent可以關注的外部向量存儲,具有快速檢索和基本無限的存儲容量。學會騎自行車后,多年后再次騎起來時仍能掌握這項技能,這要歸功于長期記憶的持久存儲。數據來源:東方證券研究所整理 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁
37、的免責申明。11 向量數據庫通過將數據轉化為向量存儲,解決大模型海量知識的向量數據庫通過將數據轉化為向量存儲,解決大模型海量知識的存儲、存儲、檢索檢索、匹配問題匹配問題。向量是 AI 理解世界的通用數據形式,大模型需要大量的數據進行訓練,以獲取豐富的語義和上下文信息,導致了數據量的指數級增長。向量數據庫利用人工智能中的 Embedding 方法,將圖像、音視頻等非結構化數據抽象、轉換為多維向量,由此可以結構化地在向量數據庫中進行管理,從而實現快速、高效的數據存儲和檢索過程,賦予了 Agent“長期記憶”。同時,將高維空間中的多模態數據映射到低維空間的向量,也能大幅降低存儲和計算的成本,向量數據
38、庫的存儲成本比存到神經網絡的成本要低 2 到 4 個數量級。Embedding 技術和向量相似度技術和向量相似度計算計算是向量數據庫的核心是向量數據庫的核心。Embedding 技術是一種將圖像、音視頻等非結構化數據轉化為計算機能夠識別的語言的方法,例如常見的地圖就是對于現實地理的Embedding,現實的地理地形的信息其實遠遠超過三維,但是地圖通過顏色和等高線等來最大化表現現實的地理信息。在通過 Embedding 技術將非結構化數據例如文本數據轉化為向量后,就可以通過數學方法來計算兩個向量之間的相似度,即可實現對文本的比較。向量數據庫強大的檢索功能就是基于向量相似度計算而達成的,通過相似性
39、檢索特性,針對相似的問題找出近似匹配的結果,是一種模糊匹配的檢索,沒有標準的準確答案,進而更高效地支撐更廣泛的應用場景。圖 12:非結構化數據的向量化表征 圖 13:不同文本在向量空間中的相似度計算 數據來源:ShowMeAI,東方證券研究所 數據來源:墨天輪,東方證券研究所 2.3 工具:懂得使用工具才會更像人類 AI Agent 與大模型的一大區別在于能夠使用外部工具拓展模型能力與大模型的一大區別在于能夠使用外部工具拓展模型能力。懂得使用工具是人類最顯著和最獨特的地方,同樣地,我們也可以為大模型配備外部工具來讓模型完成原本無法完成的工作。ChatGPT 的一大缺點在于,其訓練數據只截止到了
40、 2021 年底,對于更新一些的知識內容它無法直接做出回答。雖然后續 OpenAI 為 ChatGPT 更新了插件功能,能夠調用瀏覽器插件來訪問最新的信息,但是需要用戶來針對問題指定是否需要使用插件,無法做到完全自然的回答。AI Agent則具備了自主調用工具的能力,在獲取到每一步子任務的工作后,Agent 都會判斷是否需要通過調用外部工具來完成該子任務,并在完成后獲取該外部工具返回的信息提供給 LLM,進行下一步子任務的工作。OpenAI 也在 6 月為 GPT-4 和 GPT-3.5 更新了函數調用的功能,開發者現在可以向這兩個大模型描述函數,并讓模型智能地選擇輸出包含調用這些函數的參數的
41、 JSON 對象。這是一種更可靠地將 GPT的功能與外部工具和 API 相連的新方法,允許開發者更可靠地從模型中獲得結構化的數據,為 AI 開發者提供了方便。圖 14:GPT 模型函數調用功能示例 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。12 數據來源:OpenAI,東方證券研究所 以以 HuggingGPT 為例,為例,HuggingGPT 將模型社區將模型社區 HuggingFace 和和 ChatGPT
42、 連接在一起,形成連接在一起,形成了一個了一個 AI Agent。2023 年 4 月,浙江大學和微軟聯合團隊發布了 HuggingGPT,它可以連接不同的 AI 模型,以解決用戶提出的任務。HuggingGPT 融合了 HuggingFace 中成百上千的模型和GPT,可以解決24種任務,包括文本分類、對象檢測、語義分割、圖像生成、問答、文本語音轉換和文本視頻轉換。具體步驟分為四步:1)任務規劃:使用 ChatGPT 來獲取用戶請求;2)模型選擇:根據 Hugging Face 中的函數描述選擇模型,并用選中的模型執行 AI 任務;3)任務執行:使用第 2 步選擇的模型執行的任務,總結成回答
43、返回給 ChatGPT;4)回答生成:使用 ChatGPT 融合所有模型的推理,生成回答返回給用戶。圖 15:HuggingGPT 的工作步驟流程 數據來源:Shen,et al.HuggingGPT:Solving AI Tasks with ChatGPT and its Friends in Hugging Face,東方證券研究所 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。13 三、三、AI Agent
44、 研究與應用進展研究與應用進展 AI Agent 發展迅速,出現多款“出圈”級研究成果發展迅速,出現多款“出圈”級研究成果。2023 年 3 月起,AI Agent 領域迎來了第一次“出圈”,西部世界小鎮、BabyAGI、AutoGPT 等多款重大 Agent 研究項目均在短短兩周內陸續上線,引發了大家對 AI Agent 領域的關注。圖 16:AI Agents 領域動態 數據來源:東方證券研究所繪制 3.1 AutoGPT:推動 AI Agent 研究熱潮 AutoGPT 將將 AI Agent 概念帶“出圈”概念帶“出圈”。2023 年 3 月,開發人員 Significant Ggra
45、vitas 在 GitHub上發布了開源項目 AutoGPT,它以 GPT-4 為驅動基礎,允許 AI 自主行動,完全無需用戶提示每個操作。給 AutoGPT 提出目標,它就能夠自主去分解任務、執行操作、完成任務。作為 GPT-4完全自主運行的最早示例之一,AutoGPT 迅速走紅于 AI 界,并帶動了整個 AI Agent 領域的研究與發展,它也成為了 GitHub 排行榜 4 月增長趨勢第一名。截至 2023 年 8 月 15 日,AutoGPT 在GitHub 上已經得到了超過 14.7 萬顆 star。圖 17:AutoGPT 在 GitHub 的星數增長 圖 18:AutoGPT 可
46、以實現自主分析瀏覽器頁面 數據來源:GitHub,東方證券研究所 數據來源:GitHub,東方證券研究所 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。14 開源項目點燃開發者熱情,基于開源項目點燃開發者熱情,基于 AutoGPT 的案例應用層出不窮的案例應用層出不窮?;?GPT-4 的強大能力和AutoGPT 帶來的 Agent 熱潮,開發者們很快便基于 AutoGPT 實現了很多有趣的應用案例,例如自動實現代
47、碼 debug、自主根據財經網站信息進行投資掙錢、自主完成復雜網站建設、進行科技產品研究并生成報告等。還有開發者為 AutoGPT 開發了網頁版本AgentGPT,僅需給定大模型的 API 即可實現網頁端的 AI Agent。圖 19:基于 AutoGPT 完成網站建設 圖 20:網頁版 AgentGPT 數據來源:Twitter,東方證券研究所 數據來源:AgentGPT,東方證券研究所 AutoGPT 仍存在成本高、響應慢、出現死循環仍存在成本高、響應慢、出現死循環 bug 等缺點等缺點。Auto-GPT 采用的是 GPT-3.5 和GPT-4 的 API,而 GPT-4 的單個 toke
48、n 價格為 GPT-3.5 的 15 倍。假設每次任務需要 20 個 step(理想狀況下),每個 step 會花費 4K tokens 的 GPT-4 使用量,prompt 和回復的平均每一千tokens花費是 0.05美元(因為實際使用中回復使用的 token遠遠多于 prompt),假設匯率為1美元=7 人民幣,那么花費就是 20*4*0.05*7=28 元人民幣。而這僅是理想狀況下,正常使用中經常出現需要拆分出幾十上百個step的任務,這時單個任務的處理成本就會難以接受。而且GPT-4的響應速度遠遠慢于 GPT-3.5,導致 step 一多的時候任務處理會變得很慢。并且 AutoGPT
49、 在遇到GPT-4 無法解決的 step 問題時,就會陷入死循環中,不斷重復沒有意義的 prompt 和輸出,造成大量的資源浪費和損失。圖 21:GPT-4 和 GPT-3.5 的 API 價格 圖 22:AutoGPT 陷入死循環 數據來源:OpenAI,東方證券研究所 數據來源:AutoGPT 官網,東方證券研究所 3.2 游戲領域應用:西部世界小鎮與我的世界 斯坦福西部世界小鎮首次創造了多個智能體生活的虛擬環境斯坦福西部世界小鎮首次創造了多個智能體生活的虛擬環境。2023 年 4 月,斯坦福大學的研究者們發表了名為Generative Agents:Interactive Simulac
50、ra of Human Behavior的論文,展示了一個由生成代理(Generative Agents)組成的虛擬西部小鎮。這是一個交互式的沙盒環境,在小鎮上,生活著 25 個可以模擬人類行為的生成式 AI Agent。它們會在公園里散步,在咖啡館喝咖 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。15 啡,和同事分享當天的新聞。甚至一個智能體想舉辦情人節排隊,這些智能體在接下來的兩天里,會自動傳播派對邀請的消息
51、,結識新朋友,互相約對方一起去派對,還會彼此協調時間,在正確的時間一起出現在派對上。這種 Agent 具有類似人的特質、獨立決策和長期記憶等功能,它們更接近于“原生 AI Agent”。在這種合作模式下,Agent 不僅僅是為人類服務的工具,它們也能夠在數字世界中與其他 Agent 建立社交關系。圖 23:斯坦福學者打造的西部世界小鎮 數據來源:Park,et al.Generative Agents:Interactive Simulacra of Human Behavior,東方證券研究所 記憶流是西部世界小鎮中記憶流是西部世界小鎮中 AI Agents 的架構核心的架構核心。小鎮中的
52、Agents 包含三大重要的基本要素:記憶、反思和規劃,相比第二章提到的幾個核心組件略有調整。這三大基本要素都基于一個核心:記憶流(Memory Stream),記憶流存儲了 Agent 的所有經歷記錄,是一個包含了多個觀察的列表,每個觀察都包含了事件描述、創建時間以及最近一次訪問的時間戳,觀察可以是 Agent 自己的行為或從其他人那里感知到的行為。為了檢索最重要的記憶以傳遞給語言模型,研究者確定了檢索過程中需要考慮的三個因素:最近性、重要性和相關性。通過確定每條記憶基于這三個因素的分數,最后加總起來得到權重最高的記憶,作為 prompt 的一部分傳遞給大模型,以此來決定Agent 的下一步
53、動作。反思和規劃都是基于記憶流中的觀察來進行更新與創建的。圖 24:西部世界小鎮中 Agents 的架構 圖 25:記憶流包含大量的觀察、檢索過程 數據來源:Park,et al.Generative Agents:Interactive Simulacra of Human Behavior,東方證券研究所 數據來源:Park,et al.Generative Agents:Interactive Simulacra of Human Behavior,東方證券研究所 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。
54、其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。16 Voyager 是第一個大模型驅動,可以終身學習的游戲智能體是第一個大模型驅動,可以終身學習的游戲智能體。2023 年 5 月,英偉達開源了Voyager 這一游戲智能體。英偉達將 Voyager 用在了我的世界這款游戲中,我的世界沒有強加一個預定的最終目標或固定的故事情節,而是提供了一個具有無限可能性的獨特游樂場。一個高效的終身學習 Agent 應該具有與人類玩家類似的能力,能夠根據當前技能水平和世界狀態發現合適的任務,能夠根據反饋學習和完善技能,不斷探索世界。英偉達采用了“無梯度”
55、的Agent 訓練方法,基于 GPT-4 的 Voyager 在游戲里表現優異,獲得的獨特物品增加了 3.3 倍,行進距離增加了 2.3 倍,解鎖關鍵科技樹里程碑的速度比之前的方法快了 15.3 倍。圖 26:英偉達打造 Voyager 智能體游玩我的世界 圖 27:Voyager 玩游戲的水平相比之前的方法大幅提升 數據來源:NVIDIA,東方證券研究所 數據來源:NVIDIA,東方證券研究所 Voyager 由自動課程、技能庫和迭代由自動課程、技能庫和迭代 prompt 機制三個新型組件構成機制三個新型組件構成。Voyager 的架構與第二章提到的 AI Agent基本組件相差較大:自動課
56、程用于提出開放式的探索目標,該課程是由 GPT-4 根據“盡可能多發現不同的東西”的總體目標生成的,會根據探索進度和 Agent 狀態使得探索實現最大化;技能庫用于開發越來越復雜的行為,通過存儲有助于成功解決某個任務的行動程序,Voyager 逐步建立起一個技能庫,未來可以在類似情況下進行檢索。這些技能是用可執行的代碼來表示的,復雜的技能則可以通過組成更簡單的程序來合成。這種做法可以讓 Voyager 的能力隨著時間的推移迅速增強,并緩解“災難性遺忘”問題;迭代 prompt機制引入了環境反饋、執行錯誤和檢查任務是否成功的自我驗證三種類型的反饋,根據這些反饋,GPT-4 可以自己去迭代更新pr
57、ompt,直到生成的 prompt 足以去完成當前任務。圖 28:Voyager 由三大新型組件組成 數據來源:NVIDIA,東方證券研究所 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。17 Voyager 的性能顯著強于別的的性能顯著強于別的 Agent 框架,但成本也高居不下框架,但成本也高居不下。英偉達的研究者們系統對比了Voyager 和別的 Agent 框架的的探索性能、科技樹的掌握情況、地圖覆蓋率等指
58、標,Voyager 的性能具備顯著優勢。和別的 Agent 框架相比,Voyager 解鎖科技樹(木制工具石制工具鐵制工具鉆石工具)的速度最快,且是唯一能夠解鎖鉆石等級科技樹的模型。Voyager 的探索地圖范圍也是別的Agent框架的2.3倍,發現新知識的能力大大增強。雖然Voyager具備強大的性能,但是其成本開銷也是巨大的,由于 Voyager 需要使用 GPT-4 強大的代碼生成能力,導致其成本無法降下來。同時大模型的“幻覺”問題仍然存在,比如自動課程會提出一些無法完成的任務等。但即便如此,眾多業界學者仍認為 Voyager 是 AI Agent 領域的一大突破進展,離真正的 AGI
59、又更近了一步。圖 29:Voyager 的科技樹解鎖速度最快 圖 30:Voyager 的探索范圍遠大于其他 Agent 框架 數據來源:NVIDIA,東方證券研究所 數據來源:NVIDIA,東方證券研究所 3.3 HyperWrite:推出首個個人 AI 助理 Agent HyperWrite 推出首個個人推出首個個人 AI 助理助理 Agent。2023 年 8 月 3 日,人工智能初創公司 HyperWrite 正式推出了 AI Agent 的應用 Personal Assistant,希望可以成為人類的“數字助手”。作為HyperWrite 的投資者,生成式 AI 初創企業 Coher
60、e 聯合創始人 Aidan Gomez 表示:“我們將開始第一次看到真正的個人 AI 助理”。作為個人助理 Agent,它可以幫助用戶整理郵箱并起草回復、幫助用戶訂機票、訂外賣、整理領英上適合的簡歷等,將 AI 能力無縫接入到用戶的日常生活和工作流中。目前該工具還處于試用階段,主要適用于網頁瀏覽器場景。圖 31:HyperWrite 推出個人 AI 助理 Personal Assistant 數據來源:HyperWrite,東方證券研究所 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后
61、部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。18 Personal Assistant 可以自主在瀏覽器中完成指定任務可以自主在瀏覽器中完成指定任務。Personal Assistant 現在是以瀏覽器拓展插件的形式來提供服務的,用戶在安裝完插件并注冊賬戶后即可開始試用。其初始頁面類似于New Bing 這樣的搜索引擎,僅提供一個自然語言交互的聊天框。用戶輸入其想要完成的目標后,該插件就會新建一個瀏覽器頁面,并在頁面以側邊欄形式展示其進行的每一步操作與思路。以“給我一些美國現在關于 AI Agent 的新觀點”這一目標為例,該個人助理會先去進行相關的搜索,然后打開相
62、關的文章頁面進行閱讀并總結觀點,在完成閱讀和總結后,它會將結果匯總并返回到聊天框中,整體用時約為 2 分鐘。圖 32:HyperWrite Personal Assistant 交互界面 圖 33:HyperWrite Personal Assistant 的思考與執行操作過程 數據來源:HyperWrite,東方證券研究所 數據來源:HyperWrite,東方證券研究所 目前個人目前個人 AI 助理能力仍舊有限,但潛力可期助理能力仍舊有限,但潛力可期。目前 HyperWrite Personal Assistant 僅為 0.01 版本,其功能仍相對有限,也存在一些出錯的問題,并且響應過程也
63、較為緩慢。但我們認為,AI Agent 自此邁出了走向個人消費者領域的第一步,隨著未來大模型能力的進一步提升,以及算力基礎設施的不斷普惠,個人 AI 助理的發展潛力值得期待。3.4 ModelScopeGPT:國內首個大模型調用工具 阿里云推出國內首個大模型調用工具阿里云推出國內首個大模型調用工具 ModelScopeGPT(魔搭(魔搭 GPT),是一個能實現大小模型協,是一個能實現大小模型協同的同的 Agent 系統系統。在 2023 年 7 月的世界人工智能大會上,阿里云推出了面向開發者們的大模型調用工具魔搭 GPT。魔搭 GPT 的理念類似于浙大和微軟團隊推出的 HuggingGPT,通
64、過魔搭GPT,開發者可以一鍵發送指令去調用魔搭社區中的其他 AI 模型,從而實現大大小小的模型共同協作,進而完成復雜的任務。這也是國內首款大模型調用工具 Agent。圖 34:ModelScopeGPT 簡介 圖 35:ModelScopeGPT 演示 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。19 數據來源:魔搭社區,東方證券研究所 數據來源:魔搭社區,東方證券研究所 ModelScopeGPT 是阿里云是阿
65、里云 MaaS 范式在模型使用層的重要映射,旨在建立大模型生態范式在模型使用層的重要映射,旨在建立大模型生態。阿里云表示,構建 ModelScopeGPT 的數據集和訓練方案將會對外開放,供開發者自行調用,開發者可以根據需要對不同的大模型和小模型進行組合,幫助開發者多、快、好、省地使用大模型。目前在 AI 開發者圈,魔搭社區已成中國大模型第一門戶。所有模型生產者都可以上傳自己的模型,驗證模型的技術能力和商業化模式,并與其他社區模型進行協作,共同探索模型應用場景。ModelScopeGPT 則實現了將模型生產力進行自由組合,繼續強化阿里云在大模型生態建設中的領先地位。圖 36:阿里云旨在建設中國
66、大模型生態 數據來源:WAIC,東方證券研究所 3.5 Inflection AI:高情商個人 AIPi Inflection AI 推出主打情感陪伴的個人推出主打情感陪伴的個人 AIPi。Inflection AI 是一家成立于 2022 年的人工智能初創公司,目前公司的估值已經突破 40 億美元,在人工智能領域僅次于 OpenAI。在 2023 年 5月,公司推出了旗下的個人 AI 產品 Pi。與 ChatGPT 不同,Pi 從未以專業性與替代人工作為宣傳。它不能寫代碼,也不能幫我們生產原創內容,與時下流行的通用聊天機器人相反,Pi 只能進行友好的對話,提供簡潔的建議,甚至只是傾聽。它的主
67、要特征是富有同情心、謙虛好奇、幽默創新,具有良好的情商,可以根據用戶的獨特興趣和需求提供無限的知識與陪伴。Inflection 自開發 Pi 開始,就確定了 Pi 將作為個人智能(Personal Intelligence),而不僅僅是輔助人工作的工具。圖 37:個人 AI 助理 Pi 圖 38:Inflection-1 可媲美 GPT-3.5 和 LLaMA(65B)計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。
68、20 數據來源:Inflection AI,東方證券研究所 數據來源:Inflection AI,東方證券研究所 Pi 的核心是公司研發的的核心是公司研發的 Inflection-1 大模型,性能媲美大模型,性能媲美 GPT-3.5。Inflection-1 是 Inflection AI 推出的大模型,根據公司的評估測試,Inflection-1 在多任務語言理解、常識問題等多項測試中的性能都略勝于 GPT-3.5、LLaMA 等常用的大模型,但在代碼能力上要落后于 GPT-3.5。不過這是公司的差異化競爭所在,Pi 作為一個以情感陪伴為主的 Agent 并不需要擁有很強的代碼和輔助工作能力
69、。和輔助工作的和輔助工作的 Agent 不同,不同,Pi 能夠滿足更多的情感陪伴需求能夠滿足更多的情感陪伴需求。作為一個具有高情商的 AI Agent,Pi能夠以更加日常和生活化的語言和用戶進行交流,而不是以一個冰冷的工作 AI的口吻。Pi的回復非常貼近生活,語氣十分得體,而它對你當下狀態和事態發展的關心就像心理醫生或者你最好的朋友。當 Pi 在回復可能帶有負面情緒的問題時,它也會避免使用任何俏皮的表情或者輕快的口吻去冒犯用戶。它甚至會在回復中使用emoji,讓用戶覺得更像是和真正的人類在進行對話一樣。Pi 還能夠記住與用戶的對話內容,并隨著時間的推移而更加了解用戶。Pi 的出現,彌補了傳統型
70、人工智能對人類情緒欲望的忽視。我們認為,類似于 Pi 這樣能夠提供情緒價值的個人 AI Agent 存在著較大的市場空間。圖 39:Pi 的幽默回復 圖 40:Pi 能夠提供情感方面的建議 數據來源:36 氪,東方證券研究所 數據來源:36 氪,東方證券研究所 3.6 AgentBench:LLM 的 Agent 能力評估標準 清華大學清華大學聯合團隊聯合團隊提出世界首個提出世界首個大模型大模型 AI Agent 能力的評估標準能力的評估標準。盡管當前 AI 智能體研究異?;馃?,但 AI 行業缺乏一個系統化和標準化的基準來評估 LLM 作為 Agent 的智能水平。2023 年 8月,清華大學
71、、俄亥俄州立大學、加州大學伯克利分校的研究團隊便提出了首個系統性的基準測試AgentBench,用來評估 LLM 作為 Agent 在各種真實世界挑戰和 8 個不同環境中的能力表現(如推理和決策能力)。這 8 個環境分別是:操作系統、數據庫、知識圖譜、卡牌對戰游戲、家務事、橫向思維謎題、網絡購物、網頁瀏覽?;谶@ 8 個環境,研究團隊設計了不同的真實世界挑戰,涵蓋了代碼場景和生活場景,比如用 SQL 語言從一些表格里提取需要的數、玩卡牌游戲取得勝利、從網頁預訂機票等。圖 41:AgentBench 評價 LLM 作為 Agent 的能力 圖 42:常用的 LLM 的 Agent 能力排名 計算
72、機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。21 數據來源:Liu,et al.AgentBench:Evaluating LLMs as Agents,東方證券研究所 數據來源:Liu,et al.AgentBench:Evaluating LLMs as Agents,東方證券研究所 GPT-4 性能遙遙領先,開源模型能力顯著弱于閉源模型性能遙遙領先,開源模型能力顯著弱于閉源模型。研究者選擇了 25 種主流的大模型
73、 API來進行 Agent 能力評估,涵蓋了閉源模型(如 OpenAI 的 GPT-4、GPT-3.5 等)和開源模型(LLaMA 2和Baichuan等)。根據測試結果來看,GPT-4基本上在所有環境中都占據領先地位,是名副其實的當前大模型能力邊界。閉源模型 Anthropic 的 Claude 以及 OpenAI 的 GPT-3.5 水平相差不大,而常見的一些開源模型Vicuna、Dolly等由于尺寸和閉源模型相差了至少一個數量級,性能評估顯著較弱。我們認為,雖然 LLM 能夠在自然語言交流等 NLP 上達到基本的類人水平,但在關注行動有效性、上下文長度記憶、多輪對話一致性和代碼生成執行等
74、 Agent 重要能力上的表現仍舊相對落后,基于 LLM 的 AI Agent 的發展空間仍具潛力。四、“四、“Agent+”有望成為未來”有望成為未來 AI 領域產品主流領域產品主流4.1 AI Agent 有望多個領域實現落地應用 AI Agent 是釋放是釋放 LLM 潛能的關鍵潛能的關鍵,Agent 和人的合作將越來越多和人的合作將越來越多。當前像 GPT-4 這樣的大模型具備很強的能力,但是其性能的發揮卻主要依賴于用戶寫的 prompt 是否足夠合適。AI Agent 則將用戶從 prompt 工程中解放出來,僅需提供任務目標,以大模型作為核心的 AI Agent 就能夠為大模型提供
75、行動能力,去完成目標。得益于 LLM 能力邊界的不斷發展,AI Agent 展現出了豐富的功能性,雖然目前 Agent 還只能完成一些比較簡單的任務,但我們認為,隨著 Agent 研究的不斷發展,Agent 和人類的合作將越來越多,人類的合作網絡也將升級為一個人類與 AI Agent 的自動化合作體系,人類社會的生產結構將會出現變革。AI Agent 有望多個領域實現落地應用,有的已經出現好用的有望多個領域實現落地應用,有的已經出現好用的 demo 產品產品。AI Agent 已經在各個領域得到了初步的應用和發展,未來將有望成為 AI 應用層的基本架構,包括 to C、to B 產品等。比如在
76、游戲領域,Agent 將推動游戲里面的每個 NPC 都具有自己的思考能力與行動路線,更加擬人化,整個游戲的沉浸感體驗會大大增強;在軟件開發領域,Agent 可以根據目標自動完成代碼生成、試運行、bug 檢查、release 上線等過程。把 Agent 系統作為 AI 應用產品的核心,能夠實現比僅采用大模型產品輔助人類工作更高的工作效率,人類的生產力會進一步釋放。圖 43:Agent 的可能用例圖 44:GitHub 關于自主代理的項目已經超過 100 個 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露
77、見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。22 數據來源:LeewayHertz,東方證券研究所 數據來源:GitHub,東方證券研究所 表 3:AI Agent 可能的應用領域 AI Agent 應用領域應用領域 具體應用具體應用 個人助理 完成各種任務,如查找和回答問題,預訂旅行和其他活動,管理日歷和財務,監控健康和健身活動。軟件開發 支持應用程序開發的編碼、測試和調試工作,擅長自然語言作為輸入處理任務。交互式游戲 處理游戲任務,如創建更智能的 NPC,開發自適應的反派角色,提供游戲和負載平衡,以及向玩家提供情境化幫助。預測性分析 實時數據分析
78、和預測更新,解釋數據洞察,識別模式和異常,調整預測模型以適應不同的用例和需求。自動駕駛 為自動駕駛汽車提供環境模型和圖像,提供決策指導,支持車輛控制。智能城市 技術基礎,無需人類持續維護,特別是交通管理。智慧客服 處理客戶支持查詢,回答問題,協助解答問題。金融管理 提供研究的金融建議,組合管理,風險評估和欺詐檢測,合規管理和報告,信用評估,承保,支出和預算管理支持。任務生成和管理 生成高效的任務并執行。智能文檔處理 文檔分類、信息分析和提取、摘要、情感分析、翻譯等??茖W探索 藥物研發、生物蛋白質合成等領域 數據來源:eweek,東方證券研究所整理 距離真正的距離真正的 AGI 還有很長的發展之
79、路還有很長的發展之路,“Agent+”有望成為未來產品的主流”有望成為未來產品的主流。雖然目前有許多類別的 Agent,但大多很粗淺,遠遠談不上 AGI。即使是最簡單的 Agent 應用,語音助手或智能外呼系統,其復雜性以及如何引入環境 Feedback 等問題,都未得到有效解決。目前行業內形成的共識是,Agent 調用外部工具的方式是輸出代碼由 LLM 輸出可執行的代碼,然后將其轉換成一種機器指令,再去調用外部的工具來執行或生成答案。OpenAI 近期推出的 Function Call 能力也證明了這一點。這也是為什么 GPT-4 在 Agents 系統里很受歡迎的原因,GPT-4 強大的代
80、碼 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。23 能力在當下仍舊找不到可替代的大模型。我們認為,AI Agent 的研究是人類不斷探索接近 AGI 的過程,隨著 Agent 變得越來越“可用”和“好用”,“Agent+”的產品將會越來越多,成為未來產品的主流發展方向。4.2 2B+垂類 Agent 認知正在形成,有望率先落地 2B 和垂直和垂直領域仍是領域仍是 AI Agents 容易率先落地的方向容易率先落
81、地的方向。由于 Agent 對環境反饋的依賴性較強,具備顯著特點的企業環境是更加適合 Agent 建立起對某一個垂直領域認知的場景。傳統的企業與 AI結合應用更多的是在流程任務自動化,通過定義規則來提升一線員工的工作效率。而 Agent 則能夠更進一步地提升一線員工的工作質量,通過將企業在私域業務上的知識與經驗傳授給 Agent,讓 Agent 能夠成為該領域一個虛擬的“專家”智能體,去指導和幫助經驗較為匱乏的一線員工,在讓一線員工的工作質量大幅提升的同時,也能讓一線員工快速成長起來。并且從時間上來看,一個經驗豐富的高級員工是需要很長時間的培養的,而通過訓練得到的垂類 Agent 是很容易實現
82、低成本規?;瘡椭频?。理想狀態下,企業能夠實現給每一位一線員工都配備一位甚至多位垂類Agent 來輔助工作,員工的單位生產力將會有大幅提升。大模型時代的到來加速了 AI 技術的平民化,我們認為,隨著科技水平的不斷發展,未來 5-10 年間 AI 智能的成本將會快速降低,企業為每一位員工搭配 Agent 的愿景將有望實現。用戶對用戶對 Agent 的認知正在形成,初創企業正在卡位的認知正在形成,初創企業正在卡位。當前關于 AI Agent 的研究主要還是以學術界和開發者為主,商業化產品極少,Agent 的未來產品形態如何仍未有定論。但是用戶對于 Agent的關注度正在提升,Agent 對于效率提升
83、的認知正在形成,可能未來幾年間就會涌現出大量以Agent 作為核心的產品應用到各行各業。目前,已經有一些初創公司開始以企業的智能體平臺作為主要的產品研發方向,例如瀾碼科技正在打造基于 LLM 的企業級 Agent 平臺。垂直領域專家通過 Agent 平臺定義工作流程,完成工作方法論的構建,設計 Agent 對話模式以便于更清晰地表達業務;一線員工用自然語言提出需求,調度 Agent 完成任務,能夠極大地提升工作流程自動化的靈活性,降低成本,是對傳統工作方式的顛覆式創新。長遠來看,我們認為這類 Agent 平臺有可能成為 2B 領域人機交互的入口級平臺。圖 45:瀾碼科技打造企業級 Agent
84、平臺 數據來源:瀾碼科技,東方證券研究所 計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。24 投資建議與投資標的投資建議與投資標的我們認為,未來幾年是 AI Agent 的快速發展窗口期,具備底層大模型算法技術的公司以及相關的應用軟件公司有望基于 AI Agent 實現應用的落地。大模型領域大模型領域:建議關注科大訊飛(002230,買入)、三六零(601360,未評級)、拓爾思(300229,未評級)等公司應用軟件
85、領域應用軟件領域:建議關注金山辦公(688111,增持)、泛微網絡(603039,未評級)、致遠互聯(688369,未評級)、彩訊股份(300634,未評級)、漢得信息(300170,未評級)、新致軟件(688590,未評級)等公司風險提示風險提示技術落地不及預期技術落地不及預期:AI Agent 的應用落地需要大語言模型、視覺感知、語音語義等多種人工智能技術賦能,以完成特定場景下的任務。若未來大模型技術落地不及預期,將影響該人工智能領域的進一步發展。政策監管風險政策監管風險:目前有關于 AI 生成內容的版權及監管等方面的政策尚未明確,大模型仍存在一些“幻覺”和倫理上的問題,若未來相關政策對這
86、類大模型相關的應用監管力度加強,將會影響 AI Agent 的應用落地推廣。計算機行業深度報告 AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。25 分析師申明 每位負責撰寫本研究報告全部或部分內容的研究分析師在此作以下聲明:每位負責撰寫本研究報告全部或部分內容的研究分析師在此作以下聲明:分析師在本報告中對所提及的證券或發行人發表的任何建議和觀點均準確地反映了其個人對該證券或發行人的看法和判斷;分析師薪酬的任何組成部分無論是在過去、現在
87、及將來,均與其在本研究報告中所表述的具體建議或觀點無任何直接或間接的關系。投資評級和相關定義 報告發布日后的 12個月內行業或公司的漲跌幅相對同期相關證券市場代表性指數的漲跌幅為基準(A 股市場基準為滬深 300 指數,香港市場基準為恒生指數,美國市場基準為標普 500 指數);公司投資評級的量化標準公司投資評級的量化標準 買入:相對強于市場基準指數收益率 15%以上;增持:相對強于市場基準指數收益率 5%15%;中性:相對于市場基準指數收益率在-5%+5%之間波動;減持:相對弱于市場基準指數收益率在-5%以下。未評級 由于在報告發出之時該股票不在本公司研究覆蓋范圍內,分析師基于當時對該股票的
88、研究狀況,未給予投資評級相關信息。暫停評級 根據監管制度及本公司相關規定,研究報告發布之時該投資對象可能與本公司存在潛在的利益沖突情形;亦或是研究報告發布當時該股票的價值和價格分析存在重大不確定性,缺乏足夠的研究依據支持分析師給出明確投資評級;分析師在上述情況下暫停對該股票給予投資評級等信息,投資者需要注意在此報告發布之前曾給予該股票的投資評級、盈利預測及目標價格等信息不再有效。行業投資評級的量化標準行業投資評級的量化標準:看好:相對強于市場基準指數收益率 5%以上;中性:相對于市場基準指數收益率在-5%+5%之間波動;看淡:相對于市場基準指數收益率在-5%以下。未評級:由于在報告發出之時該行
89、業不在本公司研究覆蓋范圍內,分析師基于當時對該行業的研究狀況,未給予投資評級等相關信息。暫停評級:由于研究報告發布當時該行業的投資價值分析存在重大不確定性,缺乏足夠的研究依據支持分析師給出明確行業投資評級;分析師在上述情況下暫停對該行業給予投資評級信息,投資者需要注意在此報告發布之前曾給予該行業的投資評級信息不再有效。免責聲明 本證券研究報告(以下簡稱“本報告”)由東方證券股份有限公司(以下簡稱“本公司”)制作及發布。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告的全體接收人應當采取必要措施防止本報告被轉發給他人。本報告是基于本公司認為可靠的且目前已公開的信息撰寫,本公司力求但不
90、保證該信息的準確性和完整性,客戶也不應該認為該信息是準確和完整的。同時,本公司不保證文中觀點或陳述不會發生任何變更,在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的證券研究報告。本公司會適時更新我們的研究,但可能會因某些規定而無法做到。除了一些定期出版的證券研究報告之外,絕大多數證券研究報告是在分析師認為適當的時候不定期地發布。在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議,也沒有考慮到個別客戶特殊的投資目標、財務狀況或需求??蛻魬紤]本報告中的任何意見或建議是否符合其特定狀況,若有必要應尋求專家意見。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,
91、并非作為或被視為出售或購買證券或其他投資標的的邀請或向人作出邀請。本報告中提及的投資價格和價值以及這些投資帶來的收入可能會波動。過去的表現并不代表未來的表現,未來的回報也無法保證,投資者可能會損失本金。外匯匯率波動有可能對某些投資的價值或價格或來自這一投資的收入產生不良影響。那些涉及期貨、期權及其它衍生工具的交易,因其包括重大的市場風險,因此并不適合所有投資者。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任,投資者自主作出投資決策并自行承擔投資風險,任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。本報告主要以電子版形式分發,間或也會輔以
92、印刷品形式分發,所有報告版權均歸本公司所有。未經本公司事先書面協議授權,任何機構或個人不得以任何形式復制、轉發或公開傳播本報告的全部或部分內容。不得將報告內容作為訴訟、仲裁、傳媒所引用之證明或依據,不得用于營利或用于未經允許的其它用途。經本公司事先書面協議授權刊載或轉發的,被授權機構承擔相關刊載或者轉發責任。不得對本報告進行任何有悖原意的引用、刪節和修改。提示客戶及公眾投資者慎重使用未經授權刊載或者轉發的本公司證券研究報告,慎重使用公眾媒體刊載的證券研究報告。HeadertTable_Address東方證券研究所 地址:上海市中山南路 318 號東方國際金融廣場 26 樓 電話:傳真:021-63325888 021-63326786 東方證券股份有限公司經相關主管機關核準具備證券投資咨詢業務資格,據此開展發布證券研究報告業務。東方證券股份有限公司及其關聯機構在法律許可的范圍內正在或將要與本研究報告所分析的企業發展業務關系。因此,投資者應當考慮到本公司可能存在對報告的客觀性產生影響的利益沖突,不應視本證券研究報告為作出投資決策的唯一因素。