1、 1/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 行業研究報告 慧博智能投研 AI Agent行業行業深度:深度:框架拆解框架拆解、應用方向應用方向、應用領域應用領域及相關公司深度梳理及相關公司深度梳理 隨著大型模型在各行各業的廣泛應用,基于大型模型的人工智能體(AI Agent)迎來了快速發展的階段。研究 AI Agent 是人類不斷接近人工通用智能(AGI)的探索之一。隨著 AI Agent 變得越來越易用和高效,Agent+的產品越來越多,未來 AI Agent 有望成為 AI 應用層的基本架構,涵蓋 toC 和 toB 產品等不同領域。那么,AI A
2、gent 是什么?與其它人類與 AI 協同模式相比有何不同?其框架結構是怎樣的?目前 AI Agent 的應用方向是什么?未來哪些領域可以應用 AI Agent?此外,又有哪些公司在該領域有所布局?AI Agent 行業還面臨哪些挑戰?本篇研報將圍繞以上問題展開探討,旨在幫助讀者能夠了解 AI Agent行業。目錄目錄 一、AI Agent 概述.1 二、AI Agent 框架拆解.5 三、自主智能體:自動化,新一輪生產力革命.11 四、智能體模擬:擬人化,新的精神消費品.20 五、AI Agent 應用領域.26 六、相關公司.28 七、AI Agent 可能面臨的挑戰.33 八、參考研報.
3、34 一、一、AI Agent 概述概述 1、AI Agent 概念概念 AI Agent(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實體。(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實體。不同于傳統的人工智能,AI Agent 具備通過獨立思考、調用工具去逐步完成給定目標的能力。比如,告訴 AI Agent 幫忙下單一份外賣,它就可以直接調用 APP 選擇外賣,再調用支付程序下單支付,無需人類去指定每一步的操作。2/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 2、AI Agent 對比對比其它人類與其它人類與 AI 協同模式
4、的協同模式的區別區別 AI Agent 較目前廣泛使用的較目前廣泛使用的 Copilot 模式更加獨立。模式更加獨立。對比 AI 與人類的交互模式,目前已從過去的嵌入式工具型 AI(例如 Siri)向助理型 AI 發展,目前的各類 AI Copilot 不再是機械地完成人類指令,而是可以參與人類工作流,為諸如編寫代碼、策劃活動、優化流程等事項提供建議,與人類協同完成。而AI Agent 的工作僅需給定一個目標,它就能夠針對目標獨立思考并做出行動,它會根據給定任務詳細拆解出每一步的計劃步驟,依靠來自外界的反饋和自主思考,自己給自己創建 prompt,來實現目標。如果說 Copilot 是“副駕駛
5、”,那么 Agent 則可以算得上一個初級的“主駕駛”。3/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 3、Agent 的最終發展目標為的最終發展目標為“通用人工智能通用人工智能 AGI”AI Agent 并不并不是一個新興的概念,早在多年前就已在人工智能領域有了研究。是一個新興的概念,早在多年前就已在人工智能領域有了研究。例如 2014 年由DeepMind 推出的引發全球熱議的圍棋機器人 AlphaGo,也可以看做是 AI Agent 的一種。與之類似的還有 2017 年 OpenAI 推出的用于玩Dota2的 OpenAI Five,2019 年 De
6、epMind 公布用于玩星際爭霸 2的 AlphaStar 等,這些 AI 都能根據對實時接收到的信息的分析來安排和規劃下一步的操作,均滿足 AI Agent 的基本定義。當時的業界潮流是通過強化學習的方法來對當時的業界潮流是通過強化學習的方法來對 AI Agent 進行訓練,主要應進行訓練,主要應用場景是在游戲這類具有對抗性、有明顯輸贏雙方的場景中。但如果想要在真實世界中實現通用性,基用場景是在游戲這類具有對抗性、有明顯輸贏雙方的場景中。但如果想要在真實世界中實現通用性,基于當時的技術水平還難以實現。于當時的技術水平還難以實現。大語言模型的浪潮推動了大語言模型的浪潮推動了 AI Agent
7、相關研究快速發展相關研究快速發展,經過四大發展階段,逐步具備了高效推理、靈經過四大發展階段,逐步具備了高效推理、靈活行動、強大的泛化以及無縫任務轉移的能力?;钚袆?、強大的泛化以及無縫任務轉移的能力。發展歷程:發展歷程:AI Agent 經歷了符號智能體、反映型智能體、基于強化學習的智能體、具有遷移學習和元學習功能的智能體四大發展階段,現在已經跨入基于大型語言模型的智能體階段。具備的具備的優勢優勢:大語言模型為 AI Agent 帶來了突破性的進展,同時具備了以上四大發展階段的優勢:1)通過思維鏈(CoT)和問題分解等技術,基于 LLM 的智能體可以表現出與符號智能體相當的推理和規劃能力;2)通
8、過從反饋中學習和執行新的行動,獲得與環境互動的能力,類似于反應型智能體;3)大型語言模型在大規模語料庫中進行預訓練,并顯示出泛化與遷移學習的能力;4)從而實現任務間的無縫轉移,而無需更新參數。4/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 通往通往 AGI 的道路仍需探索,的道路仍需探索,AI Agent 是當前的主要路線。是當前的主要路線。在大模型浪潮席卷全球之時,很多人認為大模型距離真正的通用人工智能 AGI 已經非常接近,很多廠商都投入了基礎大模型的研究。但經過了一段時間后,大家對大模型真實的能力邊界有了清晰的認知,發現大模型仍存在大量的問題如幻覺、上
9、下文容量限制等,導致其無法直接通向 AGI,于是 AI Agent 成為了新的研究方向。通過讓大模型借助一個或多個 Agent 的能力,構建成為具備自主思考決策和執行能力的智能體,來繼續實現通往 AGI 的道路。AI Agent 將是未來 AI 的前沿方向。4、應用應用兩大方向:自動化(自主智能體)、擬人化(智能體模擬)兩大方向:自動化(自主智能體)、擬人化(智能體模擬)結合目前學術界和產業界基于 LLM 開發的 AI AGENT 應用情況,能夠將 AI AGENT 劃分為兩大類:自主智能體,力圖實現復雜流程自動化。自主智能體,力圖實現復雜流程自動化。當給定自主智能體一個目標時,它們能自行創建
10、任務、完成任務、創建新任務、重新確定任務列表的優先級、完成新的首要任務,并不斷重復這個過程,直到完成目標。準確度要求高,因而更需要外部工具輔助減少大模型不確定性的負面影響。智能體模擬,力圖更加擬人可信。智能體模擬,力圖更加擬人可信。分為強調情感情商的智能體以及強調交互的智能體,后者往往是在多智能體環境中,可能涌現出超越設計者規劃的場景和能力,大模型生成的不確定性反而成為優勢,多樣性使其有望成為 AIGC 重要組成部分。能夠能夠認為兩大方向并不是完全割裂的,相反,自認為兩大方向并不是完全割裂的,相反,自動化與擬人化將作為動化與擬人化將作為 AI Agent 兩大核心能力并行發展,兩大核心能力并行
11、發展,隨著底層模型成熟以及行業探索更加深入,有望進一步擴大隨著底層模型成熟以及行業探索更加深入,有望進一步擴大 AI Agent 適用范圍,提升其實用性。適用范圍,提升其實用性。5/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 二、二、AI Agent 框架框架拆解拆解 一個基于大模型的一個基于大模型的 AI Agent 系統可以拆分為大模型、規劃、記憶與工具使用四個組件部分。系統可以拆分為大模型、規劃、記憶與工具使用四個組件部分。6月,OpenAI 的應用研究主管 Lilian Weng 撰寫了一篇博客,認為 AI Agent 可能會成為新時代的開端。她提出
12、了 Agent=LLM+規劃技能+記憶+工具使用的基礎架構,其中 LLM 扮演了 Agent 的“大腦”,在這個系統中提供推理、規劃等能力。1、大模型大模型+規劃:規劃:Agent 的的“大腦大腦”,通過思維鏈能力實現仸務分解,通過思維鏈能力實現仸務分解 LLM 具備邏輯推理能力,具備邏輯推理能力,Agent 可以將可以將 LLM 的邏輯推理能力激發出來。的邏輯推理能力激發出來。當模型規模足夠大的時候,LLM 本身是具備推理能力的。在簡單推理問題上,LLM 已經達到了很好的能力;但在復雜推理問題上,LLM 有時還是會出現錯誤。事實上,很多時候用戶無法通過 LLM 獲得理想的回答,原因在于 pr
13、ompt不夠合適,無法激發 LLM 本身的推理能力,通過追加輔助推理的 prompt,可以大幅提升 LLM 的推理 6/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 效果。在Large language models are zero-shot reasoners這篇論文的測試中,在向 LLM 提問的時候追加“Lets think step by step”后,在數學推理測試集 GSM8K 上的推理準確率從 10.4%提升到了 40.7%。而 Agent 作為智能體代理,能夠根據給定的目標自己創建合適的 prompt,可以更好地激發大模型的推理能力。通常情況下
14、,一項復雜的任務往往涉及許多步驟。通常情況下,一項復雜的任務往往涉及許多步驟。AI Agent 需要首先拆解這些步驟,并提前做好計劃。需要首先拆解這些步驟,并提前做好計劃。任務的分解的環節可以由三種方式完成:1)在大模型輸入簡單的提示,比如“XYZ 的步驟”,或者“實現XYZ 的子目標是什么?”;2)使用特定任務的指令,比如在需要寫小說的時候要求大模型“寫一個故事大綱”;3)通過人工提供信息。當下普遍的技術模式包括思維鏈和思維樹:思維鏈(思維鏈(Chain of Thoughts)已成為一種標準的提示技術,用于提高模型在復雜任務中的表現。模型被要求“一步一步地思考”,將艱巨的任務分解為更小更簡
15、單的步驟。思維鏈將大任務轉化為多個可管理的任務,并幫助人們理解模型的思維過程。思維樹(思維樹(Tree of Thoughts)通過在任務的每一步探索多種推理可能性來擴展思維鏈。它首先將問題分解為多個思考步驟,并在每個步驟中生成多個想法,從而創建一個樹狀結構。搜索過程可以是 BFS(廣度優先搜索)或 DFS(深度優先搜索)。另一方面,試錯和糾錯在現實世界的任務決策中是不可避免且至關重要的步驟。自我反思幫助另一方面,試錯和糾錯在現實世界的任務決策中是不可避免且至關重要的步驟。自我反思幫助 AI Agent 完善過去的行動決策、糾正以前的錯誤、從而不斷改進。完善過去的行動決策、糾正以前的錯誤、從而
16、不斷改進。當下的技術包括 ReAct、Reflexion、后見鏈(Chain of Hindsight)等:ReAct:將任務中單獨的行為和語言空間組合在一起,從而使大模型的推理和行動融為一體。該模式幫助大模型與環境互動(例如使用維基百科搜索 API),并以自然語言留下推理的痕跡。7/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 Reflexion:一個讓 AI Agent 具備動態記憶和自我反思能力以提高推理能力的框架。沿用了 ReAct 中的設置,并提供簡單的二進制獎勵。每次行動后,AI Agent 都會計算一個啟發式函數,并根據自我反思的結果決定是否重置
17、環境以開始新的試驗。這個啟發式的函數可以判斷是否當下的路徑效率低下(耗時過長卻沒有成功)或包含幻覺(在環境中遇到一連串導致相同觀察結果的相同行動),并在出現這兩種情況下終止函數。后見鏈(后見鏈(Chain of Hindsight):):通過向模型明確展示一系列過去的輸出結果,鼓勵模型改進自身的輸出結果,使得下一次預測的行動比之前的試驗取得更好的成績。算法蒸餾(Algorithm Distillation)將同樣的理念應用于強化學習任務中的跨集軌跡。8/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 2、記憶:用有限的上下文長度實現更多的記憶記憶:用有限的上下文
18、長度實現更多的記憶 記憶模塊負責存儲信息,包括過去的交互、學習到的知識,甚至是臨時的任務信息。對于一個智能體來說,有效的記憶機制能夠保障它在面對新的或復雜的情況時,調用以往的經驗和知識。例如,一個具備記憶功能的聊天機器人可以記住用戶的偏好或先前的對話內容,從而提供更個性化和連貫的交流體驗。對對 AI 智能體系統的輸入會成為系統的記憶,與人類的記憶模式可實現一一映射。智能體系統的輸入會成為系統的記憶,與人類的記憶模式可實現一一映射。記憶可以定義為用于獲取、存儲、保留以及隨后檢索信息的過程。人腦中有多種記憶類型,如感覺記憶、短期記憶和長期記憶。而對于 AI Agent 系統而言,用戶在與其交互過程
19、中產生的內容都可以認為是 Agent 的記憶,和人類記憶的模式能夠產生對應關系。感覺記憶感覺記憶就是作為學習嵌入表示的原始輸入,包括文本、圖像或其他模態;短期記憶短期記憶就是上下文,受到有限的上下文窗口長度的限制;長期記憶長期記憶則可以認為是 Agent 在工作時需要查詢的外部向量數據庫,可通過快速檢索進行訪問。目前 Agent 主要是利用外部的長期記憶,來完成很多的復雜任務,比如閱讀 PDF、聯網搜索實時新聞等。任務與結果會儲存在記憶模塊中,當信息被調用時,儲存在記憶中的信息會回到與用戶的對話中,由此創造出更加緊密的上下文環境。9/34 2023年年 12月月 11 日日 行業行業|深度深度
20、|研究報告研究報告 為了解決有限為了解決有限記憶時間的限制,通常會用到外部存儲器。常見的做法是將信息的嵌入表示保存到可支持記憶時間的限制,通常會用到外部存儲器。常見的做法是將信息的嵌入表示保存到可支持快速的最大內積搜索(快速的最大內積搜索(MIPS)的向量存儲數據庫中。向量數據庫通過將數據轉化為向量存儲,解決大)的向量存儲數據庫中。向量數據庫通過將數據轉化為向量存儲,解決大模型海量知識的存儲、檢索、匹配問題。模型海量知識的存儲、檢索、匹配問題。向量是 AI 理解世界的通用數據形式,大模型需要大量的數據進行訓練,以獲取豐富的語義和上下文信息,導致了數據量的指數級增長。向量數據庫利用人工智能中的
21、Embedding 方法,將圖像、音視頻等非結構化數據抽象、轉換為多維向量,由此可以結構化地在向量數據庫中進行管理,從而實現快速、高效的數據存儲和檢索過程,賦予了 Agent“長期記憶”。同時,將高維空間中的多模態數據映射到低維空間的向量,也能大幅降低存儲和計算的成本,向量數據庫的存儲成本比存到神經網絡的成本要低 2 到 4 個數量級。Embedding 技術和向量相似度計算是向量數據庫的核心。技術和向量相似度計算是向量數據庫的核心。Embedding 技術是一種將圖像、音視頻等非結構化數據轉化為計算機能夠識別的語言的方法,例如常見的地圖就是對于現實地理的 Embedding,現實的地理地形的
22、信息其實遠遠超過三維,但是地圖通過顏色和等高線等來最大化表現現實的地理信息。在通過 Embedding 技術將非結構化數據例如文本數據轉化為向量后,就可以通過數學方法來計算兩個向量之間的相似度,即可實現對文本的比較。向量數據庫強大的檢索功能就是基于向量相似度計算而達成的,通過相似性檢索特性,針對相似的問題找出近似匹配的結果,是一種模糊匹配的檢索,沒有標準的準確答案,進而更高效地支撐更廣泛的應用場景。10/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 3、工具:懂得使用工具才會更像人類工具:懂得使用工具才會更像人類 AI Agent 與大模型的一大區別在于能夠使
23、用外部工具拓展模型能力。與大模型的一大區別在于能夠使用外部工具拓展模型能力。懂得使用工具是人類最顯著和最獨特的地方,同樣地,也可以為大模型配備外部工具來讓模型完成原本無法完成的工作。ChatGPT的一大缺點在于,其訓練數據只截止到了 2021 年底,對于更新一些的知識內容它無法直接做出回答。雖然后續 OpenAI 為 ChatGPT更新了插件功能,能夠調用瀏覽器插件來訪問最新的信息,但是需要用戶來針對問題指定是否需要使用插件,無法做到完全自然的回答。AI Agent 則具備了自主調用工具的能力,在獲取到每一步子任務的工作后,Agent 都會判斷是否需要通過調用外部工具來完成該子任務,并在完成后
24、獲取該外部工具返回的信息提供給 LLM,進行下一步子任務的工作。OpenAI 也在 6月為 GPT-4和 GPT-3.5 更新了函數調用的功能,開發者現在可以向這兩個大模型描述函數,并讓模型智能地選擇輸出包含調用這些函數的參數的 JSON 對象。這是一種更可靠地將 GPT的功能與外部工具和 API 相連的新方法,允許開發者更可靠地從模型中獲得結構化的數據,為 AI 開發者提供了方便。當下,使用工具的范例當下,使用工具的范例 AI Agent 之一為之一為 HuggingGPT。HuggingGPT 將模型社區 HuggingFace 和ChatGPT 連接在一起,形成了一個 AI Agent。
25、2023 年 4 月,浙江大學和微軟聯合團隊發布了HuggingGPT,它可以連接不同的 AI 模型,以解決用戶提出的任務。HuggingGPT 融合了 HuggingFace中成百上千的模型和 GPT,可以解決 24 種任務,包括文本分類、對象檢測、語義分割、圖像生成、問答、文本語音轉換和文本視頻轉換。具體步驟分為四步:1)任務規劃:使用 ChatGPT來獲取用戶請求;2)模型選擇:根據 HuggingFace 中的函數描述選擇模型,并用選中的模型執行 AI 任務;3)任務執行:使用第 2 步選擇的模型執行的任務,總結成回答返回給 ChatGPT;4)回答生成:使用 ChatGPT融合所有模
26、型的推理,生成回答返回給用戶。11/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 三三、自主智能體:自動化,新一輪生產力革命自主智能體:自動化,新一輪生產力革命 1、軟件新范式,非大模型玩家亦有機會軟件新范式,非大模型玩家亦有機會 自主智能體,力圖實現復雜流程自動化。自主智能體,力圖實現復雜流程自動化。真格基金管理合伙人戴雨森將 AI 和人類協作的程度類比為自動駕駛的不同階段,AI Agent 約為自動駕駛的 L4階段,Agent 完成任務,人進行外部輔助和監督。自主智能體有望帶來軟件行業交互方式和商業模式變革:交互方式變革:自主智能體有望帶來軟件行業交互方式
27、和商業模式變革:交互方式變革:相比過去的 APP/軟件,從人適應應用變成應用適應人,Agent 的決策/規劃/執行等環節需要更深的用戶需求理解以及更強的工程細節打磨。如目前 Agent 運行中常常遇見無休止的擴展、誤解輸出格式等問題,這類問題不單單依靠大模型能力提升,對 Agent 架構的設計和垂類數據的學習也有要求。商業模式變革:商業模式變革:按服務內容收費轉換成按 token 收費,對 Agent 功能實用性要求更高?;竽P湍芰倘恢匾?,但其只能解決下限問題,在實際企業應用場景中自主智能體的架構設計、工基座大模型能力固然重要,但其只能解決下限問題,在實際企業應用場景中自主智能體的架構設
28、計、工程能力、垂類數據質量等也至關重要,垂類程能力、垂類數據質量等也至關重要,垂類/中間件玩家亦有機會。中間件玩家亦有機會。準確度和效率是自主智能體重要指標(決策式 AI 更擅長做的事,也意味著更低的容錯度),企業對于低門檻定制 AGENT 也存在需求,專注具體領域/提供 AGENT 框架的玩家仍有可為。12/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 2、實驗性實驗性 VS 實操性,單智能體實操性,單智能體 VS 多智能體多智能體 目前行業內對自主智能體的探索主要分為四大類:實驗性項目實驗性項目 VS 實操性應用:實操性應用:前者雖然實際運行中出錯概率高,
29、但其創意、思路和開發經驗對開發者仍有不少啟發和貢獻,如掀起這一波 AGENT 開發熱潮的 AutoGPT。實操性應用更加強調與實際場景的適配。單智能體單智能體 VS 多智能體:多智能體:單智能體相對更適用于較簡單的任務(如比價等),在 C端應用上有一定潛力(如 chatgpt+插件、adeptai 等);但其在 B 端場景上略顯乏力,由于缺乏完整性評估、任務隊列過長、大模型幻覺等原因,基本無法完成較為復雜的工作(如軟件開發等),多智能體優勢相對更加突出(如metagpt、chatdev等)。(1)單智能體單智能體 1:實驗性項目:實驗性項目 1)AutoGPT AutoGPT 是 2023 年
30、 3 月開源的第一款 AI AGENT 實驗性項目,由游戲開發者 Toran Bruce Richards開發。AutoGPT 可根據用戶給定的目標,自動生成所需提示,并利用 GPT4 和各種工具 API 執行多步驟的項目,無需人類的干預和指導。上線 5 個月在 github 上的 STAR 數量已超過 149K,具有一定代表性,對后來各種 AGENT 發展具有啟發意義。使用多個外部工具:使用多個外部工具:1)能克隆 github 倉庫、啟動其他 agent、發言、發送推文和生成圖片,支持所有矢量數據庫和 LLM 提供商/文本到圖片模型/瀏覽器。2)通過集成 Pinecone 數據庫,它可進行
31、長期內存存儲,從而保存上下文并基于此進行決策改進。3)通過 python 內部 List 結構,保存 text 文本,每次會獲取最近一次的歷史信息。應用場景偏向于辦公應用場景偏向于辦公/開發類開發類(自動化流程工作流、進行深入市場研究、寫代碼/程序、開發網站或APP),但實操效果一般,容易陷入死循環。但實操效果一般,容易陷入死循環。13/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 2)代碼開發類代碼開發類GPTEngineer GPT Engineer 是主要作者 Anton Osika 在 6 月 11 日推出的開源代碼生成工具,基于 GPT模型,能根據用
32、戶的指示和需求生成高質量的代碼,功能包括創建新函數、修復現有代碼錯誤等等,支持多種編程語言。截至 2023 年 9 月,github 星星數量接近 44k。亮點一:可定制性。亮點一:可定制性。用戶可根據自己的編碼風格、項目需求和編程習慣進行設置,讓 GPT Engineer 生成符合自身要求的代碼。亮點二:上下文感知。亮點二:上下文感知??衫斫獯a上下文,并生成與之相適應的代碼片段,用戶無需為適應其生成方式而做出額外調整,從而提高工作效率。不足:1)無法進行迭代,在創建完應用程序后不能要求它更改任何內容。2)構建復雜的代碼時仍需要一些編碼經驗。3)科研類科研類GPT Researcher GP
33、T Researcher 是哥倫比亞大學研究團隊推出的 AI Agent 項目,專門用于網絡科研任務,能夠生成詳盡、精確且客觀的研究報告。已在 github 上開源,截至 2023 年 9 月 github 星星數量超過 4k。GPT Researcher 首先生成一系列研究問題,然后觸發網絡爬蟲 Agent 從在線資源中搜集與任務相關的信息。每個獲取的資源都會進行總結,并追蹤其來源。最終,所有的資源都會被篩選、匯總,形成一份完整的研究報告。主要優勢在于能夠快速地完成研究任務。14/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 4)創作類創作類ShortGPT
34、 ShortGPT 可實現自動編輯框架;編輯腳本和提示;創建配音/內容;生成字幕;從互聯網上獲取圖像和視頻片段,并根據需要與網絡和 Pexels API 連接;確保使用 TinyDB 自動編輯變量的長期持久性等。(2)單智能體單智能體 2:實現交互變革:實現交互變革,中心化應用,中心化應用 1)功能升級后的功能升級后的ChatGPT 插件:插件:3月份在 ChatGPT plus版本 GPT4 模型中增加的功能,截至 9 月插件近 900 個,覆蓋辦公、編程、搜索、購物、本地生活等多個領域,但受限于 chatgpt 輸入 token 長度的限制,每次最多啟動 3 個插件。插件功能有效拓展了 c
35、hatgpt 適用領域,其中聯網插件改善了大模型幻覺和數據過時等問題,但chatgpt 目前只提供信息參考,還無法直接替用戶轉到相關應用中進行操作。高級數據分析:高級數據分析:7 月份 openai 向 ChatGPT plus所有用戶開放“代碼解釋器”功能(現“高級數據分析”功能,與插件功能平行),能編寫和執行 python代碼并能處理文件上傳。高級數據分析功能提高了chatgpt 處理復雜任務的能力以及數學推理這類回答的準確度。自定義指令功能。自定義指令功能。7-8 月向所有 chatgpt 用戶推出,用戶可以預設自己的身份以及期望機器人在回復中所需要遵守的指令。如軟件程序員可要求 Cha
36、tGPT 用指定的語言回答問題,且無需解釋。該功能進一步提高 chatgpt 個性化水平,改善大模型容易遺忘前期信息的問題。15/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 多模態輸入:多模態輸入:9 月 OpenAI 宣布即將開始在 ChatGPT中推出新的語音和圖像功能,允許用戶進行語音對話,或向 ChatGPT 輸入圖像。OpenAI 將在 ChatGPT中向 Plus 和 Enterprise 用戶推出語音和圖像。多模態輸入將進一步降低 chatgpt 的使用門檻,擴大其使用范圍,向“個人助理”的方向更進一步。企業版本:企業版本:提供無限速的 GPT
37、-4 訪問權限;支持 32K 上下文輸入;高級數據分析功能(代碼解釋器),自定義選項等。Openai 在 B 端應用和商業化有望加速。2)adept AI AI 初創公司 Adept 在 22 年 9 月發布大型行動模型 ACT-1,ACT-1 以桌面對話框形式存在,用戶與網頁的交互方式從過去的鼠標/鍵盤改變為自然語言。用戶可在電腦隨時調用,在文本框中輸入命令,ACT-1會一步步自動完成操作,在需要時可以跨多個工具進行協調,用戶反饋后也可即時修改錯誤。使用示例:使用示例:在 google sheet 中創建上一季度損益欄、在“22 年”列更新收入總值、增加一列展示平均支出;在 salesfor
38、ce 中添加某產品為新產品、添加某人為新聯系人、設置提醒在某個時間點給某人發郵件;在某交易平臺上幫找適合的商品 (3)單智能體單智能體 3:實現交互變革,可定制、平臺化:實現交互變革,可定制、平臺化 1)Cortex Cortex 是 Kinesys AI 發布的產品,可在用戶自己數據上構建 AI Co-pilot,使團隊能夠使用自己私有數據源構建定制的 AI 助手,按使用量計費。Cortex 可將 GPT4等多個不同大模型組合使用,且為了讓專一領域大模型更實用,Cortex 會采取調用向量數據、實時聯網搜索、調用指定 API 等方式。在同一公司內部,同一份原始信息 Cortex 能獲取每個人
39、崗位所需要關鍵點,以特定格式輸出,即根據業務部門的不同而“千人千面”。16/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 客戶群體:客戶群體:適用于個人開發者和早期初創企業,幫助他們大大減少從調試開始的工作量。目前有 10 多家付費用戶和上千個人用戶。案例:某網紅 SaaS 公司使用 Cortex,讓網紅們以特定的人設和粉絲們聊天。2)MindOS MindOS 是心識宇宙發布的多功能的 AI Agent 引擎和平臺,用戶可在 3 分鐘內開發具有獨特記憶、個性和專業知識的可定制 agent“Genius”,提供超過 1000 個帶有性格、功能的預置 Geniu
40、s,準確推斷意圖的準確率達到 97%。目前平臺已提供 Marketplace(分享和發現 Genius)、Workflow(支持用戶僅通過拖放和簡單的配置來構建 Genius)、Structured Memory(從對話中沉淀結構化信息),未來還會拓增包括 Deep Thinking(深度思考)、Self Learning(自主學習)和 Teamwork(團隊協作)等板塊。商業化方案:增值服務,平臺增量價值定價在 9.99 美元/月。MindOS 試用:顯示思維鏈和相關鏈接,回答信息豐富。17/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 (4)多智能體多智能
41、體:AGENT 團隊完成復雜開發仸務團隊完成復雜開發仸務 1)MetaGPT MetaGPT 是 7 月深度賦智開源的多智能體框架,快速幫助用戶搭建屬于自己的虛擬公司,虛擬公司中的員工都是智能體,如軟件公司中的工程師、產品經理、架構師和項目經理,用戶只需輸入簡短的需求,MetaGPT就能輸出整個軟件公司的工作流程和詳細的 SOP,如創造故事、競品分析等??蚣芊譃榛A組件層和協作層。(框架分為基礎組件層和協作層。(1)基礎組件層建立單個)基礎組件層建立單個 AGENT 操作和全系統信息交換所需的核心操作和全系統信息交換所需的核心構件,構件,其中環境可實現共享工作空間和通信;記憶用于存儲和檢索歷史
42、信息;角色封裝特定領域的技能和工作流程;工具提供通用服務和實用程序。(2)協作層建立在基礎組件層之上,協調單個協調單個 AGENT協同解決復雜問題,協同解決復雜問題,建立了重要的合作機制知識共享和封裝工作流。知識共享允許 AGENT 交換信息,存儲、檢索和共享不同粒度的數據;封裝工作流程利用 SOP 將復雜任務分解為更小、更易于管理的組件,將這些子任務分配給合適 AGENT,并通過標準化輸出監督他們的表現,確保他們的行動符合總體目標。橫向對比,橫向對比,MetaGPT 的實操價值更高。的實操價值更高。在 github 開源 2 個月 STAR 數量已超過 24K。對比大模型:對比大模型:根據實
43、驗結果,基于 GPT4-32k、使用 4 個 AGENT(工程師+產品經理+架構師+項目經理)的MetaGPT在開源數據集 MBPP 和 HumanEval 上的單次嘗試通過率好于其他代碼生成 LLM(包括GPT4、CODEX 等)。對比其他對比其他 AGENT:MetaGPT的獨特之處在于它能生成產品需求文檔和技術設計,從而展示其項目執行的整體方法,在游戲、網絡開發和數據分析等各種場景下有更強的通用性。根據實驗結果,MetaGPT 在為項目執行提供更全面、更強大的解決方案方面優于 AutoGPT、Agentverse、LangChainw/Python REPL tool 等同類產品。18/
44、34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 低成本低門檻開發簡易軟件項目。低成本低門檻開發簡易軟件項目。在實驗的 7 個任務(包括 Python 游戲生成、CRUD 代碼生成和簡單數據分析)中,每個項目平均消耗 26.6ktoken 用于 prompt,任務完成后消耗 6.2ktoken,總成本 1.09美元,耗時 8-9 分鐘,時間和財務支出不到傳統軟件工程開發的千分之一。不足:不足:MetaGPT 偶爾會引用不存在的資源文件,在執行復雜任務時容易調用未定義或未導入的類或變量。這些現象普遍歸因于大型語言模型固有的幻覺傾向,可以通過更清晰、更高效的 AGEN
45、T 協作工作流程來處理。2)ChatDev ChatDev 是清華大學 NLP 實驗室孫茂松教授指導,聯合面壁智能、北京郵電大學、布朗大學研究人員共同發布的、大模型驅動的全流程自動化軟件開發框架,可以理解為對話驅動的虛擬軟件開發公司,在人類“用戶”指定一個具體任務需求后,不同角色智能體將進行交互式協同,以生產一個完整軟件(包括源代碼、環境依賴說明書、用戶手冊等)。模型方面,接入 gpt3.5-turbo-16k 版本的 ChatGPT API,在 Camel 指令跟隨對話數據集中隨機挑選了70 個任務,作為 CHATDEV 軟件開發的分析基礎。驅動智能體對話的驅動智能體對話的 3 個關鍵機制個
46、關鍵機制:1)角色專業化:角色專業化:通過角色扮演機制確保每個智能體各司其職,在指定的專業角色下完成相應的方案提議和決策討論。2)記憶流:記憶流:保存每輪對話記錄,供各個智能體隨時翻閱,確保思路的連貫性。2)自反思:自反思:智能體完成各自工作但沒有達到要求時,生成一個偽我,將問題和有關對話向 instructor 進行反饋。19/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 CHATDEV 為軟件開發提供了一種無需培訓、高效且具有成本效益的新范式。為軟件開發提供了一種無需培訓、高效且具有成本效益的新范式。CHATDEV 軟件平均生產時間不到 7分鐘(傳統定制軟
47、件開發周期,即使使用敏捷軟件開發方法每個周期通常也需要 2-4 周甚至幾個月時間),制造成本不到 0.3 美元,在提高制作效率的同時成本也大大低于傳統定制軟件開發公司的費用。提供具體提供具體/特定說明更有利于發揮特定說明更有利于發揮 CHATDEV 功能,目前技術更適用于中小軟件。功能,目前技術更適用于中小軟件。1)當用戶指定一個不太具體的任務時,CHATDEV 生成的源代碼往往更短(不具體任務代碼平均值 110.97 行 VS 總體平均值 131.61 行)。為充分發揮 CHATDEV 作用,研發團隊建議向 CHATDEV 提供特定說明(如所需的軟件功能系統規則、UI 設計和其他詳細規范等)
48、,通過提供更清晰、更具體的說明,用戶可以指導CHATDEV 生成符合其特定要求的更全面和量身定制的代碼。2)因為 AGENT 自主決定具體實現細節的能力有限,會導致多輪冗長的討論;且大規模軟件開發對審查人員和測試人員都具有挑戰性,因為很難在給定的時間限制內找出缺陷或漏洞。因此目前 CHATDEV 更多對初級程序員或工程師有用,要為高級或大型軟件需求生成完美源代碼仍具有挑戰性。潛在風險和限制:潛在風險和限制:1)大模型固有的隨機性使得軟件生產過程具有一定的不確定性。2)設計師對 GUI進行圖像創作的過程,對各個圖像素材均獨立生成的,因此可能會 GUI 配圖不自然;3)大模型可能會表現出固有偏差,
49、導致生成的代碼模式不一定符合實際程序員解決問題的思路。3)Showrunner 7 月份,艾美獎得主初創公司 Fable 發布名為 SHOW-1的 Showrunner AI 技術,用其制作出一集完全用AI 拍攝的南方公園。通過自然語言給不同智能體分配各自目標,人類導演只需給出一個高層次的構思提示(標題、概要、事件),AI 智能體會開始自導自演。不同 AI 智能體擔任不同的角色,有獨 20/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 特的背景故事、個性和動機,如演員、導演、剪輯等,彼此分工合作,互相配合,最終完成整部影片的制作。底層模型:底層模型:基于兩個在
50、南方公園數據集(約 1200 個角色和 600 張場景)上訓練的自定義擴散模型,可以生成新角色和新場景;一個超分辨率模型(R-ESRGAN-4x+-Anime6B)可以將場景放大;語音克隆 AI 可給角色即時配音。記記憶能力:憶能力:在多智能體無梯度架構驅動下,每個角色的完整經歷都會被存儲為自然語言。隨著時間的推移,這些記憶會被合成更高層次的反射,隨時動態檢索,來實時計劃每個角色的行為。模擬創造性思維:模擬創造性思維:模擬產生的數據為撰寫初始提示的用戶和與 LLM 進行提示鏈交互的生成故事系統提供創新基礎。其中,提示鏈通過向語言模型提供一系列相關的提示,來模擬持續的思維過程。如,它可以在每一步
51、中扮演不同的角色,對前一個提示和生成的結果進行判別。四、四、智能體模擬:擬人化,新的精神消費品智能體模擬:擬人化,新的精神消費品 1、陪伴類,提供情緒價值陪伴類,提供情緒價值 陪伴類智能體強調情感情商等人類特征,具有陪伴類智能體強調情感情商等人類特征,具有“人格人格”,且能夠記住與用戶的歷史交流。,且能夠記住與用戶的歷史交流。(1)LLM在自然語言理解能力上的重要突破使陪伴類智能體在技術上成為可能,(2)GPT4 在情商上顯著高于以往其他大模型,隨著大模型情商迭代、多模態技術發展,有望出現更加立體擬人可信、能夠提供較高情緒價值的陪伴智能體。目前國內情緒消費市場仍有較大想象空間(社會婚姻觀念轉變
52、、現代工作生活節奏緊張下,國民孤獨感增加),陪伴類智能體或受益于情緒消費趨勢紅利,成為 LLM 時代重要的 AI 原生應用。從用戶陪伴性需求的第一性原理出發,預計陪伴類智預計陪伴類智能體大部分商業價值集中在能體大部分商業價值集中在 IP 上,上,基于此當前具備豐富 IP 儲備或者能讓用戶定制智能體的玩家前景廣闊:1)參考人的陪伴:)參考人的陪伴:陌生人社交和秀場直播屬于線上陪伴代表性應用,前者核心問題在于用戶間建立一定情感聯系后會轉到最常用的社交平臺,后者用戶價值會逐漸集中到頭部主播,而非平臺。2)參考物的陪伴:)參考物的陪伴:潮玩等消費品有一定的陪伴屬性,受眾大部分支出花在自己喜歡的 IP。
53、(1)InflectionAI:高情商個人:高情商個人 AIPi 21/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 Inflection AI 推出主打情感陪伴的個人推出主打情感陪伴的個人 AIPi。Inflection AI 是一家成立于 2022 年的人工智能初創公司,目前公司的估值已經突破 40億美元,在人工智能領域僅次于 OpenAI。在 2023 年 5 月,公司推出了旗下的個人 AI 產品 Pi。與 ChatGPT 不同,Pi 從未以專業性與替代人工作為宣傳。它不能寫代碼,也不能幫我們生產原創內容,與時下流行的通用聊天機器人相反,Pi 只能進行友
54、好的對話,提供簡潔的建議,甚至只是傾聽。它的主要特征是富有同情心、謙虛好奇、幽默創新,具有良好的情商,可以根據用戶的獨特興趣和需求提供無限的知識與陪伴。Inflection 自開發 Pi 開始,就確定了 Pi 將作為個人智能(Personal Intelligence),而不僅僅是輔助人工作的工具。Pi 的核心是公司研發的的核心是公司研發的 Inflection-1 大模型,性能媲美大模型,性能媲美 GPT-3.5。Inflection-1 是 Inflection AI 推出的大模型,根據公司的評估測試,Inflection-1在多任務語言理解、常識問題等多項測試中的性能都略勝于 GPT-3
55、.5、LLaMA 等常用的大模型,但在代碼能力上要落后于 GPT-3.5。不過這是公司的差異化競爭所在,Pi 作為一個以情感陪伴為主的 Agent 并不需要擁有很強的代碼和輔助工作能力。和輔助工和輔助工作的作的 Agent 不同,不同,Pi 能夠滿足更多的情感陪伴需求。能夠滿足更多的情感陪伴需求。作為一個具有高情商的 AI Agent,Pi 能夠以更加日常和生活化的語言和用戶進行交流,而不是以一個冰冷的工作 AI 的口吻。Pi 的回復非常貼近生活,語氣十分得體,而它對你當下狀態和事態發展的關心就像心理醫生或者你最好的朋友。當 Pi在回復可能帶有負面情緒的問題時,它也會避免使用任何俏皮的表情或者
56、輕快的口吻去冒犯用戶。它甚至會在回復中使用 emoji,讓用戶覺得更像是和真正的人類在進行對話一樣。Pi 還能夠記住與用戶的對話內容,并隨著時間的推移而更加了解用戶。Pi 的出現,彌補了傳統型人工智能對人類情緒欲望的忽視。能夠認為,類似于 Pi 這樣能夠提供情緒價值的個人 AI Agent 存在著較大的市場空間。(2)平臺化娛樂化,如平臺化娛樂化,如 Character.AI、Glow 等等 22/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 Character.AI:創立于 2021 年 10 月,創始團隊是來自 Google Brain 和 Meta AI
57、 的深度學習、大型語言模型和對話領域的專家。2022 年 9 月推出 Beta 版產品,采用了 GPT-3大模型,并用大量的書籍、電影和其他媒體中的虛構人物數據進行訓練,使聊天機器人能夠根據人物的個性和特征生成對話和文本響應。用戶可以在其平臺上創建 AI 機器人并與之聊天。根據根據 Character.AI 官方披露信息,官方披露信息,Beta 版本推版本推出出 2 個月后,每天生成個月后,每天生成 10 億個單詞,截至億個單詞,截至 2022 年年 12 月,用戶已創建超月,用戶已創建超 35 萬個機器人,涵蓋信息萬個機器人,涵蓋信息檢索、檢索、教練、教育、娛樂等領域。其他類似產品:Repl
58、ika、Glow 等。2、重交互,提高用戶體驗重交互,提高用戶體驗 交互智能體:強調與環境交互的能力,智能體與智能體交互智能體:強調與環境交互的能力,智能體與智能體/虛擬世界內事物之間可互動,可能涌現出超越虛擬世界內事物之間可互動,可能涌現出超越設計者規劃的場景和能力,大模型不確定性反而成為優勢,有望成為設計者規劃的場景和能力,大模型不確定性反而成為優勢,有望成為 AIGC 重要部分。重要部分。特別是對開放世界游戲等行業,創建可信 agent(大部分為可信 NPC)的目的是提供一種生命的幻覺,做出決策并按自己的意愿行事,從而呈現出一種真實感,可增強玩家沉浸感,解決開放世界內容消耗快的問題;可信
59、agent 技術成熟后可能會孵化出新的游戲品類。23/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 (1)單智能體:游戲世界單智能體:游戲世界 AI 玩家,如玩家,如 Voyager Voyager 是第一個大模型驅動,可以終身學習的游戲智能體。是第一個大模型驅動,可以終身學習的游戲智能體。2023 年 5 月,英偉達開源了 Voyager 這一游戲智能體。英偉達將 Voyager 用在了我的世界這款游戲中,我的世界沒有強加一個預定的最終目標或固定的故事情節,而是提供了一個具有無限可能性的獨特游樂場。一個高效的終身學習Agent 應該具有與人類玩家類似的能力,
60、能夠根據當前技能水平和世界狀態發現合適的任務,能夠根據反饋學習和完善技能,不斷探索世界。英偉達采用了“無梯度”的 Agent 訓練方法,基于 GPT-4的Voyager 在游戲里表現優異,獲得的獨特物品增加了 3.3 倍,行進距離增加了 2.3 倍,解鎖關鍵科技樹里程碑的速度比之前的方法快了 15.3 倍。Voyager 由自動課程、技能庫和迭代由自動課程、技能庫和迭代 prompt 機制三個新型組件構成。機制三個新型組件構成。Voyager 的架構與第二章提到的 AI Agent 基本組件相差較大:自動課程用于提出開放式的探索目標,該課程是由 GPT-4 根據“盡可能多發現不同的東西”的總體
61、目標生成的,會根據探索進度和 Agent 狀態使得探索實現最大化;技能庫用于開發越來越復雜的行為,通過存儲有助于成功解決某個任務的行動程序,Voyager 逐步建立起一個技能庫,未來可以在類似情況下進行檢索。這些技能是用可執行的代碼來表示的,復雜的技能則可以通過組成更簡單的程序來合成。這種做法可以讓 Voyager 的能力隨著時間的推移迅速增強,并緩解“災難性遺忘”問題;迭代 prompt 機制引入了環境反饋、執行錯誤和檢查任務是否成功的自我驗證三種類型的反饋,根據這些反饋,GPT-4可以自己去迭代更新 prompt,直到生成的 prompt 足以去完成當前任務。24/34 2023年年 12
62、月月 11 日日 行業行業|深度深度|研究報告研究報告 Voyager 的性能顯著強于別的的性能顯著強于別的 Agent 框架,但成本也高居不下??蚣?,但成本也高居不下。英偉達的研究者們系統對比了Voyager 和別的 Agent 框架的的探索性能、科技樹的掌握情況、地圖覆蓋率等指標,Voyager 的性能具備顯著優勢。和別的 Agent 框架相比,Voyager 解鎖科技樹(木制工具石制工具鐵制工具鉆石工具)的速度最快,且是唯一能夠解鎖鉆石等級科技樹的模型。Voyager 的探索地圖范圍也是別的 Agent框架的 2.3 倍,發現新知識的能力大大增強。雖然 Voyager 具備強大的性能,但
63、是其成本開銷也是巨大的,由于 Voyager 需要使用 GPT-4 強大的代碼生成能力,導致其成本無法降下來。同時大模型的“幻覺”問題仍然存在,比如自動課程會提出一些無法完成的任務等。但即便如此,眾多業界學者仍認為Voyager 是 AI Agent 領域的一大突破進展,離真正的 AGI 又更近了一步。(2)多智能體:多智能體:Smallville 小鎮、網易逆水寒手游、昆侖萬維小鎮、網易逆水寒手游、昆侖萬維ClubKoala虛虛擬世界擬世界 1)多智能體:多智能體:Smallville小鎮,類西部世界的模擬社會小鎮,類西部世界的模擬社會 斯坦福西部世界小鎮首次創造了多個智能體生活的虛擬環境。
64、斯坦福西部世界小鎮首次創造了多個智能體生活的虛擬環境。2023 年 4 月,斯坦福大學的研究者們發表了名為Generative Agents:Interactive Simulacra of Human Behavior的論文,展示了一個由生成代理(Generative Agents)組成的虛擬西部小鎮。這是一個交互式的沙盒環境,在小鎮上,生活著 25個可以模擬人類行為的生成式 AI Agent。它們會在公園里散步,在咖啡館喝咖啡,和同事分享當天的新聞。甚至一個智能體想舉辦情人節派對,這些智能體在接下來的兩天里,會自動傳播派對邀請的消息,25/34 2023年年 12月月 11 日日 行業行業
65、|深度深度|研究報告研究報告 結識新朋友,互相約對方一起去派對,還會彼此協調時間,在正確的時間一起出現在派對上。這種Agent 具有類似人的特質、獨立決策和長期記憶等功能,它們更接近于“原生 AI Agent”。在這種合作模式下,Agent 不僅僅是為人類服務的工具,它們也能夠在數字世界中與其他 Agent 建立社交關系。記憶流是西部世界小鎮中記憶流是西部世界小鎮中 AI Agents 的架構核心。的架構核心。小鎮中的 Agents 包含三大重要的基本要素:記憶、反思和規劃,相比前文提到的幾個核心組件略有調整。這三大基本要素都基于一個核心:記憶流(MemoryStream),記憶流存儲了 Ag
66、ent 的所有經歷記錄,是一個包含了多個觀察的列表,每個觀察都包含了事件描述、創建時間以及最近一次訪問的時間戳,觀察可以是 Agent 自己的行為或從其他人那里感知到的行為。為了檢索最重要的記憶以傳遞給語言模型,研究者確定了檢索過程中需要考慮的三個因素:最近性、重要性和相關性。通過確定每條記憶基于這三個因素的分數,最后加總起來得到權重最高的記憶,作為 prompt 的一部分傳遞給大模型,以此來決定 Agent 的下一步動作。反思和規劃都是基于記憶流中的觀察來進行更新與創建的。2)網易逆水寒手游,網易逆水寒手游,AINPC提高玩家體驗提高玩家體驗 2023 年 6 月 30 日,網易重磅 MMO
67、新游逆水寒手游上線,首日即登頂 iOS 游戲免費榜,截至 7 月3 日凌晨,仍高居榜首;iOS 游戲暢銷榜排名于公測當天晚(6 月 30日晚)躍升至第 3 名,于 7 月 1 日晚躍升至第 2 名。逆水寒手游中投放了百位 AINPC,不僅能和玩家對答如流,而且擁有了記憶,大大增加了游戲樂趣,同時 NPC 提供的探索劇情,也讓游戲內容更為豐富。通過與 NPC 互動,玩家可以了解這個世界,探聽到 26/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 很多奇聞,了解一些 boss 的弱點(比如通過 NPC 對話,了解到高衙內的打手怕水,在打斗中將其推進水中可以取得巧勝
68、),甚至通過 NPC 的關系網,玩家可以巧解難題。3)昆侖萬維昆侖萬維ClubKoala虛擬世界更可信虛擬世界更可信 產品特色AI NPC,讓虛擬世界更真實。使用 Play for Fun 的 Atom AI 系統,每個 AI NPC都將有自己的性格特征、行為模式,會自主制定日程并執行,并會影響其他 NPC 的關系和發展。同時加入記憶系統后,AI NPC能夠記住與玩家的互動,同時可以根據玩家的行為,并調整自己的行為,發展“自我意識”,進行自然而真實的動作和對話。玩家與AI NPC 的互動將被 NPC 記住,同時 NPC 將分析玩家行為模式和偏好,并反映在后續與玩家的互動中,以建立起玩家與 NP
69、C 之間真正的紐帶。未來玩家甚至可以定制自己的專屬 NPC。五五、AI Agent 應用應用領域領域 1、AI Agent 有望多個領域實現落地應用有望多個領域實現落地應用 AI Agent 是釋放是釋放 LLM 潛能的關鍵,潛能的關鍵,Agent 和人的合作將越來越多。和人的合作將越來越多。當前像 GPT-4這樣的大模型具備很強的能力,但是其性能的發揮卻主要依賴于用戶寫的 prompt 是否足夠合適。AI Agent 則將用戶從prompt 工程中解放出來,僅需提供任務目標,以大模型作為核心的 AI Agent 就能夠為大模型提供行動能力,去完成目標。得益于 LLM 能力邊界的不斷發展,AI
70、 Agent 展現出了豐富的功能性,雖然目前Agent 還只能完成一些比較簡單的任務,但隨著 Agent 研究的不斷發展,Agent 和人類的合作將越來越 27/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 多,人類的合作網絡也將升級為一個人類與 AI Agent 的自動化合作體系,人類社會的生產結構將會出現變革。AI Agent 有望多個領域實現落地應用,有的已經出現好用的有望多個領域實現落地應用,有的已經出現好用的 demo 產品。產品。AI Agent 已經在各個領域得到了初步的應用和發展,未來將有望成為 AI 應用層的基本架構,包括 toC、toB 產
71、品等。28/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 2、2B+垂類垂類 Agent 認知正在形成,有望率先落地認知正在形成,有望率先落地 2B 和垂直領域仍是和垂直領域仍是 AI Agents 容易率先落地的方向。容易率先落地的方向。由于 Agent 對環境反饋的依賴性較強,具備顯著特點的企業環境是更加適合 Agent 建立起對某一個垂直領域認知的場景。傳統的企業與 AI 結合應用更多的是在流程任務自動化,通過定義規則來提升一線員工的工作效率。而 Agent 則能夠更進一步地提升一線員工的工作質量,通過將企業在私域業務上的知識與經驗傳授給 Agent,讓
72、 Agent 能夠成為該領域一個虛擬的“專家”智能體,去指導和幫助經驗較為匱乏的一線員工,在讓一線員工的工作質量大幅提升的同時,也能讓一線員工快速成長起來。并且從時間上來看,一個經驗豐富的高級員工是需要很長時間的培養的,而通過訓練得到的垂類 Agent 是很容易實現低成本規?;瘡椭频?。理想狀態下,企業能夠實現給每一位一線員工都配備一位甚至多位垂類 Agent 來輔助工作,員工的單位生產力將會有大幅提升。大模型時代的到來加速了 AI 技術的平民化,能夠認為,隨著科技水平的不斷發展,未來 5-10 年間 AI智能的成本將會快速降低,企業為每一位員工搭配 Agent 的愿景將有望實現。用戶對用戶對
73、Agent 的認知正在形成,初創企業正在卡位。的認知正在形成,初創企業正在卡位。當前關于 AI Agent 的研究主要還是以學術界和開發者為主,商業化產品極少,Agent 的未來產品形態如何仍未有定論。但是用戶對于 Agent 的關注度正在提升,Agent 對于效率提升的認知正在形成,可能未來幾年間就會涌現出大量以 Agent 作為核心的產品應用到各行各業。六六、相關相關公司公司 大模型賦能讓進一步智能化的大模型賦能讓進一步智能化的 AI Agent 成為可能成為可能。具備底層大模型算法技術的公司以及相關的應用軟具備底層大模型算法技術的公司以及相關的應用軟件公司有望基于件公司有望基于 AI A
74、gent 實現應用的落地。實現應用的落地。1、OpenAI:OpenAIGPTs 展現展現 AI Agent 初級形態初級形態 GPTs+Assistants API 為用戶提供自定義 AI Agent 的初級形態。用戶可通過自然語言構建專屬 GPT,可接受用戶專有知識,并通過 API 調用外部能力,使人人都有可能擁有自己的人工智能助理。GPTs:人人都能擁有自定義:人人都能擁有自定義 GPT,簡單工具降低開發門檻,簡單工具降低開發門檻,GPT 應用生態快速發展。應用生態快速發展。11 月 7 日,OpenAI 于首屆開發者大會上推出了自定義 GPT功能,并命名為 GPTs,可添加知識、操作和
75、說明,并發布以供其他人使用。自定義的 GPT 發布后,用戶可以選擇私有、專屬以及公開三種方式發布應用。企業版用戶也可為特定客戶、部門或專有數據集創建自己的 ChatGPT。OpenAI 還推出了 GPT Builder,專門用于以自然語言交互的方式為用戶創建自定義的 GPT。GPT Builder 大幅降低了開發門檻,從供給端打開 GPT 相關應用空間。根據 GPTs Hunter,目前已有超 3 萬個 GPTs 被平臺收入,GPT應用生態快速發展中。Assistants API:全面的:全面的 API 開發助手。開發助手。OpenAI 還面向開發者推出了全新的 Assistants API,
76、是OpenAI 專門設計的用于幫助開發者在自己的程序中構建 Agent 的工具。Assistants API 提供了“代碼解釋器(Code interpreter)”、“檢索(Retrieval)”“函數調用(Function calling)”三項功能,其中:代碼解釋器允許開發者在沙盒中編寫和運行 Python 代碼,生成圖形、圖表并處理不同數據和格式的文件;檢索使得開發者可以利用模型之外的知識來增強助手;函數調用可令助手能夠調用開發者定義的函數,并將函數響應合并到其消息中。29/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 GPT Store:OpenAI
77、 官方應用商店即將上線,官方應用商店即將上線,GPT iPhone 時刻來臨。時刻來臨。OpenAI 未來還將正式推出官方 GPT 商店,主要用于分享用戶構建的自定義 GPTs,開發者可以將自己的 GPTs 提交,經過驗證的GPTs 將會商家 GPT Store 并供用戶下載和使用,以此創造的收入將與 OpenAI 進行分成。GPT Store 是在插件系統基礎上實現的重磅升級,早在今年 5月份 OpenAI 就在插件系統上開放了 70多個插件,功能涵蓋了創建網頁、視頻編輯、數據分析等。根據 Sam Altman,ChatGPT 自推出以來,已有超 200 萬開發者使用 API,超過 92%的
78、財富 500 強公司使用 API,周活躍用戶超 1 億。2、科大訊飛:科大訊飛:訊飛構建星火助手生態訊飛構建星火助手生態 星火插件打造星火插件打造 AI 工具集市。工具集市。訊飛星火插件將第三方生產力工具集成到訊飛星火 SparkDesk 和星火 App中,插件可以幫助大模型即時更新信息,幫助大模型接入互聯網,使大模型的數據集不再滯后。同時,插件也可以拓展模型的應用場景,使其能夠適應更多的場景和需求。插件也可以為企業應用的私有化部署助力,確保內部信息的隱私性與安全性?,F階段,訊飛星火大模型現已接入 8 款插件,內含 PPT 生30/34 2023年年 12月月 11 日日行業行業|深度深度|研
79、究報告研究報告 成、文檔問答、簡歷生成、ProcessOn、智能翻譯、內容運營、AI 面試官、郵件生成多種應用,覆蓋營銷、工具、旅游、購物、教育、招聘等共 18 個主要應用場景。星火助手生態拓展大模型可能。星火助手生態拓展大模型可能。訊飛星火針對不同用戶群體開發不同的 AI 助手,如面向科研人員的星火科研助手、面向學生群體的 AI 心理伙伴、面向軟件行業的智能編程助手 iFlyCode 等。除助手功能外,用戶還可將特定知識、歷史對話等信息發給系統,以定制專屬的 AI 人設“友伴”。截至目前,“訊飛星火”APP 用戶已開發出個性化 AI 助手 3.7 萬多個,目前已上架的 AI 助手約 5000
80、個,用戶也可以自行開發專屬的 AI 助手。31/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 3、昆侖萬維:昆侖發布天工昆侖萬維:昆侖發布天工 SkyAgents 昆侖萬維于昆侖萬維于 12 月月 1 日正式推出基于日正式推出基于“天工大模型天工大模型”的全新平臺的全新平臺“天工天工 SkyAgents”,幫助用戶構建,幫助用戶構建 AI 個個人助理。人助理。該平臺不僅具備自主學習和獨立思考的能力,涵蓋了從感知到決策,再到執行的全方位智能。用戶得以通過自然語言構建屬于自己的個人或多個“私人助理”,實現協同作業,靈活掌控不同部門和業務流程的信息整合與傳遞,為每個
81、個體提供一位智能管理助手。此外,平臺還將各項任務模塊化,采用操作系統的模塊方式,執行任務涵蓋問題預設、指定回復、知識庫創建與檢索、意圖識別、文本提取、HTTP 請求等多個方面。SkyAgents 的使用無需編碼,用戶可以自主定義和配置的使用無需編碼,用戶可以自主定義和配置 AI Agents 的行為,實現簡單高效的搭建過程。的行為,實現簡單高效的搭建過程。昆侖萬維通過可視化設計簡化了開發流程,降低了技術門檻,使得所有開發者都能輕松創建自己的專屬AI。多種多種 AI 能力模塊組件,能力模塊組件,SkyAgents 覆蓋多個應用場景,包括工作、編輯、金融、寫作、助手、翻譯、覆蓋多個應用場景,包括工
82、作、編輯、金融、寫作、助手、翻譯、營銷、生活等。營銷、生活等。除豐富的 Agents 庫以外,用戶還可以建立“我的 Agents”列表。32/34 2023年年 12月月 11 日日 行業行業|深度深度|研究報告研究報告 4、拓爾、拓爾思:思:“拓天大模型拓天大模型”發布,發布,AIGC 業務加速進展及落地業務加速進展及落地 公司深耕 NLP、知識圖譜、OCR、圖像視頻結構化等多模態內容處理底層技術,建立完整多模態人工智能產品體系,為客戶提供文本、音視頻、多模態等全棧服務。AIGC 業務實現營收 782.18 萬元,同比增長 206.02%,主要業務涵蓋消保報告自動寫作、媒體智能輔助寫稿等應用
83、。公司目前正在研發拓天大模型 Agent 技術,重點研發 Agent 的任務規劃、記憶、外部工具使用、多Agent 協同等能力?!巴靥齑竽P汀钡闹饕采w領域包括金融、媒體、政務;公司建立基于各行業的主題數據庫,針對不同行業業務場景,提供大模型+產品,提供包括內容生成、多輪對話、語義理解、跨模態交互、知識型搜索、邏輯推理、安全合規、數學計算、編程能力和插件擴展在內的基礎能力。拓天.M媒體行業目前擁有 1000 億+互聯網媒體資訊數據,100億+官媒數據,200 萬+人民數據,14大類知識標引規范,12000+知識標引規則作為專業訓練數據;并已與傳播大腦簽定戰略合作協議,聯合發布“傳播大模型”;此
84、外,公司已中標人民日報某項目,公司將在落地過程中與用戶共創更多媒體 AIGC 應用。5、彩訊股仹:國產郵箱領軍者,彩訊股仹:國產郵箱領軍者,AI、信創鑄、信創鑄就新機遇就新機遇 國產郵箱領軍者,持續拓展業務邊界國產郵箱領軍者,持續拓展業務邊界。公司成立初期主要從事基礎互聯網業務,2005 年正式上線手機郵箱業務,2009 年手機郵箱產品全面升級為中國移動139 郵箱。隨著互聯網行業發展,公司將業務重心逐步集中到“產業互聯網技術及服務提供商”,專注于幫助企業打造面向消費者的新型產品和渠道。公司目前擁有協同辦公、智慧渠道、云和大數據三大產品線。信創走向常態化,信創郵箱產品力強。信創走向常態化,信創
85、郵箱產品力強。隨著行業信創的深入、應用軟件的成熟,郵箱作為企業重要的協同辦公軟件之一,國產郵箱有望實現對國外郵件系統的替代。公司自主研發的郵箱產品 Richmail 是國33/34 2023年年 12月月 11 日日行業行業|深度深度|研究報告研究報告 內信創郵箱的主力產品,在信創適配能力與數據安全處于行業領先地位。彩訊電子郵件系統已入選中央集采郵箱項目,并獲得諸多政企客戶青睞。大模型奇點時刻,大模型奇點時刻,AI 郵箱助手有望開啟全新成長曲線。郵箱助手有望開啟全新成長曲線。2023 年大模型迎來加速發展期,大模型技術將給多個行業帶來重大模式創新和產業變革機遇,同時也有望演進成為每個人的人工智
86、能助手,深刻地改變人類的生產和生活方式。郵箱是 AIGC 能落地的最優質場景之一,公司較早布局 AI 技術賦能,2023年 5 月發布了下一代智能郵箱 demo 產品具備類秘書的主動服務能力、基于大模型的信息整合處理能力及跨域信息獲取和存儲能力三大核心能力。目前 AI 郵箱助手產品提升日常郵件辦公的效率可達 20%以上。深度受益運營商國資云,云業務增長勢頭強勁。深度受益運營商國資云,云業務增長勢頭強勁。國有企業作為國民經濟的重要支柱,其數據安全關乎根基、關乎民生。推動國企上云成為國企數字化轉型的下一步選擇,“國資云”應運而生。據三大運營商財報顯示,云計算成為拉動增長的主力,2022 年云業務增
87、速均超過 100%。在運營商業務領域,公司深耕移動云,同時成功橫向拓展涵蓋至中國聯通及中國電信。隨著運營商業務的持續突破,公司市場份額有望進一步提高。6、金山辦公:、金山辦公:AIGC+Copilot+Insight 三箭齊發,三箭齊發,AI 全面賦能全面賦能 WPS 八大應用八大應用 金山辦公是國產辦公軟件及服務領軍企業。金山辦公是國產辦公軟件及服務領軍企業。產品涵蓋 WPS Office、金山文檔等辦公套件、面向組織級客戶的數字辦公全家桶 WPS 365 以及智能辦公助手 WPS AI 等。作為具備全球競爭力的高度產品化公司,毛利率常年在 80%以上,保持高強度研發投入且全部費用化。展望未
88、來,WPS AI 與 WPS 365 兩大產品打磨疊加行業信創及辦公軟件數智化趨勢,有望迎來新一輪黃金發展期。金山辦公今年推出金山辦公今年推出 WPS AI,實現,實現 AI+辦公軟件在國內率先落地。辦公軟件在國內率先落地。WPSAI 三層次產品結構包括:1)借助 AIGC 協助用戶生成更高質量的文章;2)Copilot 使辦公軟件理解并響應用戶的各種需求,實現自動操作;3)Insight 提供個性化的知識庫檢索和信息生成。在應用端,WPSAI 已全面賦能 WPS 八大應用,且智能文檔、表格、文字、演示已開啟公測。針對各個場景對 WPSAI 進行了體驗測試:目前在輕文檔及文字內部的文本生成功能
89、已比較成熟;表格端可實現 sumif、averageif 等公式自動生成,幫助用戶進行批量數據處理;PPT 可實現一鍵更換模板、擴寫正文等功能,提高工作效率。與傳統版本相比,WPSAI 整體能幫助用戶實現一定程度的工作自動化和智能化,提高用戶效率和產品體驗。WPS AI 結合外部與自研模型,可提高模型效率。結合外部與自研模型,可提高模型效率。WPS AI 底層模型采用混合部署策略,一方面使用外部大模型廠商的模型,目前已與百度文心一言、MiniMax、智譜 AI、科大訊飛、阿里等廠商建立合作關系;另一方面公司基于開源底座自研小模型,目前已有 7B 和 13B 兩個自研模型,自研模型和通用模型共同
90、支持 WPS AI 功能,提高在特定場景的推理效率和性價比,且能夠服務具備私有化部署需求的客戶。七、七、AI Agent 可能面臨的挑戰可能面臨的挑戰1、安全性與隱私性、安全性與隱私性34/34 2023年年 12月月 11 日日行業行業|深度深度|研究報告研究報告 安全性和隱私性是智能體的關鍵特性,對其穩定運行和對用戶及社會的保護至關重要。這兩個因素直接影響 AI 代理的信任度和控制力。若 AI 代理出現漏洞、遭受攻擊或數據泄露等問題,則可能導致對用戶或社會的損害。比如,OpenAI 的 GPTs 在發布后不久,出現了安全漏洞,導致了用戶上傳的數據泄露。2、倫理與責仸、倫理與責仸倫理和責任是
91、智能體的核心原則,決定其價值觀和目標,以及對用戶和社會的尊重與保護。這些原則直接影響智能體的可信度和可控性。若智能體表現出不公平、不透明或不可靠等問題,可能引發用戶或社會對技術的排斥。責任歸屬也是智能體的關鍵議題,人與智能體協同中的責任歸屬不清晰或不公正也會帶來嚴重后果。3、經濟和社會就業影響、經濟和社會就業影響未來工作中的一個重要挑戰是人類與智能體之間的競爭。例如,AI 自由職業者平臺 NexusGPT的出現便是對傳統自由職業者的沖擊。未來的社會工作協同中,也會出現越來越多的智能體,雇主基于效率和效益考慮,可能會盡量減少人力投入。隨著智能體技術的成熟,必須提前思考這些技術發展對社會和個人職業
92、生涯的長期影響。八、參考研報八、參考研報 1.招商證券-計算機行業 AIGC 系列報告(五):大模型多模態應用深化,AI Agent 為應用普及提速2.東方證券-計算機行業深度報告:AI Agent,基于大模型的自主智能體,在探索 AGI 的道路上前進3.東吳證券-互聯網傳媒行業:AI 時代新起點,尋新投資方向(三),AI Agent,大模型時代重要落地方向4.中信建投-人工智能行業:AI 下半場,應用落地,賦能百業5.銀河證券-拓爾思-300229-“拓天大模型”發布,MaaS 服務未來需求廣闊6.東吳證券-彩訊股份-300634-國產郵箱領軍者,AI、信創鑄就新機遇7.招商證券-金山辦公-688111-C 端改革筑基長遠,AI 賦能增量可期8.方正證券-南興股份-002757-公司深度報告:聯合微軟打造 AIGC 智能助手,IDC 及云業務亟待重估免責聲明:以上內容僅供學習交流,不構成投資建議。