1、2 0 2 5 年深度行業分析研究報告目錄目錄一、一、為什么說為什么說 2025 年是年是 Agent 元年?元年?AI 從 L2 向 L3 進化驅動力:技術成熟度達到臨界點;行業領導者推動,標桿產品驗證;市場需求驅動定義:不是所有的 AI 模型/產品都叫 Agent;Agent 的四個必要構成(缺一不可);Agent 的智能程度是有層次和梯度的二、二、Agent 為何重要?為何重要?深度自動化、指數級效率提升、解放人類生產力與創造力通往 AGI 和具身智能的關鍵環節重塑互聯網流量入口格局預計入口級 Agent 大戰將于 25H2 開啟三、三、競爭格局:模型即產品,通用競爭格局:模型即產品,通
2、用 Agent 將由大廠主導將由大廠主導Agent 領域的競爭維度模型即產品:爆款應用背后是模型能力更新、淺層套殼產品終將被顛覆Big Giants:角逐 AGI、通用 Agent 和流量入口Niche market:垂直 Agent 長期面臨通用 Agent 的威脅、垂直 Agent 的價值在于深耕領域知識、談談 Cursor 的壁壘四、四、Agent 將最先落地于知識工作(尤其是代碼)將最先落地于知識工作(尤其是代碼)Agent 最先落地的行業和場景預測代碼/軟件開發領域的進展與觀點法律 AI Agent 對比3一、為什么說一、為什么說2025年是年是Agent元年?元年?4OpenAI將
3、將AI發展階段分為發展階段分為L1到到L5五個階段。我們認為,五個階段。我們認為,AI正從L2(推理者)向L3(Agent)進化,Agent代表了AI從“思考”走向“行動”的關鍵一步,是繼大模型之后的下一個重要發展階段和業界尋求的新突破口。驅動力來自:技術、產品、需求。技術、產品、需求。L1-聊天機器人聊天機器人(Chatbot):以ChatGPT(2022年底發布)為代表,具備自然語言交互能力。機器直接輸出文字或回答。相較于機器學習時代,AI Chatbot 實現了“通用性”,不再局限于特定場景或單一問題,而是能處理廣泛的語言任務。這是從基于規則、機器學習、神經網絡、Transformer架
4、構一路發展過來的通用大模型階段。在這一階段,交互模式交互模式是主要是輸入-輸出模式,用戶提問,模型回答。L2-推理者推理者(Reasoner):具備更強的推理能力,能夠處理更復雜的問題。用戶能看見模型的推理過程。代表產品如OpenAI的o1系列、DeepSeek R1。相較于L1階段,引入了強化學習和思維鏈(CoT)技術,模型在輸出最終答案前會進行多步思考。L3-智能體智能體(Agent):能夠自主規劃和執行復雜任務的智能體。具備記憶、規劃、工具使用和行為記憶四大核心能力。相較于L2階段,AI從被動的“信息處理/推理”走向主動的“與外部世界交互和執行”。能調用工具(如瀏覽器、API)、操作軟件
5、界面,形成“指令-思考-交互-觀察-再思考.”的閉環系統。我們認為我們認為2025年將是年將是Agent之年之年L1聊天機器人具有對話能力的AIL2推理者像人類一樣能夠解決問題的AIL3智能體不僅能思考,還可以采取行動的AI系統L4創新者能否協助發明創造的AIL5組織者可以完成組織工作的AIDeepseek R1標志著從標志著從L1到到L2Operator標志著從標志著從L2到到L3ChatGPT的出現的出現資料來源:synthetic,東吳證券研究所5驅動力一:技術成熟度達到臨界點驅動力一:技術成熟度達到臨界點。支撐通用Agent發展的關鍵技術要素,特別是強大的多模態基礎模型(能理解視覺信息
6、如屏幕內容)和成熟的強化學習訓練方法(能訓練Agent與環境交互),已經發展到相對成熟的階段。從從L0到到L1:標志GPT-3、ChatGPT(2022年底)為標志。背后的技術驅動力是Transformer架構的出現,使得訓練更大、更通用的語言模型成為可能。在這一階段,實現了“通用性”(Generality),模型不再局限于特定場景,而是能夠處理廣泛的自然語言任務,像一個巨大的知識庫。Why Now?技術成熟度達到臨界點技術成熟度達到臨界點從從L0到到L1的技術演進路徑的技術演進路徑資料來源:electropages,東吳證券研究所基于規則機器學習神經網絡transformerGPT-3cha
7、tgpt依賴人工規則,靈活性差智能處理的數據量較少數據驅動,泛化能力增強分類固定量數據深度學習復雜數據處理能力提升自注意力機制并行計算預訓練+微調強泛化自然語言生成能力人對結果的反饋成為學習過程的一部分6從從L1到到L2:L1到L2的技術演進,核心在于大模型基礎上的推理能力突破,涉及多步推理訓練、檢索增強、邏輯融合等關鍵技術,使AI從“會說”進化到“會想”,實現更高層次的智能。從L1到L2的躍遷,是AI從“語言表達”到“認知推理”的質變,這為AI在科學發現、復雜決策、自動規劃等高價值場景的應用奠定了基礎。技術突破包括:多步推理訓練:通過鏈式思維(Chain-of-Thought,CoT)等方法
8、,訓練模型在給出答案前進行多輪、分步驟的推理。檢索增強生成(RAG):結合外部知識庫,提升模型的事實一致性和推理深度,減少“幻覺”。更高質量的數據與反饋機制:采用專家數據、復雜問題集和強化學習等方式,持續優化模型的推理表現Why Now?技術成熟度達到臨界點技術成熟度達到臨界點AlphaGo Zero快速超越了快速超越了Alpha GoL1 ChatbotL2 Reasoner主要能力自然語言生成復雜推理與決策技術核心大規模transformer預訓練思維鏈CoTRAGMoE等代表模型GPT-3ChatGPTO1Deepseek r1Strawberry等資料來源:datahub,東吳證券研究
9、所7 從從L2到到L3:關鍵的技術要素(強大的多模態基礎模型和成熟的強化學習訓練方法)已經趨于成熟,達到了可以支撐通用關鍵的技術要素(強大的多模態基礎模型和成熟的強化學習訓練方法)已經趨于成熟,達到了可以支撐通用 Agent 發展的階段。發展的階段。OpenAI在在2025年年1月發布月發布Operator,更是印證和點燃了這一行業共識。具體來說,關鍵的成熟要素包括:,更是印證和點燃了這一行業共識。具體來說,關鍵的成熟要素包括:強大的基礎模型強大的基礎模型:像Claude Sonnet 3.5這樣強大的、原生的多模態基礎模型已經出現。這些模型具備了足夠好的視覺理解、語言理解和基礎推理能力,能夠
10、“看懂”圖形界面(如網頁、操作系統界面),這是構建基于GUI(圖形用戶界面)的Agent的前提。而在過去(例如OpenAI在2016年嘗試類似項目時),缺乏這樣強大的基礎模型是導致失敗的關鍵原因。成熟的強化學習技術與框架成熟的強化學習技術與框架:以強化學習為核心的 Post-training技術在2024年通過O1、O3等模型在純文本領域被證明是極其有效的,能夠顯著激發和提升基礎模型的深層推理和規劃能力。行業將這種成功的范式應用到多模態領域,以訓練出能夠與環境交互、執行任務的Agent。Why Now?技術成熟度達到臨界點技術成熟度達到臨界點o3 模型和模型和 o4-mini 模型在數學模型在
11、數學和和代碼能力上表現出色代碼能力上表現出色過去五年過去五年AI持續刷新各類排行榜持續刷新各類排行榜資料來源:機器之心,澎湃新聞,東吳證券研究所8驅動力二:行業領導者推動,標桿產品驗證。驅動力二:行業領導者推動,標桿產品驗證。OpenAI、Anthropic、Google等頭部公司發布關鍵產品(如Operator,DeepResearch)和技術協議(如MCP),并投入研發,起到了引領和示范作用。相對成型的Agent產品開始涌現(例如Manus、AutoGLM、Genspark等),驗證了技術可行性,并點燃了行業共識,標志著Agent從設想設想走向相對成熟相對成熟的產品階段。Why Now?行
12、業領導者推動,標桿產品驗證行業領導者推動,標桿產品驗證工具工具底層模型底層模型核心技術核心技術自主性級別自主性級別多模態能力多模態能力OpenAI Operator定制CUA模型瀏覽器自動化、視覺理解高(網頁交互)強(視覺理解)ManusClaude Sonnet 3.7多智能體架構、Linux沙盒高(跨領域任務)強(文本、圖像、代碼)Devin未公開遠程執行環境、規劃系統高(軟件開發)中(主要文本和代碼)Cursor多個大模型代碼上下文理解、智能補全中(輔助編碼)弱(主要代碼處理)AutoGPT可定制LLM任務分解、互聯網連接高(自主執行)中(文本和圖像)Windsor.ai專有AI模型數據
13、歸因、營銷分析中(數據處理)弱(主要結構化數據)Deep ResearchGemini 1.5 Pro多步驟研究、網頁瀏覽中(研究執行)強(文本、圖像、PDF)ChatGPT CanvasGPT-4代碼編輯、多文件管理低(輔助編輯)弱(主要代碼處理)資料來源:lamatic,智通財經,新智元,東吳證券研究所9Why Now?行業領導者推動,標桿產品驗證行業領導者推動,標桿產品驗證2024年的RE-Bench基準測試顯示:在2小時短時限內,頂尖AI Agent得分是人類專家的4倍;但將時間放寬到32小時,人類表現則反超部分Agent。這表明這表明Agent在特定任務上已能匹敵人類專家,且更快、更
14、經濟,但人類在長時策略上仍有優勢。在特定任務上已能匹敵人類專家,且更快、更經濟,但人類在長時策略上仍有優勢。資料來源:斯坦福2025 AI Index Report,東吳證券研究所10本報告來源于三個皮匠報告站(),由用戶Id:879635下載,文檔Id:646326,下載日期:2025-05-07在MCP出現之前,Agent 想利用外部工具或數據源(例如調用一個API、查詢數據庫、讀取Slack消息、操作某個軟件),面臨著巨大挑戰:接口各異、定制開發成本高、生態割裂。MCP的普及有助于推動的普及有助于推動Agent行業互聯互通。行業互聯互通。MCP(Model Context Protoco
15、l,模型上下文協議),是由Anthropic提出的一個開放協議,旨在統一大型語言模型(LLM)/Agent與外部工具、數據源之間的通信方式。MCP通過提供一個開放、統一的通信標準,可以解決Agent與外部世界交互的碎片化和高成本問題。它的普及將極大地降低集成門檻,增強不同模型、Agent和工具間的互操作性,催生出一個更加繁榮、開放和互聯互通的Agent生態系統,最終賦能更強大、更通用的AI Agent應用。Why Now?MCP的普及助推的普及助推Agent互聯互通互聯互通在在MCP出現之前出現之前agent的挑戰的挑戰MCP的普及有助于促進互聯互通的普及有助于促進互聯互通接口各異:接口各異:
16、每個工具、每個數據源都有自己獨特的API接口或交互方式。定制開發成本高:定制開發成本高:Agent開發者需要為每一個想要連接的工具編寫特定的適配代碼,以理解該工具的輸入輸出格式和調用邏輯。同樣,工具開發者如果想讓自己的服務被不同的Agent調用,也可能需要適配多種不同的Agent框架。生態割裂:生態割裂:這種點對點的、定制化的連接方式,導致整個生態系統是割裂的。Agent A可能只能使用它專門適配過的工具集X,而Agent B只能使用工具集Y,它們之間難以共享或調用對方生態中的工具,形成了“數據孤島”和“能力孤島”。建立“通用語言”:建立“通用語言”:MCP提供了一套標準化的規則和格式,定義了
17、Agent(通過MCP Client)如何向工具(MCP Server)發出請求、傳遞參數,以及工具如何返回結果。這就像為AI Agent和外部工具之間建立了一種通用的“交流語言”。降低開發與集成復雜度:降低開發與集成復雜度:Agent開發者不再需要為每個工具編寫定制化的適配器。只需要讓Agent支持MCP協議,理論上就能與任何同樣支持MCP的工具進行交互。工具/數據源提供者只需將自己的服務通過一個MCP Server暴露出來,就能被所有支持MCP的Agent發現和調用,降低了接入AI生態的門檻。就像USB-C統一了各種設備的物理連接和數據傳輸標準一樣,MCP旨在統一Agent與工具的“數字連
18、接”。促進互操作性,催化生態系統繁榮:促進互操作性,催化生態系統繁榮:當Agent和工具都遵循同一標準時,它們之間的互操作性大大增強。這意味著用戶或開發者可以更自由地組合來自不同提供商的模型、Agent框架和工具,構建出更強大、更靈活的解決方案,打破了原有的供應商鎖定或生態壁壘。標準化是生態繁榮的基礎。MCP的普及將鼓勵更多開發者參與Agents生態,形成一個更加開放、組件化、可互相協作的Agent生態系統。模型模型1模型模型2模型模型3github外賣外賣地圖地圖模型模型1模型模型2模型模型3github外賣外賣地圖地圖MCP傳統模式傳統模式MCP模式模式資料來源:36氪pro,newlin
19、e,東吳證券研究所11Why Now?MCP的普及助推的普及助推Agent互聯互通互聯互通和其他工具調用方式(和其他工具調用方式(Function Calling,A2A,Browser Use)相比,)相比,MCP的優勢是什么?的優勢是什么?通用性、通用性、互操作性、低門檻互操作性、低門檻1、Function Calling 是 OpenAI 的早期嘗試,開發者在調用 LLM API 時可以定義一組可用的函數(工具)。當用戶需要執行某個功能時,模型不會直接執行,而是會輸出一個包含函數名和所需參數的 JSON 對象。開發者接收到這個對象后,自己編寫代碼去執行相應的函數,并將結果返回給模型,讓模
20、型繼續生成回復。Function calling 的缺點是的缺點是,沒有定義一個通用的、跨平臺、跨模型的標準,每個開發者都需要根據 OpenAI 的規范來實現。2、MCP 旨在建立一套通用的協議或規范,來定義 Agent 如何發現、理解和調用各種工具,以及工具如何返回結果。相較于 Function Calling,MCP的優勢在于:的優勢在于:統一度量衡統一度量衡:MCP 就像是為工具調用設定了國際標準(如米、千克),取代了之前各種自定義、不兼容的“度量方法”(類似 Function Calling 的非標準化狀態)?;ゲ僮餍曰ゲ僮餍?降低門檻降低門檻:有了統一標準,開發者開發的 Agent
21、可以更容易地調用任何遵循 MCP 規范的工具,反之亦然。工具開發者只需支持 MCP,就能被眾多 Agent 使用。這大大降低了工具集成和生態構建的門檻。3、A2A(Agent-to-Agent)是Google 提出的概念,聲稱不僅能讓 Agent 調用工具(Tool),還能實現 Agent 與 Agent 之間的直接交互。但我們認為這其實是概念冗余但我們認為這其實是概念冗余:從工程角度看,一個 Agent 本身也可以被封裝成一個符合 MCP 規范的 Tool。因此,通過 MCP 協議,已經可以間接實現 Agent 調用另一個 Agent(作為工具)。A2A 并沒有帶來根本性技術突破,更像是一種
22、“KPI 工程”或爭奪標準化話語權的戰略行為,而非必要的技術創新。資料來源:36氪pro,daily dose of data science,東吳證券研究所A2A的原理和的原理和MCP類似類似A2A可以融入到可以融入到MCP框架中框架中12Why Now?MCP的普及助推的普及助推Agent互聯互通互聯互通和其他工具調用方式(和其他工具調用方式(Function Calling,A2A,Browser Use)相比,)相比,MCP的優勢是什么?的優勢是什么?通用性、互通用性、互操作性、低門檻操作性、低門檻4、Browser Use 讓 Agent 能夠像人一樣操作瀏覽器,瀏覽網頁、提取信息、
23、填寫表單、點擊按鈕等。但需要明確的是,Browser Use和MCP并不互斥。Browser use的驅動方式分為兩種:MCP驅動和GUI操作。MCP驅動驅動(更成熟、常用)(更成熟、常用):這并不是讓 AI 真的“看”屏幕去點。而是通過調用瀏覽器提供的API(例如,獲取網頁 DOM 結構、執行 JavaScript、模擬網絡請求等),或者將這些瀏覽器操作封裝成符合 MCP 標準的工具,然后讓 Agent 通過代碼調用這些工具來間接“操作”瀏覽器?,F在很多所謂的 Browser Use 演示,其背后很可能就是這種基于代碼/API/MCP 的方式。代表產品有Browser User和Manus。
24、初創產品初創產品Browser Use,由兩名學生,由兩名學生在在4天時間內開發完成,可以理解網天時間內開發完成,可以理解網頁內容。該初創公司頁內容。該初創公司2025年年3月融資月融資1700萬美元。萬美元。GUI操作(操作(尚不成熟尚不成熟):這是真正意義上的“看屏幕、點鼠標”。Agent 接收瀏覽器窗口的截圖,通過視覺模型識別界面元素(按鈕、輸入框等),計算出坐標,然后通過模擬鼠標點擊和鍵盤輸入來進行操作。這種方式目前面臨準確性和穩定性的瓶頸,因為視覺模型在精確識別和定位界面元素(尤其是動態或復雜的網頁)時容易出錯,導致點擊錯誤位置或無法完成操作。Browser Use的準確率較高的準確
25、率較高資料來源:InfoQ,東吳證券研究所13驅動力三:市場需求驅動。驅動力三:市場需求驅動?;仡橝I發展歷程,如果說2023年是“模型競賽年”(以LLM本身性能競賽為標志),那么2024年則是“應用探索年”。在2024年,涌現了大量基于LLM的應用,例如各種聊天機器人、寫作助手、簡單的Copilot等。企業投入資源進行嘗試,希望將AI能力融入業務流程。然而,2024年的應用探索也暴露出一些局限性。許多應用可能只是“薄封裝”“薄封裝”,未能深入解決核心業務痛點;或者其自動化能力僅限于相對簡單的單點任務,難以應對跨系統、多步驟的復雜工作流;帶來的生產力提升往往是局部的、漸進式的,未能完全達到市場
26、最初的高期望,也使得AI投入的 ROI不夠清晰。進入進入2025年,市場心態發生了轉變,特別是對于需要為年,市場心態發生了轉變,特別是對于需要為AI投資尋求明確商業價值的投資尋求明確商業價值的To B而言:而言:從“嘗試”到“落地”:企業不再滿足于概念驗證(PoC)或小范圍試點。他們需要能夠真正部署到生產環境中、穩定可靠、能與現有系統集成、真正部署到生產環境中、穩定可靠、能與現有系統集成、并產生可衡量業務成果并產生可衡量業務成果的AI解決方案。市場渴望看到AI技術從“玩具”或“助手”變成真正能干活、能解決問題的“員工”或“自動化引擎”??释詣踊案鼜碗s任務”:簡單的問答、基礎的內容生成等“低
27、垂果實”已被初步采摘。企業現在關注的是那些更耗時、更繁瑣、涉及多個步驟、更耗時、更繁瑣、涉及多個步驟、需要調用不同工具或信息源的復雜流程需要調用不同工具或信息源的復雜流程。例如,自動完成一份包含數據搜集、分析、圖表生成和報告撰寫的市場研究報告;或者自動化處理一個需要查詢訂單系統、物流系統、與客戶溝通并執行退款操作的客服請求;亦或是完成整個軟件開發周期中的部分環節。這些是傳統自動化或簡單AI應用難以觸及的領域。期待“更顯著”的生產力提升:市場不再滿足于10%或20%的效率提升。他們期待的是數量級(例如數倍甚至更高)的生產力飛躍數量級(例如數倍甚至更高)的生產力飛躍,能夠真正重塑工作方式、顯著降低
28、成本、或者將人力解放出來從事更高價值的創造性或戰略性工作。而而AI Agent(智能體)的出現,恰好精準地契合了市場的這種新期待(智能體)的出現,恰好精準地契合了市場的這種新期待:為復雜任務而生:Agent的核心能力(如自主規劃、記憶、工具使用)使其天然適合處理多步驟、需要與外部環境(如網頁、軟件、多步驟、需要與外部環境(如網頁、軟件、API)交互的復雜任務)交互的復雜任務,這正是市場所需要的。強調“執行”與“行動”:不同于L1/L2主要停留在“對話”或“推理”,L3 Agent的設計目標就是完成任務、采取行動完成任務、采取行動,這與企業追求“落地”和實際效果的需求高度一致。潛力巨大:通過自動
29、化更復雜、更耗時的工作流,Agent有望帶來指數級的效率提升和生產力解放指數級的效率提升和生產力解放,滿足市場對“顯著”價值回報的期待。Why Now?市場需求驅動市場需求驅動資料來源:東吳證券研究所14020406080100120140160Mobile App BuildersCode GenerationEcommerceAuthentication AgentsNSFWAds Al AgentsGamingTravel Al AgentAl Shopping AgentsMarketingAl Agent MemoryAl Docs AgentsModel ServingAl Sec
30、urityTool LibrariesAl AvatarSoftware TestingLead GenerationImagesWeb Al AgentsAl Video AgentsRecruiting Al AgentsWorkfiowContent CreationData AnalysisPersonal AssistantVoice Al AgentsProductivityAl Agents Platform按照行業分類的按照行業分類的AI Agent數量(截止數量(截止25/4/7)AI Agent landscape當前存在著大量的垂類當前存在著大量的垂類Agent。根據根據
31、AI Agents Directory統計,截至統計,截至2025/4/7,全球共有,全球共有1211個個AI Agent,覆蓋,覆蓋57個不同類別,其中數量較多的有個不同類別,其中數量較多的有Agent平臺(平臺(136個)、生產力個)、生產力Agent(94個),客戶服務個),客戶服務Agent(66個),個人助手個),個人助手Agent(50個)等。雖然部分應用可能并不屬于嚴格意義上的個)等。雖然部分應用可能并不屬于嚴格意義上的Agent(需要(需要有調用工具的能力和規劃執行的能力等),但也能直觀上反映當前應用生態的復雜多樣。有調用工具的能力和規劃執行的能力等),但也能直觀上反映當前應用
32、生態的復雜多樣。然而,這些都能被稱之為然而,這些都能被稱之為Agent嗎?嗎?定義:不是所有的定義:不是所有的AI模型模型/產品都叫產品都叫Agent資料來源:AI Agents Directory,東吳證券研究所15關于Agent的討論往往存在定義混亂的問題。以至于一千個人眼中有一千個Agent。我們認為,只有我們認為,只有同時同時具備了這四項能力(對話能力、推理能力、長記憶、工具調用),才能被稱之為具備了這四項能力(對話能力、推理能力、長記憶、工具調用),才能被稱之為Agent。其中,工具調用是最核心的區分要素。只有對話能力的是 Chatbot;只有對話和推理能力的是 Reasoner。而
33、工具調用又是建立在前三個基礎之上的。Agent必須理解用戶的指令,記住過去對話的內容,記住其任務目標、分解動作和已執行的步驟、遇到的問題,才能順利地完成多步驟任務。定義:不是所有的定義:不是所有的AI模型模型/產品都叫產品都叫AgentChatbotCopilot&Assistant半自動半自動Agent全自動全自動Agent對話能力推理能力長記憶能力調用工具的能力規劃的能力Agent的構成的構成資料來源:Google Agent Whitepaper,東吳證券研究所16定義:定義:Agent的智能程度是有層次和梯度的的智能程度是有層次和梯度的盡管如此,我們仍然無法準確定義盡管如此,我們仍然無
34、法準確定義AI Agent,例如:,例如:一個 AI 系統僅僅能響應指令、生成內容就夠了嗎?還是要看它是否能為了達成某個特定目標而主動采取一系列行動?Agent 的“行動”是否必須對外部世界(數字或物理)產生狀態改變?生成信息、報告或建議算不算定義中的“行動”?這個系統是只在內部進行計算和推理,還是需要感知外部環境的狀態,并能對環境施加影響(無論是數字環境還是物理環境)?在執行任務的過程中,系統是嚴格按照預設步驟執行,還是能夠根據當前情況自主進行決策、選擇策略或調整計劃?需要多大程度的獨立決策和執行能力才能稱之為 Agent?需要人類確認或干預到什么程度就不再是(完全自主的)Agent?系統完
35、成任務是僅靠自身內置的知識和能力,還是需要識別并調用外部的資源或工具(如 API、數據庫、其他軟件)來輔助完成?Agent 交互的“環境”必須是動態的、不可預測的嗎?與一個靜態數據庫交互算不算環境交互?系統處理任務是一次性的“問答”或“生成”,還是能夠在持續一段時間內保持對目標和上下文的認知(記憶),以完成需要多個步驟或較長時間才能完成的任務?Agent 的“大腦”是什么?它與底層的LLM是什么關系?Agent 是 LLM 本身,還是一個圍繞 LLM 構建了規劃、決策、執行框架的系統?這些問題其實是同一個問題,即,這些問題其實是同一個問題,即,Agent需要智能到什么程度,才可以被稱之為需要智
36、能到什么程度,才可以被稱之為Agent?再比如:再比如:AI 搜索(如Perplexity、DeepResearch、New Bing)是Agent嗎?一個能理解復雜問題、自主上網搜索、閱讀并整合信息,最終生成一份摘要報告或直接答案的 AI 搜索系統,是 Agent 嗎?它“使用”了瀏覽器或搜索引擎作為工具,并“行動”生成了報告,這是否足夠?如果這個 AI 搜索系統只是呈現整合后的信息,而沒有根據這些信息去執行下一步的、改變外部狀態的動作(比如基于搜索結果去預訂、購買或發送郵件),它與一個高級的L2 Reasoner的核心區別是什么?Deep Research 這類工具,其“Agent”屬性體
37、現在哪里?僅僅是研究過程的自動化嗎?AI 編程(如Github Copilot、Cursor、Devin)是Agent嗎?GitHub Copilot根據代碼上下文提供建議,開發者選擇采納。它有環境感知(代碼上下文),也有行動(生成代碼建議),但自主性較低,它算 Agent 嗎?還是更像一個“智能感知代碼的 L1 模型”?AI推薦系統是Agent嗎?一個能分析你的歷史行為、理解你的偏好,并主動推送(行動)相關內容或商品的推薦引擎,它具備目標(提升用戶參與度/轉化率)、環境感知(用戶行為數據)和行動(推送),它算 Agent 嗎?它的“自主性”和“規劃”體現在哪里?資料來源:東吳證券研究所17二
38、、二、Agent為何重要?解放生產力、走向為何重要?解放生產力、走向AGI和具身智能、挑戰入口格局和具身智能、挑戰入口格局18AI Agent作為下一代AI應用形態,將帶來革命性的變化,遠超簡單的信息檢索或內容生成。Agent是能夠主動執行任務、解決問題的數字化勞動力或超級助理,其核心價值體現在:深度自動化:超越簡單重復:不同于RPA或傳統腳本主要處理固定流程的重復性任務,Agent能夠理解模糊指令,自主規劃并執行復雜的、多步驟的、甚至需要適應變化的認知型任務。例如,Operator能模擬人類操作任意GUI界面完成預訂或購物,Devin能自主完成軟件開發中的編碼、調試、測試等系列環節。端到端流
39、程:Agent有潛力打通原本需要多個人類角色、多個軟件系統協作才能完成的端到端工作流,實現更高層次的自動化。認知自動化:其核心是自動化需要思考、判斷、與數字世界交互的“知識工作”,而不僅僅是體力或簡單的點擊操作。2.1 Agent將帶來革命性的變化將帶來革命性的變化深度自動化深度自動化用用operator采購商品采購商品用用operator自動預定餐廳自動預定餐廳資料來源:openai,東吳證券研究所19指數級效率提升:速度與規模:對于特定任務,Agent的處理速度可以遠超人類(如RE-Bench短時限測試表現)。更重要的是,Agent可以7x24小時不間斷工作,并且可以輕松擴展(理論上增加算
40、力即可增加Agent數量),實現人力無法比擬的規?;?。成本優化潛力:雖然當前推理成本較高,但通過自動化高價值、高成本的人類勞動(尤其是專業知識工作,如軟件開發、法律咨詢),長期來看具有巨大的成本節約潛力。一個高效的Agent理論上可以替代或增強多個人類員工的生產力。減少錯誤與提升一致性:對于定義清晰的任務,Agent有望減少人為錯誤,提高執行的一致性和標準化水平(盡管當前可靠性仍是挑戰)。解放人類生產力與創造力:人機協作新范式:Agent不僅僅是替代,更是強大的增強工具和協作伙伴。它們可以承擔復雜流程中繁瑣、耗時的部分,讓人類專家(開發者、研究員、律師等)從重復性勞動中解放出來。聚焦高價值
41、活動:人類可以將時間和精力投入到更需要創造力、戰略思考、復雜決策、情感溝通和人際協作等AI尚不擅長的高階任務上。賦能創新:通過自動化原本難以完成或成本過高的復雜分析與操作,Agent可能催生新的科學發現、商業模式或藝術創作,拓展人類能力的邊界。2.1 Agent將帶來革命性的變化將帶來革命性的變化指數級效率提升指數級效率提升自動化重復性、流程化的數字自動化重復性、流程化的數字/知識工作知識工作軟件開發與編程輔助軟件開發與編程輔助垂直領域的專業垂直領域的專業Agent代表產品OpenAI Deep Research,PerplexityGitHub Copilot,Cursor,Devin如營銷
42、/人力資源等行業的Agent具體能力信息研究與報告生成:自動搜集、整理、分析信息并生成報告,輔助研究人員、分析師等知識工作者。操作軟件和網頁:自動執行需要與軟件界面或網頁交互的任務,如填寫表單、預訂差旅、處理郵件、管理日程、關閉廣告、計算退款等。數據處理與分析:自動執行數據提取、清洗、初步分析等任務。代碼生成、補全、調試:提升開發者效率。復雜開發任務執行:能夠理解需求、規劃步驟、編寫代碼、配置環境、測試、修復 Bug 等更完整的開發流程。API 調用與集成:Agent 利用編碼能力與其他系統或服務交互??蛻舴?處理標準化的客戶請求,如查詢訂單、處理退款等。銷售/市場營銷:自動化部分銷售流程,
43、如潛在客戶篩選、郵件營銷等。人力資源:輔助處理簡歷篩選、安排面試等流程化任務。特定行業:如法律文書輔助、醫療信息查詢與初步分析等資料來源:東吳證券研究所202.2 Agent(L3)是通往)是通往AGI的關鍵環節的關鍵環節AI 的發展遵循一個從簡單到復雜的層級結構,通常參考 OpenAI 提出的 L1 到 L5 框架。Agent(L3)是承上啟下的關鍵階段是承上啟下的關鍵階段。它不僅需要 L2 的推理和規劃能力,更核心的是增加了與外部世界(數字世界或物理世界)交互的能力,形成閉環系統。這與 L1/L2 主要停留在與人交互或純粹內部思考不同。雖然雖然 L1 到到 L3 的路徑相對清晰,但從的路徑
44、相對清晰,但從 L3(Agent)到到 L4(創新者創新者)存在一個巨大的鴻溝。區別在于:存在一個巨大的鴻溝。區別在于:L1-L3 本質是遵循指令遵循指令(instruction following/execution):AI 的主要任務是理解并完成人類給定的指令或目標。評價標準相對明確(任務是否完成,結果是否正確)。而 L4(Innovator)要求創造力與原創性要求創造力與原創性:它需要能夠超越指令超越指令(beyond instructions),產生新的想法、方法、知識,甚至設定新的目標。評價標準變得模糊,不再是簡單的“對不對”,而是“好不好”、“新不新”。雖然終極目標是 AGI,但短
45、期內短期內 Agent 通往 AGI 的路徑體現在其自動化復雜任務的能力上。無論是自動化研究信息收集(只讀 Agent),還是自動化軟件操作、任務執行(讀寫 Agent),核心都是解放人類的注意力解放人類的注意力,提升生產力。通過不斷提升自動化水平和處理任務的復雜度,Agent 的能力逐步逼近甚至超越人類特定領域的水平,為最終最終實現AGI奠定基礎。L1chatbot一個博學的“客服”或“問事處”L2reasoner一個聰明的“參謀”或“軍師”L3Agent一個能干的“管家”或“全能助理”L4innovator一位智慧的“科學家”或“藝術家”L5Organizer一個高效運轉的“公司”或復雜的
46、“生態系統”AGI一個數字版的“人”,或者超越人類智慧資料來源:東吳證券研究所212.2 Agent(L3)是走向具身智能的關鍵環節)是走向具身智能的關鍵環節當前以“只讀”型 Agent(如 AI 研究助手)為代表的應用已初步展現出明確的產品市場契合點(PMF),主要服務于知識工作者。下一步的關鍵是從“只讀”進化到“讀寫”型 Agent,即賦予 AI 執行操作、調用工具(如瀏覽器、郵件客戶端、API)、與外部世界交互的能力(如 OpenAI Operator、Monica 的探索)。雖然“讀寫”Agent 潛力巨大(能自主完成訂票、發郵件、甚至發布懸賞任務等復雜操作),但其發展會更謹慎,因為涉
47、及安全、權限和潛在風險,需要配合監控、對齊和防濫用措施。隨著記憶(Memory)和在線學習(Online Learning)這兩大關鍵技術的突破,Agent 的能力將進一步飛躍,可能實現 Agent 指揮 Agent、更個性化、能實時學習適應新情況。未來可能出現為 AI 設計的專用工具,進一步提升其效率,超越人類工具的限制。Agent 的普及將極大解放人類注意力,從重復性工作中解脫,可能帶來生產力的指數級增長,改變工作和生活方式。目前,絕大多數目前,絕大多數 AI Agent 主要活躍在數字世界中。這是因為數字世界主要活躍在數字世界中。這是因為數字世界環境結構化:數字環境(如網頁、軟件界面、A
48、PI)通常具有相對清晰的結構、明確的輸入輸出規則和可預測性。信息易獲取:數據以文本、代碼、圖像等形式存在,相對容易被模型理解和處理。行動成本低/可逆:數字操作(如點擊、輸入、調用 API)通常成本低廉,且很多操作是可撤銷或影響有限的。然而,這種數字世界的局限性也很明顯:AI 的能力被束縛在屏幕和網絡之內,無法直接感知和影響我們生活的物理現實。真正的通用智能必然要求能夠理解并作用于物理世界。資料來源:東吳證券研究所22我們認為,我們認為,AI Agent的發展可能對現有的互聯網入口格局產生深遠甚至顛覆性的影響。的發展可能對現有的互聯網入口格局產生深遠甚至顛覆性的影響。入口可能更加集中,價值鏈可能
49、重構入口可能更加集中,價值鏈可能重構:可能出現少數幾個主導性的通用Agent。傳統依賴流量分發的入口(如搜索引擎、應用商店)面臨挑戰,能直接完成任務或提供核心能力的Agent平臺和服務商可能獲得更大價值。1.對傳統搜索引擎的挑戰與重塑:對傳統搜索引擎的挑戰與重塑:信息獲取方式改變信息獲取方式改變:用戶可能不再需要通過關鍵詞搜索,然后瀏覽一堆鏈接來尋找答案或服務。Agent可以直接理解用戶的復雜意圖(例如“幫我規劃一個周末去杭州的旅行,包含交通、住宿和景點,預算2000元”),然后整合信息、調用工具(訂票、訂酒店API)、進行規劃,并直接給出完整方案甚至完成預訂。這大大削弱了傳統搜索引擎作為信息
50、“門戶”的角色。搜索即執行搜索即執行:Agent將搜索從“查找信息”升級為“完成任務”。入口的價值不再僅僅是分發流量到其他網站,而是直接滿足用戶的最終需求。像Perplexity、Google的AI Overviews以及Deep Search/Research,都體現了這種趨勢搜索結果本身就是答案或解決方案的一部分。2.3 Agent將重塑互聯網流量入口格局將重塑互聯網流量入口格局AI聚合電商信息聚合電商信息資料來源:ARK big ideas 2025,東吳證券研究所ChatGPT,Claude,Perplexity和和Bing的搜索份額的搜索份額232.Agent本身成為入口:本身成為入
51、口:最具顛覆性的可能是,一個或多個強大的通用Agent成為用戶上網和處理數字任務的首選入口。用戶首先想到的是“問Agent”,而不是“打開某個App或網站”。這樣的通用Agent有可能是APP、瀏覽器或者OS操作系統。OS級級Agent:操作系統(如Windows Copilot、未來更強大的Siri/Google Assistant)可以深度集成Agent能力,協調控制設備上的各種應用和數據。用戶可能直接通過OS層的Agent下達指令,Agent負責調用合適的App或服務來完成,使得OS本身成為一個更核心、更主動的交互入口。瀏覽器集成瀏覽器集成Agent:瀏覽器作為訪問Web的主要工具,集成
52、Agent可以輔助用戶瀏覽、總結網頁、寫作、甚至自動化某些網頁操作。這讓瀏覽器從一個被動的頁面加載器,變成一個主動的智能助手,增強了其入口地位,例如Edge Copilot、夸克、豆包(也有瀏覽器功能)?!俺壋堿pp”入口地位鞏固:入口地位鞏固:對于像微信這樣的超級App,如果能成功集成強大的Agent能力,并打通其內部豐富的小程序、服務和社交關系,它可能成為一個極其強大的、覆蓋生活方方面面的Agent入口。用戶在一個App內就能完成大量任務。3.部分部分APP被“管道化”:被“管道化”:一些功能單一的服務型App(如訂票、打車、天氣),用戶可能不再需要直接打開它們,而是通過Agent來調
53、用其背后的API或功能。這些App可能淪為Agent的“工具箱”,其自身的入口價值下降。而復雜或體驗型而復雜或體驗型App,仍是入口,仍是入口:對于需要沉浸式體驗或復雜交互的應用(如游戲、專業創作工具、內容社區),用戶可能仍然會直接打開App。但Agent也可能在這些App內部提供輔助功能。2.3 Agent將重塑互聯網流量入口格局將重塑互聯網流量入口格局WindowsCopilotexcelEdgewordpowerpointOutlookteamsSiriApple Intelligence備忘錄郵件郵件keynotepages照片微信朋友圈微信小店IM公眾號小程序視頻號資料來源:東吳證券
54、研究所242.3我們預計入口級我們預計入口級Agent大戰將于大戰將于25H2開啟開啟我們預計,圍繞“通用入口級我們預計,圍繞“通用入口級Agent”的大戰將在的大戰將在2025年下半年開始逐漸拉開帷幕年下半年開始逐漸拉開帷幕。為什么?因為L3級別Agent能力(能夠系統性完成復雜任務)可能在一年內取得關鍵突破,一旦技術相對成熟,能夠支撐起一個足夠“通用”的Agent體驗,各大有實力的玩家就會下場爭奪市場主導權。Agent在在L3的評分有望進一步突破的評分有望進一步突破資料來源:Genspark,東吳證券研究所25三、競爭格局:模型即產品,通用三、競爭格局:模型即產品,通用Agent將由大廠主
55、導將由大廠主導26AI Agent的競爭格局是典型的“巨頭環伺,新銳突圍”。的競爭格局是典型的“巨頭環伺,新銳突圍”。大型科技平臺憑借模型、數據、資金和生態優勢占據主導地位,并致力于構建平臺和生態系統。然而,在基礎設施、工具鏈以及需要深度領域知識的垂直應用方面,仍然存在創業公司和專業廠商的機會。成本、效率、交互體驗和商業模式的創新將是未來競爭的關鍵。后續續密切關注技術演進、平臺戰略以及細分市場的動態。平臺平臺 vs.應用應用通用通用 vs.垂直垂直成本與效率成本與效率價值將主要沉淀在擁有核心模型和平臺的巨頭,還是能夠創造獨特價值的Agent應用開發商?目前看平臺方優勢明顯,平臺公司傾向于將其A
56、gent能力與其現有云服務、操作系統、辦公套件等深度綁定,構建封閉或半封閉生態,增加用戶遷移成本。但應用層創新仍有機會。通用Agent(如Operator)能力不斷提升,是否會擠壓垂直Agent的生存空間?短期內,垂直Agent憑借領域知識仍有優勢;但長期看,通用Agent的泛化能力是巨大威脅。推理成本是Agent大規模商業化的關鍵瓶頸。模型效率、訓練/推理優化、以及芯片成本將是重要的競爭維度。交互范式之爭交互范式之爭數據與護城河數據與護城河人才競爭人才競爭Operator代表的直接GUI操作與Manus代表的“可見性”過程展示,以及未來可能出現的更優化的Agent專用接口,都反映了對最佳人機
57、(或Agent-機)交互方式的探索。高質量的訓練數據(尤其是人類示范數據和特定領域數據)以及持續的用戶反饋數據(盡管其提升智能的效率存疑,但對產品優化有用)是重要的競爭壁壘,但并非傳統意義上的“數據飛輪”。頂尖的AI研究員和工程師是各家爭奪的核心資源。我們預計我們預計Agent領域的競爭將圍繞六個維度展開領域的競爭將圍繞六個維度展開AI Agent的競爭格局是典型的“巨頭環伺,新銳突圍”的競爭格局是典型的“巨頭環伺,新銳突圍”資料來源:東吳證券研究所27在LLM經歷突破性發展的初期階段,模型本身展現出強大能力(如對話、寫作、編碼、推理),以至于模型本身幾乎就等同于產品。模型的“magic mo
58、ment”往往直接定義了新的產品可能性。例如:GPT-3.5解鎖了Chatbot形態;Claude Sonnet解鎖了Cursor;DeepSeek的出圈也是因為其R1推理能力,其產品形態并沒有過多優化;OpenAI DeepResearch 并非在O3上做了套殼,而是基于CUA重新訓練了專有模型。AI應用的核心價值很大程度上就是讓用戶能夠便捷地體驗和使用這些前沿模型的基礎能力?!澳P偷哪芰Α睅缀蹙褪钱a品的全部吸引力。DataBricks 公司生成式AI副總裁Naveen Rao 預測:在未來兩到三年內,所有閉源的 AI 模型提供商都會停止銷售 API 服務。這表明,API 經濟即將走向終結。
59、模型提供商與應用層之間原本的蜜月期可能模型提供商與應用層之間原本的蜜月期可能已經已經徹底結束。我們已經看到了一些跡象:徹底結束。我們已經看到了一些跡象:大模型公司開始停止提供最新模型的大模型公司開始停止提供最新模型的API:DeepSearch 并未提供 API 接口,僅作為 OpenAI 高級訂閱的增值功能出現;Claude Code 則只是一個極為簡單的終端整合。模型廠商已開始跳過第三方應用層,直接創造用戶價值。應用層企業開始布局模型訓練能力應用層企業開始布局模型訓練能力:應用型公司也意識到了這種威脅,嘗試轉型。例如 Cursor 擁有一款自主開發的小型代碼補全模型;WindSurf 內部
60、開發了 Codium 這樣一款低成本的代碼模型;Perplexity 此前一直依靠內部分類器進行請求路由,最近更是轉型訓練了自己的 DeepSeek 變體模型用于搜索用途?!皯锰讱ど獭保╓rappers)實際上處于困境之中:他們要么自主訓練模型,要么就等著被上游大模型徹底取代。他們現在所做的事情,本質上都是為上游大模型廠商進行免費的市場調研、數據設計和數據生成。模型即產品:爆款應用背后是模型能力更新模型即產品:爆款應用背后是模型能力更新資料來源:極客公園,founder park,東吳證券研究所28模型即產品:淺層套殼產品終將被顛覆模型即產品:淺層套殼產品終將被顛覆什么是“淺層套殼產品”?什
61、么是“淺層套殼產品”?“淺層套殼產品”(Wrappers)指的是那些僅僅在強大的底層AI模型(通常通過API調用)之上增加了一個相對簡單的用戶界面(UI)、應用外殼或非?;A的功能封裝,而沒有提供顯著附加價值的應用。這類產品可能包括:提供特定Prompt模板的簡單問答工具。對模型輸出進行非常有限的格式化或后處理的應用。僅僅是換了個皮膚或交互方式來調用通用模型API的服務。缺乏深度工作流整合、獨特數據、復雜功能或差異化用戶體驗的應用。它們的核心競爭力幾乎完全依賴于底層模型的表現,自身的“護城河”它們的核心競爭力幾乎完全依賴于底層模型的表現,自身的“護城河”非常淺。非常淺。我們已經看過了太多的失敗
62、案例。我們已經看過了太多的失敗案例。AI墓地(AI Graveyard)網站統計了5046個AI應用,其中1210個已停止運行或停止服務(截至2025/4/28),其中許多是套殼產品,停運最多的類型是AI寫作工具。這些套殼產品通常模仿大模型如ChatGPT的功能,但由于娛樂性大于實用性、難以應對復雜社交場景、用戶留存和盈利能力不足等原因而失敗。資料來源:甲子光年,AI Graveyard,東吳證券研究所AI Graveyard各類型代表性項目各類型代表性項目類型類型產品名產品名簡介簡介ChatbotAddcontext.xyz為用戶創建個性化聊天機器人的平臺Write-a-cardAI賀卡信息
63、生成器BibleGPT圣經GPTAI WritingNeuralcanvasAI動漫生成平臺Postgeniusapp社交媒體推文生成器ClucSEO優化內容生成工具AI ImagePhotofixAI照片編輯器MakePose角色和動作生成器IllustrateAI插圖生成工具AI DesignAI Designer可視化室內設計工具ProductivityClipGPTAI書簽和筆記工具AudioWhisper.aiopenAI開發的多語言轉錄、翻譯和識別工具VideoQuestion YoutubeAI視頻問答工具29我們認為淺層套殼產品終將被顛覆。為什么?我們認為淺層套殼產品終將被顛覆
64、。為什么?根本原因在于這類產品缺乏可持續的競爭壁壘,極易受到快速迭代的AI技術和市場格局的沖擊:過度依賴底層模型,易受到模型迭代的降維打擊過度依賴底層模型,易受到模型迭代的降維打擊。淺層產品的能力上限完全由底層模型決定。一旦底層模型升級換代緩慢、API提價、調整服務策略甚至停止服務,這些產品將立刻失去競爭力甚至無法生存。它們的命運完全掌握在模型提供商手中。然而,基礎大模型的能力迭代速度極快。今天需要一個“套殼”應用才能實現的功能,明天可能通過調用新一代模型的一個簡單Prompt就能直接完成。模型能力的提升會不斷“內化”原本屬于應用層的功能,使得那些僅僅是對舊模型能力進行封裝的淺層應用迅速變得多
65、余和過時。缺乏核心壁壘,易被復制缺乏核心壁壘,易被復制:由于沒有構建真正的技術或產品壁壘,競爭對手可以輕易地通過調用相同或類似的底層模型API,快速復制出一個功能相近的產品,導致市場迅速陷入同質化競爭和價格戰。平臺整合的擠壓效應平臺整合的擠壓效應:擁有強大基礎模型和生態系統的平臺公司(如微軟、谷歌)傾向于將AI能力深度整合進其操作系統、辦公套件、瀏覽器等核心產品中(如Windows Copilot,M365 Copilot)。用戶在熟悉的、高頻使用的平臺內就能便捷地獲得類似甚至更好的功能,這將極大擠壓獨立的、功能單一的淺層套殼應用的生存空間。模型即產品:淺層套殼產品終將被顛覆模型即產品:淺層套
66、殼產品終將被顛覆平臺方的核心優勢平臺方的核心優勢1.掌控基礎大模型掌控基礎大模型:平臺方如OpenAI、Google、微軟、Anthropic等投入巨資研發和迭代基礎大模型。這些模型是Agent能力的“大腦”,其性能、成本和功能直接決定了上層應用的天花板。應用開發商在很大程度上依賴平臺方提供的模型API。2.控制算力控制算力:Agent的訓練和大規模推理需要龐大的算力、存儲和網絡資源。平臺方通常也是主要的云服務提供商(如AWS、Azure等),它們不僅提供這些底層資源,還越來越多地推出專門的Agent開發、托管和管理平臺。這使得應用開發商在基礎設施層面也對平臺方產生依賴。3.設定技術標準與構建
67、生態設定技術標準與構建生態:平臺方有能力推動和設定關鍵的技術標準和協議(如MCP)。它們通過提供SDK、開發者工具和應用市場(如GPT Store),吸引開發者圍繞其平臺構建應用。一旦生態形成,平臺方可以通過分發、認證、服務抽成等方式進一步鞏固其價值地位,并增加開發者的遷移成本。4.數據與研發的規模效應數據與研發的規模效應:平臺方擁有海量數據用于訓練更通用的基礎模型,并且具備更雄厚的資金實力進行前沿的AI研究。這種規模效應使得它們在提升模型通用能力和探索新技術方面具有顯著優勢。5.強大的分發渠道強大的分發渠道:平臺方通常擁有龐大的現有用戶基礎(操作系統、搜索引擎、辦公軟件、社交網絡、企業客戶群
68、),可以將Agent能力和相關產品快速觸達海量用戶,這是初創應用開發商難以比擬的。資料來源:東吳證券研究所30我們認為真正的壁壘來自于復雜工作流的可靠編排、高質量且持續維護的工具集成能力、難以通過通用模型獲得的深度領域知識。我們認為真正的壁壘來自于復雜工作流的可靠編排、高質量且持續維護的工具集成能力、難以通過通用模型獲得的深度領域知識。這三大要素共同構這三大要素共同構成了超越底層模型能力的、真正可持續的產品壁壘和護城河。它們需要大量的工程投入、領域專長、產品設計智慧和持續運營維護。那些能夠在這幾成了超越底層模型能力的、真正可持續的產品壁壘和護城河。它們需要大量的工程投入、領域專長、產品設計智慧
69、和持續運營維護。那些能夠在這幾個方面建立優勢的個方面建立優勢的 AI Agent 產品,才能在激烈的競爭中脫穎而出,避免淪為被輕易顛覆的“淺層套殼”。產品,才能在激烈的競爭中脫穎而出,避免淪為被輕易顛覆的“淺層套殼”。模型即產品:淺層套殼產品終將被顛覆模型即產品:淺層套殼產品終將被顛覆維度維度能力能力復雜的工作流編排復雜的工作流編排超越簡單腳本:這不是指執行幾個預設的線性步驟。真正的挑戰在于設計和管理能夠處理長鏈條、多分支、包含條件邏輯、循環、甚至并行處理的復雜任務流。Agent 需要能將用戶的模糊意圖或高級目標,分解為一系列具體、可執行的子任務,并規劃它們的執行順序和依賴關系。駕馭現實世界的
70、混亂:現實世界充滿不確定性。API 可能臨時失效、網頁結構可能改版、外部服務可能返回預期外的數據或錯誤。一個強大的 Agent 必須具備復雜的錯誤處理機制(如識別錯誤類型、自動重試、切換備用方案)和動態重規劃能力(在某個步驟失敗或環境變化時,能調整后續計劃以繼續達成目標)。這需要深厚的工程實踐和對失敗模式的充分預估與處理。高質量的工具集成與維護高質量的工具集成與維護超越簡單調用:集成工具遠不止是知道一個 API 端點。高質量集成意味著 Agent 能夠在眾多可用工具中,準確判斷在當前任務的哪個環節、使用哪個工具最合適。特定領域知識與優化特定領域知識與優化領域專業知識和數據的積累是重要的護城河,
71、通用大模型難以直接具備。真正的技術和產品壁壘真正的技術和產品壁壘資料來源:東吳證券研究所31Big Giants:角逐:角逐AGI、通用、通用Agent和流量入口和流量入口我們將我們將Agent分為兩大類型:分為兩大類型:一是垂直型一是垂直型Agent,具有預先設定好的prompt和workflow,通常融合了特定行業的know-how;另一類是通用型;另一類是通用型Agent,其智能程度更高,會根據用戶目標自主生成執行計劃并決定調用哪些工具,因此適用范圍更廣。垂直型垂直型Agent通用型通用型Agent執行方式執行方式類似于編程中的“編譯”“編譯”。用戶在Agent執行任務之前,通過Prom
72、pt、拖拽界面或其他方式,預先設定好一個固定的 Workflow。它會在流程中調用大模型來完成特定步驟,但整體路徑是固定的。類似于編程中的“解釋”“解釋”。Agent在接收到用戶任務之后,在運行時動態地、實時地進行思考、規劃和決策,決定下一步該做什么。Agent根據當前情況和目標,自主生成執行計劃(可能是內部的,也可能展示出來),并靈活調用工具(包括代碼編寫、網頁瀏覽、用戶交互等)來執行。沒有完全固定的、預先編譯好的針對該具體任務的工作流。代表產品代表產品Devin,Cursor(早期或特定功能模式下),以及面向特定行業的智能體,它們往往內置了固化的行業知識和操作流程。OpenAI Deep
73、ResearchManus,OpenAI Operator,Genspark靈活性靈活性靈活性低:無法應對工作流之外的突發情況或新需求。一旦某個環節出錯,可能整個任務就失敗了。靈活性高:能夠應對更廣泛、更開放的任務,可以根據實際情況調整策略,甚至在遇到困難時(如虛擬機崩潰、搜索失?。┠茏灾鲗ふ易兺ǚ椒ǎㄈ缯埱笥脩魠f助)。展現“計算思維”:能根據任務需要,自主選擇最高效的工具和方法,例如判斷出寫代碼比純粹“思考”更有效時就去寫代碼。通用性通用性適用范圍窄:只能處理那些能被預定義流程覆蓋的任務。通用性強:不受限于預設流程,理論上能處理更復雜、新穎的任務。穩定性穩定性穩定可靠:因為流程固定,執行結果
74、相對可預測,不易出錯。穩定性較低:動態規劃可能導致行為不可預測,任務失敗率可能更高。成本成本成本較低:可以優化模型調用,甚至某些步驟無需調用大模型,效率高。成本較高:需要更多的實時思考和規劃,意味著更多的大模型調用,計算成本更高。響應時間較長:實時規劃和執行復雜步驟需要時間,任務耗時可能較長。行業行業know-how易于融入行業Know-how:開發者可以在設計工作流時直接嵌入行業數據。領域知識融入相對困難:主要依賴底層大模型的通用能力,深度垂直領域的Know-how不如編譯型Agent那樣容易直接嵌入。資料來源:東吳證券研究所32Big Giants:角逐:角逐AGI、通用、通用Agent和
75、流量入口和流量入口“通用性”在“通用性”在AI行業發展的主線,也是“皇冠上的明珠”。行業發展的主線,也是“皇冠上的明珠”。L1階段的大模型是通用大模型,到了L2的推理模型,我們也在追求通用推理模型。幾乎沒人去做垂直行業的專屬模型,推理模型一出現就是通用的。我們認為在L3階段,仍然會是大廠(例如美國“七姐妹”、OpenAI、Anthropic以及國內的騰訊、字節、阿里等)主導通用型Agent的格局。通用型Agent要求底層模型具有較強的智能,是幾乎所有的大廠都在追求的皇冠明珠。大廠一方面在底層模型上持續迭代,另一方則布局Agent平臺和生態,并將Agent能力集成到現有的產品和業務中。底層大模型
76、的智能提升如同攀登珠穆朗瑪峰底層大模型的智能提升如同攀登珠穆朗瑪峰策略策略例子例子基礎大模型基礎大模型科技大廠基本都擁有或正在大力投入研發自己的基礎大模型,這是構建Agent能力的核心OpenAI的GPT系列、Google的Gemini、Anthropic的Claude、Meta的Llama、X的Grok、字節的豆包、騰訊的元寶、阿里的通義千問等平臺與生態平臺與生態科技大廠不僅開發自己的Agent應用,更致力于提供Agent開發平臺,構建圍繞自身模型的開發者生態系統,讓第三方也能開發和部署Agent。亞馬遜的Amazon Bedrock Agents、OpenAI的 Agents SDK、微軟
77、的Microsoft Copilot Studio、谷歌的Vertex AI Agent Builder、阿里的百煉、百度的文心智能體平臺等應用集成應用集成將Agent能力集成到現有的核心產品和業務中是普遍策略操作系統(微軟)、辦公軟件(微軟)、社交平臺(Meta的Facebook、X、字節的抖音和頭條、騰訊的公眾號和視頻號)、電商(阿里)、云服務、搜索(百度、谷歌、微軟Bing)等科技大廠主導通用科技大廠主導通用Agent與生態與生態注:縱軸為模型在多個測試集(包括MMLU,GPQA Diamond,MATH-500,HumanEval)的得分均值資料來源:Artificial Analys
78、is,東吳證券研究所33Big Giants:谷歌:谷歌平臺制勝、標準引領、生態融合平臺制勝、標準引領、生態融合谷歌正在構建一個全方位的谷歌正在構建一個全方位的 AI Agent 生態系統,其戰略包括:生態系統,其戰略包括:平臺制勝:以 Vertex AI Agent Builder 為引擎,打造企業級 Agent 開發與部署的強大中樞,最大化整合其在 AI 研究、云計算及開發者生態的深厚積累。標準引領:采取“采納“采納+主導”主導”的雙協議策略(MCP+A2A),既確保當下兼容性,又力圖塑造未來多智能體協作規則,鞏固其平臺和生態的戰略優勢。生態融合:將 Agent 能力深度植入其龐大的現有產
79、品矩陣(搜索、Android、Workspace、Cloud),利用 AI 賦能數十億用戶與企業客戶,實現核心業務的鞏固與擴張。方向方向布局布局Agent產品產品消費者端消費者端:Google Assistant 深度整合 Android 及智能家居生態。企業端企業端:Agent Assist 聚焦呼叫中心,提供實時智能輔助產品深度整合產品深度整合Gemini 驅動同名聊天機器人(前 Bard)。Agent 能力全面滲透全面滲透 Google 核心服務:搜索、Workspace、Android、Cloud 等 Google Assistant SDK 賦能第三方集成基礎模型基礎模型谷歌是 Tr
80、ansformer 架構的奠基者及 LaMDA 的開發者谷歌的 Gemini 系列(Nano/Ultra,1.5 Pro/Flash,2.5 Flash)具有強大的多模態能力和開創性的超長上下文窗口(如 1.5 Pro/Flash 支持 1M tokens)開發者生態開發者生態中心平臺是中心平臺是Vertex AI Agent Builder(基于 Google Cloud),提供構建與部署企企業級多智能體系統業級多智能體系統的端到端端到端解決方案。核心組件包括:核心組件包括:Agent Garden(發現與探索 Agent 范例及工具)、ADK(開源框架,簡化復雜 Agent 構建)、Age
81、nt Tools(全面的工具庫,涵蓋內置工具、內置工具、RAG 引擎、引擎、Google Cloud、MCP 協議支持協議支持及第三方)、Agent Engine(全托管運行時,賦能生產環境的 Agent 部署、管理與規?;瘮U展)、輔助工具(輔助工具(Google AI Studio 提供便捷的 Gemini API 訪問,并與 Langbase 等第三方平臺協同)協議領導力協議領導力采納采納 MCP:擁抱模型上下文協議模型上下文協議(MCP),確保與現有工具生態的廣泛兼容。主導主導 A2A:牽頭發起 Agent2Agent(A2A)協議協議,旨在定義未來定義未來 Agent 間通信與間通信與
82、協作的標準協作的標準,發布即獲 50+伙伴伙伴支持。資料來源:IBM,Google,Platform Engineering,東吳證券研究所34Big Giants:騰訊:騰訊元寶嵌入微信生態,后續潛力值得期待元寶嵌入微信生態,后續潛力值得期待騰訊尚未推出獨立的Agent產品與OpenAI等直接競爭,而是將其AI能力融入到現有生態中,旨在利用網絡效應,通過AI增強核心產品的用戶體驗和粘性,進一步鞏固其生態壁壘。例如,混元大模型已在騰訊內部支持超過700個業務場景。眾多核心產品已接入混元或DeepSeek等模型,例如微信(測試AI搜索功能)、QQ、騰訊文檔(AI輔助創作、潤色、校閱)、QQ瀏覽器
83、、QQ音樂、騰訊會議(會中問答、會議總結和待辦事項整理)等。在廣告和營銷領域,AI被用于智能素材創作和構建智能導購。在agent開發生態方面,開發者可以在騰訊的“元器”平臺上搭建Agent。但是目前平臺上的agent仍以workflow形式為主,功能也較為單一。我們期待后續微信相關生態通過AI Agent進行打通,例如微信元寶作為個人助手,輔助用戶整理消息、制定待辦事項、調用小程序等。微信添加“元寶”作為好友微信元寶尚且不具備調用小程序的能力,目前僅支持搜索網頁和微信公眾號資料來源:壹娛觀察,騰訊研究院,極客公園,證券時報,微信元寶,騰訊元器,東吳證券研究所騰訊元器平臺上的agent以work
84、flow為主35Big Giants:阿里:阿里agent能力嵌入釘釘生態能力嵌入釘釘生態和騰訊類似,阿里目前尚未推出獨立的和騰訊類似,阿里目前尚未推出獨立的agent產品,而是將產品,而是將agent能力整合到現有產品中(例如釘釘),并推出低門檻的能力整合到現有產品中(例如釘釘),并推出低門檻的agent開發平臺:開發平臺:以企業協作為核心突破口。以企業協作為核心突破口。將AI Agent整合到釘釘這一擁有龐大企業用戶基礎的平臺上,是其最核心的策略。通過提升釘釘用戶的辦公效率和自動化水平,阿里巴巴旨在鞏固其在企業服務市場的地位,并將AI能力轉化為實實在在的生產力工具。構建低門檻的構建低門檻的
85、Agent開發平臺。開發平臺。阿里云的百煉平臺提供的零代碼/低代碼Agent創建能力,降低了企業構建定制化AI應用的門檻,有助于推動通義模型和阿里云服務的普及。3月11日,阿里巴巴通義千問與AI創業公司Monica旗下的Agent產品Manus達成合作,基于通義開源模型為中國用戶打造Manus的功能。百煉大模型平臺(百煉大模型平臺(Model Studio)是一個支持零代碼/低代碼創建智能體應用的平臺。開發者可以在百煉上選擇通義千問等大模型,集成RAG能力(連接私有知識庫)和各種插件(如圖像生成、自定義插件)來構建面向特定業務場景的Agent應用。和騰訊元器類似,阿里的百煉平臺仍然是workf
86、low型,智能程度有待提高資料來源:阿里云,觀察者網,東吳證券研究所362025年年4月月18日晚間,字節跳動開啟了通用日晚間,字節跳動開啟了通用Agent平臺平臺扣子空間的內測,采用邀請碼制。平臺上,用戶擁有多樣化的選擇,既可以啟用精通各項技能的“通用實習生”,也扣子空間的內測,采用邀請碼制。平臺上,用戶擁有多樣化的選擇,既可以啟用精通各項技能的“通用實習生”,也能夠選擇“用戶研究專家”“能夠選擇“用戶研究專家”“A股觀察助手”等“領域專家”,通過與股觀察助手”等“領域專家”,通過與AI互動完成各類工作任務?;油瓿筛黝惞ぷ魅蝿?。極客公園對扣子空間進行了實測極客公園對扣子空間進行了實測,在測
87、試的多個任務中,制定旅游攻略和一周穿搭的任務完成情況良好,但是專家助手的任務測試出現諸多問題。在測試的多個任務中,制定旅游攻略和一周穿搭的任務完成情況良好,但是專家助手的任務測試出現諸多問題。以制定日本旅行攻略為例,扣子空間在10分鐘以上完成任務,它運用“邊想邊搜”“邊想邊做”的模式,不僅規劃出合理的行程安排,還生成了包含地圖、景點介紹、必備日語短語以及旅行提示的HTML旅行手冊,甚至還能根據用戶需求提供個性化策劃節目,實用性頗高。此外,在將旅行攻略轉語音以及根據天氣推薦穿搭并制圖的任務中,扣子空間也展現出了一定的能力,雖然存在一些小問題,比如語音朗讀時會讀出符號,首次未按用戶需求輸出穿搭圖片
88、等,但整體功能方便好用。然而,在專家助手的任務測試中,卻出現了諸多問題,像Python腳本調用失敗、API權限異常等Bug,導致任務執行受阻,一個晚上都未能成功完成。在使用“A股觀察助手”時,任務執行也不穩定,出現數據未能獲取、腳本調用失敗的情況,且時長被大幅拉長。值得一提的是,字節在值得一提的是,字節在Agent賽道展現出強大的速度與執行力。賽道展現出強大的速度與執行力。在扣子空間內測前一天,火山引擎面向企業市場推出OS Agent解決方案及AI云原生推理套件,助力企業構建和部署Agent應用。同時,字節發布豆包 深度思考模型,同步升級文生圖模型3.0、視覺理解模型,為扣子空間的功能實現提供
89、了有力的技術支撐?;鹕揭婵偛米T待強調,做好Agent在技術上需具備更強的多模態模型、更好的操作架構工具以及通過AI云原生降低模型推理成本和延遲,扣子空間的內測或許意味著字節已基本達成這些要求??圩又С痔砑涌圩又С痔砑覯CP擴展,接下來或有更多插件接入擴展,接下來或有更多插件接入 專業任務測試:生成專業任務測試:生成A股早報股早報 通用任務測試:根據天氣預報提供穿搭建議通用任務測試:根據天氣預報提供穿搭建議Big Giants:字節:字節展現強大的執行力展現強大的執行力資料來源:極客公園,東吳證券研究所37Niche market:垂直:垂直Agent長期面臨通用長期面臨通用Agent的威脅的
90、威脅通用Agent(如OpenAI Operator)的目標是具備廣泛適用性,能夠操作各種軟件和完成多樣化任務;而垂直Agent(如編程領域的Devin、銷售領域的ElevenX)則專注于特定行業或職能,追求在特定領域的深度和專業性。這場博弈的關鍵在于:通用這場博弈的關鍵在于:通用Agent不斷提升的泛化能力,最終會在多大程度上蠶食甚至取代垂直不斷提升的泛化能力,最終會在多大程度上蠶食甚至取代垂直Agent的市場?的市場?短期內垂直短期內垂直Agent的優勢所在(護城河)的優勢所在(護城河)1.深度領域知識與經驗,在特定領域更高的任務成功率和可靠性深度領域知識與經驗,在特定領域更高的任務成功率
91、和可靠性:這是垂直Agent最核心的壁壘。在特定行業里,往往沉淀了大量非結構化、未文檔化、甚至只可意會的專業知識、術語、流程規范、決策邏輯和“潛規則”。這些深度知識很難通過通用模型的預訓練完全覆蓋,也難以僅通過簡單的Prompt或少量示例教會通用Agent。垂直Agent在特定領域具有優勢。由于深度優化和領域知識的加持,垂直Agent在其專長領域通常能達到比通用Agent更高的任務完成率和可靠性,尤其是在處理邊緣情況和復雜細節時。2.定制化的工作流與集成定制化的工作流與集成:垂直Agent可以針對特定業務流程進行深度定制,無縫集成行業常用的軟件系統(如ERP、CRM、行業數據庫、專用硬件接口等
92、)。這種與現有生態的緊密耦合是通用Agent短期內難以實現的。3.優化后的性能與成本優化后的性能與成本:針對明確的任務范圍,垂直Agent可能采用更輕量、更高效的模型或算法組合,或者通過大量領域數據進行優化,從而在特定任務上實現比通用Agent(可能需要調用昂貴的大模型進行每一步推理)更快的響應速度、更高的穩定性和更低的運行成本。4.數據隱私與合規性數據隱私與合規性:在金融、醫療等高度敏感和受監管的行業,客戶更傾向于選擇了解并能滿足特定數據安全和合規要求的垂直解決方案提供商。通用Agent的數據處理流程可能不夠透明或難以滿足嚴格的行業規范。長期來看通用長期來看通用Agent的威脅(泛化能力的沖
93、擊)的威脅(泛化能力的沖擊)1.基礎模型能力的指數級提升基礎模型能力的指數級提升:通用基礎大模型(尤其是多模態模型)的理解、推理、規劃和學習能力正在快速提升(Scaling Law)。通用Agent的能力上限隨之提升。今天通用Agent難以處理的復雜領域知識或任務,未來可能通過更強大的模型能力輕松解決。2.更強的學習和適應能力更強的學習和適應能力:通用Agent天生設計用于適應各種環境和任務。隨著上下文學習(In-Context Learning)、工具調用(Tool Use)、檢索增強生成(RAG)等技術的成熟,通用Agent能夠更有效地動態獲取和利用外部知識(包括垂直領域的知識庫),彌補自
94、身知識的不足。用戶或企業也可以對通用Agent進行輕量級微調或提供特定指令集,使其快速適應特定需求。3.“足夠好”效應與便利性“足夠好”效應與便利性:對于許多非核心或非極端復雜的垂直任務,用戶可能并不追求極致的專業表現。一個“足夠好”且能夠處理多種任務的通用Agent,可能比管理多個獨立的垂直Agent更加方便和經濟。便利性往往是技術普及的關鍵因素。4.平臺集成與分發優勢平臺集成與分發優勢:通用Agent往往由平臺型巨頭開發,能夠深度集成到操作系統、瀏覽器、辦公套件等用戶日常使用的環境中(如Windows Copilot)。這種無縫集成和巨大的分發優勢,使得用戶更容易接觸和習慣使用通用Agen
95、t,從而擠壓獨立垂直Agent的入口機會。5.成本下降趨勢成本下降趨勢:隨著模型效率提升和市場競爭加?。ㄓ绕涫情_源模型的沖擊),通用大模型的API調用成本預計將持續下降。這可能會削弱垂直Agent在成本上的一些優勢。結論:我們認為,通用結論:我們認為,通用Agent的泛化浪潮對垂直的泛化浪潮對垂直Agent構成了長期且顯著的威脅,但短期內垂直構成了長期且顯著的威脅,但短期內垂直Agent憑借其深度領域知識和定制化能力仍有發展空間。憑借其深度領域知識和定制化能力仍有發展空間。資料來源:東吳證券研究所38Niche market:談談:談談cursor的壁壘的壁壘以以Cursor為例,其成長曲線極
96、其陡峭:為例,其成長曲線極其陡峭:ARR從23Q1的50萬美金增長至25Q1的1.5億美金,2年時間增長約500倍倍;估值從23年12月的4億美金增長至25年3月的100億美金(洽談中),15個月里增長約25倍倍。推動。推動ARR增長的核心邏輯是:增長的核心邏輯是:接入更多的、更好的大模型(例如claude sonnet 3.5);優化產品能力,例如穩定性、反應速度、準確率、跨文檔能力等。cursor成員Aman曾說:“未來一年的Cursor需要讓今天的Cursor看起來過時?!比掌谌掌谑录录嗀RR融資與估值融資與估值2023年年1月月發布cursor2023年年3月月遷移至VSCodium
97、架構,提升IDE穩定性23Q1的的ARR為為50萬美元(免費用戶為主)萬美元(免費用戶為主)2023年年6月月引入引入GPT-4模型模型,代碼生成質量顯著提升2023年年9月月推出20美元/月的pro版120萬美金天使輪:獲得open startup fund 800萬融資2023年年12月月獲得獲得GPT-4 API早期訪問權限早期訪問權限,代碼生成準確率提升至78%2024年年3月月與anthropic達成模型合作,集成集成claude 3.5 sonnet模型模型,響應速度提升450萬美金(Pro版訂閱量激增)2024年年6月月推出推測解碼技術,實現1000 tokens/秒生成速度,使
98、響應延遲降低2024年年8月月A輪融資輪融資6000萬美金,估值萬美金,估值4億美金億美金2024年年9月月引入跨文件修改功能,支持全項目上下文理解24Q3的ARR 2400萬美元2024年年11月月推出企業級SSO功能;上線Codebase Agent,實現代碼庫智能問答ARR預計6500萬美元,付費用戶數4萬人2024年年12月月B輪融資1億美金,估值25億美金2025年年1月月本地代碼索引系統將上下文理解準確率提高至92%2025年年2月月開放本地化部署選項2025年年3月月集成集成Llama3.1 405B模型模型,推理成本降低40%25Q1的的ARR突破突破1.5億美元億美元C輪洽談
99、中,估值預計輪洽談中,估值預計100億美金億美金Cursor的成長曲線極其陡峭的成長曲線極其陡峭資料來源:AI洞見研究院,Z potentials,東吳證券研究所39如何理解如何理解Cursor的壁壘?的壁壘?我們認為Cursor 的壁壘更多來自于圍繞著特定應用場景精心構建的“產品體驗”和“集成工程”,而非技術壟斷壁壘。這是一場關于產品、工程和速度的競賽,而非單純的技術競賽。這個壁壘的“深度”取決于:Cursor 在產品體驗和功能創新上領先競爭對手的速度?;A大模型將Agent 能力“內化”的速度(例如github copilot)競爭對手(例如windsurf、devin)整合 AI 能力的
100、決心和效果如果基礎模型的能力變得足夠強大且易于調用,而競爭對手又能提供足夠好的集成體驗,那么如果基礎模型的能力變得足夠強大且易于調用,而競爭對手又能提供足夠好的集成體驗,那么 Cursor 的壁壘就可能被削弱。的壁壘就可能被削弱。Niche market:談談:談談cursor的壁壘的壁壘CursorWindsurfDevinGitHub CopilotARR與估值與估值ARR1.5億美金(截至25年3月)約3000萬美金(截至25年4月)未披露未披露估值預計100億美金(截至25年3月)預計約30億美金(截至25年4月)40億美金(截至25年3月)微軟旗下產品核心能力核心能力代碼生成支持多模
101、型,實時建議與補全預測用戶意圖,自動生成多文件多任務并行代碼生成與修改實時代碼補全,支持復雜函數實現debug提供實時錯誤檢測與自動修復Inline AI精確控制代碼編輯深度搜索與自動測試自動檢測錯誤并建議修復方案工作流支持多文件上下文理解,跨文件修改Cascade模式自動化工作流Interactive Planning生成任務計劃集成開發環境(如VS Code)文檔生成集成文檔建議,提升開發效率自動生成文檔與注釋Devin Wiki自動索引代碼庫文檔生成與代碼解釋協作能力支持團隊協作提供Memories優化上下文響應多實例并行任務處理提供團隊版,支持多人協作圖像支持無可上傳圖像生成HTML/
102、CSS/JS代碼無無用戶體驗用戶體驗易用性界面簡潔,支持多模式切換功能豐富但入門較難專注任務規劃與深度搜索集成度高,易上手定制化能力支持自定義模型選擇提供上下文優化規則自動化任務規劃與文檔生成對項目需求的適應性強性能快速響應,多模型支持自動化程度高,但需用戶確認深度分析但響應稍慢補全速度快但偶有錯誤市場定位市場定位定價個人版:免費、$20/月、$40/月企業版:$36,096$115,200/年免費、$15/月、$30/月、$60/月$20/月起價+額外購買計算單元$500/月免費、$10/月、$39/月主要面向小型項目或個人開發前端開發大型團隊協作小型項目或個人開發資料來源:Z potent
103、ials,cursor,windsurf,devin,Github,the decoder,signal hub,data camp,cognition,swimm,東吳證券研究所40Niche market:垂直:垂直Agent的價值在于深耕領域知識的價值在于深耕領域知識我們梳理了我們梳理了30家上市公司在家上市公司在AI Agent領域的布局(具體內容見于后文表格),有四點結論:領域的布局(具體內容見于后文表格),有四點結論:1.AI Agent 已成為眾多行業公司的戰略重點已成為眾多行業公司的戰略重點,包括:企業軟件智能化:企業軟件智能化:ERP、OA等領域的公司普遍將 Agent 深度
104、集成到核心系統中,用于自動化流程、輔助決策、提升效率。生產力工具增強:生產力工具增強:辦公、PDF、創意類軟件公司利用 Agent 提供智能寫作、編輯、設計、出版、分析等高級輔助功能。垂直領域深耕:垂直領域深耕:許多公司針對金融、醫療、教育、電商、外貿、司法、政策服務、軟件開發等具體行業的痛點,開發高度專業化的 Agent 解決方案。平臺化賦能:平臺化賦能:部分公司不僅開發應用,還致力于構建 Agent 開發平臺,賦能自身及客戶或第三方開發者。具體來說,這些公司有:綜合科技平臺(昆侖萬維)、企業軟件(用友、金蝶、泛微、致遠、漢得)、辦公與文檔處理(金山辦公、福昕)、創意設計(萬興、美圖)到金融
105、(同花順、新致)、醫療(潤達、衛寧)、教育(佳發、科大訊飛、豆神教育)、體育(舒華體育、Keep)、電商(焦點、值得買、光云)、司法(金橋)、出版(果麥)、編程(卓易)、中小企業服務(創業黑馬)、招聘(科銳國際、北京人力、外服控股、同道獵聘)等多個領域。2.這些產品更接近于這些產品更接近于Agent,而不僅僅是,而不僅僅是Chatbot,原因在于:,原因在于:可以自動完成(特定行業的)任務:可以自動完成(特定行業的)任務:可以自動完成特定的、多步驟的工作流程(如報銷審批、報告生成、代碼編寫、客戶開發、政策匹配等)??梢哉{用(有限的)工具:可以調用(有限的)工具:與軟件(ERP、OA、Offic
106、e、PDF 編輯器、行業軟件)、數據庫、API 等進行交互和操作??梢越鉀Q(相對)復雜的問題:可以解決(相對)復雜的問題:能夠處理需要一定規劃、推理和信息整合才能完成的任務。3.這些公司的這些公司的Agent產品具有相對明確的商業價值。產品具有相對明確的商業價值。例如:例如:大量公司,特別是 ERP、OA、醫療 IT、企業服務領域的廠商,致力于利用 Agent 自動化內部工作流(如審批、報告生成、數據處理、客戶服務、人力資源管理等),實現降本增效。再如再如,軟件工具類公司普遍將 Agent 作為提升核心產品(如 Office、PDF 編輯器、創意軟件)智能化水平的關鍵手段,提供智能輔助、內容生
107、成、數據分析等功能。4.我們認為這些公司在我們認為這些公司在Agent領域的壁壘來自數據、客戶基礎、產品打磨和工程化能力。領域的壁壘來自數據、客戶基礎、產品打磨和工程化能力。資料來源:東吳證券研究所414.我們認為這些公司在我們認為這些公司在Agent領域的壁壘來自數據、客戶基礎、生態構建能力、工程化能力:領域的壁壘來自數據、客戶基礎、生態構建能力、工程化能力:數據壁壘數據壁壘+行業行業 know-how。這是垂直領域這是垂直領域 Agent 最核心的壁壘之一。擁有獨特、高質量、大規模的行業數據,并深刻理解該行業的運作邏輯和痛點,最核心的壁壘之一。擁有獨特、高質量、大規模的行業數據,并深刻理解
108、該行業的運作邏輯和痛點,才能訓練出真正好用的才能訓練出真正好用的 Agent。例如:。例如:同花順(金融數據+用戶行為)、科大訊飛(語音+多行業數據)、焦點科技(外貿 B2B 數據+流程)、衛寧健康(醫療 IT 流程);用友/金蝶(企業經營數據+流程)、新致/金橋(特定行業如金融/司法流程+數據)、潤達(IVD+醫療流程)、佳發(教育考試場景數據)、值得買(消費數據+口碑)??蛻艋A客戶基礎+應用場景應用場景/工作流綁定。工作流綁定。龐大的現有用戶群是龐大的現有用戶群是 Agent 產品推廣、獲取反饋、迭代優化的基礎。將產品推廣、獲取反饋、迭代優化的基礎。將 Agent 深度嵌入客戶難以替代的
109、核心工作深度嵌入客戶難以替代的核心工作流中,能建立極高的用戶粘性和轉換成本。流中,能建立極高的用戶粘性和轉換成本。例如:金山辦公(海量用戶+辦公場景)、用友/金蝶(大量企業客戶+核心 ERP 流程)、泛微/致遠(大量企業客戶+OA 日常工作流)、衛寧健康(醫院客戶+核心診療流程);漢得信息(大型企業客戶+多行業流程實施經驗)、同花順(金融用戶)、福昕軟件(PDF 用戶)、萬興/美圖(創意/影像用戶)、焦點科技(外貿用戶)。品牌信任與合規壁壘:品牌信任與合規壁壘:在金融(同花順、新致)、醫療(衛寧、潤達)、司法(金橋)等高敏感、強監管領域,已有的品牌信譽、客戶信任以及滿足合規要求的能力是重要壁壘
110、。技術平臺與生態構建能力。技術平臺與生態構建能力。具備構建易用、開放的具備構建易用、開放的 Agent 開發平臺或擁有核心底層技術(如自研大模型)的公司,能吸引開發者、聚合應用,形成開發平臺或擁有核心底層技術(如自研大模型)的公司,能吸引開發者、聚合應用,形成網絡效應。網絡效應。例如:昆侖萬維(天工平臺+多模態+開源)、科大訊飛(星火平臺+AI 全棧能力)、同花順(Agent Studio+金融插件生態)、致遠互聯(低代碼 Agent 平臺)、彩訊股份(Rich AIBox 平臺)產品打磨與工程化能力。將產品打磨與工程化能力。將 Agent 技術轉化為穩定、可靠、用戶體驗良好的產品,需要強大的
111、工程化和產品設計能力。技術轉化為穩定、可靠、用戶體驗良好的產品,需要強大的工程化和產品設計能力。例如:金山辦公(WPS AI 用戶體驗)、福昕(PDF 工具成熟度)、萬興/美圖(創意工具易用性)、卓易信息(Multi-Agent 架構實現)Niche market:垂直:垂直Agent的價值在于深耕領域知識的價值在于深耕領域知識資料來源:東吳證券研究所42類型類型公司公司股票代碼股票代碼AgentAgent功能功能文檔處理金山辦公688111WPS AI提供智能伴寫(內容生成/補全/改寫)、數據分析、PPT美化、文檔理解等功能,目標是成為集成化的智能辦公助理,提升辦公效率。文檔處理福昕軟件68
112、8095AI Assistant集成于PDF編輯器,通過自然語言處理提供智能編輯、內容提取、格式調整、文檔摘要、信息安全監控等功能,提升PDF文檔處理效率與安全性。教育佳發教育300559教育Agent聚焦教育垂直領域,構建Agent模型應用于智慧考試(智能監考/分析)、個性化教學輔導、體育訓練等場景,提升教育效率與質量。教育豆神教育300010“超擬人”AI導師打造“超擬人”AI導師,具有引導寫作、作文點評、陪伴學習等功能金融新致軟件688590ACE產品線(Agent/Client/Ent.)面向金融、保險、司法等行業,提供智能營銷代理、智能客服、風險評估等定制化Agent解決方案。金融同
113、花順300033同創智能體平臺(Agent Studio)金融垂直領域的低代碼Agent構建平臺,提供大量金融插件,賦能投研、投顧、量化、風控等場景,服務金融機構與個人投資者。醫療潤達醫療603108“良醫小慧”醫療Agent面向醫護(輔助診療)和患者(健康咨詢/計劃)提供服務;結合IVD業務,利用AI優化診斷服務流程。醫療衛寧健康300253WiNEX Copilot 智能助手嵌入醫院信息系統(HIS/EMR),通過智能化任務流框架,輔助醫生進行病歷書寫、臨床決策、流程管理等,提升醫療工作效率。ERP用友網絡600588企業級AI Agent(基于YonBIP)深度融入ERP系統,賦能財務、
114、供應鏈、人力資源等場景,提供智能決策支持(預算優化/風險預警),推動企業管理智能化。ERP金蝶國際0268(港股)AI Agent+云ERP(蒼穹平臺)集成AI能力于云ERP,覆蓋財務自動化、供應鏈預測、客戶洞察等,通過自然語言交互簡化系統操作,降低中小企業數字化門檻。OA泛微網絡603039AI Agent+OA(集成e-cology)嵌入OA系統,實現智能流程審批、會議紀要自動生成、內部知識問答等,提升日常辦公協同效率,已有較多客戶落地。OA致遠互聯688369低代碼Agent開發平臺 提供低代碼平臺,支持企業便捷構建定制化的Agent,應用于HR、法務、采購等垂直場景.招聘科銳國際300
115、662AI招聘 Agent開發了MatchSystem匹配系統、PC端尋訪自動化Agent等工具,提升招聘效率,計劃2025年進一步推出AI招聘產品。招聘同道獵聘6100(港股)AI面試官“獵聘Doris”自主研發AI大模型“同道匯才”及AI面試官“獵聘Doris”,實現精準崗位匹配,通過國家生成式AI服務備案。營銷邁富時2556(港股)Agentforce推出了營銷領域大模型Tforce和AI智能體中臺AI-Agentforce。編程卓易信息688258AI編程Agent采用Multi-Agent架構,內置多種開發角色Agent,實現從需求到代碼的自動生成(AI Coding)、任務分解、智
116、能調試等,旨在革新軟件開發模式,大幅提升開發效率。Niche market:垂直:垂直Agent的價值在于深耕領域知識的價值在于深耕領域知識資料來源:公司公告,財聯社,新浪財經,智通財經,芥末堆,金融界,中國物流信息網,和訊網,大江網,新浪網,東吳證券研究所43類型類型公司公司股票代碼股票代碼AgentAgent功能功能出版果麥文化301052AI校對/內容輔助工具主要探索利用AI進行文字校對、輔助內容生成與選題策劃等,優化圖書出版流程,提升編輯效率與內容質量。創意軟件萬興科技300624集成式AI Agent/數字人將AI融入視頻剪輯、繪圖、文檔等創意工具,輔助內容創作(自動腳本/智能排版)
117、;推出交互數字人應用于展廳講解、演示等場景。創意軟件美圖公司1357(港股)影像/設計/美業AI Agent在美顏、修圖、視頻編輯等應用中集成AI,提供智能美化與創作功能;面向B端提供AI設計工具和美業解決方案;探索個性化推薦與服務。電商焦點科技002315外貿AI Agent(AI麥可/Mentarc)專注于“AI+外貿”,提供Agent工具(如AI麥可、Mentarc、Sourcing AI),自動化處理客戶開發、選品、營銷、采購、訂單管理等跨境貿易核心流程。電商光云科技688365電商運營/客服Agent面向中小電商企業,提供智能客服(自動應答咨詢/處理訂單)、營銷自動化等工具;探索 A
118、I 在電商數據分析(選品/庫存預測)中的應用,旨在幫助商家降本增效。電商值得買300785“小值”AI購物助手Agent基于自研消費大模型和數據庫,提供商品智能推薦、多維度對比、口碑總結、全網比價等功能,旨在優化用戶購物決策流程,成為需求驅動型電商入口。多智能體科大訊飛002230Agentic AI驅動多重智能體協同Director Agent作為主控智能體,負責整體策略規劃和任務分配。Audience Agent基于多模態大模型,實現受眾刻畫,以及新市場用戶分層。Creative Agent 支持創意生成-創意衍生-創意結構-創意資產沉淀。Optimization Agent,助力企業實現
119、高效冷啟動,快速提升拿量規模。企業服務漢得信息300170企業流程自動化Agent開發大量面向企業具體業務場景的Agent,覆蓋ERP、CRM、供應鏈、制造、營銷、財務等,提供端到端的智能化解決方案,為企業客戶降本增效。企業服務彩訊股份300634Rich AIBox/應用Agent提供多智能體開發平臺(Rich AIBox),降低Agent開發門檻;推出AI郵箱、AI云盤、智能客服、數字員工等Agent應用,服務企業通信、協作與客戶服務。企業服務創業黑馬300688政策通Agent針對中小企業政策查找難、理解難、申報難的痛點,提供政策智能解讀、精準匹配、輔助申報等服務;結合生態伙伴提供云服務
120、和版權服務。司法/政務金橋信息603918司法/政務AI Agent聚焦司法與政務領域,利用AI Agent技術構建多元解紛平臺、智慧法院解決方案(如智能庭審、文書分析),提升公共服務智能化水平。綜合平臺昆侖萬維300418Skywork.ai公司預計將于 2025 年 5 月中旬發布生產力場景通用 Agent 平臺 Skywork.ai,構建由五大 AI Agent 組成的智能體系,分別針對專業文檔、數據表格、演示文稿、播客及網頁內容進行深度優化。體育舒華體育 605299AI健身助手在舒華智能觸屏跑步機上推出新一代“AI健身助手”,能即時輸出包含訓練頻次、動作組合、強度分級的周計劃,并支持
121、按場景篩選居家徒手訓練、健身房器械方案等場景化課程。體育KEEP3650(港股)AI 教練卡卡(Kaka)AI教練卡卡(kaka)可以精準分析用戶運動相關數據,集成了個性化運動計劃、可以動態調節訓練計劃,為用戶打造專屬智能教練。Niche market:垂直:垂直Agent的價值在于深耕領域知識的價值在于深耕領域知識資料來源:公司公告,每日經濟新聞,AI校對王公眾號,大江網,科大訊飛,東吳證券研究所44四、四、Agent將最先落地于知識工作(尤其是代碼)將最先落地于知識工作(尤其是代碼)45Agent最先落地的行業和場景可能是知識工作(尤其是代碼)最先落地的行業和場景可能是知識工作(尤其是代碼
122、)我們認為,我們認為,AI Agent早期落地場景將是通用辦公場景、專業開發領域或特定垂直行業。在這些場景中,早期落地場景將是通用辦公場景、專業開發領域或特定垂直行業。在這些場景中,Agent可以發揮其不斷增強的推理、規劃及工具可以發揮其不斷增強的推理、規劃及工具使用能力(尤其是編碼和操作數字界面),去自動化目前由人類執行的相對標準化、流程化的數字任務。而且在這些場景中,使用能力(尤其是編碼和操作數字界面),去自動化目前由人類執行的相對標準化、流程化的數字任務。而且在這些場景中,Agent提升效率、解放生提升效率、解放生產力的價值能最快體現。而更復雜、需高度創造力(產力的價值能最快體現。而更復
123、雜、需高度創造力(L4)或涉及復雜物理世界交互的任務,是更長遠的目標。)或涉及復雜物理世界交互的任務,是更長遠的目標。自動化重復性、流程化的數字自動化重復性、流程化的數字/知識工作知識工作:這是Agent最容易發揮核心價值的場景,也是我們最看好的早期落地場景。因為:這類任務通常流程相對固定,適合當前 Agent 的規劃和工具使用能力;能顯著提升效率、解放人力(節省注意力),價值明確。軟件開發與編程輔助軟件開發與編程輔助:這是Agent能力(特別是代碼能力)能展現突出優勢,且已經有成功產品的領域。因為:編程環境本就是高度結構化、規則明確的數字環境,非常適合Agent發揮作用;且模型在編碼任務上進
124、步顯著,對開發者生產提升價值巨大。垂直領域的專業垂直領域的專業Agent(如營銷(如營銷/人力資源)人力資源):對于創業公司而言,這是更容易切入和建立壁壘的方向。因為:任務邊界相對清晰,更容易整合領域知識;相比通用 Agent,技術門檻和投入相對較低;商業需求明確。自動化重復性、流程化的數字自動化重復性、流程化的數字/知識工作知識工作軟件開發與編程輔助軟件開發與編程輔助垂直領域的專業垂直領域的專業Agent代表產品OpenAI Deep Research,PerplexityGitHub Copilot,Cursor,Devin如營銷/人力資源等行業的Agent具體能力信息研究與報告生成:自動
125、搜集、整理、分析信息并生成報告,輔助研究人員、分析師等知識工作者。操作軟件和網頁:自動執行需要與軟件界面或網頁交互的任務,如填寫表單、預訂差旅、處理郵件、管理日程、關閉廣告、計算退款等。數據處理與分析:自動執行數據提取、清洗、初步分析等任務。代碼生成、補全、調試:提升開發者效率。復雜開發任務執行:能夠理解需求、規劃步驟、編寫代碼、配置環境、測試、修復 Bug 等更完整的開發流程。API 調用與集成:Agent 利用編碼能力與其他系統或服務交互??蛻舴?處理標準化的客戶請求,如查詢訂單、處理退款等。銷售/市場營銷:自動化部分銷售流程,如潛在客戶篩選、郵件營銷等。人力資源:輔助處理簡歷篩選、安排
126、面試等流程化任務。特定行業:如法律文書輔助、醫療信息查詢與初步分析等資料來源:東吳證券研究所46Agent最先落地的行業和場景可能是知識工作(尤其是代碼)最先落地的行業和場景可能是知識工作(尤其是代碼)根據根據Anthropic在在2025年年3月發布的論文,月發布的論文,Claude AI的使用主要集中在軟件開發(如編程、調試、維護)和寫作任務(如技術寫作、文案寫作、內容編的使用主要集中在軟件開發(如編程、調試、維護)和寫作任務(如技術寫作、文案寫作、內容編輯)上,輯)上,這兩者合計占了近一半的總使用量這兩者合計占了近一半的總使用量。原因在于:。原因在于:編程和寫作都需要依賴大量的背景知識(
127、語法規則、API文檔、特定領域的知識、寫作風格指南等)。LLM可以作為強大的知識庫和應用工具。用戶與用戶與 Claude 交互時的交互時的TOP6場景場景資料來源:Which Economic Tasks are Performed with AI?Evidence from Millions of Claude Conversations,東吳證券研究所注:研究方法:anthropic 對2024年12月和2025年1月的Claude.ai免費版和專業版用戶對話數據進行聚合分析,使用Clio(Claude的內部工具)對應用場景進行分類統計。Claude使用場景分布使用場景分布vs美國從業人員
128、分布美國從業人員分布計算機是使用最集中的場景37%的claude對話vs3.4%的美國從業人員47AI Coding:預計是最快落地的方向:預計是最快落地的方向2024年,谷歌年,谷歌CEO表示,谷歌已經有超25%新代碼,都是由AI生成。2025年年1月月財報電話會議上,Meta的CEO扎克伯格預測,“2025年軟件工程AI將具備中級工程師的編碼和問題解決能力?!北M管這場巨變可能不會立即發生,但他希望Meta能夠引領這場創新。2025年年3月月,Anthropic CEO Dario Amodei 預測,“未來3-6個月,AI將編寫90%的所有代碼。12個月后,AI可能會包攬幾乎全部的代碼?!?/p>
129、Amodei還認為:盡管程序員仍需要負責設定目標和參數,但這些任務很快也會被AI取代;只要還有AI不擅長的“小塊任務”,人類程序員的生產力會得到提升;但最終,這些“小島”都會被AI系統逐一攻克。25年年3月月17日日,OpenAI首席產品官 Kevin Weil 在接受采訪時預測:“到2025年底,AI在編程領域的能力將全面超越人類程序員,到2025年底,AI編碼將實現99%自動化。o1-preview發布后,其實力遠超GPT-4,已經能媲美世界排名前百萬的競賽程序員。要知道,全球大概有3000-4000萬程序員,o1-preview已經達到了前2-3%的人類level了。等到o1滿血版正式版
130、發布時,在競賽編程方面,已經能達到世界TOP 1000工程師的水平?,F在我們正在訓練新一代模型,它們的表現更加出色。所以,我認為就在今年,至少在競賽編程這個領域,AI就會實現超越。就像70年前AI在數學運算上超過了人類,15年前在國際象棋上戰勝了人類,今年將是AI在編程能力上永久超越人類的一年。這個發展趨勢已經不可逆轉了?!辟Y料來源:新智元,AIM India,東吳證券研究所48Coding Agent:預計是最快落地的方向:預計是最快落地的方向我們認為,編程會是我們認為,編程會是Agent領域最快實現領域最快實現PTF和和PMF、最先商業化、迭代最快的領域。原因在于、最先商業化、迭代最快的領
131、域。原因在于Coding能夠為能夠為Agent提供提供理想的環境、成熟的工具、清理想的環境、成熟的工具、清晰的反饋晰的反饋,且具有明確的價值主張,且具有明確的價值主張:理想的環境理想的環境(Environment):Agent 的設計深受強化學習影響,其核心要素是狀態狀態(State/Context)、行動、行動(Action/Tool Use)和激勵信號和激勵信號(Reward Signal)。一個好的 Agent 應用需要一個能夠提供清晰反饋的環境。而集成開發環境(IDE)是天然的優質環境:代碼本身是高度結構化的文本,有嚴格的語法和語義規則,便于模型理解和生成。IDE(如 VS Code)
132、提供了結構化的項目信息(狀態/上下文),明確的行動空間(代碼編輯、編譯、運行、調試等工具),以及最重要的即時且明確的反饋。相對成熟的工具相對成熟的工具(tools):IDE、版本控制系統(Git)、包管理器、測試框架等構成了成熟的開發工具鏈,為 Agent 提供了豐富的Tools。清晰的反饋(清晰的反饋(reward):大模型的輸出一定得是結構化的。因為只有結構化了,才能夠去用代碼或者規則去校驗。代碼作為輸出,其結構化特性使得自動化驗證(編譯、測試)成為可能。在代碼領域,軟件開發任務(如“修復這個 bug”、“實現這個功能”、“編寫單元測試”)雖然復雜,但往往可以被分解為更結構化的子任務。代碼
133、執行結果(成功、失敗、錯誤信息、測試結果)是天然的、客觀的“激勵信號”。Agent 執行一個操作(寫代碼、修改代碼)后,可以通過編譯運行或跑測試立刻知道這個操作是好是壞(離目標更近還是更遠),這對于 Agent 的學習和迭代至關重要。這解決了通用領域中難以定義“好壞”和提供及時反饋的問題。明確的價值主張和用戶痛點明確的價值主張和用戶痛點:效率提升效率提升:編碼工作中有大量重復、繁瑣、易出錯的任務(如寫樣板代碼、調試、測試、文檔生成),Agent 在這些方面能顯著提升開發者效率。降低門檻降低門檻:Agent 可以輔助初級開發者或進行跨語言/框架開發,降低學習曲線。市場需求市場需求:軟件開發是高價
134、值行業,對生產力工具的需求巨大,為 Coding Agent 提供了明確的市場切入點和商業化潛力。資料來源:東吳證券研究所49維度維度Harvey AICoCounsel(Thomson Reuters)SpellbookTucan.ai核心功能核心功能 法律研究、文件分析、合同起草 訴訟支持 文檔總結、問答和條款修改 性能穩定 合同起草、條款審查、錯誤檢測 法律文檔自動化 面向GDPR合規的文檔分析、轉錄和合同管理準確性準確性 文檔Q&A準確率達94.8%擅長時間線生成和轉錄分析 文檔Q&A準確率89.6%總結準確率77.2%在合同審查和條款修改中表現出色 缺乏訴訟相關工具定制化能力定制化能
135、力 提供定制化法律提供定制化法律LLM,可根據律所需求調整。定制化能力有限,但在通用法律任務上表現可靠。專注于簡單易用的界面,適合合同相關任務,但定制化能力較弱。提供高度可定制提供高度可定制的合同和文檔模板集成能力集成能力 無縫集成 Microsoft Word,支持多文檔數據洞察。與 Thomson Reuters 生態系統集成良好,但在其他平臺上的靈活性較差。界面友好,但缺乏高級集成功能,如對 MS Word 的支持。集成選項有限,僅限核心功能范圍內使用。速度速度 響應速度最快響應速度最快,大多數查詢可在1分鐘內完成處理 速度較快,通常也在1分鐘以內完成,但某些任務上略慢于 Harvey
136、AI 合同相關任務響應迅速,但在全面法律工作流中不夠全面 速度適中,在轉錄任務中表現出色,但多步驟流程較慢。安全性與合規性安全性與合規性 高安全標準(基于 Microsoft Azure)但歐盟客戶可能存在 GDPR 合規性疑慮。數據安全措施可靠 未明確提及 GDPR 合規性 標準安全功能 未特別提到 GDPR 等合規框架支持 完全符合完全符合 GDPR 合規要求合規要求,非常適合歐洲律所使用市場定位市場定位 面向全球大型律所,處理復雜的跨司法轄區案件;已被 Allen&Overy 等頂級律所采用。適用于需要強大文檔處理能力的律所 適合專注于合同工作的中小型律所。主要面向需要嚴格數據保護的歐洲
137、律所客戶群體。Agent最先落地的行業和場景可能是知識工作最先落地的行業和場景可能是知識工作在法律在法律AI Agent中,中,Harvey AI是目前估值最高的公司是目前估值最高的公司,25年1月完成3億美元融資,估值達30億美元;截至25年初,ARR達5000萬美元。相較于其他法律Agent,Harvey AI全面且高效,適用于大型律所(可以處理復雜的跨司法轄區案件)。其他產品則有不同側重點,例如CoCounsel擅長文檔總結或問答功能;Spellbook經濟實惠,在合同工作方面表現出色,適合中小型律所;而Tucan.ai則以“完全符合GDPR合規要求”為賣點,主要面向需要嚴格數據保護的歐
138、洲客戶群體。法律法律AI Agent對比對比資料來源:tools for humans,Thomson Reuters,AI Tech suite,future pedia,東吳證券研究所505.1 展望:展望:Agent迭代的迭代的Roadmap近期(現在近期(現在-2年)年)中期(中期(2-5年)年)長期(長期(5+年)年)垂直領域深耕與可靠性提升垂直領域深耕與可靠性提升能力泛化與適應性增強能力泛化與適應性增強邁向更強的自主性與通用性邁向更強的自主性與通用性通用性通用性近期內將是“垂直近期內將是“垂直 Agent”的時代。的時代。焦點會集中在那些擁有良好“環境”和清晰“反饋”機制的領域,例
139、如Coding Agents、軟件自動化 Agents(如 Office 套件、CRM、ERP)、結構化數據處理 Agents。領域知識的深化與學習領域知識的深化與學習:Agent 開始積累特定領域的“經驗”。通過與用戶的交互、成功/失敗案例的學習,Agent 在其垂直領域內的表現會持續優化,更懂用戶的意圖和偏好。(基于 Fine-tuning 或 In-Context Learning 的增強)“領域通用”“領域通用”Agent 的雛形的雛形:出現一些能夠在一類相似垂直領域(例如,多種不同的編程語言或多種數據分析工具)工作的 Agent,展現出初步的跨領域適應性。更通用的問題解決能力更通用的
140、問題解決能力:Agent 能夠理解和處理更開放、更模糊的任務目標,自主進行信息檢索、知識學習、復雜規劃,并適應全新的環境和工具。這更接近 AGI 的愿景,但可能仍會在某些方面受限。自主學習與自我改進自主學習與自我改進:Agent 不僅能從外部反饋中學習,還可能具備一定程度的自我評估和模型/策略優化能力,實現更快的迭代和能力提升。工具調用工具調用工具調用的精細化工具調用的精細化:Agent 將更擅長理解和調用現有的、標準化的工具(MCP 理念)。重點在于提高工具選擇的準確性、參數傳遞的正確性以及對返回結果的理解??绻ぞ呖绻ぞ?跨應用協作跨應用協作:Agent 將能夠編排更復雜的跨應用工作流。例如
141、,一個 Agent 可以從郵件中提取需求,在項目管理工具中創建任務,調用代碼生成工具完成部分代碼,然后通知相關人員。復雜的多復雜的多 Agent 協作協作:多個擁有不同專長的 Agent 能夠動態地、高效地協同工作,共同解決極其復雜的問題,可能涉及協商、任務分配、知識共享等復雜交互。規劃能力規劃能力基礎規劃能力的提升基礎規劃能力的提升:能夠處理相對線性的、步驟明確的任務分解。Agent 可以將一個中等復雜度的目標拆解成一系列順序的工具調用或代碼生成步驟。更強的規劃能力更強的規劃能力:能夠處理包含分支、循環、更復雜依賴關系的任務。記憶能力記憶能力有限的上下文記憶有限的上下文記憶:主要依賴于單次任
142、務會話中的上下文信息。更長程的記憶與個性化更長程的記憶與個性化:Agent 能記住跨會話的上下文、用戶偏好、項目特定知識,提供更個性化、更連貫的輔助??煽啃钥煽啃钥煽啃耘c抗“幻覺”能力的增強可靠性與抗“幻覺”能力的增強:更加重視執行結果的驗證。利用代碼執行、API 調用結果校驗、結構化輸出檢查等方式,確保每一步操作的準確性,避免錯誤累積。更強的糾錯能力:更強的糾錯能力:當某個步驟失敗或遇到預期外情況時,Agent 能具備一定的自主糾錯、嘗試替代方案或向用戶尋求澄清的能力。倫理與安全框架的成熟倫理與安全框架的成熟:隨著 Agent 自主性和能力的增強,健全的倫理規范、安全約束和可解釋性機制將變得
143、至關重要,并深度集成到 Agent 的設計中。其他其他人機協作界面的優化人機協作界面的優化:從簡單的指令接收變為更具交互性的協作模式。Agent 可能會主動提問、提供選項、解釋其推理過程,與人類共同完成任務。對物理世界或更復雜環境的理解對物理世界或更復雜環境的理解:如果與機器人技術等結合,Agent 可能具備理解和操作物理世界的能力,或者在極其復雜的模擬環境中運行。我們預計我們預計Agent可能按照以下可能按照以下roadmap進行發展,總體趨勢是向著進行發展,總體趨勢是向著更強能力、更高可靠性、更好適應性和更廣闊應用范圍更強能力、更高可靠性、更好適應性和更廣闊應用范圍發展。發展。資料來源:海外獨角獸,東吳證券研究所52