《計算機行業專題報告:“AI操作系統”時代已至-241201(21頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業專題報告:“AI操作系統”時代已至-241201(21頁).pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、 計算機/行業專題報告/2024.12.01 請閱讀最后一頁的重要聲明!“AI 操作系統”時代已至 證券研究報告 投資評級投資評級:看好看好(維持維持)最近 12 月市場表現 分析師分析師 楊燁 SAC 證書編號:S0160522050001 分析師分析師 李宇軒 SAC 證書編號:S0160524080001 相關報告 1.智駕月報:10 月車市環比向好,文遠知行上市 2024-11-18 2.計算機行業 2025 年投資策略:多維共振,精彩紛呈 2024-11-17 3.外政預緊,內需預旺,國產科技迎騰飛機遇 2024-11-10 核心觀點核心觀點 AI+OS,操作系統級,操作系統級 Ag
2、ent 開啟人機交互革命開啟人機交互革命。AI 賦能 OS,操作系統級Agent 由于其 C 端入口特性,有望成為首個“爆款”AI 應用。當前市場中長期缺乏“爆款”AI 應用,我們認為主要系 C 端大眾對 AI 的感知度仍然較低,盡管有大量可下載、可付費的 AI 應用存在,但從廣大用戶體驗來講,各類 AI 軟件對其生活重塑的邊際變化不大。而近期,包括手機端蘋果、榮耀、包括手機端蘋果、榮耀、Vivo 等,等,以及以及 PC 端聯想等廠商上新操作系統級端聯想等廠商上新操作系統級 Agent 作為新的人機交互形態,以作為新的人機交互形態,以端端側側入口形式首次深入群眾入口形式首次深入群眾,令其令其“
3、被迫被迫”體驗接受新的操作范式體驗接受新的操作范式,有望打造首個有望打造首個“爆款爆款”AI 應用應用,由此將帶動由此將帶動 AI 端側端側硬件需求涌現硬件需求涌現,以及刺激軟件內部以及刺激軟件內部 AI 功功能快速迭代。能快速迭代。建立交互數據集建立交互數據集,深耕深耕 Post-Training,獲得獲得“從從 Chat 走向走向 Act”通用通用Agent 能力能力。智譜的 Agent 能力主要來源于其底層大模型的訓練與迭代:CogAgent 是 18B 參數的視覺語言模型(VLM),專門用于 GUI 理解和導航,基于視覺語言模型 CogVLM 并結合高分辨率交叉模塊,實現了高效 GUI
4、 推理;AutoWebGLM 通過簡化 HTML 增強網頁閱讀能力,添加人類與 AI 混合方法構建的網絡瀏覽數據集進行微調,大幅提升大語言模型的 Agent 能力;AutoGLM 實現圖形用戶界面的自主基礎 Agent,可用于網頁瀏覽與安卓手機操作,與人類表現差距進一步縮小。我們認為,智譜克服了當前我們認為,智譜克服了當前 Agent 訓練的訓練的堵點,通過建立網頁瀏覽交互數據集,以及在強化學習、微調階段進行算法創堵點,通過建立網頁瀏覽交互數據集,以及在強化學習、微調階段進行算法創新,實現了在大語言模型上操作系統級新,實現了在大語言模型上操作系統級 Agent 突破。突破。GLM 多端多端 A
5、gent 家族,打造手機、家族,打造手機、PC、汽車等終端交互入口、汽車等終端交互入口。(1)GLM-Phone:可實現跨 APP 操作、支持超長任務流程、支持更多主流 APP,針對手機端應用提供了新的解決方案,顯著擴展了其在手機端的應用場景和操作能力;(2)GLM-PC:辦公領域將迎來生產力躍升,GLM-PC 可實現會議替身、文檔處理、網頁搜索與總結、遠程和定時操作等;(3)GLM-Car&More:Agent 為 AI 終極形態,加速萬物智能、萬物互聯,未來 Agent 有望滲透至各類智能設備,落地 AI 原生設備,實現設備主動服務用戶。投資建議:投資建議:見正文。風險提示:風險提示:技術
6、迭代不及預期;商業化落地不及預期;政策支持不及預期;全球宏觀經濟風險。單擊或點擊此處輸入文字。-37%-25%-13%-1%10%22%計算機滬深300 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 2 行業專題報告/證券研究報告 1 AI+OS,操作系統級,操作系統級 Agent 開啟人機交互革命開啟人機交互革命.4 2 建立交互數據集建立交互數據集,深耕深耕 Post-Training,獲得獲得“從從 Chat 走向走向 Act”通用通用 Agent 能力能力.6 2.1 CogAgent:CogVLM 結合高分辨率交叉模塊,實現高效結合高分辨率交叉模塊,實現高效 GUI 推理推理.6
7、 2.2 AutoWebGLM:基于大語言模型的:基于大語言模型的 Web 導航導航 Agent.8 2.3 AutoGLM:圖形用戶界面的自主基礎:圖形用戶界面的自主基礎 Agent,可用于網頁瀏覽與安卓手機操作,可用于網頁瀏覽與安卓手機操作.11 3 GLM 多端多端 Agent 家族,打造手機、家族,打造手機、PC、汽車等終端交互入口、汽車等終端交互入口.13 3.1 GLM-Phone:可實現跨:可實現跨 APP 操作、支持超長任務流程、支持更多主流操作、支持超長任務流程、支持更多主流 APP.13 3.2 GLM-PC:辦公領域將迎來生產力躍升:辦公領域將迎來生產力躍升.15 3.2
8、.1 CogAgent 實現實現 Computer Use.15 3.2.2 AutoGLM-Web 進一步擴展進一步擴展 AI 搜索能力邊界搜索能力邊界.18 3.3 GLM-Car&More:Agent 為為 AI 終極形態,加速萬物智能、萬物互聯終極形態,加速萬物智能、萬物互聯.19 4 投資建議投資建議.20 5 風險提示風險提示.20 圖圖 1.Agent 類型分為通用型與垂域型兩個層面類型分為通用型與垂域型兩個層面.4 圖圖 2.智譜清言智譜清言 Agent 發展歷程發展歷程.5 圖圖 3.智譜清言智譜清言 GLM Agent 系列產品系列產品.6 圖圖 4.CogAgent 模型
9、架構模型架構.7 圖圖 5.CogAgent 在多個測試集上顯著領先通用模型,部分領域領先專業微在多個測試集上顯著領先通用模型,部分領域領先專業微調模型調模型.8 圖圖 6.AutoWebGLM 的系統架構的系統架構.9 圖圖 7.訓練步驟包括課程學習、強化學習、拒絕采樣微調訓練步驟包括課程學習、強化學習、拒絕采樣微調.9 圖圖 8.訓練數據集構建包括簡單和復雜任務兩部分訓練數據集構建包括簡單和復雜任務兩部分.10 圖圖 9.AutoWebGLM 在在 Mind2Web、MiniWoB+和和 WebArena 上測試性能具有明顯優勢上測試性能具有明顯優勢.11 圖圖 10.通過通過 AutoG
10、LM 在美團在美團 App 上上“點一杯半糖瑞幸熱椰奶拿鐵點一杯半糖瑞幸熱椰奶拿鐵”.12 圖圖 11.在在 VAB-WebArena-Lite 上各模型與人類表現的差距上各模型與人類表現的差距.12 圖圖 12.在在 AndroidLab(VAB-Mobile)上測試各模型的成功率)上測試各模型的成功率.13 圖圖 13.GLM-Phone 前版本操作示例前版本操作示例.13 圖圖 14.GLM-Phone 跨跨 APP 操作實例操作實例.14 內容目錄 圖表目錄 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 3 行業專題報告/證券研究報告 圖圖 15.GLM-Phone 多步驟任務流程
11、實現多步驟任務流程實現.15 圖圖 16.GLM-Phone 循環任務執行循環任務執行.15 圖圖 17.GLM-PC 實現實現 Computer Use.16 圖圖 18.GLM-PC 理解指令、規劃任務、逐步完成理解指令、規劃任務、逐步完成.16 圖圖 19.GLM-PC 隱形屏幕功能隱形屏幕功能.17 圖圖 20.像人一樣使用電腦,具備更高能力上限像人一樣使用電腦,具備更高能力上限.17 圖圖 21.通過通過 Web Agent 實現給智譜清言微博點贊、評論流程自動化實現給智譜清言微博點贊、評論流程自動化.18 圖圖 22.AutoGLM-Web 的操作面板的操作面板.18 圖圖 23.
12、AutoGLM-Web 的基礎的基礎 AI 生成功能生成功能.18 圖圖 24.智譜與小鵬合作的智譜與小鵬合作的“AI 小小 P”.19 圖圖 25.大模型為智能設備帶來新的機會大模型為智能設備帶來新的機會.20 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 4 行業專題報告/證券研究報告 1 AI+OS,操作系統級操作系統級 Agent 開啟人機交互革命開啟人機交互革命 AI 賦能賦能 OS,操作系統級,操作系統級 Agent 由于其由于其 C 端入口特性,有望成為端入口特性,有望成為首首個個“爆款爆款”AI應用應用。AI Agent(人工智能代理)一般認為是能夠感知環境,基于目標進行決
13、策,并利用工具自主執行動作的智能化應用,其包括規劃、記憶、工具、行動四大核心能力。我們認為 Agent 可以進一步劃分為通用與垂域兩個層級:通用層級:壁壘在于底層大模型能力,終局大概率為少數有實力的大型廠商。其分類包括操作系統級與平臺級 Agent:操作系統級 Agent 可跨應用、跨界面甚至跨設備操作,是對不同細分功能協調的“總指揮”;平臺級 Agent 是底層通用模塊的組合,用戶可根據自己所需功能調用或搭建。垂域層級:壁壘在于高質量數據、工作流 know-how 與行業工具生態。包括眾多細分行業的應用智能化與流程自動化,包括辦公、金融、醫療、法律、教育、創意設計等。不過其中一些非交互性、高
14、度流程化的應用功能,也存在被通用層級 Agent“吃掉”的風險。當前市場中長期缺乏“爆款”AI 應用,我們認為主要系 C 端大眾對 AI 的感知度仍然較低,盡管有大量可下載、可付費的 AI 應用存在,但從廣大用戶體驗來講,各類 AI 軟件對其生活重塑的邊際變化不大。而近期,包括手機端蘋果、榮耀、包括手機端蘋果、榮耀、Vivo 等,以及等,以及 PC 端聯想等廠商上新端聯想等廠商上新操作系統級操作系統級 Agent 作為新的人機交互形態,作為新的人機交互形態,以以端側端側入口形式入口形式首次深入群眾首次深入群眾,令其“被迫”體驗接受新的操作范式,有望打造令其“被迫”體驗接受新的操作范式,有望打造
15、首個“爆款”首個“爆款”AI 應用應用,由此將帶動,由此將帶動 AI 端側端側硬件需求涌現,以及刺激軟件內部硬件需求涌現,以及刺激軟件內部 AI功能快速迭代功能快速迭代。圖1.Agent 類型分為通用型與垂域型兩個層面 數據來源:中國 Agent 應用研究報告InfoQ 研究中心,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 5 行業專題報告/證券研究報告 智譜開創了操作系統級智譜開創了操作系統級 Agent 從模型訓練到應用落地的先河,搭建了完備的技術從模型訓練到應用落地的先河,搭建了完備的技術棧,開啟了新的人機交互革命。棧,開啟了新的人機交互革命。11 月 29 日智譜
16、 Agent 開放日,智譜發布了多項Agent 突破,包括:自主任務完成智能體 AutoGLM 可以自主執行超過 50 步的長步驟操作,也可以跨 App 執行任務;AutoGLM 開啟“全自動”上網新體驗,支持數十個網站的無人駕駛;GLM-PC 啟動內測,基于視覺多模態模型實現通用 Agent的技術探索,涵蓋會議代理、文檔處理、網頁搜索與總結、遠程及定時操作、隱形屏幕等功能。自 2023 年 4 月份推出 AgentBench 以來,智譜團隊投入一年半時間,專注于 AutoGLM 及 CogAgent 的研發,在國內乃至國際上實現了領先。今年10 月 23 日,Anthropic 推出了 Co
17、mputer Use 功能,讓 Claude 能夠像人類一樣操作電腦,目前仍處于測試階段,而當前智譜已實現了 Agent 技術的產品化。從技術層面,AutoGLM 團隊研究發現,GUI Agent 發展趨勢與大模型相似,同樣存在推理的 Scaling Law 和模型涌現:Agent 有 o1 Scaling(推理規模擴張帶動模型能力提升),與 o1 的推理過程類似,存在環境的反饋監督,以及隨著推理訓練時間的增加,模型能力也顯著提升。Agent 有 Emergent Ability(涌現能力),在計算量較低時 Agent 可以適應單應用、短距離的任務復雜度,但當計算量突破一定程度模型突然能夠實現
18、跨應用長距離的復雜任務,同時還能在從未訓練過的環境執行命令,泛化能力顯著增強。圖2.智譜清言 Agent 發展歷程 數據來源:智譜清言官方發布會,財通證券研究所 打造多終端打造多終端 Agent 產品矩陣,以產品矩陣,以 AutoGLM、CogAgent 作為技術底座,實現在各作為技術底座,實現在各類終端的類終端的 GLM-OS 通用性。通用性。智譜認為,手機+AI 會變成隨身個人智能助理,PC+AI將會成為全新生產力工具,汽車+AI 將會讓車成為人們的智能第三生活空間,大模型不僅僅會為手機、PC 和汽車帶來機會,更會惠及各種各樣的智能設備。隨著端側算力的不斷提升,以及專為 AI 原生設備設計
19、的模型和端云協同架構的出現,Agent 技術不僅在操作系統和應用層面引領用戶體驗的革新,更將這一變革延伸 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 6 行業專題報告/證券研究報告 至各類智能設備,包括手機、電腦、汽車、眼鏡、智能家居等,Agent 賦能軟硬件一體將重塑人機交互范式。圖3.智譜清言 GLM Agent 系列產品 數據來源:智譜清言官方發布會,財通證券研究所 2 建立交互數據集,建立交互數據集,深耕深耕 Post-Training,獲得獲得“從“從Chat 走向走向 Act”通用通用 Agent 能力能力 2.1 CogAgent:CogVLM 結合高分辨率交叉模塊,實現高
20、效結合高分辨率交叉模塊,實現高效 GUI 推理推理 CogAgent 是是 18B 參數的參數的視覺視覺語言模型(語言模型(VLM),專門用于),專門用于 GUI 理解和導航。理解和導航。2023年 12 月,清華 KEG 實驗室與智譜 AI 聯合推出了 CogAgent,一個通用的視覺理解大模型,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,可接受 11201120 的高分辨率圖像輸入,使其能夠識別微小的頁面元素和文本。CogAgent 是基于預訓練的 VLM(CogVLM-17B,開源大型視覺語言模型),并添加了一個交叉注意模塊(EVA2-CLIP-L,0.
21、30B 參數的高分辨率圖像編碼器)來處理高分辨率輸入。添加該模塊主要是因為高分辨率圖像會導致極大的計算時長和內存開銷:視覺語言模型通常將文本和圖像特征序列連接起來作為輸入提供給解碼器,因此自注意力模塊的計算成本與視覺補丁的數量成二次方。在低分辨率下,圖像能夠有效地描繪大多數物體和布局,然而在清晰呈現文字方面有所不足;高分辨率模塊強調與文本相關的特征,對于理解圖形用戶界面至關重要。因此,該方法通過合理分配資源,使模型能理解高分辨率的 GUI 圖片,同時有效降低了顯存與計算開銷。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 7 行業專題報告/證券研究報告 圖4.CogAgent 模型架構 數據
22、來源:CogAgent:A Visual Language Model for GUI Agents清華大學、智譜清言團隊,財通證券研究所 預訓練預訓練數據集與訓練方法與一般多模態訓練有明顯不同數據集與訓練方法與一般多模態訓練有明顯不同:(1)文本識別文本識別:識別高分辨率圖像中各種大小、方向和字體的文本能力,數據包括來自語言預訓練數據集(8000 萬)的合成渲染圖像中的文本、自然圖像的光學字符識別(OCR)(1800萬張)、學術文獻(9M);(2)視覺定位視覺定位:圖像中文本和對象的定位能力,使用從LAION-115M 中采樣的包含 4000 萬張圖像及其圖像-標題對的構建的視覺定位數據集,
23、將標題中的實體與邊界框相關聯以指示它們的位置;(3)GUI 圖像分析圖像分析:對 GUI 圖像(如網頁)的專門理解能力,作者設計了兩個開創性的 GUI 定位任務,一是 GUI 引用表達式生成(REG),即模型根據屏幕截圖中的指定區域為 DOM(文檔對象模型)元素生成 HTML 代碼,二是 GUI 引用表達式理解(REC),即為給定的 DOM 元素創建邊界框。為為提升提升模型性能,并確保其在模型性能,并確保其在 GUI 環境中與人類指令保環境中與人類指令保持一致,持一致,需要進行模型需要進行模型微微調調與對齊與對齊。作者手動從手機和電腦收集了超過 2,000 張截圖,每張都由人類標注員以問答的形
24、式標注了屏幕元素、潛在任務和操作方法。同時還利用 Mind2Web和 AITW 這兩個專注于網絡和安卓行為的數據集,并使用 GPT-4 將其轉換為自然 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 8 行業專題報告/證券研究報告 語言的問答格式。此外,作者將多個公開可用的視覺問答(VQA)數據集納入對齊數據集中,提升模型與人類行為的一致性。CogAgent 作為一個通用的視覺語言模型,作為一個通用的視覺語言模型,在在眾多眾多視覺問答基準測試中實現了最視覺問答基準測試中實現了最先進的水平,包括先進的水平,包括 VQAv2、OK-VQA 等等。測試發現,CogAgent 在一般視覺問答與富含文
25、本的視覺問答基準測試當中都表現優異,尤其相比通用模型有明顯得分優勢,與微調專業模型相比也屬于領先梯隊。此外,CogAgent 在 PC 和 Android GUI 導航任務 Mind2Web 和 AITW 上也優于基于 LLM 的方法的模型,如 GPT-4、LLaMA2 等。圖5.CogAgent 在多個測試集上顯著領先通用模型,部分領域領先專業微調模型 數據來源:CogAgent:A Visual Language Model for GUI Agents清華大學、智譜清言團隊,財通證券研究所 2.2 AutoWebGLM:基于大語言模型的基于大語言模型的 Web 導航導航 Agent 通過
26、簡化通過簡化 HTML 增強網頁閱讀能力,添加人類與增強網頁閱讀能力,添加人類與 AI 混合方法構建的網絡瀏覽數混合方法構建的網絡瀏覽數據集進行微調,大幅提升大語言模型的據集進行微調,大幅提升大語言模型的 Agent 能力。能力。2024 年 10 月,清華與智譜團 隊 發 布 基 于 大 語 言 模 型 ChatGLM3-6B 微 調 的 用 于 網 頁 自 動 導 航 的AutoWebGLM。該模型由兩個關鍵組件組成:LM 代理和交互框架。LM 代理從各種來源獲取數據進行學習,利用強化學習和 RFT 來增強網頁瀏覽能力;交互框架使用各種網頁處理模塊來組織簡潔的 HTML 和其他信息,供 L
27、M 代理做出決策,然后由自動化瀏覽程序執行這些決策。該模型有幾大創新點解決了傳統 LLM 的痛點問題:HTML 簡化算法降低了簡化算法降低了 HTML 文本數據的復雜性文本數據的復雜性:作者通過 HTML 簡化和OCR(光學字符識別)模塊處理信息,在獲取 HTML 和網頁截圖后生成簡化的 HTML 表示形式,并為 Agent 交互標記了可操作元素。OCR 模塊用于在圖像解析期間標注文本元素。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 9 行業專題報告/證券研究報告 采用一種人類與采用一種人類與 AI 混合的方法來構建網絡瀏覽數據進行課程訓練,實現網混合的方法來構建網絡瀏覽數據進行課程訓練
28、,實現網頁上操作的通用性:頁上操作的通用性:鑒于人工成本高昂以及當前大模型在自動數據生成方面的不足,作者在網頁識別、簡單任務操作、復雜任務操作構建方面都采用了人機混合的方法,人工篩選網站并構建網頁操作類型分割,大模型輔助生成任務和操作意圖。通過強化學習和拒絕采樣微調通過強化學習和拒絕采樣微調(Rejection Sampling Fine-Tuning)來增強模來增強模型,以進一步促進網頁理解、瀏覽器操作和高效的任務分解:型,以進一步促進網頁理解、瀏覽器操作和高效的任務分解:將模型采樣的輸出與正確答案相結合,構建具有正負對的對比數據,讓模型通過認識自己的錯誤進行強化學習;拒絕采樣微調采用監督學
29、習模型來生成推理路徑,獎勵模型會收集準確并拒絕錯誤的路徑,隨后將其用作擴充的微調數據集。圖6.AutoWebGLM 的系統架構 數據來源:AutoWebGLM:A Large Language Model-based Web Navigating Agent清華大學、智譜清言團隊,財通證券研究所 圖7.訓練步驟包括課程學習、強化學習、拒絕采樣微調 數據來源:AutoWebGLM:A Large Language Model-based Web Navigating Agent清華大學、智譜清言團隊,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 10 行業專題報告/證券研究報
30、告 為解決為解決高質量、復雜的網頁瀏覽數據稀缺高質量、復雜的網頁瀏覽數據稀缺的問題的問題,創建,創建合適的合適的訓練數據集訓練數據集非常關非常關鍵鍵。數據集構建分為兩個主要階段,第一階段是網頁識別任務和簡單任務操作構建,第二階段是復雜任務構建。網絡識別的主要目標包括理解特定的 HTML 格式、識別不同類型的網絡元素(如文本框、按鈕、圖像等),以及理解這些元素在用戶交互中的作用。簡單任務操作數據集的主要目標是訓練模型執行單步網絡操作。這包括在網頁上執行基本功能,如點擊鏈接、填寫表單或導航到特定部分。通過復雜網絡任務開發數據集,使模型能夠在網絡瀏覽場景中進行規劃和推理。數據集中的每個樣本都包含復雜
31、網絡瀏覽任務、完成該任務的操作序列以及每一步的意圖。通過瀏覽器插件,利用人工標注來捕獲網頁任務執行情況,該插件記錄網站任務期間的操作。為實現高效鏈式思考推理,使用 GPT-4 作為操作意圖的預測器。圖8.訓練數據集構建包括簡單和復雜任務兩部分 數據來源:AutoWebGLM:A Large Language Model-based Web Navigating Agent清華大學、智譜清言團隊,財通證券研究所 AutoWebBench 在小參數規模下實現更高的網頁導航能力。在小參數規模下實現更高的網頁導航能力。作者建立了一個雙語(中文-英文)基準 AutoWebBench,并評估了公開可用的代
32、理的能力,還針對眾多基準進行了大量實驗,以評估 AutoWebGLM 在涉及英語和中文網站導航的各種任務中的性能,使用步驟成功率(SSR)作為評估指標。通過在 Mind2Web 上測試,發現 AutoWebGLM 在跨任務、跨網站、跨域的表現均有明顯優勢,且其 6B規模相比其他大多數模型參數量更??;在 MiniWoB+和 WebArena 上實現了效果最優。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 11 行業專題報告/證券研究報告 圖9.AutoWebGLM 在 Mind2Web、MiniWoB+和 WebArena 上測試性能具有明顯優勢 數據來源:AutoWebGLM:A Larg
33、e Language Model-based Web Navigating Agent清華大學、智譜清言團隊,財通證券研究所 2.3 AutoGLM:圖形用戶界面的自主基礎圖形用戶界面的自主基礎 Agent,可用于網頁瀏覽與安,可用于網頁瀏覽與安卓手機操作卓手機操作 GUI 場景下實現通用自主場景下實現通用自主 Agent,加速,加速 Agent 于終端落地。于終端落地。雖然基礎模型在獲取人類知識方面表現出色,但在動態的現實世界環境中進行決策時往往會遇到困難,這限制了它們在通用人工智能方面的進展。主要由于 GUI 基礎 Agent 的預訓練數據集當中缺乏決策數據,互聯網包含大量的靜態人類知識,
34、無法充分捕捉人類決策和環境交互。構建有能力的 GUI 基礎代理需要為其注入動態知識,要么通過與現實世界環境的直接交互,要么通過從合成軌跡中學習。2024 年 10 月,清華與智譜團隊將網絡瀏覽器和手機作為具有代表性的 GUI 場景,開發了 AutoGLM 作為適用于現實 GUI 交互的基礎 Agent 系統,實現適合用戶交付的可部署的 Agent 系統。其中包括了兩個創新的設計:設計一個適當的“中間界面”用于 GUI 控制至關重要,它能夠將規劃和定位行為分離,這兩種行為分別需要針對靈活性和準確性進行不同的優化。開發了一種新穎的漸進式訓練框架,使 AutoGLM 能夠進行自我演進的在線課程強化學
35、習。用戶可通過語音或文字向用戶可通過語音或文字向 AutoGLM 命令,該模型即可在命令,該模型即可在 App 端自主多步操作,端自主多步操作,對于模糊命令,執行過程仍需用戶進行選擇,但整體大幅簡化了操作流程。對于模糊命令,執行過程仍需用戶進行選擇,但整體大幅簡化了操作流程。在諸如點餐、打車、查詢信息并發布等常見場景下取得較高成功率,加速 Agent 進入端側應用。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 12 行業專題報告/證券研究報告 圖10.通過 AutoGLM 在美團 App 上“點一杯半糖瑞幸熱椰奶拿鐵”數據來源:AutoGLM:Autonomous Foundation A
36、gents for GUIs清華大學、智譜清言團隊,財通證券研究所 AutoGLM 在基準測試中有在基準測試中有顯著的進步,縮小了自顯著的進步,縮小了自主主 Agent 和人類和人類表現表現之間的差之間的差距。距。評估表明,AutoGLM 在多個領域都有效:在網頁瀏覽方面,AutoGLM 在 VAB-WebArena-Lite 上實現了 55.2%的成功率(第二次嘗試提高到 59.1%),在 OpenTable 評估任務上實現了96.2%的成功率。在安卓設備控制方面,AutoGLM在AndroidLab(VAB-Mobile)上實現了 36.2%的成功率,在流行的中國應用程序中的常見任務上實現
37、了 89.7%的成功率。圖11.在 VAB-WebArena-Lite 上各模型與人類表現的差距 數據來源:AutoGLM:Autonomous Foundation Agents for GUIs清華大學、智譜清言團隊,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 13 行業專題報告/證券研究報告 圖12.在 AndroidLab(VAB-Mobile)上測試各模型的成功率 數據來源:AutoGLM:Autonomous Foundation Agents for GUIs清華大學、智譜清言團隊,財通證券研究所 3 GLM 多端多端 Agent 家族,打造手機、家族,打造
38、手機、PC、汽車等終、汽車等終端交互入口端交互入口 3.1 GLM-Phone:可實現跨可實現跨 APP 操作、支持超長任務流程、支持更多操作、支持超長任務流程、支持更多主流主流 APP AutoGLM 可在手機端接受文字和語音指令,可在手機端接受文字和語音指令,模擬人類的行為完成一系列任務,模擬人類的行為完成一系列任務,如如點外賣、訂酒店等點外賣、訂酒店等。智譜推出了升級版的 AutoGLM,針對手機端應用提供了新的解決方案,顯著擴展了其在手機端的應用場景和操作能力,標志著智能手機人機交互進入了一個全新的高度。通過在淘寶進行產品復購的案例,表明前版本的AutoGLM 在手機端應用方面,已具備
39、在單個 APP 上模仿人類行為的功能。首先,其能夠理解用戶的自然語言指令(如:“購買上個月買的牙膏”)并將其分解為一系列可執行的步驟(如:“上個月”進行歷史訂單并查找篩選)。此外,該項活動表明其能夠識別 APP 的界面布局并精確定位功能模塊(如:查找到歷史訂單、商品列表等),并模擬人類的點擊、滑動等行為完成任務。圖13.GLM-Phone 前版本操作示例 數據來源:智譜微信視頻號,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 14 行業專題報告/證券研究報告 跨跨 APP 操作為本次產品升級的一個亮點。操作為本次產品升級的一個亮點。通過 AutoGLM,可以在美團和餓了么之
40、間篩選價格更實惠的肯德基套餐并下單購買,表明在已有功能的基礎上,升級版不僅可以在單個應用內完成復雜任務,還能實現在不同的APP間實現無縫切換。在“打開美團選擇肯德基并下單全家桶切換餓了么搜索商品對比價格后訂單”等任務中,達成多個平臺間的的數據傳遞和智能化決策,而無需用戶手動干預,并極大提高了操作效率。圖14.GLM-Phone 跨 APP 操作實例 數據來源:GLM 大模型微信公眾號,財通證券研究所 支持更多主流支持更多主流 APP,快速建立應用生態。,快速建立應用生態。除了此前版本支持的微信、淘寶、美團等平臺外,新增了抖音、微博、餓了么、京東、拼多多等更多主流平臺。這意味著 GLM-Phon
41、e 能夠覆蓋用戶日常生活中更豐富的使用場景,從社交、購物到短視頻娛樂和外賣服務,提供了一站式的操作體驗。支持多步超長任務流程。支持多步超長任務流程。這意味著 Agent 可以將一個任務鏈拆解成多個操作并自動完成,以本案例為例:“幫我上小紅書查火鍋要準備什么食材,去小象超市全部采購回來”被分解為“小紅書查找信息-小象超市食品篩選(40 余步)-下單”,共53 步。除上文提到的跨 APP 操作功能外,其能夠對非結構化信息(如:小紅書的文本、圖片等)進行理解并提取關鍵信息,且能夠根據所得信息,通過邏輯規劃和動態交互完成任務規劃,并分步驟拆解及逐一完成,在此過程中實現了不同階段的數據傳遞,能夠在短時間
42、內快速完成復雜任務。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 15 行業專題報告/證券研究報告 圖15.GLM-Phone 多步驟任務流程實現 數據來源:GLM 大模型微信公眾號,財通證券研究所 支持支持自動循環任務,重復動作高效完成。自動循環任務,重復動作高效完成。GLM-Phone 可實現微信群聊實現循環點贊,“幫我給 AGI 群里所有人的第一條朋友圈點贊”可以由 Agent 自動檢索目標群聊并識別群用戶板塊,逐個循環進行首條朋友圈動態點贊(指進入-點贊-退出-再進入)。循環功能適用于重復性的操作,如熱點內容抓取、物流信息更新等常見情景,滿足自動化處理高頻重復操作的需求,減少用戶的
43、手動干預。圖16.GLM-Phone 循環任務執行 數據來源:GLM 大模型微信公眾號,財通證券研究所 3.2 GLM-PC:辦公領域將迎來生產力躍升辦公領域將迎來生產力躍升 3.2.1 CogAgent 實現實現 Computer Use GLM-PC 初步實現初步實現 Computer Use,開啟開啟 PC 端端“無人駕駛無人駕駛”新探索新探索。智譜推出的基于 CogAgent 模型的 PC 端 Agent GLM-PC,目前開放第一階段內測場景,包括 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 16 行業專題報告/證券研究報告 會議替身會議替身(幫用戶預定和參與會議,發送會議總結
44、),文檔處理文檔處理(支持文檔下載、文檔發送、理解和總結文檔),網頁搜索與總結網頁搜索與總結(在指定平臺,如微信公眾號、知乎、小紅書等,搜索指定關鍵詞,完成閱讀、總結),遠程和定時操作遠程和定時操作(遠程手機發指令,GLM-PC 可以自主完成電腦操作;設定一個未來時間,在開機狀態下定時執行任務)等。GLM-PC 是能夠幫助用戶操作計算機的智能體,用戶只需輸入指令,GLM-PC 即可理解指令、規劃任務,然后識別電腦界面中的窗口、圖形、文字等,并自動操作電腦。例如在會議替身場景下,用戶發布指令“加入這個飛書會議,靜音,關閉攝像頭,開啟會議錄制”,GLM-PC 會進行理解,并規劃任務,再逐步操作電腦
45、打開應用會議、輸入會議號、進入會議,最終完成任務。GLM-PC能夠大幅提升用戶辦公效率,有望成為未來桌面端的必備助手。圖17.GLM-PC 實現 Computer Use 數據來源:智譜官方微信公眾號,財通證券研究所 圖18.GLM-PC 理解指令、規劃任務、逐步完成 數據來源:智譜官方微信公眾號,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 17 行業專題報告/證券研究報告“隱形屏幕隱形屏幕”功能功能即將即將推出推出,不干擾主頁工作流不干擾主頁工作流,實現實現 Agent 效率效率提升提升?;谝曈X和操作的智能體常與用戶爭奪屏幕和輸入設備資源,迫使用戶被動等待任務完成,干
46、擾電腦正常使用。GLM-PC 的“隱形屏幕”技術讓用戶可在 AI Agent 執行任務的同時,繼續使用電腦進行其他工作,實現 Agent 高效利用,該功能與相關模型技術報告預計在 2025 年一季度推出。圖19.GLM-PC 隱形屏幕功能 數據來源:智譜官方微信公眾號,財通證券研究所 像人一樣使用電腦,具備更高能力上限。像人一樣使用電腦,具備更高能力上限。GLM-PC 擁有跨平臺、跨系統的泛化能力,能像人一樣使用電腦,包括“眼看”(進行圖形、圖像、文字的視覺理解),“腦思”(進行步驟拆解和任務規劃)和“手動”(進行仿人類操作:點擊、滾動、懸停、輸入)。GLM-PC 通過模擬最基本的人類操作進行
47、工作,對人類設計的應用適應程度較高,而無需依賴 HTML、API,具備更高的能力上限。圖20.像人一樣使用電腦,具備更高能力上限 數據來源:智譜官方微信公眾號,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 18 行業專題報告/證券研究報告 3.2.2 AutoGLM-Web 進一步擴展進一步擴展 AI 搜索能力邊界搜索能力邊界 AutoGLM-Web 是一款基于大語言模型的是一款基于大語言模型的 AI 瀏覽器助手,能夠模擬用戶進行網瀏覽器助手,能夠模擬用戶進行網頁瀏覽與交互,執行包括網頁訪問、信息檢索、內容總結等任務。頁瀏覽與交互,執行包括網頁訪問、信息檢索、內容總結等任務
48、。用戶可通過簡單的文字指令讓其搜索特定網頁、查找商品或總結文章內容,對百度、微博、知乎、Github 等數十個網站實現自動操作。這體現了 Web Agent 在提升用戶體驗、優化效率方面具有巨大潛力,未來有望持續拓展 AI 搜索能力邊界,形成自主思考分析、自主執行操作的網頁版高級智能體。圖21.通過 Web Agent 實現給智譜清言微博點贊、評論流程自動化 數據來源:微博官網,財通證券研究所 圖22.AutoGLM-Web 的操作面板 圖23.AutoGLM-Web 的基礎 AI 生成功能 數據來源:GLM-WEB,財通證券研究所 數據來源:GLM-WEB,財通證券研究所 謹請參閱尾頁重要聲
49、明及財通證券股票和行業評級標準 19 行業專題報告/證券研究報告 3.3 GLM-Car&More:Agent 為為 AI 終極形態,加速萬物智能、萬物互終極形態,加速萬物智能、萬物互聯聯 Agent 在車端已開始落地,廣大硬件智能化并不遙遠。在車端已開始落地,廣大硬件智能化并不遙遠。智譜同小鵬汽車攜手打造智能語音助手,可通過簡單的語音指令激活,對調節車內環境、設置導航、播放音樂、查詢天氣等要求迅速響應并精準執行,全面提升車主的智能化駕駛體驗。隨著 GLM-Car 應用落地,車端操作系統可作為路途中的“生活與工作助手”,如智譜與小鵬合作的“AI 小 P”可實現實現聊天對話、百科問答、車輛控制、
50、知識科普等功能,未來有望作為多智能終端的“移動入口”,真正實現智能化座艙。未來未來 Agent 有望滲透至各類有望滲透至各類智能設備,智能設備,落地落地 AI 原生設備,實現設備主動服務用原生設備,實現設備主動服務用戶戶。通過全域數據的快速整合與深度洞察,Agent 將具備快速處理復雜任務的能力,自動規劃并高效執行各類任務。此外,Agent 還將具備專屬記憶功能,隨著時間的推移逐步學習用戶的需求與偏好,從而提供更加個性化的服務,真正做到與用戶的生活和工作深度融合。圖24.智譜與小鵬合作的“AI 小 P”數據來源:小鵬社區,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 20
51、行業專題報告/證券研究報告 圖25.大模型為智能設備帶來新的機會 數據來源:智譜清言官方發布會,財通證券研究所 4 投資建議投資建議 生成式 AI 的高速發展,將持續推升 AI 底層算力需求,建議關注 AI 基座產業鏈的公司,如 NVIDIA、臺積電、AMD、博通、ORACLE、MICROSOFT、AMAZON、ALPHABET、海光信息、協創數據、中科曙光、曙光數創、寒武紀、英維克、神州數碼、紫光股份、VERTIV、美光科技等。Agent 在 PC 端實現落地,辦公領域 AI 軟件有望加速推廣,辦公軟件廠商有望持續提升用戶粘性與續費率,建議關注金山辦公、福昕軟件、萬興科技、合合信息、Adob
52、e 等。Agent 高速發展為 AI PC、AI 手機、AI 耳機、AI 學習機等 AI 終端打開了新思路,以及其他智能終端包括掃地機、割草機等有望受益,建議關注聯想集團、傳音控股、漫步者、科大訊飛、螢石網絡、石頭科技、九號公司等。AI 在端側推廣,芯片廠商合作領域有卡位優勢的公司有望受益,如虹軟科技、中科創達等。5 風險提示風險提示 技術迭代不及預期:技術迭代不及預期:若 AI 技術迭代不及預期,NLP 模型優化受限,則相關產業發展進度會受到影響。商業化落地不及預期:商業化落地不及預期:大模型結合應用的盈利模式尚處于探索階段,后續商業化落地進展有待觀察。政策支持不及預期:政策支持不及預期:新
53、行業新技術的推廣需要政策支持,存在政策支持不及預期風險。全球宏觀經濟風險:全球宏觀經濟風險:垂直領域公司與下游經濟情況相關,存在全球宏觀經濟風險。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 21 行業專題報告/證券研究報告 分析師承諾分析師承諾 作者具有中國證券業協會授予的證券投資咨詢執業資格,并注冊為證券分析師,具備專業勝任能力,保證報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解。本報告清晰地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,作者也不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。資質聲明資質聲明 財通證券股份有限公
54、司具備中國證券監督管理委員會許可的證券投資咨詢業務資格。公司評級公司評級 以報告發布日后 6 個月內,證券相對于市場基準指數的漲跌幅為標準:買入:相對同期相關證券市場代表性指數漲幅大于 10%;增持:相對同期相關證券市場代表性指數漲幅在 5%10%之間;中性:相對同期相關證券市場代表性指數漲幅在-5%5%之間;減持:相對同期相關證券市場代表性指數漲幅小于-5%;無評級:由于我們無法獲取必要的資料,或者公司面臨無法預見結果的重大不確定性事件,或者其他原因,致使我們無法給出明確的投資評級。A 股市場代表性指數以滬深 300 指數為基準;中國香港市場代表性指數以恒生指數為基準;美國市場代表性指數以標
55、普 500指數為基準。行業評級行業評級 以報告發布日后 6 個月內,行業相對于市場基準指數的漲跌幅為標準:看好:相對表現優于同期相關證券市場代表性指數;中性:相對表現與同期相關證券市場代表性指數持平;看淡:相對表現弱于同期相關證券市場代表性指數。A 股市場代表性指數以滬深 300 指數為基準;中國香港市場代表性指數以恒生指數為基準;美國市場代表性指數以標普 500指數為基準。免責聲明免責聲明 本報告僅供財通證券股份有限公司的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告的信息來源于已公開的資料,本公司不保證該等信息的準確性、完整性。本報告所載的資料、工具、意見及推測只提
56、供給客戶作參考之用,并非作為或被視為出售或購買證券或其他投資標的邀請或向他人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司通過信息隔離墻對可能存在利益沖突的業務部門或關聯機構之間的信息流動進行控制。因此,客戶應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報
57、告所提到的公司的董事。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議。在任何情況下,本公司不對任何人使用本報告中的任何內容所引致的任何損失負任何責任。本報告僅作為客戶作出投資決策和公司投資顧問為客戶提供投資建議的參考??蛻魬敧毩⒆鞒鐾顿Y決策,而基于本報告作出任何投資決定或就本報告要求任何解釋前應咨詢所在證券機構投資顧問和服務人員的意見;本報告的版權歸本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。信息披露信息披露