圖12.在AndroidLab(VAB-Mobile)上測試各模型的成功率 AutoGLM 在基準測試中有顯著的進步,縮小了自主 Agent 和人類表現之間的差距。評估表明,AutoGLM 在多個領域都有效:在網頁瀏覽方面,AutoGLM 在 VAB-WebArena-Lite 上實現了 55.2%的成功率(第二次嘗試提高到 59.1%),在 OpenTable 評估任務上實現了96.2%的成功率。在安卓設備控制方面,AutoGLM在AndroidLab(VAB-Mobile)上實現了 36.2%的成功率,在流行的中國應用程序中的常見任務上實現了 89.7%的成功率。 行業數據 下載Excel 下載圖片 原圖定位