
傳統 RL智能體在shang h將復雜任務映射到底層鍵盤鼠標操作時面臨困難,而GITM采用大型語言模型 (LLM) 作為核心,打破了這一傳統架構。GITM由 LLMDecomposer、LLM Planner和 LLM Interface三部分組成,逐步將復雜任務分解為子任務、結構化動作,直至最底層的鍵盤鼠標操作。LLM Decomposer利用外部知識將復雜任務分解為簡單子任務;LLM Planner為每個子任務規劃結構化動作,并根據反饋信息調整規劃,不斷總結成功經驗;LLMInterface通過鍵盤鼠標操作執行結構化動作,并在與環境交互中獲取觀察信息。