微軟利用ChatGPT將人類語言指令轉化為機器人控制代碼 非具身大模型:可幫助機器人提升復雜任務理解、連續對話、零樣本推理等方面能力,但無法直接生成運動姿態。非具身大模型主要包括 LLM(大語言模型)和 VLM(視覺語言模型),以 ChatGPT、GPT-4V、Sora、GPT-4o 為代表,主要特點是輸入從單模態文本擴展到多模態的語音、圖像、視頻,其輸出也包括文本、音頻、圖像、視頻等。非具身大模型能夠對用戶指令進行推理分解,實現任務規劃決策,但無法直接生成運動姿態,目前應用較為成熟。例如,微軟利用 ChatGPT的自然語言理解能力,將人類語言指令轉化為機器人控制代碼,從而實現任務規劃和自主執行。 行業數據 下載Excel 下載圖片 原圖定位