
8.5.邁向多模態 AGI,離智能未來更近一步 8.5.1.多模態具身語言模型 PaLM-E 2023 年 3 月谷歌發布多模態具身語言模型 PaLM-E,能夠理解圖像、生成語言、并且結合兩者生成復雜的機器人指令、還擁有強大的正遷移能力。PaLM-E 由谷歌和柏林工業大學的團隊共同打造,PaLM-540B 語言模型與 ViT-22B 視覺 Transformer 模型,訓練數據集包含視覺、連續狀態估計和文本輸入編碼的多模式語句,參數量為 5620 億。PaLM-E 僅有解碼器,在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式生成文本。經過圖像提示訓練,PaLM-E 可以生成圖像描述文本,還能指導機器人完成復雜的長跨度任務。