
PaLM-E:將自主可靠決策和多模態感知相結合 PaLM-E 將多模態大模型拓展至機器人領域,可生成決策文本。2023 年 3 月,Google 和柏林工業大學的研發團隊推出通用多模態大模型 PaLM-E。該模型融合了 Google 當時最新的大型語言模型 PaLM 和最先進的視覺模型 ViT-22B,可以結合傳統運控算法執行復雜的機器人任務。PaLM-E 大模型的輸入端是連續的、可感知的數據,包括視覺、連續狀態估計值和文本等多模態信息。多模態信息以類似于語言序列的方式輸入到語言模型 PaLM 中,使其可以理解這些連續數據,從而能夠基于現實世界做出合理判斷。PaLM-E 是一個僅具有解碼器的語言模型,可以自動地根據前綴或提示生成文本結果。