
8.5.2.結合多模態大模型的 RT-2 機器人 谷歌 DeepMind 推出 RT-2(Robotic Tranformer 2)是谷歌 DeepMind 實驗室的結果,它是將視覺-文本多模態大模型的“推理”、“識別”等能力和機器人實際操作能力結合起來的機器人項目。具備符號理解能力、推理能力、人類識別能力。其中推理能力是 RT-2 機器人的核心優勢,RT-2 機器人能夠進行數學、視覺推理并且能夠進行多語言理解。VLA 指的是”機器人動作模態”,基于此模態,RT-2 可以將具體的機器人動作數據轉化成大模型利用的文本 token。RT-2 本次升級主要基于谷歌原有的基礎大模型,如 RT-2 PaLM-E 變體,能夠在神經網絡模型中充當 LLM、VLM和機器人控制器,因此 RT-2 具備執行的思想鏈推理的能力。RT-2 提高了機器人在陌生場景中的性能,體現了大規模預訓練帶來的優勢。