《人工智能行業機器人智能化三部曲(一):谷歌篇機器人大模型引領者-230825(24頁).pdf》由會員分享,可在線閱讀,更多相關《人工智能行業機器人智能化三部曲(一):谷歌篇機器人大模型引領者-230825(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、機器人智能化三部曲(一):谷歌篇機器人智能化三部曲(一):谷歌篇-機器人大模型引領者機器人大模型引領者證券研究報告證券研究報告 行業動態報告行業動態報告發布日期:2023年8月25日本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請務必閱讀正文之后的免責條款和聲明。分析師:于芳博分析師:于芳博SAC編號:S1440522030001分析師:分析師:閻貴成閻貴成SAC編號:S1440518040002SFC 中央編號:BNS315分析師:金戈分析師:金戈SAC編號
2、:S1440517110001SFC 中央編號:BPD352 核心觀點:隨著各項人工智能技術的不斷發展,具備與物理世界交互的強大潛力的智能機器人成為學界和業界的重要研究賽道。其中核心觀點:隨著各項人工智能技術的不斷發展,具備與物理世界交互的強大潛力的智能機器人成為學界和業界的重要研究賽道。其中Google依托其在依托其在AI領域強大的研究團隊,豐厚的多領域研究成果,引領著近年來機器人模型的發展。領域強大的研究團隊,豐厚的多領域研究成果,引領著近年來機器人模型的發展。Google Deepmind在在2023年年6月和月和7月發布了其最新研究成果,具月發布了其最新研究成果,具備“自我完善”能力的
3、“備“自我完善”能力的“RoboCat”和融合大語言模型能力的”和融合大語言模型能力的VLA模型“模型“RT-2”,機器人智能化進一步加速,有望掀起新一輪”,機器人智能化進一步加速,有望掀起新一輪AI革命。革命。從從Gato到到RoboCat,更大規模的訓練數據集和創新的自我完善方法助力打造更強的機器人智能體。,更大規模的訓練數據集和創新的自我完善方法助力打造更強的機器人智能體。在2022年5月提出的Gato模型將智能體擴展到機器人控制領域中,但“通用性”和“智能性”仍有較大提升空間,其模型架構和控制任務數據的序列化方式是后續模型發展的重要基礎。2023年7月提出的RoboCat則基于Gato
4、的模型基礎,將訓練數據集擴充至400萬個機器人相關片段,并創新性的提出“自我完善”的方式來進一步豐富訓練數據,這兩點創新讓RoboCat在實現了訓練任務的性能提升并具備了一定的泛化性能,并且能夠在少量數據微調的情況下處理未見過的任務。從從RT-1到到RT-2,大語言模型帶來更強的泛化能力、邏輯推理能力、知識能力,深度賦能機器人智能化。,大語言模型帶來更強的泛化能力、邏輯推理能力、知識能力,深度賦能機器人智能化。2022年12月提出的RT-1模型構建起了特定的指令、圖像和機器人指令之間的橋梁;2023年3月的PaLM-E模型則能夠處理輸入的文本和圖像信息,將復雜任務轉化為RT-1能夠接受的指令;
5、2023年7月提出的RT-2是二者的融合,在大語言模型強大能力的賦能下,RT-2能夠完成分解復雜任務、簡單的計算、識別人臉等現實場景中常見但以往的模型無法完成的任務,智能化程度大幅提升。差異路線引領發展,團隊整合協同革新。差異路線引領發展,團隊整合協同革新。Google Brain和DeepMind兩個團隊從兩個不同的切入點出發逐步推進AI機器人模型發展,DeepMind團隊從智能體(Agent)的角度出發不斷提升機器人能力,因此RoboCat中的訓練數據大多來自強化學習,模型參數量控制表現更為優秀,能夠實現更高頻率的機器人控制;而Google Brain則嘗試將大語言模型應用到機器人的控制領
6、域,因此RT-2的模型參數量更大,在泛化能力、知識和推理能力方面有更強的表現。隨著兩個團隊進一步合并,深化數據、模型等方面的協同合作,谷歌的機器人模型進展有望進一步加速。核心觀點 8XqRzQuNtQeZbR8QaQpNoOpNmPfQqQvNfQmOwO8OpOqRxNmNyQxNnNuM1.1 谷歌AI、Deepmind兩條路線 引領機器人模型發展資料來源:谷歌官網,Web of science,中信建投在機器人模型領域,在機器人模型領域,Google自身的自身的AI團隊及團隊及Deepmind分別沿兩條技術路線探索機器人模型,近年來發布過多篇引領性的文章。本文將回顧分別沿兩條技術路線探索
7、機器人模型,近年來發布過多篇引領性的文章。本文將回顧Google兩大團隊近年來在機器人模型領域的核心進展,其技術路線的異同點,梳理其中的發展脈絡。兩大團隊近年來在機器人模型領域的核心進展,其技術路線的異同點,梳理其中的發展脈絡。Deepmind:延續Gato的模型架構,2023年6月,Google DeepMind推出可以自我改進的機器人AI智能體,名為“RoboCat”。谷歌谷歌AI團隊:團隊:從RT-1開始,到可以操作機器人的大語言模型PaLM-E,再到2023年7月融合此前的RT-1和PaLM-E,推出的VLA模型RT-2,真正實現了將視覺、語言、機器人操作融合到一個模型中。圖圖:谷歌機
8、器人模型相關進展時間軸:谷歌機器人模型相關進展時間軸2022.52022.5Gato:能夠處理多種任務,包括少量的現實場景機器人任務2022.122022.12RT-1:能夠識別“特定的指令”及相關圖像生成對應的機器人操控指令2023.32023.3PaLM-E:能夠處理自然語言、圖像輸入,生成“特定的指令”2023.72023.7RT-2:能夠處理自然語言、圖像輸入,直接生成對應的機器人操控指令2023.62023.6RoboCat:能夠處理多種類的現實場景機器人任務2023.4合并Google Brain和Deepmind,成立Google Deepmind2022202220232023
9、作為其基礎模型(其中之一)作為其基礎模型(其中之一)幫助理解復雜任務幫助理解復雜任務沿用訓練數據集和對機械臂動作的編碼方式沿用訓練數據集和對機械臂動作的編碼方式幫助生成具體的操控指令幫助生成具體的操控指令沿用模型結構沿用模型結構谷歌AI路線Deepmind路線 1.2 谷歌AIDeepMind:深度學習浪潮中的引領者資料來源:機器之心,中信建投圖圖:DeepmindDeepmind發展歷程(不含機器人相關部分)發展歷程(不含機器人相關部分)圖圖:AlphaGoAlphaGo與李世石對弈與李世石對弈DeepMind Technologies 是是Alphabet Inc.的英國人工智能子公司和研
10、究實驗室。的英國人工智能子公司和研究實驗室。DeepMind成立于 2010 年 9 月,于 2014 年被 Google 收購。該公司總部位于倫敦,在加拿大、法國、美國設有研究中心。2015年,它成為谷歌母公司Alphabet Inc.的全資子公司。以發展通用人工智能(以發展通用人工智能(AGI)作為目標,持續研發革命性技術引領人工智能發展。)作為目標,持續研發革命性技術引領人工智能發展。于2016年推出的AlphaGo是DeepMind的第一個代表作,其讓全世界的人們第一次直觀感受到AI的強大之處,成為AI技術走向新一輪高峰的重要標志,也進一步推動了第三輪AI發展的浪潮。自AlphaGo開
11、始,DeepMind接連推出了AlphaZero(下棋)、AlphaFold(蛋白質結構預測)、AlphaCode(代碼寫作)等AI領域內的重要技術成果。這些成果不僅發表在頂級的學術期刊上,并且也收到了業界的廣泛關注和認可。DeepMind在智能體(在智能體(Agent)方面有著深厚的積累,是谷歌機器人模型研發的中堅力量。)方面有著深厚的積累,是谷歌機器人模型研發的中堅力量。2010.92010.9DeepMind成立,致力于AGI的研究20142014被谷歌以6億美元價格收購2016.32016.3研發的AlphaGO擊敗李世石,引發全球關注2017.102017.10推出了AlphaGO的
12、升級版本AlphaZero2018.22018.2推出AlphaFold,根據基因序列預測蛋白質的 3D 結構。此后又推出并開源了 AlphaFold 2、AlphaFold 數據集2020.122020.12推出MuZero,僅使用像素和游戲分數作為輸入就可以在 Atari 視頻游戲中達到人類的水平。2022.22022.2推出基于Transformer架構的AlphaCode,實現了大規模的代碼生成發布了可以對托卡馬克裝置中的等離子體構型進行磁控制,幫助達到可控核聚變的人工智能。2022.102022.10推出 AlphaTensor,利用強化學習發現矩陣乘法算法。第一個可用于為矩陣乘法等
13、基本任務發現新穎、高效且可證明正確的算法的人工智能系統。2023.42023.4DeepMind與GoogleBrain合并,共同推進突破性AI技術的發展 1.3 谷歌CV:將Transformer引入CV領域資料來源:AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE,Scaling Vision Transformers to 22 Billion Parameters,中信建投圖圖:ViTViT模型架構模型架構圖圖:ViTViT模型的性能隨模型規模的提升或微調而提升模型的性能隨模型規模的提升或
14、微調而提升通過通過ViT將將Transformer引入引入CV 領域:領域:盡管Transformer網絡結構在NLP領域展現出了強大的性能和能力,但在ViT之前,其在CV領域中的效果仍遠不如CNN網絡結構。Google在2021年推出了ViT,其通過將圖片劃分為不同的部分的方式構建出了類似于文本的序列輸入,而后構建出相應的部分的向量,進而可以通過Transformer結構對圖像特征進行提取和分析。最終在大規模的訓練數據集中展現出相較于CNN結構的模型更加強大的性能。其提出標志著Transformer模型在CV領域的應用落地。進一步探索在進一步探索在CV領域中預訓練大模型的能力邊界:領域中預訓
15、練大模型的能力邊界:2021年的研究中,其中最大版本的ViT模型(ViT-Huge)參數量為6.32億。2023年4月,谷歌在模型架構方面進行了升級,推出了ViT的220億參數量的版本(ViT(22B)。和GPT-2到GPT-3的變化趨勢相似,其具備了強大的Zero-shot圖像分類泛化能力(如下圖所示,在兩個下游任務中都比小參數模型更強大)。同時引入了人類反饋來使模型的能力與人類的目標相對齊,并且成功將模型公平性和穩健型控制在了一個合理的范圍。Google在在CV領域的強大能力為其機器人模型的視覺理解能力提供了扎實的能力底座。領域的強大能力為其機器人模型的視覺理解能力提供了扎實的能力底座。1
16、.4.1 Gato:具備不同場景能力的多模態通用智能體資料來源:A Generalist Agent,中信建投DeepMind在在2022年年5月月12日推出了多模態通用智能體(日推出了多模態通用智能體(Agent),名為“,名為“Gato”?!?。模型參數量:模型參數量:11.8億億/3.64億億/7900萬萬模型架構:將控制任務實現序列化,放入到統一的模型框架(模型架構:將控制任務實現序列化,放入到統一的模型框架(Transformer)中進行處理。)中進行處理。如右圖黃框所示,紫色和淡黃色的token代表環境情況,深黃色的token代表對與機械臂的相關操作,訓練數據中包含了初始環境的情況以
17、及每一次的機械臂操作以及相應的環境變化組成的序列,通過Transformer架構對這一序列的學習實現,讓“Gato”具備了解決具體場景中復雜任務的能力。訓練數據集:其中包括控制任務和視覺與語言數據集,共訓練數據集:其中包括控制任務和視覺與語言數據集,共604個任務。個任務??刂朴柧殧祿急容^高,達85.3%,共596個任務,6300萬個片段,15億個token??刂迫蝿罩邪ㄓ螒蛉蝿蘸湍M/現實機器人操控任務,其中游戲類任務的占比較高,機器人操控任務,尤其是現實場景中的機器人操控任務占比較低。圖圖:GatoGato可以實現不同場景的多種任務可以實現不同場景的多種任務圖圖:GatoGato訓練
18、數據構成及處理方式訓練數據構成及處理方式1.初始環境(游戲)2.游戲操作3.變化后的環境(游戲)1.初始環境(機械臂)2.機械臂操作3.變化后的環境(機械臂)4.機械臂操控任務電子游戲任務(Atari)Transformer架構 1.4.2 Gato:具備不同場景能力的多模態通用智能體資料來源:A Generalist Agent,中信建投模型能力:能夠完成豐富種類的任務,在模擬環境和傳統強化學習任務中取得了較好的性能表現,機器人相關任務性能有較大提升模型能力:能夠完成豐富種類的任務,在模擬環境和傳統強化學習任務中取得了較好的性能表現,機器人相關任務性能有較大提升模擬任務中,有450多項能達到
19、專家水平的50%,其中在DM LAB、BabyAI、Meta-World等經典的強化學習數據集中取得了較為優秀的性能表現,標準化后的分數分別為91.4、93.2、87.0,而在模擬場景的機械臂RGB方塊堆疊任務中之取得了58.0的標準化分數,性能有待進一步挖掘?,F實任務中(物塊堆疊),Gato在訓練集覆蓋的任務中達到了75.6%的成功率,而在泛化能力測試的任務中達到了50.2%的成功率,相較于前代模型模型性能有所提升。我們認為,我們認為,Gato實現了智能體完成任務廣度的提升,并且拓展到了機器人控制領域中,但“通用性”和“智能性”仍有較大提升空間,其模實現了智能體完成任務廣度的提升,并且拓展到
20、了機器人控制領域中,但“通用性”和“智能性”仍有較大提升空間,其模型架構和控制任務數據的序列化方式為后續模型的發展奠定了基礎。型架構和控制任務數據的序列化方式為后續模型的發展奠定了基礎。圖圖:GatoGato可以實現不同場景的多種任務,在虛擬場景任務中性能表現優異可以實現不同場景的多種任務,在虛擬場景任務中性能表現優異專家水平的50%資料來源:A Generalist Agent,中信建投 1.5.1 RT-1:基于Transformer打造現實世界的多任務機器人控制模型資料來源:RT-1:Robotics Transformer for Real-World Control at Scale
21、,中信建投Google在在2022年年12月推出了適用于機器人領域的月推出了適用于機器人領域的Transformer模型,模型,Robotics Transformer 1(簡稱(簡稱RT-1)。)。模型參數量:模型參數量:3500萬(萬(FiLM部分部分1600萬,萬,Transformer部分部分1900萬)萬)模型架構:模型架構:RT-1 將文本指令和對應圖像作為輸入,通過預訓練的FiLM EfficientNet模型將其轉化為token,再通過TokenLearner進行壓縮,最后通過Transformer層將其輸出為三個維度的機器人操作指令(Mode、Arm、Base),其中Mode
22、用于控制機器人不同模式之間的切換,Arm用于控制機器人手臂進行不同的動作,Base用于控制機器人的移動。圖圖:RTRT-1 1 模型結構模型結構RT-1將文本指令和對應圖像組作為輸入通過預訓練的 FiLM EfficientNet 模型將圖像編碼為Token通過 TokenLearner 對其進行壓縮,然后經Transformer輸出動作Token通過Mode、Arm、Base三個維度的輸出對機器人的行為進行控制26個卷基層,16M參數量8個自注意力層,19M參數模式切換機械臂控制位置控制 1.5.2 RT-1:基于Transformer打造現實世界的多任務機器人控制模型資料來源:RT-1:R
23、obotics Transformer for Real-World Control at Scale,中信建投訓練數據集:訓練數據集:7個大類的個大類的744個任務,共個任務,共13萬個現實環境中的機器人演示片段。萬個現實環境中的機器人演示片段。為了讓RT-1得到充分的訓練,研究人員利用13個機器人(來自Everyday Robots),歷時17個月收集了7大類,744個任務,共13萬個片段的機器人相關數據。這一過程中,由研究員對機器人進行操控,將相應的數據進行收集后,對相應的機器人執行指令進行注釋而構成了最終的數據集,其中包含了拾取、移動、打開、關閉、放置等多種技能以及相關的方位詞(如Ne
24、ar、Upright等)。圖圖:RTRT-1 1 訓練數據集構成訓練數據集構成 1.5.3 RT-1:基于Transformer打造現實世界的多任務機器人控制模型資料來源:RT-1:Robotics Transformer for Real-World Control at Scale,中信建投RT-1相較于過去的機器人控制模型實現了顯著的性能提升。相較于過去的機器人控制模型實現了顯著的性能提升。在訓練集包含的任務中,RT-1可以成功執行其中的97%,體現了RT-1的優異性能;在訓練集不包含的任務中,RT-1可以成功執行其中的76%;在有干擾或工作背景不同的情況下,RT-1可以成功執行其中的8
25、3%和59%,相較于GATO、BC-Z模型均有顯著的提升性。RT-1揭示了模型具備從不同種類的數據中學習的能力,為后續的模型訓練提供了理基礎。揭示了模型具備從不同種類的數據中學習的能力,為后續的模型訓練提供了理基礎。RT-1是在現實數據的基礎上訓練的,但是通過添加模擬數據可以顯著提升模擬環境任務的性能(這部分任務僅在模擬環境中存在),同時對于現實環境任務的處理性能并沒有顯著下降(僅下降2%)(右圖1)。在另一組實驗中,研究人員將在另一個機器人(Kuka)上訓練的另一種任務數據與RT-1相結合也實現了新任務的性能提升(右圖2)。RT-1從不同種類的數據中學習的能力讓結合不同種類的機器人數據集以增
26、強機器人能力的路徑有了實驗支撐。我們認為,我們認為,RT-1構建起了特定的指令、圖像和機器人指令之間的橋梁,并且具備了一定的泛化能力和抗干擾能力,但是尚不具備處理長構建起了特定的指令、圖像和機器人指令之間的橋梁,并且具備了一定的泛化能力和抗干擾能力,但是尚不具備處理長程任務的能力和語言模型的知識與邏輯推理能力。程任務的能力和語言模型的知識與邏輯推理能力。圖圖:RTRT-1 1相較過去的模型實現了顯著的性能提升相較過去的模型實現了顯著的性能提升圖圖:RTRT-1 1結合不同的數據后取得顯著性能提升(模擬數據結合不同的數據后取得顯著性能提升(模擬數據/Kuka/Kuka機器人數據)機器人數據)1.
27、將模擬數據與RT-1結合2.將不同機器人的數據與RT-1結合 1.6.1 PaLM-E:多模態具身視覺語言模型谷歌和柏林工業大學的團隊在谷歌和柏林工業大學的團隊在2023年年3月推出多模態具身視覺語言模型月推出多模態具身視覺語言模型(VLM)PaLM-E。模型架構:模型架構:PaLM-E具有5620億參數量,且將多模態大模型拓展到機器人控制領域。相較于之前的多模態模型,其不僅可以理解和生成圖像/語言,如下左圖所示,輸入可以為文本、圖像等不同模態信息,還能夠融合不同模態的知識進而生成RT-1中的特定機器人指令(基于自然語言)。模型能力:模型能力:PaLM-E基于豐富的多模態模型知識對任務信息進行
28、理解和處理,并分解成特定的機器人指令,RT-1將特定的機器人指令轉化為對應的機器人控制指令,在此合作下,模型可以將較為復雜的任務分解成簡單的步驟進行完成,并且具備了更強的抗干擾性和知識能力。我們認為,我們認為,PaLM等語言大模型豐富的知識、強大的邏輯推理能力等優勢的成功引入將助力等語言大模型豐富的知識、強大的邏輯推理能力等優勢的成功引入將助力Google機器人模型進一步智能化,機器人模型進一步智能化,PaLM-E便是便是在這一思路下的重要里程碑。在這一思路下的重要里程碑。圖圖:PaLMPaLM-E E將大模型的能力引入到機器人控制領域將大模型的能力引入到機器人控制領域資料來源:PaLM-E:
29、An Embodied Multimodal Language Model,中信建投RTRT-1 1中的控制指令中的控制指令 1.6.2 PaLM-E:多模態具身視覺語言模型資料來源:PaLM-E:An Embodied Multimodal Language Model,中信建投圖圖:PaLMPaLM-E E引導引導真實機器人完成遠程移動任務真實機器人完成遠程移動任務 1.7.1 RoboCat:具備自我改進能力的新一代AI智能體資料來源:RoboCat:A Self-Improving Foundation Agent for Robotic Manipulation,中信建投Google
30、 DeepMind在在2023年年6月月20日推出了新一代的機器人日推出了新一代的機器人AI智能體智能體,名為“,名為“RoboCat”?!?。模型參數量:模型參數量:11.8億億/3.64億億訓練數據:共訓練數據:共130類任務,超過類任務,超過400萬個機器人片段。萬個機器人片段。從數據生成方式來看,其中大部分來自強化學習智能體,有309.2萬個片段,純人類演示則有77.9萬個片段,剩余部分則為三種數據生成方式混合,此外,本次訓練數據中還用到了不同的機械臂進行訓練?!癛oboCat”具備自我改進、自我提升的能力?!本邆渥晕腋倪M、自我提升的能力。在第一輪訓練后,“RoboCat”會進入“自我完
31、善”的訓練周期,其中包含以下五個步驟:1)使用由人類控制的機械臂收集 100-1000 個新任務或新機器人的演示。2)在這個新任務上微調模型,創建一個專門的衍生智能體(Agent)。3)衍生智能體(Agent)對這個新任務/新機器人進行平均 10,000 次練習,生成更多訓練數據。4)將演示數據和自生成數據合并到模型現有的訓練數據集中。5)在新的訓練數據集上訓練新版本的模型。這一自我改進、自我完善的流程為“RoboCat”提供了更為豐富的訓練數據。圖圖:“RoboCatRoboCat”的“自我學習”訓練周期的“自我學習”訓練周期圖圖:“:“RoboCatRoboCat”訓練數據組成(上:不同生
32、成方式;下:不同機械臂)”訓練數據組成(上:不同生成方式;下:不同機械臂)從左至右:1.現實世界2.模擬環境3.自生成數據從左至右:1.模擬的 Sawyer 7-DoF 機械臂2.模擬的 Panda 7-DoF 機械臂3.現實的 Sawyer 7-DoF 機械臂4.現實的 Panda 7-DoF 機械臂 1.7.2 RoboCat:具備自我改進能力的新一代AI智能體資料來源:RoboCat:A Self-Improving Foundation Agent for Robotic Manipulation,中信建投優秀的基礎模型和豐富的高質量數據集讓“優秀的基礎模型和豐富的高質量數據集讓“Ro
33、boCat”成為不同場景中的“通才”。成為不同場景中的“通才”。在不同的機械臂的適應方面,盡管“RoboCat”是在帶有雙指夾具的機械臂上進行訓練的,但在觀察了短短幾個小時內收集到的 1000 次人類控制演示后,“RoboCat”可以足夠靈巧地指揮帶有三指夾具的新手臂,以86%的正確率成功拾取齒輪。在不同的下游任務的處理方面,通過簡單的演示,它便可以解決需要結合精度和理解的新任務,例如選取形狀匹配的物體放入對應的位置(如右圖1所示)以及從碗中取出正確的水果(如右圖2所示),這為更加復雜的機械控制和應用場景的拓展奠定基礎。圖圖:GatoGato可以實現不同場景的多種任務可以實現不同場景的多種任務
34、圖圖:“RoboCatRoboCat”學會解決新的任務”學會解決新的任務1:選取匹配形狀的物體放入對應的位置2:從碗中取出正確的水果 1.7.3 RoboCat:具備自我改進能力的新一代AI智能體資料來源:RoboCat:A Self-Improving Foundation Agent for Robotic Manipulation,中信建投“RoboCat”具備強大的泛化性能?!本邆鋸姶蟮姆夯阅??!癛oboCat”學習的新任務越多,便可以更好的學習和解決額外的新任務。最初版本的“RoboCat”在對于新任務500次演示后,只有36%的概率能完成新任務,但是經過“自我完善”訓練的“Rob
35、oCat”能將成功率提升至74%。相較于過去的訓練方式,“RoboCat”的泛化性能也實現了顯著的提升(如左圖2所示)?!癛oboCat”性能超過了傳統基于視覺的方案。性能超過了傳統基于視覺的方案?!癛oboCat”與在每個任務中單獨訓練的基于視覺的模型相比,在模擬和現實兩種環境中的堆疊、建造、移除等大部分任務中都取得了更為優異的表現,其中在現實場景的升降、插入、移除任務中更是展現出了更為明顯的優勢(如右圖所示)。我們認為,訓練數據集的提升和自我優化方法的提出讓我們認為,訓練數據集的提升和自我優化方法的提出讓RoboCat在在Gato的基礎上實現了明顯的性能改進,在經過微調的情況下已經過能夠的
36、基礎上實現了明顯的性能改進,在經過微調的情況下已經過能夠較好的處理未見過的任務。較好的處理未見過的任務。圖圖:“RoboCatRoboCat”具備強大的泛化性能具備強大的泛化性能圖圖:“RoboCatRoboCat”完成模擬完成模擬/現實世界任務的能力超過傳統基于視覺的模型現實世界任務的能力超過傳統基于視覺的模型1:“RoboCat”通過“自我完善”實現了泛化性能的顯著提升2:“RoboCat”相較于傳統基于單一任務訓練的視覺模型具有更強的泛化性能1:模擬環境的訓練任務2:現實環境的訓練任務 1.8.1 RT-2:將互聯網圖文知識應用于機器人控制的VLA模型Google DeepMind在在2
37、023年年7月月28日推出日推出VLA模型模型RT-2。RT-2是一種結合了視覺、語言和動作來控制機器人的模型,模型從圖文數據集中學習認知一個物體和與之相關的事情,同時,模型從機器人數據集中學習如何在具體任務完成機器人控制,總的來說,VLA不僅可以學習相關知識而且可以將這些知識直接轉化為機器人控制的指令。模型參數量:模型參數量:550億億/120億億/50億億訓練數據集:訓練數據集:RT-2的數據集包括兩個部分,其一是來自互聯網的圖像文本數據(Webli數據集),這部分數據有10億個來自109種語言的圖像文本對,其二是機器人控制數據集,這部分數據主要沿用了RT-1中收集的訓練數據集,機器人數據
38、在整體數據中的占比為50%(PaLI-X)/66%(PaLM-E)。圖圖:RTRT-2 2模型架構模型架構資料來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,中信建投 1.8.2 RT-2:將互聯網圖文知識應用于機器人控制的VLA模型資料來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,中信建投可進行思維鏈推理的可進行思維鏈推理的RT-2能夠回答更復雜的命令。能夠回答更復雜的
39、命令。思維鏈推理可以將困難的任務分解成多個小任務來解決。思維鏈推理的實現是通過引入一個中間狀態來實現的。在每個步驟中,模型將當前的觀察結果與先前的狀態進行連接,并將連接后的結果輸入到模型中進行處理。模型可以在處理當前的觀察結果時,同時考慮到先前的觀察結果,從而實現了思維鏈推理。通過這種方式,模型可以進行多階段的語義推理,使其能夠更好地理解和解釋環境中的信息,并做出更準確的決策和行動。圖圖:RTRT-2 2通過思維鏈生成相應的行動計劃,并發出指令控制機器人完成相應行動通過思維鏈生成相應的行動計劃,并發出指令控制機器人完成相應行動 1.8.3 RT-2:將互聯網圖文知識應用于機器人控制的VLA模型
40、資料來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,中信建投RT-2具備符號理解、邏輯推理和人臉識別的能力。具備符號理解、邏輯推理和人臉識別的能力。符號理解:符號理解:在演示中,機器人可以將蘋果移到掘金隊的隊標上,也可以將可樂移到字母Y旁邊,這都展示了RT-2模型的符號理解能力。邏輯推理:邏輯推理:在演示中,機器人可以在運算2+1=3 后,將香蕉放在寫有3這個數字的紙張前面,展示了RT-2的推理能力。人類識別:人類識別:在演示中,機器人可以正確的將可樂給泰勒的圖片,這代表了模型可以分
41、析不同人類圖像。圖圖:RTRT-2 2具備符號理解、推理和人類識別能力具備符號理解、推理和人類識別能力 1.8.4 RT-2:將互聯網圖文知識應用于機器人控制的VLA模型資料來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,中信建投RT-2的符號理解、邏輯推理、人臉識別能力相較于過去的模型有明顯提升的符號理解、邏輯推理、人臉識別能力相較于過去的模型有明顯提升兩種不同的RT-2模型(分別是以120億參數量的PaLM-E和550億參數量的PaLI-X作為基礎模型的RT-2),并將這兩種模型
42、與其前任RT-1以及另一種視覺預訓練方法VC-1進行了對比。結果顯示,與過去的模型相比,RT-2的相關性能提升了約三倍。RT-2的泛化能力相較于過去的模型也有明顯提升的泛化能力相較于過去的模型也有明顯提升。在已經見過的任務中,RT-2相較于此前的模型提升有限,但是在未見過的物體/未見過的背景/未見過的環境三種不同難度的泛化任務上RT-2的兩個模型都實現了較為明顯的提升,而在相對簡單的任務中參數量較小的RT-2模型有更優秀的表現,其中隨著任務難度越大則參數量更大的RT-2模型有這更為突出的表現。我們認為,我們認為,RT-2通過大語言模型和機器人控制模型的融合實現了泛化能力、邏輯推理、符號理解等能
43、力的明顯提升,極大地推動了機器通過大語言模型和機器人控制模型的融合實現了泛化能力、邏輯推理、符號理解等能力的明顯提升,極大地推動了機器人模型的智能化。人模型的智能化。圖圖:RTRT-2 2相較于過去的模型實現了顯著的性能提升,尤其是泛化性能相較于過去的模型實現了顯著的性能提升,尤其是泛化性能圖圖:RTRT-2 2的符號理解、推理、人類推理能力明顯提升的符號理解、推理、人類推理能力明顯提升 1.9 差異路線引領發展,團隊整合協同革新圖圖:GoogleGoogle CEOCEO發文宣布將發文宣布將DeepmindDeepmind與與GoogleGoogle BrainBrain合并合并2023年年
44、4月月20日,日,Google宣布將宣布將Google Brain和和DeepMind兩大世界級兩大世界級AI實驗室合并,成立實驗室合并,成立Google DeepMind部門,以谷歌的計算資源作部門,以谷歌的計算資源作為后盾,加速人工智能研發和應用的推進。為后盾,加速人工智能研發和應用的推進?;仡櫣雀铏C器人模型在過去兩年間的發展,Google Brain和DeepMind兩個團隊從兩個不同的切入點出發逐步推進AI機器人模型發展,DeepMind團隊從智能體(Agent)的角度出發不斷提升機器人能力,因此RoboCat中的訓練數據大多來自強化學習,模型參數量控制表現更為優秀,能夠實現更高頻率的
45、機器人控制;而Google Brain則嘗試將大語言模型應用到機器人的控制領域,因此RT-2的模型參數量更大,在泛化能力、知識和推理能力方面有更強的表現。隨著兩個團隊進一步合并,深化數據、模型等方面的協同合作,谷歌的機器人模型進展有望進一步加速,值得持續跟蹤關注。資料來源:Google官網,OpenAI官網,中信建投 1.10 谷歌機器人模型進展總結資料來源:谷歌官網,Web of Science,中信建投基本基本信息信息模型名字模型名字BC-ZGatoRT-1PaLM-ERoboCatRT-2發布時間發布時間2022.12022.52022.122023.32023.62023.7研究機構研
46、究機構(未注明高校)(未注明高校)Robotics at GoogleEveryday RobotsDeepMindRobotics at GoogleEveryday RobotsGoogle BrainRobotics at GoogleGoogle ResearchGoogle DeepmindGoogle Deepmind數據數據整體數據集內容整體數據集內容機器人+人類演示控制環境(包括游戲、機器人等,占比85.3%)文本/圖像機器人語言/圖像機器人(占比8.9%)機器人圖像文本對(Webli)+機器人數據集(RT-1)機器人數據PaLI-X占比50%,PaLM-E占比66%數據集大小
47、數據集大?。C器人部分)(機器人部分)100個任務25877個機器人演示片段18726個人類演示片段控制任務共個596個6300萬個片段15億個Tokens744個任務(7種技能)13萬個機器人演示片段/共130類任務,400萬個機器人片段其中RL共有309.2萬個片段純人類演示共有77.9萬個片段參考RT-1數據集收集方式數據集收集方式(機器人部分)(機器人部分)7個操作員在12個機器人上收集公開的學術數據集,主要為模擬數據在13個機器人上收集了17個月公開的學術數據集RL:在模擬場景中通過強化學習智能體收集人類演示:4個國家100多名參與者收集了4000個小時的數據“自我完善”:通過自我完
48、善的流程生成參考RT-1硬件硬件機器人頻率機器人頻率(單位:(單位:HzHz)10203/10/20(少部分任務)PaLI-X-55B:1-3PaLI-X-5B:5機器人機器人/Sawyer 3-DoFEDR robot(7 DoF)/Panda 7-DoFSawyer 7-DoF、5-DoFKUKA 14-DoF(只用于微調)7-DoF模型模型總參數量總參數量/11.8億/3.64億/7900萬3500萬5620億/840億/120億11.8億/3.64億PaLI-X版本:550億/50億PaLM-E版本:120億視覺處理視覺處理FiLMViTFiLM EfficientNet-B3(160
49、0萬參數)ViTVQ-GANPaLI-X/PaLM-E語言處理語言處理USESentencePieceUniversal Sentence EncoderPaLMSentencePiece綜合處理模型綜合處理模型MLP(多層感知機)TransformerTransformer(1900萬參數)Transformer圖圖:谷歌機器人模型梳理:谷歌機器人模型梳理訓練數據呈現出數據量持續擴大,數據來源逐漸豐富,覆蓋的任務種類持續擴張的發展趨勢;模型算法層面上,訓練數據呈現出數據量持續擴大,數據來源逐漸豐富,覆蓋的任務種類持續擴張的發展趨勢;模型算法層面上,Transformer成為主要成為主要的解決
50、方案。在大語言模型結合的路線中模型參數量有所擴大,但是也面臨著計算速度不足導致機器人控制頻率較低的問題。的解決方案。在大語言模型結合的路線中模型參數量有所擴大,但是也面臨著計算速度不足導致機器人控制頻率較低的問題。展望未來,高質量數據集的收集、邊緣側算力的發展和更高效的模型架構創新等都是后續機器人模型發展中需要密切關注的方向。展望未來,高質量數據集的收集、邊緣側算力的發展和更高效的模型架構創新等都是后續機器人模型發展中需要密切關注的方向。風險提示感謝陳思玥對本報告的貢獻。算力發展不及預期:算力發展不及預期:機器人模型的訓練和推理對算力有著較高需求,若后續算力發展不及預期則會影響機器人大模型的迭
51、代和發展。機器人模型技術發展不及預期:機器人模型技術發展不及預期:機器人模型屬于先進AI算法,若后續機器人模型算法更新迭代效果不及預期,則會影響機器人模型演進及拓展,進而會影響其商業化落地等。數據數量與數據質量不及預期:數據數量與數據質量不及預期:機器人模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響模型效果。機器人大模型研發競爭激烈:機器人大模型研發競爭激烈:美國科技大廠紛紛入局機器人模型研發,相關產品表現出了很強的競爭力,機器人模型研發競爭越發激烈。分析師介紹分析師介紹閻貴成:閻貴成:中信建投證券通信&計算機行業首席分析師,北京大學學士、碩士,專注于云計算、物聯網、信息
52、安全、信創與5G等領域研究。近8年中國移動工作經驗,6年多證券研究經驗。系2019-2021年新財富、水晶球通信行業最佳分析師第一名,2017-2018年新財富、水晶球通信行業最佳分析師第一名團隊核心成員。金戈:金戈:中信建投證券研究發展部計算機行業聯席首席分析師,帝國理工學院工科碩士,擅長云計算、金融科技、人工智能等領域。于芳博于芳博:中信建投人工智能組首席分析師,北京大學空間物理學學士、碩士,2019年7月加入中信建投,主要覆蓋人工智能等方向,下游重點包括智能汽車、CPU/GPU/FPGA/ASIC、EDA和工業軟件等方向。評級說明評級說明投資評級標準評級說明報告中投資建議涉及的評級標準為
53、報告發布日后6個月內的相對市場表現,也即報告發布日后的6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深300指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美國市場以標普 500 指數為基準。股票評級買入相對漲幅15以上增持相對漲幅5%15中性相對漲幅-5%5之間減持相對跌幅5%15賣出相對跌幅15以上行業評級強于大市相對漲幅10%以上中性相對漲幅-10-10%之間弱于大市相對跌幅10%以上 分析師聲明分析師聲明本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論
54、不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁
55、。一般性聲明一般性聲明本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收
56、益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的
57、范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去12個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部中信建投(國際)中信建投(國際)北京東城區朝內大街2號凱恒中心B座12層電話:(8610)8513-0588聯系人:李祉瑤郵箱:上海浦東新區浦東南路528號南塔2103室電話:(8621)6882-1612聯系人:翁起帆郵箱:深圳福田區福中三路與鵬程一路交匯處廣電金融中心35樓電話:(86755)8252-1369聯系人:曹瑩郵箱:香港中環交易廣場2期18樓電話:(852)3465-5600聯系人:劉泓麟郵箱:charleneliucsci.hk24