《人工智能行業機器人智能化三部曲(二):Meta及微軟篇-231016(26頁).pdf》由會員分享,可在線閱讀,更多相關《人工智能行業機器人智能化三部曲(二):Meta及微軟篇-231016(26頁).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、機器人智能化三部曲(二):機器人智能化三部曲(二):Meta&Meta&微軟篇微軟篇證券研究報告證券研究報告 行業動態報告行業動態報告發布日期:2023年10月16日分析師:于芳博分析師:于芳博SAC編號:S1440522030001分析師:分析師:閻貴成閻貴成SAC編號:S1440518040002SFC 中央編號:BNS315分析師:金戈分析師:金戈SAC編號:S1440517110001SFC 中央編號:BPD352本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提
2、供。同時請務必閱讀正文之后的免責條款和聲明。核心觀點:隨著各項人工智能技術的不斷發展,具備與物理世界交互潛力的智能機器人成為學界和業界的重要研究賽道。核心觀點:隨著各項人工智能技術的不斷發展,具備與物理世界交互潛力的智能機器人成為學界和業界的重要研究賽道。近年來近年來Meta、微、微軟均持續完善其機器人模型領域的布局。軟均持續完善其機器人模型領域的布局。2023年年8月,月,Meta推出在少量訓練數據情況下便能取得優異表現的推出在少量訓練數據情況下便能取得優異表現的MT-ACT模型。模型。2023年年2月微軟月微軟推出基于推出基于ChatGPT的機器人控制框架,將的機器人控制框架,將ChatG
3、PT的“知識儲備”落實到現實場景中。機器人模型發展百家爭鳴,值得進一步關注。的“知識儲備”落實到現實場景中。機器人模型發展百家爭鳴,值得進一步關注。從從R3M到到MT-ACT,Meta持續探索如何使用有限的數據集實現更優秀的機器人控制。持續探索如何使用有限的數據集實現更優秀的機器人控制。在2022年3月推出的R3M模型中,Meta首次引入人類視頻數據作為機器人控制模型的知識來源,提升機器人模型訓練效率。在2022年12月推出的CACTI模型中,使用數據增強技術實現了訓練數據規模高效擴充。2023年8月推出的MT-ACT模型將數據增強技術(基于SAM視覺模型)和動作序列生成技術結合,在7500個
4、原始訓練數據的情況下,在不同難度的測試中分別實現了81.67%、65.17%、31.33%的成功率,小規模數據表現優于其他可比模型。將強化學習與將強化學習與MoE技術融合,技術融合,Meta推出機器人控制模型新方案推出機器人控制模型新方案ASC。在2023年4月推出的ASC模型中,先通過強化學習分別對單一任務進行訓練,再通過MoE技術實現不同技能模塊之間的有機協同,在模擬場景和兩個現實場景中分別實現了94.9%和96.7%/100%的成功率,并且具備較強的抗干擾能力,能夠在環境變化的情況下自動調整完成相關任務的方式。通過將更強的OWL-ViT視覺模型與ASC模型結合,模型可以根據文本描述來識別
5、更為復雜的物體,有望在更廣泛的場景中處理更為復雜的任務。Meta:機器人模型與谷歌有所差異。:機器人模型與谷歌有所差異。谷歌的技術路線在本系列第一篇中有詳細描述,而Meta目前工作中尚未將大模型與機器人控制所結合,且相較谷歌嘗試利用大規模的數據集提升機器人模型的表現,Meta的相關工作更加關注如何基于小規模的數據,結合數據增強、人類視頻數據預訓練等方式實現通用機器人控制模型的構建,即數據效率方面的提升。微軟:結合自然語言能力,微軟提出面向機器人控制領域的新框架。微軟:結合自然語言能力,微軟提出面向機器人控制領域的新框架。2022年8月推出的機器人軌跡控制模型LATTE,可以識別用戶的自然語言輸
6、入調整機器人的運行軌跡。2023年2月發表文章“ChatGPT for Robotics”,其核心在于通過大語言模型(ChatGPT)來處理用戶指令,進而調用相應的機器人控制API來完成具體的任務。在演示中,經過進一步學習的ChatGPT模型在僅有自然語言輸入的情況下,可以控制機器人利用不同顏色的方塊拼接出微軟Logo。核心觀點 0UlYmWjWaXnVmQsOnQaQaOaQnPpPtRtQjMqRpPiNoPwObRrQrRMYnQuMuOrMqO1.1 科技巨頭加速布局智能機器人,Meta持續推進機器人模型發展資料來源:Meta官網,谷歌學術,中信建投近年來,Meta一直是AI領域不可忽
7、視的力量,前沿研究如CV領域的SAM模型,NLP領域的LLaMa均是相關領域的最前沿技術之一。在機器人模型領域,在機器人模型領域,Meta也已經展開了較為完善的布局,提出了一些卓有成效的改進策略如數據增強、動作序列生成等,相關模型如也已經展開了較為完善的布局,提出了一些卓有成效的改進策略如數據增強、動作序列生成等,相關模型如R3M、CACTI、ASC、MT-ACT等,其他領域的核心突破如等,其他領域的核心突破如SAM模型也應用到了其中。本文將回顧模型也應用到了其中。本文將回顧Meta近年來在機器人模型領域的核心近年來在機器人模型領域的核心進展,梳理其中的發展脈絡。進展,梳理其中的發展脈絡。圖圖
8、:MetaMeta機器人模型相關進展時間軸機器人模型相關進展時間軸20222022202320232022.32022.3R3M:引入人類視頻數據作為機器人控制模型的知識來源2022.122022.12CACTI:使用數據增強擴充了訓練數據規模,并提升了模型的性能表現2023.42023.4ASC:將強化學習與MoE技術融合以處理復雜的多任務場景2023.82023.8MT-ACT:基于小規模的數據集,結合數據增強和動作序列生成實現較高質量的機器人控制2023.42023.4ACT:機器人動作序列生成的Transformer作為預訓練基礎模型作為預訓練基礎模型沿用視覺處理部分架構沿用視覺處理部
9、分架構沿用數據增強思路沿用數據增強思路沿用動作序列生成部分沿用動作序列生成部分SegmentAnythingSegmentAnything(SAMSAM)作為數據增強的工具作為數據增強的工具 1.2.1 R3M:基于人類視頻數據的預訓練機器人模型資料來源:R3M:A Universal Visual Representation for Robot Manipulation,中信建投Meta及及斯坦福大學的研究人員在斯坦福大學的研究人員在2022年年3月推出了基于人類第一視角數據訓練的機器人預訓練模型月推出了基于人類第一視角數據訓練的機器人預訓練模型R3M。核心突破:研究了一種在人類視頻數據上
10、進行機器人控制模型預訓練的方法,提升了機器人控制模型的性能、效率和可用訓練數據范圍。核心突破:研究了一種在人類視頻數據上進行機器人控制模型預訓練的方法,提升了機器人控制模型的性能、效率和可用訓練數據范圍。通過時間對比學習、視頻-語言對齊等方法來充分學習視頻中的視覺信息,構建出預訓練模型作為后續任務的基礎。訓練數據集:使用了訓練數據集:使用了Ego4D的人類第一視角視頻數據集,包含共的人類第一視角視頻數據集,包含共3500多小時的數據。多小時的數據。數據集中的視頻來自全球70多個地方,具體任務包括有烹飪、社交、組裝物品等。每個視頻片段由參與者一次佩戴頭戴式攝像頭長達 10 小時,并拍攝無腳本日常
11、活動收集而來,其中還包含視頻中人物行為的自然語言注釋。圖圖:Ego4DEgo4D數據集數據集圖圖:R3MR3M模型架構模型架構對比學習幀之間的變化學習語言指令和視頻操作構建出預訓練模型,可以用于后續訓練 1.2.2 R3M:基于人類視頻數據的預訓練機器人模型資料來源:R3M:A Universal Visual Representation for Robot Manipulation,中信建投在模擬場景模擬場景中,經過進一步演示的R3M模型能夠整體以62%的成功率完成12項不同的操作任務,相較于其他預訓練方法實現了10%的提升(如下左圖綠色/黃色/藍色柱形所示),相較于不預訓練的方法提升20
12、%,如下圖(如下左圖粉色柱形所示)。在現實場景現實場景中,在每個任務經過20次演示的條件下,R3M方法的成功率相較于CLIP方法的成功率實現明顯提升,整體成功率為56%,高出32%,同時在關抽屜、推杯子等較為簡單的任務中具有成功率較高。我們認為,相較于性能提升,我們認為,相較于性能提升,R3M將人類視頻數據帶入機器人模型訓練領域更為重要,可能成為機器人模型數據缺乏的解決方案之一。將人類視頻數據帶入機器人模型訓練領域更為重要,可能成為機器人模型數據缺乏的解決方案之一。圖圖:模擬場景中:模擬場景中R3MR3M模型的性能表現情況模型的性能表現情況圖圖:現實場景中:現實場景中R3MR3M的示例及性能表
13、現情況的示例及性能表現情況其他預訓練方法不預訓練10次嘗試中的成功率 1.3.1 CACTI:可擴展的多任務多場景視覺模仿學習框架Meta、哥倫比亞大學及卡耐基梅隆大學的研究人員在、哥倫比亞大學及卡耐基梅隆大學的研究人員在2022年年12月推出了可擴展的多任務多場景視覺模仿學習框架月推出了可擴展的多任務多場景視覺模仿學習框架CACTI。階段階段1數據收集數據收集:現實場景,通過人類演示收集了10個任務共1000個片段;模擬場景,通過強化學習智能體收集了18個任務共900個策略。階段階段2數據擴充數據擴充:通過不同的策略對專家示范數據進行增強,進而實現數據集的擴充,例如針對模擬的900個策略共生
14、成了45000個片段。階段階段3數據壓縮數據壓縮:將擴充后的數據集中的“視覺”數據壓縮成向量。階段階段4訓練訓練:利用上述環節得到的不同任務數據訓練出統一的控制策略。圖圖:CACTICACTI模仿學習框架模仿學習框架資料來源:CACTI:A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning,中信建投數據收集階段:在現實場景數據收集階段:在現實場景/模擬場景模擬場景中收集相關任務的專家示范數據中收集相關任務的專家示范數據數據增強階段:通過不同的策略對專家示數據增強階段:通過不同的策略對專家示范數據進行增
15、強,實現數據集的擴充范數據進行增強,實現數據集的擴充數據壓縮階段:將擴充后的數據集中數據壓縮階段:將擴充后的數據集中的“視覺”數據壓縮成向量。的“視覺”數據壓縮成向量。訓練階段:利用前置環節得到的任務訓練階段:利用前置環節得到的任務數據訓練出統一的多任務控制策略數據訓練出統一的多任務控制策略 1.3.2 CACTI:可擴展的多任務多場景視覺模仿學習框架數據擴充環節旨在增強原始專家數據的多樣性,主要分為視覺增強視覺增強和語義增強語義增強兩種方式。在現實場景中使用了開源的Stable Diffusion模型模型對視覺信息進行增強和擴充,而在虛擬場景中則通過調整渲染過程調整渲染過程的場景屬性來實現。
16、視覺增強:視覺增強:改變場景的視覺屬性,如物體紋理、照明條件等。語義增強:語義增強:包括改變場景中物體的布局(位置、方向),乃至添加新的人造物體等。圖圖:CACTICACTI數據擴充環節圖示數據擴充環節圖示資料來源:CACTI:A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning,中信建投語義增強語義增強視覺增強視覺增強 1.3.3 CACTI:可擴展的多任務多場景視覺模仿學習框架訓練和推理過程中,訓練和推理過程中,CACTI模型結合當前時刻視覺(攝像機輸入)、文本(指令輸入)、機械臂狀態來生成下一時
17、刻的機械臂狀態。模型結合當前時刻視覺(攝像機輸入)、文本(指令輸入)、機械臂狀態來生成下一時刻的機械臂狀態。其中視覺和文本信息均沿用了了R3M模型模型的架構來實現embedding的轉換。圖圖:CACTICACTI訓練和推理架構示意圖訓練和推理架構示意圖資料來源:CACTI:A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning,中信建投 1.3.4 CACTI:可擴展的多任務多場景視覺模仿學習框架模型性能表現:模型性能表現:在真實機器人上部署時,總體成功率約為30%;在仿真中,在所有 18 個任務中的
18、成功率約為 62%,且隨著訓練數據的逐漸豐富,模型在訓練集內/訓練集外的任務上性能均有所提升。實驗結果證明,使用大量的互聯網圖像數據和人類日常行為數據來對機器人控制模型進行預訓練具備較大潛力。實驗結果證明,使用大量的互聯網圖像數據和人類日常行為數據來對機器人控制模型進行預訓練具備較大潛力。如左圖綠色柱形所示,在大部分場景中均展現出了相當甚至更優秀的效果,對于模擬環境中使用額外互聯網數據效果較差的實驗結果,研究人員認為這可能是模擬環境中的圖像信息與現實場景圖像信息差距較大導致的;同時,數據增強方法也對模型表現有著較大貢獻,同時,數據增強方法也對模型表現有著較大貢獻,如下左圖深藍色柱形與橙色柱形/
19、黃色柱形于淺藍色柱形的對比所示,在沒有經過數據增強的情況下模型能力有較為明顯的下降。圖圖:現實環境結果:現實環境結果資料來源:CACTI:A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning,中信建投圖圖:仿真環境結果:仿真環境結果隨著訓練數據的增加,模型在處理過的任務上的性能先隨著訓練數據的增加,模型在處理過的任務上的性能先降后升,在未處理過的任務上的性能持續提升降后升,在未處理過的任務上的性能持續提升在模擬場景中使用額外的互聯網數據效果較差,研究人員認為這可在模擬場景中使用額外的互聯網數據效果較差
20、,研究人員認為這可能是模擬環境中的圖像信息與現實場景圖像信息差距較大導致的能是模擬環境中的圖像信息與現實場景圖像信息差距較大導致的 1.4.1 ASC:具備自適應技能協調能力的機器人模型Meta及及Georgia Institute of Technology的的研究人員在研究人員在2023年年4月推出了具備自適應技能協調能力的機器人模型月推出了具備自適應技能協調能力的機器人模型ASC。訓練環境:訓練環境:導航任務環境HM3D,包含1000個真實室內環境的高質量3D掃描,使用了其中800個作為本次的訓練數據;拾取/放置任務環境ReplicaCAD,包含104中不同布局的公寓,機器人需要將YCB
21、數據集中的13件物品拾取、放置或重新排列到 4 件家具(容器)上。模型原理:模型原理:通過強化學習在模擬環境中訓練三種基于視覺的技能(導航、拾取、放置),進一步訓練一種技能協調策略(如下右圖黃框所示)以及一種糾正策略(如下右圖綠框所示),來根據三種不同任務的輸入對三種進行進行協調和控制,進而完成較為復雜的下游任務。技能協調策略技能協調策略&糾正策略:糾正策略:技能協調策略實質是混合專家模型中的門控網絡,在ASC中,技能協調策略利用Dagger算法進行預訓練,在這一過程中,定義好的“教師”策略會逐步指導和技能協調策略的行為,而后技能協調策略和糾正策略均通過深度強化學習進行微調。圖圖:ASCASC
22、訓練的模擬環境數據集訓練的模擬環境數據集資料來源:ASC:Adaptive Skill Coordination for Robotic Mobile Manipulation,中信建投圖圖:ASCASC模型架構模型架構導航技能導航技能拾取技能拾取技能放置技能放置技能 1.4.2 ASC:具備自適應技能協調能力的機器人模型模型性能:模型性能:在公寓和實驗室兩個現實環境中,ASC模型在30次實驗過程中分別實現了96.7%和100.0%的成功率,在模擬環境中,ASC模型在79中不同布局的虛擬公寓中進行了1500次的實驗,實現了94.9%的成功率。實驗結果表明,協調策略對模型性能影響較為顯著,實驗結
23、果表明,協調策略對模型性能影響較為顯著,如下表中第2、3行所示,在模型中添加協調策略后,模型性能平均提升了12.6%,而糾正策略的增加則如1、2行所示,帶來了平均6.4%的性能提升,這是由于三種基礎技能都是在較為簡單、孤立的場景中訓練出來的,糾正策略的引入可以減少復雜的移動拾放過程中表現不佳的情況。同時,微調的方法無法代替糾正策略的作用,同時,微調的方法無法代替糾正策略的作用,如下表2、5列所示,在缺少糾正策略的情況下通過微調并不能帶來性能的提升,反而性能還會有較為顯著的下降。圖圖:ASCASC模型在現實環境和模擬環境中的評估結果模型在現實環境和模擬環境中的評估結果資料來源:ASC:Adapt
24、ive Skill Coordination for Robotic Mobile Manipulation,中信建投 1.4.3 ASC:具備自適應技能協調能力的機器人模型ASC模型具備較強的抗干擾能力:模型具備較強的抗干擾能力:ASC模型針對視覺的反饋進行下一步的行動,而不是依賴于地圖,因此當環境布局或動態障礙物發生變化是,ASC模型會將機器人重新安排到一條新的無碰撞路徑上,如下圖所示,當機器人的前進路線被障礙物或人擋住時,機器人會選擇新的路線來接近目標;同時,ASC模型對目標物體的變化也具有較強的抗干擾能力,如下圖所示,若機器人在搜索過程中目標發生移動機器人會繼續搜索目標。圖圖:ASCA
25、SC模型控制的機器人可以在面臨干擾的情況下較好的完成任務模型控制的機器人可以在面臨干擾的情況下較好的完成任務資料來源:ASC:Adaptive Skill Coordination for Robotic Mobile Manipulation,中信建投在被障礙物多次阻在被障礙物多次阻擋后機器人仍能找擋后機器人仍能找到正確的路徑到正確的路徑在被人多次阻擋后在被人多次阻擋后機器人仍能找到正機器人仍能找到正確的路徑確的路徑在目標物體狀態反在目標物體狀態反復變化的情況下,復變化的情況下,機器人仍能持續搜機器人仍能持續搜索并完成任務索并完成任務 1.4.4 ASC:具備自適應技能協調能力的機器人模型通
26、過將更強的通過將更強的Owl-ViT視覺模型應用在視覺模型應用在ASC模型中,模型可以根據文本描述來識別更為復雜的物體,進而完成相應的拾取和放置任務。模型中,模型可以根據文本描述來識別更為復雜的物體,進而完成相應的拾取和放置任務。圖圖:增強后的:增強后的ASCASC模型應用在額外的復雜場景中模型應用在額外的復雜場景中資料來源:ASC:Adaptive Skill Coordination for Robotic Mobile Manipulation,中信建投 1.5 ACT:具備動作序列生成能力的Transformer架構Meta、Standford University、UC Berkel
27、ey的研究人員推出了可以進行動作序列生成的模型的研究人員推出了可以進行動作序列生成的模型ACT。核心原理:針對某一時刻的輸入生成接下來的若干時刻的動作預測而不是只生成下一時刻動作預測。核心原理:針對某一時刻的輸入生成接下來的若干時刻的動作預測而不是只生成下一時刻動作預測。如下左圖所示,來自四個相機的輸入經過encoder處理后,通過decoder得到接下來若干個時刻的動作序列。若不采用時序組合的方法(如右上圖所示),模型在3、4之間需要重新進行推理得到新的4個動作,且需要為3的動作可能存在一定誤差,導致模型的機器人控制出現卡頓和精確度缺乏的情況,而通過時序組合的方式則可以這些來自不同時刻的預測
28、匯總在一起,每一個時刻的輸出都是若干個時刻預測的綜合,并且考慮了環境的最新變化,進而實現了更為精確而流暢的機器人控制。圖圖:ACTACT模型架構模型架構資料來源:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware,中信建投圖圖:動作分塊與時序組合的原理示意圖:動作分塊與時序組合的原理示意圖每個時刻的輸出是多每個時刻的輸出是多次預測的加權組合次預測的加權組合 1.6.1 RoboAgent:通過語義增強和動作序列生成提升機器人操控的通用性和效率Meta及及Carnegie Mellon University的的研究
29、人員在研究人員在2023年年8月推出了高效的通用機器人模型框架月推出了高效的通用機器人模型框架MC-ACT。模型框架:模型框架:訓練過程中,在語義增強階段利用內繪增強技術使訓練數據多樣化,在策略學習階段使用多任務動作分塊轉化器訓練語言條件策略,將多模式多任務數據納入單一的多任務機器人控制模型中。推理過程中結合用戶的文本輸入和攝像頭的圖像輸入對機械臂進行控制。圖圖:MCMC-ACTACT模型框架模型框架資料來源:RoboAgent:Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and
30、Action Chunking,中信建投 1.6.2 RoboAgent:通過語義增強和動作分塊提升機器人操控的通用性和效率訓練數據:訓練數據:包含通過人類遠程操作收集的7500個片段,具體任務包括有拾取、放置、開啟、關閉等,其中拾取和放置動作的數據量較大,均超過了1000條。相較于此前的機器人數據集如相較于此前的機器人數據集如RT1,RoboAgent數據集的規模更小但覆蓋的任務范圍更廣。數據集的規模更小但覆蓋的任務范圍更廣。圖圖:MTMT-ACTACT可以執行十二種不同的任務可以執行十二種不同的任務資料來源:RoboAgent:Generalization and Efficiency i
31、n Robot Manipulation via Semantic Augmentations and Action Chunking,中信建投圖圖:RoboAgentRoboAgent數據集任務種類分布(上)及和其他數據集對比(下)數據集任務種類分布(上)及和其他數據集對比(下)數據量對比數據量對比訓練任務種類對比訓練任務種類對比不同種類任務訓練數據分布不同種類任務訓練數據分布 1.6.3 RoboAgent:通過語義增強和動作分塊提升機器人操控的通用性和效率語義增強:語義增強:使用了SegmentAnything模型,基于其從海量互聯網數據中提煉出的視覺知識,可以自動的檢測并分割出視頻中的
32、相關物體,再進一步在相關區域中引入由文本提示提供的物體,對背景(如下左圖(b)所示)和被操作物體(如下左圖(b)所示)進行增強。語義增強為模型性能帶來了明顯的提升,尤其在更語義增強為模型性能帶來了明顯的提升,尤其在更為困難的任務中提升更大。為困難的任務中提升更大。如右下圖所示,對著對單一圖像輸入的語義增強數量從1提升到7,L1-L3三種任務的成功率均有提升,其中L3的提升最為明顯,成功率從不足10%提升到了50%以上。圖圖:MTMT-ACTACT借助借助SegmentAnythingSegmentAnything對背景和被操作物體進行語義增強對背景和被操作物體進行語義增強資料來源:RoboAg
33、ent:Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking,中信建投圖圖:語義增強為模型性能帶來了明顯提升:語義增強為模型性能帶來了明顯提升對背景的增強對背景的增強對被操作物體的對被操作物體的增強增強 1.6.4 RoboAgent:通過語義增強和動作分塊提升機器人操控的通用性和效率模型性能:模型性能:相較于此前的模型(調整了其他可比模型的訓練數據規模),MT-ACT在所有難度的任務中展現出了更強的性能表現,在L1、L2、L3難度的任務中分別實現了8
34、1.67%、65.17%、31.33%的成功率。在其他方法都無法成功的L4難度中,MT-ACT實現了將近25%的成功率。我們認為,我們認為,MT-ACT為有限訓練數據情況下的機器人控制模型訓練提供了成功案例,有望成為后續機器人模型發展的重要技術路線之一。為有限訓練數據情況下的機器人控制模型訓練提供了成功案例,有望成為后續機器人模型發展的重要技術路線之一。圖圖:MTMT-ACTACT性能情況性能情況L4:New kitchen never seen before資料來源:RoboAgent:Generalization and Efficiency in Robot Manipulation v
35、ia Semantic Augmentations and Action Chunking,中信建投L1改變被操作物體的形態及場景燈光L2增加新的干擾物體L3增加新的任務和被操作物體L4新的環境L1場景成功率場景成功率L1/L2/L3場景成功率場景成功率L4場景成功率場景成功率 1.7 Meta機器人模型進展總結資料來源:Meta官網,谷歌學術,中信建投基本基本信息信息模型名字模型名字R3MCACTIASCRoboAgent/MT-ACT發布時間發布時間2022.32022.122023.42023.8研究機構研究機構Meta、Stanford UniversityMeta、Columbia
36、University、CMUMeta FAIR、Georgia Institute of TechnologyMeta FAIR、CMU數據數據整體數據集內容整體數據集內容人類第一視角視頻數據集(Ego4D)RL+人類演示模擬環境中強化學習導航模塊:HM3D模塊操作(拾取、放置):ReplicaCAD機器人數據集大小數據集大小3500小時人類演示:10個任務,每個5次演示(重復20次)RL:45000個機器人操作片段7500個片段(數據增強前)12種技能數據集收集方式數據集收集方式參與者一次佩戴頭戴式攝像頭長達 10 小時,并拍攝無腳本日?;顒拥牡谝蝗朔Q視頻。并通過自然語言進行注釋人類演示:收
37、集后使用stable diffusion進行增強RL:針對單一任務通過RL得到專家策略,增加相應的視覺信息和噪音進行增強人類控制硬件硬件機器人頻率機器人頻率(單位:(單位:HzHz)12.52(control)/12(sensor)5機器人機器人Franka Emika Panda robotFranka Emika Panda robot(8 action dimension)Boston Dynamics Spot robotFranka Emika Panda arm(8 action dimension)模型模型視覺處理視覺處理R3MR3M(使用互聯網數據和本次模型數據預訓練)MoCo
38、(僅使用本次的模型數據)Mask R-CNNOwl-ViTFiLM/CNN語言處理語言處理DistilBERTDistilBERT(設置與R3M一致)綜合處理模型綜合處理模型/MLP協作模塊(本質為MoE的門控網絡)Transformer/ACT算力算力訓練芯片訓練芯片Nvidia Titan Xp,or similar2080Ti(訓練時長:48hours)推理芯片推理芯片RTX 3070圖圖:MetaMeta機器人模型梳理機器人模型梳理Meta的機器人模型與谷歌有所差異,目前的工作中尚未嘗試將大語言模型與機器人控制所結合。同時相較于谷歌嘗試利用大規模的數據集的機器人模型與谷歌有所差異,目前
39、的工作中尚未嘗試將大語言模型與機器人控制所結合。同時相較于谷歌嘗試利用大規模的數據集提升機器人模型的表現,提升機器人模型的表現,Meta的相關工作更加關注如何使用小規模的數據實現通用機器人控制模型的構建,也即數據效率方面的提升。的相關工作更加關注如何使用小規模的數據實現通用機器人控制模型的構建,也即數據效率方面的提升。Meta在在ASC模型中采用的強化學習與模型中采用的強化學習與MoE的結合也是值得關注的方向,為強化學習在復雜多任務場景中的進一步發展提供可能。的結合也是值得關注的方向,為強化學習在復雜多任務場景中的進一步發展提供可能。2.1.1 LATTE:結合預訓練模型的機器人軌跡控制模型M
40、icrosoft及及Technische Universit t M nchen的的研究人員在研究人員在2022年年8月推出了基于自然語言的機器人軌跡控制框架月推出了基于自然語言的機器人軌跡控制框架LATTE模型框架:模型框架:使用Bert模型處理用戶文本指令,使用CLIP模型處理圖像輸入,并且與用戶的文本輸入相匹配,進而識別出用戶指令中的目標對象。上述信息與經過Encoder處理的物體姿態信息和航跡信息相結合,通過Decoder生成全新的航跡。圖圖:LATTELATTE模型架構模型架構資料來源:LATTE:Language Trajectory Transformer,中信建投對象圖像對象圖
41、像文本指令文本指令對象狀態對象狀態使用使用BERT模型和模型和CLIP模型對文本指令和圖模型對文本指令和圖像輸入進行處理像輸入進行處理初始軌跡初始軌跡 2.1.2 LATTE:使用預訓練模型的機器人軌跡控制模型訓練數據:訓練數據:每個數據樣本都包含基礎軌跡和修改后的軌跡(如下左圖紅色為基礎軌跡,藍色為生成的軌跡)、自然語言輸入(包括絕對方向的變化、速度的變化、相對方向的變化三個方面)、對象姿態和對象圖像(來自Bing的圖片查詢)。運行結果:運行結果:航跡可以根據用戶指令的要求,實現軌跡、速度方面的變化,如下中圖所示,用戶要求無人機離“演員”遠一些,最終生成的藍色軌跡相較于初始的紅色軌跡離環境左
42、下角中的“演員”更遠,在做出速度方面的要求后,生成的新軌跡也有明顯的速度下降。模型性能:模型性能:研究人員收集了來自10名參與者的300個數據點,大多數用戶都認為數據集中的軌跡及模型中的軌跡正確的反應了語言命令要求的更改,同時缺少語言模型的輸入或2D的軌跡修正都會導致模型效果非常糟糕,反向佐證了這一思路的效果。同時,模型繼承了大語言模型一定的泛化性能,能夠在76%的情況下以相當或更好的效果處理未見過的指令輸入。圖圖:自動生成的訓練數據:自動生成的訓練數據資料來源:LATTE:Language Trajectory Transformer,中信建投圖圖:模型性能分析:模型性能分析圖圖:模擬:模擬
43、/現實場景的運行結果示例現實場景的運行結果示例模型在處理訓練集內的指令和訓練集外的指令的對比模型在處理訓練集內的指令和訓練集外的指令的對比大多數用戶都認為模型在軌跡控制方面實現了較為優秀的性能大多數用戶都認為模型在軌跡控制方面實現了較為優秀的性能 2.2.1 ChatGPT for RoboticsMicrosoft的研究人員在的研究人員在2023年年2月發布文章月發布文章ChatGPT for Robotics,介紹了將,介紹了將ChatGPT應用于機器人控制的一種框架。應用于機器人控制的一種框架。核心思路:通過大語言模型(核心思路:通過大語言模型(ChatGPT)來處理用戶指令,進而調用相
44、應的機器人控制)來處理用戶指令,進而調用相應的機器人控制API來完成具體的任務。來完成具體的任務。具體步驟:具體步驟:1.定義了一個高級機器人功能庫(API),并于機器人平臺上的具體實現相匹配,同時其需要具備相應的描述性信息以便ChatGPT理解2.通過提示工程為ChatGPT創建調用相關API的Prompt3.用戶通過直接分析或模擬來評估ChatGPT輸出的代碼質量,并針對輸出的代碼質量和安全性向ChatGPT提供反饋4.逐步迭代ChatGPT生成的結果,將最終代碼部署到機器人上圖圖:ChatGPTChatGPT forfor RoboticsRobotics框架框架資料來源:ChatGPT
45、 for Robotics:Design Principles and Model Abilities,中信建投定義一個和任務相關的機器人定義一個和任務相關的機器人API庫庫通過提示工程為通過提示工程為ChatGPT創建創建調用相關調用相關API的的Prompt用戶通過直接分析或模擬來用戶通過直接分析或模擬來評估評估ChatGPT輸出的代碼質量,輸出的代碼質量,并向并向ChatGPT提供反饋提供反饋 2.2.1 ChatGPT for Robotics模型具備將對現實世界的知識理解通過機器模型具備將對現實世界的知識理解通過機器人控制轉化為現實世界任務完成的能力。人控制轉化為現實世界任務完成的能
46、力。1.為機械臂排列物體設計了一套課程,并要求ChatGPT學習物體拾取和物體放置。2.ChatGPT在用戶提問下回答了微軟Logo的特征,并生成了能夠繪制出相應圖像的代碼(回答如右圖第一、二個藍框所示)3.ChatGPT在用戶的進一步要求下完成了機器人控制的相關代碼(具體代碼未展示),通過代碼控制機器人實現了將顏色方塊擺成微軟logo的任務(操作流程如右下圖所示)圖圖:ChatGPTChatGPT forfor RoboticsRobotics示例示例資料來源:ChatGPT for Robotics:Design Principles and Model Abilities,中信建投 風險
47、提示感謝陳思玥、樊文輝對本報告的貢獻。算力發展不及預期:算力發展不及預期:機器人模型的訓練和推理對算力有著較高需求,若后續算力發展不及預期則會影響機器人大模型的迭代和發展。機器人模型技術發展不及預期:機器人模型技術發展不及預期:機器人模型屬于先進AI算法,若后續機器人模型算法更新迭代效果不及預期,則會影響機器人模型演進及拓展,進而會影響其商業化落地等。數據數量與數據質量不及預期:數據數量與數據質量不及預期:機器人模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響模型效果。機器人大模型研發競爭激烈:機器人大模型研發競爭激烈:美國科技大廠紛紛入局機器人模型研發,相關產品表現出了很
48、強的競爭力,機器人模型研發競爭越發激烈。分析師介紹分析師介紹閻貴成:閻貴成:中信建投證券通信&計算機行業首席分析師,北京大學學士、碩士,專注于云計算、物聯網、信息安全、信創與5G等領域研究。近8年中國移動工作經驗,6年多證券研究經驗。系2019-2021年新財富、水晶球通信行業最佳分析師第一名,2017-2018年新財富、水晶球通信行業最佳分析師第一名團隊核心成員。金戈:金戈:中信建投證券研究發展部計算機行業聯席首席分析師,帝國理工學院工科碩士,擅長云計算、金融科技、人工智能等領域。于芳博于芳博:中信建投人工智能組首席分析師,北京大學空間物理學學士、碩士,2019年7月加入中信建投,主要覆蓋人
49、工智能等方向,下游重點包括智能汽車、CPU/GPU/FPGA/ASIC、EDA和工業軟件等方向。評級說明評級說明投資評級標準評級說明報告中投資建議涉及的評級標準為報告發布日后6個月內的相對市場表現,也即報告發布日后的6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深300指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美國市場以標普 500 指數為基準。股票評級買入相對漲幅15以上增持相對漲幅5%15中性相對漲幅-5%5之間減持相對跌幅5%15賣出相對跌幅15以上行業評級強于大市相對漲幅10%以上中性相對漲幅-10-10%之間弱于
50、大市相對跌幅10%以上 分析師聲明分析師聲明本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格
51、證書編號已披露在報告首頁。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相
52、反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不
53、對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去12個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式
54、轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部中信建投(國際)中信建投(國際)北京東城區朝內大街2號凱恒中心B座12層電話:(8610)8513-0588聯系人:李祉瑤郵箱:上海浦東新區浦東南路528號南塔2103室電話:(8621)6882-1612聯系人:翁起帆郵箱:深圳福田區福中三路與鵬程一路交匯處廣電金融中心35樓電話:(86755)8252-1369聯系人:曹瑩郵箱:香港中環交易廣場2期18樓電話:(852)3465-5600聯系人:劉泓麟郵箱:charleneliucsci.hk26