當前位置：首頁 > 報告詳情

機械行業星海系列：人形機器人與AI大模型之Robot+AI的Transformer之旅-241107（54頁）.pdf

上傳人：小溪編號：180352 2024-11-08 PDF PDF DOCX DOCX DOCX 54頁 5.02MB

下載：

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/54

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《機械行業星海系列：人形機器人與AI大模型之Robot+AI的Transformer之旅-241107（54頁）.pdf》由會員分享，可在線閱讀，更多相關《機械行業星海系列：人形機器人與AI大模型之Robot+AI的Transformer之旅-241107（54頁）.pdf（54頁珍藏版）》請在三個皮匠報告上搜索。

1、本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 1 星海系列：人形機器人與 AI 大模型之 Robot+AI 的 Transformer 之旅 2024 年 11 月 07 日從 Transformer 到多模態大模型的演進與應用。Transformer 不僅在語言處理上廣泛應用，還擴展至圖像、視頻、音頻等多模態任務。諸如 Stable Diffusion、VideoPoet 和 MusicLM 等模型展現了其強大的生成能力，推動了多模態大模型（MLLM）的發展。機器人現實世界至數據化的突破：RT-2、RoboCat 與 MimicGen。RT-2 通過大規模的視覺

2、-語言預訓練，將視覺識別與低級機器人控制結合，實現了機器人在復雜任務和未見環境中的強大泛化能力。RoboCat 則基于 Gato 模型，展示了多任務和多具身平臺上的自我迭代學習能力，能夠快速適應新任務并生成跨任務策略。英偉達的 MimicGen 自動生成大量模仿學習數據，有效減少了人工干預，提升了機器人學習的效率。特斯拉 FSD，端到端算法成為主流，數據為關鍵。2020 年 FSD 引入Transformer 模型，走向了數據驅動的模型范式，2024 年初 FSD V12 完全采用神經網絡進行車輛控制，從機器視覺到驅動決策都將由神經網絡進行控制。FSD V12 能夠模擬人類駕駛決策，成為自動駕

3、駛領域全新發展路徑。英偉達 Robocasa：具體智能關鍵節點，首次論證 real-sim-real。通過升級模擬平臺并構建模擬框架，基于廚房場景和原子任務、復合任務、真實世界三個場景收集行為數據集并進行結果評估。說明模擬器的豐富多樣性以及視覺和物理真實性顯著改善了模擬效果，實驗結果首次論證了 real-sim-real 可行。后續演繹：在機器人 real-sim-real 可行，證明存在 scaling law 的基礎上，持續推薦可執行任務的泛化能力，邁向真正的 AGI 智能化：1）李飛飛 Rekep:一種針對機器人操作任務的新型空間和時間約束表示方法，提供了一種三任務閉環的解決方案。通過關

4、鍵點約束解構機器人行為，將操作行為分為多階段，并構建子目標約束和路徑約束，基于此提出一種三任務閉環的解決方案。同時，融入大型視覺模型和視覺-語言模型，利用 VLM 和 GPT-4o 生成 Rekep 約束，避免了手動指定 Rekep 的需要。2）1x 世界模型：首證擴展定律，能通過大量學習理解周圍環境。通過大量的真實數據學習和模擬，機器人能夠預測復雜的物體互動，理解周圍環境，并靈活應對日常任務。1x 的進展首次在機器人上證明了擴展法則。3）GR-2 的高效動作預測與泛化能力。由字節跳動研究團隊開發的第二代機器人大模型，憑借大規模視頻預訓練和多模態學習技術，展示了卓越的泛化能力與多任務通用性。4

5、）數字表親：機器人訓練法優化，以更低的成本獲取更好的泛化能力。在保留數字孿生優勢的基礎上，數字表親表現出了更強的適應能力和魯棒性，成功實現了從模擬到現實的零樣本遷移，為機器人學習在復雜、多變的真實環境中的應用開辟了新的可能性。投資建議：1)關注算法訓練中，需要使用的傳感器公司，如視覺方案奧比中光，力學方案安培龍；2）關注同步受益的機器人本體公司，如總成方案三花智控、拓普集團；絲桿公司北特科技、五洲新春、貝斯特、雙林股份、震?？萍嫉?；3）關注其他產業鏈可延伸公司。風險提示：機器人算法迭代進步速度不及預期，人形機器人落地場景實際需求不及預期推薦維持評級分析師李哲執業證書：S0100521

6、110006 郵箱：lizhe_ 分析師羅松執業證書：S0100521110010 郵箱：相關研究 1.一周解一惑系列：輪胎模具需求穩步增長，出?？臻g廣闊-2024/10/20 2.一周解一惑系列：蘋果海外供應鏈受阻，國內有望新設產線-2024/10/13 3.一周解一惑：AI 驅動+產業轉移，PCB 曝光設備受益-2024/09/30 4.一周解一惑系列：復盤日本拖拉機歷史，大拖占比提升大勢所趨-2024/09/21 5.揚帆系列：船舶需求分析（二）：干散貨船需求與測算-2024/09/18 行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告

7、2 目錄 1 Transformer 模型的演進：從語言翻譯到多模態智能的前沿探索.3 1.1 開篇：Robot+AI 的核心時間線與關鍵節點結論.3 1.2 Transformer 網絡架構的提出.3 1.3 語言、圖片、視頻大模型的出現.4 1.4 多模態、跨模態大模型的難點.6 1.5 Scaling Law 的存在.6 2 機器人現實世界至數據化的突破：RT-2、RoboCat 與 MimicGen.8 2.1 谷歌 RT-2：具身智能學習.8 2.2 英偉達 MimicGen：自動化數據生成系統.11 2.3 谷歌 RoboCat：多任務具身智能.15 3 特斯拉 FSD：端到端算法

8、成為研究主流，數據集成為關鍵.18 3.1 FSD V12：全新的端到端自動駕駛.18 3.2 FSD 的前世今生.19 3.3 FSD 架構變革：Transformer 模型的引入.20 3.4 FSD 端到端：感知決策一體化.21 4 端到端算法成為研究主流，數據集成為關鍵.23 4.1 端到端算法：直接連接數據輸入與控制指令輸出.23 4.2 端到端算法相比傳統的技術架構的優勢.24 4.3 自動駕駛端到端算法遷移至人形機器人的優勢.26 4.4 機器人端到端算法的關鍵問題.27 4.5 特斯拉 grok 模型：模擬思維鏈思考過程.29 5 英偉達 Robocasa：具體智能關鍵節點，首

9、次論證 real-sim-real.31 5.1 英偉達 Robocasa：基于廚房場景的模擬數據收集.31 6 機器人 real-sim-real 可行，邁向真正的 AGI 智能化.36 6.1 李飛飛團隊 Rekep：一種針對機器人操作任務的新型空間和時間約束表示方法，提供了三任務閉環的解決方案.36 6.2 1x 世界模型：首證擴展定律，能通過大量學習理解周圍環境.40 6.3 字節 GR-2：高效動作預測與泛化能力.43 6.4 數字表親：機器人訓練法優化，以更低的成本獲取更好的泛化能力.47 7 投資建議.51 8 風險提示.51 插圖目錄.52 行業深度研究/機械本公司具備證券投

10、資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 3 1 Transformer 模型的演進：從語言翻譯到多模態智能的前沿探索 1.1 開篇：Robot+AI 的核心時間線與關鍵節點結論下圖是機器人和 transformer 模型結合的重點時間線及關鍵節點突破。圖1：Robot+AI 的核心時間線與關鍵節點資料來源：Anthony BrohanRT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control，Ajay MandlekarMimicGen:A Data Generation Sys

11、tem for Scalable Robot Learning using Human Demonstrations，Konstantinos BousmalisRoboCat:A Self-Improving Generalist Agent for Robotic Manipulation，tesla，Tianyuan DaiACDC:Automated Creation of Digital Cousins for Robust Policy Learning，Jack Monas1x world model，Chi-Lam CheangGR-2:A Generative Video-L

12、anguage-Action Model with Web-Scale Knowledge for Robot Manipulation，Soroush NasirianyRoboCasa:Large-Scale Simulation of Everyday Tasks for Generalist Robots，Wenlong Huang,Li Fei-FeiReKep:Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation，民生證券研究院 1.2 Transformer 網絡

13、架構的提出 2017 年，Google 的 Brain 團隊發布了一篇文章“Attention Is All You Need”，這篇文章中提出了 Transformer 網絡結構。其一開始的提出是為了解決翻譯問題，僅僅依賴于注意力機制就可處理序列數據，從而擯棄了 RNN 或 CNN。這個新的網絡結構，刷爆了各大翻譯任務，同時創造了多項新的記錄（英-德的翻譯任務，相比之前的最好記錄提高了 2 個 BLEU 值）。而且，該模型的訓練耗時短，并且對大數據或者有限數據集均有良好表現。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 4 圖2：Transfo

14、rmer 核心架構資料來源：Ashish Vaswani,Noam ShazeerAttention Is All You Need，民生證券研究院模型的核心架構的示意圖如上。Transformer 模型的架構就是一個 seq2seq 架構，由多個 Encoder Decoder 堆疊而成。在此示意圖中，Encoder 和 Decoder 都包含 6 個 block。Transformer 將所有的單詞向量化，通過矩陣編譯的方法開始翻譯以及預測，在翻譯上一個詞的同時對后續的單詞進行預測，達到語句通順的效果。其實際上是一個編碼器-解碼器結構，其中編碼器將原始語言的句子作為輸入并生成基于注意力

15、的表征，而解碼器關注編碼信息并以回歸方式生成翻譯的句子，和之前的 RNN 相同。不同的是，Transformer 模型引入了注意力機制和殘差鏈接，也就是所謂“Attention Is All You Need”，最終輸出結果。Transformer 的意義體現在它的長距離依賴關系處理和并行計算，而這兩點都離不開其提出的自注意力機制。首先，Transformer 引入的自注意力機制能夠有效捕捉序列信息中長距離依賴關系，相比于以往的 RNNs，它在處理長序列時的表現更好。而自注意力機制的另一個特點時允許模型并行計算，無需 RNN 一樣 t 步驟的計算必須依賴 t-1 步驟的結果，因此 Transf

16、ormer 結構讓模型的計算效率更高，加速訓練和推理速度。圖3：自注意力機制示意圖資料來源：Ashish Vaswani,Noam ShazeerAttention Is All You Need，民生證券研究院 1.3 語言、圖片、視頻大模型的出現行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 5 語言，圖片，視頻大模型以大語言模型為基礎，將強大的大語言模型作為大腦來執行多模態任務。但 LLM 只能理解離散文本，在處理多模態信息時不具有通用性。另一方面，大型視覺基礎模型在感知方面進展迅速，但推理方面發展緩慢。這兩者的優缺點形成了巧妙的互補。由

17、于上述不同點中的互補性，單模態 LLM 和視覺模型同時朝著彼此運行，結合上部分的圖像、視頻和音頻等等模態，最終帶來了 MLLM 的新領域。形式上，它指的是基于 LLM 的模型，該模型能夠接收多模態信息并對其進行推理。從發展人工通用智能的角度來看，MLLM 可能比 LLM 向前邁出一步。MLLM 更加符合人類感知世界的方式，提供了更用戶友好的界面（可以多模態輸入），是一個更全面的任務解決者，不僅僅局限于 NLP 任務。圖4：MLLM 的模型結構資料來源：Duzhen ZhangMM-LLMs:Recent Advances in MultiModal Large Language Models

18、，民生證券研究院上圖包含了通用多模態模型結構的五個組件部分，以及每個組件部分的常用選擇。Modality Encoder：負責將不同模態的輸入數據編碼為模型可理解的表示，目前技術可以實現輸入圖片、視頻、音頻文件，對于圖像而言，可能涉及到將像素數據轉換成一個特征向量，該向量捕捉了圖像中的重要信息；Input Projector：將不同模態的輸入數據映射到共享的語義空間，這意味著無論輸入數據的形式如何，它們都會被轉換成一個統一的格式，以便模型可以在一個統一的框架中處理它們；LLMS：大型語言模型，用于處理文本數據，可以將不同模態的信息對齊到一個共同的語義空間中，整合由前面兩個部分轉換后輸入的信息

19、，融合后再生成一個統一的、豐富的語義表示，可能是相應的指導性文本或腳本，與專門的生成模型協同工作，實現高質量的圖片和音頻生成；Output Projector：將模型生成的輸出映射回原始模態的空間，如果模型的輸出是文本，那么輸出投影器將確保生成的文本與輸入數據的語義空間相匹配；Modality Generator：根據輸入數據生成對應的輸出數據，將模型的內部表行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 6 示轉換成最終的輸出形式，如生成圖像、文本或音頻。多模態理解主要是前三個部分。（模態對齊）訓練期間，encoder，LLM Backbone

20、和 generator 一般保持凍結。主要優化輸出和輸出的 projector。由于 Projector 是輕量級的模塊，MM-LLMs 中可以訓練的參數比例和總參數相比非常?。?%左右），模型的總體參數規模取決于 LLM 部分。由此，Transformer模型隨著 LLM 的廣泛應用而成為了目前多模態大模型的核心思想和目前較為先進的網絡架構。截至 2024 年 10 月，中國移動在多模態大模型領域取得了顯著進展，其九天善智多模態基座大模型表現尤為突出。該模型可以處理長文本的智能化解析，全雙工語音交互，擁有高質量的視頻與圖像處理能力，可以對結構化數據做深度洞察。1.4 多模態、跨模態大模型的難

21、點其一是異質化數據的處理與整合存在困難：多模態大模型中，由于輸入輸出的數據具有多樣性，面臨的主要問題包括數據的異質性導致的表示難題、不同模態間的數據轉換挑戰、確定模態間元素聯系的對齊問題、多模態信息的有效融合難點，以及如何在不同模態間進行知識遷移的協同學習挑戰。需要綜合應用多元化多樣化的模型對其進行處理，將各個異質性的數據再整合規劃，才能真正讀懂要求，輸出數據.其二是訓練過程挑戰重重：獲取跨多個模態的充足數據可能非常困難和昂貴，且數據可能會偏向于某些模態，導致模型產生偏見，從而導致模型偏向于數據量更多或特征更強的模態，導致模型產生偏見；同時由于特定于模態的編碼器通常分別訓練，他們聲稱的表示是

22、存在差異的，對投影/對齊模塊的有效學習過于依賴。1.5 Scaling Law 的存在在這其中，值得關注的是語言模型的 scaling law。大模型的 Scaling Law 是OpenAI 在 2020 年提出的概念，可以概括為“預測即壓縮、壓縮即泛化、泛化即智能”將大語言模型用在別的領域之后，從計算理論的角度，聯合壓縮多模態數據理應獲得比單模態更好的理論最優壓縮器。對于所有的模態來說，他們都必須要服從的 scaling law 是，隨著數據規模的提升，模型的表現也會隨之提升，如果法則正確，那么要想使得模型更好，只需要搭建好算法和框架，不斷收集數據就可以了。一旦證明 scaling la

23、w 的存在和有效性，就可以預測模型性能與規模的關系，投入恰當規模的數據集，使得計算資源可以更高效的應用。多模態模型會變得更加可預測和可計算，其不確定性就極大的降行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 7 低了。圖5：Scaling Law 的效果圖示資料來源：Jared KaplanScaling Laws for Neural Language Models，民生證券研究院在此基礎上，本文想要按時間線和核心 milestone 貢獻，來幫助大家拆解最近 1 年時間，robot 的 transformer 結合之旅是怎么演進的，從而去探

24、討真正前沿的，以 transformer 為基礎的模型到底會去往何處。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 8 2 機器人現實世界至數據化的突破：RT-2、RoboCat 與 MimicGen 2.1 谷歌 RT-2：具身智能學習 2.1.1 提出的問題與研究意義大語言模型可以實現流暢的文本生成、問題解決、創意寫作以及代碼生成，視覺-語言模型（VLM）則能夠實現開放詞匯的視覺識別。以上能力對于現實環境中的通用型機器人非常有用，然而它們如何獲得這些能力還是未知。如何將大型預訓練的視覺-語言模型直接集成到低級機器人控制中，以促進泛化并實現緊

25、急語義推理，成為了機器人下一步發展的方向。Google 提出的 RobotTransformer(RT)系列使用了更大規模的語言模型和更多的具身智能任務數據，在大量具身智能任務中獲得較好效果。其中 RT-1 算法使用預訓練的 EfficientNet-B3 網絡初始化，以機器人狀態和歷史圖片作為輸入，通過 EfficientNet 特征提取后直接輸出動作。圖6：RT-1 結構概覽資料來源：Anthony BrohanRT-1:ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE，民生證券研究院 RT-1 將機器人動作的每個維度進行均勻離散化

26、，并將動作詞元化，然后使用監督學習的損失進行訓練。為了使視覺-語言模型能夠控制機器人，還差對動作控制這一步。該研究采用了非常簡單的方法：他們將機器人動作表示為另一種語言，即文本 token，并與 Web 規模的視覺-語言數據集一起進行訓練。圖7：機器人動作數字 token 化資料來源：Anthony BrohanRT-1:ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 9 RT-2 在機器人任務上展示了更強的泛化能力，以及對超

27、出其接觸的機器人數據之外的語義和視覺的理解。RT-2在RoboticTransformer1(RT-1)的基礎上進行，直接訓練視覺-語言模型以實現開放詞匯視覺問答和視覺對話，輸出低級機器人動作，同時解決其他互聯網規模的視覺語任務。相較于 RT-1，RT-2 模型在機器人理解新任務，并通過執行基本推理來響應用戶命令，例如推理物體類別或高級描述等方面具有更大的優勢。2.1.2 核心方法與進步：以預訓練為基礎升級泛化能力與 RT-1 模型的泛化能力相比，RT-2 的目標是訓練機器人從觀測到動作的端到端模型，并且從大規模視覺-語言模型預訓練模型中學習泛化知識。最終，Google提出一個在機器人軌跡數

28、據和互聯網級別的視覺語言任務聯合微調視覺-語言模型的學習方式。這類學習方法產生的模型被稱為視覺-語言-動作(VLA)模型，具有泛化到新對象的能力、解釋命令的能力以及根據用戶指令思維推理的能力。RT-2 算法整體使用大規模預訓練的視覺-語言模型結構，模型參數可以達到55B 的參數量，遠超 RT-1 的參數規模，同時利用大規模預訓練視覺-語言模型模型中編碼的豐富視覺問答知識來幫助具身模型的訓練。RT-2 將輸出的動作進行和RT-1 相同的離散化操作后將詞元加入視覺-語言模型原先的詞表中，可以把動作詞元視為另外一種語言進行處理，無需改變原有視覺-語言模型結構設計。由于 RT-2 已經在海量的視覺問答

29、任務中進行預訓練，在對圖片和任務指令的理解上有更加豐富的經驗，在任務集合上具有更強的泛化能力。RT-2 能夠運用其大規模預訓練的視覺問答經驗進行泛化，在現實世界的任務中進行推廣，實現推理、理解和識別。例如在下圖的拾取、移動、放置等具體任務中，智能體能夠精準識別任務需求并且以過往訓練經驗為基礎準確地完成。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 10 圖8：RT-2 能夠推廣到各種需要推理、符號理解和人類識別的現實世界情況資料來源：Anthony BrohanRT-2:Vision-Language-Action Models Transfe

30、r Web Knowledge to Robotic Control，民生證券研究院 RT-2 的核心方法是采用視覺-語言-動作模型（VLA）與聯合微調。具體步驟如下：步驟一：RT-2 通過 Vision Transformer(ViT)提取圖像特征，把動作tokens 轉化為語言 tokens，將相應動作轉化為動作字符串（例如“1 128 91 241 5 101”）。在此過程中，機器人動作被離散化為多個參數（如位移和旋轉），每個參數映射為預定義的 token。這些 token 被嵌入到模型的語言字典中，與自然語言 token 共用同一表示空間。步驟二：RT-2 將任務指令和圖像信息結合，通

31、過 de-tokenize 轉化為具體的機器人動作序列。此過程使用大語言模型（LLM）解析任務，像自然語言處理那樣，動作模塊使用 tokenizer 來處理這串 token 轉成對應的機器人動作，將視覺信息和任務指令解碼為具體的機器人動作序列（如平移和旋轉參數），進而分析這串字符串對應的開始符、命令、停止符。步驟三：在執行任務的過程中，模型同步實時進行聯合微調（Co-Fine-Tuning）：機器人根據傳感器和攝像頭反饋的最新圖像信息，判斷任務執行的狀態和完成情況。如果任務執行過程中出現誤差或環境發生變化，模型會利用新的視覺數據重新規劃動作，直至任務完成?？偠灾?，語言模型負責持續理解任務場景

32、和需求，而動作模塊根據視覺反饋實時調整操作，確保任務順利完成。完成訓練與微調后，RT-2 被部署到機器人系統中，并具備了在復雜環境下執行多任務的能力，實現高效的閉環控制。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 11 圖9：RT-2 全流程概覽資料來源：Anthony BrohanRT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control，民生證券研究院 2.1.3 核心結論+未來進展 RT-2 展示了視覺-語言模型（VLMs）可以轉變為強大的視覺

33、-語言-動作（VLA）模型，通過結合 VLM 預訓練和機器人數據，直接控制機器人。RT-2 基于 PaLM-E 和 PaLI-X 的兩種 VLA 模型，提高了機器人策略的完成率，并且繼承了視覺語言數據預訓練的優勢，具有更好的泛化能力和涌現能力。這不僅是對現有視覺-語言模型的有效改進，也展示了通用型機器人的發展前景。未來的機器人能夠進行推理、解決問題，并進行高級規劃和低級指令控制，在現實世界中執行大量多樣化的任務。RT-2 也具有局限性。該模型對于泛化能力的強化并沒有提高機器人執行新動作的能力，智能體知識學會了以新的方式部署學習到的技能。同時，由于高頻控制的設置應用場景，實時推斷可能成為主要瓶頸

34、。未來工作的方向主要集中于如何通過新的數據收集范式（如人類視頻）獲得新技能，同時開發出更多的開元模型以支撐高速率和低成本的運作。2.2 英偉達 MimicGen：自動化數據生成系統 2.2.1 MimicGen：用于大規模機器人學習的數據生成系統 MimicGen 是一個用于大規模機器人學習的數據生成系統，目的是解決機器人學習過程中人工數據收集成本高、時間耗費大的問題。當前基于模仿學習的機器人研究依賴大量的人工演示數據來訓練模型，但這些數據的收集非常昂貴。MimicGen 提出了從少量人類演示數據中自動生成大規模、多樣化的演示數據集的系統。該系統通過將人類演示數據適應于新場景，生成多達 50,

35、000 條演示數據，覆蓋 18 項任務，從而顯著降低了人工數據收集的需求。這一方法能夠加速機器人學習的進展，使得機器人能夠在復雜場景中表現出行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 12 更強的泛化能力，尤其是在長時間任務和高精度任務（如多部件裝配、咖啡準備）中表現出色。研究結果表明，利用 MimicGen 生成的數據進行模仿學習能夠取得與傳統人工數據收集相媲美的效果。圖10：MimicGen 從原始人類演示數據到生成的廣泛數據集的過程資料來源：Ajay MandlekarMimicGen:A Data Generation System

36、for Scalable Robot Learning using Human Demonstrations，民生證券研究院 2.2.2 核心方法與進步：數據分割與重組 MimicGen 的設計來源于模仿學習與數據增強兩個技術背景。模仿學習是一種通過觀察人類示范來訓練機器人的方法。MimicGen 利用這一理念，通過生成多樣化的示范來擴展模仿學習的應用范圍。數據增強技術被廣泛應用于提高模型的泛化能力。通過對現有數據進行變換或修改來生成新訓練樣本的技術，旨在提高模型的泛化能力和魯棒性。常見的數據增強方法包括旋轉、縮放、平移等，這些變換可以在不改變數據標簽的情況下生成新的樣本。MimicGen 的

37、核心方法是數據分割與重組。將少量人類演示數據分割成以物體為中心的子任務，然后在新的場景中通過空間變換和軌跡生成，自動生成新的演示數據。傳統方法中，數據生成通?；陟o態場景的回放，或通過復雜的模擬器進行大量數據收集。而 MimicGen 的創新點在于，它提出了一種簡單但有效的策略，通過“對象中心片段”的變換和拼接，將少量的人類演示數據轉化為大規模的多樣化數據。這種方法可以直接融入現有的模仿學習管道中，適用于各種長時間、高精度的任務，并且能夠生成比單純回放方法更加多樣和有效的數據。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 13 圖11：Mimic

38、Gen 數據分割與重組示意圖資料來源：Ajay MandlekarMimicGen:A Data Generation System for Scalable Robot Learning using Human Demonstrations，民生證券研究院 2.2.3 核心結論：主要測試任務成功率大幅提升通過對比使用MimicGen生成的數據集與傳統人類示范數據集的結果可以得出，機器人在使用 MimicGen 生成的數據集后成功率顯著上升。研究團隊通過對MimicGen 的實驗，評估了其在不同任務中的表現，具體測驗任務主要包括 Stack Three（堆疊三個物體）、Square（方形物

39、體插入和對齊）、Threading（機器人在穿線或穿孔時的精細操作能力）、Kitchen（長時間多步驟任務）等十項。圖12：MimicGen 主要測試任務資料來源：Ajay MandlekarMimicGen:A Data Generation System for Scalable Robot Learning using Human Demonstrations，民生證券研究院結果顯示使用 MimicGen 后機器人成功率顯著提升，例如“Square”任務的成功率從11.3%提升至90.7%，“Threading”任務的成功率從19.3%提升至98.0%。行業深度研究/機械本公司具備

40、證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 14 圖13：MimicGen 主要測試任務結果資料來源：Ajay MandlekarMimicGen:A Data Generation System for Scalable Robot Learning using Human Demonstrations，民生證券研究院 2.2.4 MimicGen 未來潛力：生成訓練數據，減少人工干預 MimicGen 在機器人系統（尤其是機械臂）中的應用潛力巨大。通過利用少量人類演示（少于 200 個），MimicGen 可自動生成超過 50,000 個覆蓋 18 種任務的高質量數據

41、，有效減少人工干預，提升生產效率。其靈活性使其能夠適應不同機器人硬件和復雜操作環境，為工業自動化、醫療和服務機器人等領域提供廣泛的應用前景。MimicGen 的核心優勢包括：顯著提升任務表現、良好的廣泛適應性、跨物體和硬件適用性、適用于復雜移動操作任務、模擬器無關，精度表現卓越、支持非專家演示。圖14：MimicGen 操作機械臂完成毫米級精度接觸任務示意圖資料來源：Ajay MandlekarMimicGen:A Data Generation System for Scalable Robot Learning using Human Demonstrations，民生證券研究院 Mim

42、icGen 依賴于任務開始時已知的對象位姿和操作步驟，這在完全未知或動態環境中存在局限性。此外，僅通過任務成功與否來篩選生成數據，可能導致數據集存在偏差，影響模型泛化能力。其應用場景主要限于準靜態任務，并假設新對行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 15 象與已有對象同類，限制了其在動態環境和異構對象上的推廣能力。未來研究應進一步提升系統對復雜場景的理解和分割能力，減少對人類參與的依賴。擴展 MimicGen 在更多物體類別、機器人硬件和任務類型中的應用能力。圖15：MimicGen 能夠適應不同的機械臂資料來源：Ajay Mandle

43、karMimicGen:A Data Generation System for Scalable Robot Learning using Human Demonstrations，民生證券研究院 2.3 谷歌 RoboCat：多任務具身智能 2.3.1 RoboCat：多任務、多具身通才智能體在機器人領域，如何大規模利用異構機器人數據仍然是機器人領域的難題，大多數現實中的機器人學習研究集中于一次開發一個任務的智體。在機器人技術領域，近期研究專注于通過訓練有語言條件的 Transformer 策略來解決具有相同觀測和動作空間的多個簡單、視覺多樣化的任務，從而彌合大型預訓練語言模型和視覺基礎

44、操作之間的差距。Google 曾經提出 RobotTransformer，采集了移動機器人完成日常任務的軌跡片段，構成了真實移動機器人的專家數據集，包含了 700 多個任務，如移動物體、拉開抽屜、開罐子等，學習到的策略在新的任務指令上有一定的泛化能力。圖16：RT 數據收集和評估場景資料來源：Anthony BrohanRT1：ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 16 RoboCat 在 Gato 模型的基礎上進行

45、了改進，是一項受視覺和語言基礎模型最新進展啟發而提出的自我改進型多任務、多具身通才智能體。RoboCat 使用了跨實體、跨任務的具身模仿學習框架，在 VQ-GAN 對視覺輸入詞元化之后，使用標準的 DT 回歸損失根據歷史的狀態、觀測、目標信息對未來的智能體動作和觀測進行預測。同時，RoboCat 不斷提升智能體的能力。在新任務上，RoboCat 僅需1001000 個示教樣本就能完成快速策略泛化。通過 RoboCat，Google 能成功展示其在新任務和不同機器人平臺上的泛化能力，以及通過后續迭代利用大模型輔助具身智能數據生成，從而為構建一個自主改進循環提供基本的構建板塊。隨著訓練數據的增長和

46、多樣化，RoboCat 不僅表現出了跨任務遷移的跡象，也能更有效地適應新任務。圖17：RoboCat 支持多種機器人具身和控制模式資料來源：Konstantinos Bousmalis RoboCat:A Self-Improving Generalist Agent for Robotic Manipulation，民生證券研究院 2.3.2 RoboCat：以數據集為基礎實現任務的快速適應 RoboCat 的最終目標是創建一個能夠通過大量機器人情景經驗進行訓練的基礎智能體，使其能夠通過微調快速適應廣泛的新下游任務。為了實現這一目標，RoboCat 擁有一個非常豐富的多樣化操控行為數

47、據集并在此基礎上進行訓練。RoboCat 基于 Gato 架構，使用在廣泛圖像集上預訓練過的 VQ-GAN 編碼器（Esser,2021），在涵蓋多個領域和具身的廣泛數據集上進行訓練，通過視覺目標條件來指定任務。這種編碼器的選擇使得訓練和迭代更加快速，這種訓練方式也具有理想的自動事后目標生成屬性，即軌跡中的任何圖像都可以被標記為所有導致它的所有時間步驟的有效“后見目標”（Andrychowicz,2017）。這意味著現有數據中的后見目標可以在沒有額外人為監督的情況下提取。此外，視覺目標提供了一個直觀的界面，用于指示機器人應該執行什么任務。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務

48、必閱讀最后一頁免責聲明證券研究報告 17 圖18：目標圖像示例：圖 1、2 為虛擬環境，圖 3-8 為現實世界資料來源：Konstantinos Bousmalis RoboCat:A Self-Improving Generalist Agent for Robotic Manipulation，民生證券研究院 RoboCat 能進行自我微調和迭代。首先智能體將在初始使用多樣化的訓練集進行訓練，可以通過 100-1000 次演示微調以適應新任務，然后部署在真實機器人上，生成更多數據。其次，將生成軌跡添加進入下一次迭代的訓練數據集中，從而提高跨任務的性能。RoboCat 的自我改進過

49、程如圖所示：主要以架構和預訓練、微調和自我改進、真實世界部署作為全流程。圖19：RoboCat 自我改進進程資料來源：Konstantinos Bousmalis RoboCat:A Self-Improving Generalist Agent for Robotic Manipulation，民生證券研究院 2.3.3 機器人未來發展展望未來機器人的研究工作將著眼于更靈活的多模態任務規劃。首先是將現有的公開可獲取的數據集與注釋語言相結合，以語言為媒介的任務規劃和視覺目標相輔相成，得以實現對不同任務的更精準定位。此外，盡管當前研究主要關注視覺目標條件反射以及基于視覺-前饋模型（VF

50、M）的基線研究，但仍在圖像推理方面表現出色；同時，語言條件反射和 LLM/VLM 基線研究可能提供更好的時間推理能力。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 18 3 特斯拉 FSD：端到端算法成為研究主流，數據集成為關鍵 3.1 FSD V12：全新的端到端自動駕駛 FSD 全稱 Full Self-Driving（完全自動駕駛），是特斯拉研發的自動化輔助駕駛系統，目標是實現 L5 級別的自動駕駛。圖20：FSD V12（Supervised）虛擬界面顯示圖21：自動駕駛的六個等級資料來源：Tesla，民生證券研究院資料來源：九章智

51、駕，民生證券研究院 FSD V12（Supervised）是全新的“端到端自動駕駛”，模型架構發生了重大變化。據特斯拉 CEO 埃隆馬斯克表示，特斯拉 FSD V12（Supervised）需要人工干預的頻率只有 FSD V11 的百分之一。FSD V12（Supervised）完全采用神經網絡進行車輛控制，從機器視覺到驅動決策都將由神經網絡進行控制。該神經網絡由數百萬個視頻片段訓練而成，取代了超過 30 萬行的 C+代碼。FSD V12（Supervised）減少了車機系統對代碼的依賴，使其更加接近人類司機的決策過程。根據特斯拉發布 2024Q2 的自動駕駛報告，自動駕駛大幅減少事故率：開啟

52、 Autopilot 的情況下，平均每行駛 1107.2 萬公里(688 萬英里)會發生一起事故，而未開啟平均每行駛 233.3 萬公里(145 萬英里)會發生一起事故。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 19 圖22：FSD 和 V12 累計行駛里程圖23：每發生一次事故行駛的英里數資料來源：Tesla，民生證券研究院資料來源：特斯拉官網，民生證券研究院 3.2 FSD 的前世今生早期特斯拉自動駕駛采用外部合作方式，合作廠商包括 Mobileye 和英偉達等。在 2019 年特斯拉步入自研時代，首次推出自研自動駕駛芯片 HW3

53、.0。HW3.0采用特斯拉全棧自研的 FSD 芯片。2020 年 10 月，特斯拉小范圍推送 FSD Beta，對 Autopilot 基礎架構進行了重大重寫。2021 年 7 月，特斯拉開始推送 FSD Beta V9，該版本采用純視覺自動駕駛方案，摒棄了傳統的毫米波雷達和超聲波雷達，是特斯拉在自動駕駛技術的重要發展節點。圖24：特斯拉自動駕駛主要發展歷程資料來源：汽車財經，IT 之家，易車網，中國新聞周刊，新浪網，民生證券研究院 2024 年 1 月，特斯拉 FSD V12 正式向用戶推送，將城市街道駕駛堆棧升級為端到端神經網絡。2024 年 2 月，特斯拉 Model Y 迎來 HW4

54、.0 自動輔助駕駛硬件升級，與 HW3.0 相比，HW4.0 算力提升 5 倍，在硬件設計上實現并行處理能力增強、內存管理優化和專用加速器集成等多項創新。從最初的輔助駕駛系統，到全棧自研自動駕駛技術，特斯拉持續引領智能駕駛技術發展浪潮。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 20 3.3 FSD 架構變革：Transformer 模型的引入復盤 FSD 歷史，最重大的架構變革莫過于 2020 年引入 Transformer 模型（基于深度學習的神經網絡），算法得以從重人工、規則驅動，轉向重 AI，數據驅動。FSD 主要分為感知和規劃模塊，

55、在兩個模塊中都運用到了 Transformer 模型，神經網絡的介入使得端到端模型逐步實現。2022 年特斯拉 FSD 感知模塊即形成了 BEV+Transformer+Occupancy 神經網絡架構。通過攝像頭的圖片輸入，端到端輸出汽車周圍環境向量空間數據，為規劃模塊決策提供支持。特斯拉 FSD 規劃模塊在 2021 年引入基于神經網絡的規劃模塊和蒙特卡洛樹搜索，最終 FSD 規劃模塊由基于顯性規則的規劃模塊和基于神經網絡的規劃模塊構成。圖25：FSD 感知規劃控制總體架構資料來源：特斯拉 2021 AI Day，民生證券研究院 HydraNets 是特斯拉開發的一種深度學習網絡架構。這

56、個網絡的特點在于它能夠將多個任務集成到一個網絡中，例如車道線檢測、行人檢測與追蹤、交通信號燈檢測等，這些任務對于自動駕駛汽車來說至關重要。HydraNets 的核心在于其共享的主干網絡，該主干網絡通過分支成多個“頭”，可以同時輸出多個預測張量，每個“頭”負責不同的任務或對象類別。此外，這種架構的優勢在于其能夠有效地利用可用的計算資源，并且通過端到端的訓練和推斷，提高了處理不同視覺信息的效率。HydraNets 能夠將來自多個攝像頭的視覺內容轉換為向量空間和道路特征，這對于構建車輛周圍的綜合視圖至關重要。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告

57、 21 圖26：HydraNets 網絡架構圖27：視覺 Transformer 模型架構資料來源：特斯拉 2022 CVPR，民生證券研究院資料來源：Alexey Dosovitskiy：An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale，民生證券研究院 Dojo 是特斯拉公司開發的一套高性能計算系統，用于處理和訓練自動駕駛系統產生的海量數據。Project DOJO 的負責人 Ganesh Venkataramanan 表示，DOJO 是一種通過網絡連接的分布式計算機架構，它具有高帶寬、低

58、延時等特點，將會使人工智能擁有更高速的學習能力，從而使 Autopilot 更加強大。圖28：Dojo 內核示例資料來源：特斯拉 2021 AI Day，民生證券研究院 3.4 FSD 端到端：感知決策一體化 FSD V12 為首個端到端自動駕駛系統，實現感知決策一體化。特斯拉 FSD v12采用端到端大模型，消除了自動駕駛系統的感知和定位、決策和規劃、控制和執行之間的斷面，將三大模塊合在一起，形成了一個大的神經網絡，直接從原始傳感器數據到車輛操控指令，簡化了信息傳遞過程，因而減少了延遲和誤差，提高了系統的敏捷性和準確性。FSD V12 能夠模擬人類駕駛決策，成為自動駕駛領域全新發行業深度研

59、究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 22 展路徑。FSD V12 也被稱為“Baby AGI（嬰兒版通用人工智能）”，旨在感知和理解現實世界的復雜性。圖29：Baby AGI 架構資料來源：特斯拉 2021 AI Day，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 23 4 端到端算法成為研究主流，數據集成為關鍵 4.1 端到端算法：直接連接數據輸入與控制指令輸出模塊化自動駕駛分為傳感器數據輸入、感知模塊、定位模塊、規劃模塊和控制指令輸出五部分。而端到端算法則通過單一神經網絡直

60、接連接傳感器數據輸入與控制指令輸出。與傳統的模塊化自動駕駛相比，端到端自動駕駛神經網絡逐漸接管了系統的各個部分，其架構設計簡單，減少中間數據降維的成本，同時減小誤差以達到全局最優。端到端的優勢在數據量達到一定程度后性能顯著提高，但是缺點是數據量較小時候性能上升緩慢，遠低于解耦的傳統基于專家模型的策略。圖30：端到端算法與模塊化系統框架對比圖31：端到端模型與基于規則模型表現曲線對比資料來源：Pranav Singh ChibRecent Advancements in End-to-End Autonomous Driving using Deep Learning:A Survey，民生

61、證券研究院資料來源：2023 年 CVPR，民生證券研究院端到端算法實現自動駕駛有兩種主要方法：通過強化學習探索和改進駕駛模型、使用模仿學習以監督的方式訓練它模仿人類駕駛行為。強化學習的工作原理是通過與環境的相互作用，隨著時間的推移最大化累積獎勵，網絡根據自己的行為做出驅動決策，以獲得獎勵或懲罰。它在利用數據方面的效率較低。而模仿學習是在專家演示中學習駕駛風格，因此需要大量的實際駕駛場景來作為模型的訓練樣例，數據集的規模與多樣性成為關鍵問題。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 24 圖32：模仿學習框架示例圖33：強化學習框架示例

62、資料來源：Pranav Singh ChibRecent Advancements in End-to-End Autonomous Driving using Deep Learning:A Survey，民生證券研究院資料來源：Pranav Singh ChibRecent Advancements in End-to-End Autonomous Driving using Deep Learning:A Survey，民生證券研究院 4.2 端到端算法相比傳統的技術架構的優勢 4.2.1 更容易解決 corner case 在傳統的決策規劃框架中，研發人員會根據不同的 ODD 定義

63、好規則，面對特定場景時找到對應的規則，然后調用相應的規劃器生成控制軌跡。這種架構需要事先寫好大量的規則，故稱為“重決策方案”。重決策方案較易實現，在簡單場景下也堪稱高效，但在需要拓展 ODD、或把不同的 ODD 連接起來時，就需要大量的手寫規則來查缺補漏，從而實現更連續的智駕體驗。當遇到未學習過的場景，即corner case 時，系統會表現得不夠智能甚或無法應對。端到端是通過對場景的理解進行判斷，比如環境車輛動態、車道線、交通燈、轉向燈燈，通過多維度的元素，甚至是人類沒有意識到的要素進行綜合分析，判斷意圖，所以其理解的天花板更高。圖34：城市中加塞場景，基于規則模型很難處理資料來源：長城汽

64、車測試城市 NOA 自動駕駛加塞場景，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 25 4.2.2 擬人化自動駕駛傳統智駕通過橫向策略和縱向策略進行車輛的行為控制，基于確定的規則和精確的控制參數，導致車輛動作機械化，要做到擬人駕駛需要開展大量工作，定義控車曲線和匹配場景。端到端的本質是學習，所以其可以模仿人類駕駛汽車的行為，直接輸出包括方向盤轉角、方向盤轉速、油門踏板開度、制動踏板開度等，從而實現接近人類駕駛的習慣進行任務的過程控制。圖35：端到端感知-決策模型示例資料來源：Tesla,民生證券研究院 4.2.3 全局最優，

65、成本低且泛用性強傳統“分而治之”的模塊化架構，可能圄于局部最優解而難以達到全局最優。由于每個任務相對獨立，人工標注使數據的針對性強，監督學習使模型訓練的信號強，因此 AI 模型能迅速提升性能，有利于快速實現一個完整的產品。但在到達“局部最優解”之后，這些模型難以進一步提升，且串在一起之后形成累積誤差，不利于追求全局最優解。與傳統的模塊化自動駕駛系統相比，端到端自動駕駛系統設計難度低，硬件成本較小，并且通過多樣性的數據，能夠獲得在不同場景下的泛用性。所以從算法架構設計的角度，其具有高度的整合度和一體化，省去了多個模塊的獨立架構設計和算法開發，降低代碼量和運行所調度的模塊數量。另一方面，由于模型

66、直接從原始數據中學習，而不需要依賴于人工設計的特征或規則，所以刪去了枯燥的標注工作。最重要的還有一點就是省去了后期無窮盡的規則補充和場景補充，從而減少了人工維護和升級的成本。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 26 圖36：誤差依次反向傳播給所有模塊達到全局最優資料來源：Li ChenEnd-to-end Autonomous Driving:Challenges and Frontiers，民生證券研究院 4.3 自動駕駛端到端算法遷移至人形機器人的優勢 4.3.1 端到端算法遷移優勢一：數據驅動的技術范式自動駕駛端到端算法代表了

67、一種數據驅動的學習范式，這種范式同樣適用于機器人領域。通過大量的數據訓練，模型能夠學習到復雜的駕駛或操作行為，從而實現高度的智能化。自動駕駛系統在道路上收集的數據，以及通過仿真和合成數據技術獲取的數據，都可以為人形機器人的訓練提供有力支持。圖37：基于規則驅動圖38：基于數據驅動資料來源：csdn，民生證券研究院資料來源：csdn，民生證券研究院 4.3.2 端到端算法遷移優勢二：算法架構的通用性完全端到端算法采用“Bev（鳥瞰視角）+Transformer（預訓練）+Teacher-student（知識蒸餾）”方式實現力位的雙控，典型代表是特斯拉的 Optimus 人形機器人，根據上

68、文所述，特斯拉人形機器人采用了相同的算法架構。端到端算法從汽車自動駕駛遷移至人形機器人幾乎不需要做太多額外工作，車本身就是一種機器人。早期的特斯拉 Optimus 機器人使用了與汽車完全相同的計算機和攝像頭，通過讓汽車的神經網絡在機器人上運行，它在辦公室里走動時仍試圖識別“可駕駛空間”，而實際上它應該識別的是“可行走空間”。這種通用化能力表明了很多技術是可以遷移的，雖然需要一些微調，但大部分系統和工具都是行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 27 通用的。圖39：特斯拉 optimus 機器人避障行走資料來源：tesla，民生證券研究院

69、 4.3.3 端到端算法遷移優勢三：擬人化行為的實現端到端算法是自動駕駛擬人化行為實現的關鍵。它采用整體化的神經網絡，將感知、預測和規劃等任務整合到一個模型中。通過輸入感知信息（如攝像頭、雷達等傳感器數據），模型能夠直接輸出軌跡或控制信號，實現類似人類的駕駛行為。自動駕駛端到端算法能夠學習到人類駕駛的擬人化行為，如平滑的轉向、加速和減速等。這種擬人化行為在人形機器人上同樣重要，可以提升機器人的交互能力和用戶體驗。通過遷移自動駕駛的擬人化算法范式，人形機器人可以更加自然地與人類進行交互，如理解人類手勢、面部表情等。4.4 機器人端到端算法的關鍵問題 4.4.1 關鍵問題一：真實數據收集與標注

70、端到端算法需要大量連續時序的駕駛行為視頻進行標注，這種數據收集、標注及閉環驗證的過程在人形機器人上同樣困難。人形機器人需要面對更加復雜的環境和任務，因此數據收集的難度和成本都更高。同時，由于人形機器人的操作具有更高的風險性，因此數據標注的準確性也要求更高。人形機器人需要大量實際人類真實的數據集給機器人進行訓練。動作捕捉技術和 VR 遠程操作是實現人形機器人擬人化動作數據采集的有效途徑。動作捕捉技術通過在人體關鍵部位貼上反光標記點或使用慣性傳感器等方式，捕捉人體的運動姿態和動作數據。VR 遠程操控技術是人類戴著 VR 眼鏡和手行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁

71、免責聲明證券研究報告 28 套，通過遠程操作的方式來采集機器人數據。這些數據可以被用于訓練人形機器人的動作模型，使其能夠模擬出類似人類的動作和行為。圖40：動作捕捉技術采集數據圖41：VR 遠程操控采集數據資料來源：武漢零智妙境科技 VR，民生證券研究院資料來源：特斯拉，民生證券研究院 4.4.2 關鍵問題二：合成數據的生成和使用由于擴展法則（Scaling Law）的存在，機器人的數據集大小決定了其性能的好壞，真實數據的采集消耗較大的人力物力成本，合成數據僅依賴 AI 算法實現數據生成，數據采集快并且成本低廉。同時人形機器人面臨著場景復雜性與模型泛化能力的問題，合成數據構建的世界模

72、型就起到了很大的作用。自動駕駛場景相對結構化，主要操作在可預測和規范化的環境中。而人形機器人需要應用于多樣的場景，如工廠、家庭、辦公室等，對泛化能力的要求遠高于自動駕駛汽車?；谑澜缒Ｐ蜕筛哔|量的動作視頻和規劃策略，在仿真環境中模擬各種復雜場景，就能夠提升系統的魯棒性。合成數據生成的關鍵問題是保持數據集的熵和多樣性，避免生成的數據與真實數據差距過大或者樣式單一。圖42：未來合成數據的使用資料來源：Gartner，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 29 4.4.3 關鍵問題三：模型的可解釋性，展現模型思維鏈條現有感

73、知決策一體化模型缺乏可解釋性，這一問題在人形機器人上同樣存在。由于人形機器人需要與人類進行交互，因此模型的可解釋性對于提升用戶的信任度和接受度至關重要。曾是特斯拉自動駕駛項目負責人的 Andrej Karpathy 指出，互聯網數據確實是曾經用來訓練模型的主要來源，但它并不是最理想的數據?，F在真正需要的是大腦內部的思維軌跡、解決問題時的思維過程，如果能有數十億條這樣的數據，那么AGI 就基本實現了。然而，目前還沒有這樣的數據。因此，當前的活動很多都集中在如何將數據集重構為這些內部思維軌跡的形式，同時大量依賴合成數據生成來填補這一空白。4.5 特斯拉 grok 模型：模擬思維鏈思考過程 2024

74、年 3 月 28 日 xAI 發布了 Grok-1.5 模型。Grok-1.5 的核心在于使用“思維鏈”語言。這種語言幫助汽車分解復雜的場景，利用規則和反事實進行推理，并解釋其決定。這種創新性的方法將自動駕駛的“像素到行動”映射提升到“像素到語言到行動”的新模式。通過特斯拉自有的數據管道大規模標注高質量的“人工解釋痕跡”，Grok-1.5 可以超越現有的語言模型，在復雜場景下進行更加細致入微的多模態推理。這不僅有助于解決自動駕駛的“邊緣情況”，還可以使系統的決策更加透明和可信。圖43：Grok1.5 模型參數對比資料來源：特斯拉官網，民生證券研究院模擬思維鏈思考過程包括三步：場景分解、規

75、則和反事實推理、決策解釋。場景分解：當特斯拉車輛搭載 Grok-1.5V 模型時，模型會首先通過攝像頭等傳感器收集周圍環境的信息，并將這些信息轉化為數字信號。然后，模型會使用思維鏈語言對復雜的駕駛場景進行分解，將其拆分成多個簡單的子場景或任務。規則和反事實推理：在分解場景后，Grok-1.5V 會利用預先學習的規則和反事行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 30 實進行推理。這些規則可能包括交通規則、道路標志的含義、車輛動力學原理等。反事實推理則是指模型會考慮如果采取某種行動，可能會發生什么結果，并據此做出決策。決策解釋：與傳統的自動駕駛

76、系統不同，Grok-1.5V 不僅能夠做出決策，還能夠解釋其決策過程。模型會將思維鏈語言中的推理步驟轉化為人類可理解的語言或圖像，以便駕駛員或相關人員了解系統的決策依據。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 31 5 英偉達 Robocasa：具體智能關鍵節點，首次論證 real-sim-real 5.1 英偉達 Robocasa：基于廚房場景的模擬數據收集 5.1.1 提出的問題與研究意義隨著人工智能（AI）的快速發展，機器人領域因缺乏大規模機器人數據集而受到限制。之前的一些研究嘗試創建大規模，多樣化的數據集來訓練通用機器人模型，但這

77、些數據集在泛化能力上仍存在差距，此外，現有的模擬框架在場景、任務和資產多樣性方面存在不足，且大多數框架沒有結合生成式 AI 工具。英偉達提出了RoboCasa，這是一個用于訓練通用機器人的大型模擬框架，專注于現實生活環境，尤其是廚房環境，Robocasa 數據集提供了超過 150 個對象類別的數千個 3D 資產以及數十種可交互的家具和電器，它通過現實物理模擬來擴展環境、任務和數據集，以促進機器人學習方法的擴展。目的是為了解決如何通過模擬環境來擴展機器人學習方法的規模，特別是針對通用機器人在日常環境中的訓練的問題。實驗結果表明：在使用生成的機器人數據進行大規模模仿學習方面有著顯著的效果提升，在現

78、實世界任務中利用模擬數據來提升實際效果方面顯示出巨大的前景。Robocasa 有以下特點：1）多樣化資產：在生成性 AI 工具的幫助下創建 120個廚房場景和 2500 多個 3D 對象，比如從文本到三維模型的對象資產，以及從文本到圖像模型的環境紋理；2）跨化身支持：支持移動機械手和仿人機器人；3）多樣化的任務：在大型語言模型（LLM)的指導下創建任務；4）大規模訓練數據集：有超過 100,000 條軌跡。5.1.2 核心方法與進步 Robocasa 的模擬框架中包含 5 個方面內容：1）模擬平臺：Robocasa 構建在 RoboSuite 之上，并通過提供了大量的場景、對象和硬件平臺，繼承

79、了幾個核心組件，包括環境模型格式和機器人控制器，延續了 RoboSuite 框架模塊化、快速、方便的特性，為了支持空間尺度環境，團隊還擴展了 RoboSuite 以適應移動操縱器，包括安裝在輪式基座上的機器人、人形機器人和帶臂的四足機器人。2）廚房場景：團隊根據標準尺寸和空間規格對世界各種風格的廚房進行建模，并將其與一個大型的可交互的家具和應用程序、櫥柜、爐子、微波爐、咖啡壺等倉庫相匹配，構建模擬使用的廚房場景，并使用高質量的 AI 生成紋理來增加視覺多樣性，這些紋理可以用作現實領域隨機化的一種形式，以顯著增加訓練數據集的視覺多樣性。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱

80、讀最后一頁免責聲明證券研究報告 32 圖44：Robocasa 模型使用的廚房場景資料來源：Soroush NasirianyRoboCasa:Large-Scale Simulation of Everyday Tasks for Generalist Robots，民生證券研究院 3）資產庫：Robocasa 創建了一個包含 2509 個高質量資產的庫，涵蓋 153個不同的類別。這些資產包括家具、電器和其他廚房用品，大部分由 luma.ai 生成，4)任務集：該模擬包含 100 個系統臨時評估的任務，前 25 個是基礎原子任務（如抓取和放置、開關門等），另外 75 個是在大型語言模型（

81、LLMs)，尤其是 GPT-4o 的指導下生成的復合任務。如圖 44 所示，英偉達研究團隊使用 LLM來概括不同的任務。首先，提示 GPT-4 提供不同的高級廚房活動，例如煮咖啡或洗碗等,團隊共編制了 20 個任務清單;隨后，對于每個活動，提示 GPT-4（或Gemini1.5）提出一組不同的表征任務,包括：任務、目標、對象、家具、技能等。例如烹飪或清潔。5)數據集：為了增加數據集，團隊擴展了 MimicGen，為原子任務生成 100K額外的軌跡。使用數據生成工具來擴展數據量、利用自動軌跡生成方法來收集大規模演示數據集。一個由四名人類操作員組成的團隊使用 3D 為每個原子任務收集了 50 個高

82、質量的演示集，每個任務演示都是在一個隨機的廚房場景中收集的（隨機的廚房平面圖、隨機的廚房風格和隨機的 ai 生成紋理）。這就通過人工遠程操作（1250 個演示）產生了大型和多樣化的模擬數據集。然而，即使是這個規模的人類數據也不足以解決大多數任務。MimicGen 先于 Robocasa 出現，團隊選擇使用數據生成工具 MimicGen 來擴展數據量，MimicGen 可以從人類演示的種子集中自動合成豐富的數據集。核心一代首先將每個人類演示分解為一個以對象為中心的操作片段。然后，對于一個新場景，它根據相關任務的當前姿態轉換為每一個以對象為中心的片段，并將片段縫合在一起，讓機器人按照新的軌跡收集新

83、的任務演示。MimicGen 需要一些關于模擬的基本假設：任務具有以對象為中心的子任務序列的一致性。而由八種核心技能組成的原子任務，所有與某一技能對應的任務都具有相同或相似的以對象為中心的子任務序列，其主要區別來自于引用對象的身份。因此，指定子任務序列較容易實現。此外，提供給 MimicGen 的每個行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 33 人類演示還必須用與每個以對象為中心的子任務對應的分段進行注釋。這可以通過檢測每個子任務結束的自動化度量來實現。Robocasa 與其他流行的模擬框架相比，進步如下：1)Robocasa 支持移動操作

84、，而非僅限于桌面操作；2）具有逼真的渲染、大量的任務、房間比例和對象；3）Robocasa 支持端口室縮放，其他模型僅支持在房間中較小部分進行移動操作等。Robocasa 是唯一一個支持大量任務、房間規模的場景和物體的框架，同時結合了人工智能生成的任務和資產任務確保場景和任務可能無限多樣性。此外，Robocasa 提供了大規模的任務演示數據集以及 MimicGen 系統，并提供了在大型任務集合中通過模仿學習訓練的代理的全面分析。各種場景、任務和資產與RoboCasa 提供的廣泛數據集相結合，將滿足機器人學習社區中任何其他模擬都沒有解決的關鍵要求。在實驗中，團隊主要探討了以下問題：1)在學習多任

85、務策略時，機器生成的軌跡有多有效？2)隨著訓練數據集規模的增加，模擬學習策略規模的泛化性能將如何提高？3)大規模模擬數據集促進知識轉移到下游任務，并促進現實世界任務的政策學習？Robocasa 共涉及了原子任務、復合任務和真實世界實驗三個場景。在對原子能任務的模擬學習中，團隊設計了 25 個原子任務，涵蓋八種基礎技能（如抓取和放置，開關門等）,通過人類操作和 MinicGen 生成數據集，分別訓練多任務策略，并評估其在不同數據集上的表現。在人類數據上，整體成功率為20.8%，在使用全部生成的數據集上，成功率顯著提升至 47,6%，從使用機器生成數據中觀察到調整趨勢：隨著生成數據數量的增加，模型

86、性能穩步提高，說明未來數據生成工具使模型能夠以相對較低的成本學習更多的性能代理。在對復合任務的模擬學習中發現，選了五個代表性的復合任務（如放蔬菜，解凍食物等）,分別采用從頭開始學習和微調預訓練策略進行實驗，每個任務收集 50圖45：Robocasa 使用 GPT-4 生成不同任務的模型流程資料來源：Soroush NasirianyRoboCasa:Large-Scale Simulation of Everyday Tasks for Generalist Robots，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 34 個人

87、類演示，井使用 MimcGen 生成的數據進行微調，微調后的模型在質量上表現更好，策略架構、學習算法和微調策略的進步可能在性能方面發揮關鍵作用。將模擬轉移到真實世界的環境中，比較了僅在真實數據（Real only）和模擬數據（Real+Sim）上共同訓練的策略表現，并根據相應的感覺運動技能對任務結果進行分組，包括三個任務(如從柜臺到水槽的抓取和放置)，對于每個任務，Robocasa 團隊收集了 50 個演示，每個演示都超過 5 個不同的對象類別。團隊為每個任務訓練一個策略，并比較 Real only 和 Real+Sim 兩種設置。同時，團隊研究了 3 種任務的平均政策成功率（平均值和標準數據

88、偏差，百分比），并評估了5 個可見的對象類別和 3 個不可見的對象類別（在現實世界的演示中看不到）。結果表明，在某些對象上，在真實數據上訓練的策略在已知對象上的平均成功率為13.6%,而在真實數據和模擬數據上共同訓練的平均成功率為 24.4%，最高提高了79%，說明模擬器的豐富多樣性以及視覺和物理真實性顯著改善了模擬效果。圖46：人工演示和機器生成的數據集之間的比較結果資料來源：Soroush NasirianyRoboCasa:Large-Scale Simulation of Everyday Tasks for Generalist Robots，民生證券研究院圖47：Real on

89、ly 和 Real+Sim 下不同對象訓練成功率評估資料來源：Soroush NasirianyRoboCasa:Large-Scale Simulation of Everyday Tasks for Generalist Robots，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 35 5.1.3 核心結論+未來發展英偉達提出了 Robocasa，一個用于訓練通用機器人的大規模模擬框架，Robocasa 結合了生或式 AI 工具，創建了多樣化，真實的廚房場景和任務，并通過大規模數據集提高了機器人在真實世界任務中的表現，實驗

90、結果表明，合成數據在模擬環境中學習機器人的策略是有效的，并且可以顯著促進知識遷移到下游任務和真實世界任務中。但實驗表明，復合任務的微調產生了低性能，未來可以研究更強大的策略架構和學習算法，并提高機器基因比率和數據集的質量；使用 LLM 創建任務的過程仍然需要人工指導來編寫相關注釋，未來隨著 LLM 成為模型生成體，使用 LLM 提出數千個新的場景和任務并編寫代碼，以最小的語言來實現這些場景和任務將成為可能。此外，目前的模擬僅限于廚房環境中，未來可以拓展到該環境和任務之外。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 36 6 機器人 real-s

91、im-real 可行，邁向真正的 AGI 智能化 6.1 李飛飛團隊 Rekep：一種針對機器人操作任務的新型空間和時間約束表示方法，提供了三任務閉環的解決方案 6.1.1 提出的問題與研究意義如何制將機器人操控任務表示為關聯機器人和環境的約束條件，使它們既適用于多樣化任務，又無需手動標記，還能被現成的求解器實時優化以產生機器人動作，是一個亟待解決的問題。李飛飛團隊 Rekep 項目提出了關系關鍵點約束（ReKep），這是一種針對機器人操控約束的視覺基礎表示方法。ReKep 用 Python 函數表示，將一組 3D 關鍵點映射到數值成本上。Rekep 展示了通過將操控任務表示為一系列關系關鍵

92、點約束，可以采用層次化優化過程來求解機器人動作（由一系列末端執行器姿態 SE(3)表示），并實現實時頻率的感知-動作循環。此外，為了避免為每項新任務手動指定 ReKep，團隊設計了一個自動化流程，利用大型視覺模型和視覺-語言模型從自由形式的語言指令和 RGB-D 觀測中產生 ReKep（Relational Keypoint Constraints）。機器人操控涉及與環境中的物體進行復雜的交互，這些交互通?？梢员硎緸榭臻g和時間域中的約束。例如，將茶倒入杯中的任務，機器人必須在手柄處抓握，在運輸過程中保持杯子直立，對準壺嘴與目標容器，然后傾斜杯子以正確角度倒茶。這些約束不僅編碼了中間子目標（例如

93、，對準壺嘴），還編碼了過渡行為（例如，在運輸過程中保持杯子直立），共同決定了機器人動作在與環境的關系中的空間、時機和其他組合要求。然而，有效地為現實世界的大量任務制定這些約束條件將面臨重大的挑戰。雖然使用直接和廣泛使用的方法來表示相對姿態之間的約束，但剛體變換不能描述幾何細節，需要先驗獲得對象模型，并且不能在變形對象上工作。另一方面，數據驅動的方法可以直接在視覺空間中實現學習約束。雖然很靈活，但隨著對象和任務的約束數量組合增加，如何有效地收集訓練數據仍不清楚。為解決無操作的約束，李飛飛團隊提出了關系關鍵點約束（ReKep），該方法就是將任務表示成一個關系關鍵點序列。并且，這套框架還能很好地與

94、GPT-4o 等多模態大模型很好地整合。6.1.2 核心方法與進步 1）關系關鍵點約束理論的核心思想原理核心實現方式是：對于每個階段 i，該優化問題的目標是：基于給定的 ReKep 行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 37 約束集和輔助成本，找到一個末端執行器姿勢作為下一個子目標（及其相關時間），以及實現該子目標的姿勢序列，該公式可被視為軌跡優化中的 direct shooting。例如，下圖的杯子任務可分為三個步驟：步驟一：機器人抓住手柄并在搬運杯子時保持直立，避免茶水灑出。該過程中，子目標約束是將末端執行器伸向茶壺把手。此時 Re

95、kep 限制茶壺手把的抓取位置（藍色），步驟二：將茶壺口與杯子口對齊，該過程中子目標約束是讓茶壺口位于杯口上方，路徑約束是保持茶壺直立，避免茶水酒出，ReKep 將茶壺噴口（紅色）拉到杯開口的頂部（綠色）。步驟三：使茶壺到達傾斜的角度，并將茶壺中的水倒出。該過程目標約束是到達指定的倒茶角度。ReKep 通過關聯手柄（藍色）和噴口形成的矢量（紅色）來限制茶壺的方向。該過程中約束編碼了中間子目標（對齊嘴），也編碼了轉換行為（在運輸中保持杯子直立），這些共同決定了機器人動作與環境相關的空間、時間和其他組合要求。這就將多過程的任務分解為多個目標和約束條件，通過優化求解輸出并實現機器人的行為。圖48：關

96、系關鍵點約束（Rekep)將不同的操作行為指定為在語義關鍵點上操作的約束功能的時空約束序列圖49：Rekep 構建一組子目標約束和一組路徑約束資料來源：Wenlong Huang,Li Fei-Fei ReKep:Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation，民生證券研究院資料來源：Wenlong Huang,Li Fei-FeiReKep:Spatio-Temporal Reasoning of Relational Keypoint Constraints f

97、or Robotic Manipulation，民生證券研究院使用 ReKep，可將機器人操作任務轉換成一個涉及子目標和路徑的約束優化問題。一個操作任務通常涉及多個空間關系，并且可能具有多個與時間有關的階段，其中每個階段都需要不同的空間關系，Rekep 將一個任務分解成 N 個階段并使用ReKep 為每個階段 i 1,.,N 指定兩類約束：子目標約束和路徑約束。其中子目標約束編碼了階段 i 結束時要實現的一個關鍵點關系，而路徑約束編碼了階段 i 內每個狀態要滿足的一個關鍵點關系?，F實環境復雜多變，有時候在任務進行過程中，上一階段的子目標約束可能不再成立（比如倒茶時茶杯被拿走了），這時候需要重

98、新規劃。該團隊的做法是檢查路徑是否出現問題。如果發現問題，就迭代式地回溯到前一階段 Rekep 的關鍵特點如下：（1）多模態輸入處理：ReKep 能夠處理 RGB-D 圖像和自由形式的語言指令，利用大型視覺模型（如 DINOv2）和視覺-語言模型（如 GPT-4o）來識別場景中行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 38 的關鍵點，并生成 ReKep 約束。（2）層次化優化：通過將操作任務分解為多個階段，并為每個階段指定子目標約束和路徑約束，ReKep 采用層次化優化方法來實時求解機器人動作。（3）實時性能：ReKep 能夠在大約 10Hz

99、的頻率下實時解決優化問題，適用于需要快速反應的機器人操作任務。（4）自動化關鍵點提議和約束生成：ReKep 通過自動化流程，減少了手動指定任務特定數據的需求，提高了任務的可擴展性和適用性。（5）系統實現：ReKep 在單臂和雙臂機器人平臺上進行了系統實現，展示了其在多種操作任務中的應用潛力。（6）代碼和視頻資源：ReKep 的研究團隊提供了相關代碼和演示視頻，以便研究社區進一步探索和應用這一方法。2）融入視覺-語言模型后的指定關系關鍵點約束為了讓該系統能在實際情況下自由地執行各種任務，該團隊還使用了大模型。具體來說，他們使用大型視覺模型和視覺-語言模型設計了一套管道流程來實現關鍵點提議和

100、ReKep 生成。圖50：Rekep 實現方式概覽資料來源：Wenlong Huang,Li Fei-FeiReKep:Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation，民生證券研究院雖然約束通常是針對每個任務手動定義的，李飛飛團隊展示了 ReKep 的具體形式具有獨特的優勢，即它們可以通過預訓練的大型視覺模型（LVM）和視覺語言模型（VLM）實現自動化，從而能夠根據 RGB-D 觀測和自由形式的語言指令在野外環境中指定 ReKep?；驹硎牵豪?LVM 在場景中提

101、出細粒度且具有語義意義的關鍵點，并利用 VLM 將疊加了關鍵點的圖像和指令輸入 GPT-4o，以生成一行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 39 系列 ReKep 約束，這些約束以 Python 程序的形式指定了在任務不同階段（子目標）關鍵點之間所需的關系以及過渡行為（路徑）的任何要求。即利用大型視覺模型和視覺-語言模型自動化地從自由形式的語言指令和RGB-D觀測中生成ReKep，避免了手動指定 ReKep 的需要。有了生成的約束，就可以使用現成的求解器通過跟蹤關鍵點重新評估約束來生成機器人動作。李飛飛團隊采用分層優化程序，首先求解一組作

102、為子目標（表示為 SE(3)末端執行器姿態）的路點，然后求解滾動時域控制問題以獲得實現每個子目標的密集動作序列。團隊通過一系列任務檢查了該系統的多階段、野外/實用場景、雙手和反應行為。這些任務包括倒茶、擺放書本、回收罐子、給盒子貼膠帶、疊衣服、裝鞋子和協作折疊。結果顯示，就算沒有提供特定于任務的數據或環境模型，新提出的系統也能夠構建出正確的約束并在非結構化環境中執行它們。值得注意的是，ReKep 可以有效地處理每個任務的核心難題。此外，該團隊還基于疊衣服任務探索了新策略的泛化性能。嘗試了不同的機器人疊衣服場景，結果顯示，該系統為不同衣服采用了不同的策略，其中一些疊衣服方法與人類常用的方法一樣。

103、綜上所述，ReKep 通過關鍵點來指定機器人臂部、物體（部件）和其他代理之間的期望空間關系。這些關鍵點是任務特定且語義上有意義的 3D 點，并允許使用現成的求解器通過重新評估基于跟蹤關鍵點的約束來產生機器人動作。為了減少手動指定新任務生成 ReKep 的工作量，團隊設計了一個自動化流程，利用大型視覺模型和視覺-語言模型從自由形式的語言指令和 RGB-D 觀測中自動產生ReKep。Rekep 是實現空間智能的關鍵技術之一，它通過提供一種結構化的方式來理解和操作三維空間，從而增強了機器人的空間感知和操作能力。圖51：使用 ReKep 模擬折疊不同類別的服裝及成功率資料來源：Wenlong Hua

104、ng,Li Fei-FeiReKep:Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 40 6.1.3 核心結論+未來進展關系關鍵點約束（ReKep）是一種結構任務表示，使用對語義關鍵點進行操作的約束，以指定機器人臂、對象（部件）和環境中的其他代理之間的期望關系。結合點跟蹤器，李飛飛團隊認為 ReKep 約束可以在層次優化框架中重復和有效地解決，從而作為以實時頻

105、率運行的輔助循環策略，ReKep 的獨特優勢是它是由大型視覺模型和視覺語言模型合成的細胞。李飛飛團隊 Rekep 主要貢獻是：1)將操作任務表述為具有關系關鍵點約束的分層優化問題；2)設計了一條使用大型視覺模型和視覺語言模型自動指定關鍵點和約束的管道；3)在兩個真實機器人平臺上展示了系統實現，這些系統以語言指令和 RGB-D 觀測為輸入，為各種操作任務產生多階段、野外、雙手和反應式行為，而無需特定任務的數據或環境模型。但仍有幾個限制。首先，優化框架依賴于基于剛性假設的關鍵點前向模型，盡管是一個高頻反饋回路，放寬了模型的精度要求。其次，ReKep 依賴于精確的點跟蹤來正確地優化閉環動作，這本身就

106、是一項具有挑戰性的三維視覺任務，由于嚴重的間歇性遮擋。最后，當前的公式假設每個任務都有一個固定的階段序列（即骨架）。使用不同的骨架重新規劃需要在高頻上運行關鍵點提議和 VLM，這就帶來了不利的計算挑戰。6.2 1x 世界模型：首證擴展定律，能通過大量學習理解周圍環境 6.2.1 核心問題：在復雜多變的真實環境中進行自我決策和適應由于真實環境的復雜多變性，即使是同一場景，也會經歷光照細微的變化，機器人在模型權重不變的情況下，會在幾天內經歷性能的快速下降。圖52：機器人性能隨時間變化曲線資料來源：Jack Monas1x world model，民生證券研究院行業深度研究/機械本公司具備證

107、券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 41 1X 世界模型解決的核心問題是如何使機器人在復雜多變的真實環境中進行自我決策和適應。傳統的物理模擬方法往往難以適應大環境變化帶來的挑戰，且手動創建資產的復雜性高。而 1X 世界模型通過從原始傳感器數據中學習，直接構建模擬器，能夠在數百萬種場景中評估機器人的行為，從而大大提高了機器人的適應性和智能性。6.2.2 核心突破：從原始傳感器數據中直接學習構建模擬器 1X 世界模型的核心突破在于其能夠從原始傳感器數據中直接學習，構建出能夠預測世界如何響應機器人動作的模擬器。這一技術突破了傳統物理模擬方法的局限性，使得機器人能夠在更廣泛、

108、更真實的場景中進行學習和適應。在過去的一年（2023 年）里，1X 收集的 1X 旗艦產品 EVE 機器人的數據高達數千小時，這些數據包括在家中和辦公室中執行各種移動操作任務以及與人互動的任務。研究人員將這些視頻和動作數據結合起來，訓練了一個世界模型，該模型可以根據觀察和動作預測未來的視頻。圖53：世界模型軌跡預測資料來源：Jack Monas1x world model，民生證券研究院機器人通過觀看數千小時的視頻和來自機器人執行任務的感應器數據，模型能夠觀察當前的世界狀況，并預測機器人在特定動作下會發生什么。EVE 人形機器人在家庭和辦公室環境中執行的各種任務為這一模型提供了寶貴的“生活

109、素材”。通過不斷與人類互動并收集這些真實數據，模型學會了如何更貼近真實世界進行模擬。圖54：EVE 人形機器人家庭環境訓練圖55：EVE 人形機器人辦公室環境訓練資料來源：Jack Monas1x world model，民生證券研究院資料來源：Jack Monas1x world model，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 42 6.2.3 核心結論：首證擴展定律，能通過大量學習理解周圍環境 1X 世界模型的核心結論是，通過大量的真實數據學習和模擬，機器人能夠預測復雜的物體互動，理解周圍環境，并靈活應對日常任

110、務。這一模型使得機器人能夠在神經網絡空間內進行有效的規劃和模擬操作，從而提高了其在復雜環境中的任務執行能力和智能水平。1X 的進展首次在機器人上證明了擴展法則：隨著數據、計算和模型規模的增加，機器人在認知和行為上的能力也必將顯著提升。然而，盡管取得了顯著進展，1X 世界模型在物體交互中仍可能出現物體失真或邏輯錯誤的現象，且目前還缺乏真正的自我認知。圖56：執行長視野任務圖57：工程師稱沒有出現自我認知資料來源：Jack Monas1x world model，民生證券研究院資料來源：澎湃新聞，民生證券研究院 6.2.4 未來發展方向：利用傳感器信息實現完全端到端算法傳感器數據融合：1X

111、世界模型可以進一步融合來自不同傳感器的數據，如攝像頭、激光雷達、慣性測量單元等，以構建更全面、更準確的世界模型。通過數據融合，可以實現對環境的更精細感知和更深入理解，為機器人的決策和規劃提供更豐富的信息支持。增強環境理解能力：利用傳感器信息，1X 世界模型可以進一步提升對環境的理解能力，包括識別物體的形狀、顏色、紋理等特征，以及理解物體之間的空間關系和運動規律。這有助于機器人在復雜環境中進行更準確的定位、導航和避障。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 43 圖58：對象連貫性問題圖59：物理定律理解丟失問題資料來源：Jack Mo

112、nas1x world model，民生證券研究院資料來源：Jack Monas1x world model，民生證券研究院 6.3 字節 GR-2：高效動作預測與泛化能力 6.3.1GR-2:高效動作預測和視頻生成現階段的大語言模型可以實現流暢的文本生成、問題解決、創意寫作以及代碼生成，視覺-語言模型則能夠實現開放詞匯的視覺識別，但是具體實踐中如何獲取這些能力仍需要進一步探索。字節跳動 ByteDance Research 致力于讓機器人模仿學習人類成長過程，將多模態素材的學習與預測直接集成到機器人控制中，以促進泛化并實現高效動作預測和視頻生成，開辟智能決策和自主操作新可能性，成為了機器

113、人下一步發展的方向。泛化能力與多任務通用性是機器人大模型目前最重要的突破方向，近日ByteDance Research 的第二代機器人大模型 GR-2 發布了視頻和技術報告，展示出卓越的泛化能力和多任務通用性，例如圖中所示，GR-2 模型可以在接收指令后生成機器人完成倒咖啡指令并生成視頻，這一進步預示著機器人大模型技術將釋放出巨大潛力和無限可能。GR-2 通過在網絡規模的視頻數據集上進行預訓練，顯著超越了傳統的機器人數據源模型。例如，許多早期模型（如 RoboCasa）主要依賴于有限的機器人數據集進行訓練，而這些數據集通常只涵蓋少數場景或任務，導致模型在新場景中表現不佳。相較之下，GR-2 的

114、視頻數據源更加廣泛和多樣化，涵蓋了從廚房到戶外等各種場景，并且結合了多個公開的機器人數據集（如 RT-1 和 Bridge）。這使得 GR-2 能夠更好地在新的、未見過的環境中執行任務，因為它已經從大量不同的場景中學習到如何操作和適應不同類型的任務。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 44 圖60：GR-2 模型接收倒咖啡指令并生成視頻示意圖圖61：GR-2 視頻-語言模型與視頻-語音-動作模型示例資料來源：CVer，民生證券研究院資料來源：Chi-Lam CheangGR-2:A Generative Video-Languag

115、e-Action Model with Web-Scale Knowledge for Robot Manipulation，民生證券研究院 6.3.2GR-2 核心方法：預訓練與微調和許多大模型一樣，GR-2 的訓練包括預訓練和微調兩個過程。GR-2在 3800 萬個互聯網視頻片段上進行生成式訓練，也因此得名 GR-2（Generative Robot 2.0）。這些視頻來自學術公開數據集，涵蓋了人類在不同場景下（家庭、戶外、辦公室等）的各種日?；顒?，以期迅速學會人類日常生活中的各種動態和行為模式。這種預訓練方式使 GR-2 具備了學習多種操作任務和在多種環境中泛化的潛能。龐大的知識儲備，

116、讓 GR-2 擁有了對世界的深刻理解。在微調階段，GR-2 通過幾項關鍵改進提升了其在實際任務中的表現。首先，GR-2 引入數據增強技術，通過改變訓練數據中的背景和物體，使其在未見環境下更具泛化能力。此外，模型通過多視角訓練，利用不同角度的視覺數據，增強了其在復雜場景中的操作靈活性和準確性。為了保證動作的流暢性，GR-2 使用了條件變分自編碼器（cVAE），生成連續、平滑的動作序列，確保任務執行時的動作更加高效和精準。在經歷大規模預訓練后，通過在機器人軌跡數據上進行微調，GR-2 能夠預測動作軌跡并生成視頻。GR-2 的視頻生成能力，讓它在動作預測方面有著天然的優勢，顯著提高了準確率。它能夠通

117、過輸入一幀圖片和一句語言指令，預測未來的視頻，進而生成相應的動作軌跡。如下圖所示，只需要輸入一句語言指令：“pick up the fork from the left of the white plate”，就可以讓 GR-2 生成動作和視頻?？梢钥吹?，機械臂從白盤子旁邊抓起了叉子。右圖中預測的視頻和真機的實際運行也相差無幾。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 45 圖62：真機預測結果與模擬視頻預測結果對比資料來源：CVer，民生證券研究院 6.3.3GR-2 核心結論：仍然符合 Scaling Law 經過多次大模型預訓練與微調

118、后，研究團隊發現 GR-2 的視頻生成與動作預測模型符合 Scaling Law，并且對于 GR-2 這樣的機器人模型來說，這一法則尤為關鍵。隨著模型規模的增加，GR-2 的性能呈現出顯著的提升。在 7 億參數規模的驗證中，GR-2 團隊發現，更大的模型不僅能夠處理更多復雜的任務，而且在泛化到未見過的任務和場景時也表現得更加出色。如圖所示，在預訓練過程中，視頻預測的驗證損失隨著模型大小的增加而減小，以圖（a）測試為例，在重復 150k預測后，最小的模型 GR-2-S 產生的視頻驗證損失最大，為 5.54 單位，而稍大的模型 GR-2-B 與 GR-2-L 產生的視頻驗證損失均在 5.4-5.5

119、單位區間內，最大的模型 GR-2-XL 產生的視頻驗證損失最小，為 5.38 單位。圖63：四種從小到大模型的視頻預測驗證損失資料來源：Chi-Lam CheangGR-2:A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation，民生證券研究院 6.3.4GR-2 核心突破：性能較 GR-1 與其余視頻語言模型提升顯著核心突破 1：在各場景端到端測試中，GR-2 的成功率相較 GR-1 提升迅速。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免

120、責聲明證券研究報告 46 以未訓練(Unseen)端到端揀選測試為例，GR-2 在未見（Unseen）場景中的成功率顯著提升，主要是因為它依賴于大規模的視頻數據進行預訓練。與 GR-1 僅依賴于有限的機器人數據不同，GR-2 融合了來自網絡的視頻數據和多任務學習，這些數據覆蓋了更多樣化的場景和物體操作。通過預訓練階段，GR-2 學會了從視頻中推測物體的動態和操作語義，提升了其在新環境中的泛化能力。此外，GR-2 在微調階段引入了數據增強技術（如新的物體和背景變換），進一步提高了它處理未見場景的適應性。因此，GR-2 能夠在未見測試中將成功率從 33%提升到 79%。圖64：各場景端到端測試中

121、，GR-2 的性能相較 GR-1 提升迅速資料來源：Chi-Lam Cheang GR-2:A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation，民生證券研究院核心突破 2：在 CALVIN 機器人操作仿真基準測試中，GR-2 大幅超越五種最先進的基線方法 RT-1、MT-ACT、HULC、RoboFlamingo 和 GR-1。如圖顯示，橫軸代表機器人在連續 5 個任務序列中能夠完成的平均任務數，縱軸代表成功率。GR-2 建立了一種新的技術水平，在成功率和平均長度方

122、面優于所有比較基線方法。圖65：CALVIN 機器人操作仿真測試，GR-2 大幅超越五種最先進的基線方法資料來源：Chi-Lam CheangGR-2:A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation，民生證券研究院 6.3.5 GR-2 未來應用：強大泛化能力實現多場景任務（如端到端揀選）GR-2 的強大之處不僅在于它能夠處理已知任務，更在于其面對未知場景和行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 47 物體時的

123、泛化能力。無論是全新的環境、物體還是任務，GR-2 都能夠迅速適應并找到解決問題的方法。在多任務學習測試中，GR-2 能夠完成 105 項不同的桌面任務，平均成功率高達 97.7%。此外，GR-2 還能夠與大語言模型相結合，完成復雜的長任務，并與人類進行互動，并可以魯棒地處理環境中的干擾，并通過適應變化的環境成功完成任務。在實際應用中，GR-2 相比前一代的一個重大突破在于能夠端到端地完成兩個貨箱之間的物體揀選。無論是透明物體、反光物體、柔軟物體還是其他具有挑戰性的物體，GR-2 均能準確抓取。這展現了其在工業領域和真實倉儲場景的巨大潛力。除了能夠處理多達 100 余種不同的物體，如螺絲刀、橡

124、膠玩具、羽毛球，乃至一串葡萄和一根辣椒，GR-2 在未曾見過的場景和物體上也有著出色的表現。圖66：GR-2 完成流暢端到端物體揀選示意圖圖67：GR-2 在實驗中順利完成 122 項物體揀選，其中過半物體 GR-2 未曾見過資料來源：CVer，民生證券研究院資料來源：Chi-Lam CheangGR-2:A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation，民生證券研究院 6.4 數字表親：機器人訓練法優化，以更低的成本獲取更好的泛化能力 6.4.1 問題聚焦：在

125、機器人訓練中兼顧降低成本和補足泛化能力模擬是一種廉價且潛力極強的訓練數據來源，但模擬環境和真實世界環境之間存在語義和物理差異。這些差異可以通過“數字孿生”的訓練最小化，將數字雙胞胎作為真實場景的虛擬副本。然而，這一辦法的生成成本極為昂貴，且無法提供良好的跨域泛化能力。作為機器人訓練法的最新成果，數字表親力求在保留數字孿生訓練優勢的基礎上，降低從真實到模擬環境的生成成本并提高機器人學習的泛化能力。這一點與很多機器人大模型的突破方向并無二致。與數字孿生不同，它沒有直接模擬現實世界的特定對應物，但仍然能表現出類似的幾何形狀和語義功能。因此，數字表親降行業深度研究/機械本公司具備證券投資咨詢業務資

126、格，請務必閱讀最后一頁免責聲明證券研究報告 48 低了生成類似虛擬環境的成本，同時還通過提供一系列相似但不完全相同的訓練場景，提高從模擬到真實環境的遷移魯棒性。另外，數字表親還能實現將單幅圖像轉換為完全交互式的虛擬場景的目標，同時全自動處理過程，無需人工注釋，并且訓練出的機器人策略可以直接在原始場景中進行零樣本部署。圖68：數字孿生與數字表親生成的模擬環境資料來源：Tianyuan DaiACDC:Automated Creation of Digital Cousins for Robust Policy Learning，民生證券研究院 6.4.2 核心算法：自動創建數字表親（ACDC

127、）為了實現數字表親的自動生成，研究團隊提出了名為 ACDC 的算法。ACDC是一個完全自動化的端到端流程，從單個 RGB 圖像生成完全交互式的模擬場景，由信息提取、數字表親匹配、場景生成三個關鍵步驟組成。算法首先從輸入的單張RGB 圖像中提取每個物體的關鍵信息，包括位置、大小、朝向等，再利用這些信息結合預先準備的 3D 模型資產庫，為檢測到的每個物體匹配最合適的數字表親模型，最后對選定的數字表親模型進行后處理和組合，生成一個物理上合理且完全可交互的虛擬場景。通過以上步驟，ACDC 能夠自動創建與輸入圖像語義相似但不完全相同的虛擬場景，為機器人策略訓練提供多樣化的環境。從而在這些環境中進一步訓練

128、機器人策略。行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 49 圖69：ACDC 算法的關鍵步驟資料來源：Tianyuan DaiACDC:Automated Creation of Digital Cousins for Robust Policy Learning，民生證券研究院 6.4.3 核心結論與展望研究團隊設計了一系列實驗，以全面評估數字表親方法的有效性。首先，研究者們在 sim-to-sim 場景中對 ACDC 場景重建進行了定量和定性評估。結果顯示，ACDC 能夠快速、自動地生成與單張真實世界 RGB 圖像對應的交互式數字表親

129、場景。這些虛擬復制品不僅在物體識別上表現出色，還能準確還原其在場景中的位置和尺寸。圖70：場景重建質量評估結果資料來源：Tianyuan DaiACDC:Automated Creation of Digital Cousins for Robust Policy Learning，民生證券研究院數字表親在保持分布內性能的同時，還能提供更好的分布外泛化能力。在“開門、打開抽屜和收起碗”三個典型任務中，數字表親訓練的策略通?？梢云ヅ?，甚至優于數字孿生的表現；然而，針對所有 All Assets 進行訓練的策略要比數字孿生差得多，這表明樸素的領域隨機化并不總是有用的。此外，隨著隨著測試環境與行

130、業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 50 訓練環境差異的增大，數字孿生的策略性能通常會出現成比例的顯著下降，但數字表親策略的整體表現更為穩定，這表明，數字表親訓練的策略展現出更強的魯棒性，特別是在分布外場景中。圖71：sim2sim 策略學習效果資料來源：Tianyuan DaiACDC:Automated Creation of Digital Cousins for Robust Policy Learning，民生證券研究院數字表親在真實世界中的應用表現同樣出色。經過在數字表親環境的專門模擬訓練后，機器人在完全真實的廚房環境中成

131、功完成了開啟廚房櫥柜的任務，從模擬到現實的遷移成功率高達 90%，有力證明了 ACDC 方法在真實場景中的適用性和有效性。結合以上實驗，數字表親方法的優勢不言而喻：在原始分布上，其性能與基于數字孿生訓練的策略相當；在面對分布外場景時，數字表親表現出了更強的適應能力和魯棒性；最為關鍵的是，這些策略成功實現了從模擬到現實的零樣本遷移，無需額外調整就能在真實環境中有效運作，為機器人學習在復雜、多變的真實環境中的應用開辟了新的可能性。圖72：real2sim2real 全流程驗證結果資料來源：Tianyuan DaiACDC:Automated Creation of Digital Cousins

132、 for Robust Policy Learning，民生證券研究院行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 51 7 投資建議 1)關注算法訓練中，需要使用的傳感器公司，如視覺方案奧比中光，力學方案安培龍；2）關注同步受益的機器人本體公司，如總成方案三花智控、拓普集團；絲桿公司北特科技、五洲新春、貝斯特、雙林股份、震?？萍?；3）關注其他產業鏈可延伸公司。8 風險提示 1）機器人算法迭代進步速度不及預期：機器人的算法進步速度可能并非線性，在某些數據缺失的情況下，算法訓練的進步速度可能下降。2）人形機器人落地場景實際需求不及預期：機器人的實

133、際應用場景還需要結合 B 端/C 端客戶的實際付費購買點，可能會與仿真環境中模擬的使用場景有差異行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 52 插圖目錄圖 1：Robot+AI 的核心時間線與關鍵節點.3 圖 2：Transformer 核心架構.4 圖 3：自注意力機制示意圖.4 圖 4：MLLM 的模型結構.5 圖 5：Scaling Law 的效果圖示.7 圖 6：RT-1 結構概覽.8 圖 7：機器人動作數字 token 化.8 圖 8：RT-2 能夠推廣到各種需要推理、符號理解和人類識別的現實世界情況.10 圖 9：RT-2 全

134、流程概覽.11 圖 10：MimicGen 從原始人類演示數據到生成的廣泛數據集的過程.12 圖 11：MimicGen 數據分割與重組示意圖.13 圖 12：MimicGen 主要測試任務.13 圖 13：MimicGen 主要測試任務結果.14 圖 14：MimicGen 操作機械臂完成毫米級精度接觸任務示意圖.14 圖 15：MimicGen 能夠適應不同的機械臂.15 圖 16：RT 數據收集和評估場景.15 圖 17：RoboCat 支持多種機器人具身和控制模式.16 圖 18：目標圖像示例：圖 1、2 為虛擬環境，圖 3-8 為現實世界.17 圖 19：RoboCat 自我改進進程

135、.17 圖 20：FSD V12（Supervised）虛擬界面顯示.18 圖 21：自動駕駛的六個等級.18 圖 22：FSD 和 V12 累計行駛里程.19 圖 23：每發生一次事故行駛的英里數.19 圖 24：特斯拉自動駕駛主要發展歷程.19 圖 25：FSD 感知規劃控制總體架構.20 圖 26：HydraNets 網絡架構.21 圖 27：視覺 Transformer 模型架構.21 圖 28：Dojo 內核示例.21 圖 29：Baby AGI 架構.22 圖 30：端到端算法與模塊化系統框架對比.23 圖 31：端到端模型與基于規則模型表現曲線對比.23 圖 32：模仿學習框架示

136、例.24 圖 33：強化學習框架示例.24 圖 34：城市中加塞場景，基于規則模型很難處理.24 圖 35：端到端感知-決策模型示例.25 圖 36：誤差依次反向傳播給所有模塊達到全局最優.26 圖 37：基于規則驅動.26 圖 38：基于數據驅動.26 圖 39：特斯拉 optimus 機器人避障行走.27 圖 40：動作捕捉技術采集數據.28 圖 41：VR 遠程操控采集數據.28 圖 42：未來合成數據的使用.28 圖 43：Grok1.5 模型參數對比.29 圖 44：Robocasa 模型使用的廚房場景.32 圖 45：Robocasa 使用 GPT-4 生成不同任務的模型流程.33

137、圖 46：人工演示和機器生成的數據集之間的比較結果.34 圖 47：Real only 和 Real+Sim 下不同對象訓練成功率評估.34 圖 48：關系關鍵點約束（Rekep)將不同的操作行為指定為在語義關鍵點上操作的約束功能的時空約束序列.37 圖 49：Rekep 構建一組子目標約束和一組路徑約束.37 圖 50：Rekep 實現方式概覽.38 圖 51：使用 ReKep 模擬折疊不同類別的服裝及成功率.39 圖 52：機器人性能隨時間變化曲線.40 圖 53：世界模型軌跡預測.41 圖 54：EVE 人形機器人家庭環境訓練.41 行業深度研究/機械本公司具備證券投資咨詢業務資格，

138、請務必閱讀最后一頁免責聲明證券研究報告 53 圖 55：EVE 人形機器人辦公室環境訓練.41 圖 56：執行長視野任務.42 圖 57：工程師稱沒有出現自我認知.42 圖 58：對象連貫性問題.43 圖 59：物理定律理解丟失問題.43 圖 60：GR-2 模型接收倒咖啡指令并生成視頻示意圖.44 圖 61：GR-2 視頻-語言模型與視頻-語音-動作模型示例.44 圖 62：真機預測結果與模擬視頻預測結果對比.45 圖 63：四種從小到大模型的視頻預測驗證損失.45 圖 64：各場景端到端測試中，GR-2 的性能相較 GR-1 提升迅速.46 圖 65：CALVIN 機器人操作仿真測試，G

139、R-2 大幅超越五種最先進的基線方法.46 圖 66：GR-2 完成流暢端到端物體揀選示意圖.47 圖 67：GR-2 在實驗中順利完成 122 項物體揀選，其中過半物體 GR-2 未曾見過.47 圖 68：數字孿生與數字表親生成的模擬環境.48 圖 69：ACDC 算法的關鍵步驟.49 圖 70：場景重建質量評估結果.49 圖 71：sim2sim 策略學習效果.50 圖 72：real2sim2real 全流程驗證結果.50 行業深度研究/機械本公司具備證券投資咨詢業務資格，請務必閱讀最后一頁免責聲明證券研究報告 54 分析師承諾本報告署名分析師具有中國證券業協會授予的證券投資咨詢執

140、業資格并登記為注冊分析師，基于認真審慎的工作態度、專業嚴謹的研究方法與分析邏輯得出研究結論，獨立、客觀地出具本報告，并對本報告的內容和觀點負責。本報告清晰準確地反映了研究人員的研究觀點，結論不受任何第三方的授意、影響，研究人員不曾因、不因、也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。評級說明投資建議評級標準評級說明以報告發布日后的 12 個月內公司股價（或行業指數）相對同期基準指數的漲跌幅為基準。其中：A 股以滬深 300 指數為基準；新三板以三板成指或三板做市指數為基準；港股以恒生指數為基準；美股以納斯達克綜合指數或標普500 指數為基準。公司評級推薦相

141、對基準指數漲幅 15%以上謹慎推薦相對基準指數漲幅 5%15%之間中性相對基準指數漲幅-5%5%之間回避相對基準指數跌幅 5%以上行業評級推薦相對基準指數漲幅 5%以上中性相對基準指數漲幅-5%5%之間回避相對基準指數跌幅 5%以上免責聲明民生證券股份有限公司（以下簡稱“本公司”）具有中國證監會許可的證券投資咨詢業務資格。本報告僅供本公司境內客戶使用。本公司不會因接收人收到本報告而視其為客戶。本報告僅為參考之用，并不構成對客戶的投資建議，不應被視為買賣任何證券、金融工具的要約或要約邀請。本報告所包含的觀點及建議并未考慮個別客戶的特殊狀況、目標或需要，客戶應當充分考

142、慮自身特定狀況，不應單純依靠本報告所載的內容而取代個人的獨立判斷。在任何情況下，本公司不對任何人因使用本報告中的任何內容而導致的任何可能的損失負任何責任。本報告是基于已公開信息撰寫，但本公司不保證該等信息的準確性或完整性。本報告所載的資料、意見及預測僅反映本公司于發布本報告當日的判斷，且預測方法及結果存在一定程度局限性。在不同時期，本公司可發出與本報告所刊載的意見、預測不一致的報告，但本公司沒有義務和責任及時更新本報告所涉及的內容并通知客戶。在法律允許的情況下，本公司及其附屬機構可能持有報告中提及的公司所發行證券的頭寸并進行交易，也可能為這些公司提供或正在爭取提供投資銀行、財務顧問、咨詢服務等

143、相關服務，本公司的員工可能擔任本報告所提及的公司的董事?？蛻魬浞挚紤]可能存在的利益沖突，勿將本報告作為投資決策的唯一參考依據。若本公司以外的金融機構發送本報告，則由該金融機構獨自為此發送行為負責。該機構的客戶應聯系該機構以交易本報告提及的證券或要求獲悉更詳細的信息。本報告不構成本公司向發送本報告金融機構之客戶提供的投資建議。本公司不會因任何機構或個人從其他機構獲得本報告而將其視為本公司客戶。本報告的版權僅歸本公司所有，未經書面許可，任何機構或個人不得以任何形式、任何目的進行翻版、轉載、發表、篡改或引用。所有在本報告中使用的商標、服務標識及標記，除非另有說明，均為本公司的商標、服務標識及標記。本公司版權所有并保留一切權利。民生證券研究院：上海：上海市浦東新區浦明路 8 號財富金融廣場 1 幢 5F；200120 北京：北京市東城區建國門內大街 28 號民生金融中心 A 座 18 層；100005 深圳：廣東省深圳市福田區益田路 6001 號太平金融大廈 32 層 05 單元；518026

相關圖表

本文主要內容概括如下： 1. 介紹了Transformer模型的發展歷程，從最初的語言翻譯應用，到擴展至圖像、視頻、音頻等多模態任務，如StableDiffusion、VideoPoet和MusicLM等模型。 2. 探討了機器人現實世界至數據化的突破，包括谷歌的RT-2、英偉達的MimicGen和谷歌的RoboCat。RT-2通過視覺-語言預訓練，實現了機器人在復雜任務和未見環境中的泛化能力。MimicGen通過自動生成大量模仿學習數據，減少了人工干預，提升了機器人學習的效率。RoboCat基于Gato模型，展示了多任務和多具身平臺上的自我迭代學習能力。 3. 分析了特斯拉FSD的發展，從最初的輔助駕駛系統，到全棧自研自動駕駛技術，特斯拉持續引領智能駕駛技術發展浪潮。FSD V12完全采用神經網絡進行車輛控制，實現了端到端的自動駕駛。 4. 展望了未來機器人技術的發展方向，包括更靈活的多模態任務規劃、更強大的視覺-語言模型等。

特斯拉FSD V12如何實現端到端自動駕駛？英偉達MimicGen如何通過少量人類演示自動生成大規模機器人訓練數據？谷歌RoboCat如何實現多任務、多具身通才智能體的快速策略泛化？

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站