《機械設備行業機器人系列報告之二十七:控制器提供具身智能基座數據飛輪驅動模型迭代-250515(34頁).pdf》由會員分享,可在線閱讀,更多相關《機械設備行業機器人系列報告之二十七:控制器提供具身智能基座數據飛輪驅動模型迭代-250515(34頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、行業及產業 行業研究/行業深度 證券研究報告 機械設備 2025 年 05 月 15 日 控制器提供具身智能基座,數據飛輪驅動模型迭代 看好機器人系列報告之二十七 證券分析師 王珂 A0230521120002 戴文杰 A0230522100006 劉洋 A0230513050006 胡書捷 A0230524070007 聯系人 胡書捷(8621)23297818 本期投資提示:目前人形機器人的硬件成熟度高于軟件,而軟件是人形機器人走向商業化的關鍵,但研究相對空白。本文主要分析:1)算法:機器人的主要算法,包括運控算法和大模型等;2)數據:主要來源和采集方式,目前所處階段;3)控制系統:機器人
2、“大腦”的軟硬件構成,如何為具身智能提供底層支撐。報告結論為:控制器提供具身智能基座,數據飛輪驅動模型迭代。算法:具身智能的核心。算法框架可分為上層“大腦”與下層“小腦”兩大層級。1)上層控制(大腦)聚焦任務級規劃與決策,通過自然語言交互拆解任務目標,并利用視覺-語言-動作(VLA)模型實現語義理解與動作生成。目前技術路線尚未收斂。2)下層控制(小腦)則負責實時運動規劃與關節控制,傳統基于模型控制 MPC、WBC 方法,向現代算法強化學習(RL)與模仿學習(IL)滲透。未來算法突破需解決多模態集成、長時任務規劃及模擬到真實(Sim-to-Real)遷移等瓶頸。數據:算法學習的基礎。數據的質量與
3、多樣性直接影響算法性能。數據來源可分為三類:真實數據(占比最低但精度最高)、合成數據(成本低但存在域差距)及網絡數據(規模大但需清洗)。真實數據是主要來源,采集方式包括遙操作、動作捕捉技術等;合成數據逐漸引入,通常通過仿真平臺(如 NVIDIA Omniverse)生成,可以解決數據短缺問題,但存在其與物理世界的差異的問題??刂葡到y:具身智能的基座。目前產業界對于人形機器人的“大小腦”尚未形成統一共識,通常根據功能被人為區分為大腦和小腦。大腦負責執行復雜的算法、數據處理、環境感知等任務規劃和決策執行;小腦負責機器人的運動控制,接收來自上層的指令并轉化為具體的動作指令。硬件主要由 SoC 芯片構
4、成,包括 CPU、GPU、NPU 等,還有處理器、儲存單元、通信接口和輸入輸出接口等;軟件部分包括底層操作系統、中間件和上層軟件。其中,芯片是控制器的核心,目前多數公司采用英偉達方案;操作系統則提供底層軟件支持;控制器集成商則承擔集成的功能,提供穩定可靠的產品。軟件是機器人下一步商業化落地的投入重心,近期特斯拉 Optimus 的邊際變化也主要聚焦在算法層面。相關產業鏈標的值得關注。1)控制器環節:天準科技(具身智能控制器)、智微智能(人形機器人專用控制器)、德賽西威(車端域控制器頭部企業);2)運控技術同源:匯川技術(PLC 和驅動器)、信捷電氣(PLC)、雷賽智能(PC-Based 控制器
5、和板卡)、固高科技(PC-Based 控制器和板卡)、拓斯達(工業控制器)3)芯片:瑞芯微(SoC 芯片)、地平線機器人(地瓜機器人布局);4)數據采集裝備:凌云光(光學動作捕捉裝備)、奧飛娛樂(參股諾亦騰,光慣一體動捕方案)等。風險提示:人形機器人商業化進程不及預期、高市盈率風險、市場競爭加劇風險。請務必仔細閱讀正文之后的各項信息披露與聲明行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第2頁 共34頁 簡單金融 成就夢想 投資案件 結論和投資分析意見 軟件是機器人下一步商業化落地的投入重心,近期特斯拉 Optimus 的邊際變化也主要聚焦在算法層面。相關產業鏈標的值得關注。1)控制器
6、環節:天準科技(具身智能控制器)、智微智能(人形機器人專用控制器)、德賽西威(車端域控制器頭部企業);2)運控技術同源:匯川技術(PLC 和驅動器)、信捷電氣(PLC)、雷賽智能(PC-Based 控制器和板卡)、固高科技(PC-Based 控制器和板卡)、拓斯達(工業控制器)3)芯片:瑞芯微(SoC 芯片)、地平線機器人(地瓜機器人布局);4)數據采集裝備:凌云光(光學動作捕捉裝備)、奧飛娛樂(參股諾亦騰,光慣一體動捕方案)等。原因與邏輯 目前人形機器人的硬件成熟度高于軟件,產業進一步落地的關鍵在于軟件。類似于人工智能的三大要素(算力、算法、數據),具身智能機器人同樣,不同點在于機器人有物理
7、形態,會與外部世界產生交互,因此三要素的表現形式有所差別,但都至關重要。1)算法具身智能的核心,包括上層“大腦”與下層“小腦”兩大層級,即 VLA等大模型,及強化學習,基于模型等運控算法,目前算法均為收斂;2)數據是算法學習的基礎。數據來源包括真實數據(占比最低但精度最高)、合成數據(成本低但存在域差距)及網絡數據(規模大但需清洗),當前數據的數量和質量的缺乏是模型訓練的瓶頸之一,但持續有積極變化;3)控制系統具身智能的基座。其中,芯片是控制器的核心,提供算力支持;操作系統則提供底層軟件支持;控制器集成商則承擔集成的功能,提供穩定可靠的產品;未來產業格局走勢有望類比于自動駕駛。有別于大眾的認識
8、 市場對機器人硬件研究充分,但對軟件研究較為空白。本篇報告較為系統的梳理了軟件層面的三大要素:算法、數據和控制系統,幫助投資者理解目前機器人軟件所處的發展階段和未來潛在的突破方向,有助于把握后續機器人產業的發展節奏。jZhUlXlYlZ9UlWtR8OaO7NmOpPoMrMeRqQsPfQoPtNaQpPzQuOtPsMNZoOnQ 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第3頁 共34頁 簡單金融 成就夢想 1算法:具身智能的核心.6 1.1 算法框架:從上層規劃,到下層控制.6 1.2 下層控制:算法演進,強化學習+模型為主流.7 1.3 上層控制:具身智能,重點討論 VL
9、A 架構.10 2數據:算法學習的基礎.17 2.1 數據來源:真實、合成與網絡數據.17 2.2 真實數據為主,遙操/動捕多方式實現.18 2.3 合成數據為輔,仿真平臺為技術核心.22 3控制系統:具身智能的基座.23 3.1 控制器:大小腦硬件載體.23 3.2 芯片:核心計算單元.27 3.3 操作系統:底層軟件基礎.29 4結論和風險.32 4.1 相關標的.32 4.2 風險提示.32 目錄 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第4頁 共34頁 簡單金融 成就夢想 圖表目錄 圖 1:機器人控制層級.6 圖 2:人形機器人運動控制算法的演進方向.7 圖 3:人形機器
10、人基于模型的步態規劃方法下的運動框架.8 圖 4:強化學習訓練方案(NVIDIA 的 GPU 加速方案).9 圖 5:Google DeepMind 首次提出 VLA 架構.10 圖 6:Google Deepmind 大模型發展歷程.13 圖 7:OpenVLA 模型.13 圖 8:GR-2 預訓練數據集展示.14 圖 9:GR00T N1 架構.15 圖 10:Helix 采用雙層架構.16 圖 11:智元啟元大模型框架.17 圖 12:VLA 模型的訓練過程,涉及諸多難點.17 圖 13:數據來源主要包括真實、合成、互聯網數據.18 圖 14:Mobile ALOHA 采用主從臂遙操作方
11、式.19 圖 15:智元的數據采集機器人本體.19 圖 16:智元的遙操作設備,包括動捕套裝和 VR.20 圖 17:諾亦騰提供慣性捕捉和光學捕捉兩種方案.21 圖 18:凌云光 FZMotion 光學運動捕捉系統.21 圖 19:操作人員佩戴 VR 眼鏡和手套控制 Optimus.22 圖 20:操作人員采集全身動捕數據.22 圖 21:MimicGen 系統生成大量數據集.23 圖 22:大腦和小腦控制器構成.24 圖 23:天準星智 001 的產品實物圖.25 圖 24:NSPIC-R006NP+產品實物圖.26 圖 25:英偉達 Jeston Orin 芯片.28 圖 26:地瓜機器人
12、的機器人板塊布局.29 圖 27:天準星智與黑莓 QNX 合作,打造智能駕駛和泛機器人系統解決方案.30 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第5頁 共34頁 簡單金融 成就夢想 圖 28:國訊芯微工業實時操作系統 NECRO.31 表 1:不同 VLA 模型對比.11 表 2:天準星智 001 處理器參數.25 表 3:國訊芯微 NSPIC-R006NP+產品規格.26 表 4:相關公司估值表.32 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第6頁 共34頁 簡單金融 成就夢想 1算法:具身智能的核心 1.1 算法框架:從上層規劃,到下層控制 機器人涉及到的算法
13、復雜,2025 年 3 月的機器人算法:硬件遇上現代 AI 算法對機器人的三大環節:控制、規劃、感知的算法進行詳細闡述,實際上感知算法已在多個領域應用(自動駕駛、服務機器人等),控制和規劃則是人形機器人算法中更為復雜的部分。根據論文Robotics:Modelling,Planning and Control的分類方式,機器人的控制層級可以分為四個級別:任務級,動作級,初始級,伺服級。根據佐思汽車研究機構的分類,機器人的控制層級可分為 6 級:交互級、任務級、技能級、動作級、基元級和伺服級??偨Y而言,主要分為“上層”和“下層”兩大控制層級。圖 1:機器人控制層級 資料來源:Robotics:M
14、odelling,Planning and Control,佐思 AI 與機器人研究,申萬宏源研究 1)上層控制:也被稱之為機器人的“大腦”,主要負責任務定義和行為決策,包括理解真實物理世界的特征要素,對外界環境和任務進行分析和拆解,轉換成具體的行動指令。這一環節過去更多是人工參與,工程師進行任務定義、拆解和機器人運動代碼生成,部分 AI 參與;未來 AI 大模型的應用潛力大,有望實現通用能力。上層控制進一步可以劃分為:交互級:負責物理世界交互、人機交互和任務描述,完成信息輸入;任務級:分析環境、物體信息,對任務進行理解,拆分成原子級任務;技能級:負責具體操作和行為決策,接收上層指令,轉換為具
15、體的行動軌跡。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第7頁 共34頁 簡單金融 成就夢想 2)下層控制:也被稱之為機器人的“小腦”,主要負責操作和運動控制,包括目標運動規劃、末端執行、全身控制等。這一環節控制頻率高,實時性要求高。人形機器人控制復雜度極高,需要多種運動控制算法疊加整合。低層級控制進一步可劃分為:動作級:對機器人的狀態進行估計,在進行運動規劃(motion planning),這一環節可以引入神經網絡和強化學習等學習方式,讓機器人在與環境的動態交互中實時學習和優化,提升泛化能力;基元級:通過插值的方式計算出直線或圓弧軌跡上的各個點;通過零力矩點、足旋轉點捕獲點等信
16、息,幫助實現雙足的步態平衡;伺服級:根據動力學模型對運動軌跡進行速度、加速度的規劃與約束,然后伺服驅動各個關節電機運動。1.2 下層控制:算法演進,強化學習+模型為主流 運動控制算法決定了人形機器人的行動能力和反應速度,是實現其自主性、靈活性和智能化的關鍵。運動控制算法涉及到實現機器人的運動、姿態和動作控制的一整套理論模型和計算方法,在各環節都有相應的算法。隨著機器人自由度和結構復雜度的提升,運控算法持續迭代:從傳統的關節伺服控制算法和機遇模型的控制方法,發展到當前人形機器人主流的 WBC、MPC 運動控制算法;隨著人工智能的發展,基于神經網絡的強化學習方法也開始得到廣泛使用。人形機器人的算法
17、庫復雜,往往需要多種運動控制算法疊加使用。圖 2:人形機器人運動控制算法的演進方向 資料來源:申萬宏源研究 目前比較主流的傳統控制的方案是基于模型預測控制(MPC,Model Predictive Control)的軌跡規劃加上基于動力學模型的全身關節力控(Whole-Body Control)。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第8頁 共34頁 簡單金融 成就夢想 模型預測控制(MPC)首先構建一個機器人的動態預測模型,參考機器人的狀態(機身位置、速度和姿態),預測一個時間序列內的機身狀態,然后對參考狀態與實際測量值進行優化求解,其目標是最小化軌跡偏差、ZMP 偏離,確保
18、穩定性,從而生成一段時間內的控制指令,將該指令輸入到機器人的伺服控制模塊中,指導實際運動。全身動力學控制(WBC)基于全身動力學模型,協調機器人的全身運動,對關節力矩的分配進行優化,在滿足動力學約束、關節力矩限制等約束的同時完成多任務,生成滿足多項任務要求的關節位置、速度和加速度指令,并保持機身姿態和位置的穩定,以及確保落腳點與規劃一致。這些運動學指令輸入到動力學求解器中,同時結合 MPC 層規劃的運動軌跡,進行優化,生成最終的動作指令。運動框架的示意圖如下:圖 3:人形機器人基于模型的步態規劃方法下的運動框架 資料來源:國家地方共建人形機器人創新中心從算法到實踐:基于 MPC 與 WBC 的
19、人形機器人運動控制的實現,申萬宏源研究 然而,傳統的基于模型的運動控制泛在適應性和泛化性上存在不足?;谀P偷目刂品椒ǎㄈ?MPC 與 WBC)的機制依賴于對系統后續狀態的數值預測,而預測的有效性受制于環境建模的精確程度。在開放環境中,由于環境的復雜和不確定性,很難構建能夠完整覆蓋所有潛在變量且具有可靠預測精度的數學模型。并且,這種框架往往需要高頻率、對非線性優化問題的實時求解,在動態變化的環境中,可能會導致響應延遲,導致無法實現預期的運動性能。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第9頁 共34頁 簡單金融 成就夢想 為了提高機器人的泛化能力,學術界和產業界開始引入機器學習(
20、(Machine Learning)),最常見的是強化學習,同時也有模仿學習、深度學習以及多種方式結合。強化學習(Reinforcement Learning)是一種通過智能體與環境進行交互,根據環境反饋的獎勵信號來學習最優行為策略的機器學習方法。在人形機器人中,強化學習可用于訓練機器人在不同環境和任務中通過不斷試錯來學習如何做出最優決策,以最大化長期獎勵。與依賴于標注數據集和直接反饋的監督學習不同,強化學習使用間接反饋,通過獎勵函數衡量智能體動作的質量。主要的強化學習方法包括:1)無模型方法:機器人根據環境的直接交互來做出決策,通過試錯和反饋來學習;2)基于模型的方法:機器人學習環境模型來根
21、據當前的狀態和動作預測下一個狀態和獎勵;3)給予人類反饋的強化學習,將人類納入學習過程,人類對動作進行評估和糾偏。圖 4:強化學習訓練方案(NVIDIA 的 GPU 加速方案)資料來源:英偉達官網,申萬宏源研究 強化學習的優勢在于:適應性:機器人適應不斷變化的環境并從新的經驗中學習,使其具備通用性;無需標記數據:通過試錯來學習,直接與環境互動;長期規劃:可以考慮未來的獎勵,從而能夠規劃長期目標并做出戰略決策;泛化:可將其知識泛化到新的、不可預見的情境中,在不同場景中應用;獎勵設計靈活:獎勵函數可以根據具體目標進行定制,從而實現定制行為和性能優化。越來越多人形機器人采用強化學習作為主要的運動控制
22、框架:Agility Robotics 公司將強化學習用于 Cassie 機器人,顯著提升機器人的運動魯棒性和適應性;行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第10頁 共34頁 簡單金融 成就夢想 波士頓動力的 Atlas 人形機器人采用“強化學習+動作捕捉”技術框架,通過動作捕捉采集數據,結合虛擬仿真環境中的自主試錯訓練,形成可實時動態調整的運動策略;Figure AI 公司利用強化學習實現自然人形行走,通過模擬訓練和“Sim-to-Real”技術,讓機器人的步態更輕盈、速度更快;宇樹科技 G1 采用“BeamDojo”的強化學習框架,用于解決人形機器人在稀疏踏點復雜地形上行走
23、的難題。此外,模仿學習也在人形機器人領域有廣泛應用。模仿學習是讓機器人通過觀察人類的運動數據,然后通過在仿真器中進行大規模強化學習訓練,讓神經網絡學會在機器人硬件上復現出這些動作。通過模仿學習,機器人能利用大量人類運動和技能數據,繞過機器人數據稀缺問題;還可以使機器人快速學習到人類的經驗和技能,避免了從零開始的試錯學習過程,尤其適用于一些難以通過強化學習直接獲得獎勵信號的復雜任務,如跳舞、打拳、跑步等。目前的運動控制算法依然在環境適應性、系統魯棒性、計算效率等各方面存在瓶頸,雖然機器學習等方法一定程度上解決問題,但在高度動態復雜的場景中仍有局限性,需要發展新的理念方法,未來進一步突破的方向為基
24、于規則控制邁向自主學習系統。1.3 上層控制:具身智能,重點討論 VLA 架構“上層控制”也稱機器人“大腦”,主要負責任務定義和行為決策,包括理解真實物理世界的特征要素,對外界環境和任務進行分析和拆解,轉換成具體的行動指令。VLA 是當前具身智能領域主流的模型類型。VLA(視覺-語言-動作模型)是一種將視覺輸入、語言推理與動作輸出端到端融合的模型。VLA 最早是在 2023 年 7 月由 Google DeepMind 首次提出,發表于論文RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control。圖
25、 5:Google DeepMind 首次提出 VLA 架構 資料來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,申萬宏源研究 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第11頁 共34頁 簡單金融 成就夢想 VLA 架構具備端到端和泛化等特點,使其在機器人領域具備應用潛力:1)端到端架構;2)泛化能力:該模型可以在新的物體、背景和環境中表現出顯著改善的性能;可以理解和響應未知的命令,并行進行推理和決策;3)通用性:VLA 建立在通用的大模型訓練基礎之上,理論上所有的智能
26、裝備都可以使用同一套算法,只要經過適當微調就能滿足特定應用場景的需求。當前,VLA 在自動駕駛場景中得到廣泛應用:VLA 模型從自動駕駛車輛各類傳感器收集的數據里,挖掘出豐富的周邊環境信息;借助強大的語言模型理解人類給出的駕駛指令,并將決策邏輯梳理、展示出來,生成可被理解的決策流程;最終轉化成實際的駕駛操作指令,指揮車輛的行駛動作。VLA 模型存在多種技術路徑和架構,衍生出來不同的方法,各具優勢。我們參考文章具身智能中 VLA 主流方案全解析:技術總結與未來展望進行梳理分析:1)基于經典 Transformer 結構的方案,利用 Transformer 的序列建模能力,將強化學習軌跡建模為狀態
27、-動作-獎勵序列,提升復雜環境下的決策能力;2)基于預訓練 LLM/VLM 的方案,將 VLA 任務視為序列生成問題,借助預訓練模型處理多模態信息并生成動作,增強泛化性和指令理解能力;3)基于擴散模型的方案,如 Diffusion Policy、RDT-1B 通過去噪擴散概率模型生成動作,適用于高維動作空間和復雜動作分布;4)LLM+擴散模型方案,結合 LLM 的多模態表征壓縮與擴散模型的動作生成能力,提高復雜任務中的性能;5)視頻生成+逆運動學方案,先生成運動視頻再通過逆運動學推導動作,提升可解釋性和準確性;6)顯示端到端方案,直接將視覺語言信息映射到動作空間,減少信息損失;7)隱式端到端方
28、案,利用視頻擴散模型預測未來狀態并生成動作,注重知識遷移;8)分層端到端方案,結合高層任務規劃與低層控制,提升長時域任務的執行效率。表 1:不同 VLA 模型對比 方案類型 典型方法 核心思想 優勢 應用場景 經典 Transformer 結構 ALOHA(ACT)、RT-1、HPT 將強化學習軌跡建模為狀態-動作-獎勵序列,利用 Transformer 的序列建模能力 提升復雜環境下的決策能力,支持長序列依賴建模 復雜機器人控制、多任務序列決策 預訓練 LLM/VLM RT-2、OpenVLA 將 VLA 任務視為序列生成問題,借助預訓練模型處理多模態信息并生成動作 增強泛化性、指令理解能力
29、,支持零樣本/少樣本學習 多模態指令遵循、開放域任務 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第12頁 共34頁 簡單金融 成就夢想 擴散模型 Diffusion Policy、RDT-1B 通過去噪擴散概率模型生成動作,適配高維動作空間和復雜分布 適合連續高維動作生成,樣本效率高 機械臂運動控制、靈巧手操作 LLM+擴散模型 Octom 結合 LLM 的多模態表征壓縮與擴散模型的動作生成能力 融合語言理解與精細動作生成,提升復雜任務性能 人機協作、多步驟指令執行 視頻生成+逆運動學 UniPiRo、BoDreamer 先生成運動視頻,再通過逆運動學推導動作 增強可解釋性,提升動
30、作準確性 人形機器人運動規劃、舞蹈生成 顯式端到端 直接映射方案 將視覺語言信息直接映射到動作空間,減少中間處理步驟 低延遲、高響應速度,適合實時控制 無人機導航、移動機器人避障 隱式端到端 SWIM 利用視頻擴散模型預測未來狀態并生成動作,注重知識遷移 支持無監督學習,適應未知環境 未知場景探索、跨任務泛化 分層端到端 高層規劃+低層控制 結合高層任務規劃與低層控制,優化長時域任務執行效率 資料來源:具身智能之心公眾號,申萬宏源研究 VLA 架構仍然處于科學研究階段,學術界和產業界研究在不斷提升模型效果,做出持續努力,下面是具身智能領域知名的論文和產業成果:Google Deepmind 系
31、列:RT1、RT2、RT-X 模型 1)谷歌 RT-1:基于經典 Transformer 結構方案 2022 年,谷歌推出 RT-1,它能從機器人的相機中獲取圖像歷史記錄同時將以自然語言表達的任務描述作為輸入,通過預訓練的 FiLM EfficientNet 模型將它們編碼為 token,然后通過 TokenLearner 將大量標記映射到數量更少的標記中,實現標記壓縮,最后經Transformer 輸出動作標記。其可以成功吸收來模擬環境和其他機器人的異構數據,不僅不犧牲在原始任務上性能,還提高了對新場景的泛化能力。2)RT-2:基于預訓練 LLM/VLM 方案 2023 年 7 月,谷歌推出
32、全球首個控制機器人的 VLA 模型 RT-2,在視覺-語言模型(VLM)的基礎上提出了視覺語言動作(VLA)模型,并在預訓練的基礎上進行聯合微調得到實例化的 RT-2-PaLM-E 和 RT-2-PaLI-X。它可以從網絡和機器人數據中學習,并將這些知識轉化為機器人控制的通用指令。PaLM-E 和 PaLI-X 是兩個已接受網絡規模數據訓練的視覺語言模型(VLM),相當于賦予機器人規模足夠大的數據庫,使其具備識別物體和了解物體相關信息的能力。RT-2 具備較強的泛化能力:通過將視覺語言模型與機器人操作能力結合,將網絡規模預訓練的 VLM 在語義和視覺上的泛化、語義理解和推理等能力有效轉移;此外
33、,RT-2還具備三個涌現能力:1)推理:RT-2 的核心優勢,要求機器人掌握數學、視覺推理和多語言理解三大技能;2)符號理解:能將大模型預訓練的知識,直接延展到機器人此前沒見過的數據上;3)人類識別:能夠準確識別人類。3)RT-X:結合 RT-1 和 RT-2 模型,引入開源大型數據集訓練 2023 年 10 月,谷歌推出在大規模、多樣化的機器人學習數據集 Open X-Embodiment 上訓練得到的 RT-X 模型。其數據集由全球 21 家機構合作,涵蓋了 22 種不 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第13頁 共34頁 簡單金融 成就夢想 同機器人類型的數據,包含了
34、超過 100 萬個片段,展示了 500 多項技能和在 150000 項任務上的表現。RT-X 模型采用了基于 Transformer 的架構和算法,結合了 RT-1 和 RT-2 兩個模型,其泛化、涌現能力得到了大幅提高。圖 6:Google Deepmind 大模型發展歷程 資料來源:谷歌官網,申萬宏源研究 OpenVLA:基于預訓練 LLM/VLM 方案 24 年 6 月,Stanford、UC Berkeley、TRI、Deepmind 和 MIT 聯合發表論文OpenVLA:An Open-Source Vision-Language-Action Model,推出視覺語言動作模型Op
35、enVLA,并且研究團隊全面開源了 OpenVLA 的模型、代碼和訓練數據。OpenVLA 基于 Llama 2 語言模型和一個視覺編碼器構建:視覺編碼器融合了 DINOv2 和 SigLIP 的預訓練特征,能夠有效地提取圖像中的視覺信息;通過將視覺編碼器與語言模型相結合,OpenVLA 可以處理視覺和語言輸入,并生成相應的動作輸出。模型在包含 970k 真實世界機器人演示的 Open X-Embodiment 數據集上進行訓練。這些數據涵蓋了廣泛的任務、場景和機器人實體,為模型提供了豐富的信息,使其能夠學習到各種不同的機器人操作技能和行為模式。從實驗結果來看,OpenVLA 在絕對成功率、多
36、任務環境的成功率和訓練效率表現不錯。圖 7:OpenVLA 模型 資料來源:OpenVLA:An Open-Source Vision-Language-Action Model,申萬宏源研究 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第14頁 共34頁 簡單金融 成就夢想 字節跳動 GR-2:視頻生成+逆動力學方案 字節跳動 ByteDance Research 團隊著手于機器人模仿學習人類成長過程,將多模態素材的學習與預測直接集成到機器人控制中,以促進泛化并實現高效動作預測和視頻生成。2024 年 10 月,ByteDance Research 發布第二代機器人大模型 GR-2
37、。GR-2 的訓練包括預訓練和微調兩個過程。1)預訓練階段:GR-2 在 3800 萬個互聯網視頻片段上進行生成式訓練。這些視頻來自學術公開數據集,涵蓋了人類在不同場景下(家庭、戶外、辦公室等)的各種日?;顒?,使其迅速學會人類日常生活中的各種動態和行為模式。2)微調階段:GR-2 通過幾項關鍵改進提升了其在實際任務中的表現。首先,GR-2 引入數據增強技術,通過改變訓練數據中的背景和物體,使其在未見環境下更具泛化能力;其次,模型通過多視角訓練,利用不同角度的視覺數據,增強了其在復雜場景中的操作靈活性和準確性;此外,GR-2 使用了條件變分自編碼器(cVAE),生成連續、平滑的動作序列,確保任務
38、執行時的動作更加高效和精準。在經歷大規模預訓練后,通過在機器人軌跡數據上進行微調,GR-2 能夠預測動作軌跡并生成視頻。經過多次大模型預訓練與微調后,研究團隊發現 GR-2 的視頻生成與動作預測模型符合 Scaling Law。隨著模型規模的增加,GR-2 的性能呈現出顯著的提升,通過 7 億參數規模的驗證中發現,更大的模型不僅能夠處理更多復雜的任務,而且在泛化到未見過的任務和場景時也表現得更加優異。在多任務學習測試中,GR-2 能夠完成 105 項不同的桌面任務,平均成功率高達 97.7%。圖 8:GR-2 預訓練數據集展示 資料來源:Chi-Lam CheangGR-2:A Generat
39、ive Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation,申萬宏源研究 GR2-預訓練數據集。研究團隊展示了樣本視頻和我們策劃的預訓練數據集的動詞分布。底部圖的 y 軸是頂部單詞的對數頻率。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第15頁 共34頁 簡單金融 成就夢想 GR00T N1:雙系統架構,基于擴散模型和 Transformer 架構 2025 年 3 月 19 日,英偉達 GTC 發布會推出通用人形機器人基礎模型 GROOT N1(Isaac Groot),該模型模仿人
40、類大腦的思考模型,采用雙系統架構,融合兩種計算范式:系統 2(視覺-語言模塊):基于 NVIDIA 的 Eagle-2 VLM 模型,由 SmoILM2 語言模型和 SigLIP-2 圖像編碼器組成,能將圖像和文本編碼為統一表示??梢酝评碇車h境和指令含義,進行行動規劃,類似人類大腦深思熟慮的決策過程。系統 1-擴散變換器模塊:基于 Diffusion Transformer(DiT),負責將系統 2 規劃的動作轉化為精確、連續的機器人動作,如同人類的本能反應,可快速執行任務。圖 9:GR00T N1 架構 資料來源:英偉達全棧工具鏈如何重構 Groot 機器人開發鏈路,申萬宏源研究 Figu
41、re AI 的 Helix:雙層架構 2025 年 2 月 20 日,FigureAI 發布 VLA 模型 Helix。Helix 的特點為:1)全上身控制,包括手腕、軀干、頭部和各個手指的高速率連續控制;2)多機器人協作;3)抓取任何物體;4)采用一個神經網絡學習所有行為,無需對特定任務的微調。Helix 采用雙層架構:系統 2(S2):一個機載互聯網預訓練的 VLM,以 7-9 Hz 運行,用于場景理解和語言理解,實現跨目標和上下文的泛化。S2 建立在 7B 參數開源、開放權重 VLM 上,該 VLM 在互聯網規模數據上進行預訓練。S2 將機器人視覺圖像和狀態信息(包括手腕姿勢、手指位置)
42、投影到視覺語言嵌入空間后進行處理。結合指定所需行為的自然語言命令,S2 將所有語義任務相關信息提煉為單個連續潛向量,并傳遞給 S1;系統 1(S1):一種快速反應的視覺運動策略,可將 S2 產生的潛語義表征轉換為 200 Hz 的精確連續機器人動作。S1 是一個 80M 參數交叉注意編碼器-解碼器 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第16頁 共34頁 簡單金融 成就夢想 Transformer,用于處理低級控制。來自 S2 的潛向量被投射到 S1 的 token 空間中,并沿序列維度與來自 S1 視覺主干的視覺特征連接起來,提供任務調節。S1 以 200hz 輸出完整的上半
43、身人形控制,包括所需的手腕姿勢、手指屈曲和外展控制以及軀干和頭部方向目標。在動作空間中附加一個合成的“任務完成百分比”動作,使 Helix 能夠預測自己的終止條件,從而更容易對多個學習的行為進行排序。圖 10:Helix 采用雙層架構 資料來源:FigureAI 官網,申萬宏源研究 智元啟元大模型(Genie Operator-1)2025 年 3 月 10 日,智元發布通用具身基座大模型智元啟元大模型(Genie Operator-1)。該模型采用 Vision-Language-Latent-Action(ViLLA)架構,該架構由VLM(多模態大模型)+MoE(混合專家)組成。其中 VL
44、M 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner(隱式規劃器)借助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE 中的 Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。在推理時,VLM 采用 InternVL-2B,接收多視角視覺圖片、力覺信號、語言輸入等多模態信息,進行通用的場景感知和指令理解;Latent Planner 基于 VLM 的中間層輸出預測Latent Action Tokens 作為 CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃;Action Exp
45、ert 基于 VLM 的中間層輸出以及 Latent Action Tokens,生成最終的精細動作序列。GO-1 模型的特點包括:1)人類視頻學習:可以結合互聯網視頻和真實人類示范進行學習,增強模型對人類行為的理解;2)小樣本快速泛化:具有較強泛化能力,能夠在極少數據甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻,使得后訓練成本非常低;3)一腦多形:有通用性,能夠在不同機器人形態之間遷移,快速適配到不同本體;4)持續進化:大模型搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第17頁 共34頁 簡單金融
46、 成就夢想 圖 11:智元啟元大模型框架 資料來源:智元機器人官網,申萬宏源研究 VLA 在機器人面臨諸多挑戰:1)機器人數據稀缺:真實的機器人數據獲取難度大、耗費時間和資源,如果依靠模擬數據會加劇模擬和現實之間的差距;2)基礎模型:機器人基礎的 VLA 模型尚未出現成熟方案,評估控制策略的基準也并未統一;3)運動規劃模塊:當前的運動規劃規劃模塊缺乏解決各種環境中的復雜性所需的靈活性,影響機器人執行復雜操作的能力;4)多模態集成:視覺、語言和動作的處理和集成還需要持續優化;5)多種重要性能有待提升:泛化能力、魯棒性、長遠任務執行等。圖 12:VLA 模型的訓練過程,涉及諸多難點 資料來源:申萬
47、宏源研究 2數據:算法學習的基礎 2.1 數據來源:真實、合成與網絡數據 數據是當前具身智能的泛化面臨的瓶頸之一。相對于多模態大模型可以利用互聯網文字、圖像、視頻、音頻等數據進行訓練,具身智能大模型目前依然缺少可用于訓練的高質量、大規模人類操作數據,且獲取難度大。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第18頁 共34頁 簡單金融 成就夢想 具身智能的數據來源包含互聯網數據、仿真合成數據和真實數據。英偉達將數據按體積或規模分類,構建了金字塔數據結構。1)頂端是真實世界的數據,這類數據收集成本高,數量有限,因為人類每天的有效工作時間有限,數據增長與時間、金錢及人力投入呈線性關系;2
48、)中間是合成數據,合成數據來源于物理引擎和圖形渲染器,是內部工具生成的產物;3)底端則是網絡數據,這些數據非結構化且多模態,數據量大,理論上可提取大量知識。圖 13:數據來源主要包括真實、合成、互聯網數據 資料來源:英偉達全棧工具鏈如何重構 Groot 機器人開發鏈路,申萬宏源研究 2.2 真實數據為主,遙操/動捕多方式實現 真實數據采集質量最高,但由于需要人為參與或者機器人本體自身采集,因此采集難度和成本也最高。具體來看,采集方式包括遙操作采集、動作捕捉等。(1)遙操作采集 遙操作采集是操作人員控制機器人完成任務,機器人傳感器實時采集數據。操作人員需要借助各類遙控設備,如手柄、體感設備以及先
49、進的 VR(虛擬現實)設備等,遠程控制機器人完成多樣化且復雜的任務。在操作過程中,機器人周身配備的多種傳感器,包括攝像頭、慣性測量單元、力傳感器等,會全方位、實時地采集豐富的數據。這些數據不僅包含機器人自身的運動狀態信息,如位置、姿態、關節角度等,還包括機器人與周圍環境交互時產生的各類信息,如視覺場景、接觸力大小與方向等。遙操作采集方式的優勢在于能獲取最直接的機器人操作數據,數據質量高,基本無需復雜后處理;劣勢在于采集成本相對較高,且依賴特定本體,精度和維度有限,難以覆蓋實際復雜場景。遙操作采集涉及多種裝備:主從臂遙操作、VR 頭盔、穿戴式外骨骼等。行業深度 請務必仔細閱讀正文之后的各項信息披
50、露與聲明 第19頁 共34頁 簡單金融 成就夢想 主從臂遙操作如斯坦福大學開發的全身遙操作系統 Mobile ALOHA。操作者背部與機器人底座相連,通過前后左右移動自己的身體,驅動機器人底座運動;雙手分別控制ALOHA 兩個機械臂的運動,該方法可以實現手臂、底座的協同控制,獲得更自然流暢的示教數據。VR 遙操作采集即通過 VR 設備,將 VR 手柄或者是人手姿態映射到機械臂夾爪或者靈巧手上的控制;機器人根據接收到的指令和信息,執行相應的動作。同時機器人也會將自身的狀態信息(如位置、速度、傳感器數據等)反饋給 VR 設備。圖 14:Mobile ALOHA 采用主從臂遙操作方式 資料來源:Mo
51、bile ALOHA:Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation,申萬宏源研究 智元推出了大規模高質量機器人學習數據集 AgiBot World。AgiBot World 包含了超過百萬條原子動作軌跡,采集自 100 個同構型機器人,涵蓋五大領域中的 100 余種真實場景,涉及精細操作、工具使用、多機協作等復雜任務。數據來源于智元自制的移動式雙臂機器人,配備了視覺觸覺傳感器、六維力傳感器、六自由度靈巧手等設備。操作人員利用全身動捕套裝和 VR 等動捕裝備對機器人進行控制,進行場景作業。
52、圖 15:智元的數據采集機器人本體 資料來源:智元機器人官網,申萬宏源研究 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第20頁 共34頁 簡單金融 成就夢想 圖 16:智元的遙操作設備,包括動捕套裝和 VR 資料來源:智元機器人官網,申萬宏源研究 (2)動作捕捉采集 動作捕捉,即借助動作捕捉設備,對運動中的人、動物或物體的三維運動軌跡進行實時捕捉和數字解析,采集其動作及相關運動數據。除了用于機器人領域采集動作數據,也可以用于影視制作讓虛擬角色呈現演員動作。動作捕捉主要分為光學捕捉和慣性捕捉兩種。1)慣性動作捕捉,是操作人員佩戴慣性測量單元(IMU)傳感器,測量人體的加速度、角速度等
53、數據,重建動作軌跡。優勢在于,連接簡便,不受空間限制,可在小場地進行驗證測試,不會受到遮擋物影響;劣勢在于精度較低,它的算法基于前向動力學,逆向動力學,生物力學與物理引擎,只有姿態精度,沒有位置精度。2)光學動作捕捉,是利用高速相機系統,捕捉人體動捕服上的馬克點(Marker)計算動作姿態。優勢在于捕捉精細度高,可輸出每節骨骼獨立信息,能實現靈巧手等精細操作。劣勢在于對場地要求大,抗遮擋能力差,前期場地建設及設備采購等投入成本高。目前主機廠普遍采用慣性動作捕捉的方式。目前機器人操作精度要求并不高,并且可以用人眼或者大腦進行補償。如果涉及到更精確的操作要求,會引入光學捕捉。例如,諾亦騰提供慣性捕
54、捉和光學捕捉兩種方案(奧飛娛樂是諾亦騰參股股東之一)。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第21頁 共34頁 簡單金融 成就夢想 圖 17:諾亦騰提供慣性捕捉和光學捕捉兩種方案 資料來源:諾亦騰官網,申萬宏源研究 凌云光提供 FZMotion 光學運動捕捉系統。其核心硬件采用 Swift 系列動捕相機,覆蓋 300 萬至 1200 萬像素分辨率與 320FPS 幀率,支持 40 米超長距離追蹤,結合 850nm紅外光源與低畸變鏡頭保障高速運動下的穩定成像。系統通過 FPGA 算法優化實現亞毫米級定位精度,骨骼解算算法可在標記點被遮擋時自動修復數據,搭配 Motar 軟件平臺實
55、現多人體動作捕捉、剛體與形變同步分析。該設備廣泛應用于影視動畫、機器人訓練、工業仿真及虛擬現實領域。圖 18:凌云光 FZMotion 光學運動捕捉系統 資料來源:凌云光官網,申萬宏源研究 Tesla Optimus 采用動作捕捉采集和遙操作采集方式。開發人員或數據采集操作員身穿 Xsens 套裝,執行不同任務,全身運動數據被記錄下來供機器人學習。這種方式能獲取 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第22頁 共34頁 簡單金融 成就夢想 人類真實的運動數據,讓機器人學習人類的動作模式,使機器人的動作與感知能力更具真實性。另外,工作人員戴上 VR 眼鏡和手套等裝備,通過遠程操作
56、的方式來采集訓練數據。數據采集員會根據項目要求,執行指定的動作和操作,如模擬電池擺放等任務,實現第一視角視頻的實時傳輸及精確控制指令的輸出,同時保持極低的延遲,以便機器人能實時模擬人類的動作。圖 19:操作人員佩戴 VR 眼鏡和手套控制 Optimus 資料來源:X 平臺,申萬宏源研究 圖 20:操作人員采集全身動捕數據 資料來源:特斯拉 2023 股東大會,申萬宏源研究 2.3 合成數據為輔,仿真平臺為技術核心 除了真實數據,仿真合成數據也是重要補充。仿真合成數據是通過構建高度逼真的3D 虛擬環境,模擬出豐富多樣的現實場景,讓機器人在虛擬空間中進行大量試驗與數據采集。在這些虛擬環境里,可以靈
57、活設置各種不同的環境參數,如光照條件、地形地貌、障礙物分布等,還能模擬各類復雜任務,包括家庭場景中的物品整理、清潔打掃,以及工業場景中的物料搬運、設備維護等。借助物理仿真引擎,可以在虛擬環境中模擬機械臂抓取不同形狀、材質物體的過程,引入現實世界中的干擾因素,如震動、摩擦力變化等,再通過渲染、軌跡數據記錄、關節數據記錄等手段,生成海量精確標注的合成數據。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第23頁 共34頁 簡單金融 成就夢想 仿真合成數據的優勢在于采集成本低,當仿真環境搭建完成后,主要消耗計算資源;通過通過改變各種參數和條件,可以快速生成大量數據點;難點在于,合成數據與真實數
58、據之間存在差異、實時性不強且精度不足,因此會出現執行復雜操作能力不足的問題。NVIDIA Omniverse 是一個仿真數據合成平臺,旨在連接、協作和模擬復雜的 3D 工作流程,并構建高保真的數字孿生與虛擬世界。Omniverse 首先構建虛擬 3D 環境,提供眾多 API、SDK,開發者基于其他軟件廠商的能力(包括 CAE.CAD 等),在平臺上構建物理場景,并通過 RTX 渲染集成到仿真流程;其次生成和合成數據,提供 Replicator SDK 構建自定義合成數據生成(SDG)工作流。Replicator 具有內置功能,例如域隨機化,允許在 3D 仿真過程中更改許多物理參數。還可以結合
59、Motion Capture(MoCap)數據生成真實動作序列。2023 年 10 月,英偉達團隊提出 MimicGen 系統,利用少量人類演示自動生成大規模、豐富的數據集。具體流程為,首先將人類演示分割成以對象為中心的片段,然后在新場景中,通過空間變換這些片段、將它們拼接起來,并引導機器人沿著這條新軌跡運動,從而收集新的演示數據;2024 年 10 月推出 DexMimicGen,形成大量靈巧手操作數據。圖 21:MimicGen 系統生成大量數據集 資料來源:MimicGen:A Data Generation System for Scalable Robot Learning usin
60、g Human Demonstrations,申萬宏源研究 3控制系統:具身智能的基座 3.1 控制器:大小腦硬件載體 目前產業界對于人形機器人的“大小腦”尚未形成統一共識,通常根據功能被人為區分為大腦和小腦,分工存在差異。大腦負責執行復雜的算法、數據處理、環境感知等任務規劃和決策執行;小腦負責機器人的運動控制,接收來自上層的指令并轉化為具體的動作指令,再輸出為對伺服驅動器和傳感器等硬件的控制,機器人公司通常需要根據自身本體的特點來設計運動控制算法。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第24頁 共34頁 簡單金融 成就夢想 從構造上來看:大腦和小腦有獨立的硬件載體,但界限并不
61、清晰,是人為劃分的結果。1)大腦控制器:硬件層面,大腦主要由 SoC 芯片構成,包括 CPU-高性能芯片,負責執行各種指令和運算任務,協調機器人各部分工作,進行數據處理和邏輯運算等;GPU-高效處理圖形數據和進行復雜的并行計算;存儲芯片-用于長期存儲機器人的程序、數據和模型,保障機器人快速讀取和處理信息;AI 加速芯片;通信芯片等。軟件層面,大腦還需要構建多種模型,通常包括語言模塊、視覺模塊、感知模塊、決策模塊等,形成具身智能模型如 VLA 等。2)小腦控制器:硬件層面,小腦包括處理器-負責執行各種控制算法和指令,對機器人的運動進行總體協調和控制;存儲單元;通信接口-實現控制器與傳感器和執行器
62、之間的通訊和信息交互;輸入輸出接口;電源模塊等;軟件部分,通常包括底層操作系統-負責管理硬件資源和調度任務等,滿足機器人實時控制要求;中間件;上層應用軟件-控制算法庫、運動控制和軌跡規劃模塊等。圖 22:大腦和小腦控制器構成 資料來源:申萬宏源研究 行業內,第三方的控制器公司包括天準星智、國訊芯微等。我們對其產品進行分析,來了解其中架構。(1)天準星智:星智 001 星智 001 是基于 NVIDIA Jetson AGX Orin 的嵌入式 GPU 模組開發的 AI 邊緣計算產品,算力可達 275 TOPS,可以滿足高清圖像處理、大語言模型以及數據實時分析等復雜場景的運算需求。其他配置:1)
63、視覺感知:搭載了 64 個 Tensor Core 的 NVIDIA Ampere 架構 GPU,用于圖形處理、視頻編碼解碼等,能夠處理高清圖像和視頻流,為機器人的視覺感知提供強大的算力支持。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第25頁 共34頁 簡單金融 成就夢想 2)應用軟件:依托 NVIDIA Issac 機器人平臺,星智 001 提供了一整套 AI 算法工具鏈解決方案。從仿真、模擬、訓練到部署,為機器人的原型設計提供便捷工具,方便了研發人員對具身智能機器人系統的功能和性能進行優化和升級。3)接口:支持 USB 相機、GMSL 相機、激光雷達等多路傳感器的接入,同時具備
64、 HDMI 顯示輸出以及 4G/5G 藍牙等 4)無線通信模塊:提供豐富的接口拓展,滿足客戶對不同技術路線的驗證需求,方便客戶靈活部署與驗證。圖 23:天準星智 001 的產品實物圖 資料來源:天準科技官網,申萬宏源研究 表 2:天準星智 001 處理器參數 類別 參數 處理器 處理器 Jetson AGX Orin 32G Jctson AGX Orin 64G CPU 8 核 ArmR CortexR-A78AE v8.264 位CPU2MB L2+4MB L3 12 核 ArmR Cortex-A78AE v8.264 位CPU 3MB L2+6MB L3 CPU 最大頻率 2.2 GH
65、z AI Performance 200 TOPS 275 TOPS DLAccelerator 2xNVDLAv2 Vision Accclerator lx PVAv2 GPU 搭載 56 個 Tensor Core 的 1792 核NVIDIAAmpere 架構 G P U 搭載 64 個 Tensor Core 的 2048 核NVIDIAAmpere 架構 G P U GPU 最大頻率 939 MHz 1.3 GHz 存儲 Memory 32GB 256 位 LPDDR5 204.8GB/s 64 GB 256 位 LPDDR5 204.8GB/s Storage 64GB cMMC
66、5.1 Encode/Decode Video Encode lx4K60(H.265)Bx4K30(H.265)6x 1080p60(H.265)12x1080p30(H.265)2x4K60(H.265)4x4K30(H.265)8x1080p60(H.265)16x 1080p30(H.265)行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第26頁 共34頁 簡單金融 成就夢想 Video Decode 1x8K30(H.265)2x 4K60(H.265)4x4K30(H.265)9x1080p60(H.265)18x 1080p30(H.265)lx8K30(H.265)3x
67、4K60(H.265)7x4K30(H.265)1lx1080p60(H.265)22x1080p30(H.265)資料來源:天準科技官網,申萬宏源研究 國訊芯微:NSPIC-R006NP+NSPIC-R006NP+采用 8xArm Cortex-A79AEcores 與 1792NVIDICUDAcores,搭配32GBLPDDR5,運算存儲性能超群;默認 3 路 EtherCAT 主站,還有 1 路 HDMI(最大8K60Hz)、2 路 USB2.0、8 路 USB3.2 等多樣接口與高精度 9 軸 IMU 支持,擴展性極強且應用功能多元。產品可以應用于雙足人形、無人車、無人船、機器狗等。
68、圖 24:NSPIC-R006NP+產品實物圖 資料來源:國訊芯微官網,申萬宏源研究 表 3:國訊芯微NSPIC-R006NP+產品規格 模式 NSPIC-R006N+NSPIC-R006NP+核心模塊 CPU 8x Arm Cortex-A78AE cores 12x Arm Cortex A78AE cores GPU 1792 NVIDIA CUDA cores 2048 NVIDIA CUDA cores 內存 32GB LPDDR5 64GB LPDDR5 存儲 默認 1TB SSD 設備接口 以太網網口 1 路萬兆網口,8 路千兆網口 EtherCAT 主站 默認 3 路 Ethe
69、rCAT 主站(可選配 5 路)無線 WI-FI 6+藍牙 5G 5G 全網通(選配)USB 設備接口 2 路 USB2.0,8 路 USB3.2 HDMI 接口 1 路 HDMI 高清顯示器接口(最大支持 8K 60Hz)AUX 接口 1 路 AUX 音頻接口 GMSL 相機接口 可支持最大 12 路 GMSL 同步高清攝像頭(最多 4 路深度相機)指示燈 1 個 POWER 指示燈 1 個 ERROR 指示燈 1 個 RUN 指示燈 按鈕 1 個 RESET 恢復出廠設置按鈕 DI DO 支持 4 路雙極性 DI,4 路 NPN DO 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明
70、第27頁 共34頁 簡單金融 成就夢想 RS485 支持 2 路 RS-485,最大可支持 500KBPS CAN/CANFD 2 路 CAN(1Mbps)/CANFD(5Mbps)實時操作系統 NECRO NECRO 白澤具身智能操作系統,可選配星速 NMA 加速器 軟 PLC IDE NSS 可選配 NECRO SUPER STUDIO(軟 PLC)電源 電壓 12-36V 環境 工作溫度-20C 50C 功耗 最大功耗 150W(200W 包含 GMSL)尺寸 長*寬*高 170mm*120mm*77mm 資料來源:國訊芯微官網,申萬宏源研究 目前,由于機器人規模較少,控制器以主機廠自制
71、為主。隨著機器人市場規模的增長,會出現跨界來做機器人控制器的公司,包括汽車域控制器公司、機器人操作系統公司、運動控制器公司等等。整機廠自研控制器,掌握算法、操作系統,并且主導控制器的架構設計,甚至芯片的選型或自研,硬件委托第三方公司代工生產;第三方公司和整機廠合作生產控制器,整機廠商掌握軟件算法、中間件和架構設計等,第三方公司負責硬件生產、底層操作系統適配和芯片方案整合;整機廠外包給第三方公司,第三方公司提供包括硬件生產、底層操作系統、中間件、上層應用軟件等的整套解決方案,整機廠進行算法和功能開發。我們認為,未來有望復制自動駕駛域控制器的競爭格局,出現產業分工的趨勢,形成多種合作模式:3.2
72、芯片:核心計算單元 人形機器人的主控芯片是其核心計算單元,負責協調感知、決策、運動控制等關鍵任務,需兼具高性能、低延遲和能效比。核心功能包括多模態感知數據融合和梳理、實時規劃和控制、推理決策、能效管理等。目前機器人主控芯片的格局較為集中,多數公司采用 NVIDIA Jeston Orin 芯片。NVIDIA Jetson AGX Orin 是一款的面向邊緣 AI 和機器人應用的計算平臺。核心架構采用 NVIDIA Ampere 架構 GPU,擁有多達 2048 個 CUDA 核和 64 個 Tensor 核,具備強大的并行計算能力,適用于深度學習和計算機視覺任務;搭配 12 個 Arm Cor
73、tex-A78AE CPU 核,可處理復雜的系統任務和通用計算。接口數量多,能夠高速連接外部傳感器等設備。另外,芯片還集成了視頻解碼器、視頻圖像合成器、圖像信號處理器和傳感器處理引擎等,為處理各種多媒體和傳感器數據提供了硬件支持。NVIDIA Jetson AGX Orin 提供兩種選型:1)Jetson AGX Orin 64GB:最高算力可達 275 TOPS,功率配置范圍在 15W 至 60W 之間,適用于對性能要求極高的應用場景,行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第28頁 共34頁 簡單金融 成就夢想 如工業自動化、智能交通、醫療影像分析等;2)Jetson AGX
74、 Orin 32GB:最高算力為 200 TOPS,功率配置范圍是 15W 至 40W,在一些對成本和功耗有一定限制,但仍需要較高性能的場景中具有優勢,如服務機器人、物流機器人等。圖 25:英偉達 Jeston Orin 芯片 資料來源:英偉達官網,申萬宏源研究 特斯拉 Optimus 本地運行搭載 FSD 芯片,馬斯克稱特斯拉已經打通了 FSD 和機器人的底層模塊,實現一定程度的算法服用;Optimus 在大規模神經網絡訓練中,則采用轉為 AI 訓練設計的 Dojo 芯片。國產化方案包括地平線、瑞芯微等,也將受益產業浪潮。地平線在機器人板塊的布局包括芯片和 RDK 生態。地平線最初發布過 R
75、DK X3 開發模組,主要為機器人的 B 端企業提供算力和服務。2023 年,地平線開始組建 RDK 機器人開發者套件,根據自身芯片和開發板,延展出一套機器人操作系統,提供機器人算法中心,以及一套包括數據標注到仿真驗證的數據解決方案。2024 年初,地平線成立了地瓜機器人,專注于機器人領域,地平線創始人兼 CEO 余凱擔任地瓜機器人公司法定代表人。2024 年 9 月 20 日地瓜機器人發布專用于通用機器人的旭日 5 智能計算芯片、RDK X5 機器人開發者套件、具身智能全場景算力核心 RDK S100;2025 年 3 月 31 日,地瓜機器人推出了百 TOPs 級開發者套件。其中,旭日 5
76、 智能計算芯片算力 10TOPs,滿足智能掃地機和割草機等消費級機器人的智能化性能需求;RDK X5 面向中小創客和個人開發者,具備極高性價比,配套NodeHub 的多種先進大模型和機器人算法,給開發者提供支持;RDK S100 擁有百 TOPs,可滿足人形機器人、仿生機器人等場景對感知精度和泛化能力的高階需求。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第29頁 共34頁 簡單金融 成就夢想 圖 26:地瓜機器人的機器人板塊布局 資料來源:地瓜機器人公眾號,申萬宏源研究 瑞芯微:旗艦芯片 RK3588 有四核 ARM Cortex-A76+四核 ARM Cortex-A55 全國產
77、工業核心板。集成 CPU、GPU、NPU,支持算力 6TOPS 的 AI 計算能力??蔀闄C器人的運動控制提供強大的數據處理能力,確保機器人能夠迅速響應各種指令和任務,實現高精度的運動控制。同時具備豐富的外設接口,如 USB、PCIe、UART 等,可連接激光雷達、毫米波雷達、超聲波傳感器、IMU(慣性測量單元)等多種傳感器。人形機器人對于算力需求極高,當前芯片還需進一步升級。一方面,人形機器人需要實時訓練,特別在高頻率更新和多模態融合場景下;其次,機器人搭載的模型參數量高,對算力需求高;另外,機器人所處的物理世界高度復雜,需同時處理視覺、運動規劃、語音交互等任務。因此,當前芯片算力仍有瓶頸,后
78、續英偉達發布的 Thor 芯片或一定程度上解決這個問題。3.3 操作系統:底層軟件基礎 操作系統負責管理和控制機器人硬件與軟件資源、調度任務、處理中斷等,具備高實時性和可靠性,是機器人能夠正常運行并完成各種任務的基礎。Linux 是開源、免費的操作系統,因此使用最為普遍。Linux 多用戶、多任務能力強,支持多種硬件平臺;開發者可以自由獲取源代碼,并根據機器人的具體需求進行定制化開發,包括內核裁剪、驅動開發、功能模塊添加等,以滿足不同應用場景下機器人的特殊要求。穩定性高,能夠長時間穩定運行,資源管理和調度機制較為靈活,可以有效利用硬件資源。Linux 在各種機器人領域都有廣泛應用,適用于用于對
79、成本敏感、需要定制化的機器人項目。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第30頁 共34頁 簡單金融 成就夢想 ROS 基于 Linux 開發,是一個開源的機器人軟件平臺,提供硬件抽象、底層驅動程序管理等服務,相當于一個中間件。全球開發者參與其中,形成活躍社區,可獲取開源代碼、文檔、教程以及各種工具。ROS 采用分布式計算架構,能夠將機器人的不同功能模塊分配到不同的節點上進行處理,這些節點可以通過網絡進行通信和協作。ROS 擁有大量的功能包,涵蓋了從傳感器驅動、運動控制、路徑規劃到視覺處理等各個方面,以便開發者調用。因此,ROS 是一種非常常見的操作系統,廣泛應用于工業機器人、
80、物流機器人、消費機器人、無人機等各類機器人領域。黑莓 QNX 是一款基于微內核架構的實時操作系統(RTOS),專為嵌入式系統和關鍵任務場景設計。因此 QNX 系統有高可靠性、強實時性和安全性等特點,被廣泛應用于汽車、工業自動化、醫療設備、航空航天等領域。QNX 也可用于機器人,2025 年 4 月,天準星智與黑莓 QNX 宣布建立戰略合作,雙方將依托 BlackBerry QNX領先的軟件技術體系,合作開發面向汽車工業、泛機器人及 AIoT 領域的定制化嵌入式系統解決方案 圖 27:天準星智與黑莓 QNX 合作,打造智能駕駛和泛機器人系統解決方案 資料來源:天準星智官網,申萬宏源研究 國訊芯微
81、自研操作系統 NECRO 白澤。產品主要的特點為:1)自主化:100%自主代碼硬實時微內核,深度滿足底層系統國產化需求;2)實時性:微秒級操作系統抖動,納秒級中斷響應速度;3)適用性:兼容 Linux 常用命令和 Shell 腳本;SDK 支持行業庫和生 態 庫 400 多 種,包 括 英 偉 達 CUDA 和 華 為 昇 騰 生 成 式 AI 生 態;支 持EtherCAT/CANOPEN 等多種協議;支持多模態與運動控制相結合等 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第31頁 共34頁 簡單金融 成就夢想 圖 28:國訊芯微工業實時操作系統 NECRO 資料來源:國訊芯微官
82、網,申萬宏源研究 鴻道工業操作系統系自研系統。鴻道(Intewell)工業操作系統采用微內核虛擬化架構,將具身機器人大腦和小腦融合,將多設備、多節點任務融合為統一架構下的 AI 系統和運動系統,提供軟硬一體技術,達成低成本、低功耗、小體積目標,同時保障上層應用軟件開發的遷移性,支持算力芯片虛擬化,讓大模型運行和算力分配效率最大化。根據官網介紹,產品具備如下特點:1)實時性:微秒級控制精度,能滿足工業機器人、高端數控機床、手術機器人等高精度需求,且設備間計算和通信有確定性,實現高精度運動。2)兼容性:對于 ROS 框架,把 ROScontrol 運行在操作系統實時環境中,其他部分運行在非實時環境
83、上,消息通信改為實時協議棧,使基于 ROS 生態開發的機器人功能能平滑移植,運動控制的實時性從百微秒、毫秒級提升到微秒級。3)高效率:提供分布式協同方案,未來工廠中各機器人節點可共同貢獻算力,實現算力利用率最大化,類似邊緣計算模式,助力從單體智能邁向群體智能發展。4)定制化:針對機器人行業,公司根據下游廠商需求,提供定制化服務,純軟的方案包括提供操作系統、開發框架,并幫助廠家適配原有算法軟件,針對不同硬件平臺進行優化;同時也能提供軟硬件一體的方案,將操作系統連帶板卡捆綁銷售。行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第32頁 共34頁 簡單金融 成就夢想 4結論和風險 4.1 相關
84、標的 軟件是機器人下一步商業化落地的投入重心,近期特斯拉 Optimus 的邊際變化也主要聚焦在算法層面。相關產業鏈標的值得關注。1)控制器環節:天準科技:(具身智能控制器)、智微智能(人形機器人專用控制器)、德賽西威(車端域控制器頭部企業);2)運控技術同源:匯川技術(PLC 和驅動器)、信捷電氣(PLC)、雷賽智能(PC-Based 控制器和板卡)、固高科技(PC-Based 控制器和板卡)、拓斯達(工業控制器);3)芯片:瑞芯微(SoC 芯片)、地平線機器人(地瓜機器人布局);4)數據采集裝備:凌云光(光學動作捕捉裝備)、奧飛娛樂(參股諾亦騰,光慣一體動捕方案)等。4.2 風險提示(1)
85、人形機器人商業化進程不及預期 人形機器人目前尚處于實驗室階段,還未真正實現大規模商業化,如果特斯拉Optimus 研發進程遇到瓶頸,或者商業化過程比預期緩慢,將會導致人形機器人及以傳感器為代表的零部件放量進度放緩。(2)高市盈率風險 目前產業還處于早期階段,尚未實現商業化放量,業績貢獻較低,部分標的的市盈率偏高,可能伴隨股價走勢的波動。(3)市場競爭加劇風險 隨著機器人行業的快速發展和需求放量,未來市場空間將不斷增加,吸引眾多新進入者參與市場競爭。如果市場參與者數量快速增加,將會導致行業競爭格局惡化,甚至造成惡性的價格競爭,壓縮全行業的利潤空間 表 4:相關公司估值表 公司代碼 公司簡稱 20
86、25/5/14 EPS(元/股)PE PB 收盤價(元/股)24A 25E 26E 27E 24A 25E 26E 27E 688003 天準科技 50.31 0.64 1.18 1.54 1.27 78 43 33 40 4 001339 智微智能 52.79 0.50 0.98 1.39 1.62 106 54 38 33 5 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第33頁 共34頁 簡單金融 成就夢想 002920 德賽西威 106.96 3.61 4.82 6.12 7.64 30 22 17 14 8 603416 信捷電氣 65.00 1.63 2.05 2.49
87、3.19 40 32 26 20 3 002979 雷賽智能 51.13 0.65 0.88 1.10 1.43 78 58 46 36 7 300124 匯川技術 69.80 1.59 2.03 2.46 2.92 44 34 28 24 6 301510 固高科技 33.26 0.13 0.32 0.44/265 102 76/8 300607 拓斯達 37.14-0.51 0.14 0.22 0.24-72 265 171 154 5 603893 瑞芯微 164.99 1.42 2.09 2.78 3.84 116 79 59 43 15 09660 地平線機器人-W 7.13 0.1
88、8-0.14-0.06/37-46-119/6 688400 凌云光 28.45 0.23 0.38 0.57 0.82 122 76 50 35 3 002292 奧飛娛樂 9.10-0.19 0.10 0.14 0.18-47 93 64 51 4 資料來源:iFinD、申萬宏源研究 注:盈利預測均為 iFinD 一致預測;地平線機器人-W 單位為港元 行業深度 請務必仔細閱讀正文之后的各項信息披露與聲明 第34頁 共34頁 簡單金融 成就夢想 信息披露 證券分析師承諾 本報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,以勤勉的職業態度、專業審慎的研究方法,使
89、用合法合規的信息,獨立、客觀地出具本報告,并對本報告的內容和觀點負責。本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。與公司有關的信息披露 本公司隸屬于申萬宏源證券有限公司。本公司經中國證券監督管理委員會核準,取得證券投資咨詢業務許可。本公司關聯機構在法律許可情況下可能持有或交易本報告提到的投資標的,還可能為或爭取為這些標的提供投資銀行服務。本公司在知曉范圍內依法合規地履行披露義務??蛻艨赏ㄟ^ 索取有關披露資料或登錄 信息披露欄目查詢從業人員資質情況、靜默期安排及其他有關的信息披露。機構銷售團隊聯系人 華東組 茅炯 021- 銀行團隊 李慶 021- 華
90、北組 肖霞 010- 華南組 張曉卓 華東創新團隊 朱曉藝 021- 華北創新團隊 潘燁明 股票投資評級說明 證券的投資評級:以報告日后的 6 個月內,證券相對于市場基準指數的漲跌幅為標準,定義如下:買入(Buy):相對強于市場表現 20以上;增持(Outperform):相對強于市場表現 520;中性(Neutral):相對市場表現在55之間波動;減持(Underperform):相對弱于市場表現 5以下。行業的投資評級:以報告日后的 6 個月內,行業相對于市場基準指數的漲跌幅為標準,定義如下:看好(Overweight):行業超越整體市場表現;中性(Neutral):行業與整體市場表現基本
91、持平;看淡(Underweight):行業弱于整體市場表現。我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重建議;投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者應閱讀整篇報告,以獲取比較完整的觀點與信息,不應僅僅依靠投資評級來推斷結論。申銀萬國使用自己的行業分類體系,如果您對我們的行業分類有興趣,可以向我們的銷售員索取。本報告采用的基準指數:滬深 300 指數 法律聲明 本報告由上海申銀萬國證券研究所有限公司(隸屬于申萬宏源證券有限公司,以下簡稱“本公司”)在中華人民共和國內地(香港、
92、澳門、臺灣除外)發布,僅供本公司的客戶(包括合格的境外機構投資者等合法合規的客戶)使用。本公司不會因接收人收到本報告而視其為客戶??蛻魬斦J識到有關本報告的短信提示、電話推薦等只是研究觀點的簡要溝通,需以本公司 網站刊載的完整報告為準,本公司接受客戶的后續問詢。本報告是基于已公開信息撰寫,但本公司不保證該等信息的真實性、準確性或完整性。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,并非作為或被視為出售或購買證券或其他投資標的的邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本
93、報告所載資料、意見及推測不一致的報告??蛻魬斂紤]到本公司可能存在可能影響本報告客觀性的利益沖突,不應視本報告為作出投資決策的惟一因素??蛻魬灾髯鞒鐾顿Y決策并自行承擔投資風險。本公司特別提示,本公司不會與任何客戶以任何形式分享證券投資收益或分擔證券投資損失,任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。本公司未確保本報告充分考慮到個別客戶特殊的投資目標、財務狀況或需要。本公司強烈建議客戶應考慮本報告的任何意見或建議是否符合其特定狀況,以及(若有必要)咨詢獨立投資顧問。在任何情況下,本報告中的信息或所
94、表述的意見并不構成對任何人的投資建議。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。市場有風險,投資需謹慎。若本報告的接收人非本公司的客戶,應在基于本報告作出任何投資決定或就本報告要求任何解釋前咨詢獨立投資顧問。本報告的版權歸本公司所有,屬于非公開資料。本公司對本報告保留一切權利。除非另有書面顯示,否則本報告中的所有材料的版權均屬本公司。未經本公司事先書面授權,本報告的任何部分均不得以任何方式制作任何形式的拷貝、復印件或復制品,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記,未獲本公司同意,任何人均無權在任何情況下使用他們。