《機械設備行業:人形機器人深度從具身模型看動捕設備機會-250212(35頁).pdf》由會員分享,可在線閱讀,更多相關《機械設備行業:人形機器人深度從具身模型看動捕設備機會-250212(35頁).pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 Table_Info1 機械設備機械設備 Table_Date 發布時間:發布時間:2025-02-12 Table_Invest 優于大勢優于大勢 上次評級:優于大勢 Table_PicQuote 歷史收益率曲線 Table_Trend 漲跌幅(%)1M 3M 12M 絕對收益 12%1%35%相對收益 8%7%20%Table_Market 行業數據 成分股數量(只)526 總市值(億)40995 流通市值(億)19920 市盈率(倍)36.80 市凈率(倍)2.48 成分股總營收(億)18769 成分股總凈利潤(億)1121 成
2、分股資產負債率(%)51.16 相關報告 Figure 宣布與 OpenAI 終止合作,特斯拉推進 Optimus 量產-20250210 12 月經濟數據改善,國產替代與機器人產業迎來變化-20250120 Table_Author 證券分析師:劉俊奇證券分析師:劉俊奇 執業證書編號:S0550524020001 17501626511 研究助理:周興武研究助理:周興武 執業證書編號:S0550124070020 15996262528 Table_Title 證券研究報告/行業深度報告 人形機器人深度:從具身模型看動捕設備機會人形機器人深度:從具身模型看動捕設備機會 報告摘要:報告摘要:T
3、able_Summary 具身智能大模型是人工智能領域的重要發展方向,其發展歷程從具身智能大模型是人工智能領域的重要發展方向,其發展歷程從 20 世世紀紀 50 年代的概念萌芽逐步發展到如今的多模態融合與復雜任務規劃。年代的概念萌芽逐步發展到如今的多模態融合與復雜任務規劃。具身大模型基于 Transformer 架構和預訓練技術,通過強化學習實現機器人在復雜環境中的自主決策。具身大模型有端到端具身模型與分層模型兩條路線,其中端到端具身模型將感知、推理、決策和執行集成于一體,通過大規模多模態數據訓練,能夠直接從輸入到輸出進行映射,減少了中間環節,顯著提高了系統的效率和響應速度,但其需要海量的訓練
4、數據,成本較高,疊加模型的復雜性,可解釋性較差。相比之下,分層模型則在模塊化、可維護性和靈活性上表現更好,適合需要逐步優化和靈活調整的復雜任務,但系統復雜性和性能開銷相對較高。為此,短期內分層模型更加適用,而長期看端到端具身模型有望廣泛使用。具身智能大模型的發展高度依賴于高質量的具身智能大模型的發展高度依賴于高質量的真實真實數據。數據。具身機器人數據通常包括多模態信息,如視覺圖像、自然語言指令、觸覺反饋以及機器人的動作數據等,這些數據幫助機器人學習感知、決策和執行任務的能力,提升其在復雜環境中的適應性和泛化能力。然而,具身機器人數據面臨數據稀缺性、采集成本高、標注復雜等挑戰,其規模和多樣性相對
5、不足。數據采集可以類比為一個金字塔結構,最底層是互聯網數據和生成數據,中層為動作捕捉數據,頂層是遙操作數據。2024 年,全球多家機構發布了多個高質量的具身智能數據集,疊加人形機器人訓練場建設如火如荼,機器人智能化有望加速。動作捕捉技術是具身智能數據采集動作捕捉技術是具身智能數據采集破局破局的關鍵手段的關鍵手段。動作捕捉系統分為機械式、聲學式、電磁式、慣性傳感器式和光學式五大類,其中光學式與慣性式動作捕捉系統因其高精度和高效率被廣泛應用。在具身智能機器人領域,動作捕捉技術通過遙操作和虛擬本體數據采集,為機器人提供了高質量的訓練數據。例如,特斯拉利用動捕系統訓練人形機器人,智元機器人通過動捕系統
6、采集數據用于虛擬本體訓練。動作捕捉技術不僅提高了數據采集的效率,還降低了數據清理的成本,為具身智能機器人的發展提供了有力支持。相關標的:凌云光、奧飛娛樂、利亞德等。風險提示:風險提示:人形機器人產業化進展不及預期;人形機器人產業化進展不及預期;動捕設備動捕設備技術升級速度不技術升級速度不及預期;下游行業景氣度波動及預期;下游行業景氣度波動 Table_CompanyFinance -20%-10%0%10%20%30%40%2024/22024/52024/82024/11機械設備滬深300 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 2/35 機械設備機械設備/行業深度行業深度
7、 目目 錄錄 1.機器人大腦機器人大腦-具身大模型介紹具身大模型介紹.4 1.1.發展歷程.4 1.2.技術原理.6 1.3.路線選擇.9 1.3.1.分層具身大模型以 Figure AI 為例.9 1.3.2.端到端具身大模型以谷歌 RT-2 模型為例.12 2.具身大模型的壁壘具身大模型的壁壘數據數據.13 2.1.數據來源:真實數據 VS 合成數據.13 2.2.機器人訓練場.18 3.破局之法:動捕系統破局之法:動捕系統.21 3.1.技術原理.21 3.2.人形機器人運用.25 4.相關標的相關標的.28 4.1.凌云光.28 4.2.奧飛娛樂.30 4.3.利亞德.32 圖表目錄圖
8、表目錄 圖圖 1:具身智能發展歷程:具身智能發展歷程.4 圖圖 2:大模型發展歷程:大模型發展歷程.5 圖圖 3:具身大模型與非具身大模型區別:具身大模型與非具身大模型區別.6 圖圖 4:Transformer 模型架構模型架構.7 圖圖 5:GPT 模型架構模型架構.7 圖圖 6:強化學習基本原理:強化學習基本原理.8 圖圖 7:MLLM 典型架構典型架構.9 圖圖 8:Figure 02 的分層大模型架構的分層大模型架構.10 圖圖 9:利用:利用 ChatGPT 實現機器人學規劃實現機器人學規劃.10 圖圖 10:基于:基于 RL 的自動駕駛決策架構的自動駕駛決策架構.11 圖圖 11:
9、機器狗運動控制架構:機器狗運動控制架構.11 圖圖 12:RT-2 模型架構模型架構.12 圖圖 13:RT-2 中機器人動作到文字中機器人動作到文字 token 的表示方法的表示方法.12 圖圖 14:具身大模型與非具身大模型區別:具身大模型與非具身大模型區別.13 圖圖 15:數據采集類型金字塔:數據采集類型金字塔.15 圖圖 16:特斯拉使用遙操進行機器人數據采集:特斯拉使用遙操進行機器人數據采集.16 圖圖 17:動捕遙操作千尋智能人形機器人:動捕遙操作千尋智能人形機器人.16 圖圖 18:鵬城實:鵬城實驗室具身所基于驗室具身所基于 MuJoCo 的仿真數據采集示例的仿真數據采集示例.
10、17 圖圖 19:RoboTwin:包括真實世界遠程操作數據和由數字孿生生成的相應合成數據的綜合性基準測試:包括真實世界遠程操作數據和由數字孿生生成的相應合成數據的綜合性基準測試.18 圖圖 20:海外機器人訓練場建設火熱:海外機器人訓練場建設火熱.19 圖圖 21:國地中心國地中心具身智能訓練場啟用具身智能訓練場啟用.20 圖圖 22:國地中心內機器人訓練:國地中心內機器人訓練.21 圖圖 23:動作捕捉發展歷程:動作捕捉發展歷程.21 圖圖 24:機械式動作捕捉系統:機械式動作捕捉系統.23 圖圖 25:聲學式動作捕捉系統:聲學式動作捕捉系統.23 圖圖 26:電磁式動作捕捉系統:電磁式動
11、作捕捉系統.24 圖圖 27:慣性傳感器式動作捕捉系統:慣性傳感器式動作捕捉系統.25 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 3/35 機械設備機械設備/行業深度行業深度 圖圖 28:光學式動作捕捉系統:光學式動作捕捉系統.25 圖圖 29:訓練數據集為動捕系統的重要運用訓練數據集為動捕系統的重要運用.26 圖圖 30:諾亦騰數據集采方案諾亦騰數據集采方案.26 圖圖 31:特斯拉利用動捕系統幫助訓練人形機器人:特斯拉利用動捕系統幫助訓練人形機器人.27 圖圖 32:智元利用動捕系統訓練遠征:智元利用動捕系統訓練遠征 A2 機器人虛擬本體機器人虛擬本體.27 圖圖 33:諾
12、亦騰動作捕捉應用于各類機器人虛擬遙操作:諾亦騰動作捕捉應用于各類機器人虛擬遙操作.28 圖圖 34:2019-2024Q3 公司營收情況(億元)公司營收情況(億元).29 圖圖 35:2019-2024Q3 公司歸母凈利潤情況(億元)公司歸母凈利潤情況(億元).29 圖圖 36:公司毛利率:公司毛利率&凈利率情況凈利率情況.29 圖圖 37:公司費用率情況:公司費用率情況.29 圖圖 38:凌云光動作捕捉產品:凌云光動作捕捉產品.30 圖圖 39:2019-2024Q3 公司營收情況(億元)公司營收情況(億元).30 圖圖 40:2019-2024Q3 公司歸母凈利潤情況(億元)公司歸母凈利潤
13、情況(億元).30 圖圖 41:公司毛利率:公司毛利率&凈利率情況凈利率情況.31 圖圖 42:公司費用率情況:公司費用率情況.31 圖圖 43:諾亦騰動作捕捉產品方案:諾亦騰動作捕捉產品方案.31 圖圖 44:2019-2024Q3 公司營收情況(億元)公司營收情況(億元).32 圖圖 45:2019-2024Q3 公司歸母凈利潤情況(億元)公司歸母凈利潤情況(億元).32 圖圖 46:公司毛利率:公司毛利率&凈利率情況凈利率情況.32 圖圖 47:公司費用率情況:公司費用率情況.32 圖圖 48 虛擬動點動作捕捉系統方案虛擬動點動作捕捉系統方案.33 表表 1:端到端具身模型:端到端具身模
14、型 VS 分層具身模型分層具身模型.13 表表 2:全球高質量具身智能數據集概況:全球高質量具身智能數據集概況.14 表表 3:動捕設備軟硬:動捕設備軟硬件架構件架構.22 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 4/35 機械設備機械設備/行業深度行業深度 1.機器人機器人大腦大腦-具身大模型具身大模型介紹介紹 1.1.發展歷程 具身智能發展歷程:具身智能發展歷程:具身智能的產業發展歷程可以追溯到 1950 年代的概念萌芽階段,當時,圖靈在其論文中提出了人工智能可能的發展方向,為具身智能的概念奠定了基礎。隨后,經歷了 1980 年代至 1990 年代的早期探索與理論發展,羅
15、德尼 布魯克斯和羅爾夫普費弗等人的研究為具身智能提供了重要理論支撐。進入 2000 年代初,具身智能研究開始融合跨學科的方法和技術,如機構學、機器學習、機器人學等,形成了相對完整的學科分支,標志著其進入了跨學科融合與技術突破階段。2010 年代中期,深度學習技術的快速發展為其注入了新的發展動力。2020 年以來,具身智能受到科技界和產業界的廣泛關注,眾多科技巨頭及高等學府紛紛投入相關研究。如今,具身智能作為人工智能的重要分支,正逐步走向產業應用,推動專用機器人向通用機器人發展。圖圖 1:具身智能發展歷程:具身智能發展歷程 數據來源:36 氪研究院、東北證券 大模型,通常指的是擁有巨大參數量的機
16、器學習模型,尤其是在大模型,通常指的是擁有巨大參數量的機器學習模型,尤其是在 NLP、計算機視覺、計算機視覺(computer vision,CV)以及多模態領域的應用中。以及多模態領域的應用中。這些模型基于預訓練方式,通過NLP 理解和學習人類語言,以人機對話方式,完成信息檢索、機器翻譯、文本摘要、代碼編寫等內容生成任務。大模型的由來可以追溯到 20 世紀的 AI 研究初期,當時的研究主要集中在邏輯推理和專家系統上。然而,這些方法受限于硬編碼的知識和規則,難以處理自然語言的復雜性和多樣性。隨著機器學習、深度學習技術的出現和硬件能力的飛速提升,大規模數據集和復雜神經網絡模型的訓練成為可能,從而
17、催生了大模型的時代。2017 年,谷歌推出的 Transformer 模型結構通過引入自注意力機制(self-attention),極大地提升了序列建模的能力,特別是在處理長距離依賴關系時的效率和準確性方面。此后,預訓練語言模型(pre-trained language model,PLM)的理念逐漸成為主流。PLM 在大規模文本數據集上進行預訓練,捕捉語言的通用模 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 5/35 機械設備機械設備/行業深度行業深度 式,然后針對特定任務進行微調來適應特定的下游任務。2022 年年底,ChatGPT 以聊天機器人的身份橫空出世,它不僅能夠回答
18、問題,還能創作文章、編程,甚至模仿人類的對話風格,其幾乎無所不能的回答能力使得人們對大語言模型的通用能力有了全新的認識。這極大地推動了 NLP 領域的發展。然而,大模型的發展并不僅限于文本。隨著技術的進步,多模態大模型開始嶄露頭角,它們能夠同時理解和生成包括文本、圖像、音頻等多種類型的數據。2023 年 3 月,OpenAI 官方宣布的多模態大模型 GPT-4,新增了圖像功能,同時具備更精準的語言理解能力,這標志著大模型從單一模態向多模態的重要轉變。圖圖 2:大模型發展歷程:大模型發展歷程 數據來源:中國人工智能學會、東北證券 具身大模型是在非具身大模型的基礎上發展而來的。具身大模型是在非具身
19、大模型的基礎上發展而來的。非具身大模型最初以單模態語言模型為主,如早期的 GPT 系列,專注于語言生成和理解。隨后逐漸擴展到多模態輸入輸出,如 GPT-4V、Sora 等,能夠處理圖像、視頻等數據,并被集成到人形機器人中,提供多模態感知和交互能力。具身大模型的興起以谷歌 RT 系列為代表,2022年推出的 RT-1 首次將視覺、語言和機器人動作結合,2023 年的 RT-2 進一步提升了多模態融合和泛化能力。特斯拉 FSD v12 版本采用端到端大模型架構,整合了感知、決策和控制模塊。2024 年,RFM-1 等基礎模型的出現,推動了具身大模型向更通用的方向發展。未來,具身大模型將繼續深化多模
20、態融合和復雜任務規劃能力,朝著通用具身智能的方向邁進。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 6/35 機械設備機械設備/行業深度行業深度 圖圖 3:具身大模型與非具身大模型區別具身大模型與非具身大模型區別 數據來源:銀河通用、東北證券 1.2.技術原理 Transformer 模型是大型語言模型的堅實基石,開啟了深度學習領域的新紀元。模型是大型語言模型的堅實基石,開啟了深度學習領域的新紀元。在早期階段,循環神經網絡(RNN)曾是處理序列數據的核心手段。盡管 RNN 及其變體在某些任務中展現出了卓越的性能,但在面對長序列時,它們卻常常陷入梯度消失和模型退化的困境,令人難以攻克
21、。為了解決這一技術瓶頸,Transformer 模型應運而生。Transformer 模型由編碼器和解碼器組成,由多個層堆疊而成,包含自注意力子層和線性前饋神經網絡子層。自注意力子層生成輸入序列位置的獨特表示,線性前饋網絡生成信息豐富的表示。編碼器和解碼器包含位置編碼層以捕捉位置信息。模型訓練:依賴反向傳播和優化算法(如隨機梯度下降)訓練 Transformer 模型。通過計算損失函數梯度并調整權重以最小化損失。為提高速度和泛化能力,采用正則化和集成學習策略。Transformer 模型解決梯度消失和模型退化問題,捕捉長期依賴關系,同時并行計算能力強,支持 GPU 加速,在機器翻譯、文本分類和
22、語音識別等任務中表現優秀。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 7/35 機械設備機械設備/行業深度行業深度 圖圖 4:Transformer 模型模型架構架構 數據來源:Attention Is All You Need、東北證券 GPT 可視為預訓練范式,基于可視為預訓練范式,基于 Transformer 架構,通過大數據預訓練架構,通過大數據預訓練學習通用特學習通用特征,廣泛應用于計算機視覺、自然語言處理等領域。征,廣泛應用于計算機視覺、自然語言處理等領域。大模型預訓練技術通過海量數據提取語言知識和語義信息。預訓練階段,模型利用自注意力機制學習文本規律;微調階段,通過
23、有監督學習適應具體任務需求。訓練過程包括數據收集與預處理、模型選擇、預訓練和微調:預訓練使用無標簽數據學習語言結構和語義;微調則針對具體任務使用有標簽數據調整模型參數。一方面,預訓練技術有利于提升性能,通過學習更多語言知識提高準確率、泛化能力和魯棒性;另一方面,其幫助加速訓練,提供準確初始權重,避免梯度問題,節省時間和資源;同時提高泛化能力,減少過擬合風險,適應不同任務和領域。圖圖 5:GPT 模型模型架構架構 數據來源:Improving Language Understanding by Generative Pre-Training、東北證券 強化學習是一種通過智能體與環境交互來學習最優
24、行為策略的機器學習方法。強化學習是一種通過智能體與環境交互來學習最優行為策略的機器學習方法。其基本原理是讓智能體在環境中通過試錯的方式學習,以最大化累積獎勵。強化學習的核心概念包括智能體(Agent)、環境(Environment)、狀態(State)、行動(Action)、獎勵(Reward)、策略(Policy)和價值函數(Value Function)。智能體根據當前狀態選擇行動,環境根據智能體的行動給出反饋(下一個狀態和獎勵),智能體根據獎勵更新策略和價值函數,逐步優化行為。強化學習的目標是學習一個最優策略,使 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 8/35 機械設
25、備機械設備/行業深度行業深度 得智能體在任意狀態下都能選擇最優行動,從而最大化累積獎勵。學習過程通常包括初始化策略和價值函數、智能體與環境的交互、策略和價值函數的更新,以及重復上述步驟直到策略收斂到最優策略。強化學習算法根據是否需要環境模型(Model-based vs.Model-free)、是否需要價值函數(Value-based vs.Policy-based)等進行分類,常見的算法包括 Q-learning、SARSA、REINFORCE、Actor-Critic、DQN、DDPG和 PPO 等。圖圖 6:強化學習基本原理:強化學習基本原理 數據來源:機器之眼、東北證券 多模態融合模型
26、技術原理的核心在于將來自不同模態(如文本、圖像、音頻、視頻多模態融合模型技術原理的核心在于將來自不同模態(如文本、圖像、音頻、視頻等)的信息進行整合和協同處理,以提升模型對復雜場景的理解和決策能力。等)的信息進行整合和協同處理,以提升模型對復雜場景的理解和決策能力。其技術主要涉及多模態數據的融合層次、融合策略、跨模態對齊與交互、多模態表示學習以及訓練策略等方面。在融合層次上,多模態融合可以分為早期融合、中期融合和晚期融合。早期融合在輸入層或特征提取層直接將不同模態的原始數據或低級特征進行拼接或合并;中期融合則先對各模態數據分別進行編碼,提取出特征表示后,再通過注意力機制或圖網絡等方法進行交互和
27、融合;晚期融合是各模態獨立處理并生成預測結果后,再通過加權投票等方式進行融合。不同的融合層次適用于不同的應用場景和需求。融合策略方面,常見的方法包括簡單拼接、加權融合和注意力機制。簡單拼接是將不同模態的特征向量直接拼接在一起;加權融合則是對不同模態的特征或預測結果進行加權求和,以反映每種模態的重要性;注意力機制通過為不同模態的特征分配權重,提高信息利用率。這些策略的選擇取決于具體任務和數據的特點??缒B對齊與交互是多模態融合的關鍵環節之一。由于不同模態的數據在形式和語義上存在差異,因此需要解決它們之間的對齊問題,確保不同模態的信息能夠有效協同。訓練策略方面,多模態融合模型通常采用聯合訓練、分階
28、段訓練和對抗訓練等方式。聯合訓練同時訓練多個模態的特征提取和融合部分,使模型能夠同步學習各模態的信息;分階段訓練先單獨訓練每個模態的特征提取器,再進行融合訓練,減少初期訓練的復雜性;對抗訓練通過生成對抗網絡(GAN)等方法增強模型的魯棒性。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 9/35 機械設備機械設備/行業深度行業深度 圖圖 7:MLLM 典型架構典型架構 數據來源:A Survey on Multimodal Large Language Models、東北證券 1.3.路線選擇 1.3.1.分層具身大模型以 Figure AI 為例 分層具身大分層具身大模型是一種將任
29、務分解為規劃、決策和控制三個層次的架構,每一層通模型是一種將任務分解為規劃、決策和控制三個層次的架構,每一層通過專門的模型實現特定功能。過專門的模型實現特定功能。規劃層負責任務理解與分解、高級認知處理和抽象推理;決策層生成動作序列、評估狀態并進行適應性調整;控制層則執行運動控制、感知處理和安全保障。各層之間通過自上而下的指令流和自下而上的反饋流協作,同時具備獨立的反饋閉環以動態調整策略。這種架構強調模塊化、可解釋性和獨立優化能力,類似于人類從宏觀到微觀的思維過程,兼具可控性、靈活性和適應性。Figure AI 在機器人上部署分層具身大模型:第一層為 OpenAI model,通過 OpenAI
30、多模態大模型感知決策同時實現,模型整合任務、環境和本體的感知信息;第二層為 Neural Network Policies,以 RL 模型為具身模型,從而實現大模型的環境感知到動作的規劃;第三層為 Whole Body Controller,通過傳統的運動學控制算法 k 控制機器人完成具體動作。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 10/35 機械設備機械設備/行業深度行業深度 圖圖 8:Figure 02 的分層大模型架構的分層大模型架構 數據來源:Figure AI X 平臺、東北證券 規劃層作為戰略決策層,承擔著任務規劃層作為戰略決策層,承擔著任務理解與分解、高級認知
31、處理和抽象推理的關鍵理解與分解、高級認知處理和抽象推理的關鍵職責。職責。它能夠將復雜任務拆分為子任務序列,制定整體策略,同時進行場景理解、語義分析、長期目標規劃、任務優先級排序和資源分配決策。此外,規劃層還負責因果關系分析、類比推理以及經驗的總結與應用,為整個系統的高效運行提供頂層指導和決策支持。假設任務是整理房間,規劃層執行步驟為分析房間狀況,進一步拆分成清理地面、整理桌面、收納物品等子任務。圖圖 9:利用利用 ChatGPT 實現機器人學實現機器人學規劃規劃 數據來源:ChatGPT for Robotics:Design Principles and Model Abilities、東北
32、證券 決策層(決策層(Decision Layer)作為戰術決策層,承擔著將規劃層分解的子任務轉化為具)作為戰術決策層,承擔著將規劃層分解的子任務轉化為具體可執行動作序列的關鍵職責。體可執行動作序列的關鍵職責。它主要負責以下任務:一是動作序列生成,將子任務轉化為具體動作序列,計算動作的可行性并優化路徑;二是狀態評估,實時分析 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 11/35 機械設備機械設備/行業深度行業深度 環境狀態,評估動作執行效果,并制定意外情況的處理策略;三是適應性調整,根據反饋信息調整動作參數,處理環境變化,并進行動態路徑規劃。例如,在“收納物品”這一子任務中,決
33、策層會識別物品的類型和位置,規劃抓取姿態和力度,并確定放置位置和方式,從而確保任務的高效執行。圖圖 10:基于:基于 RL 的自動駕駛決策架構的自動駕駛決策架構 數據來源:Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving、東北證券 底層的控制層(底層的控制層(Control Layer)作為執行控制層,主要負責將決策層規劃的具體動)作為執行控制層,主要負責將決策層規劃的具體動作轉化為實際的執行操作。作轉化為實際的執行操作。其核心職責包括:一是運動控制
34、,實現精確的關節控制、實時軌跡跟蹤和力反饋調節;二是感知處理,對傳感器數據進行實時處理,完成位置和姿態估計以及碰撞檢測與避免;三是安全保障,提供急停保護、過載保護和異常狀態處理。例如,在執行“抓取物品”任務時,控制層會控制機械臂運動到指定位置,調節抓取力度并保持穩定性,確保動作的精準執行和系統的安全運行。圖圖 11:機器狗運動控制架構:機器狗運動控制架構 數據來源:基于模型預測的四足機器人運動控制、東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 12/35 機械設備機械設備/行業深度行業深度 1.3.2.端到端具身大模型以谷歌 RT-2 模型為例 端到端大模型是一種先進的深
35、度學習架構,它通過將輸入數據直接映射到輸出結果,端到端大模型是一種先進的深度學習架構,它通過將輸入數據直接映射到輸出結果,省略了傳統方法中復雜的中間處理步驟。省略了傳統方法中復雜的中間處理步驟。以 RT-2 為例,這種模型通常在大規模數據上進行預訓練,以學習通用的知識和模式,隨后在特定任務上進行微調,以適應具體的應用場景。它能夠高效地處理多模態信息,例如視覺、語言和動作,并直接生成目標輸出,從而實現從感知到決策的無縫銜接。例如,在自動駕駛領域,端到端模型可以直接從傳感器數據生成駕駛決策,而無需將感知、規劃和控制模塊分開處理。這種一體化的設計不僅簡化了系統架構,還提高了決策效率和適應性。端到端大
36、模型在語音識別、自然語言處理、計算機視覺等多個領域都有廣泛的應用,能夠顯著提升系統的性能和效率。圖圖 12:RT-2 模型架構模型架構 數據來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、東北證券 RT-2 的核心目標是將視覺輸入和語言指令映射到具體的機器人動作上,從而實現的核心目標是將視覺輸入和語言指令映射到具體的機器人動作上,從而實現對機器人的閉環控制。為對機器人的閉環控制。為此,RT-2 使用了大規模預訓練的 VLM,如 PaLM-E(12B)和 PaLI-X(5B&55B),
37、通過輸入圖片序列和文本指令,生成能夠被機器人執行的動作 token 序列。與傳統的動作控制模型(如 Gato、VIMA、RT-1)不同,RT-2 直接輸出動作 token,而不是高級指令(high-level instruction),從而實現更高效、更直接的機器人控制。在訓練中,RT-2 將動作數據對齊為動作 token,并將這些 token 作為訓練集的一部分,類似于自然語言文本 token 進行處理。這種設計使得 RT-2 能夠充分利用 VLM 的預訓練優勢,同時確保模型輸出的動作 token 可以直接用于機器人的動作控制。同時 RT-2 限制了輸出詞匯表,僅采樣與機器人動作相關的 to
38、ken,從而確保模型輸出與機器人執行器兼容。圖圖 13:RT-2 中機器人動作到文字中機器人動作到文字 token 的表示方法的表示方法 數據來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 13/35 機械設備機械設備/行業深度行業深度 端到端具身模型與分層模型在具身智能領域各有優劣,端到端具身模型與分層模型在具身智能領域各有優劣,長期看端到端具身模型有望長期看端到端具身模型有望成為主流成為主流。端到端具身模型將感知
39、、推理、決策和執行集成于一體,通過大規模多模態數據訓練,能夠直接從輸入到輸出進行映射,減少了中間環節,顯著提高了系統的效率和響應速度。這種模型具有強大的泛化能力,能夠適應復雜環境中的多任務需求,且無需手動設計特征或任務分解,具有較高的靈活性。然而,端到端模型也存在一些劣勢,例如需要海量的訓練數據,包括真實數據和仿真數據,而真實數據的獲取成本較高。此外,由于模型的復雜性,其可解釋性較差,類似于一個“黑箱”,在某些需要透明決策的應用場景中可能是一個問題。同時,訓練端到端模型需要大量的計算資源和時間,增加了開發和部署的成本。相比之下,分層模型則在模塊化、可維護性和靈活性上表現更好,適合需要逐步優化和
40、靈活調整的復雜任務,但系統復雜性和性能開銷相對較高。為此,短期內分層模型更加適用,而長期看端到端具身模型有望廣泛使用。表表 1:端到端具身模型:端到端具身模型 VS 分層具身模型分層具身模型 數據來源:甲子光年、東北證券 可解釋性可解釋性 模塊獨立性模塊獨立性 訓練數據訓練數據&成本成本 反應速度反應速度 端到端具身模型端到端具身模型 低 否 高 快 分層具身模型分層具身模型 高 是 較高 較快 2.具身具身大模型大模型的的壁壘壁壘數據數據 2.1.數據來源:真實數據 VS 合成數據 相比傳統文本、圖片及視頻數據,相比傳統文本、圖片及視頻數據,具身機器人具身機器人數據規模最小為數據規模最小為
41、2.4M。具身機器人數據通常包括多模態信息,如視覺圖像、自然語言指令、觸覺反饋以及機器人的動作數據等。這些數據的作用是幫助機器人學習感知、決策和執行任務的能力,提升其在復雜環境中的適應性和泛化能力。然而,具身機器人數據面臨數據稀缺性、采集成本高、標注復雜等挑戰,相比互聯網上的文本和圖像數據,其規模和多樣性都相對不足。根據 Coatue 的相關數據,具身機器人數據集僅有 2.4M,遠低于文本數據集的 15T Tokens 和圖像數據集的 6B Images。圖圖 14:具身大模型與非具身大模型區別:具身大模型與非具身大模型區別 數據來源:Coatue、東北證券 請務必閱讀正文后的聲明及說明請務必
42、閱讀正文后的聲明及說明 14/35 機械設備機械設備/行業深度行業深度 2024 年,全球多家機構發布了多個高質量的具身智能數據集,推動了人工智能從虛年,全球多家機構發布了多個高質量的具身智能數據集,推動了人工智能從虛擬交互向物理實體的落地演化。擬交互向物理實體的落地演化。智元機器人攜手上海人工智能實驗室等機構發布了全球首個百萬真機數據集 AgiBotWorld,涵蓋家居、餐飲、工業等五大核心場景,包含 100 多個機器人的 100 多萬條演示軌跡,規模和質量均達到行業領先水平。此外,谷歌 DeepMind 聯合 21 家機構發布了 Open X-Embodiment 數據集,包含超過 100
43、 萬條機器人演示軌跡和 311 個場景,覆蓋多種機器人形態。斯坦福大學和加州大學伯克利分校等機構推出了 DROID 數據集,包含 76000 個機器人演示軌跡,涵蓋 564個場景,顯著提升了機器人操作策略的性能和穩健性。Nvidia 則通過 Cosmos 平臺加速物理 AI 開發,利用仿真技術生成大規模數據集,幫助解決數據稀缺問題。表表 2:全:全球高質量具身智能數據集概況球高質量具身智能數據集概況 具身智能數據集 發布機構 發布時間 演示數量 場景任務 動作技能 采集方式 AgiBot World 智元機器人、上海人工智能實驗室 2024.12 100+萬 100+種 數百個 遙操作雙臂機器
44、人和靈巧手 OpenX-Embodiment Google Deepmin 等 21所機構 2023.1 140 萬 311 種 527 個 單臂、雙臂、四足等 22 種形態機器人 DROID Stanford,UC Berkeley 等13 所機構 2024.03 7.6 萬 564 種 86 個 遙操作單臂 RT-1 Google Deepmind 2022.12 13.5 萬 2 種 2 個 遙操作單臂 BridgeData V2 UC Berkeley,Stanford,Google DeepMind,CMU 2023.09 6 萬 24 種 19 個 遙操作單臂及腳本編程動作 Rob
45、oSet CMU,Meta 2023.09 9.85 萬 38 種 12 個 遙操作單機械臂及腳本編程動作 BC-Z Google,UC Berkeley,Stanford 2022.02 2.6 萬 1 種 12 個 遙操作單機械臂 MME CMU 2018.1 8260 1 種 20 個 遙操作單機械臂 ARI 鵬城實驗室、南方科技大學、中山大學 2024.08 300 萬 258 種 345 個 遙操作主從雙臂機器人 RoboMIND 國地中心、北京大學、智源研究院 2024.12 5.5 萬 279 種 36 個 遙操作單臂、雙臂、人形機器人和靈巧手 RH20T 上海交通大學 2023
46、.07 11 萬 7 種 140 個 遙操作單臂 數據來源:整數智能、東北證券 機器人數據采集的方法機器人數據采集的方法主要有主要有 3 種,種,包括遙操、包括遙操、動捕與仿真。動捕與仿真。數據采集可以類比為一個金字塔結構,最底層是成本最低、數量最多的互聯網數據和生成數據。這些數據雖然量大,但難以復現物理世界的復雜性,如碰撞和摩擦力等物理問題,存在明顯的 Sim2Real Gap(模擬到現實的差距)。倒數第二層是人類動作捕捉數據,通過穿戴設備獲取,精度較高,能夠支持一些機器人任務(如抓取和放置),但由于存在Embodiment Gap(具身差距),機器人無法像人類一樣靈活運動,只能處理特定任務
47、。這一層的數據成本較高,數據量有限,但質量較好,因為它來自現實世界,不存在虛擬到現實的轉換問題。金字塔的最頂層是遙操作數據,即通過手動操作機器人采 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 15/35 機械設備機械設備/行業深度行業深度 集數據。這種方式數據量最少,成本最高,因為需要專人操作機器人,且采集速度慢,但遙操作數據直接來自機器人,確保了數據的可用性和準確性。圖圖 15:數據采集類型金字塔數據采集類型金字塔 數據來源:Robot Data、東北證券 遙操:數據采集金字塔頂端。遙操:數據采集金字塔頂端。遙操收集機器人數據是一種通過人類操作員遠程控制機器人來執行任務,從而收
48、集機器人在真實世界中的行為數據的方法。這種方法可以模擬人類的行為和認知過程,使收集到的數據更自然、連貫和平滑。遙操作數據采集通常用于創建高質量的機器人數據集,這些數據集可以用于訓練和優化機器人的智能行為,如抓取、放置、推拉等基礎操作,以及更復雜的動作如攪拌、折疊和熨燙等。遙操收集機器人數據通常涉及使用先進的人體和手部姿態估計算法,如WHAM 和 HaMeR,來實時估計人類動作并將其重新定向到人形機器人動作,實現高效的模仿學習。此外,遙操作套件通常包括數據采集硬件、VR 采集軟件和數據平臺服務三部分,支持多視角圖像同步顯示,動捕狀態、機器人狀態實時反饋與可視化,以及數據錄制、軌跡回放等功能。通過
49、遙操作收集的數據有助于提高機器人模型的精準性和可靠性,為訓練更加精準和可靠的機器人模型奠定堅實的基礎。遙操作不僅用于數據采集,還可以讓機器人進入危險作業的場景中,實現低成本的遙操系統。遙操數據動捕數據仿真數據 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 16/35 機械設備機械設備/行業深度行業深度 圖圖 16:特斯拉使用遙操進行機器人數據采集特斯拉使用遙操進行機器人數據采集 數據來源:特斯拉 X 平臺、東北證券 動捕:數據采集金字塔中端。動捕:數據采集金字塔中端。動作捕捉技術是一種用于捕捉和分析物體運動狀態的方法,它在機器人數據采集中發揮著重要作用。該技術通常依賴高精度的攝像頭
50、和先進的算法,能夠實時捕捉、分析人的動作,并在此基礎上進行動作的模擬和反饋。視覺動捕技術的核心優勢在于其高效、精準的動作捕捉能力,能夠實時捕捉到上千個點位信息,保證數據的真實性與可信度。此外,動捕技術還具備良好的適應性,能夠根據不同的應用場景和需求進行自我優化。在人形機器人領域,動作捕捉技術可以實現更自然的人機交互,提升機器人在家庭和商業環境中的工作能力。圖圖 17:動捕遙操作千尋智能人形機器人動捕遙操作千尋智能人形機器人 數據來源:NVIDIA、東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 17/35 機械設備機械設備/行業深度行業深度 仿真:仿真:數據采集金字塔數據采
51、集金字塔底底端端。機器人仿真平臺數據是利用計算機仿真技術生成的數據,它模擬了實體機器人在虛擬環境中的行為和性能。這些數據對于機器人系統的研發至關重要,因為它們可以在無需實際機器人的情況下進行測試和驗證,從而降低成本、提高安全性和測試效率。仿真平臺如 Gazebo、Webots、PyBullet 等,提供了對機器人建模、創建仿真環境以及感知環境的系統性實現。通過這些平臺,可以在復雜的室內和室外環境中準確有效地模擬機器人,提供高保真度的物理模擬和一整套傳感器模型,以及對用戶和程序非常友好的交互方式。此外,仿真平臺還支持多種機器人模型,包括 PR2、Turtlebot、AR.Drone 等。機器人仿
52、真平臺數據的概念及技術不僅包括對機器人運動和傳感器數據的模擬,還涉及到對環境的模擬,如地形、障礙物等,以及對機器人控制算法的測試和優化。這些數據可以幫助研究人員和開發者在虛擬環境中驗證機器人設計和算法的有效性,為實際應用提供重要的參考和支持。圖圖 18:鵬城實驗室具身所基于鵬城實驗室具身所基于 MuJoCo 的仿真數據采集示例的仿真數據采集示例 數據來源:鵬城實驗室具身所、東北證券 真實數據與仿真數據各有優劣,未來混合使用有望成為主流真實數據與仿真數據各有優劣,未來混合使用有望成為主流。將真實數據與仿真數據結合使用是一種有效的數據采集策略,能夠充分發揮兩者的優勢,提高機器人系統的泛化能力。真實
53、數據可以提供高質量的訓練樣本,使機器人在復雜或危險環境中進行數據收集,數據的準確性高。然而,真實數據的收集成本高,難以規?;?,泛化性較差。仿真數據則可以在虛擬環境中進行數據收集,避免了實際操作中的風險和成本,可以模擬各種不同的情況和場景,收集更加全面和多樣化的數據。但是,仿真數據可能與實際數據存在一定的差異,需要進行驗證和校準。為此,將遠程操作等真實數據和仿真合成數據結合,可能是未來主要的數據采集方式。這種混合數據采集方法能夠結合真實數據和仿真數據的優勢,提高數據的多樣性和質量,從而提升機器人的泛化能力。通過這種方式,可以在仿真環境中生成大量多樣化的數據,請務必閱讀正文后的聲明及說明請務必閱讀
54、正文后的聲明及說明 18/35 機械設備機械設備/行業深度行業深度 同時利用真實數據進行驗證和校準,確保數據的準確性和可靠性。這將有助于解決現有機器人操作數據集局限于實驗室、場景和任務多樣性有限的問題,實現“即插即用”的機器人應用場景。圖圖 19:RoboTwin:包括真實世界遠程操作數據和由數字孿生生成的相應合成數據包括真實世界遠程操作數據和由數字孿生生成的相應合成數據的的綜合性基準測試綜合性基準測試 數據來源:RoboTwin:結合真實采集與仿真數據的雙臂機器人數據基準、東北證券 2.2.機器人訓練場 全球范圍內,對于在訓練場中規?;删呱碇悄軘祿墓沧R正在形成。全球范圍內,對于在訓練場
55、中規?;删呱碇悄軘祿墓沧R正在形成。例如,特斯拉的 Optimus 人形機器人訓練場利用人類的示范教學來模擬新能源汽車電池包的靈活裝配作業;谷歌的 RT-X 訓練場則依托多種機器人平臺進行數據集的標準化采集。此外,斯坦福大學與谷歌 DeepMind 合作推出的 ALOHA2 具身智能框架,利用高仿真度的 MuJoCo 仿真環境和低成本的機械臂實體,構建了家庭環境訓練場景。與此同時,DeepMind 聯合 21 家機構,整合了 22 種不同機器人的數據,創建了目前最大規模的開源真實機器人數據集 Open X-Embodiment,該數據集涵蓋了超過 100萬條機器人操作軌跡。請務必閱讀正文后
56、的聲明及說明請務必閱讀正文后的聲明及說明 19/35 機械設備機械設備/行業深度行業深度 圖圖 20:海外機器人訓練場建設火熱:海外機器人訓練場建設火熱 數據來源:特斯拉 X 平臺、Google、東北證券 國內人形機器人訓練場的進展迅速,取得了顯著成果。國內人形機器人訓練場的進展迅速,取得了顯著成果。2025 年 1 月 21 日,全國首個異構人形機器人訓練場在上海張江的國家地方共建人形機器人創新中心(國地中心)正式啟用,首期已部署超過 100 臺異構人形機器人。該訓練場聚焦智能制造、民生服務以及特種作業等國家重點領域的場景應用,通過大規模數據采集和訓練,推動人形機器人技術的突破和應用落地。訓
57、練場還構建了多個可重構的應用場景,支持不同型號機器人在復雜環境中的訓練,并推出國內領先的真實與生成式動作開源數據集。此外,國地中心與多家企業簽署生態場景合作協議,形成廣泛的生態合作。未來,訓練場將降低具身智能技術發展成本,解決基礎設施重復建設問題,并有望成為國家級虛實結合具身智能技術平臺。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 20/35 機械設備機械設備/行業深度行業深度 圖圖 21:國地中心具身智能訓練場啟用國地中心具身智能訓練場啟用 數據來源:中國電子報、東北證券 國地中心首創“異構人形機器人具身智能數據集構建方法”國地中心首創“異構人形機器人具身智能數據集構建方法”。
58、通過多模態數據采集技術,包括遙操作、動作捕捉、便攜式末端和仿真合成等方式,實現單臺機器人每日采集軌跡數據 500 條以上,并打通了從數據采集到模型真機部署的完整數據閉環。此外,訓練場還推出了人形機器人開源公版機“青龍”和開源社區,推動人形機器人技術的標準化與規?;?。訓練場的建設旨在解決人形機器人行業技術水平參差不齊、企業各自為戰以及重復建設等問題。通過構建開放的數據生態和統一行業標準,訓練場能夠有效降低具身智能技術發展的成本,推動人形機器人在智能制造、民生服務和特種作業等領域的應用。預計到 2025 年,訓練場將聯合合作伙伴共同收集1000 萬條高質量實體數據,形成業界規模領先的異構具身數據集
59、。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 21/35 機械設備機械設備/行業深度行業深度 圖圖 22:國地中心內機器人訓練國地中心內機器人訓練 數據來源:機器人產業發展聯盟、東北證券 3.破局之法:破局之法:動捕系統動捕系統 3.1.技術原理 動作捕捉技術(動作捕捉技術(Motion Capture)是一種通過記錄和分析真實物體或人物的動作,)是一種通過記錄和分析真實物體或人物的動作,并將其轉換為數字數據的技術。并將其轉換為數字數據的技術。這些數據可以用于驅動虛擬角色、動畫制作、游戲開發、虛擬現實、體育分析、醫療康復等多個領域。動作捕捉技術從 20 世紀初的手工繪制關鍵幀起步
60、,經歷了光影法、羅托斯科普攝影等早期方法,逐步發展到電容式傳感器、機械式傳感器等初步數字化手段,再到慣性導航系統和光學攝像頭與計算機視覺等現代高科技手段,不斷向更高精度、更廣泛應用的方向演進,為影視、動畫、游戲、虛擬現實等領域帶來了深遠影響。圖圖 23:動作捕捉發展歷程動作捕捉發展歷程 數據來源:諾亦騰官網、東北證券 早期手工方法(20世紀初):手工繪制關鍵幀,逐幀分析運動光影法(20世紀初至40年代):跟蹤標記或光源,記錄運動變化羅托斯科普攝影(1920s至1950s):透明分層動畫板捕捉動作電容式傳感器(1960s至1980s):檢測電容變化,轉換為數字數據機械式傳感器(1970s至199
61、0s):直接測量運動,傳輸數據到計算機慣性導航系統(1990s至今):加速度計和陀螺儀測量運動光學攝像頭和計算機視覺(2000s至今):多攝像頭系統捕捉關鍵點 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 22/35 機械設備機械設備/行業深度行業深度 動作捕捉系統由硬件和軟件兩大部分構成。動作捕捉系統由硬件和軟件兩大部分構成。硬件部分主要包括傳感器(如光學標記點、慣性傳感器等,用于捕捉運動物體的關鍵部位信息)、信號捕捉設備(如光學攝像機、電磁場接收器等,用于接收傳感器發出的信號)、數據傳輸設備(如無線模塊或有線電纜,負責將信號從捕捉設備傳輸到處理設備)以及數據處理設備(如計算機或
62、服務器,用于處理和分析數據)。軟件部分則包括系統設置模塊(用于配置硬件參數和初始化系統)、空間定位定標模塊(用于校準捕捉空間,確保數據準確性)、運動捕捉模塊(用于實時捕捉傳感器信號并轉換為運動數據)以及數據處理模塊(用于對捕捉到的數據進行濾波、平滑、插值等處理,生成連貫的三維運動軌跡和姿態數據)。整個系統通過硬件設備捕捉運動信號,再由軟件進行處理和分析,最終生成可用于動畫、分析等目的的三維運動數據。表表 3:動捕設備軟硬件架構:動捕設備軟硬件架構 類別 組成部分 功能描述 硬件部分 傳感器 捕捉運動物體的關鍵部位信息,如位置、速度、角度等。光學傳感器 使用反光標記點,通過攝像機捕捉反射光來確定
63、位置。慣性傳感器 包含陀螺儀、加速度計和磁力計,測量加速度和角速度。電磁傳感器 通過電磁場變化檢測物體的位置和方向。機械傳感器 通過機械裝置(如關節和連桿)測量運動角度。信號捕捉設備 捕捉傳感器發出的信號。光學攝像機 捕捉光學標記點的反射光。數據手套 捕捉手部動作,適用于精細動作捕捉。電磁接收器 捕捉電磁信號,用于電磁式動作捕捉系統。數據傳輸設備 將捕捉到的信號傳輸到數據處理設備。無線傳輸模塊 使用 2.4G、WIFI 等無線方式傳輸數據。有線傳輸線纜 使用 USB、以太網線等有線方式傳輸數據。數據處理設備 處理和分析捕捉到的數據,生成三維運動數據。計算機或服務器 配備高性能處理器和顯卡,用于
64、數據處理和分析。軟件部分 系統設置模塊 配置硬件設備的參數,如傳感器校準、攝像機參數設置等??臻g定位定標模塊 校準捕捉空間,確定傳感器的初始位置,確保數據準確性。運動捕捉模塊 實時捕捉傳感器信號,并將其轉換為運動數據。數據處理模塊 對捕捉到的運動數據進行濾波、平滑、插值等處理,生成連貫的三維運動軌跡和姿態數據。濾波、平滑、插值處理 清除噪聲,使數據更加平滑和連貫。生成三維運動數據 輸出可用于動畫制作的三維骨骼動作數據。數據來源:凌云光官網、東北證券 動作捕捉系統種類較多,一般地按照技術原理可分為:機械式、聲學式、電磁式、動作捕捉系統種類較多,一般地按照技術原理可分為:機械式、聲學式、電磁式、慣
65、性傳感器式、光學式等五大類,其中光學式根據目標特征類型不同又可分為標記慣性傳感器式、光學式等五大類,其中光學式根據目標特征類型不同又可分為標記點式光學和無標記點式光學兩類。點式光學和無標記點式光學兩類。機械式動作捕捉系統是一種通過機械裝置來跟蹤和測量運動軌跡的技術。機械式動作捕捉系統是一種通過機械裝置來跟蹤和測量運動軌跡的技術。它由多個關節和剛性連桿組成,關節處裝有角度傳感器,能夠測量關節的轉動角度。通過角度傳感器測得的角度變化和連桿的長度,系統可以計算出桿件末端點在空間中的位置和運動軌跡。這種系統的優點包括成本低、精度高、采樣頻率高,并且能夠實時測量,還可以容許多個角色同時表演。然而,其最大
66、的缺點是動作表演不方便,連 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 23/35 機械設備機械設備/行業深度行業深度 桿式結構和傳感器線纜對表演者的動作約束和限制很大,特別是連貫的運動受到阻礙,難以實現真實的動態還原。圖圖 24:機械式動作捕捉系統機械式動作捕捉系統 數據來源:傳感器技術、東北證券 聲學式動作捕捉系統是一種基于聲波傳播原理的動作捕捉技術,主要由超聲波發生聲學式動作捕捉系統是一種基于聲波傳播原理的動作捕捉技術,主要由超聲波發生器(發送裝置)、多個超聲探頭組成的接收系統以及數據處理系統構成。器(發送裝置)、多個超聲探頭組成的接收系統以及數據處理系統構成。其工作原理是
67、通過測量聲波從發送裝置到接收探頭的時間差或相位差,計算出發送裝置到接收器的距離,再利用三角測量法解算出發送裝置的位置和方向。聲學式動作捕捉系統的最大優勢是成本低,適合預算有限的應用場景。但該系統精度較差,實時性不高,容易受到環境噪聲、多次反射等因素的干擾。圖圖 25:聲學式動作捕捉系統聲學式動作捕捉系統 數據來源:傳感器技術、東北證券 電磁式動作捕捉系統是一種通過電磁場來捕捉運動軌跡的技術,主要由電磁發生器、電磁式動作捕捉系統是一種通過電磁場來捕捉運動軌跡的技術,主要由電磁發生器、接收傳感器和數據處理單元組成。接收傳感器和數據處理單元組成。工作時,電磁發生器在空間產生按一定規律分布的電磁場,接
68、收傳感器安裝在表演者身體的關鍵部位,隨著表演者的動作在電磁場中移動,并將接收到的信號傳輸給數據處理單元,系統據此解算出每個傳感器的空間位置和方向。該系統的優勢在于能夠記錄六維信息(空間位置和方向),實時性好,便于排演和調整。它技術成熟,魯棒性好,成本相對較低。然而,電磁式動作捕捉 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 24/35 機械設備機械設備/行業深度行業深度 系統也存在明顯缺點:對環境要求嚴格,附近不能有金屬物體,否則會干擾電磁場,影響捕捉精度。此外,系統的采樣率一般較低(每秒 15120 次),難以滿足高速運動捕捉的需求。線纜連接的傳感器還會限制表演者的動作,不利于
69、復雜或劇烈運動的捕捉。圖圖 26:電磁式動作捕捉系統電磁式動作捕捉系統 數據來源:傳感器技術、東北證券 慣性傳感器式動作捕捉系統由姿態傳感器、信號接收器和數據處理系統組成。慣性傳感器式動作捕捉系統由姿態傳感器、信號接收器和數據處理系統組成。姿態傳感器通常固定于人體各主要肢體部位,通過藍牙等無線傳輸方式將姿態信號傳送至數據處理系統進行運動解算。姿態傳感器集成了慣性傳感器、重力傳感器、磁感應計等元素,能夠獲取各部分肢體的姿態信息,并結合骨骼的長度信息和骨骼層級連接關系,計算出關節點的空間位置。該系統的主要優點是便攜性強、操作簡單,表演空間幾乎不受限制,便于進行戶外使用。然而,由于技術原理的局限,其
70、缺點也比較明顯:一方面,傳感器本身不能進行空間絕對定位,通過各部分肢體姿態信息進行積分運算得到的空間位置信息會造成不同程度的積分漂移,導致空間定位不夠準確;另一方面,該原理基于單腳支撐和地面約束假設,系統無法進行雙腳離地的運動定位解算。此外,傳感器的自身重量以及線纜連接會對動作表演形成一定的約束,設備成本也會隨著捕捉對象數量的增加而顯著上升。部分傳感器還可能受到周圍環境中鐵磁體的影響,從而降低精度。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 25/35 機械設備機械設備/行業深度行業深度 圖圖 27:慣性傳感器式動作捕捉系統慣性傳感器式動作捕捉系統 數據來源:傳感器技術、東北證券
71、 光學式動作捕捉系統基于計算機視覺原理,通過多個高速相機從不同角度捕捉目標光學式動作捕捉系統基于計算機視覺原理,通過多個高速相機從不同角度捕捉目標特征點的運動軌跡,利用三角測量法確定目標在空間中的位置和運動軌跡。特征點的運動軌跡,利用三角測量法確定目標在空間中的位置和運動軌跡。該系統分為標記點式和無標記點式兩種:標記點式通過在物體或人體上粘貼反光或主動發光的標記點,捕捉高精度的運動數據,廣泛應用于影視、游戲和虛擬現實等領域;無標記點式則直接從圖像中提取特征點,無需標記點,更適用于日常場景和大眾市場,但精度和穩定性相對較低。光學動作捕捉系統因其高精度和高效率,在影視制作、游戲開發、運動科學和醫療
72、康復等多個領域都有廣泛應用。圖圖 28:光學式動作捕捉系統光學式動作捕捉系統 數據來源:傳感器技術、東北證券 3.2.人形機器人運用 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 26/35 機械設備機械設備/行業深度行業深度 在具身智能機器人領域,構建高質量的訓練數據集是提升機器人性能的關鍵。在具身智能機器人領域,構建高質量的訓練數據集是提升機器人性能的關鍵。目前,通過采集海量的真實行為數據,并對其進行標注,構建通用的數據集已成為行業共識。這種方法能夠為機器人的訓練提供有力支持,進一步提升其性能和泛化能力。從實踐來看,規?;a數據集的路徑具有非常明確的預期收益,能夠顯著提升機器
73、人的學習效率和任務執行能力。圖圖 29:訓練數據集為動捕系統的重要運用訓練數據集為動捕系統的重要運用 數據來源:諾亦騰官網、東北證券 現實廠商通常會選擇基于真實本體現實廠商通常會選擇基于真實本體、基于虛體本體進行數據集生產。、基于虛體本體進行數據集生產。在具身智能機器人領域,數據集的生產主要有四種流派:基于真實本體的數據集生產、基于虛擬本體的數據集生產、基于人體運動數據的數據集生產以及合成數據的生成,事實上現實廠商通常會選擇前面兩種方法。圖圖 30:諾亦騰數據集采方案諾亦騰數據集采方案 數據來源:諾亦騰官網、東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 27/35 機械設
74、備機械設備/行業深度行業深度 基于真實本體的數據集生產基于真實本體的數據集生產:這種方式通過讓真人穿戴動作捕捉設備,遙操作真實機器人完成任務,同時采集機器人的視覺、運控和傳感信息。例如,Tesla 采用的就是這種方法,其數據質量最高,但成本也最為高昂。這種方法能夠最大程度地反映真實世界的物理特性,適合對數據質量要求極高的場景。圖圖 31:特斯拉利用動捕系統幫助訓練人形機器人:特斯拉利用動捕系統幫助訓練人形機器人 數據來源:特斯拉 X 平臺、東北證券 基于虛擬本體的數據集生產基于虛擬本體的數據集生產:通過讓真人穿戴動作捕捉設備,遙操作虛擬環境中的機器人完成任務,同時采集虛擬合成的視覺、運控和觸覺
75、信息。這種方法的數據質量也很高,但存在虛擬環境與真實環境之間的互通性問題(Domain Gap)。Nvidia 等廠商正在力推這種方法,Nvidia Isaac Sim 平臺提供了高度逼真的物理環境,支持開發者在虛擬環境中加速機器人算法的開發和測試。圖圖 32:智元利用動捕系統訓練:智元利用動捕系統訓練遠征遠征 A2 機器人虛擬本體機器人虛擬本體 數據來源:諾亦騰官網、東北證券 在具身智能機器人的遙操作在具身智能機器人的遙操作數據采集過程中,數據的連續性和魯棒性往往比數據精數據采集過程中,數據的連續性和魯棒性往往比數據精度更為重要。度更為重要。由于本體映射過程中存在損耗,實際末端的精度通常無法
76、達到亞毫米 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 28/35 機械設備機械設備/行業深度行業深度 級別。然而,由于“人在流程中”(Human-in-the-loop),遙操作任務的最終達成和末端交互精度主要由操作人員來保障,因此厘米級別的精度就足以滿足具身智能遙操作數據采集的需求。如果盲目追求高精度而忽略了數據的連續性,可能會導致后期數據清理成本極高,甚至遠超數據采集過程中所有設備與人員的成本攤銷。圖圖 33:諾亦騰動作捕捉應用于各類機器人諾亦騰動作捕捉應用于各類機器人虛擬遙操作虛擬遙操作 數據來源:諾亦騰官網、東北證券 4.相關相關標的標的 4.1.凌云光 公司是可配置視
77、覺系統、智能視覺裝備與核心視覺器件的專業供應商,是我國較早公司是可配置視覺系統、智能視覺裝備與核心視覺器件的專業供應商,是我國較早進入機器視覺領域的企業之一。進入機器視覺領域的企業之一。公司構建了完備的核心技術體系,長期深耕先進成像、圖像處理算法、機器視覺軟件、精密機械與自動化控制等關鍵技術平臺的研發,并面向未來智能工廠布局了以深度學習為核心的生產品質管理大數據分析平臺?;谏鲜黾夹g平臺,公司自主研發了智能相機、特色相機、特種相機、專用光源、核心算法庫、智能軟件包等核心部件和模塊,以及可配置視覺系統和大型智能設備。公司自主開發了系列化面陣相機、線掃描相機,并通過投資長光辰芯,戰略布局國內高端
78、CMOS 成像芯片,在消費電子、印刷包裝、新型顯示等工業領域具備自主相機、光學成像系統、成套光學檢測裝備自主研發能力。在前沿技術方面,公司以打造領先的工業人工智能技術為目標成立“知識理性研究院”,進一步構建圖像算法與軟件平臺。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 29/35 機械設備機械設備/行業深度行業深度 圖圖 34:2019-2024Q3 公司營收情況(億元)公司營收情況(億元)圖圖 35:2019-2024Q3 公司公司歸母凈利潤歸母凈利潤情況情況(億元)(億元)數據來源:Wind、東北證券 數據來源:Wind、東北證券 圖圖 36:公司毛利率:公司毛利率&凈利率凈
79、利率情況情況 圖圖 37:公司費用率:公司費用率情況情況 數據來源:Wind、東北證券 數據來源:Wind、東北證券 FZMotion 光學運動捕捉系統是由凌云光自主開發的高精度運動捕捉解決方案,具光學運動捕捉系統是由凌云光自主開發的高精度運動捕捉解決方案,具備實時跟蹤測量并記錄三維空間內點的軌跡、剛體的運動姿態以及人體動作的功能。備實時跟蹤測量并記錄三維空間內點的軌跡、剛體的運動姿態以及人體動作的功能。該系統主要由 Swift 系列光學運動捕捉相機和智能分析軟件構成,其中 Swift 系列相機具有多種型號,能夠滿足大視野、高速、高精度場景的拍攝需求,幀速率最高可達 500FPS,追蹤范圍可達
80、 10m30m。系統支持多種數據傳輸協議和軟件接口,具備強大的抗遮擋能力和數據自動修復功能。FZMotion 廣泛應用于影視動畫、游戲娛樂、虛擬現實、工業仿真、醫療康復、科研教育等多個領域,憑借其高精度、高幀率、低延遲等特點,已成為行業頭部客戶的信賴選擇,并為具身智能領域的研發與訓練提供了強大的技術支持。-100.00%-80.00%-60.00%-40.00%-20.00%0.00%20.00%40.00%60.00%0.005.0010.0015.0020.0025.0030.00營業收入yoy(右軸)-150.00%-100.00%-50.00%0.00%50.00%100.00%150
81、.00%200.00%250.00%300.00%0.000.501.001.502.00歸母凈利潤yoy(右軸)0.00%5.00%10.00%15.00%20.00%25.00%30.00%35.00%凈利率毛利率-0.0500.050.10.150.220192020202120222023 2024Q3銷售費用率管理費用率研發費用率財務費用率 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 30/35 機械設備機械設備/行業深度行業深度 圖圖 38:凌云光動作捕捉產品:凌云光動作捕捉產品 數據來源:凌云光官網、東北證券 4.2.奧飛娛樂 公司成立于公司成立于 1993 年,是
82、國內第一家動漫上市公司,經過三十年的發展,公司已成年,是國內第一家動漫上市公司,經過三十年的發展,公司已成為中國極具實力和發展潛力的動漫文創產業集團。為中國極具實力和發展潛力的動漫文創產業集團。公司始終致力于打造以 IP 為核心的動漫文化產業生態,依托 IP+全產業鏈運營優勢,打造集動畫、玩具、嬰童、授權、潮玩、實景娛樂等業務為一體的運營平臺。旗下擁有多項優質動漫 IP,如“喜羊羊與灰太狼”“超級飛俠”“萌雞小隊”“貝肯熊”“巴啦啦小魔仙”“鎧甲勇士”“巨神戰擊隊”等。作為最早探索動漫文化與產業雙通道反哺模式的公司,公司旗下也擁有多個知名的文創消費品牌,包括玩具品牌“奧迪雙鉆”、母嬰品牌“澳貝
83、”、北美一線嬰童品牌“babytrend”、室內主題樂園品牌“奧飛歡樂世界”、潮玩品牌“玩點無限”等,秉持“讓快樂與夢想無處不在”的企業使命,努力朝著“成為陪伴全球用戶成長的文創產業集團”的愿景前進。圖圖 39:2019-2024Q3 公司營收情況(億元)公司營收情況(億元)圖圖 40:2019-2024Q3 公司公司歸母凈利潤歸母凈利潤情況情況(億元)(億元)數據來源:Wind、東北證券 數據來源:Wind、東北證券 -100.00%-80.00%-60.00%-40.00%-20.00%0.00%20.00%0.005.0010.0015.0020.0025.0030.00營業收入yoy(
84、右軸)-500.00%-400.00%-300.00%-200.00%-100.00%0.00%-5.00-4.00-3.00-2.00-1.000.001.002.00歸母凈利潤yoy(右軸)請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 31/35 機械設備機械設備/行業深度行業深度 圖圖 41:公司毛利率:公司毛利率&凈利率情況凈利率情況 圖圖 42:公司費用率情況:公司費用率情況 奧飛娛樂在動作捕捉領域的布局主要聚焦于對諾亦騰的投資。奧飛娛樂在動作捕捉領域的布局主要聚焦于對諾亦騰的投資。諾亦騰的動作捕捉業務專注于提供從技術研發到產品應用的全鏈條解決方案,其核心技術基于 MEM
85、S 慣性傳感器,開發了包括 Perception Neuron 系列、Hi5 2.0 VR 交互手套、VTS 虛擬直播套裝和 VPS 虛擬制作解決方案等在內的多種高精度、低延遲的動作捕捉產品。這些產品廣泛應用于影視游戲開發、文化娛樂、體育健康、醫療康復、工業仿真、虛擬現實等領域。此外,諾亦騰還與 NVIDIA Isaac 合作,推動動作捕捉技術在機器人領域的應用,并為智元機器人、千尋智能等企業提供技術支持,助力人形機器人的遙操作控制和數據采集。圖圖 43:諾亦騰動作捕捉產品方案:諾亦騰動作捕捉產品方案 數據來源:諾亦騰官網、東北證券 -30.00%-20.00%-10.00%0.00%10.0
86、0%20.00%30.00%40.00%50.00%凈利率毛利率00.050.10.150.2201920202021202220232024Q3銷售費用率管理費用率研發費用率財務費用率 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 32/35 機械設備機械設備/行業深度行業深度 4.3.利亞德 公司是全球視聽科技產品及其應用平臺的領軍企業,是一家專業從事公司是全球視聽科技產品及其應用平臺的領軍企業,是一家專業從事 LED 應用產應用產品研發、設計、生產、銷售和服務的高新技術企業,致力于為客戶提供高效、節能、品研發、設計、生產、銷售和服務的高新技術企業,致力于為客戶提供高效、節能、
87、可靠的可靠的 LED 應用產品及其整體解決方案。應用產品及其整體解決方案。公司在全國各地承建了數千個項目,安裝了數十萬塊顯示屏,逐步成為 LED 視頻及信息發布顯示屏領域的引領者。公司部分產品獲得美國 FCC 認證、UL 認證、ETL 認證及歐盟 CE 認證。公司參與多項鐵路客運引導系統國家標準的起草工作,并獲得了多項產品專利。公司擁有計算機系統集成資質、城市及道路照明工程專業承包資質、鋼結構工程專業承包資質和電子工程專業承包資質。公司始終以技術研發為根、產品創新為本,業務布局覆蓋智能顯示、景觀亮化、文旅新業態及虛擬現實四大領域。先后被授予:國家技術創新示范企業,中國電子信息百強企業、國家文化
88、科技融合示范企業、北京信息產業十強等多重榮譽。圖圖 44:2019-2024Q3 公司營收情況(億元)公司營收情況(億元)圖圖 45:2019-2024Q3 公司公司歸母凈利潤歸母凈利潤情況情況(億元)(億元)數據來源:Wind、東北證券 數據來源:Wind、東北證券 圖圖 46:公司毛利率:公司毛利率&凈利率情況凈利率情況 圖圖 47:公司費用率情況:公司費用率情況 利亞德在動作捕捉領域的布局主要圍繞其子公司虛擬動點和利亞德在動作捕捉領域的布局主要圍繞其子公司虛擬動點和 NaturalPoint(NP)展)展開,形成了從技術研發到產品應用的完整體系。開,形成了從技術研發到產品應用的完整體系。
89、其核心技術為 OptiTrack 光學動作捕捉技術,廣泛應用于影視、游戲、教育、體育、工業制造等多個領域。例如,利亞德為黑神話:悟空 銀河護衛隊 三體等影視作品和游戲提供了動作捕捉技術支持。此外,利亞德還推出了無標記點動作捕捉解決方案,分為消費級和專業級兩種產品,適用于不同場景。在人形機器人領域,利亞德通過動作捕捉技術為機-50.00%-40.00%-30.00%-20.00%-10.00%0.00%10.00%20.00%30.00%40.00%0.0020.0040.0060.0080.00100.00營業收入yoy(右軸)-300.00%-250.00%-200.00%-150.00%-
90、100.00%-50.00%0.00%50.00%-15.00-10.00-5.000.005.0010.00歸母凈利潤yoy(右軸)-20.00%-10.00%0.00%10.00%20.00%30.00%40.00%凈利率毛利率00.050.10.150.2201920202021202220232024Q3銷售費用率管理費用率研發費用率財務費用率 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 33/35 機械設備機械設備/行業深度行業深度 器人提供感知和動作控制能力,已與多家機器人研究企業達成合作。同時,利亞德也在關注 AI 與空間計算領域的發展,發布了動作大模型 Lydia
91、,進一步拓展了動作捕捉技術的應用范圍。圖圖 48 虛擬動點動作捕捉系統方案虛擬動點動作捕捉系統方案 數據來源:利亞德集團、東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 34/35 機械設備機械設備/行業深度行業深度 研究團隊簡介:研究團隊簡介:Table_Introduction 劉俊奇:上海交通大學動力工程碩士,曾任信達證券機械研究員,財通證券機械分析師,現任東北證券機械組組長。周興武:南京大學國際經濟與貿易本科,復旦大學金融碩士,2024 年加入東北證券,現任機械組研究助理。分析師聲明分析師聲明 作者具有中國證券業協會授予的證券投資咨詢執業資格,并在中國證券業協會注冊
92、登記為證券分析師。本報告遵循合規、客觀、專業、審慎的制作原則,所采用數據、資料的來源合法合規,文字闡述反映了作者的真實觀點,報告結論未受任何第三方的授意或影響,特此聲明。投資投資評級說明評級說明 股票 投資 評級 說明 買入 未來 6 個月內,股價漲幅超越市場基準 15%以上。投資評級中所涉及的市場基準:A 股市場以滬深 300 指數為市場基準,新三板市場以三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)為市場基準;香港市場以摩根士丹利中國指數為市場基準;美國市場以納斯達克綜合指數或標普 500指數為市場基準。增持 未來 6 個月內,股價漲幅超越市場基準 5%至 15%之間。中性
93、 未來 6 個月內,股價漲幅介于市場基準-5%至 5%之間。減持 未來 6 個月內,股價漲幅落后市場基準 5%至 15%之間。賣出 未來 6 個月內,股價漲幅落后市場基準 15%以上。行業 投資 評級 說明 優于大勢 未來 6 個月內,行業指數的收益超越市場基準。同步大勢 未來 6 個月內,行業指數的收益與市場基準持平。落后大勢 未來 6 個月內,行業指數的收益落后于市場基準。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 35/35 機械設備機械設備/行業深度行業深度 重要聲明重要聲明 本報告由東北證券股份有限公司(以下稱“本公司”)制作并僅向本公司客戶發布,本公司不會因任何機構或
94、個人接收到本報告而視其為本公司的當然客戶。本公司具有中國證監會核準的證券投資咨詢業務資格。本報告中的信息均來源于公開資料,本公司對這些信息的準確性和完整性不作任何保證。報告中的內容和意見僅反映本公司于發布本報告當日的判斷,不保證所包含的內容和意見不發生變化。本報告僅供參考,并不構成對所述證券買賣的出價或征價。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的證券買賣建議。本公司及其雇員不承諾投資者一定獲利,不與投資者分享投資收益,在任何情況下,我公司及其雇員對任何人使用本報告及其內容所引發的任何直接或間接損失概不負責。本公司或其關聯機構可能會持有本報告中涉及到的公司所發行的證券頭寸并
95、進行交易,并在法律許可的情況下不進行披露;可能為這些公司提供或爭取提供投資銀行業務、財務顧問等相關服務。本報告版權歸本公司所有。未經本公司書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用。如征得本公司同意進行引用、刊發的,須在本公司允許的范圍內使用,并注明本報告的發布人和發布日期,提示使用本報告的風險。若本公司客戶(以下稱“該客戶”)向第三方發送本報告,則由該客戶獨自為此發送行為負責。提醒通過此途徑獲得本報告的投資者注意,本公司不對通過此種途徑獲得本報告所引起的任何損失承擔任何責任。東北證券股份有限公司東北證券股份有限公司 地址地址 郵編郵編 中國吉林省長春市生態大街 6666 號 130119 中國北京市西城區錦什坊街 28 號恒奧中心 D 座 100033 中國上海市浦東新區楊高南路 799 號 200127 中國深圳市福田區福中三路 1006 號諾德中心 34D 518038 中國廣東省廣州市天河區冼村街道黃埔大道西 122 號之二星輝中心 15 樓 510630