《2025具身機器人行業未來展望報告-從具身智能大腦、大模型進展及對應技術分析(31頁).pdf》由會員分享,可在線閱讀,更多相關《2025具身機器人行業未來展望報告-從具身智能大腦、大模型進展及對應技術分析(31頁).pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、2 0 2 5 年深度行業分析研究報告目錄C O N T E N T S英偉達主導現有大腦方案010203大腦能力技術路線404L4及L5具身智能應用展望05從人腦看具身大腦國內外廠商大模型進展從人腦看具身大腦01Partone5人腦結構拆解016資料來源:浙商證券產業研究院了解機器人大腦之前我們不妨先了解一下我們人類的人腦。人腦由大腦、小腦、腦干以及間腦組成。其中大腦是人腦核心,其分為左右兩個大腦半球,二者由神經纖維構成的胼胝體相連。腦干又可分為中腦、腦橋及延髓三部分。部位位置功能大腦又稱為端腦,位于腦的最上部,占人腦總體積的約85%,分為左右兩個半球高級認知:負責思維、記憶、語言、決策、情
2、感燈復雜功能感覺與運動:處理視覺、聽覺、觸覺等信息、并控制自主運動小腦位于大腦后下方,緊貼腦干后方,形似蝴蝶。運動協調:調節肌肉張力、協調精細動作(如鞋子、彈琴)平衡與姿勢:幫助維持圣體平衡與空間定位學習輔助:參與運動技能學習腦干連接大腦與脊髓,由 中腦、橋腦、延髓 三部分組成。生命維持:控制呼吸、心跳、血壓燈基本生命活動信息中轉:船體大腦與脊髓之間的感覺和運動型號反射控制:管理咳嗽、吞咽、瞳孔反射燈原始反應間腦位于大腦半球深部,包裹在左右大腦半球之間。丘腦:感覺信息的中轉,將視覺、聽覺傳遞至大腦皮層下丘腦:調節體溫、饑渴、睡眠周期,并控制內分泌系統人腦結構與機器人大腦對應關系017資料來源:
3、浙商證券產業研究院依照低層次感知到高層次感知逐個來看,人腦的間腦與腦干在機器人中對應的主要是(1)各類傳感器及執行器自身部署的嵌入式驅動及算法。各類傳感器及執行器包括旋轉執行器、直線執行器、力傳感器、溫度傳感器、姿態傳感器等,此類部件一般內部配有MCU,其內部的嵌入式驅動及算法監控部件的各類狀態,保證機器人部件的基本運作能力。(2)傳遞信息的線束及網關,起到各個控制器,傳感器信息交互通聯的作用。部位在人體中功能在人形機器人中功能機器人對應硬件大腦高級認知:負責思維、記憶、語言、決策、情感燈復雜功能感覺與運動:處理視覺、聽覺、觸覺等信息、并控制自主運動語義理解、環境信息理解、動作決策等目前為機器
4、人中央控制器擔任此角色,但目前并未獲得相應能力。后續可能在此基礎上進一步增加硬件及算力小腦運動協調:調節肌肉張力、協調精細動作(如穿鞋子、彈琴等)平衡與姿勢:幫助維持身體平衡與空間定位學習輔助:參與運動技能學習動作學習模仿、復雜動作控制等機器人中央控制器,即現有的機器人“大腦”腦干生命維持:控制呼吸、心跳、血壓燈基本生命活動信息中轉:傳遞大腦與脊髓之間的感覺和運動信號反射控制:管理咳嗽、吞咽、瞳孔反射燈原始反應電源管理、通信網關控制、執行器控制器狀態管理等機器人各傳感器,執行器,線束,網關間腦丘腦:感覺信息的中轉,將視覺、聽覺傳遞至大腦皮層下丘腦:調節體溫、饑渴、睡眠周期,并控制內分泌系統電源
5、管理、通信網關控制、執行器控制器狀態管理等機器人各傳感器,執行器,線束,網關人腦結構與機器人大腦對應關系018資料來源:浙商證券產業研究院人腦的小腦在機器人中對應的主要是動作學習模仿訓練以及復雜動作的控制。而在機器人行業中,目前通常被稱為機器人“大腦”,這主要是因為相對于工業機器人,具有“大腦”的人形機器人對復雜運動的學習掌握能力明顯增強,比如近期宇樹、眾擎、波士頓動力等公司在視頻中展示的人形機器人執行舞蹈,空翻高難度動作。至于對應人腦中的大腦的角色的硬件,目前人形機器人廠商多用中央控制器擔任此角色,但對于高級認知,信息處理能力尚未建立。展望未來,機器人大小腦有望實現分離,大腦算力進一步加強,
6、小腦專注運動控制。部位在人體中功能在人形機器人中功能機器人對應硬件大腦高級認知:負責思維、記憶、語言、決策、情感燈復雜功能感覺與運動:處理視覺、聽覺、觸覺等信息、并控制自主運動語義理解、環境信息理解、動作決策等目前為機器人中央控制器擔任此角色,但目前并未獲得相應能力。后續可能在此基礎上進一步增加硬件及算力小腦運動協調:調節肌肉張力、協調精細動作(如穿鞋子、彈琴等)平衡與姿勢:幫助維持身體平衡與空間定位學習輔助:參與運動技能學習動作學習模仿、復雜動作控制等機器人中央控制器,即現有的機器人“大腦”腦干生命維持:控制呼吸、心跳、血壓燈基本生命活動信息中轉:傳遞大腦與脊髓之間的感覺和運動信號反射控制:
7、管理咳嗽、吞咽、瞳孔反射燈原始反應電源管理、通信網關控制、執行器控制器狀態管理等機器人各傳感器,執行器,線束,網關間腦丘腦:感覺信息的中轉,將視覺、聽覺傳遞至大腦皮層下丘腦:調節體溫、饑渴、睡眠周期,并控制內分泌系統電源管理、通信網關控制、執行器控制器狀態管理等機器人各傳感器,執行器,線束,網關英偉達主導現有大腦方案02Partone9國內廠家現有高低配方案0210資料來源:宇樹科技官網、眾擎科技官網、松延動力官網、浙商證券產業研究院根據宇樹、眾擎、松延動力等廠商官網說明,可以發現目前主流機器人廠商都會將算力模組分為高低兩個版本提供用戶,其中低配的基礎算力模組可以完成一些遙控的走路、跑步、跳躍
8、等基礎性動作,二次開發部署潛力較弱,起售價均在10萬元以內。宇樹、眾擎使用英特爾 Core i5及N97作為基礎算力模組CPU,其中i5為成熟民用CPU而N97為一款低功耗移動處理器,專為輕量級計算和嵌入式場景設計。如果極客開發者、院校培訓、創業者等需要對機器人進行二次開發,則需使用高算力模組的高配版本,整機價格可能會有數倍的價差。目前,絕大部分廠商的高算力模組主要還是基于英偉達Jetson Orin平臺進行開發。廠商宇樹宇樹宇樹眾擎松延動力型號GO2G1H1-2PM01/02N2外形基礎算力模組8核CPU8核CPU英特爾 Core i5英特爾 N97未知高算力模組英偉達Jetson Orin
9、 Nano/NX 英偉達Jetson Orin NX 英特爾 Core i7或英偉達Jetson Orin NX 英偉達Jetson Orin NX 英偉達Jetson Orin起售價(不含高算力模組)9997元9.9萬元起未知8.8萬元起3.99萬元起本報告來源于三個皮匠報告站(),由用戶Id:879635下載,文檔Id:653756,下載日期:2025-05-21英偉達邊緣計算平臺Jetson0211資料來源:英偉達官網、RoboticsTomorrow、浙商證券產業研究院英偉達 Jetson系列是專為機器人和嵌入式邊緣AI應用設計的計算平臺,由Jetson模組、JetPack SDK和生
10、態系統組成,加速軟件開發。Jetson系列的主要成員包括Jetson Nano、Jetson TX2和Jetson AGX Xavier,適用于不同的應用場景。Jetson Nano是最小的設備,配備了128核心GPU和四核ARM Cortex-A57 CPU。Jetson Xavier系列模組具有高達32 TOPS的AI性能,適用于自主機器的視覺測距、傳感器融合、定位和地圖構建等應用。2024年GTC大會上,英偉達還發布了一款基于 NVIDIA Thor 系統級芯片(SoC)的新型人形機器人計算機 Jetson Thor。Jetson Thor 是一個全新的計算平臺,能夠執行復雜的任務并安全
11、、自然地與人和機器交互,具有針對性能、功耗和尺寸優化的模塊化架構。該 SoC 包括一個帶有 transformer engine 的下一代 GPU,其采用 NVIDIA Blackwell 架構,可提供每秒 800 萬億次8位浮點運算 AI 性能,以運行 GR00T 等多模態生成式 AI 模型。憑借集成的功能安全處理器、高性能 CPU 集群和 100GB 以太網帶寬,大大簡化了設計和集成工作。Jetson Thor波士頓動力 Atlas使用Jetson Thor大腦能力技術路線03Partone12算法方案技術路線0313資料來源:量子位智庫、浙商證券產業研究院具身智能的算法方案分為分層決策模
12、型和端到端模型兩種路線。分層決策模型端到端模型以Figure 01為代表,將任務分解成不同層級,以多個神經網絡訓練,再以流程管線的方式組合。Figure 01頂層接入OpenAI的多模態大模型,提供視覺推理和語言理解;中間層神經網絡策略作為小腦進行運動控制并生成動作指令;底層機器人本體接受神經網絡策略的動作指令,進行控制執行。分層決策模型的缺點是:不同步驟間的對齊和一致性需解決。以Google RT-2為代表,通過一個神經網絡完成從任務目標輸入到行為指令輸出的全過程。首先在大規?;ヂ摼W數據預訓練視覺語言模型,然后在機器人任務上微調,結合機器人動作數據,推出視覺語言動作模型。RT-2不僅負責最上
13、層的感知與規劃,還參與中下層的控制與執行,打通了端到端的鏈路。端到端模型的缺點是:訓練數據海量、消耗資源巨大、機器人執行實時性差。訓練方案技術路線0314資料來源:量子位智庫、浙商證券產業研究院具身智能的訓練方法可分為模仿學習和強化學習兩種路線。模仿學習強化學習模仿學習智能體通過觀察和模仿專家(經驗豐富的人類操作者或具有高級性能的系統)的行為來學習任務。優勢:可以快速學習專家策略,無需復雜的探索過程劣勢:學習到的行為策略受限于專家數據,對于未見過的情況泛化能力較差強化學習智能體通過與環境的交互來學習最佳行為策略,以最大化某種累積獎勵。優勢:能夠通過探索環境學習未知的策略;可以處理高度不確定和動
14、態變化的環境劣勢:需要大量的探索和試錯,學習過程緩慢;對于復雜任務,設計合適的獎勵函數難度較高數據采集技術路線0315資料來源:量子位智庫、浙商證券產業研究院具身智能的數據采集可分為基于仿真環境數據和基于真是世界數據兩種路線?;诜抡姝h境的數據采集(Sim2Real)基于真實世界的數據采集Sim2Real(Simulation to Reality)在仿真環境中學習技能和策略,并遷移到現實世界中。優勢:數據可大規模獲取,成本低劣勢:對仿真器要求高,仿真環境與真實世界存在差異;遷移過程中存在性能下降基于真實世界數據采集直接從現實世界數據中學習,包括本體采集、遙操作、動態捕捉、視頻學習等方式。優勢
15、:數據更真實可靠劣勢:數據少、泛化性差;通過機器本體和人采集,成本高、難度大、效率低國內外廠商大模型進展04Partone16銀河通用抓取基礎大模型 GraspVLA0417資料來源:銀河通用公眾號,浙商證券產業研究院2025年1月,銀河通用發布抓取基礎大模型GraspVLA。GraspLVA的訓練包括預訓練及后訓練。其中預訓練完全基于合成大數據,訓練數據達到了有史以來最大的數據體量十億幀視覺-語言-動作對,掌握泛化閉環抓取能力、達成基礎模型;預訓練后,模型可直接Sim2Real 在未見過的、千變萬化的真實場景和物體上零樣本測試,全球首次全面展現了七大卓越的泛化能力,滿足大多數產品的需求;而針
16、對特別需求,后訓練僅需小樣本學習即可遷移基礎能力到特定場景,維持高泛化性的同時形成符合產品需求的專業技能。Figure AI 人形機器人VLA通用大模型0418資料來源:銀河通用官網,浙商證券產業研究院2025年2月,Figure AI發布了人形機器人VLA通用大模型。為了解決視覺語言模型“通用、但不快速”,和機器人視覺運動策略“快速、但不通用”的矛盾,Figure通過建立一套互補的系統進行權衡。兩套系統通過端到端訓練以進行通信。其中,系統2是開源、開放權重的70億參數量端側互聯網預訓練視覺語言模型,用于理解場景和自然語言;系統1是一個8000萬參數量的快速反應視覺運動策略,將系統2理解的語義
17、轉化為每秒200次的精確連續機器人動作。智元通用具身基座大模型GO-10419資料來源:智元機器人官網,浙商證券產業研究院3月10日,智元發布首個通用具身基座模型智元啟元大模型(Genie Operator-1),提出了Vision-Language-Latent-Action(ViLLA)架構,該架構由VLM+MoE組成,其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力,三者環環相扣,
18、實現了可以利用人類視頻學習,完成小樣本快速泛化,降低了具身智能門檻,持續進化,將具身智能推上了一個新臺階。ViLLA通過預測Latent Action Tokens,彌合圖像-文本與機器人執行動作之間的鴻溝智元通用具身基座大模型GO-10420資料來源:智元機器人官網,浙商證券產業研究院Latent Planer 隱式規劃器目前全球機器人高質量帶動作標簽的真機數據量仍然有限,遠少于互聯網規模的數據集。智元采用Latent Actions(隱式動作)來建模當前幀和歷史幀之間的隱式變化,然后通過Latent Planner,預測這些Latent Actions,從而將異構數據源中真實世界的動作知識
19、轉移到通用操作任務中。采用Diffusion Model作為目標函數來建模低層級動作的連續分布。Action Expert結構設計上與Latent Planner類似,也是與VLM主干網絡共享相同的Transformer結構,但使用兩套獨立的FFN和Q/K/V/O投影矩陣,它通過DenoisingProcess(去噪過程)逐步回歸動作序列。Action Expert 動作專家通過ViLLA創新性架構,在五種不同復雜度任務上測試 GO-1,相比已有的最優模型,GO-1成功率大幅領先,平均成功率提高了32%(46%-78%)。其中“Pour Water”(倒水)、“Table Bussing”(清
20、理桌面)和“RestockBeverage”(補充飲料)任務表現尤為突出。此外智元還單獨驗證了ViLLA架構中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%-78%)。英偉達通用機器人大模型 GR00T N10421資料來源:英偉達官網、CSDN,浙商證券產業研究院2025年英偉達GTC大會上,英偉達發布了通用機器人基座大模型GR00T N1。GR00T N1 靈感來自于人類認知處理,是一個具有雙系統架構的視覺-語言-動作(VLA)模型。視覺-語言模塊(系統 2)通過視覺和語言指令來理解環境。隨后的擴散轉換器模塊(系統 1)實時生成流
21、暢的運動動作。這兩個模塊緊密耦合,并進行端到端聯合訓練。英偉達使用真實機器人軌跡、人類視頻和合成生成的數據集的異構混合物來訓練 GR00T N1,解決了具身智能所面臨的數據稀缺和多樣性不足的問題,從而提升機器人在復雜環境中的操作能力。英偉達表示,GR00T N1 在多個機器人實施例的標準模擬基準上優于最先進的模仿學習基線。System1是一個擴散轉換器(DiT)作為動作模塊。它交叉關注 VLM 輸出的Token,并采用特定于實施例的編碼器和解碼器來處理可變狀態和動作維度以產生運動。它以更高的頻率(120Hz)產生閉環電機動作。System 2是一個預先訓練的視覺語言模型(VLM),它處理機器人
22、的視覺感知和語言指令,以解釋環境并實現任務目標,它可以在英偉達 L40 GPU 上以 10Hz 運行。英偉達通用機器人大模型 GR00T N10422資料來源:英偉達官網、CSDN,浙商證券產業研究院VLM模塊主要功能是從圖像和文本指令中提取特征,并為后續的動作生成提供上下文信息。GR00T N1使用Eagle-2 VLM作為其基礎,該模型在大規?;ヂ摼W數據上進行了預訓練。輸入處理:VLM模塊接受圖像觀測和文本指令作為輸入。圖像被編碼為224224的分辨率,經過像素重排后生成64個圖像token嵌入。這些嵌入與文本嵌入結合,形成一個豐富的多模態表示。特征提?。和ㄟ^對圖像和文本的共同編碼,模型能
23、夠提取出具有高度相關性的特征。在策略訓練過程中,任務的文本描述和可能的多張圖像會以對話格式傳遞給VLM,從而獲得形狀為(批量大小 序列長度 隱藏維度)的多模態特征。英偉達通用機器人大模型 GR00T N10423資料來源:英偉達官網、CSDN,浙商證券產業研究院DiT模塊負責處理機器人的狀態和動作生成。它采用了一種變體的擴散變換器,結合了去噪步驟的自適應層歸一化。狀態和動作編碼器:針對不同機器人構型的狀態和動作,GR00T N1為每種構型使用一個多層感知機(MLP)進行投影,確保所有輸入映射到一個共享的嵌入空間。流匹配機制:GR00T N1使用流匹配(Flow-Matching)技術,通過迭代
24、去噪來生成動作。該模型接收噪聲動作、機器人的狀態編碼、圖像token和文本token作為輸入。交叉注意力和自注意力:在DiT中,自注意力模塊處理噪聲動作token嵌入和狀態嵌入,而交叉注意力模塊則允許模型根據VLM輸出的視覺-語言token嵌入進行條件化。這樣的設計使得模型能夠充分利用視覺和語言的信息來指導動作生成。動作解碼器:在最后的DiT模塊之后,使用一個特定于構型的動作解碼器(另一個MLP)。英偉達通用機器人大模型 GR00T N10424資料來源:英偉達官網、CSDN,浙商證券產業研究院與自動駕駛的訓練獲取較為簡單相比,通用機器人模型數據規模少且存在“數據孤島”問題,因此無法建立互聯網
25、級統一數據集。對此,英偉達將視覺語言動作(VLA)訓練語料庫構建成一個數據金字塔,整合異構數據源,構建覆蓋不同抽象層次的訓練數據體系。這個數據金字塔共分為三層:(1)大量網絡數據和人類視頻構成金字塔的底層;(2)通過物理模擬生成和/或借助現成神經模型增強得到的合成數據形成中間層;(3)在實體機器人硬件上收集的真實世界數據則構成頂層。金字塔的底層提供廣泛的視覺和行為先驗知識,而頂層確保模型能在實體機器人執行任務時落地應用。底層:來自互聯網及人類活動的視頻。其特點是數量多成本低。特點是通過大規?;ヂ摼W數據對視覺語言模型進行預訓練,提供了豐富的語義信息。中層:來自視頻生成及基于物理模擬器生成的軌跡數
26、據及機器人操作軌跡數據。其特點是數據量中等,成本低。如使用多模態LLM對視頻進行過濾,并重新標注。最終生成視頻數據相當于原始數據的約10倍。頂層:來自各種構型的機器人在真實環境中的操作數據,數據收集成本高,但對于模型的準確性至關重要。特點是此層用于確保模型在真實環境下的執行能力。L4及L5具身智能應用展望05e25具身機器人智能化分級及能力展望0526資料來源:小鵬汽車官網,浙商證券產業研究院今年兩會上,小鵬汽車董事長、CEO何小鵬認為機器人可分為五個智能等級:L1級(完全由人控制)、L2級(基礎輔助智能)、L3級(具身智能和訓練監督)、L4級(自成長智能)和L5級(完全自主智能)。當前,人形
27、機器人產業正朝著L3級邁進,這一階段的機器人能夠在大量場景中獨立運行,但在復雜情況下仍需人工監督。何小鵬預計,到2026年,具備L3初階能力的人形機器人將進入適度規模的商業化量產階段。結合何小鵬對于機器人分級以及我們對于機器人能力程度的拆解,我們將具身機器人分級進一步細化。L1L2L3L4L5等級分類完全由人控制基礎輔助智能具身智能和訓練監督自成長智能完全自主智能代表產品傳統機械產品工業機器人、AGV、掃地機器人現有人形機器人尚未出現尚未出現擁有的能力被人類完全操控的能力基于人類制定規則進行執行的能力,需要人類監督基于人類指定的規則及訓練的成果進行一定的自主運行的能力,復雜情況下仍需人工監督基
28、于人類指定的規則及訓練的成果進行一定的自主運行的能力,少量人工監督,具有自成長能力無需人類監督,能夠在人類規則下自主智能化運行,并且具有自成長能力,具有情感化交流能力對于大腦能力的需求解析指令,執行指令感知環境,解析規則,自動化執行多模態感知理解,解析規則,自動化解析執行復雜的運動多模態感知理解,解析規則,自動化解析執行復雜的運動,自主迭代優化能力多模態感知理解及執行,自主迭代,情感化交流能力,成為機器與AI Agent的結合體信息/指令獲取端口遙控器,控制器遙控器,指令集,攝像頭、雷達等傳感器遙控器,指令集,文本,攝像頭,雷達,麥克風等各類傳感器遙控器,指令集,文本,攝像頭,雷達,麥克風等各
29、類傳感器遙控器,指令集,文本,攝像頭,雷達,麥克風等各類傳感器應用場景工業制造、科研機構工業制造、家庭清掃、特種應用工業制造、科研機構、特種應用工業制造、科研機構、公共服務、特種應用工業制造、科研機構、公共服務、特種應用、大眾生活對L4及L5級具身機器人的判斷及市場展望0527資料來源:浙商證券產業研究院L4級具身智能機器人-理解世界做任務與人類關系:硅基傭人或硅基工人應用場景:B端為主,少量C端。主要為工業制造,商業服務等。如餐廳務員,清潔工,制造車間工人等智能化能力:在工商業特定活動范圍內獨立自主完成工作,具有一定的特定場景下的泛化學習能力行動能力:運行環境封閉固定,輪式或者輪足式為主,達
30、到安靜穩定與運行效率的平衡主要廠商:現有機器人本體廠商為主,互聯網大廠為輔應用落地時間:未來3-5年內落地,并在相當一段長時間內占據具身智能主流L5級具身智能機器人-理解人性做伴侶與人類關系:硅基家人,人類理想中的人形機器人應用場景:C端為主,B端為輔。主要為家用機器人,在家庭內擔任家務助理及個人事務助理智能化能力:在家庭內高度復雜場景完成自主工作,并熟悉理解家庭成員個人信息,成為家庭實體AI Agent行動能力:輪式及足式各一半,如無需外出,輪式即可主要廠商:互聯網大廠依靠數據優勢介入C端市場,本體廠商或接入互聯網大廠能力或為互聯網大廠代工應用落地時間:未來5-10年內落地L4級具身智能預計
31、3-5年內落地,場景還是以B端為主,主要玩家為本體廠商。隨著L5級具身的到來,C端應用落地。機器人核心能力將從理解世界做任務向理解人性作伴侶轉變,互聯網大廠依靠獨特數據優勢將在L5級具身智能競賽中取得更多優勢。L4級輪式具身機器人產品梳理0528資料來源:各公司官網、浙商證券產業研究院公司星塵智能銀河通用普渡科技星海圖型號S1G1閃電匣 ArmR1外形官方定位全能型AI機器人可泛化操作的具身大模型機器人類人形服務機器人全尺寸雙臂仿生人形機器人性能參數身高:170cm體重:80kg臂展:194cm續航:46小時單臂負載:5kg單臂自由度:7身高:173cm體重:85kg臂展:190cm續航:10
32、小時單臂負載:5kg垂向作業空間:0-2.4m身高:144cm臂展:160cm顯示屏幕:10.1寸觸屏續航:8h(空載)艙體載重:15kg單臂自由度:7建圖方式:VSLAM+激光SLAM身高:170cm單臂負載:3.5kg單臂自由度:6垂向作業空間:0-2m傳感器:7*相機+1激光雷達產品特點豐富工具鏈,可視化開發界面,自主仿真平臺支持支持VR遙操控,高效數據采集,多模態融合,真實環境感知教育科研、工業物流、家庭康養、零售藥店等領域應用具有大腦大模型,理解三維場景,與人自然語言理解,并將長線程任務分解,自主決策所需操作樓宇暢行,雙手可按電梯,刷閘機交互友好,AI多模態交互人機安全,觸覺傳感器+
33、柔順力控算法,確保人機安全360全方位傳感器支持同構及遙操作,全身力反饋,全關節映射,支持本體端力反饋至遙操端遙操作-邁向L4&L5具身智能的必經之路0529資料來源:東南大學、艾歐智能、浙商證券產業研究院具身機器人遙操作,是指在相關機器人控制中把人類操作包含在控制回路中,任何的上層規劃和認知決定都是由人類用戶下達,而機器人本體只是負責相應的實體應用。當機器人處理復雜的感知和大量任務時,在快速做出決策和處理極端情況時,遙操作遠遠優于智能編程。目前遙操作已廣泛應用在醫療領域、極端環境探索如太空與深海場景、防恐防爆應用場景,以及基于工業機械臂的自動化生產中。我們認為遙操作將有助于加速具身智能所欠缺
34、的數據采集環節,此外在實際商業化領域,通過遙操作,也能在惡劣環境下取代人類,同時降低企業用工成本。按照遙操作主端設備的不同,主流遙操作方式可以分為以下幾類:主端方案特點VR設備VR設備自帶的對手柄和手勢的識別功能,能夠實現機器人在笛卡爾空間中的位姿映射,以及靈巧手的指關節精確映射。這在操作任務上有著比較明顯的優勢。然而,這種基于視覺+模型的方式容易在視線受遮擋時產生識別或預測錯誤。動捕設備使用動捕設備,可以實現對機器人關節空間運動的映射,在具有冗余自由度機械臂的避障,人型機器人的仿人運動時有著明顯的優勢。動捕設備有慣性、電磁、以及光學三種方案。光學動捕精度高,但對場地要求嚴格,需要布置多視角相
35、機,且價格高昂。機器人以斯坦福ALOHA為代表,用相似的主動臂直接做關節空間的映射到從動臂,這種操作方式下機器人的運動與人的感受高度一致,劣勢在于需要主動臂,設備需要更大的空間,并且需要幾乎兩倍于機器人成本。外骨骼使用外骨骼進行遙操作,一方面可以直接做關節空間位置映射,另一方面可以將機器人的關節受力反饋給人。這種方式下,無論是精度還是操作人員的感受都會比較好,但一套成熟的、有豐富反饋的外骨骼設備價格十分昂貴。并且需要額外考慮外骨骼主動發力對人體潛在的安全風險。其他末端控制除此之外,還有許多能夠用來做機械臂笛卡爾空間位姿映射的設備,簡單的比如手柄、手機、鍵盤、3D鼠標等等,這些更多是實驗室級別的
36、解決方案,無法應對雙臂、人型等機器人平臺。遙操作-VR+動捕服加速特斯拉Optimus訓練0530資料來源:機器之心、映維網、浙商證券產業研究院2024年5月,特斯拉發布了Optimus人型機器人的演示視頻中,展示了二代Optimus學會了分裝電池,并且比以前走得更快更遠更穩。特斯拉表示,Optimus人型機器人的訓練數據都是來自穿戴VR頭顯的人類訓練員??梢钥吹?,完整的系統集成了VR頭顯、傳感器、手套、動捕服和相關軟件。通過利用VR頭顯,Optimus人型機器人可以1:1地復刻映射人類訓練員的動作,而軟件可以以實現第一人稱視頻的實時傳輸和精確控制輸出,同時保持極低延遲。另外,這種解決方案具有
37、可擴展的遠程數據收集的優勢,因為來自世界各地的注釋人無需前往現場就可以為項目作出貢獻。特斯拉官方 Optimus X 賬號在 2023 年 5 月曾預告過該職位的性質,根據推測,特斯拉目前人類訓練員數量大約為50人以上。必須每天行走 7 小時以上,同時攜帶最多 30 磅(13.6 公斤)的重物;身高在 57到 511(約 170 到180cm)之間,而 Optimus 的身高是 58(約 173cm);長時間佩戴和操作動捕服和 VR 頭顯;持續的手/眼協調和精細操作、身體協調、動覺意識和上下樓梯;全天站立、坐下、行走、彎腰、彎曲、伸展、蹲下和扭動;靈活安排工作時間:白班/夜班和1 個周末+必要
38、時加班。每天走預定的測試路線進行數據采集;穿著動捕服和 VR 頭顯,根據項目要求執行指定的動作和操作;啟動/停止記錄設備并執行小型設備和軟件調試;提供有關設備性能的反饋;分析和報告輪班期間采集的數據;上傳采集的數據并撰寫每日報告,詳細說明觀察結果和問題;確保分配的設備處于正確和安全的工作狀態并安全運輸到各個采集地點。特斯拉機器人人類訓練員崗位信息崗位要求崗位職責遙操作-智元機器人建設百臺機器人數采工廠0531資料來源:36Kr、智元機器人發布會、浙商證券產業研究院2025年初,智元機器人在上海建了一座“數據采集工廠”。在這座3000平方米的數采廠中,不同主題的房間占據了工廠的絕大部分面積,每個
39、房間都還原了現實生活的物件布局,機器人就在不同的場景中執行不同任務。為了讓機器人快速學習技能,智元為它們安排了一對一的數據采集員,數據采集員也需要肢體協調,動作標準。數據采集員們手持設備,手把手地控制機器人完成抓、握、放等動作。有時他們也會頭戴VR設備,更精準地讓機器人模仿學習人類動作?,F在智元數據采集工廠投放了近百臺機器人,日均采集3-5萬條數據。目前,智元數據采集工廠模擬了家庭、零售、服務業、餐飲、工廠五個場景。在基礎能力建設方面,智元退出了智元具身智能數據系統AIDEA,其涵蓋了廣泛的數據采本體,遙操設備以及“數據采集-數據標注-數據管理-模型訓練-模型評測-模型部署-數據回傳”等全鏈路
40、的數據平臺。智元具身智能數據系統 AIDEA智元數采工廠遙操作-可行商業模式落地探究0532資料來源:鈦媒體AGI、浙商證券產業研究院在具身智能技術發展的關鍵階段,數據要素已成為驅動該領域突破的核心性基礎。Meta首席技術官安德魯 博斯沃思近期指出,當前數據資源尚無法有效支撐具身智能系統實現泛化性精細動作控制,特別是人類與生俱來的類人無意識動作基元智能(如器具抓握、設備操作等),其實現難度可能遠超高層認知智能的開發挑戰。在此背景下,遙操作技術及運動捕捉系統構成了現階段技術研發的關鍵支撐體系?;诩夹g演進路徑分析,若L5級具身智能體(具備完全自主環境適應能力)可在未來十年實現突破,遙操作與運動捕
41、捉技術將發揮雙重戰略價值:短期維度上,該技術可加速具身智能系統的商業化進程,通過虛實融合的混合增強模式實現關鍵場景落地;長期維度上,其將演進為具身智能生態的基礎設施級技術,持續賦能物理交互能力的進化迭代?;诖?,本研究提出以下兩類遙操作技術商業化路徑的可行性分析。眾包訓練員具身本體企業眾包數采平臺數采任務認領下發數采完成數據上傳數采需求受理數采需求受理數據平臺通過眾包形式以低廉價格獲取海量數據,并服務各家具身本體企業依托地域發展差異及就業時間差異,采用兼職眾包方式讓訓練員在生產生活中進行數據采集具身智能企業通過低廉價格獲取優質實戰環境真實數據,并以此優化模型算法遙操及數采作商業化路徑一:眾包數采平臺遙操及數采作商業化路徑二:遠程雇員平臺下游應用企業L4遙操機器人具身本體企業遠程雇員遠程雇員平臺租賃或銷售具身本體數據返銷工作任務下達操作機器人租賃或銷售具身本體雇傭管理及培訓接受所在企業管理培訓需求反饋狀態反饋數據回傳遠程雇員平臺通過規?;瘍瀯葑赓U或者購買具身本體,幫助具身機器人進入千行百業提前進行商業化運行。遠程雇員經過培訓,使用遙操作進行工作,創造價值同時降低了雇員通勤、住房等成本,間接降低了應用企業用工成本。部署及運維風險提示06Partone33