《夏軒-具身智能數據工程:技術探索與實踐.pdf》由會員分享,可在線閱讀,更多相關《夏軒-具身智能數據工程:技術探索與實踐.pdf(36頁珍藏版)》請在三個皮匠報告上搜索。
1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit夏夏軒軒 深深圳圳人人工工智智能能與與機機器器人人研研究究院院具具身身智智能能中中心心副副研研究究員員2017年博士畢業于上海交通大學?,F為深圳市人工智能與機器人研究院副研究員,深圳市高層次人才。主要進行具身智能、多模態學習、缺陷檢測、生成模型等方面的研究。主持國家自然科學基金項目、廣東省自然科學基金項目、中國博士后科學基金項目,參與多項國家、
2、省、市基金項目以及多個企業聯合項目。發表論文二十余篇,申請發明專利十余項。演演講講主主題題:具具身身智智能能數數據據工工程程:技技術術探探索索與與實實踐踐ML-SummitML-Summit2025 全球機器學習技術大會具身智能數據工程:技術探索與實踐夏軒深圳市人工智能與機器人研究院ML-SummitML-Summit目錄CONTENTS具身智能數據的價值具身智能的數據瓶頸具身智能數據工程具身智能數據生產平臺AIRSPEED問題與展望ML-SummitML-Summit具身智能數據的價值01ML-SummitML-Summit具身智能數據價值所在具身智能數據的研發價值提高機器人功能的專業能力提
3、高機器人功能的泛化能力具身智能數據采集藍海需求急劇增長供應商處于成長初期具身智能數據的獲取門檻分散非標硬件依賴互聯網機器人互聯網用戶:50億數據估價:600美元/用戶總估值:3萬億美元1機器人數量:100億數據估價:1000美元/機器人總估值:10萬億美元2三倍以上1 Why Elon Musk thinks Earth will have more robots than humans,The Telegraph,https:/www.telegraph.co.uk/business/2024/04/01/elon-musk-earth-more-robots-than-humans,acc
4、essed 2024/04/082 The Tesla Robot:What will Optimus be able to do and how much will it cost?,The Sun,https:/www.thesun.co.uk/tech/21845043/tesla-robot-optimus-cost/,accessed 2024/4/08ML-SummitML-Summit具身智能的數據瓶頸02ML-SummitML-Summit已有研究:模仿學習的Scaling Laws物體/環境泛化能力模型對于新物體/新環境的泛化能力,與其訓練時接觸的物體/環境數量之間,呈現冪律
5、關系1單一場景成功率成功率與數據量呈現出Michaelis-Menten曲線:success_rate=100%*D/(K_m+D),其中D是數據量,K_m是達到50%成功率所需數據量2空間泛化能力空間泛化所需數據量與空間體積呈現冪律關系:如果要擴展到x倍的空間體積,那么數據量需要擴展大約x0.35倍21 Lin,Fanqi,Yingdong Hu,Pingyue Sheng,Chuan Wen,Jiacheng You,and Yang Gao.Data scaling laws in imitation learning for robotic manipulation.arXiv pre
6、print arXiv:2410.18647(2024).2 Tan,Hengkai,et al.ManiBox:Enhancing Spatial Grasping Generalization via Scalable Simulation Data Generation.arXiv preprint arXiv:2411.01850(2024).ML-SummitML-Summit具身智能在數據驅動范式下的瓶頸?模型性能增長遵循冪律,數據增長遵循線性真實數據的采集速度永遠不可能跟得上模型性能的增長需求?合成數據可以在哪些方面對真實數據形成有效補充?具身智能的數據瓶頸究竟是什么?具身智能的
7、數據來源?具身智能的技術路線?具身智能的模型需求?https:/ SFTRLHF DPORL ILRL ILGPT SFTGPT SFTRLHF DPO互聯網數據指令微調數據操作數據感知數據指令微調數據VoxPoserManipLLMAnyGraspDiffusion policyRT-2GR-2LLaVA-v1.5 655KRoboVQA 800KBC-ZRoboTurkBridgeData V2ManiSkill DemonstrationsTACO-RLARIO(All Robots In One)Open X-EmbodimentInstructNavRDT操作數據感知數據訓練類別訓練
8、方法數據類型典型模型典型數據集ML-SummitML-Summit.A:具身智能的數據瓶頸基本假設性能越好的模型,數據質量需求越高性能越好的模型,數據數量需求越高性能越好的模型,數據多樣性需求越高變量分析最關鍵變量:d、p、s、t、m方法一:增加被放大基數d、p方法二:增加放大系數s、t、m瓶頸分析成本黑洞難以承擔大量高質量數據的采集成本數據孤島難以使用統一的方法采集多樣性的數據評估空白難以評估當前數據有效性具身智能的總數據需求期望D定性計算公式大腦數據技能數據小腦數據場景類別任務類別型號類別mtlspdBmtlSBmCBD+=+=+=)()()(人類演示人類語義標注機器人感知具身智能數據瓶頸
9、的解決依賴于一整套工程體系ML-SummitML-Summit具身智能數據工程03ML-SummitML-Summit具身智能數據工程的定義具身智能數據工程是圍繞具身智能數據生產而進行的系統設計、數據規范、技術開發、及部署應用等一系列過程機器人數據采集系統設計數據標準確立真實世界數據采集技術開發仿真環境數據生成技術開發垂直場景技術部署與應用優化ML-SummitML-Summit標準載體具身智能數據集現狀演示(Demonstration)數據集操作(Operation)演示數據集運動(Locomotion)演示數據集問答(EQA)數據集空間推理數據集任務規劃數據集基準(Benchmark)數據
10、集機器人導航數據集機器人交互數據集Open X-EmbodimentEmbSpatial-BenchHumanoid-XOpenEQAEmbodiedCityHabitat3.0ML-SummitML-Summit具身智能的真實世界數據采集技術現狀遙操作類數據采集技術用于采集機器人的數據手持類遙操作可穿戴遙操作同構類遙操作視覺類遙操作光慣類遙操作末端執行器示教動捕數據示教人類視頻學習真實世界數據采集方法的分類示教類(間接)數據采集技術用于采集人的數據ML-SummitML-Summit具身智能的仿真環境數據生成技術現狀虛擬遙操作仿真環境數據生成方法的分類軌跡合成技術用于采集機器人操作數據資產合
11、成技術用于合成機器人交互對象策略模型控制數字孿生數字表親決策生成技術用于合成機器人推理規劃任務分解代碼生成預測生成技術用于合成機器人物理感知基于生成模型基于世界模型ML-SummitML-Summit具身智能數據工程如何助力解決數據瓶頸?數據采集系統的設計減小成本黑洞在針對性、高效性、可靠性、易用性上取得最佳平衡數據標準確立克服評估空白確保數據的一致性、可靠性和可用性提高數據集的通用性和互操作性對數據質量進行客觀、全面的評價真實世界數據采集技術開發減小成本黑洞更高效的將人類智能存儲于數據仿真環境數據生成技術開發減小成本黑洞更高效的將環境多樣性存儲于數據技術部署與應用優化減小成本黑洞更高效的從垂
12、直場景提取數據型號數據機器人訓練數據集機器人訓練數據集機器人型號數據傳感器型號數據場景配置數據場景描述數據(可選)傳感器標定數據任務描述數據對象描述數據(可選)任務參數數據決策執行數據(可選)運動執行數據感知數據執行狀態數據(可選)場景數據任務數據執行數據采集/提交的人員/單位信息許可協議信息機器人數據采集與結構化真實環境機器人仿真環境仿真環境數據(可選)數據源數據流數據采集端點ML-SummitML-Summit數據孤島問題不可能在模型/算法收斂前解決AirExoDexCapOptimusMobile ALOHAGELLODexHubUMI數據通用性數據質量成本高,場景受限高成本較高,場景受
13、限中成本低,場景不限成本中,場景受限低現有采集技術無法實現數據質量和通用性的統一應對數據孤島:所有數據應收盡收現有數據均包含了人類能力的完整語義信息數據資產價值將在收斂時刻爆發ML-SummitML-Summit開源具身智能數據生產平臺AIRSPEED03ML-SummitML-SummitAIRSPEED:最強兼容性具身智能數據生產平臺AIRSPEED功能設計保障廣泛的技術兼容性全面支持各類真實世界數據采集技術、仿真環境數據生成技術、數據集的自動化構建ML-SummitML-SummitAIRSPEED實現柔性的具身智能數據生產遙操作設備數據采集服務數據生成服務數據集構建服務數據存儲機器人/
14、采集設備仿真環境遙操作數據姿態數據姿態數據真實數據合成數據AIRSPEED仿真命令反饋數據仿真接口機器人接口遙操作接口反饋數據反饋數據AIRSPEED架構設計保障廣泛的軟硬件兼容性機器人/采集設備數據集遙操作設備仿真平臺AIRSPEED對接不同技術路線的數據格式需求對接不同仿真平臺的數據生成需求對接不同遙操作設備的兼容性需求對接不同機器人的數據采集需求AIRSPEED成為對接四方的便捷橋梁高軟硬件兼容性+高技術兼容性=高生產柔性ML-SummitML-SummitAIRSPEED優勢:萬物皆可達AIRSPEED可達性示教類數據采集遙操作類數據采集位姿類遙操作視覺類遙操作光慣類遙操作機械臂遙控外
15、骨骼雙臂控制人形機器人全身控制雙手靈巧操作單手靈巧操作單臂夾爪控制VR雙臂控制任意機器人形態的適配控制任意末端執行器的適配控制任意距離與視角的適配控制末端執行器采集任意場景與操作的適配控制末端動捕數據采集階段一階段二階段三多技術支持實現任意數據采集ML-SummitML-SummitAIRSPEED優勢:萬物皆可生AIRSPEED可生性預測生成軌跡合成資產合成決策生成虛擬遙操作策略模型自動合成隨機本體操作合成數字表親資產合成數字孿生資產合成智能體任務分解生成智能體代碼生成任意操作軌跡的合成任意可交互資產的合成任意智能體決策的生成生成模型預測任意物理規律的生成世界模型預測階段一階段二階段三多技術
16、途徑實現任意數據生成ML-SummitML-Summit工作流程:即插即用,三步啟用,快速上手ROS 2架構確??煞植际届`活部署姿態數據遙操作設備遙操作接口機器人接口數據采集服務數據集構建服務數據存儲AIRSPEED機器人/采集設備遙操作數據真實數據ROS2節點硬件設備軟件服務配置文件配置文件配置文件步驟一:編寫配置文件步驟二:啟動設備步驟三:啟動服務姿態數據遙操作設備遙操作接口仿真接口數據生成服務數據集構建服務數據存儲AIRSPEEDNVIDIA Omniverse遙操作數據合成數據配置文件配置文件配置文件步驟一:編寫配置文件步驟二:啟動設備與仿真步驟三:啟動服務NVIDIA仿真平臺確保數據
17、生產高效ML-SummitML-Summit開源共建占據具身智能數據生態位數據生產平臺在基礎軟硬件開發商和具身智能開發商之間,數據生產平臺需要整合上游軟硬件服務,承接下游數據生產需求遙操作設備制造商機器人本體制造商仿真平臺開發商具身智能應用商數據采集設備制造商具身智能模型開發商個人消費終端用戶具身智能機器人開發商對接功能實現需求對接數據生產需求對接軟硬件整合需求下游開發商跳過數據生態位將提高成本上游供應商難以直接滿足數據生產需求上游供應商大多不具備數據生產能力消費終端數據采集服務數據生成服務數據集構建服務ML-SummitML-Summit視頻demoML-SummitML-Summit工業場
18、景數據采集案例人工數據采集人工替代全身運動與長程任務視覺、決策、運動數據靈巧手運動與精細任務視覺、觸覺、運動數據機器數據采集柔性升級檢測環節視覺、規劃、運動、識別數據上下料環節視覺、規劃、運動數據廣東惠州某工廠已實現人級別的流程標準化,需遷移人的工作能力至機器人,因此采集人類工作過程數據已實現機器級別的生產自動化,需升級柔性生產的泛化能力,因此采集機器生產過程數據AIRSPEED可同時滿足兩類工業場景數據采集需求ML-SummitML-Summit問題與展望04ML-SummitML-Summit問題與展望具身智能數據的征途剛剛開始本體的收斂會晚于算法/模型的收斂,算法/模型的收斂不會在短期內完成,數據需求的高峰還未到來受限于本體的能力,現有數據采集技術僅能用于復現人類的能力的一部分,本體-數據-模型相互制約現有數據生成技術離現實還有很大差距,真實的動力學模擬技術有待突破數據的資產化是共識流通的數據才是資產,交易平臺的建設需要加快強大的開源大模型轉化為智能體操作系統,通用的數據生產平臺轉化為具身智能基礎設施ML-SummitML-Summit鏈接https:/ youML-SummitML-Summit