1、空間智能研究報告2025.4 量子位智庫 QbitAI Insights 分析師 Xuanhao 空間智能概覽01目錄02自動駕駛033D成04具身智能05擴展現實(XR)06世界模型07空間智能玩家圖譜空間智能是主要基于3D視覺信息進理解、推理、成、交互的AI系統4信息來源:量位智庫3D理解數據算法3D成3D推理交互虛擬世界物理世界空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型空間智能概覽:3D成、自動駕駛、具身智能是空間智能不同成熟度的應用領域,XR是空間智能的原交互式5信息來源:量位智庫3D成擴展現實(XR)自動駕駛具身智能物理世界虛擬世界終局狀態發展成熟度世界模型空間智能概
2、覽自動駕駛3D成具身智能擴展現實(XR)世界模型 軟件服務可快速普及應用,3D成價格低從智能三要素、普及便捷度、經濟性出發,自動駕駛和3D成是空間智能最先成熟的領域,具身智能仍處早期,各要素尚未完備數據成熟度(核)6信息來源:量位智庫自動駕駛3D成 汽車駛數據(攝像頭及傳感器)達到百億英里級 仿真數據正在快速發展以彌補真實數據的分布缺失具身智能成熟度XR經濟性 融合感知、規劃、控制的端到端模型已經成為業界共識算法成熟度 頭部玩家達到5萬卡H100算支撐 中 安全性和合規要求普及便捷度 中 有千萬級規模的精度3D資產數據,但仍需要更規模的數據提升成效果 中 目前算法部分處于快速進步階段,但數據表
3、征尚未成熟,技術目前可支撐商業化 低 頭部玩家算百卡/千卡級,算目前并非瓶頸 軟件服務可快速普及應用 中 自動駕駛軟件成本低,潛在受眾巨,頭部玩家已投放市場 低 質量的機器真機操作數據數量稀少,仿真數據作用有限 低 目前算法部分處于摸索期,感知、規劃、控制等功能都不成熟 低 多數玩家在千卡級,目前的主要瓶頸是數據 低 物理操作需要滿安全性、合規性和精確度需求 低 機器本體目前價格昂貴,商業價值低 硬件設備承擔3D交互功能 可以為具身智能訓練采集數據,是目前真機數據的主要獲取式空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型字、圖片、視頻數據相比空間智能規模更,支撐了以語模型為核的AI
4、浪潮快速發展,3D和物理AI在數據成熟后空間智能也將迎來爆發7信息來源:量位智庫本15萬億Token圖片視頻自動駕駛3D成具身智能數億視頻字片段百億級圖對百億英里駛數據千萬級質量3D模型百萬小時真機數據分析 本、圖片、視頻等數據由于互聯內容的長期積累,數據規模上顯著于自動駕駛、3D和具身智能 空間智能涉及3D視覺類數據、物理世界交互數據,互聯數據的作用有限,需要等待數據體系進步成熟,數據整體上比語更復雜,對數據處理的要求也更空間智能數據規??臻g智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型 自動駕駛車隊可形成正反饋的數據閉環,加速模型能提升 數據成:XR設備可以支持空間智能相關的數據產
5、,例如英偉達GR00T項目,通過XR設備為機器進操作演示數據體系成熟度是觀察空間智能進展的關鍵,包括數據積累、數據構成、數據分布、數據閉環四部分,成熟度上自動駕駛3D成具身智能數據積累規模8信息來源:量位智庫自動駕駛3D成 已有數量龐的車隊和成熟的道路交通系統可以收集量數據具身智能分析XR 中 以視覺信息為主,純視覺技術路線外會涉及激光雷達和其他模態數據構成精簡度 中 以道路交通系統的駛為主,多數駕駛場景下需要的數據可以充分收集,但缺乏長尾數據數據分布多樣性數據閉環成熟度 中 精度的3D資產圖形學數據,主要由專業的3D模型師制作,數量有限 中 3D成需要的圖形學數據種類多樣,如形狀、體積、紋理
6、、材質,對數據表征要求 中 3D模型的數據集豐富度較,模型可以覆蓋各類物件和場景 低 缺少存量裝機量,要從零開始積累數據,同時仿真數據精度有限 低 需要視覺數據、學數據、運動數據、激光雷達、甚其他模態,異構數據多 低,數據主要來自些垂直的訓練場景,數據分布比較單 目前數據是部分AI系統進步的瓶頸,算法和算的問題相對更容易解決 自動駕駛能夠快速成熟的核原因在于數據采集和數據閉環面的優勢,規模的自動駕駛車隊關重要空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型自動駕駛是空間智能目前規模最、最成熟的應用,已經接近類平,技術前沿開始從模仿學習轉向強化學習,以保持性能增長10信息來源:量位智庫
7、描述L1階段L2L3L4L5數據支撐 極少 以視覺為主的量車輛駕駛數據,附加激光雷達等其他傳感器數據 在駕駛數據的基礎上增加針對尾部場景的模擬仿真數據算支撐 端側的低算ECU/嵌式芯片 云側需要萬卡集群 端側需要端推理芯片,如特斯拉HW3或者英偉達Orin/DRIVEThor 數萬卡、百萬卡集群 輔助駕駛,由AI來控制單個運動控制,其他操作由類駕駛員完成,例如巡航和車道保持 部分自動化,類駕駛員為主,但部分駕駛操作由自動駕駛系統完成 有條件的自動化,由AI來完成所有的駕駛操作,駕駛員僅在系統提示介時預操作 在限定范圍內需類任何預,所有的駕駛操作由AI完成 不限地域范圍 完全由AI完成駕駛操作權
8、責劃分算法支撐 真實數據積累量(本質是模仿學習)對模型能的增益呈現邊際遞減的情況,優秀的模型會增加長尾數據的收集難度,模型越好依賴真實數據進提升越困難 需要引強化學習+合成數據的新算法來加速模型迭代速度、提智能上限數據量模型能強化學習增益當前階段空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型 長期愿景自動駕駛有最成熟的空間智能數據體系,核在于量車隊的數據積累,同時可以構建模型的數據閉環,通過正反饋加速驅動模型迭代11信息來源:量位智庫,1)以特斯拉FSD為例數據積累規模數據構成精簡度 數據規模:特斯拉FSD在過去3年已經積累30億英里的駕駛里程,同時每日里程積累數量已經突破1千萬英
9、里,并隨著特斯拉車隊規模擴加速增長,Waymo的模擬駛里程已經達到了150億英里,累計駛里程超2千萬英里數據分布多樣性數據閉環成熟度 精簡度中:視覺駕駛數據最關鍵,純視覺之外的技術路線也會采用激光雷達、毫米波雷達等傳感器,但純視覺的精簡路線已被證明有效 地圖數據和定位數據相對簡單,不構成瓶頸 多樣性中:地域范圍包括不同國家/地域,城市/鄉村,頻次分布來看包括不同頻日常和長尾場景,時間范圍包括白天/夜晚,季節性,峰/非峰等 數據反饋循環強:有規模車隊搭載自動駕駛系統測試、收集數據用于模型訓練,再將新模型投放市場進OTA升級,重復數據收集、反饋的閉環描述構成自動駕駛數據量級112022202320
10、242億公里13億公里50億公里自動駕駛數據來源2真實數據 最主要的訓練數據,涵蓋量復雜多樣的環境變化,保真度最合成數據互聯數據真實數據 重要性正在增加,旨在解決模型能到達較平后長尾數據的缺失問題 效果最差,主要用于法獲取數據的情況,在預訓練后補充不同駕駛環境的知識空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型自動駕駛已經出現清晰的空間智能Scaling Law,接管里程隨底層算擴展和強化學習新進展快速增加,在百萬卡集群支撐下將超過類準12信息來源:量位智庫,Tesla,1)H100等效算V12V13.5/V14V13V12.5Robotaxi 放棄模塊式、基于規則的算法 開始向端
11、到端2023 模型全面端到端 增加模型參數量 優化城市駕駛/智能召喚 模型參數和上下窗比V12增加3倍,訓練數據量提升4.2倍,訓練算增加5倍 基本達到類平均平 超過類平均平202420252026-MPI(Miles Per Intervention/強制接管里程)400km200km以模仿學習為核以強化學習為核千卡H100萬卡H100萬卡H100數萬卡/百萬卡H1001當前階段空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型3D成是數字世界的空間智能,由圖形學和AI共同驅動,處于技術快速進步階段,當前最瓶頸是尋找具有良好擴展性的3D數據表征描述14信息來源:量位智庫L1 基礎的3
12、D、圖3D功能,紋理和邊緣較為粗糙階段L3L2L4L5數據支撐 成的精度達到基礎業級準,可用于產品設計、3D打印,可以實現動態化 成的3D資產可實現可拆卸、可組合,成精度接近實物 增加成資產的物理性質,例如材質、質量、摩擦等等,同時實現動態化 各類物理性質限接近真實物件,可以成動態可交互的3D世界 萬級精品3D模型 百萬級精品3D模型 數千萬級精品3D模型算法支撐算支撐 數張GPU 百卡級 數百卡級分析 3D成目前有兩種技術路線:1)3D原成,2)2D升維多視角重建,但技術路線尚未收斂,業處于快速探索階段 數據表征是目前3D成技術的核。由于3D數據的復雜性,尋找具有優良擴展性的數據表征難度較,
13、目前業常用表征式包括Mesh、點云、NeRF、Voxel等 目前3D成算法進步很快,各技術模塊的創新空間充當前階段 千卡級 上億的精品3D模型 等待探索空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型 目前靜態3D資產成向已有多個成熟產品,并實現商業化落地,是目前3D成最主要的應用形式 動態3D場景的成相對靜態3D資產成成熟度更差,技術路線差異也較,且沒有商業化向,目前處于技術探索階段3D成受益于游戲、CG制作等業,有定數據積累,數據體系較為成熟,目前開源數據已耗盡,如何持續獲得質量3D模型數據成為關鍵15信息來源:量位智庫,1)開源的3D數據也在千萬量級,但真正可用于訓練的質量數據
14、在50萬左右數據積累規模數據構成精簡度描述 積累規模中:由于游戲、CG等業的迅速發展(如Unity、EPIC等公司),積累了量的質量3D模型可以用于訓練,各類3D模型分享平臺(如Sketchfab、TurboSquid、CGTrader等)也加速了3D數據的獲取和傳播數據分布多樣性數據閉環成熟度 精簡度中:不同于字、視頻、音頻數據,3D數據的構成復雜,表示式多樣,例如Mesh、點云、Voxel等,需要考慮uv展開、紋理、材質等多種要素 多樣性中:包括各類場景、物角、活用具、動物植物、武器、建筑車輛、航空器等 尚未形成數據飛輪 數據迭代靠廠商內部的數據標注處理體系構成3D數據量級1頭部3D公司I
15、mageNet開源3D數據數千萬1400萬50萬13D數據來源23D模型資產 精度和質量需要達到3D模型師產的準3D打印數據 目前難以滿模型訓練的精度需求程序化數據 目前數據質量和精度不3D掃描數據 目前數據質量精度不,但可以補充材質數據空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型具身智能是空間智能未來規模最的應用,可以和物理世界深度交互,但目前整體成熟度較低,頭部玩家即將開始產環境實驗17信息來源:量位智庫描述L1階段L2L3L4L5數據支撐 百萬小時真機數據或量仿真數據 百萬小時真機數據加量仿真數據算支撐 千卡集群 萬卡集群 在給定場景范圍內有基本的動能和操作能,但很難產真實
16、的商業價值 對于垂直場景(如廠)中的部分任務可以規?;瘏⑴c產作,提效率和產算法支撐分段式模型+感知決策執逐漸探索成熟 部分廠商目前的數據積累、算法成熟度、本體成熟度都不支持端到端機器模型,任務編排、感知模型、運動控制以及操作抓取都處于模塊化狀態 但頭部廠商如特斯拉已采用端到端路線技術尚未成熟,探索領域感知+決策執傳感器Token提示詞Token動+回復Token端到端模型當前階段 特斯拉在2025年可能達到近5000臺的量產規模,同時部署到特斯拉廠,主要進搬運、巡檢、安保、服務四類任務,其中搬運是最重要的場景空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型 尚未產數據飛輪具身智能目前
17、最的瓶頸在于數據,各層面均處于早期階段,如何權衡真實數據和模擬數據,已成為業內發展路徑差異的關鍵分歧18信息來源:量位智庫,1)Sim2Real(Simulation to Reality)是指將智能模型從模擬環境(simulation)訓練中獲得的知識和能轉移到現實世界(real world)中應用的過程數據構成精簡度 數據規模?。壕呱碇悄艿臄祿e累需要從零做起,數據稀少,尤其端到端的質量數據數據分布多樣性 數據精簡度差:包括視覺攝像頭、激光雷達、運動傳感器、觸覺傳感器數據,另外數據跨本體融合、泛化困難 數據多樣性低:在收集速度和數據質量上存在局限,目前數據分布上以簡單抓取和運動數據為主,泛
18、化性不描述構成機器數據來源真實數據描述 機器遙控操作收集動作、場景及環境數據 VR第視角+動作捕捉數據效果成本/速度分析 優,可以直接端到端采集數據,且物理環境完全真實精確,沒有誤差積累 成本速度慢,需雇傭量數采員,搭建采集環境,以/天為單位采集數據 基于虛擬場景模擬現實中的物理規則或特定任務環境(如廠、家庭)中,Sim2Real1的分布偏移問題難以解決 低成本且更敏捷,仿真數據的成本、采集速度遠低于真實數據 通過訓練其他類或者本體的任務操作類視頻進學習 低,數據質量參差不齊,需要量數據后處理 低成本更敏捷,視頻數據本身成本低,但會引處理數據的額外成本真實數據仿真數據視頻數據 真實數據是最佳選
19、擇,仿真數據主要是出于數采成本過的現實選擇,部分具身智能廠商都在同時使用真實數據和仿真數據,但側重不同 仿真路線的核是解決Sim2Real中間的差距,也需要結合少量質量的真實數據做數據增強數據積累規模數據閉環成熟度空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型擴展現實(XR)的硬件基礎正在成熟,可實現3D類內容的原消費,未來隨著3D原內容和相關應用態的成熟將打開更的市場20信息來源:量位智庫,1)單眼分辨率語對比維度 單維語義信息信息密度沉浸感交互性融合度XR硬件設備各項性能參數正在提升圖片視頻XR 維視覺信息 維視覺+時間 三維視覺+時間 靜態視覺 動態視聽沉浸感強 三維動態視聽
20、,極致沉浸 單向輸 單向輸 單向輸 三維空間交互 以3D式與現實世界融合XR作為新的信息交互式有多個維度的優勢分辨率1視場角交互性刷新率延遲 1K 35度 6自由度交互,初階勢操作 60Hz 30ms 2K 97度 6自由度交互,柄控制 120Hz 20ms 4K 100度 6自由度交互,精度眼動追蹤,勢操作 100Hz 12msHoloLens(2016)Quest 2(2020)Vision Pro(2023)空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型擴展現實(XR)是目前訓練具身智能的關鍵數據采集式,可以加速真機數據增長推動空間智能發展,業內已有眾多相關實踐21信息來源:
21、量位智庫,1)單眼分辨率 Optimus 機器的關鍵訓練數據來自穿戴 VR 頭顯的類訓練員。完整的系統集成了 VR 頭顯、傳感器、套、動捕服和相關軟件 基于VR 頭顯,Optimus 機器可以 1:1 地復刻映射類操作員的動作,軟件可以實現第稱視頻的實時傳輸和精確控制輸出,同時保持極低延遲領先機構圖示 使用XR設備接模擬機器的數字孿系統,并通過遠程操作模擬機器來記錄運動演示,用于成組更的、物理上精確的合成運動軌跡 可以成組指數級增長、逼真且多樣化的訓練數據集,之后可以使用這些數據對機器策略模型進后訓練 Meta推出了HOT3D數據集,能夠加速機器學習研究以分析與物體的交互。該數據集包含以第稱視
22、角的用戶抓取和操縱各種物體的質量 3D 視頻,展示了19名受試者與33種不同剛性物體的交互,以及多模態信號,如眼動跟蹤或場景點云 該數據集由Meta的兩款頭戴Project Aria和Quest 3設備錄制 李飛飛和斯坦福學開發了ARCap系統,可以進便攜式數據收集,通過增強現實(AR)和觸覺警告提供視覺反饋,以指導用戶收集質量的演示 ARCap 能夠收集與機器運動學相匹配的機器可執數據,幫助訓練機器在雜亂的環境中進操作和長視野跨具身操作,ARCap 完全開源且由現成產品構建具體實踐空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型世界模型是從量數據中構建理解世界運作式的內部表征,可以
23、推理動后果預測未來,精確完備的世界模型是空間智能發展的終局狀態23信息來源:量位智庫 世界模型的本質是在內部表征外部世界的關鍵元素和關系,將復雜系統簡化為可理解的模式和規則,例如直覺層快速反應的模式識別,概念層抽象概念和類別的組織,因果層理解事件間的因果關系世界模型內部表征預測未來 基于規則推理:應用已知規律推測未來狀態 概率模型:考慮多種可能性及其概率分布 仿真模擬:在虛擬環境中模擬多種情景的演變 反事實思考:分析如果.會怎樣的假設情境系統或過程的運作式所形成的簡化、它不是現實的完美復制,是我們理 需要通過經驗、觀察、學習、交流、試錯等式逐步建立和完善本質功能“世界模型”這概念主要因2018
24、年JurgenSchmidhuber的論引起泛討論空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型世界模型可以通過各種技術路徑逼近,但不同路徑的精度和效率各異,空間智能側重3D和物理AI,可能是建模真實世界的最佳式24信息來源:量位智庫成熟度 語模型目前預測下個詞的范式,本質是在從訓練數據中學習世界模型,例如概念關系等,但受限于語模態,模擬的精度和分布不全面語模型圖像/視頻成模型3D成模型自動駕駛模型具身智能模型世界模型 模型可以學習圖片和視頻中的量的知識來構建世界模型保持致性,但是精度較差,很難理解物理規律 通過圖形學數據進精度的3D成,本質上是對空間結構的建模和預測,需要理解物體
25、的何形狀,3D致性,紋理等細節信息充 通過量視覺數據構建了模擬道路交通系統的世界模型,且可以獲得來自真實世界的反饋,不斷提升精度 通過量視覺和其他傳感器數據構建最接近真實世界的世界模型,覆蓋各種物理條件和環境,有類的完整認知能,可獲得真實世界反饋空間智能空間智能概覽自動駕駛3D成具身智能擴展現實(XR)世界模型空間智能玩家圖譜26信息來源:量位智庫成、自動自動駕駛具身智能3D生成XR硬件算力的提升將加快視頻生成的推理速度127關于量子位智庫關于量子位智庫:量子位旗下科技創新產業鏈接平臺。致力于提供前沿科技和技術創新領域產學研體系化研究。面向前沿AI&計算機,生物計算,量子技術及健康醫療等領域最新技術創新進展,提供系統化報告和認知。通過媒體、社群和線下活動,基于專題技術報道及報告、專項交流會等形式,幫助決策者更早掌握創新風向。關于量子位關于量子位:量子位(QbitAI),專注人工智能領域及前沿科技領域的產業服務平臺。全網訂閱超過500萬用戶,在今日頭條、知乎、百家號及各大科技信息平臺量子位排名均為科技領域TOP10,內容每天可覆蓋數百萬人工智能、科技領域從業者。微信號:Qbitbot020量子位智庫小助手量子位智庫公眾號量子位公眾號分析師:Xuanhao(微信:feeltheagi)智庫負責人:李根(微信:ligen603)商務合作:趙萌(微信:13343397239)