《機器人行業系列報告一:具身智能——決定機器人泛化能力天花板的“大小腦”-250309(57頁).pdf》由會員分享,可在線閱讀,更多相關《機器人行業系列報告一:具身智能——決定機器人泛化能力天花板的“大小腦”-250309(57頁).pdf(57頁珍藏版)》請在三個皮匠報告上搜索。
1、中 泰 證 券 研 究 所專 業 領 先 深 度 誠 信證券研究報告2 0 25.0 3.0 9機器人系列報告一:具身智能決定機器人泛化能力天花板的“大小腦”分析師:聞學臣執業證書編號:S0740519090007分析師:蘇儀執業證書編號:S0740520060001分析師:劉一哲執業證書編號:S0740525030001摘要摘要 具身智能是一種一種基于物理身體進行感知和行動基于物理身體進行感知和行動的智能系統,其通過的智能系統,其通過智能體與環境的交互智能體與環境的交互獲取信息理解問題、做出決策獲取信息理解問題、做出決策并實現行動,從而產生并實現行動,從而產生智能行為智能行為和和適應性適應性
2、。具體而言,具身智能在機器人上的應用體現可以劃分為三階段:感知、推理、執行。具身智能是機器人與人工智能發展的交匯點。具身智能是機器人與人工智能發展的交匯點。機器人的通用性取決于泛化性的發展程度,自20世紀50年代以來,經過多輪發展,機器人開始從傳統的自動化工業場景機器人,向通用泛化場景的機器人方向發展。而人工智能在幾十年發展過后,在今天迎來了智能程度、通識程度更高的生成式大模型時代。在當前時間點,人工智能可以真正為機器人賦予“大腦”,機器人也可為人工智能提供“身體”,兩者深度融合,而融合的交點具身智能,則是人工智能與機器人相互促進發展而形成的必然的產業趨勢。目前具身大模型可以分為兩大流派,一類
3、是端到端大模型,一類是分層具身大模型。目前具身大模型可以分為兩大流派,一類是端到端大模型,一類是分層具身大模型。1)端到端大模型:)端到端大模型:能夠直接實現從人類指令到機械臂執行,即輸入圖像及文本指令,輸出夾爪末端動作。2)分層具身大模型:)分層具身大模型:不同層次模型協作,上層大模型進行感知與決策,底層硬件層和中間響應快的小模型進行決策的分解與執行。目前,由于受數據制約難以達到性能要求,端到端大模型尚未成為主流選擇,更多廠商還是選擇以分層模型為機器人的具身智能。訓練具身大模型的痛點:數據。訓練具身大模型的痛點:數據。機器人需要用海量數據進行訓練,使其變得更加智能。但機器人是非常新的領域,嚴
4、重缺乏訓練數據的積累。對應而言,目前主要的數據收集方法有四種:1)遠程操作,)遠程操作,即由實驗人員操作機械手柄,遠程控制機器人做出相同動作,以此來積累數據;2)AR,即通過AR環境對機器人進行訓練,積累數據;3)仿真)仿真,即通過海量算力進行模擬運算,計算得出海量機器人訓練數據集;4)視頻學習,)視頻學習,即通過多模態大模型,直接讓機器人通過視頻學習人類動作,從而積累訓練數據。人形機器人產業未來展望:從專用到通用,從人形機器人產業未來展望:從專用到通用,從ToB到到ToC。短期來看,任務相對聚焦,對泛化能力要求不高工業制造場景下的任務正在更快進入商業化階段。在工業制造場景實現商業化落地之后,
5、海量機器人的具身數據疊加算力技術的進步,機器人的能力將循序漸進逐步解鎖,并向商用服務、家庭服務等更開放的場景進行延伸,屆時市場有望達萬億級。wUgWoOqPxPyRsPsM9PcM7NoMoOmOmRkPrRmPfQrQqR6MpPwPNZmPpPvPsRvN摘要摘要 投資建議:投資建議:作為機器人的“大小腦”,在硬件已達到較高工藝水平的情況下,具身智能的技術能力或將成為機器人發展的天花板。當前多家領軍機器人企業均已各自的方式在具身智能領域投入較多資源與精力,以提升自家機器人的泛化行為能力。我們建議投資人持續關注具身智能產業的技術變革突破、商業化落地路線、節奏與進展等。具體到標的上,建議關注索
6、辰科技索辰科技(物理AI、機器人子公司)、能科科技能科科技(特種行業AI能力領先)等。風險提示:風險提示:機器人產業相關政策落地不及預期;機器人商業化落地推進不及預期;AI與具身智能產業技術發展不及預期;行業競爭加??;研報信息更新不及時的風險等。目 錄C O N T E N T SC O N T E N T S什么是具身智能具身智能:機器人與AI的交匯具身大模型賦能人形機器人蛻變具身智能賦能下,未來機器人發展方向1234CONTENTS目錄CCONTENTS專 業 領 先 深 度 誠 信專 業 領 先 深 度 誠 信中 泰 證 券 研 究 所中 泰 證 券 研 究 所1什么是具身智能什么是具身
7、智能什么是具身智能 具身智能的定義:一種一種基于物理身體進行感知和行動基于物理身體進行感知和行動的智能系統,其通過的智能系統,其通過智能體與環境的交互智能體與環境的交互獲取信息理解問題、做獲取信息理解問題、做出決策并實現行動,從而產生出決策并實現行動,從而產生智能行為智能行為和和適應性適應性。具身智能的實質:強調有物理身體的智能體通過與物理環境進行交互而獲得智能的人工智能研究范式。從機器人的角度出發,具身智能在機器人上的應用體現可以劃分為三階段:感知、推理、執行。圖表:具身智能的劃分資料來源:哈爾濱工業大學,中泰證券研究所1.1 具身感知具身感知 機器人需要具備環境感知能力,依據感知對象的不同
8、,可以分為四類:物體感知、場景感知、行為感知、表達感知。具身感知的過程主要包括以下幾步:圖表:具身感知的過程分為以下幾個步驟資料來源:哈爾濱工業大學,中泰證券研究所1.2 具身推理:任務規劃具身推理:任務規劃 具身感知的過程主要包括以下幾步:任務規劃、導航、具身問答。任務規劃:任務規劃:任務規劃(Task Planning)是具身智能的核心任務之一,將抽象的非可執行人類指令轉換為具體的可執行技能。這一步驟的完成需要兩步:1)將人類指令分解為機器人可執行的技能,2)執行技能。結合大模型的任務規劃:大模型作為轉換器、大模型作為分解器。作為轉換器:作為轉換器:LLM+P,用LLM將狀態信息描述成PD
9、DL語言再進行規劃,取代以往需要人工針對實際問題書寫PDDL語言對任務進行建模;作為規劃器:作為規劃器:可以zero-shot進行任務規劃。圖表:大模型作為轉換器的作用資料來源:哈爾濱工業大學,CSDN,中泰證券研究所圖表:任務規劃將人類指令轉換為可執行技能資料來源:哈爾濱工業大學,中泰證券研究所1.2 具身推理:導航具身推理:導航 具身導航(Embodied Navigation):智能體在3D環境中移動完成導航目標。早期的具身導航,通過構建一系列基于規則的組件和算法,實現有效的環境感知、定位、路徑規劃和避障。而基于學基于學習的導航習的導航則利用深度學習與強化學習技術,提高模型對復雜環境和新
10、場景的泛化能力。不同于傳統算法依賴預定義的規則和手工設計的特征,基于學習的導航算法從大量數據中學習環境特征和導航策略,實現強自適應性和高靈活性。視覺導航:視覺導航:基于學習的導航的一個重要分支,它依靠計算機視覺來理解環境信息并做出導航決策。視覺語言導航:視覺語言導航:通過自然語言指令和視覺圖像進行導航的任務,其目標是開發一種能夠與人類進行自然語言交流并在現實3D環境中導航的具身智能體。1)大模型出現之前:)大模型出現之前:主要通過RNN,LSTM,Transformer等網絡來提取命令中的語義信息;2)大模型出現后:)大模型出現后:利用大模型作為輔助來幫助規劃器輸出規劃或者大模型直接作為規劃器
11、來輸出規劃。圖表:一種利用大模型的視覺語言導航方法機制資料來源:哈爾濱工業大學,中泰證券研究所圖表:具身導航的發展階段資料來源:哈爾濱工業大學,中泰證券研究所1.2 具身推理:具身問答具身推理:具身問答 具身問答:具身問答:機器人需要主動探索環境,定位目標物體或位置獲取環境中的信息,然后基于獲取的信息回答問題。該任務可視為導航、VQA任務的結合。相比于VQA等已有問答任務,具身問答的特點在于機器人具有主動行動能力。圖表:具身問答示意資料來源:哈爾濱工業大學,中泰證券研究所1.3 具身執行具身執行 具身執行,就是把任務具體執行出來,其中最重要的環節就是技能學習。技能學習。技能學習:以技能描述、環
12、境觀察為輸入,輸出完成技能所需的技能學習:以技能描述、環境觀察為輸入,輸出完成技能所需的7Dof軌跡軌跡(主要指人手腕或者機械臂末端執行器的位置、朝向、末端狀態)。技能學習主要有兩類方法:模仿學習:模仿學習:收集專家演示數據,用神經網絡擬合。強化學習:強化學習:設計獎勵函數,機器人通過交互學習行為策略。兩者的差別在于:模仿學習是從樣例中學習,機器人學習過程中不與環境進行交互;而強化學習從交互中學習,機器人學習過程中與環境進行交互。圖表:一種強化學習的方法:Grasp-0-Network Model-free資料來源:哈爾濱工業大學,中泰證券研究所圖表:模仿學習的三種策略資料來源:哈爾濱工業大學
13、,中泰證券研究所1.3 技能學習技能學習+大模型:通用執行模型結構大模型:通用執行模型結構圖表:技能學習+大模型:通用執行模型的兩種結構資料來源:哈爾濱工業大學,中泰證券研究所CONTENTS目錄CCONTENTS專 業 領 先 深 度 誠 信專 業 領 先 深 度 誠 信中 泰 證 券 研 究 所中 泰 證 券 研 究 所2具身智能:機器人與AI的交匯2.1 機器人的通用性取決于泛化性的發展程度機器人的通用性取決于泛化性的發展程度 在上個世紀六十年代,人類已經制造出機器人并且可以控制其執行給定的動作。但是對于復雜抽象的人類指令,早期需要專家人工設計動作軌跡,然后再由機器人執行。一個理想中的智
14、能機器人應該是“通用”的,可以適用于各種場景,進行推理決策并執行相關技能,完成各種任務。從人工設計專門的程序到通用型智能機器人,存在著巨大的技術發展空間,其中最關鍵的問題之一即為泛化性,包括人類指令、環境配置、物體形狀位置、機器人類別上的泛化性。泛化性描述了機器人因為學習場景和應用場景的任務設置不一致導致的性能變化情況,這衡量了機器人在特定維度上的通用性。從泛化性的角度來看,智能機器人技術可以劃分為以下幾個階段,其對應泛化性逐漸變強。圖表:泛化性角度下智能機器人技術的發展階段資料來源:CSDN,中泰證券研究所2.2 機器人發展線:從自動化工具到直接影響物理世界的智能體機器人發展線:從自動化工具
15、到直接影響物理世界的智能體 從歷史的角度來看,工業機器人的硬件進化不斷發展,從自動化設備到移動機器人,從協作機器人到人形機器人,每一步都代表著技術的進步和創新。當下,已經進入了AI大模型與機器人在底層技術創新和應用融合的交叉時代。技術的每一次進步都會帶來機器人應用場景的突破,且一般會在精準、重復的工業場景作業流程中率先得到應用。未來,如何提升智能機器人在開放場景的可用性,是具身智能正在解決的問題。圖表:機器人技術發展線資料來源:甲子光年,中泰證券研究所2.2 人工智能發展線:從理性主義到深度學習人工智能發展線:從理性主義到深度學習 在機器人領域的應用上,生成式AI技術正在兌現提升機器人關鍵能力
16、的潛力,在環境感知、自主決策、學習與適應等多個方面均有表現?;诰W絡數據訓練的大模型似乎正在觸及AI認知的邊界,ScalingLaw下的預訓練大模型性能似乎快要達到極限,參數量和數據量的擴充已經難以給模型帶來質的突破。AI想要進一步發展,必須與物理世界建立更加緊密的聯系,具身智能將是AI繼續向AGI進步的關鍵途徑。圖表:人工智能技術發展線資料來源:甲子光年,中泰證券研究所2.2 具身智能:兩條發展線的匯聚點具身智能:兩條發展線的匯聚點 人工智能和機器人技術的發展并非孤立進行,而是相互促進、共同演進的。人工智能為機器人賦予了“大腦”,使其具備感知、思考和決策能力;而機器人則為人工智能提供了“身體
17、”,使其能夠與真實世界進行交互,獲取經驗和知識。具身智能的興起是人工智能和機器人技術各自發展到一定階段的必然結果,是兩者深度融合的體現。人工智能的持續進步需要與物理世界的交互能力,而機器人的未來發展也離不開更高級別的智能化水平。圖表:具身智能是AI與機器人兩條線的交匯資料來源:甲子光年,中泰證券研究所2.3 2024年迎來具身智能投資熱年迎來具身智能投資熱 如果說OpenAI的ChatGPT引爆了2023年對大語言模型的投資熱潮,那么Tesla入局人形機器人和黃仁勛的“AI的下一個浪潮是具身智能”,則徹底帶火了具身智能與人形機器人領域的投資熱潮,成為2024年科技產業投資的最大熱點。從投資角度
18、看,頭部人形機器人的本體研發集成廠商已經歷多輪融資,估值較高,行業整體投資熱點正從人形機器人本體向具身智能模型和其他上游零部件遷移。圖表:從本體制造到具身大模型,國內外投資熱點有所遷移公司名稱公司名稱融資時間融資時間融資金額融資金額投后估值投后估值國外國外1X Technologies2024 年1月1億美元未提及Figure AI2024 年2月6.75億美元26億美元Skild AI2024 年7月3億美元15億美元Physical Intelligence2024 年11月4億美元24億美元公司名稱公司名稱融資時間融資時間融資金額融資金額國內國內千尋智能2024年8月近2億元穹徹智能20
19、24年9月累計數億元星云智慧2024年10月2000萬元星海圖2024年11月超2億元自變量機器人2024年11月億元級資料來源:IT桔子,甲子光年,中泰證券研究所圖表:2020-2024年國內人形機器人投資事件數量與金額變化資料來源:IT桔子,甲子光年,中泰證券研究所19CONTENTS目錄CCONTENTS專 業 領 先 深 度 誠 信專 業 領 先 深 度 誠 信中 泰 證 券 研 究 所中 泰 證 券 研 究 所3具身大模型賦能人形機器人蛻變203.1 具身大模型具身大模型&非具身大模型非具身大模型 從物理空間的角度來劃分,大模型可以分為非具身大模型(Disembodied Model
20、)、具身智能大模型(又被叫做機器人大模型)(Embodied VLA Model)。它們的區別是能否生成運動姿態(例如夾爪的末端位姿等),即是否能跟物理機器人聯系起來。圖表:具身大模型與非具身大模型資料來源:CSDN,中泰證券研究所213.1 具身大模型:分層模型具身大模型:分層模型or一體化端到端一體化端到端 目前,具身大模型可以分為兩大流派。一類是端到端大模型端到端大模型,一類是分層具身大模型分層具身大模型。從人體“大腦-小腦-肢體”的架構來看,分層大模型通過不同層次模型協作,利用底層硬件層和中間響應快的小模型彌補上層大語言模型的不足,推動機器人在實際場景的應用,并越來越多地采用基于學習的
21、控制方法。VLA等端到端模型能夠直接實現從人類指令到機械臂執行,即輸入圖像及文本指令,輸出夾爪末端動作。分層式路線一度是主流選擇,因為端到端路線受數據制約難以達到性能要求;機器人數據正在逐步積累,端到端路線在未來可能成為主流。圖表:Hi Robot的分層視覺-語言-動作模型資料來源:Hi Robot:Open-Ended Instruction Following with HierarchicalVision-Language-Action Model,中泰證券研究所圖表:谷歌RT-2端到端大模型資料來源:CSDN,中泰證券研究所223.2 端到端大模型端到端大模型 在機器人中,端到端大模型
22、可實現直接端到端地從人類指令到機械臂執行,即輸入是圖像及文本指令,輸出是夾爪末端動作。以谷歌的RT-1到RT-2的進化迭代為例:谷歌谷歌RT-1關注泛化能力:關注泛化能力:2022年,谷歌機器人研究團隊歷時17個月基于13個機器人得到了130k episodes 以及超過700個任務的數據,在該數據集的基礎之上,基于模仿學習中行為克隆學習范式,把 Transformer 應用機器人的操縱任務上,提出了 RT-1模型。RT-1 的輸入由圖片序列、自然語言指令構成,輸出由機械臂運動的目標位姿(Toll,pitch gaw,gripper sttus)、基座的運動、模式轉換指令構成。谷歌谷歌RT-2
23、獲得涌現能力:獲得涌現能力:2023年,Google 的 DeepMind 團隊基于互聯網上數據訓練視覺-語言模型(VLM),使其能夠學習到更多關于視覺和語言之間映射關系的知識后,在機器人操縱任務上微調,提出了 RT-2。RT-2 的目標是訓練一個學習機器人觀測到動作的端到端模型,且能夠利用大規模預訓練視覺語言模型的益處,經測評,這類學習方法產生的Vision-Language-Action(VLA)模型獲得了涌現能力。圖表:谷歌RT-2端到端大模型資料來源:機器人大講堂,騰訊網,中泰證券研究所圖表:谷歌RT-1端到端大模型資料來源:機器人大講堂,騰訊網,中泰證券研究所233.2 端到端大模型
24、端到端大模型2.0階段:階段:VLA 以谷歌RT-2發布為標志,VLA模型正式進入人們的視野中并快速發展。VLA模型是在視覺語言模型(VLM)的基礎上發展而來的。在VLM基礎上,它還利用了機器人或汽車運動軌跡的數據,進一步訓練這些現有的VLM,以輸出可用于機器人或汽車控制的動作序列。通過這種方式,VLA可以解釋復雜的指令并在物理世界中執行相應的動作。圖表:VLA大模型工作原理簡示資料來源:CSDN,中泰證券研究所243.2 VLA大模型結合了視覺、語言和動作三種能力大模型結合了視覺、語言和動作三種能力圖表:VLA大模型結合了視覺、語言和動作三種能力資料來源:CSDN,中泰證券研究所253.2
25、端到端大模型的主要優缺點端到端大模型的主要優缺點 優點(以優點(以VLA為例):為例):端到端架構:端到端架構:VLA是一個端到端的大模型,這意味著它可以簡化傳統上需要多個獨立模塊才能完成的任務流程。這不僅可以提高系統的效率,還能增強其靈活性和適應性。泛化能力:泛化能力:VLA具有強大的泛化能力。以谷歌DeepMind推出的RT-2為例,該模型可以在新的物體、背景和環境中表現出顯著改善的性能。它可以理解并響應那些在訓練數據集中未曾出現過的命令,并基于底層語言模型提供的思路鏈進行推理,從而做出合理的決策。通用性:VLA具備高度的通用性。由于它是建立在一個通用的大規模預訓練基礎上,因此理論上幾乎所
26、有的“智能機器設備”都可以使用這套算法。無論是汽車、飛行器還是其他類型的機器人,只需要經過適當的微調就能滿足特定應用場景的需求。缺點:缺點:數據來源非常有限:數據來源非常有限:谷歌在Mountain Village(美國加州)辦公室的廚房里采集了17個月,得到13萬條數據,使得其機器人在谷歌的廚房里表現可以非常好。但一旦出了這個廚房,需要考察其環境泛化性,它的成功率就從97%驟降到30%左右。并且這種泛化是有選擇的泛化,不是將其直接放到施工工地、非常嘈雜的后廚等場景中。推理、響應推理、響應速度仍有待提升:速度仍有待提升:RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能達到13H
27、z,對應機器人的反射弧長達0.3秒甚至1秒。263.3 分層端到端大模型分層端到端大模型 分層決策模型通過將感知、規劃決策、控制和執行各模塊分解為多個層級,分別突破“大腦”和“小腦”,利用不同的神經網絡進行訓練,最終再整合起來。一個典型案例如Figure 02。Figure 02 采用三層級方案:1)頂層頂層集成了 OpenAI 的大模型,負責視覺推理和語言理解;2)中間層)中間層是神經網絡策略(NNP),負責快速、靈巧的操作,將視覺信息直接轉換為動作指令,并輸出這些指令;3)底層底層是全身控制器,負責提供穩定的基礎控制,在接收 NNP 的動作指令后,輸出各關節的扭矩指令。另一典例如銀河通用的
28、三層級大模型方案。1)底層)底層是硬件層,2)中間層)中間層是通過仿真合成數據不用任何真實世界數據訓練的泛化的技能,3)最上層)最上層是大模型,可以調度中間技能API,來實現完整的從任務的感知、規劃到執行的全流程。圖表:銀河通用的三層級大模型方案圖示資料來源:智東西,騰訊網,中泰證券研究所圖表:Figure 02 的三層級方案資料來源:AI科技評論,網易,中泰證券研究所273.3 分層模型中,大模型為“大腦”分層模型中,大模型為“大腦”在分層端到端模型方案中,機器人的四大板塊(感知、規劃決策、控制和執行),逐漸被類人化地劃分為負責解決高層次認知或決策問題(high level)的“大腦”,以及
29、負責基礎層面的功能性問題(low level)的“小腦”。兩大系統各司其職又互相合作,“大腦”負責解析任務需求,整合來自傳感器的信息,進行任務的細化和策略規劃;“小腦”則專注于精細的運動控制,確保在“大腦”制定的策略指導下,機器人能夠準確無誤地執行動作并進行必要的調整。目前較為普遍的方向是,機器人的“大腦”由大模型來擔任,機器人的“大腦”由大模型來擔任,“小腦”則依然為底層控制算法?!靶∧X”則依然為底層控制算法。大腦:大腦:負責 high level 的感知和規劃決策系統,是多模態大模型?;诙嗄B大模型,機器人能學習、理解、融合和對齊各傳感器采集而來的跨模態信息,實現對復雜環境的魯棒建模與更
30、精準、通用的感知,并根據環境情況,自主拆解任務、規劃動作。目前基于大模型的“大腦”技術路線正處在并行探索階段,并逐漸向端到端的大模型演進?,F階段主要是4條技術路線:LLM(大語言模型)(大語言模型)+VFM(視覺基礎模型):(視覺基礎模型):實現人機語言交互、任務理解、推理和規劃,目前最為成熟。主要代表是谷歌的SayCan 模型。VLM(視覺(視覺-語言模型):語言模型):彌合語言與視覺理解間的差距,實現更準確的任務規劃和決策,主要代表是清華大學的CoPa模型,利用嵌入在基礎模型(比如視覺語言模型的代表GPT-4V)中的常識知識為開放世界機器人操控生成一系列的自由度末端執行器姿勢,生成的操控任
31、務分為任務導向抓取和感知運動規劃。VLA(視覺(視覺-語言語言-動作模型):動作模型):在VLM基礎上增加運動控制,解決機器人運動軌跡決策問題。主要代表是谷歌RT-H模型,學習語言和運動,并使用視覺上下文,通過利用語言-視覺-動作結合的多任務數據集學習更強大和靈活的動作策略多模態大模型:多模態大模型:實現對物理世界環境的全面感知,是未來的主要研究方向。主要代表是麻省理工、IBM等共同研究的MultiPLY模型,將視覺、觸覺、語音等3D環境的各類特征作為輸入,以形成場景外觀的初步印象,并通過多視圖關聯將印象中的輸出融合到3D,最終得到以對象為中心的場景特征。283.3“小腦”:加載人工智能技術,
32、運動方式更加擬人“小腦”:加載人工智能技術,運動方式更加擬人 “小腦”的運動規劃與控制是人形機器人實現自然和流暢動作的關鍵。目前,“小腦”運動控制包括基于模型的控制方法和基于學習的控制方式兩個大類。傳統的基于模型的控制方法:傳統的基于模型的控制方法:通過建立機器人的運動學和動力學模型,進行運動軌跡規劃和平衡控制。這一類方法的特點是身體控制穩健,但步頻較慢,且整體開發較為復雜,成本高,不利于產品快速迭代身體控制穩健,但步頻較慢,且整體開發較為復雜,成本高,不利于產品快速迭代?;谀P偷目刂品椒ň唧w包括ZMP判據及預觀控制、混雜零動態規劃方法、虛擬模型解耦控制、模型預測控制+全身控制(MPC+WB
33、C)等?;趯W習的控制方法:基于學習的控制方法:使用端到端的人工智能技術,代替復雜的運動學模型,使用端到端的人工智能技術,代替復雜的運動學模型,大幅度降低了“小腦”開發難度、提升了迭代速度,一般通過人類示教或自主學習建立運動執行策略,其中通過人類示教的方式也稱為模仿學習模仿學習,效果依賴高質量示范數據;通過自主學習的方式也稱為強化學習(強化學習(Reinforcement Learning,RL),指通過精心設計學習目標,機器人不斷在環境中探索逐漸發現最大化獎勵的方式學習到最優的執行策略,效果依賴于仿真環境。圖表:一種利用比較性語言反饋學習人類偏好的機器人學習框架,更好地進行強化學習資料來源:
34、自動駕駛之心,中泰證券研究所293.3 通往通往One-Model端到端大模型是個循序漸進的過程端到端大模型是個循序漸進的過程 根據智元機器人定義的路線圖,當前具身智能大腦已經具備認知、推理、規劃的能力,且而小腦層面機器人技能任務的訓練也是通過深度學習以驅動的。隨著場景、數據的增多,多個特定小模型會逐漸泛化為通用操作大模型,并最終實現與上層模型的融合。圖表:具身智能的發展階段,從模塊化走向One Model端到端資料來源:智元機器人,甲子光年,中泰證券研究所303.4 人形機器人的核心壁壘與挑戰人形機器人的核心壁壘與挑戰數據數據 一些對人類來說很簡單的任務,對機器人來說可能并不容易,如靈巧性能
35、力、空間感知能力、平衡恢復能力等,為了克服這些問題,需要用海量數據進行訓練,使機器人變得更加智能。但同時,機器人也是一個非常新的領域,嚴重缺乏訓練數據的積累。對比不同模態下的最大數據集,文本模態約15T tokens,圖片模態有6B圖文配對數據,視頻模態有2.6B視聽特征數據。然而機器人模態只有240萬個數據片段,相比其他模態而言,數據積累遠遠不夠。針對數據這一問題,業界形成了四種流派,以快速積累機器人訓練數據,分別是遠程操作、AR、仿真、視頻學習。圖表:數據缺乏是當前機器人AI發展的主要瓶頸資料來源:Coatue,中泰證券研究所313.4.1 機器人數據積累方法機器人數據積累方法遠程操作遠程
36、操作 遠程操作,即由實驗人員操作機械手柄,遠程控制機器人做出相同動作,以此來積累數據。近期的研究通過多個操作員協作收集了大規模多樣化的數據集,結果表明,基于這些數據集訓練的機器人表現出色,甚至能夠在不同環境中泛化。然而,數據采集是這一方法更廣泛應用的主要瓶頸。在單臂機器人任務中,數據采集通常需要多個操作員、機器人以及數月的人力投入。針對類人機器人的數據采集則更具挑戰性,因為同時控制多只手臂和多指靈巧手的復雜性較高。為了實現類人機器人的實時遠程操作,研究人員開發了專門的遠程操作界面,但這些界面的成本高昂,難以實現規?;?。類人機器人的任務復雜性也更高,因此數據需求更大,但由于操作員需同時控制多臂和
37、多指手,工作負擔大幅增加,數據采集也更加困難。圖表:遠程操作收集訓練數據的操作示例資料來源:Coatue,中泰證券研究所323.4.2 機器人數據積累方法機器人數據積累方法仿真仿真 所謂仿真,即通過海量算力進行模擬運算,計算得出海量機器人訓練數據集。仿真可能是目前最有可能做到規?;瘮祿傻穆窂?,不過其背后需要巨大的算力支持。2024年11月,來自英偉達、UT Austin和UCSD的研究人員推出了一種大規模自動化數據生成系統DexMimicGen。它可基于少量人類演示合成類人機器人的靈巧手運動軌跡,幫助實現在更少人工干預下擴大類人數據的采集。DexMimicGen的核心思想是利用一小組人類演
38、示,并通過在物理仿真中進行演示轉換和重放,自動生成大量適用于雙手靈巧操作場景中模仿學習的訓練數據。例如,從僅5個源人類演示開始,DexMimicGen可以生成1000個雙手靈巧任務的演示。研究團隊從60個源人類演示中總共生成了21000個演示,涵蓋了9種不同的任務。研究團隊發現,相較僅依賴源演示,DexMimicGen大幅提升了策略成功率,所有任務中基于DexMimicGen數據集訓練的機器人表現明顯優于僅基于少量源數據訓練的機器人。且隨著DexMimicGen數據量的增加,策略的性能也隨之提升。圖表:隨著DexMimicGen數據量的增加,策略的性能也隨之提升資料來源:新智元,36氪,Git
39、hub,中泰證券研究所圖表:DexMimicGen大幅提升了策略的成功率資料來源:新智元,36氪,中泰證券研究所333.4.3 機器人數據積累方法機器人數據積累方法AR 在一項名為Explainable Human-Robot Training and Cooperation with Augmented Reality的研究中,研究人員通過AR(增強現實)技術讓人機交互過程具備更強的可解釋性,從而進行數據積累。2024年10月,斯坦福李飛飛團隊發表論文ARCap:Collecting High-quality Human Demonstrations for Robot Learning w
40、ith Augmented Reality Feedback,提出了ARCap系統。ARCap是一種便攜式數據收集系統,它通過增強現實(AR)和觸覺警告提供視覺反饋,以指導用戶收集高質量的演示。ARCap 使新手用戶能夠收集與機器人運動學相匹配的機器人可執行數據,并避免與場景發生碰撞。利用從 ARCap 收集的數據,機器人可以執行具有挑戰性的任務,例如在雜亂的環境中進行操作和長視野跨具身操作。ARCap 完全開源且易于標定;所有組件均由現成的產品構建。圖表:研究人員通過AR指導機器人行為,機器人在AR場景中自行形成計劃并行動,研究人員對結果給予反饋資料來源:Explainable Human-
41、Robot Training and Cooperation with Augmented Reality,中泰證券研究所343.4.4 機器人數據積累方法機器人數據積累方法視頻學習視頻學習 視頻學習,即通過多模態大模型,直接讓機器人通過視頻學習人類動作,從而積累訓練數據??紤]到直接學習人類操作、人類遠程操控等方式的示教成本較高,“從人類視頻中學習”已成為機器人的主流訓練方法之一,如直接通過YouTube視頻進行策略學習。但視頻學習同樣有自己難以解決的問題:1)控制上:不同于以往的示教方法(如遙操作示教及拖動示教),視頻示教沒有提供機器人本體的motion數據,agent需要僅根據演示視頻生成
42、action。2)感知方面,讓機器人理解人類演示視頻也具有很大挑戰,機器人與人類的視角不同,并且人類演示視頻中,每一幀是人手臂的運動圖像,而機器人捕獲的圖像是機械臂的運動圖像,這些原因導致了演示視頻與機器人感知的圖像之間存在gap。圖表:機器人從人類視頻中實現物理模仿資料來源:Learning by Watching:Physical Imitation of Manipulation Skills from Human Videos,CSDN,中泰證券研究所353.5 主要廠商的做法:主要廠商的做法:宇樹機器人宇樹機器人 2024年12月,宇樹開源了一系列數據采集工具和數據集。數據采集工具包
43、括但不限于:數據采集工具包括但不限于:1)針對開源機器人系統R(obot)OS推出的模擬包,包含宇樹系列機器人的質量、慣量、力矩等參數;2)使用蘋果Vision Pro對G1進行遙操作控制的倉庫,可以用于數據采集;3)RL GYM,用于機器人仿真訓練,之前開源了英偉達Issac Gym平臺上的訓練代碼,這次新增了對MuJoCo模擬仿真的支持。數據集:數據集:包含五種操作,使用配備有三指靈巧手的宇樹G1人形機器人收集,每張圖分辨率為640480,每個手臂和靈巧手的狀態和動作維度為7,可使機器人完成擰瓶蓋倒水、疊放積木等操作。在數據采集環節,宇樹運用了蘋果Vision Pro進行G1的遙操作控制,
44、該數據集采用640 x480分辨率的圖像,并記錄了機器人手臂和靈巧手的七維狀態和動作數據。圖表:宇樹開源的數據集涵蓋內容資料來源:量子位,中泰證券研究所圖表:宇樹開源的數據采集工具項目資料來源:量子位,中泰證券研究所363.5 主要廠商的做法:主要廠商的做法:特斯拉特斯拉 特斯拉在AI系統訓練中采取的是以真實數據為驅動以真實數據為驅動的策略。為訓練Optimus機器人執行類人動作,特斯拉大量招募“數據收集操作員”,要求其穿戴動作捕捉服、VR頭顯等設備,模擬機器人需完成的動作(如行走、搬運物品)。Optimus的核心亮點之一在于其利用動作捕捉技術,以及VR和AR技術的融合應用,以實現更為真實的人
45、類動作模擬。圖表:特斯拉的Optimus社交媒體賬戶發布的“數據收集操作員”的工作視頻資料來源:新浪財經,中泰證券研究所373.5 主要廠商的做法:主要廠商的做法:波士頓動力波士頓動力 以波士頓動力的 Atlas 人形機器人為例,Atlas依靠其視覺系統進行任務排序的推理,低層控制器進行行動規劃。而不管是“大腦”視覺系統還是“小腦”控制系統,都離不開數據訓練。Atlas 的訓練過程融合了多個數據來源,包括真實工廠部署數據、實驗室測試數據以及仿真環境中的模擬數據真實工廠部署數據、實驗室測試數據以及仿真環境中的模擬數據。通過對這些數據進行強化學習,不斷訓練、調優規控算法,Atlas 能夠逐步掌握類
46、似人類的精細操作技能。圖表:波士頓動力的幾款主要機器人資料來源:CSDN,中泰證券研究所圖表:波士頓動力機器人Atlas資料來源:CSDN,中泰證券研究所383.5 主要廠商的做法:主要廠商的做法:Figure AI Figure AI創建于2022年,相較于國內外幾家知名機器人公司成立時間較晚,側重于研究具身人工智能具身人工智能發展。Figure AI基于端到端運動控制算法端到端運動控制算法,結合OpenAI的GPT,先于特斯拉公開展示了人形機器人在無需預設程序的情況下的高度自主性和智能化交互,形成模型訓練-云端設施-車廠落地的閉環。近期,結束與Open AI的合作后,Figure AI實現
47、將首個自研具身模型 Helix 裝入機器人Figure。預告中展示了通過通用的“視覺-語言-感知”(VLA)模型Helix訓練機器人,將感知、語言理解和學習控制統一起來,展示出較大的多機協作與強大的泛化功能。其原理包括雙系統建構、端到端訓練、解耦架構、優化推理部署。圖表:Figure目前達成合作的部分公司(截至2024年底)資料來源:FigureAI官方社媒,51CTO.com,中泰證券研究所圖表:Figure最新發布的兩機合作完成一系列家務的演示視頻截圖資料來源:FigureAI官方社媒,中泰證券研究所393.5 Figure AI的的Helix Helix是一個通用的“視覺-語言-感知”(
48、VLA)模型,將感知、語言理解和學習控制統一起來,可以通過自然語言直接控制人形機器人整個上半身。Helix是首創的“系統是首創的“系統1、系統、系統2”VLA模型,用于對整個仿人上半身進行高速、靈巧的控制。模型,用于對整個仿人上半身進行高速、靈巧的控制。之前的方法面臨著一個基本的權衡:VLM骨架通用但不快速,而機器人視覺運動策略快速但不通用。Helix通過兩個互補系統解決了這一問題,這兩個系統經過端對端訓練,可以進行通信:系統系統 2:經過互聯網訓練的板載 VLM,工作頻率為 7-9 Hz,用于場景理解和語言理解,可廣泛應用于各種物體和環境。系統系統 1:快速反應視覺運動策略,將系統 2 生成
49、的潛在語義表征轉化為 200 Hz 的精確連續機器人動作。這種解耦架構允許每個系統以其最佳時間尺度運行,系統 2 可以“慢思考”高層次目標,而系統 1 則可以“快思考”實時執行和調整動作。在訓練效率方面,Helix 以極少的資源實現了以極少的資源實現了強大的對象泛化能力。強大的對象泛化能力。研究團隊總共使用了約 500 小時的高質量監督數據對 Helix 進行訓練,其規模僅為之前收集的 VLA 數據集的一小部分(5%),并且不依賴于多機器人-具身收集或多階段訓練。同時,Helix 只需一個統一的模型,就能在不同任務中實現強大的性能。Helix 的系統 2 參數量為 7B,系統 1 則為 800
50、0 萬。圖表:Helix:用于整個上半身控制的“系統 1、系統 2”VLA資料來源:澎湃新聞,中泰證券研究所403.5 主要廠商的做法:主要廠商的做法:銀河通用銀河通用 銀河通用機器人有限公司成立于2023年,專注于通用具身多模態大模型機器人研發,并與北京大學等多所高校成立了具身智能相關聯合實驗室。銀河通用研發的端到端具身抓取基礎大模型GraspVLA及基于仿真數據驅動的訓練范式,能夠顯著提升機器人在復雜環境下的操作精度與適應性,尤其在處理多變材質、動態工況等挑戰場景中展現出卓越優勢。GraspVLA 的訓練包含預訓練和后訓練兩部分。其中預訓練完全基于合成大數據預訓練完全基于合成大數據,訓練數
51、據達到了十億幀“視覺十億幀“視覺-語言語言-動作”對動作”對,掌握泛化閉環抓取能力、達成基礎模型。而針對特別需求,后訓練僅需小樣本學習即可遷移基礎能力到特定場景,維持高泛化性的同時形成符合產品需求的專業技能。整個開發過程整個開發過程無需大規模真實數據、僅通過合成數據達到基礎模型,開創了無需大規模真實數據、僅通過合成數據達到基礎模型,開創了VLA領域發展的全新范式。領域發展的全新范式。圖表:由銀河通用首次給出的 VLA 達到基礎模型需滿足的七大泛化金標準資料來源:騰訊新聞,中泰證券研究所圖表:銀河通用發布的第一代大模型人形機器人蓋博特資料來源:銀河通用,中泰證券研究所413.5 主要廠商的做法:
52、主要廠商的做法:智元機器人智元機器人 2024年,智元機器人在上海建了一座數據采集工廠,該數據采集工廠投入使用兩個多月,就采集了超百萬量級真機數據集,采集任務超一千種?,F在智元數據采集工廠投放了近百臺機器人,日均采集3-5w條數據。12月30日,智元機器人宣布開源 AgiBot World(智元世界)。智元AgiBot World數據集包含超過100萬條真實機器人操作數據,覆蓋家居(40%)、餐飲(20%)、工業(20%)、商超(10%)和辦公(10%)五大場景,涵蓋80余種日常技能(如抓取、折疊、熨燙)和3000多種真實物品。數據質量從實驗室級上升到工業級標準。2025年2月,智元機器人宣布
53、推出自主研發的大型仿真框架AgiBot Digital World,為機器人操作提供靈活的仿真數據生成方案、預訓練的大規模仿真數據和統一的模型評測標準,同步開源海量仿真數據。圖表:智元具身智能數據系統AIDEA資料來源:焉知科技,中泰證券研究所圖表:從事不同操作的智元機器人資料來源:智元機器人,第一財經,中泰證券研究所423.5 主要廠商的做法:主要廠商的做法:優必選優必選 在優必選內部,人形機器人訓練的數據的收集有這樣一個“二八定律”:用于人形機器人訓練的20%的數據,由真實的機器人在實際場景中進行遙操作收集而來,80%的數據則是在仿真環境下生成而來。因此,優必選搭建了人形機器人智能仿真系統
54、UNDERS2,可以低成本地為人形機器人模擬和生成多樣化的場景。同時,優必選通過與比亞迪、吉利、東風柳汽等車企合作,將人形機器人(如Walker S系列)部署在總裝車間實訓,打造人形機器人與無人物流車等協同作業人形機器人與無人物流車等協同作業的工業場景解決方案。目前優必選正在人形機器人應用場景中驗證DeepSeek技術的有效性,如多模態人機交互、復雜環境中的指令理解、工業場景中的任務分解與規劃等,有望利用推理大模型的深度思考能力解決復雜任務中的挑戰。圖表:極氪和優必選實現全球首例多臺多場景多任務人形機器人協同實訓資料來源:澎湃新聞,中泰證券研究所圖表:優必選人形機器人智能仿真系統UNDERS2
55、資料來源:澎湃新聞,中泰證券研究所433.5 主要廠商的做法:主要廠商的做法:傅利葉傅利葉 GR-1:VR動作捕捉,實現動作捕捉,實現Sim2Real。傅利葉研發團隊率先在安全可控、低成本的仿真環境中訓練GR-1,再將訓練好的模型遷移到現實世界(Sim2Real)。這種方式大幅提升了算法的迭代開發效率,降低了算法開發的總體成本。研發人員穿戴VR和動作捕捉設備,遙操控制GR-1完成各種任務,記錄動作數據,用于訓練和改進仿真模型,優化機器人運動控制策略,增強在現實中的表現,像人類一樣靈活決策,完成各種任務。利用利用 NVIDIA Isaac Gym 開發人形機器人開發人形機器人 GR-2:傅利葉團
56、隊采用了 NVIDIA Isaac Gym(現已棄用)進行強化學習,利用 NVIDIA Isaac Gym 開發人形機器人 GR-2,目前正在將其工作流遷移到 NVIDIA Isaac Lab。同時利用 Isaac Gym 對抓取算法進行預訓練,在實際部署前,對成功率進行仿真測算。這種方法顯著減少了真實世界中的試錯,節省了時間和資源。GR-2支持VR遙操作控制、拖拽示教、上位機末端控制等多種上肢示教方式。圖表:傅利葉GR-2資料來源:機器人大講堂,中泰證券研究所圖表:傅利葉機器人的方法觀察人類動作,進行模仿學習資料來源:傅利葉官網,中泰證券研究所44CONTENTS目錄CCONTENTS專 業
57、 領 先 深 度 誠 信專 業 領 先 深 度 誠 信中 泰 證 券 研 究 所中 泰 證 券 研 究 所4具身智能賦能下,未來機器人發展方向454.1 人形機器人產業未來展望:從專用到通用,從人形機器人產業未來展望:從專用到通用,從ToB到到ToC 從迭代路徑看,從迭代路徑看,To B市場是人形機器人發展的必經階段,市場是人形機器人發展的必經階段,To C市場將成為遠期重點方向。市場將成為遠期重點方向。從技術領域看,“大腦”“小腦”屬于從技術領域看,“大腦”“小腦”屬于ICT領域,“肢體”屬于工業裝備領域,兩個領域應協同發力,融合發展。但領域,“肢體”屬于工業裝備領域,兩個領域應協同發力,融
58、合發展。但不同階段的發力重點各有側重。不同階段的發力重點各有側重。在產業落地初期、應用規模較小時,人形機器人能否落地的重要因素就是其智能化水平;在大規模應用階段,成本問題成為核心因素。圖表:具身智能機器人應用場景節奏預測資料來源:甲子光年,中泰證券研究所 人形機器人落地應用節奏判斷:1)在工業制造場景,)在工業制造場景,機器人的任務執行和流程和任務本身有高度規則性,機器人具備極高的勞動力替代性。2)而服務場景)而服務場景更加開放,相關任務更加多樣化,更加不可預測,需要機器人具備更強的自主決策能力與泛化適應性。464.1 從工業制造的確定性走向家庭服務的靈活性從工業制造的確定性走向家庭服務的靈活
59、性 機器人在C端的應用最具想象力,但短期來看,任務相對聚焦,對泛化能力要求不高工業制造場景下的任務正在更快進入商業化階段。在工業制造場景實現商業化落地之后,海量機器人的具身數據疊加算力技術的進步,機器人的能力將循序漸進逐步解鎖,并向商用服務、家庭服務等更開放的場景進行延伸,屆時市場有望達萬億級。圖表:具身智能機器人在各類應用領域的市場空間分布資料來源:甲子光年,中泰證券研究所474.1 人形機器人商業化落地三階段人形機器人商業化落地三階段 根據中國信通院的研究,人形機器人或將分三個階段商業化落地。圖表:人形機器人商業化落地三階段資料來源:中國信通院,中泰證券研究所第一階段(第一階段(20242
60、030年):年):通過政策牽引,深入挖掘危險作業、極端環境等高價值場景,遴選一批可落地可推廣的典型需求。政府搭橋,推動特種應推動特種應用場景供需用場景供需雙方對接,定向開發一批產品并落地應用。第二階段(第二階段(20302035年):年):加快探索工業制造、物流等制造業相關的大規模應用場景,從“替代相對簡單且重復性的勞動”開始,成熟一代應用一代,在迭代中加速技術成熟、降低單體成本、提升整體性能,逐步提高對制造業場景的滲透率逐步提高對制造業場景的滲透率。第三階段(第三階段(2035年后):年后):加強人工智能與人形機器人的融合創新,實現更高水平的具身智能,并推動推動人形機器人進入醫院、學校、商場
61、、餐廳等服務業人形機器人進入醫院、學校、商場、餐廳等服務業場景場景,最終走入千家萬戶484.1 率先落地場景:工業制造率先落地場景:工業制造 工業制造流程的特點使得該場景在具身智能技術落地應用方面占據先發優勢,如柔性生產需求迫切、工作環境結構化程度高、成本效益優勢突出等需求特點,刺激著工業制造場景客戶對工業具身智能的應用更加期待。工業具身智能機器人能夠有效提升工廠生產任務的靈活性與適應性,并在作業過程中實現自主學習,不斷增強其復雜任務執行能力與操作精度。具身智能的訓練需要數據,而質量更高的數據需要從真實場景中來,機器人落地最快的場景仍然是場景相對封閉的工業制造場景,越早實現規?;涞?,就有望越
62、早實現模型的能力提升。圖表:具身智能機器人率先在工業制造場景創造價值資料來源:甲子光年,中泰證券研究所圖表:工業場景率先應用具身智能的原因資料來源:甲子光年,中泰證券研究所494.1 工業制造應用范例:配天機器人及其應用工業制造應用范例:配天機器人及其應用 配天機器人是一家專注于工業機器人、核心零部件及行業自動化解決方案的提供商,是京城機電旗下的國家級高新技術企業。公司始終致力于機器人技術的自主研發及高端裝備技術瓶頸的突破,同時前瞻性布局打造以具身智能、機器人行為大模型為核心的“AI+機器人”。植根于工業制造場景,配天在“AI+機器人”已經成功研發免示教焊接軟件模塊,基于繹零機器人運動控制引擎
63、,通過視覺檢測和感知技術實現對焊接任務的快速識別和自主調整,無需人工示教即可投入使用,適應工廠靈活的排產需求。應用案例:船廠應用案例:船廠BK板免示教焊接。板免示教焊接。某船舶制造廠商專注于碳鋼船體結構的生產,其生產線包含焊接工序。配天免示教焊接軟件模塊通過集成3D視覺系統,能夠自主識別工件信息,無需預先進行人工標記。該模塊可自動提取焊縫特征,并基于此選擇合適的焊接路徑規劃和工藝參數,最終驅動機器人完成焊接作業,有效滿足該產線的柔性化生產需求。圖表:配天機器人AI賦能船廠BK板免示教焊接資料來源:甲子光年,中泰證券研究所圖表:配天機器人的工業自動化解決方案資料來源:甲子光年,中泰證券研究所50
64、4.1 工業制造應用范例:偉景智能及其應用工業制造應用范例:偉景智能及其應用 偉景智能創立于2016年,是一家專注于立體智能視覺系統和智能人形機器人研發、生產及應用的高科技人工智能公司。公司的核心子公司偉景機器人成立于2017年,專注于機器人和立體智能視覺系統研發與應用,擁有完整的智能機器人的生產線和3D立體智能相機整體解決方案,并形成了以自主核心算法、核心軟件、核心硬件及行業系統解決方案為一體的全產業價值鏈。以生產裝配、危險作業為例:1)生產裝配:)生產裝配:曉唯機器人可以在汽車制造、電子設備生產等工廠中,承擔一些重復性、高精度的裝配任務,例如在汽車生產線上安裝零部件、擰緊螺絲等,助力產線自
65、動化和智能化,提高生產效率和質量。2)危險作業:)危險作業:在一些有毒、易爆、高空等危險作業環境下,曉唯機器人可以代替人類進行危險操作,減少或避免人員受傷甚至生命危險,可以最大程度地保障人員安全,提升生產環境的安全性和工作效率。圖表:曉唯機器人可用于生產裝配工作,提升生產效率和質量資料來源:偉景機器人,中泰證券研究所圖表:偉景機器人的主要產品雙足版、采摘版、AGV版人形機器人資料來源:偉景機器人,中泰證券研究所514.2 未來如何訓練機器人:世界模型未來如何訓練機器人:世界模型 世界模型:被認為是實現通用人工智能(AGI)的重要環節,終極目標是構建一個統一的模型能夠復制基本的世界動態。世界模型
66、可大體分為兩部分:內部表征和未來預測。1)內部表征:用于理解世界機制;2)未來預測:預測未來狀態以模擬和指導決策。作為具身環境的世界模型:作為具身環境的世界模型:具身環境世界模型的開發對于模擬和預測智體如何與外部世界交互和適應外部世界至關重要。這些模型不僅代表世界的視覺元素,還結合更準確反映現實世界動態的空間和物理交互。通過整合空間表示并從基于視頻的模擬過渡到沉浸式具身環境,世界模型現在可以為開發能夠與復雜的現實世界環境交互的智體提供更全面的平臺。圖表:世界模型的分部及其研究發展歷程資料來源:CSDN,中泰證券研究所圖表:作為具身智能的世界模型可分為三類:室內、室外和動態環境資料來源:CSDN
67、,中泰證券研究所524.2 世界模型正在打造具身智能技術進步的“演武場”與“彈藥庫”世界模型正在打造具身智能技術進步的“演武場”與“彈藥庫”對于具身智能,世界模型能夠輔助具身大模型進行訓練,提供的訓練型的仿真:其生成的視頻交給具身大模型,具身大模型通過它的規劃執行接下來的動作,接下來的動作交互產生新的場景、新的視角,再通過世界模型繼續生成新的數據,進行閉環仿真的測試,成為具身智能機器人的“演武場”。以NVIDIA新發布的Cosmos世界基礎模型為例,世界模型能夠為自動駕駛、具身智能機器人具身智能機器人等多種AI模型提供符合物理規律的逼真數據,大幅降低數據采集與標注的成本,充足的“彈藥”有望在未
68、來極大地加速具身智能的學習速度。圖表:幾種主要世界模型的對比World LabsDeepmind-Genie 2Nvidia-Cosmos側重點側重點從單張圖像生成3D 世界,強調空間智能生成可交互、可玩的3D 環境,用于訓練智能體構建物理感知AI 模型,生成合成數據,強調物理準確性技術方法技術方法深度學習模型,3D 重建自回歸潛在擴散模型,Transformer,CFG世界基礎模型平臺,不同規格模型核心能力核心能力2D 到3D 的轉換,遵循幾何物理規則生成可控的互動環境,模擬物理效果,長時間記憶生成物理上準確的合成數據,理解物理因果關系應用領域應用領域3D 內容生成、VR/AR、機器人導航游
69、戲開發、AI 智能體訓練、虛擬環境模擬自動駕駛、機器人、物理模擬未來應用場景未來應用場景機器人導航:機器人導航:提供環境地圖和物體識別;建筑設計、室內設計:建筑設計、室內設計:從平面圖生成3D 模型;游戲開發:游戲開發:生成游戲場景、角色和道具;虛擬現實虛擬現實/增強現實:增強現實:創建沉浸式體驗;在線廣告:在線廣告:生成商品3D 模型,用于展示和虛擬試用;文化遺產保護:文化遺產保護:對古代建筑和文物進行3D 重建。機器人訓練:機器人訓練:在虛擬環境中訓練機器人執行各種任務;游戲游戲AI:訓練更智能、更逼真的游戲角色;虛擬社交:虛擬社交:創建虛擬社交環境,用于虛擬會議、虛擬活動等;教育和培訓:
70、教育和培訓:創建交互式學習環境,例如虛擬實驗室、虛擬手術室等;電影和動畫制作:電影和動畫制作:生成虛擬場景和特效。合成數據生成:合成數據生成:為各種AI 模型提供訓練數據,降低數據采集和標注的成本;自動駕駛:自動駕駛:訓練自動駕駛系統,提高其在復雜交通環境中的適應性和安全性;機器人:機器人:訓練機器人在復雜環境中執行各種任務,例如工業自動化、物流配送等;物理模擬:物理模擬:用于科學研究和工程設計,例如模擬流體流動、材料形變等;災難預測和模擬:災難預測和模擬:模擬自然災害或人為事故,用于應急預案制定和救援演練。資料來源:甲子光年,中泰證券研究所534.2 世界模型訓練的可行性:機器人訓練成本的大
71、幅下降世界模型訓練的可行性:機器人訓練成本的大幅下降 訓練成本的降低:訓練成本的降低:隨著GPU成本的下降,大模型訓練的成本大幅降低。在截至2024年6月的過去一年中,Azure云平臺上的A100顯卡租賃價格從6美金/時下降到1.5美金/時,降幅達到75%。硬件成本同樣在快速降低。硬件成本同樣在快速降低。2020年L3 LiDAR傳感器的成本在7400美金左右,現在已經降至3200美金;類人無芯傳感器的成本也出現了明顯下降。圖表:硬件成本同樣在快速降低資料來源:Coatue,中泰證券研究所圖表:GPU成本持續下降資料來源:Coatue,中泰證券研究所54CONTENTS目錄CCONTENTS專
72、 業 領 先 深 度 誠 信專 業 領 先 深 度 誠 信中 泰 證 券 研 究 所中 泰 證 券 研 究 所5投資建議&風險提示55投資建議投資建議 作為機器人的“大小腦”,在硬件已達到較高工藝水平的情況下,具身智能的技術能力或將成為機器人發展的天花板。當前多家領軍機器人企業均已各自的方式在具身智能領域投入較多資源與精力,以提升自家機器人的泛化行為能力。我們建議投資人持續關注具身智能產業的技術變革突破、商業化落地路線、節奏與進展等。具體到標的上,建議關注索辰科技索辰科技(物理AI、機器人子公司)、能科科技能科科技(特種行業AI能力領先)等。56風險提示風險提示 機器人產業相關政策落地不及預期
73、;機器人產業相關政策落地不及預期;機器人商業化落地推進不及預期;機器人商業化落地推進不及預期;AI與具身智能產業技術發展不及預期;與具身智能產業技術發展不及預期;行業競爭加??;行業競爭加??;研報信息更新不及時的風險等。研報信息更新不及時的風險等。57重要聲明重要聲明 中泰證券股份有限公司(以下簡稱“本公司”)具有中國證券監督管理委員會許可的證券投資咨詢業務資格。本公司不會因接收人收到本報告而視其為客戶。本報告基于本公司及其研究人員認為可信的公開資料或實地調研資料,反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響。本公司力求但不保證這些信息的準確性和完整性,且本報告中的
74、資料、意見、預測均反映報告初次公開發布時的判斷,可能會隨時調整。本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告所載的資料、工具、意見、信息及推測只提供給客戶作參考之用,不構成任何投資、法律、會計或稅務的最終操作建議,本公司不就報告中的內容對最終操作建議做出任何擔保。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。市場有風險,投資需謹慎。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者應注意,在法律允許的情況下,本公司及其本公司的關聯機構可能會持有報告中涉及的公司所發行的證券并進行交易,并可能為這些公司正在提供或爭取提供投資銀行、財務顧問和金融產品等各種金融服務。本公司及其本公司的關聯機構或個人可能在本報告公開發布之前已經使用或了解其中的信息。本報告版權歸“中泰證券股份有限公司”所有。事先未經本公司書面授權,任何機構和個人,不得對本報告進行任何形式的翻版、發布、復制、轉載、刊登、篡改,且不得對本報告進行有悖原意的刪節或修改。