《計算機行業:大模型賦能人形機器人軟硬融合共創顛覆性產品-231113(32頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業:大模型賦能人形機器人軟硬融合共創顛覆性產品-231113(32頁).pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。機器人專題 行業研究|深度報告 國內藍圖開啟,海內外利好有望共振國內藍圖開啟,海內外利好有望共振。11 月 2 日,工信部印發人形機器人創新發展指導意見,明確人形機器人發展目標,2025 年實現整機批量生產,2027 年要形成安全可靠的產業鏈供應鏈體系。海外方面,特斯拉人形機器人進展迅速,在兩年不到的時間內實現了快速迭代,完成了開發平臺建造、Optimus 產品亮相以及電機扭矩控制、環境探測與記憶、雙手復雜任務等能力的實現。馬斯克預計 Optimus將大
2、規模量產至“百萬”量級,預計其單臺成本或將低于 2 萬美元。軟硬融合,打造人形機器人新高度軟硬融合,打造人形機器人新高度。軟件決定人形機器人高度,算法需與硬件匹配。人形機器人本質是 AI 系統落地物理世界的最佳載體,算法是核心,需與硬件匹配。根據 GGII 預測,到 2026 年全球人形機器人在服務機器人中的滲透率有望達到3.5%,市場規模超 20 億美元,到 2030 年全球市場規模有望突破 200 億美元。大模型賦能人形機器人,具身智能是未來目標大模型賦能人形機器人,具身智能是未來目標。人形機器人是軟硬件能力高集成的實體,商業化的核心突破點在于“AI 大腦”。大模型為人形機器人的發展帶來了
3、新的突破,使機器人具備更高的事物處理能力和自然語言交互能力。大模型的泛化能力則讓研究者看到了人形通用機器人的曙光,泛化能力的出現讓大模型能夠在沒有被訓練過的場景中也能表現出色,是 AI 實現通用性的基礎。綜合使用多種數據模式的信息,可以顯著提升模型的性能。因此,端到端的訓練方式會在機器人模型領域有更多優勢。今年內,科技巨頭們紛紛加入了機器人大模型的探索中來,試圖找到一條適合于通用機器人的算法道路。目前來看,距離實現真正的具身智能水平的模型還有很長的路要走目前來看,距離實現真正的具身智能水平的模型還有很長的路要走。機器人大模型還面臨著諸多問題:機器人算法的訓練需要大量機器人真實數據,但實際可用于
4、訓練機器人學會執行新任務新技能的高質量數據非常匱乏;同時,機器人大模型行動控制的周期仍太長,無法做到實時響應,需要大量算力支撐;人形機器人零部件眾多,做好軟硬件協同才能發揮其硬件水平。國內頂層設計規劃路線,明確量產時間點、關鍵技術、重點產品以及示范性應用場景,國內頂層設計規劃路線,明確量產時間點、關鍵技術、重點產品以及示范性應用場景,結合海外以特斯拉結合海外以特斯拉 Optimus 為代表的人形機器人持續推進,人形機器人產業化迎來曙為代表的人形機器人持續推進,人形機器人產業化迎來曙光光。我們看好人形機器人產業趨勢,建議關注產業鏈上的核心零部件相關公司以及大模型公司:總成總成:三花智控(0020
5、50,買入)(汽車組覆蓋)、拓普集團(601689,買入)(汽車組覆蓋);空心杯電機空心杯電機:鳴志電器(603728,未評級)、鼎智科技(873593,未評級);減速器減速器:綠的諧波(688017,未評級)、雙環傳動(002472,未評級)、中大力德(002896,未評級);編碼器編碼器:奧普光電(002338,未評級)、禾川科技(688320,未評級)、匯川技術(300124,未評級)、昊志機電(300503,未評級)、峰岹科技(688279,未評級)、儒競科技(301525,未評級)絲杠和軸承絲杠和軸承:五洲新春(603667,買入)、恒立液壓(601100,未評級)、貝斯特(3005
6、80,未評級)、秦川機床(000837,未評級)、鼎智科技(873593,未評級)、禾川科技(688320,未評級);配套高端設備配套高端設備:田中精機(300461,未評級)、華辰裝備(300809,未評級)、浙海德曼(688577,未評級)、日發精機(002520,未評級);傳感器傳感器:柯力傳感(603662,未評級)、昊志機電(300503,未評級);IMU:芯動聯科(688582,未評級)、華依科技(688071,未評級)、蘇州固锝(002079,未評級)等。大模型大模型:科大訊飛(002230,買入)、鼎捷軟件(300378,未評級)、中科創達(300496,買入)等 風險提示風險
7、提示 人形機器人進展不及預期;國產替代進程不及預期;行業競爭加劇 投資建議與投資標的 核心觀點 國家/地區 中國 行業 計算機行業 報告發布日期 2023 年 11 月 13 日 王天一 021-63325888*6126 執業證書編號:S0860510120021 浦俊懿 021-63325888*6106 執業證書編號:S0860514050004 楊震 021-63325888*6090 執業證書編號:S0860520060002 香港證監會牌照:BSW113 丁昊 執業證書編號:S0860522080002 覃俊寧 大模型賦能人形機器人,軟硬融合共創顛覆性產品 看好(維持)計算機行業深
8、度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。2 目 錄 一、人形機器人:曙光已現,軟硬融合共造顛覆性產品.5 1.1 國內藍圖開啟,海內外利好有望共振.5 1.2 軟硬融合,打造人形機器人新高度.9 二、大模型+機器人:未來智能革命將至.13 2.1 大模型賦能人形機器人,具身智能是未來目標.13 2.2 科技巨頭紛紛入局,通用機器人算法路線仍需探索.16 三、機器人大模型面臨的問題.26 3.1 高質量訓練數據缺乏,合成數據有望成為新方向.26
9、 3.2 實時性仍需提升,算力可能是瓶頸.27 3.3 軟硬件融合是最終目標.28 投資建議與投資標的.30 風險提示.30 2VyWNAfUfWnVtPtP6MbPbRsQpPnPsRiNrQnMjMqRrN9PnMtPNZmPsONZmRpP 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。3 圖表目錄 圖 1:工信部印發人形機器人創新發展指導意見明確發展目標和重點任務.5 圖 2:特斯拉人形機器人發展歷程圖.8 圖 3:人形機器人軟
10、硬件架構示意圖.9 圖 4:人形機器人行業產業鏈.9 圖 5:2026-2030 年全球及中國人形機器人行業市場規模預測(單位:億美元).10 圖 6:2023 年人形機器人核心零部件價值量分布圖預測.10 圖 7:2030 年人形機器人核心零部件價值量分布圖預測.10 圖 8:特斯拉人形機器人 FSD 視覺感知方案分析圖.11 圖 9:AI 大模型助力人形機器人拆解任務示意圖.12 圖 10:具身智能的研究是多學科交叉的.13 圖 11:波士頓動力機器狗接入 ChatGPT 能力后能與人類交互.14 圖 12:波士頓動力機器狗可以扮演不同性格的導游.14 圖 13:泛化的種類.14 圖 14
11、:Tesla Optimus 是完全端到端訓練的.15 圖 15:GPT-4V 可以與環境進行正確交互.16 圖 16:具身智能機器人算法一覽圖.16 圖 17:傳統機器人任務需要工程師不斷調整目標.17 圖 18:引入 ChatGPT 后無需工程師在循環中進行調整.17 圖 19:ChatGPT for Robotics 的設計原則.17 圖 20:ChatGPT 可操作機器臂拼出微軟 Logo.18 圖 21:需要將外部環境轉化為文字信息輸入給 ChatGPT.18 圖 22:PaLM-E 能夠接收多模態信息并輸出決策文本.18 圖 23:PaLM-E 具備遷移學習能力.19 圖 24:P
12、aLM-E 可以進行 zero-shot 多模態思維鏈推理.19 圖 25:RT-2 架構和操作字符串的表示方式.20 圖 26:RT-2 的任務成功率高于基線模型.20 圖 27:RT-2 具備比基線模型更強的泛化能力.20 圖 28:加入思維鏈能力使得 RT-2 能夠處理更復雜的問題.21 圖 29:Voxposer 流程一覽圖.21 圖 30:Voxposer 的涌現能力.22 圖 31:RoboAgent 采用的數據集遠遠小于 RT-1.22 圖 32:RobeAgent 采用了數據增廣技術對數據集進行擴充.23 圖 33:RoboAgent 有更高的效率和更強的泛化能力.23 圖 3
13、4:Open X-Embodiment 數據集.24 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。4 圖 35:RT-1-X 性能表現較原有方法大幅提升.24 圖 36:RT-2-X 的涌現能力是 RT-2 的三倍.24 圖 37:Eureka 能夠訓練機器人執行復雜動作.25 圖 38:Eureka 工作流程.25 圖 39:以人類設計算法為初始條件的 Eureka 表現進一步提升.25 圖 40:Open X-Embodiment
14、 數據集一覽.26 圖 41:MimicGen 合成機器人任務數據.27 圖 42:MimicGen 可生成多種場景的機器人任務數據.27 圖 43:Voxposer 需要 8 倍速播放才有流暢的動作.28 圖 44:RT-2 需要 2 倍速播放才有流暢的動作.28 圖 45:特斯拉 Dojo 超算算力規模預測.28 圖 46:特斯拉將基于 Dojo 訓練機器人模型.28 圖 47:Tesla Optimus 機器人硬件結構.29 表 1:工信部印發人形機器人創新發展指導意見指出要攻克的關鍵技術.6 表 2:工信部印發人形機器人創新發展指導意見指出要攻關的重點產品和部組件.6 表 3:2023
15、 年部分全球人形機器人代表性企業產品分析.7 表 4:中國人形機器人行業核心零部件國產替代空間對比和部分代表企業.11 表 5:人形機器人執行層面兩大關鍵環節分析.12 表 6:人形機器人算法訓練兩大關鍵環節分析.12 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。5 一、人形機器人:曙光已現,一、人形機器人:曙光已現,軟硬融合軟硬融合共造顛覆性產共造顛覆性產品品 1.1 國內藍圖開啟,海內外利好有望共振 國內藍圖開啟,人形機器人有望成
16、為顛覆性產品。國內藍圖開啟,人形機器人有望成為顛覆性產品。2023 年 11 月 2 日,工信部印發人形機器人創新發展指導意見,明確指出:人形機器人集成人工智能、高端制造、新材料等先進技術,有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品,將深刻變革人類生產生活方式,重塑全球產業發展格局。明確發展目標,明確發展目標,2025 年實現整機批量生產,年實現整機批量生產,2027 年要形成安全可靠的產業鏈供應鏈體系。年要形成安全可靠的產業鏈供應鏈體系。指導意見明確指出發展目標:到2025年,人形機器人創新體系初步建立,“大腦、小腦、肢體”等一批關鍵技術取得突破,確保核心部組件安全有效供給。整機產
17、品達到國際先進水平,并實現批量生產,在特種、制造、民生服務等場景得到示范應用,探索形成有效的治理機制和手段。培育 2-3 家有全球影響力的生態型企業和一批專精特新中小企業,打造 2-3 個產業發展集聚區,孕育開拓一批新業務、新模式、新業態。2)到 2027 年,人形機器人技術創新能力顯著提升,形成安全可靠的產業鏈供應鏈體系,構建具有國際競爭力的產業生態,綜合實力達到世界先進水平。產業加速實現規?;l展,應用場景更加豐富,相關產品深度融入實體經濟,成為重要的經濟增長新引擎。圖 1:工信部印發人形機器人創新發展指導意見明確發展目標和重點任務 數據來源:工信部,東方證券研究所 關鍵技術攻克:關鍵技術
18、攻克:指導意見提出以大模型等人工智能技術突破為引領,在機器人已有成熟技術指導意見提出以大模型等人工智能技術突破為引領,在機器人已有成熟技術基礎上,重點在人形機器人“大腦”和“小腦”、“肢體”關鍵技術、技術創新體系等領域取得基礎上,重點在人形機器人“大腦”和“小腦”、“肢體”關鍵技術、技術創新體系等領域取得突破。突破。一是開發基于人工智能大模型的人形機器人“大腦”,增強環境感知、行為控制、人機交互能力,開發控制人形機器人運動的“小腦”,搭建運動控制算法庫,建立網絡控制系統架構。二是系統部署“機器肢”關鍵技術群,打造仿人機械臂、靈巧手和腿足,攻關“機器體”關 計算機行業深度報告 大模型賦能人形機器
19、人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。6 鍵技術群,突破輕量化骨骼、高強度本體結構、高精度傳感等技術。三是構建完善人形機器人制造業技術創新體系,支持龍頭企業牽頭聯合產學研用組成創新聯合體,加快人形機器人與元宇宙、腦機接口等前沿技術融合,探索跨學科、跨領域的創新模式。表 1:工信部印發人形機器人創新發展指導意見指出要攻克的關鍵技術 關鍵技術攻克 機器人“大腦”關鍵技術群 圍繞動態開放環境下人形機器人感知與控制,突破感知-決策-控制一體化的端到端通用大模型、大規模數據集
20、管理、云邊端一體計算架構、多模態感知與環境建模等技術,提高人形機器人的人-機-環境共融交互能力,支撐全場景落地應用。機器人“小腦”關鍵技術群 面向人形機器人復雜地形通過、全身協同精細作業等任務需求,開展高保真系統建模與仿真、多體動力學建模與在線行為控制、典型仿生運動行為表征、全身協同運動自主學習等關鍵技術研究,提升人形機器人非結構化環境下全身協調魯棒移動、靈巧操作及人機交互能力。機器肢關鍵技術群 面向人形機器人高動態、高爆發和高精度等運動性能需求,研究人體力學特征及運動機理、人形機器人動力學模型及控制等基礎理論,突破剛柔耦合仿生傳動機構、高緊湊機器人四肢結構與靈巧手設計等關鍵技術,為人形機器人
21、靈活運動夯實硬件基礎。機器體關鍵技術群 面向人形機器人本體高強度和高緊湊結構需求,研究人工智能驅動的骨架結構拓撲優化、高強度輕量化新材料、復雜身體結構增材制造、能源-結構-感知一體化設計以及惡劣環境防護等關鍵技術,打造具有高安全、高可靠、高環境適應性的人形機器人本體結構。數據來源:工信部,東方證券研究所 重點產品和部組件攻關:重點產品和部組件攻關:指導意見將打造整機產品、夯實基礎部組件、推動軟件創新作為主指導意見將打造整機產品、夯實基礎部組件、推動軟件創新作為主要發力方向。要發力方向。在整機產品方面,打造基礎版整機,構筑人形機器人通用整機平臺,開發低成本交互型、高精度型以及極端環境下高可靠型等
22、人形機器人整機產品,強化人形機器人整機的批量化生產制造能力;在基礎部組件方面,開發人形機器人專用傳感器、高功率密度執行器、專用芯片,以及高能效專用動力組件;在軟件創新方面,構建人形機器人高實時、高可靠、高智能的專用操作系統,開發面向各類場景的應用軟件,建設完善人形機器人應用開發平臺和工具包。表 2:工信部印發人形機器人創新發展指導意見指出要攻關的重點產品和部組件 重點產品和部組件攻關 基 礎 版整機 面向類人外觀、雙腿行走和雙臂雙手靈巧操作的基本形態功能,建立人形機器人基礎軟硬件架構,打造“公版”通用平臺,支持不同場景需求下的結構改造、算法優化以及特定能力強化。功 能 型整機 開發低成本交互型
23、人形機器人,強化人類生活環境適應能力、多模態人機交互能力。開發高精度型人形機器人,強化雙臂雙手精細操作、工件魯棒識別、軌跡智能規劃等上肢作業能力。開發高可靠型人形機器人,強化惡劣環境生存、復雜地形適應、外力沖擊防護等能力。傳感器 面向復雜環境感知需求,開發集成高精度仿生眼與類腦處理算法的視覺傳感器,推出寬頻響、高靈敏的仿生聽覺傳感器,開發高分辨率和具有多點接觸檢測能力的仿人電子皮膚,推出高靈敏檢測多種氣體的仿生嗅覺傳感器,形成人形機器人專用傳感器產品譜系。執行器 面向人形機器人高爆發移動需求,突破高功率密度液壓伺服執行器,打造高緊湊液壓馬達、缸、泵、閥及一體化單元系列產品。突破高力矩密度減速器
24、、高功率密度電機、伺服驅動器等融合的高精度電驅動執行器,打造電驅動旋轉關節、電推桿產品??刂破?面向高實時協調運動控制需求,研發具有高動態運動驅動、高速通信等功能的專用芯片,研制“感-算-控”一體化的高性能運動控制器。面向人形機器人認知與決策需求,研發具有多模態空間感知、行為規劃建模與自主學習等能力的智能芯片,提升人形機器人協調控制能力。計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。7 動 力 能源 高動態、長續航能量需求,突破高能量密
25、度電池、智能電源管理、電池組優化匹配等關鍵技術,開發高能效、高緊湊動力能源總成產品,提升人形機器人的續航與環境適應能力。數據來源:工信部,東方證券研究所 拓展場景應用:拓展場景應用:指導意見從特種領域、制造業典型場景、民生及重點行業三類方向提出意見指導意見從特種領域、制造業典型場景、民生及重點行業三類方向提出意見措施。措施。一是加快人形機器人在特種環境應用,面向惡劣條件、危險場景作業等需求,強化復雜環境下本體控制、快速移動、精確感知等能力。二是聚焦 3C、汽車等制造業重點領域,提升人形機器人工具操作與任務執行能力,打造人形機器人示范產線和工廠,在典型制造場景實現深度應用。三是拓展人形機器人在醫
26、療、家政等民生領域服務應用,滿足生命健康、陪伴護理等高品質生活需求,推動人形機器人在農業、物流等重點行業應用落地,提升人機交互、靈巧抓取、分揀搬運、智能配送等作業能力?;仡櫄v史,早在 1986-1993 年,日本本田公司接連開發了 E0 到 E6 等 7 種行走機器人,只有腿部結構,主要用于研究行走功能。1993 年,公司在研制的 P1 基礎上加上了雙臂使其初具人形,而后同年完成的 P3則是 ASIMO的原型。2000年,本田公司推出 ASIMO;2013年,美國波士頓動力公司推出 Atlas,能夠在碎石堆上行走。當前人形機器人的主要布局者多為科技公司,也有多家跨界公司入局。美國 1X tec
27、hnologies 公司與 ADT commercial 合作成功開發的 EVE 機器人可用于安保、護理、調酒等場景,目前在售,每月可生產 10 臺,在美國和歐洲部分地區開始投入使用;公司的 NEO 機器人主要應用于安保、物流、制造、機械操作以及處理復雜的作業,2023 年底開始接受預訂。英國 Engineered Arts 研發的Ameca 機器人可以在與人類互動時檢測情緒和年齡,并可以用常見的表情進行交流,主要應用于實驗研究、展覽、接待、教育等領域。國內有小米 Cyberone 重建真實世界、實現運動姿態平衡、感知人類情緒;優必選 Walker X 主要應用于科技展館、影視綜藝、商演活動、
28、政企展廳;智元機器人遠征 A1 預計先應用在工業制造領域,隨后逐步走向 to C 應用。表 3:2023 年部分全球人形機器人代表性企業產品分析 公司 人形機器人 身高(cm)體重(kg)速度(km/h)自由度 (關節數)功能及應用場景 1X technologies(美國)EVE 186 83 14.4/安保、護理、調酒等 NEO/30 步行:4 跑步:12/主要應用于安保、物流制造、機械操作以及處理復雜的作業 特斯拉(美國)Optimus 173 73 8 50 澆水植物、移動金屬棒環境感知和記憶力較好力度控制較準確等 Boston dynamics(美國)Atlas 150 89 9 2
29、8 可以行走、奔跑并穿越多種復雜地形、手部靈活能完成抓取等動作 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。8 Agility Robotics(美國)Digit 175 不足 65/16 移動手提袋或包裹、卸貨、行走交付 Engineered Arts(英國)Ameca 187 49/61 可以在與人類互動時檢測情緒和年齡,并可以用常見的表情進行交流,應用于實驗研究、展覽、接待、教育 本田(日本)ASIMO 130 50 2.7 5
30、7 可同時與多人進行對話,不僅可以步行、奔跑、倒退走、跳躍,也可以在些微不平的地面行走 小米(中國)Cyberone 177 52 3.6 21 重注真實世界,實現運動動態平衡、感知人類情緒 優必選(中國)Wolker X 130 63 3 41 復雜地形自適應、動態足腿控制、手眼協調操作,U-SLAM 視覺導航;主要應用于科技展館、影視綜藝、商演活動、政企展廳 智元機器人(中國)遠征 A1 175 55 7 49+先應用在工業制造領域隨后逐步走向 To C 應用 數據來源:公司官網,前瞻產業研究院,東方證券研究所 特斯拉人形機器人進展迅速,特斯拉人形機器人進展迅速,在兩年不到的時間內實現了快
31、速迭代,完成了開發平臺建造、在兩年不到的時間內實現了快速迭代,完成了開發平臺建造、Optimus 產品亮相以及電機扭矩控制、環境探測與記憶、雙手復雜任務等能力的實現。產品亮相以及電機扭矩控制、環境探測與記憶、雙手復雜任務等能力的實現。2021 年首屆特斯拉 AI DAY 上其首席執行官馬斯克首次公布特斯拉機器人 Tesla Optimus 概念圖。2022年特斯拉AI DAY上特斯拉公布了Optimus原型機的首秀,實現了自主行走,轉身,揮手等動作。2023 年 5 月的股東大會提到特斯拉自研超算 Dojo 為 Optimus 提供算力支持,可加快訓練速度并降低訓練成本,加快人形機器人的產業化
32、落地。截至 2023 年 8 月,至少有五個特斯拉 Optimus機器人原型已經建成并能夠行走,使用的電機、控制器和電子設備均由特斯拉設計和制造。馬斯馬斯克克預計預計 Optimus 將大規模量產至“百萬”量級,預計其單臺成本或將低于將大規模量產至“百萬”量級,預計其單臺成本或將低于 2 萬美元。萬美元。圖 2:特斯拉人形機器人發展歷程圖 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。9 數據來源:特斯拉公司官網,前瞻產業研究院,東方證
33、券研究所 1.2 軟硬融合,打造人形機器人新高度 軟件決定人形機器人高度,算法需與硬件匹配。軟件決定人形機器人高度,算法需與硬件匹配。人形機器人本質是 AI 系統落地物理世界的最佳載體,算法是核心,需與硬件匹配。機器人的輸出包含了虛擬與物理兩種能力。雖然人形機器人從本體硬件上看,存在抗壓硬度與靈敏度不足的問題,但更核心問題在于是算法對運動能力的控制,包括本體平衡、行走的步態、手部抓取等規劃與控制。這需要成熟的感知系統基礎、強大的算法分解任務和規劃動作、大模型不斷仿真訓練以及超強的算力支撐,同時要求算法與硬件相匹配。這要求機器人企業需自研算法,并持續更新迭代。圖 3:人形機器人軟硬件架構示意圖
34、數據來源:Tesla AI Day,前瞻產業研究院,東方證券研究所 硬件方面看,硬件方面看,人形機器人產業鏈主要包括上游的核心零部件,例如無框力矩電機、空心杯電機、傳感器、專用芯片等;中游為機器人本體制造,包括設計、制造、測試三大環節;下游為人形機器人應用領域,包括工業制造、倉儲物流、醫療服務、商業服務、家庭使用等。圖 4:人形機器人行業產業鏈 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。10 數據來源:Tesla AI Day,前瞻
35、產業研究院,東方證券研究所 從全球范圍來看,人形機器人已有商業應用場景預期落地從全球范圍來看,人形機器人已有商業應用場景預期落地,例如巡邏、物流倉儲等領域。商業化進程領先的人形機器人產品則有 EVE 和 Digit。具體而言,美國 1X technologies 公司與 ADT commercial 公司共同研發的人形機器人 EVE 目前已成功應用于巡邏安保場景;Digit 的應用場景主要是在物流倉儲環節,進行的任務主要包括卸載貨車、搬運箱子、管理貨架等,預計將在2025年全面上市。在政策、資本以及技術多維度賦能下,人形機器人市場的潛力有望被加速釋放。未來的商業應用場景有望滲透進入服務業、制造
36、業等領域。馬斯克曾表示其設計特斯拉機器人的遠景目標是讓其服務于千家萬戶比如做飯、修剪草坪、照顧老人等。目前較有潛力的人形機器人發展方向主要面向制造業、航天探索、生活服務業、高??蒲械?,預計2025年人形機器人將有望實現制造業場景應用的突破,小批量應用于電子、汽車等生產制造環境。根據根據 2023 年年 5 月月 GGII 發布發布的報告預測,預計到的報告預測,預計到 2026 年全球人形機器人在服務機器人中的滲透率有望達到年全球人形機器人在服務機器人中的滲透率有望達到 3.5%,市場規模,市場規模超超 20 億美元,到億美元,到 2030 年全球市場規模有望突破年全球市場規模有望突破 200
37、億美元。參考中國服務機器人市場約占全球億美元。參考中國服務機器人市場約占全球市場市場 25%的數值測算,的數值測算,2030 年中年中國人形機器人市場規模將達國人形機器人市場規模將達 50 億美元。億美元。圖 5:2026-2030 年全球及中國人形機器人行業市場規模預測(單位:億美元)數據來源:GGII,前瞻產業研究院,東方證券研究所 根據 Tesla AI Day 的預測數據,以特斯拉 Optimus 為例,2023 年人形機器人核心零部件價值量排名前三的是無框力矩電機、減速器和力傳感器;2030 年無框力矩電機價值量占比下降,力傳感器、減速器價值量占比上升,且力傳感器將超過減速器,排名第
38、二,三者合計占比仍超過 50%。圖 6:2023 年人形機器人核心零部件價值量分布圖預測 圖 7:2030 年人形機器人核心零部件價值量分布圖預測 202005500501001502002502026E2030E全球中國 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。11 數據來源:Tesla AI Day,前瞻產業研究院,東方證券研究所 數據來源:前瞻經濟學人 APT,東方證券研究所 從單機價值量占比來看,無框力矩電機、減速器和力傳
39、感器價值量占比較高;從降本空間來看,空心杯電機、無框力矩電機等降本空間較大;而從國產替代空間來看,行星滾柱絲杠、空心杯電機、慣導 imu 等國產化率較低,國產替代空間大。表 4:中國人形機器人行業核心零部件國產替代空間對比和部分代表企業 核心零部件 2023 單機價值量占比 國產化率 部分代表企業 無框力矩電機 21%中等 步科股份、禾川科技、昊志機電等 減速器 16%較高 綠的諧波、昊志機電、國茂股份、秦川機床、豐立智能、雙環傳動、中大力德、科風智能等 力傳感器 16%中等 柯力傳感、昊志機電等 絲杠 14%低 五洲新春、新劍傳動、貝斯特、恒立液壓、秦川機床、鼎智科技、禾川科技、長盛軸承、南
40、京工藝等 空心杯電機 4%低 鳴志電器、鼎智科技(江蘇雷利)、拓邦股份等 慣導 imu 1%低 芯動聯科、華依科技、蘇州固锝等 數據來源:Tesla Al Day,各公司官網,前瞻產業研究院,東方證券研究所 軟件方面看,軟件方面看,特斯拉特斯拉 FSD純視覺深度學習神經網絡漸趨成熟,可嫁接至人形機器人。純視覺深度學習神經網絡漸趨成熟,可嫁接至人形機器人。與自動駕駛類似,人形機器人同樣需利用傳感器(攝像頭、激光雷達等)感知、采集和處理周圍環境信息,以便做出決策。特斯拉人形機器人僅使用3個攝像頭(中間魚眼攝像頭、左右各一個視覺攝像頭),直接嫁接 FSD 成熟的純視覺方案,再輔之以力、力矩、聲學、觸
41、覺、溫度等傳感器。圖 8:特斯拉人形機器人 FSD 視覺感知方案分析圖 無框力矩電機,21.00%減速器,16.00%力傳感器,16.00%絲杠,14.00%空心杯電機,4.00%慣導 imu,1.00%其他,28.00%無框力矩電機減速器力傳感器絲杠空心杯電機慣導 imu無框力矩電機,18.00%力傳感器,18.00%減速器,17.00%絲杠,16.00%空心杯電機,1.00%慣導 imu,2.00%其他,28.00%無框力矩電機力傳感器減速器絲杠空心杯電機慣導 imu 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分
42、析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。12 數據來源:Tesla AI DAY,前瞻產業研究院,東方證券研究所 人形機器人決策難度更高:決策層依據感知層獲取的信息進行決策判斷,來控制機器人身體做出人形機器人決策難度更高:決策層依據感知層獲取的信息進行決策判斷,來控制機器人身體做出動作規劃并下發指令。動作規劃并下發指令。特斯拉人形機器人與 FSD 底層模塊打通,一定程度上算法可復用,但人形機器人需完成人類各種動作,動作連續復雜、需頻繁的物理交互且操作因果性多,算法難度遠高于自動駕駛。隨著人工智能大模型的快速發展,ChatGPT 能夠助力人形機器人拆解
43、任務。大語言模型擅長推斷語言條件,并利用其代碼編寫能力,拆分任務,給出運動規劃的目標函數。圖 9:AI 大模型助力人形機器人拆解任務示意圖 數據來源:Tesla AI DAY,前瞻產業研究院,東方證券研究所 執行:人形整機平衡與行走步態是關鍵。執行:人形整機平衡與行走步態是關鍵。人形機器人執行層指的是系統在做出決策后,對機器人本體做出控制。機器人各操控系統都與決策系統相鏈接,并按指令精確執行。其中,人形整機平衡與行走步態是最基本也是最關鍵的兩個環節。表 5:人形機器人執行層面兩大關鍵環節分析 關鍵環節 具體分析 自平衡系統 機器人在不同環境下保持動態平衡(特別是外力沖擊下),需要軟件算法和機械
44、設計共同作用。軟件層面看,一方面通過傳感器獲取機器人的狀態信息,從而控制關節運動實現平衡;另一方面,通過預測機器人的運動軌跡和所需動作,而提前應對。行走步態 零力矩點(必須落在支撐面內,合理地規劃踝關節和髖關節,以保持動態行走時重心的穩定;同時腿部應具備適當的機械柔順性,有效緩解來自未知高剛度環境的碰撞沖擊)。這均要求算法與關節硬件相匹配。數據來源:前瞻產業研究院,東方證券研究所 仿真:算法訓練可提升機器人智能化水平。仿真:算法訓練可提升機器人智能化水平。仿真的目的在于評估機器人結構和算法的設計,包括機器人的運動、工作環境、感知等,意義在于通過仿真模型快速、低成本、高安全性地訓練機器人的算法。
45、通過仿真,可加快軟件更新迭代,同時縮短算法與硬件調整時間,極大提高訓練效率。另外,隨著芯片與 AI 技術的發展,未來端到端訓練有望突破,人形機器人具身智能未來可期。表 6:人形機器人算法訓練兩大關鍵環節分析 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。13 關鍵環節 具體分析 AI 大模型仿真學習 仿真的目的在于評估機器人結構和算法的設計,包括機器人的運動、工作環境、感知等,意義在于通過仿真模型快速、低成本、高安全性地訓練機器人的算法
46、。通過仿真,可加快軟件更新迭代,同時縮短算法與硬件調整時間,極大提高訓練效率 端到端訓練 特斯拉 ESD 將推出 12 版本,將小模型集成至大模型中,也有望應用于機器人,提高訓練效率。具身智能是人工智能的終極形態,機器人可理解、推理并與物理世界互動,集視覺、語言、認知和推理、機器學習等大成。數據來源:前瞻產業研究院,東方證券研究所 二、大模型二、大模型+機器人:未來智能革命將至機器人:未來智能革命將至 2.1 大模型賦能人形機器人,具身智能是未來目標 人形機器人是軟硬件能力高集成的實體,商業化的核心突破點在于“AI 大腦”??梢哉f,當前的AI 大腦在邏輯思維和行為智慧決策層面還需要一段成長空間
47、,其驅動力很大程度上來自于算法的升級與高水平的智能化。具身智能是人形機器人想要實現的具身智能是人形機器人想要實現的最終最終方向方向。具身智能是指一種智能系統或機器能夠通過感知和交互與環境(物理世界)產生實時互動的能力。具身智能包括三個模塊:具身感知(Perception)、具身想象(Imagination)和具身執行(Execution),AI+機器人正是“具身智能”當前的落點。在機器人領域,有一個“莫拉維克悖論”人類所獨有的高階智慧能力只需要非常少的計算能力,但無意識的技能和直覺(如辨識人臉、舉起鉛筆、在房間內走動、轉筆等能力)卻需要極大的運算能力,即越簡單的事情越難,越難的事情越簡單。具身
48、智能機器人未來要能夠像人一樣與環境交互、感知、決策、完成任務,其感知層和認知層的能力是非常高的。顯然,當下的人形機器人距離這一狀態還有非常巨大的差距。人形機器人傳感器數量、品類、執行機構復雜程度遠高于工業機器人,對控制器實時算力、集成度要求極高。圖 10:具身智能的研究是多學科交叉的 數據來源:上海交通大學盧策吾,東方證券研究所 大模型為人形機器人的發展帶來了新的突破大模型為人形機器人的發展帶來了新的突破。以往由于算法模型的局限,機器人難以實現通用化能力,只能通過對于某一個特定領域訓練對應的基礎模型,達到能夠滿足特定用途的機器人 AI 算法,比如工廠車間大量采用的機器人臂、家用掃地機器人等。軟
49、件層面的局限性限制了機器人的應用場景狹窄、可通用性較差,無法充分發揮硬件層面的性能。而大模型的出現,補全了讓機器 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。14 人能力實現躍升的技術基礎。大模型的向量應用提供了大腦給機器人,使機器人具備更高的事物處理能力。大模型的 Chat應用把自然語言理解提供給了機器人,機器人首次可以用接近人的語言水平,和真實人類聊天,進行基于自然語言的互動。此外,大模型的編程輔助可以肉眼可見的減少軟件工程師的工
50、作量,產出軟件的成本會逐年下降。ChatGPT 已經已經在在機器狗領域機器狗領域落地應用,人形機器人未來可期落地應用,人形機器人未來可期。今年 4月,AI公司 Levatas與波士頓動力合作,將 ChatGPT 和谷歌的語音合成技術接入 Spot 機器狗,成功實現與人類的交互??梢哉f,ChatGPT 的成功,也為人形機器人這一更加高級的領域帶來了發展拐點。以 ChatGPT 為代表的語言大模型能夠實現近似人一樣的自然語言交互,多模態大模型則能讓人形機器人能夠通過“視覺”去與環境交互??梢哉f,大模型賦予了人形機器人一個通識大腦,從而能夠順暢地和外界對話,還可以增加任務理解、拆分和邏輯推理等“決策
51、”能力。圖 11:波士頓動力機器狗接入 ChatGPT 能力后能與人類交互 圖 12:波士頓動力機器狗可以扮演不同性格的導游 數據來源:cybernews,東方證券研究所 數據來源:cybernews,東方證券研究所 大模型的泛化能力大模型的泛化能力讓研究者看到人形讓研究者看到人形通用機器人通用機器人的曙光的曙光。以往的 AI 模型訓練完成后,就只能用于其被設計出來的場景中,難以進行拓展,無法實現通用性。而大模型具備強大的泛化能力,讓通用這一目標的實現成為了可能。泛化(Generalization)可以理解為一種遷移學習的能力,把從過去的經驗中學習到的表示、知識和策略應用到新的領域。人類就具有
52、“舉一反三”的能力,學習一個新概念后立即就能理解它在其他情況下的相關用法。以往的 AI 泛化能力很低,應用場景比較局限,泛化能力的出現讓大模型能夠在沒有被訓練過的場景中也能表現出色,是 AI 實現通用性的基礎。人形機器人所面臨的應用場景與人類的日常生活接近,需要面對多種多樣、不重復、沒見過的任務,模型的泛化能力就成為了其能否真正實現通用的核心要素。圖 13:泛化的種類 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。15 數據來源:Met
53、aState-of-the-art generalization research in NLP:A taxonomy and review,東方證券研究所 多模態數據包含更多信息,多模態數據包含更多信息,端到端的算法訓練框架提升端到端的算法訓練框架提升模型模型泛化能力泛化能力。圖像、視頻等多模態的數據擁有著比文字要多許多的信息,采用多模態數據的大模型有助于實現更高細粒度的語義理解、對話意圖識別以及更精確的情感分析。綜合使用多種數據模式的信息,可以顯著提升模型的性能。因此,端到端的訓練方式會在機器人模型領域有更多優勢。傳統的 AI 模型訓練需要經歷對原始數據的特征工程或者數據處理階段,而端到端
54、訓練是指直接以原始數據作為輸入,輸出最終結果的方法。端到端的訓練框架通過縮減人工預處理和后續處理,盡可能使模型從原始的多模態數據輸入到最終輸出,給模型更多可以根據數據自動調節的空間,增加模型的整體契合度,提升其泛化能力。特斯拉的 FSD 算法就是純端到端的自動駕駛算法,并將這樣的訓練思路也延續到了其人形機器人 Optimus 上,特斯拉表示 Optimus 的神經網絡訓練是“完全端到端的”,即可實現視頻信號輸入,控制信號輸出。圖 14:Tesla Optimus 是完全端到端訓練的 數據來源:Twitter,東方證券研究所 以以 GPT-4 為首的多模態大模型已經具備成為通用性人形機器人核心大
55、腦的初步條件為首的多模態大模型已經具備成為通用性人形機器人核心大腦的初步條件。OpenAI 在10月正式上線 GPT-4V(ision)這一新版本,為 GPT-4新增了語音與圖像功能?,F在用戶可以直接與 GPT-4V 進行語音交互,并且 GPT-4V 能夠對圖像進行推理和分析。根據微軟團隊對 GPT-4V 的詳細評測,GPT-4V 有作為具身機器人的理解核心的潛力。在微軟的測試案例中,GPT-4V可以扮演一名家庭機器人,閱讀咖啡機的操作界面并給出正確的指令操作;或者通過房間圖片的 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息
56、披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。16 輸入,要求 GPT-4V 規劃出去廚房冰箱取物品的路線,GPT-4V 也可以執行面向任務的導航。具有多模態輸入的 GPT-4V 在面對動態環境時可以很好地與環境交互,證明了 GPT-4 擁有成為人形機器人核心大腦的潛力。如果將 GPT-4 與合適的硬件進行結合,就有望實現具備 GPT-4 水平的具身智能。圖 15:GPT-4V 可以與環境進行正確交互 數據來源:微軟The Dawn of LLMs,東方證券研究所 2.2 科技巨頭紛紛入局,通用機器人算法路線仍需探索 基于大模型的具身智能體成為學術
57、界重點研究方向基于大模型的具身智能體成為學術界重點研究方向。具身智能被斯坦福大學計算機科學家李飛飛定義為 AI 領域的下一個“北極星問題”之一,在大模型流行起來之后,關于以大模型為基礎構造的具身智能體的研究也逐漸變多。今年內,谷歌、微軟、英偉達、Meta 等科技巨頭都紛紛加入了這條技術路線的探索中來,試圖找到一條適合于通用機器人的算法道路。圖 16:具身智能機器人算法一覽圖 數據來源:澎湃,東方證券研究所 1)ChatGPT for Robotics:大模型:大模型+機器人結合初探機器人結合初探 2023 年 2 月,微軟團隊發布了一篇名為ChatGPT for Robotics:Design
58、 Principles and Model Abilities的技術報告,展現出了使用 ChatGPT 來實現自然的人機交互的可能性,為如何將ChatGPT 融入機器人領域提供了一種全新的視角,也是對于大模型和機器人的結合進行了初探。計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。17 ChatGPT 在機器人領域的應用主要體現在兩個方面:自然語言交互和自動化決策在機器人領域的應用主要體現在兩個方面:自然語言交互和自動化決策。大多數的機器
59、人任務需要由工程師來構建完整的高低級指令代碼、不斷進行迭代循環才能完成任務。而ChatGPT 則帶來了新的機器人任務范式,ChatGPT 具備自然語言交互和自動化決策能力,機器人可以通過ChatGPT來理解人類的自然語言指令,并根據指令進行相應的動作。另外,機器人在執行任務時需要做出各種決策,例如路徑規劃、物體識別等。ChatGPT 可以應用于機器人的自動化決策中,機器人可以通過 ChatGPT 來生成任務方案,根據任務要求做出相應的決策。引入ChatGPT 后,工程師僅需做好機器人的底層庫函數及其描述,ChatGPT 就能夠自己利用這些底層函數來編寫代碼以完成目標,將工程師從循環中解放出來。
60、圖 17:傳統機器人任務需要工程師不斷調整目標 圖 18:引入 ChatGPT 后無需工程師在循環中進行調整 數據來源:微軟,東方證券研究所 數據來源:微軟,東方證券研究所 微軟團隊給出了一套微軟團隊給出了一套適合適合為為機器人任務編寫提示方法機器人任務編寫提示方法的的設計原則設計原則。首先,定義機器人的功能庫函數,比如檢測物體、移動底盤等,函數命名要與實際動作符合。第二,為 ChatGPT 編寫 prompt,描述任務目標,同時明確說明可用的高級函數庫中的哪些函數。提示還可以包含有關任務約束的信息,或者有關ChatGPT如何形成其答案(特定編碼語言,使用輔助解析元素)的信息。第三,在仿真環境
61、中運行并評估ChatGPT的代碼輸出,保證模型能夠安全完整地做好任務。最后,將算法部署到機器人上。圖 19:ChatGPT for Robotics 的設計原則 數據來源:微軟,東方證券研究所 基于該設計原則可以實現多種基于該設計原則可以實現多種 ChatGPT 結合機器人的應用結合機器人的應用,為進一步研究大模型,為進一步研究大模型+通用機器人打通用機器人打下了基礎下了基礎。微軟團隊也針對幾個場景進行了 ChatGPT 結合機器人的測試,包括用無人機檢查貨架、模擬環境中用無人機進行工業巡檢、控制機器人手臂拼積木等。由于ChatGPT只能用文字進 計算機行業深度報告 大模型賦能人形機器人,軟硬
62、融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。18 行交互,對于外界環境的感知需要對傳感器傳回的圖像進行對象檢測,并轉化為文本描述才能輸入給 ChatGPT。微軟團隊的研究初步展示了 ChatGPT 這一大語言模型作為機器人的決策中樞的可能性,為后續更加深度的大模型+機器人探索邁出了第一步。圖 20:ChatGPT 可操作機器臂拼出微軟 Logo 圖 21:需要將外部環境轉化為文字信息輸入給 ChatGPT 數據來源:微軟,東方證券研究所 數據來源:微軟,東方證券研究所 2)PaL
63、M-E:最大:最大的的多模態多模態視覺語言模型視覺語言模型 2023 年 3 月,柏林工業大學和 Google Robotics 團隊結合了 Google 當時 5400 億參數的 PaLM大語言模型和 220 億參數的 Vision Transformer(ViT)模型,提出了當時最大規模的 5620 億參數的具身多模態視覺語言模型(Visual Language Model,VLM)PaLM-E。在 PaLM 模型基礎上,引入了具身化和多模態概念,實現了指導現實世界機器人完成相應任務的功能。PaLM-E 采用從多模態信息到決策端的端到端訓練采用從多模態信息到決策端的端到端訓練。PaLM-E
64、 直接將連續的、具體的多模態觀察(如圖像、狀態估計或其他傳感器模態),轉化為和語言 token 嵌入空間維數相同的向量序列,用和語言 token 同樣的方式注入預訓練語言模型的語言嵌入空間,從而在文字和感知之間建立聯系,已解決機器人相關的具身問題。模型的輸入是交錯的視覺、連續狀態估計和文本組成的多模態編碼,然后對這些編碼進行端到端訓練,輸出的內容則是對于機器人要執行的動作的文本決策。整個過程不需要對場景的表示進行預處理。圖 22:PaLM-E 能夠接收多模態信息并輸出決策文本 數據來源:GooglePaLM-E:An Embodied Multimodal Language Model,東方證
65、券研究所 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。19 以大模型作為核心的以大模型作為核心的 PaLM-E 表現出了較強的泛化能力表現出了較強的泛化能力和涌現能力和涌現能力。研究人員發現,PaLM-E 繼承了大語言模型的核心優點:泛化和涌現能力。得益于端到端的多模態信息訓練,PaLM-E 在面對沒有學習過的任務(zero-shot)時也能有很好的表現,具備將從一項任務學到的知識和技能遷移到另一項任務的能力。經過不同任務混合訓練后的
66、 PaLM-E,與執行單一任務的機器人模型相比,性能明顯提高。同時,盡管 PaLM-E 只接受了單圖像提示的訓練,但卻已經展示出了涌現能力,比如多模式思維鏈推理(可讓模型分析包括語言和視覺信息在內的一系列輸入)與多圖像推理(用多個圖像作為輸入來做出推理或預測)。圖 23:PaLM-E 具備遷移學習能力 圖 24:PaLM-E 可以進行 zero-shot 多模態思維鏈推理 數據來源:GooglePaLM-E:An Embodied Multimodal Language Model,東方證券研究所 數據來源:GooglePaLM-E:An Embodied Multimodal Languag
67、e Model東方證券研究所 PaLM-E 展示了大模型和機器人展示了大模型和機器人結合的諸多可能性結合的諸多可能性。以大模型為核心的 PaLM-E 有了良好的遷移學習能力,從而可以通過自主學習來完成長跨度規劃的任務,比如,“從抽屜里拿出薯片”這類任務包括了多個計劃步驟,并且需要調用機器人攝像頭的視覺反饋。經過端到端訓練的 PaLM-E可以直接從像素開始對機器人進行規劃。由于模型被集成到一個控制回路中,所以機器人在拿薯片的過程中,對途中的干擾具有魯棒性。并且由于其采用了多模態信息作為輸入,相比 ChatGPT for Robotics 論文中需要將圖像信息轉化為文字輸入來說能夠獲取更多的信息,
68、從而提升機器人模型的性能,能夠應用到更廣泛的場景中。3)RT-2:首個首個視覺視覺-語言語言-動作多模態大模型動作多模態大模型 2023 年 7 月,谷歌 DeepMind 推出 了 RT-2,這是全球第一個控制機器人的視覺-語言-動作(Vision-Language-Action,VLA)模型。通過將 VLM 預訓練與機器人數據相結合,能夠端到端直接輸出機器人的控制。RT-2 以以 VLM 為基礎,為基礎,升級成為升級成為全新的視全新的視-語言語言-動作(動作(VLA)模型。)模型。RT-2 將一個或多個圖像作為輸入,并生成一系列通常代表自然語言文本的標注。例如RT-2將原本非常具體的機器人
69、動作數據轉變成文本 token,例如將轉動度數、坐標點等數據,轉變成文本“放到某個位置”。這樣一來,機器人數據也能被用到視覺-語言數據集中進行訓練,同時在進行推理的過程中,原本的文本指令也會被重新轉化為機器人數據,實現控制機器人等一系列操作:為了控制機器人,研究人員通過將操作表示為模型輸出中的標注,并將操作描述為可以由標準自然語言標注生成器處理的字符串,這種字符串的示例可以是機器人動作標記編號的序列,例如“1 128 91 241 5 101 127 217”。該字符串以一個標志開始,該標志指示機器人是繼續還是終止當前情節,然后機器人根據指示改變 計算機行業深度報告 大模型賦能人形機器人,軟硬
70、融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。20 末端執行器的位置和旋轉以及機器人抓手等命令。由于動作被表示為文本字符串,因此機器人執行動作命令就像執行字符串命令一樣簡單。有了這種表示,就可以直接對現有的視覺-語言(VLM)模型進行微調,并將其轉換為視覺-語言-動作(VLA)模型。圖 25:RT-2 架構和操作字符串的表示方式 數據來源:谷歌RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic C
71、ontrol,東方證券研究所 RT-2 較較基線基線模型模型 RT-1 等等而言具有更強的任務處理能力和泛化能力而言具有更強的任務處理能力和泛化能力。谷歌在去年推出了 RT-1 機器人模型,RT-2的訓練則延續使用了RT-1 的演示數據,由 13 個機器人在辦公室、廚房環境中,歷時 17 個月進行收集。RT-2的基礎VLM則選用了不久前推出的PaLM-E和更早一些的PaLI-X,通過測試后發現,RT-2 與之前的模型相比,具有更高的任務成功率(符號理解、推理和人類識別三個方面)以及更強的泛化和涌現能力(在機器人面對以前未見過場景中的性能方面,RT-2 從 RT-1 的 32%提高到 62%)。
72、圖 26:RT-2 的任務成功率高于基線模型 圖 27:RT-2 具備比基線模型更強的泛化能力 數 據 來 源:谷 歌 RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,東方證券研究所 數 據 來 源:谷 歌 RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,東方證券研究所 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披
73、露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。21 RT-2 具有學習長期規劃和簡易技能的能力具有學習長期規劃和簡易技能的能力。研究人員將思維鏈能力加入到了機器人控制中,通過對數據進行增強,添加了一個額外的“計劃”步驟,該步驟用自然語言描述機器人即將采取的動作的目的,然后是動作的描述和標注。例如“指令:我餓了。計劃:挑選 Rxbar 巧克力。行動:1 128 124 136 121 158 111 255”。通過這一過程,RT-2 就可以先用自然語言規劃自己的行動,從而可以執行更多復雜的命令。圖 28:加入思維鏈能力使得 RT-2 能夠處理更復雜的問
74、題 數據來源:谷歌RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,東方證券研究所 4)VoxPoser:機器人任務軌跡規劃:機器人任務軌跡規劃 2023 年 7 月,斯坦福大學李飛飛團隊提出了智能系統 VoxPoser,它可以從大模型 LLM 和視覺-語言模型 VLM 中提取可行性和約束,以構建 3D 仿真環境中的值地圖,供運動規劃器使用,用于零樣本地合成機器人操縱任務的軌跡,從而實現在真實世界中的零樣本機器人操縱。該模型把復雜指令轉化成具體行動規劃,人類可以隨意地用自然語言給機器人下達指
75、令,機器人該模型把復雜指令轉化成具體行動規劃,人類可以隨意地用自然語言給機器人下達指令,機器人也無需額外數據和訓練也無需額外數據和訓練。其原理很簡單,首先,給定環境信息(用相機采集 RGB-D 圖像)和我們要執行的自然語言指令。接著,LLM根據這些內容編寫代碼,所生成代碼與VLM進行交互,指導系統生成相應的操作指示地圖,即 3D 值地圖。它是可行性地圖和約束地圖的總稱,既標記了“在哪里行動”,也標記了“如何行動”。再利用動作規劃器,將生成的 3D 地圖作為其目標函數,便能夠合成最終要執行的操作軌跡。相比傳統方法需要進行額外的預訓練,這個方法用大模型指導機器人如何與環境進行交互,直接解決了機器人
76、訓練數據稀缺的問題。圖 29:Voxposer 流程一覽圖 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。22 數據來源:Li Fei-Fei 等VoxPoser:Composable 3D Value Maps for Robotic Manipulation with Language Models,東方證券研究所 VoxPoser 還具有還具有 4 個新穎的涌現能力個新穎的涌現能力。1)估算物理屬性:給定兩個未知質量的方塊,機器人
77、被要求使用現有工具進行物理實驗,確定哪個方塊更重。2)常識性行為推理:在擺桌子的任務中,用戶可以指定行為偏好,比如“我是左撇子”,機器人能根據上下文理解其含義。3)細粒度語言糾正:比如執行“給茶壺蓋上蓋子”這種精度要求較高的任務時,可以向機器人發出“你偏離了 1厘米”等精確指令來校正它的操作。4)基于視覺的多步操作:比如叫機器人將抽屜精準地打開成一半,由于沒有對象模型導致的信息不足可能讓機器人無法執行這樣的任務,但 VoxPoser可以根據視覺反饋提出多步操作策略,即首先完全打開抽屜同時記錄手柄位移,然后將其推回至中點就可以滿足要求了。圖 30:Voxposer 的涌現能力 數據來源:Li F
78、ei-Fei 等VoxPoser:Composable 3D Value Maps for Robotic Manipulation with Language Models,東方證券研究所 5)RoboAgent:小數據集下的通用機器人智能體:小數據集下的通用機器人智能體 2023 年 8 月,Meta 和 CMU 團隊聯合推出了通用機器人智能體 RoboAgent。不同于 DeepMind的 RT 系列模型采用了大規模機器人數據集進行訓練,考慮到機器人在現實世界中的訓練和部署效率問題,Meta 將數據集限制到了 7500 個操作軌跡中,并基于此讓 RoboAgent 實現了 12 種不同的
79、復雜技能,包括烘焙、拾取物品、上茶、清潔廚房等任務,并能在 100 種未知場景中泛化應用。圖 31:RoboAgent 采用的數據集遠遠小于 RT-1 數據來源:Meta,東方證券研究所 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。23 構建一個可以泛化到許多不同場景的機器人智能體需要一個覆蓋面足夠廣的數據集構建一個可以泛化到許多不同場景的機器人智能體需要一個覆蓋面足夠廣的數據集。例如 RT-1就采用了超過 13 萬條機器人操作軌跡數
80、據來進行訓練,RoboAgent 則著眼于在有限的數據下提高機器人學習系統的效率,而較少的數據通常會導致模型過擬合。RoboAgent的數據集共有7500條數據,分別在 4 個廚房場景中采集,包含 12 個技能,38 個任務?;诖诵◇w量的數據,Meta采用了全自動的數據增廣來對數據集進行信息擴充,通過 Meta 提出的“分割一切模型”(Segment Anything Model,SAM)來對圖像中的被操作物體和背景進行分割,然后分別對被操作對象和背景進行修改,以達到數據集擴充的目的。圖 32:RobeAgent 采用了數據增廣技術對數據集進行擴充 數據來源:MetaRoboAgent:Ge
81、neralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking,東方證券研究所 RoboAgent 帶來了數據效率的提升帶來了數據效率的提升。Meta 提出了 MT-ACT多任務動作分塊 Transformer 這一學習框架,與一些常見的訓練算法框架相比,RoboAgent 體現出了更高的樣本效率,并且在多個泛化層面上都有出色表現。Meta 對泛化級別進行了可視化,L1 表示物體姿態變化,L2 表示多樣的桌面背景和干擾因素,L3 表示新穎的技能-物體組合。MT-AC
82、T 的表現顯著優于其他算法,特別是在更困難的泛化層次(L3)上。圖 33:RoboAgent 有更高的效率和更強的泛化能力 數據來源:MetaRoboAgent:Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking,東方證券研究所 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。24 6)RT-X
83、 和和 Open X-Embodiment Dataset:機器人的:機器人的 ImageNet 時刻時刻 10 月 4 日,谷歌 DeepMind 在官網發布了全球最大通用大模型之一 RT-X,并開放了訓練數據集Open X-Embodiment。該數據集來自21個研究機構,包含在22種類型的機器人上采集的超過15萬個任務的上百萬條數據,展示了 527 項技能。諸多人工智能科學家表示,機器人模型的ImageNet 時刻到來了。圖 34:Open X-Embodiment 數據集 數據來源:谷歌Open X-Embodiment:Robotic Learning Datasets and RT
84、-X Models,東方證券研究所 采用采用Open X-Embodiment訓練的訓練的RT-X性能表現大幅提升性能表現大幅提升。DeepMind分別基于RT-1和RT-2,采用 Open X-Embodiment 數據集進行訓練得到了 RT-1-X 和 RT-2-X,得益于更多樣化、跨實體的訓練數據,性能表現較原有模型均有大幅提升。在相同的模型架構下,使用 Open X-Embodiment 數據集訓練的 RT-1-X 平均性能優于原始模型 50%。RT-2-X 則可以執行從未訓練的操作,涌現能力達到了RT-2的三倍,包括對空間的更好理解,動作的細膩程度等。例如,讓機器人把蘋果拿到布附近,
85、而不是拿到布上面,RT-2-X 都能很好的區別這些指令的差異,并做出相應的動作。圖 35:RT-1-X 性能表現較原有方法大幅提升 圖 36:RT-2-X 的涌現能力是 RT-2 的三倍 數據來源:谷歌Open X-Embodiment:Robotic Learning Datasets and RT-X Models,東方證券研究所 數據來源:谷歌Open X-Embodiment:Robotic Learning Datasets and RT-X Models,東方證券研究所 DeepMind 的這項新研究表明,通過利用更多樣化的數據和更好的模型進行擴展學習,有可能開發出更有用的輔助機器
86、人?;诖罅繖C器人數據訓練得到的通用大模型可以在不同環境下應用,無論是在谷歌 DeepMind 的機器人上,還是在世界各地不同大學的機器人上,其性能都得到了顯 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。25 著提高。未來的另一個方向是進一步探索不同數據集的混合會如何影響跨具身智能體泛化,以及這種泛化是如何是實現的。7)Eureka:基于:基于 GPT-4 的的 AI 系統系統 2023 年 10 月,英偉達發布了一種能夠自動訓練機器
87、人執行新任務的 AI 系統 Eureka。該系統以 OpenAI 的 GPT-4 為基礎,本質是一種由大模型驅動的算法生成工具,能訓練實體機器人執行例如“轉筆”、“開抽屜”、“拿剪刀”、“雙手互傳球”等多種復雜動作。圖 37:Eureka 能夠訓練機器人執行復雜動作 數據來源:英偉達Eureka:Human-Level Reward Design Via Coding Large Language Models,東方證券研究所 Eureka 的關鍵創新在于結合生成式的關鍵創新在于結合生成式 AI 來實現了人類水平的獎勵算法設計來實現了人類水平的獎勵算法設計。Eureka 使用 GPT-4的零樣
88、本生成、代碼編寫以及上下文改進功能,對獎勵執行策略進行了優化,由此通過強化學習來學會執行復雜的技能。Eureka 會基于訓練結果匯總關鍵統計數據,并指導 LLM 改進其獎勵函數的生成。在 29 種不同的開源強化學習環境中,Eureka 獎勵設計的性能達到了人類水平,這些環境包括 10種不同的機器人形態(四足機器人、四旋翼機器人、雙足機器人、機械手以及幾種靈巧手)。在沒有任何特定任務提示或獎勵模板的情況下,Eureka生成的獎勵程序在超過80%的任務上優于專家編寫的獎勵程序,這使得機器人的平均性能提高了 50%以上。在以人類設計的獎勵程序作為初始條件時,Eureka 的表現還會進一步提升。圖 3
89、8:Eureka 工作流程 圖 39:以人類設計算法為初始條件的 Eureka 表現進一步提升 數據來源:英偉達Eureka:Human-Level Reward Design Via Coding Large Language Models,東方證券研究所 數據來源:英偉達Eureka:Human-Level Reward Design Via Coding Large Language Models,東方證券研究所 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證
90、券研究報告最后一頁的免責申明。26 英偉達的最新成果則展示了大模型在機器人精細化控制方面的作用,能夠讓機器人首次實現一些高復雜性動作。我們認為,在英偉達的推動下,更智能的機器人學習方式有望被迅速引入工業和在英偉達的推動下,更智能的機器人學習方式有望被迅速引入工業和消費應用領域消費應用領域。三、三、機器人大模型面臨的問題機器人大模型面臨的問題 雖然各家科技巨頭廠商都在針對通用機器人大模型進行深入探索,但目前來看,距離實現真正的具身智能水平的模型還有很長的路要走。機器人大模型還面臨著諸多問題,包括機器人數據、實時性、軟硬件融合等。3.1 高質量訓練數據缺乏,合成數據有望成為新方向 機器人算法的訓練
91、需要大量機器人真實數據機器人算法的訓練需要大量機器人真實數據。機器人需要通過多種傳感器感知環境狀態,然后執行實際動作來完成任務,因此訓練用于機器人的大模型需要用到大量機器人在真實世界中與環境進行交互的數據集。相比圖像和自然語言處理領域可以從網上大量獲取訓練數據或者通過人類標注快速低成本的獲取數據,可用于訓練機器人學會執行新任務新技能的高質量數據非常匱乏。主要原因在于:1 數據豐度問題:ChatGPT 是一個語言模型,從語言角度來說,每個人每分鐘能夠說出 100-200 字,轉化成計算語言就是 12 k 字節每秒的傳輸速率。多模態模型一次輸出 4 張圖片的傳輸速率也不過在 MB 級別甚至更低,這
92、個數據會遠小于機器關節運動的所產生的信息量。機器人在執行任務時面臨的環境和交互內容、產生的數據模態更多更復雜,機器人在單位時間內能夠產生的數據要遠超語言幾個數量級。2 機器人領域缺乏數據基礎:對于 ChatGPT 來說,公開的互聯網數據十分充足,有大量的公域數據可供爬取。但現實中的機器人保有量太少,可用于收集訓練數據的機器人就更少。此外,每個機器人廠商都會有自己的壁壘,傾向于保護自己的數據,導致機器人領域數據獲取難度進一步提升。3 數據搜集效率:傳統 CV/NLP 等任務只需要收集文字、圖像等數據,可以通過公開互聯網進行爬取,數據采集效率非常高。而機器人領域數據的采集需要真實的機器人去執行任務
93、操作,花費的時間較爬蟲相比效率很低。開源開源 Open X-Embodiment 數據集是重要進步,但仍舊不足數據集是重要進步,但仍舊不足。谷歌開源的機器人訓練數據集Open X-Embodiment 匯集了全球 34 個機器人研究實驗室的 60 個現有數據集,包含了在 22 種類型的機器人上采集的超過 15 萬個任務的上百萬條數據,被譽為機器人領域的 ImageNet 時刻,是機器人模型領域的重要進步。但該數據集主要針對的是常見的操作技能,比如拾取、放置、推拉、移動等,如果要朝著人形機器人的未來發展的話,人形機器人涉及到的全身肢體協調、行走時的平衡等數據的需求量仍較大。圖 40:Open X
94、-Embodiment 數據集一覽 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。27 數據來源:谷歌,東方證券研究所 合成合成數據有望能夠解決數據有望能夠解決部分部分數據不足的難題數據不足的難題。英偉達在 10 月末推出了名為 MimicGen 的系統,只需少量人類示范,便能自動生成大規模的機器人訓練數據集。使用不到 200 個人類演示,MimicGen 可自主生成超過 5 萬個訓練數據,涵蓋 18 個任務、多個模擬環境。機器人智能體
95、可以通過模仿學習在生成的數據集上進行有效訓練,以在長期和高精度任務中獲得出色的性能,例如多部件組裝和制備咖啡等任務。我們認為,合成數據有望能解決機器人領域高質量訓練數據不足、采集效率低下等問題,是一條擴大機器人學習的強大且經濟的途徑。圖 41:MimicGen 合成機器人任務數據 圖 42:MimicGen 可生成多種場景的機器人任務數據 數據來源:英偉達MimicGen:A Data Generation System for Scalable Robot Learning using Human Demonstrations,東方證券研究所 數據來源:英偉達MimicGen:A Data
96、Generation System for Scalable Robot Learning using Human Demonstrations,東方證券研究所 3.2 實時性仍需提升,算力可能是瓶頸 機器人大模型對機器人行動控制的周期仍太長,無法做到實時響應機器人大模型對機器人行動控制的周期仍太長,無法做到實時響應。當前各大科技廠商研究出的算法雖然能夠實現機器人技能水平的提升,但是在響應速度方面仍較差。谷歌RT-2的演示視頻需要 2倍速播放才能實現比較流暢的機器人動作,而 Voxposer更是需要 8倍速才能有流暢的動作表現,如果按原速看的話,能發現 Voxposer 控制的機器人軌跡并不是
97、平滑的,而是有不斷的小停頓。這樣的遲滯性在真正想要實現通用的人形機器人領域是比較難以接受的。實時性的提升依賴于算力實時性的提升依賴于算力,對于對于面對高復雜性環境的人形機器人面對高復雜性環境的人形機器人尤其重要尤其重要。中科院院士姚期智在2023 世界機器人大會的演講中表示,計算能力的挑戰非常重要,谷歌研發的 RT-2 模型在機器人 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。28 控制周期上只能達到 3Hz的水平,和通用人形機器人需
98、要的 500Hz差的很遠,距離實際需要的控制水平仍有許多事情要做。從動態角度看,人形機器人需要實時控制系統,所有的伺服關節也要同步運動,傳感器的數據也要同步采集,從而保證算法的輸入和輸出都始終處于一個節拍,從而保證算法的性能。所以,實時算法急需高算力的支撐,讓系統在一定的時間周期內完成計算。而人形機器人未來的目標是要走進千家萬戶,這就要求必須具備對復雜環境的適應性算法,包括走路時對地面的適應性、手臂工作時對障礙物的適應性、機器人在人機交互、人機協同時的適應性。這些復雜算法都對控制器的算力提出了巨大的挑戰。圖 43:Voxposer 需要 8 倍速播放才有流暢的動作 圖 44:RT-2 需要 2
99、 倍速播放才有流暢的動作 數據來源:Li Fei-Fei 等VoxPoser:Composable 3D Value Maps for Robotic Manipulation with Language Models,東方證券研究所 數 據 來 源:谷 歌 RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,東方證券研究所 特斯拉為特斯拉為 Optimus 機器人自研機器人自研 SoC,Dojo 超算也將為超算也將為 Optimus 提供算力支持提供算力支持。在特斯拉 2022年 AI Da
100、y上,特斯拉宣布將基于 FSD 為 Optimus 推出自研的 SoC。2023 年 6 月,特斯拉宣布今年 7 月 Dojo 超算就會正式投產,2024 年 2 月特斯拉的算力規模將進入全球前五,2024 年 10 月特斯拉的算力總規模將達到 100 EFlops,相當于 30 萬塊英偉達 A100 顯卡的算力總和。Dojo 能夠處理海量的視頻數據,不僅能夠加速特斯拉的 Autopilot 和 FSD 系統的迭代,還能為人形機器人 Optimus 提供算力支持。圖 45:特斯拉 Dojo 超算算力規模預測 圖 46:特斯拉將基于 Dojo 訓練機器人模型 數據來源:Tesla AI,東方證券
101、研究所 數據來源:Tesla AI,東方證券研究所 3.3 軟硬件融合是最終目標 計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。29 軟硬件能力的協同進化也同樣重要軟硬件能力的協同進化也同樣重要。波士頓動力創始人 Marc Raibert 在演講中提到,未來的機器人技術發展過程中,硬件工程和軟件同等重要?!坝行┤苏J為軟件可以克服硬件上所有的問題和限制,我并不贊同這個觀點”。以波士頓動力的人形機器人為例,在Atlas的硬件工程方面,公司做
102、了大量工作包括液壓系統、多個專門的閥門、專用電池、負載等各個方面,把機器人的重量從 170公斤縮小到90公斤,這個過程中,他們沒有在機器人的功能上有任何妥協,反而提高了機器人的運動范圍力量和速度。人形機器人零部件眾多,做好軟硬件協同才能發揮其硬件水平人形機器人零部件眾多,做好軟硬件協同才能發揮其硬件水平。人形機器人集成了大量不同的傳感器,如:視覺、聽覺、位置、柔性傳感器等,這些傳感器能夠讓機器人通過“五官”接近人類,收集并感知外界信息。以特斯拉 Optimus 為例,原型機動力系統部分有 28 個結構執行器,50 個基礎自由度,全身能夠產生 200 個以上不同角度的動作。靈巧手單手有 6 個執
103、行器,11 個自由度,采用金屬肌腱帶動機器人能夠精確抓住小而薄的物體。而在接下來的“分解、規劃任務、運動中識別物體、完成高質量的實時交互,最后完成具體任務”一整套作業過程中,更需要把人形機器人的核心軟硬件有機整合,協同好各部分的速度、力度、準確性,讓這些硬件系統各司其職完成任務,其難度是巨大的。圖 47:Tesla Optimus 機器人硬件結構 數據來源:Tesla Side,東方證券研究所 端到端大模型一定程度上解決軟硬件協同問題端到端大模型一定程度上解決軟硬件協同問題。端到端的算法能夠把機器人各個部位傳感器的感知數據直接作為輸入,輸出硬件層面各個部件的控制動作,一定程度上能夠解決軟硬件協
104、同的問題。但是這種方法屬于“大力出奇跡”的一條道路,需要通過大量的數據訓練、甚至是幾個數量級以上的數據訓練才能夠真正得到一個能夠接受人形機器人產生的所有數據并能給出輸出的超大基礎模型,這就又回到了前兩個挑戰:高質量數據的缺乏和能夠支撐這樣強的端到端大模型實時給出響應的算力。未來可能在云端會有比較強的一個端到端、且足夠泛化的大模型,但是在端側,到底需要多大能力的芯片,或者說需要有多長多強的工程化的剪枝的能力,才可以將大模型去落到端側人形機器人呢?這將仍是人形機器人走向通用化面臨的重要困難。計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重
105、要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。30 投資建議與投資標的投資建議與投資標的 國內頂層設計規劃路線,明確量產時間點、關鍵技術、重點產品以及示范性應用場景,結合海外國內頂層設計規劃路線,明確量產時間點、關鍵技術、重點產品以及示范性應用場景,結合海外以特斯拉以特斯拉Optimus為代表的人形機器人持續推進,人形機器人產業化迎來曙光為代表的人形機器人持續推進,人形機器人產業化迎來曙光。我們看好人形機器人產業趨勢,建議關注產業鏈上的核心零部件相關公司以及大模型公司??偝桑喝ㄖ强?002050,買入)(汽車組覆蓋)、拓普集團(601689
106、,買入)(汽車組覆蓋);空心杯電機:鳴志電器(603728,未評級)、鼎智科技(873593,未評級);減速器:綠的諧波(688017,未評級)、雙環傳動(002472,未評級)、中大力德(002896,未評級);編碼器:奧普光電(002338,未評級)、禾川科技(688320,未評級)、匯川技術(300124,未評級)、昊志機電(300503,未評級)、峰岹科技(688279,未評級)、儒競科技(301525,未評級)絲杠和軸承:五洲新春(603667,買入)、恒立液壓(601100,未評級)、貝斯特(300580,未評級)、秦川機床(000837,未評級)、鼎智科技(873593,未評級)
107、、禾川科技(688320,未評級);配套高端設備:田中精機(300461,未評級)、華辰裝備(300809,未評級)、浙海德曼(688577,未評級)、日發精機(002520,未評級);傳感器:柯力傳感(603662,未評級)、昊志機電(300503,未評級);IMU:芯動聯科(688582,未評級)、華依科技(688071,未評級)、蘇州固锝(002079,未評級)等。大模型:科大訊飛(002230,買入)、鼎捷軟件(300378,未評級)、中科創達(300496,買入)等 風險提示風險提示 人形機器人進展不及預期人形機器人進展不及預期:人形機器人目前還處于初期階段,技術路線等尚未完全確定,
108、發展進程可能不及市場預期;國產替代進程不及預期國產替代進程不及預期:目前國內相關廠商的技術與國外頭部廠商相比仍有較大差距,若技術突破進展不及預期,將影響到國產替代進程;行業競爭加劇行業競爭加?。喊殡S人形機器人放量以及行業降本趨勢下,新參與者可能會增加,產品價格可能會有所下降,行業競爭可能會有所加??;計算機行業深度報告 大模型賦能人形機器人,軟硬融合共創顛覆性產品 有關分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯系。并請閱讀本證券研究報告最后一頁的免責申明。31 分析師申明 每位負責撰寫本研究報告全部或部分內容的研究分析師在此作以下聲明:每位負責撰寫
109、本研究報告全部或部分內容的研究分析師在此作以下聲明:分析師在本報告中對所提及的證券或發行人發表的任何建議和觀點均準確地反映了其個人對該證券或發行人的看法和判斷;分析師薪酬的任何組成部分無論是在過去、現在及將來,均與其在本研究報告中所表述的具體建議或觀點無任何直接或間接的關系。投資評級和相關定義 報告發布日后的 12個月內行業或公司的漲跌幅相對同期相關證券市場代表性指數的漲跌幅為基準(A 股市場基準為滬深 300 指數,香港市場基準為恒生指數,美國市場基準為標普 500 指數);公司投資評級的量化標準公司投資評級的量化標準 買入:相對強于市場基準指數收益率 15%以上;增持:相對強于市場基準指數
110、收益率 5%15%;中性:相對于市場基準指數收益率在-5%+5%之間波動;減持:相對弱于市場基準指數收益率在-5%以下。未評級 由于在報告發出之時該股票不在本公司研究覆蓋范圍內,分析師基于當時對該股票的研究狀況,未給予投資評級相關信息。暫停評級 根據監管制度及本公司相關規定,研究報告發布之時該投資對象可能與本公司存在潛在的利益沖突情形;亦或是研究報告發布當時該股票的價值和價格分析存在重大不確定性,缺乏足夠的研究依據支持分析師給出明確投資評級;分析師在上述情況下暫停對該股票給予投資評級等信息,投資者需要注意在此報告發布之前曾給予該股票的投資評級、盈利預測及目標價格等信息不再有效。行業投資評級的量
111、化標準行業投資評級的量化標準:看好:相對強于市場基準指數收益率 5%以上;中性:相對于市場基準指數收益率在-5%+5%之間波動;看淡:相對于市場基準指數收益率在-5%以下。未評級:由于在報告發出之時該行業不在本公司研究覆蓋范圍內,分析師基于當時對該行業的研究狀況,未給予投資評級等相關信息。暫停評級:由于研究報告發布當時該行業的投資價值分析存在重大不確定性,缺乏足夠的研究依據支持分析師給出明確行業投資評級;分析師在上述情況下暫停對該行業給予投資評級信息,投資者需要注意在此報告發布之前曾給予該行業的投資評級信息不再有效。免責聲明 本證券研究報告(以下簡稱“本報告”)由東方證券股份有限公司(以下簡稱
112、“本公司”)制作及發布。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告的全體接收人應當采取必要措施防止本報告被轉發給他人。本報告是基于本公司認為可靠的且目前已公開的信息撰寫,本公司力求但不保證該信息的準確性和完整性,客戶也不應該認為該信息是準確和完整的。同時,本公司不保證文中觀點或陳述不會發生任何變更,在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的證券研究報告。本公司會適時更新我們的研究,但可能會因某些規定而無法做到。除了一些定期出版的證券研究報告之外,絕大多數證券研究報告是在分析師認為適當的時候不定期地發布。在任何情況下,本報告中的信息或所表述的意見并不構成對任何
113、人的投資建議,也沒有考慮到個別客戶特殊的投資目標、財務狀況或需求??蛻魬紤]本報告中的任何意見或建議是否符合其特定狀況,若有必要應尋求專家意見。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,并非作為或被視為出售或購買證券或其他投資標的的邀請或向人作出邀請。本報告中提及的投資價格和價值以及這些投資帶來的收入可能會波動。過去的表現并不代表未來的表現,未來的回報也無法保證,投資者可能會損失本金。外匯匯率波動有可能對某些投資的價值或價格或來自這一投資的收入產生不良影響。那些涉及期貨、期權及其它衍生工具的交易,因其包括重大的市場風險,因此并不適合所有投資者。在任何情況下,本公司不對任何人因使
114、用本報告中的任何內容所引致的任何損失負任何責任,投資者自主作出投資決策并自行承擔投資風險,任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。本報告主要以電子版形式分發,間或也會輔以印刷品形式分發,所有報告版權均歸本公司所有。未經本公司事先書面協議授權,任何機構或個人不得以任何形式復制、轉發或公開傳播本報告的全部或部分內容。不得將報告內容作為訴訟、仲裁、傳媒所引用之證明或依據,不得用于營利或用于未經允許的其它用途。經本公司事先書面協議授權刊載或轉發的,被授權機構承擔相關刊載或者轉發責任。不得對本報告進行任何有悖原意的引用、刪節和修改。提示客戶及公眾投資者慎重使用未經授權刊載或者轉發的本公司證券研究報告,慎重使用公眾媒體刊載的證券研究報告。HeadertTable_Address東方證券研究所 地址:上海市中山南路 318 號東方國際金融廣場 26 樓 電話:傳真:021-63325888 021-63326786 東方證券股份有限公司經相關主管機關核準具備證券投資咨詢業務資格,據此開展發布證券研究報告業務。東方證券股份有限公司及其關聯機構在法律許可的范圍內正在或將要與本研究報告所分析的企業發展業務關系。因此,投資者應當考慮到本公司可能存在對報告的客觀性產生影響的利益沖突,不應視本證券研究報告為作出投資決策的唯一因素。