《AGI+機器人行業深度報告:AGI賦能人形機器人具身智能時代有望加速到來-231111(32頁).pdf》由會員分享,可在線閱讀,更多相關《AGI+機器人行業深度報告:AGI賦能人形機器人具身智能時代有望加速到來-231111(32頁).pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、 機械設備/行業深度分析報告/2023.11.11 請閱讀最后一頁的重要聲明!AGI+機器人行業深度報告 證券研究報告 投資評級投資評級:看好看好(維持維持)最近 12 月市場表現 分析師分析師 佘煒超 SAC 證書編號:S0160522080002 分析師分析師 劉俊奇 SAC 證書編號:S0160523060002 分析師分析師 孟欣 SAC 證書編號:S0160523090002 聯系人聯系人 孫瀚棟 相關報告 1.工信部印發人形機器人指導意見,產業化加速 2023-11-10 2.力傳感器深度研究報告 2023-10-06 3.精 密 減 速 器 行 業 深 度 報 告 2023-09
2、-05 AGI 賦能人形賦能人形機器人,具身智能時代有望機器人,具身智能時代有望加加速到來速到來 核心觀點核心觀點 AGI 起于大起于大語言語言模型,終于具身智能模型,終于具身智能。AGI(Artificial General Intelligence),即通用人工智能,也稱強人工智能,指的是具備與人類同等甚至超越人類的智能,能表現出正常人類所具有的所有智能行為。AGI 技術實現突破,離不開LLM 大模型和多模態能力,在兩者結合下,AI 具備了創造力。具身智能是邁向通用人工智能(AGI)的重要一步,國內外大廠及高等學府均開展了具身智能的相關研究,如微軟、谷歌、斯坦福、達闥機器人、智元機器人等。
3、人形機器人是人形機器人是 AGI 最佳載體,業界研究進展加速最佳載體,業界研究進展加速。谷歌的 RT-1 是邁向視覺語言動作(VLA)模型的一個嘗試,通過吸收大量的真實數據,提升機器性能和泛化能力;RT-2 是全球首個控制機器人的 VLA 模型,將視覺語言模型(VLM)與機器人操作能力結合,在泛化能力和涌現能力上均有明顯提升。GPT-4 是 OpenAI 發布的最新 GPT 系列模型,是一個大規模的多模態模型,已應用在 Ameca 和 Eureka 等機器人上;GPT-4V(ision)新增語言、圖像交互功能。Meta 和 CMU 聯合打造出 RoboAgent,突破了缺乏足夠龐大的數據集來訓
4、練通用智能體和缺乏能夠生成此類數據的通用智能體的困境。特斯拉鏈接 FSD和機器人的底層模塊,使用端到端的神經網絡,助力 Optimus 在任務操作方面展現出先進性?!皺C器人“機器人+大模型”是邁向大模型”是邁向 AGI 時代的有效途徑時代的有效途徑:人工智能大模型的語言處理能力可以被看作“大腦”,若想真正發揮通用人工智能的力量,未來的AGI 需要有具身實體。LLM 有助于實現任務級編程/交互,整個過程基本不需要或者僅需少量人類的介入和確認,降低了機器人的使用門檻。多模態大模型使得機器人開始理解如何合理使用多種輸出能力來更好的完成任務。但我們離通用人工智能還很遙遠,仍然存在許多尚未解決的重大問題
5、,如多模態融合、安全性、高質量訓練數據缺乏等。投資投資建議建議:AGI 是人工智能未來發展的方向,LLM 和多模態推動 AGI 實現技術上的突破,“機器人+大模型”為 AGI 走進物理世界提供了更多的可能性。隨著谷歌、OpenAI、Meta 和特斯拉等科技大廠以及斯坦福等高等學府紛紛投入 AGI 的研究中,“機器人+大模型”將會進入發展的快車道,帶動機器人軟件和硬件系統的迭代升級,具有較好的發展前景。建議關注機器人整機領域的公司,如三花智控、拓普集團、埃斯頓、億嘉和、博實股份、德昌股份等。風險提示:風險提示:特斯拉人形機器人量產進展不及預期;國產化替代進展不及預期;制造業景氣度恢復低于預期等。
6、-10%-6%-2%3%7%11%機械設備滬深300上證指數 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 2 行業深度分析報告/證券研究報告 表表 1:重點公司投資評級:重點公司投資評級:代碼代碼 公司公司 總市值總市值(億元)(億元)收盤價收盤價(11.10)EPS(元)(元)PE 投資評級投資評級 2022A 2023E 2024E 2022A 2023E 2024E 002050 三花智控 1,033.94 27.70 0.72 0.91 1.11 29.47 30.44 24.95 增持 601689 拓普集團 769.23 69.80 1.54 2.14 2.83 38.04
7、32.62 24.66 買入 002747 埃斯頓 174.17 20.03 0.19 0.33 0.56 114.11 60.70 35.77 增持 603666 億嘉和 66.99 32.44 -0.47 0.47 1.96 -67.49 69.06 16.55 未覆蓋 002698 博實股份 144.08 14.09 0.44 0.66 0.87 32.19 21.30 16.24 未覆蓋 605555 德昌股份 82.11 22.05 1.12 0.90 1.02 18.08 24.62 21.68 未覆蓋 數據來源:wind 數據,財通證券研究所(未覆蓋公司預測數據來自 wind 一
8、致預期)BXcVpZfWpXFYiXvW7NbP9PnPpPtRmPiNpOmNeRnMnRbRnMqQwMrNsRNZnNsP 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 3 行業深度分析報告/證券研究報告 1 AGI 的關鍵拼圖:起于大模型,終于具身智能的關鍵拼圖:起于大模型,終于具身智能.5 1.1 大語言模型百家爭鳴,推動弱人工智能向通用人工智能躍升大語言模型百家爭鳴,推動弱人工智能向通用人工智能躍升.5 1.2 具身智能助力具身智能助力 AGI 走進現實走進現實.8 2 人形機器人是人形機器人是 AGI 最佳載體,業界研究進展加速最佳載體,業界研究進展加速.9 2.1 從從 R
9、T-1 到到 RT-2,谷歌演進式打造全能機器人大腦,谷歌演進式打造全能機器人大腦.9 2.2 OpenAI 升級迭代升級迭代 GPT,推動機器人,推動機器人“大腦大腦”升級升級.14 2.3 Meta 與與 CMU 聯手打造聯手打造 RoboAgent,用更少的數據訓練更強的具身智能體,用更少的數據訓練更強的具身智能體.18 2.4 特斯拉打通自動駕駛的特斯拉打通自動駕駛的 FSD 算法與機器人板塊,算法與機器人板塊,Optimus 迎來新進展迎來新進展.22 3 機器人擁抱大模型:邁向機器人擁抱大模型:邁向 AGI 的曙光與挑戰的曙光與挑戰.24 3.1 大模型大模型+機器人:機器人:AG
10、I 如何走向物理世界?如何走向物理世界?.24 3.2 大模型大模型+機器人還在路上,機器人還在路上,AGI 道阻且長道阻且長.26 4 國內核心公司介紹國內核心公司介紹.28 5 投資建議投資建議.30 6 風險提示風險提示.31 圖圖 1.人工智能歷史時間表人工智能歷史時間表.5 圖圖 2.人工智能層次關系人工智能層次關系.6 圖圖 3.大語言模型(大語言模型(LLM)發展的三個階段)發展的三個階段.7 圖圖 4.AGI 應用場景例舉應用場景例舉.8 圖圖 5.國外具身智能相關研究國外具身智能相關研究.9 圖圖 6.從從 LLM 到到 VLM 到到 VLA.10 圖圖 7.RT-1 模型架
11、構模型架構.11 圖圖 8.RT-1 的實驗結果的實驗結果.11 圖圖 9.表示機器人動作的文本字符串表示機器人動作的文本字符串.12 圖圖 10.RT-2 模型架構模型架構.12 圖圖 11.RT-2 的三大泛化能力:推理、符號理解、人類識別的三大泛化能力:推理、符號理解、人類識別.13 圖圖 12.RT-2 與基線的泛化能力對比情況與基線的泛化能力對比情況.13 圖圖 13.RT-2 與基線的涌現能力對比情況與基線的涌現能力對比情況.14 內容目錄 圖表目錄 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 4 行業深度分析報告/證券研究報告 圖圖 14.RT-2 模型具有思維鏈推理能力模
12、型具有思維鏈推理能力.14 圖圖 15.GPT3.5 和和 GPT4 的部分考試成績的部分考試成績.15 圖圖 16.GPT4 進行圖像分析示例進行圖像分析示例.16 圖圖 17.ChatGPT 與與 GPT4 邏輯推理能力比較示例邏輯推理能力比較示例.16 圖圖 18.Ameca 搭載搭載 GPT3 輸出憤怒情緒輸出憤怒情緒.17 圖圖 19.Eureka 執行復雜動作示意圖執行復雜動作示意圖.18 圖圖 20.AI Agents 架構圖架構圖.19 圖圖 21.MT-ACT 指導下指導下 RoboAgent 完成任務圖示完成任務圖示.19 圖圖 22.RoboAgent 兩階段學習框架兩階
13、段學習框架.20 圖圖 23.RoboSet 數據集軌跡的技能分布數據集軌跡的技能分布.21 圖圖 24.數據增強方法圖解數據增強方法圖解.21 圖圖 25.MT-ACT 的策略體系結構的策略體系結構.22 圖圖 26.FSD 算法利用傳感器數據進行環境感知算法利用傳感器數據進行環境感知.22 圖圖 27.Optimus 在在 Occupancy Networks 模型的幫助下識別環境空間模型的幫助下識別環境空間.23 圖圖 28.Optimus 自主地將物體按顏色進行分類自主地將物體按顏色進行分類.24 圖圖 29.完整機器人系統構成完整機器人系統構成.25 圖圖 30.大模型能力與機器人需
14、求的映射關系大模型能力與機器人需求的映射關系.25 圖圖 31.機器人控制框架機器人控制框架.26 圖圖 32.機器人多輸入輸出能力機器人多輸入輸出能力.26 圖圖 33.具身機器人四大挑戰具身機器人四大挑戰.27 圖圖 34.大模型大模型+機器人還處在快速發展路上機器人還處在快速發展路上.28 表表 1.AGI 存在不同的研究視角存在不同的研究視角.6 表表 2.AGI 的特征的特征.7 表表 3.具身智能核心要素具身智能核心要素.8 表表 4.GPT 的迭代情況的迭代情況.15 表表 5.機器人接入機器人接入 GPT 的三個級別的三個級別.17 表表 6.RoboAgent 模塊與要素模塊
15、與要素.20 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 5 行業深度分析報告/證券研究報告 1 AGI 的關鍵拼圖的關鍵拼圖:起于大模型,終于具身智能:起于大模型,終于具身智能 1.1 大大語言語言模型模型百家爭鳴,百家爭鳴,推動弱人工智能向推動弱人工智能向通用人工智能通用人工智能躍升躍升 AGI(Artificial General Intelligence),即通用人工智能,也稱強人工智能(Strong AI),指的是具備與人類同等甚至超越人類的智能,能表現出正常人類所具有的所具備與人類同等甚至超越人類的智能,能表現出正常人類所具有的所有智能行為有智能行為。這種人工智能系統可以比人
16、類更好更快地學習和執行任何任務,包括人類無法處理的任務。并且由于機器在速度、內存、通信和帶寬方面的巨大優勢,未來,通用人工智能在幾乎所有領域都將遠遠超過人類的能力。Artificial Intelligence:A Modern Approach給出了人工智能的最新定義,即設計和構建智能體,這些智能體從環境中接收感知并采取影響環境的行動。如果以人類為中心來定義人工智能,即以人類的智能水平執行任務,那么人工智能需要感知、推理、推斷、知識構建、決策和規劃、學習、溝通以及高效改變和操縱環境的能力。人工智能大致分為三個主要層次弱人工智能(弱人工智能(ANI)、強人工智能)、強人工智能(AGI)和超人工
17、智能()和超人工智能(ASI)。與 AGI 相比,傳統的基于中小模型的弱人工智能聚焦某個相對具體的業務方面,采用相對中小參數規模的模型以及中小規模的數據集,然后實現相對確定、相對簡單的人工智能場景應用。圖1.人工智能歷史時間表 數據來源:淵亭防務公眾號,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 6 行業深度分析報告/證券研究報告 圖2.人工智能層次關系 數據來源:淵亭防務公眾號,客戶世界機構公眾號,財通證券研究所 表1.AGI 存在不同的研究視角 研究視角研究視角 研究目標研究目標 結構 盡可能準確地模擬大腦結構 行為 完全模擬人類行為 能力 旨在解決人類可以解決的問題
18、 功能 模擬一系列認知功能 原則 將智能與理性或最優性聯系起來 數據來源:集智俱樂部公眾號,財通證券研究所 AGI 技術實技術實現突破,現突破,離不開離不開 LLM 大模型和多模態能力大模型和多模態能力,在兩者結合下,在兩者結合下,AI 具備具備了創造力了創造力。大語言模型(LLM)是一種基于深度學習技術的大型預訓練神經網絡模型,與傳統機器學習相比,LLM 具有更強的具有更強的泛化能力,在復雜任務理解、連續對話、零樣泛化能力,在復雜任務理解、連續對話、零樣本推理等方向有了突破進展本推理等方向有了突破進展。但大語言模型還不符合通用人工智能的要求:(1)處理任務方面的能力有限,LLM 只能處理文本
19、領域的任務,無法與物理和社會環境進行互動;(2)不具備自主能力,它需要人類來具體定義好每一個任務;(3)不具備理解人類價值或與人類價值保持一致的能力,即缺乏道德指南針。因此,單靠單靠 LLM 是無法實現是無法實現 AGI 的,的,需要讓模型接觸到更多的模態數據需要讓模型接觸到更多的模態數據。每一種信息的來源或者形式,都可以稱為一種模態,例如人有觸覺、聽覺、視覺等。多模態,即從多個模態表達或感知事物,而多模態機器學習,指的是從多種模態的數據中學習并且提升自身的算法?;?Transformer 的 ChatGPT 出現之后,之后的 AI 大模型基本上都逐漸實現了對多模態的支持:首先,可以通過文本
20、、圖像、語音、視頻等多模態的數據學習;并且,基于其中一個模態學習到的能力,可以 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 7 行業深度分析報告/證券研究報告 應用在另一個模態的推理;此外,不同模態數據學習到的能力還會融合,形成一不同模態數據學習到的能力還會融合,形成一些超出單個模態學習能力的新的能力些超出單個模態學習能力的新的能力。表2.AGI 的特征 特征特征 簡介簡介 涌現 當模型參數突破某個規模時,性能顯著提升,并且表現出讓人驚艷的、意想不到的能力,比如語言理解能力、生成能力、邏輯推理能力等等。多模態 多種模態的數據里包含的信息,都可以被 AGI 統一理解,并轉換成模型的能力。通
21、用性 早期的 AI 模型非常碎片化的,每個場景都有不同的模型,最理想的 AI 模型是可以輸入任何形式、任何場景的訓練數據,可以學習到幾乎所有的能力,可以做任何需要做的決策。數據來源:中國科學院半導體研究所公眾號,財通證券研究所 萌芽期是以 CNN 為代表的傳統神經網絡模型階段;探索沉淀期是以 Transformer為代表的全新神經網絡模型階段,奠定了大模型的算法架構基礎,使大模型技術的性能得到了顯著提升;迅猛發展期是以 GPT 為代表的預訓練大模型階段,大數據、大算力和大算法完美結合,大幅提升了大模型的預訓練和生成能力以及多模態多場景應用能力。圖3.大語言模型(LLM)發展的三個階段 數據來源
22、:天翼智庫公眾號,財通證券研究所 盡管 AGI 仍處于發展早期,但其已在包括文字、代碼、圖像、語音、視頻等諸多領域和場景實現應用。目前,以谷歌、微軟為代表的國際科技巨頭和以百度、阿里等為典型的國內互聯網集團紛紛押注大模型研發,旨在以更廣的數據及語料規 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 8 行業深度分析報告/證券研究報告 模驅動 AGI 更廣泛的商業化落地。據據紅杉資本紅杉資本預測,預測,AGI 有望提升有望提升 10%人類生人類生產力,或產生數萬億美元的經濟價值產力,或產生數萬億美元的經濟價值。圖4.AGI 應用場景例舉 數據來源:36 氪研究院&MokaAGI 時代下的組織變
23、革研究報告:AGI 掀起生產力革命浪潮,組織迎來生產關系變革,財通證券研究所 1.2 具身智能助力具身智能助力 AGI 走進現實走進現實 具身智能具身智能是是邁向通用人工智能(邁向通用人工智能(AGI)的重要一步)的重要一步。具身智能(Embodied AI)指的是有身體并支持物理交互的智能體。簡單來說,就是讓 AGI 從數字世界走向實體世界,落地在機器人、機械臂、無人車、無人機上,讓實體世界中的機器人或仿真人具有智能,像人一樣與環境交互感知,執行各種各樣的任務。表3.具身智能核心要素 核心要素核心要素 簡介簡介 本體 是實際的執行者,是在物理或者虛擬世界進行感知和任務執行的機構,通常是具有物
24、理實體的機器人,可以有多種形態。智能體 是具身于本體之上的智能核心,負責感知、理解、決策、控制等的核心工作。數據 數據是泛化的關鍵,但涉及機器人的數據稀缺且昂貴。學習和進化架構 智能體通過和物理世界(虛擬的或真實的)的交互,來適應新環境、學習新知識并強化出新的解決問題方法。數據來源:甲子光年公眾號,財通證券研究所 在基于在基于 Transformer 的大語言模型浪潮帶領下,微軟、谷歌、英偉達等大廠,以的大語言模型浪潮帶領下,微軟、谷歌、英偉達等大廠,以及斯坦福、卡耐基梅隆等高等學府均開展了具身智能的相關研究及斯坦福、卡耐基梅隆等高等學府均開展了具身智能的相關研究。微軟基于ChatGPT 的強
25、大自然語言理解和推理能力,生成控制機器人的相關代碼;英偉達VIMA 基于 T5 模型,將文本和多模態輸入交錯融合,結合歷史信息預測機器人的下一步行動動作;谷歌具身智能路線較多,包括從 PaLM 衍生來的 PaLM-E,從Gato 迭代來的 RoboCat,以及最新基于 RT-1 和 PaLM-E 升級得到的 RT-2;蘋果內部已經建立了大語言模型 Ajax,并推出了一個被稱為 Apple GPT 的內部聊天機器人來測試其功能。斯坦福大學李飛飛團隊研究指出,通過大語言模型加視覺語言模型,AI 能在 3D 空間分析規劃,指導機器人行動,其最新研發成果 VoxPoser可以在沒有額外數據和訓練的情況
26、下,將自然語言指令轉化為具體行動規劃;加 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 9 行業深度分析報告/證券研究報告 州大學伯克利分校的 LM Nav,則通過視覺模型、語言模型、視覺語言模型 CLIP等三個大模型,讓機器人在不看地圖的情況下按照語言指令到達目的地。圖5.國外具身智能相關研究 數據來源:甲子光年公眾號,財通證券研究所 國內國內具身智能具身智能的的相關相關研究研究也也正持續推進正持續推進。達闥機器人在世界人工智能大會上發布了首個機器人領域的多模態人工智能大模型“RobotGPT”,能使接入云端大腦的機器人基于人工反饋的強化學習而不斷提升學習能力,實現機器人理解人類語言,自
27、動分解、規劃和執行任務,進行實時交互,完成復雜的場景應用,推動具身智能的自主進化,讓云端機器人成為通用人工智能的最佳載體。智元機器人團隊實現了自然語言端到端到機器人的映射,可以用自然語言讓機器人編排整個任務,還能動態調整任務。2 人形人形機器人是機器人是 AGI 最佳載體,最佳載體,業界研究業界研究進展加速進展加速 2.1 從從 RT-1 到到 RT-2,谷歌演進式打造全能機器人大腦谷歌演進式打造全能機器人大腦 2017 年提出的年提出的 Transformer 架構是大語言模型(架構是大語言模型(LLM)的最底層的基座,但)的最底層的基座,但Transformer 不止可以應用于大語言模型中
28、,也可以用于訓練其他類型的數據不止可以應用于大語言模型中,也可以用于訓練其他類型的數據。在大語言模型(LLM)中,語言被編碼為向量,研究員們為模型提供大量的語料,使其具備上下文學習、指令遵循和推理等能力,借此生成語言回答。而在視覺語言模型(VLM)中,模型可以將圖像信息編碼為與語言類似的向量,讓模型既能理解文字,又能以相同方式理解圖像。研究員們為模型提供大量的語料和圖像,使其能夠執行視覺問答、為圖像添加字幕和物品識別等任務。視覺和語言數據屬于被動數據,可由人類提供,而機器人的動作數據屬于主動數視覺和語言數據屬于被動數據,可由人類提供,而機器人的動作數據屬于主動數據,來源于機器人自身,獲取難度大
29、、成本高據,來源于機器人自身,獲取難度大、成本高。RT-1 是邁向視覺語言動作(VLA)謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 10 行業深度分析報告/證券研究報告 模型的一個嘗試,它的數據集包含了視覺、語言和機器人動作三個維度,但 RT-1的能力很大程度上由數據集和任務集決定,對新指令的泛化僅限于以前見過的概念的組合,且要進一步擴大數據集規模是一件非常困難的事。圖6.從 LLM 到 VLM 到 VLA 數據來源:Aakanksha Chowdhery 等 PaLM:Scaling Language Modeling with Pathways 等 Google 相關論文整理、財通證
30、券研究所 通過從大型的、多樣化的、與任務無關的數據集中遷移知識,現代機器學習模型能夠以較高的性能解決特定的下游任務,但這種能力在機器人領域仍有待進一步的應用考證。主要的挑戰有兩點:1)缺乏大規模和多樣化的機器人數據缺乏大規模和多樣化的機器人數據,這限制了模型吸收廣泛機器人經驗的能力;2)泛化能力不足泛化能力不足,缺乏可從此類數據集中學習并有效泛化的表達力強、可擴展且速度足夠快的實時推理模型。2022 年年 12 月,谷歌推出了月,谷歌推出了 RT-1(Robotics Transformer 1),有效應對以上兩點挑有效應對以上兩點挑戰,推動機器學習在機器人領域的應用戰,推動機器學習在機器人領
31、域的應用。RT-1 建立在 Transformer 架構上,它能從機器人的相機中獲取圖像歷史記錄同時將以自然語言表達的任務描述作為輸入,通過預訓練的 FiLM EfficientNet 模型將它們編碼為 token,然后通過 TokenLearner將大量標記映射到數量更少的標記中,實現標記壓縮,最后經 Transformer 輸出動作標記。動作包括手臂運動的 7 個維度(x、y、z、滾動、俯仰、偏航、打開夾具),移動底座的 3 個維度(x、y、偏航),以及在三種模式(控制手臂、底座或終止)之間切換的 1 個離散變量。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 11 行業深度分析報告/證
32、券研究報告 圖7.RT-1 模型架構 數據來源:Anthony Brohan 等RT-1:Robotics Transformer For Real-World Control At Scale、財通證券研究所 RT-1 通過吸收大量的真實數據,讓機器人勝任不同環境下的多種任務,從而提升通過吸收大量的真實數據,讓機器人勝任不同環境下的多種任務,從而提升機器性能和泛化能力機器性能和泛化能力。RT-1 是在一個由 13 臺機器人歷時 17 個月收集的包含 13萬個事件和超過 700 個任務的大型真實世界機器人數據集上訓練而成的。RT-1 的性能優于之前發布的基線,能夠以 97%的成功率執行 700
33、 多條指令,并能有效地泛化到新的任務、對象和環境中。此外,RT-1 可以成功吸收來模擬環境和其他機器人的異構數據,不僅不犧牲在原始任務上性能,還提高了對新場景的泛化能力。圖8.RT-1 的實驗結果 數據來源:Anthony Brohan 等RT-1:Robotics Transformer For Real-World Control At Scale、財通證券研究所 2023 年年 7 月月 28 日,日,Google DeepMind 推出全球首個控制機器人的推出全球首個控制機器人的 VLA 模型模型 RT-2(Robotics Transformer 2),可以從網絡和機器人數據中學習,
34、并將這些知識轉),可以從網絡和機器人數據中學習,并將這些知識轉化為機器人控制的通用指令化為機器人控制的通用指令。RT-2 以兩個已接受網絡規模數據訓練的視覺語言模型(VLM)PaLM-E 和 PaLI-X 為支柱,相當于賦予機器人規模足夠大的數據庫,使其具備識別物體和了解物體相關信息的能力。進一步,RT-2 還使用了 RT-1 的數據集進行聯合微調,通過加入機器人動作數據進行訓練,使其具備動作執行能力。具體來說,研究人員將機器人的動作表示為另一種語言,可以將其轉換為文本標記,并與互聯網規模的視覺語言數據集一起進行訓練。在推理過程中,文本標記被去標記化為機器人動作,從而實現閉環控制。謹請參閱尾頁
35、重要聲明及財通證券股票和行業評級標準 12 行業深度分析報告/證券研究報告 圖9.表示機器人動作的文本字符串 數據來源:Google DeepMind、財通證券研究所 圖10.RT-2 模型架構 數據來源:Anthony Brohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、財通證券研究所 通過將視覺語言模型與機器人操作能力結合,將網絡規模預訓練的通過將視覺語言模型與機器人操作能力結合,將網絡規模預訓練的 VLM 在語義在語義和視覺上的泛化、語義理解和推理等能力有效轉移,實現機器
36、人版和視覺上的泛化、語義理解和推理等能力有效轉移,實現機器人版 ChatGPT。因而在泛化能力之外,RT-2 還具備三個涌現能力:1)推理(Reasoning):RT-2 的核心優勢,要求機器人掌握數學、視覺推理和多語言理解三大技能;2)符號理解(Symbol understanding):能將大模型預訓練的知識,直接延展到機器人此前沒見過的數據上;3)人類識別(Human recognition):能夠準確識別人類。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 13 行業深度分析報告/證券研究報告 圖11.RT-2 的三大泛化能力:推理、符號理解、人類識別 數據來源:Anthony Br
37、ohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、財通證券研究所 與基線相比,與基線相比,RT-2 在泛化能力和涌現能力上均有明顯提升在泛化能力和涌現能力上均有明顯提升。在泛化能力上,對于未見過的物體、背景和環境,RT-2 的表現均明顯優于基線,平均泛化性能大約為RT-1 的 2 倍;在涌現能力上,從符號理解、推理和人類識別這三個細分能力看,RT-2 的兩個變體都比基線好很多,平均性能最高可達 3 倍以上。圖12.RT-2 與基線的泛化能力對比情況 數據來源:Anthony Br
38、ohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 14 行業深度分析報告/證券研究報告 圖13.RT-2 與基線的涌現能力對比情況 數據來源:Anthony Brohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、財通證券研究所 具有思維鏈推理能力的具有思維鏈推理能力的 RT-2 能夠執行更復雜的指令能
39、夠執行更復雜的指令。研究人員對 RT-2 的一個變體與 PaLM-E 進行了微調,并對數據進行擴充,增加了“計劃(Plan)”步驟,該步驟首先用自然語言描述了機器人將要采取的行動的目的,然后是實際的行動符號。定性結果表明,具有思維鏈推理能力的 RT-2 能夠執行更復雜的指令,因為它可以先用自然語言規劃自己的行動。圖14.RT-2 模型具有思維鏈推理能力 數據來源:Anthony Brohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、財通證券研究所 2.2 OpenAI 升級迭代升
40、級迭代 GPT,推動推動機器人“大腦”機器人“大腦”升級升級 GPT(Generative Pre-Training)是)是 OpenAI 于于 2018 年推出的第一代生成式預訓年推出的第一代生成式預訓練模型練模型。此前,NLP 任務需要通過大規模數據集來進行有監督的學習,需要進行成本高昂的數據標注工作。GPT 通過將無監督的預訓練和有監督的微調結合,為NLP 任務提供一種普適的半監督學習方式。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 15 行業深度分析報告/證券研究報告 GPT-4 是是 OpenAI 發布的最新發布的最新 GPT 系列模型系列模型,是目前最強的文本生成模型是目前最
41、強的文本生成模型。它是一個大規模的多模態模型,可以接受圖像和文本輸入,產生文本輸出。GPT-4 突破純文字的模態,增加了圖像模態的輸入,具有強大的圖像理解能力,復雜任務處理能力大幅提升,同時改善幻覺、安全等局限性,其能力已在各種專業和學術基準上表現出了人類的水平。表4.GPT 的迭代情況 模型模型 發布時間發布時間 參數量參數量 具體內容具體內容 GPT 2018 1.17 億 第一代生成式預訓練模型,通過將無監督的預訓練和有監督的微調結合,為 NLP 任務提供一種普適的半監督學習方式。GPT-2 2019 15 億 相比 GPT,GPT-2 并沒有進行過多的架構創新,只使用了更多的網絡參數與
42、更大的數據集,進一步證明了無監督學習在 NLP 領域的潛力。GPT-3 2020 1750 億 較之 GPT-2,GPT-3 在數據量和模型規模上都進行了極大的提升。GPT-3 在執行零樣本學習和少樣本學習任務時具有驚人表現,它可以通過非常少量的樣本數據來完成各種任務,甚至可以完成從未見過的任務。GPT-3.5(ChatGPT)2022 約 1750 億 GPT-4 發布之前的預熱模型,與 GPT-3 的主要區別在于新加入了被稱為 RLHF(人類反饋強化學習)的方法,該技術在訓練循環中使用人類反饋來最大限度地減少有害、不真實或有偏見的輸出。GPT-4 2023 估計 10 萬億100 萬億 不
43、僅回答準確性大幅提高,還具備更高水平的識圖能力,更強大的高級推理能力,且能夠生成歌詞、創意文本,實現風格變化。此外,GPT-4 的文字輸入限制也提升至 2.5 萬字,且對于英語以外的語種支持更多優化。數據來源:天津大學圖書館公眾號,騰訊云開發者公眾號,財通證券研究所 圖15.GPT3.5 和 GPT4 的部分考試成績 數據來源:MetaPost 公眾號、財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 16 行業深度分析報告/證券研究報告 2023 年年 9 月月 25 日,日,OpenAI 宣布推出宣布推出 GPT-4V(ision),新增語言、圖像交互功能,新增語言、圖像交
44、互功能。GPT-4V 的開發完成于 2022 年,并在 2023 年 3 月開始提供早期體驗。GPT-4V 的訓練策略與 GPT-4 保持一致,首先采用大量的文本和圖像資料進行初步訓練,隨后通過人類反饋的強化學習進行細化調整。訓練后的 GPT-4V 允許輸入圖像、子圖像、文本、場景文本和視覺指針,展現了指令遵循、思維鏈和上下文少樣本學習等學習能力。同時同時,OpenAI 正式官宣正式官宣 ChatGPT 升級為多模態通用大模型升級為多模態通用大模型。多模態 ChatGPT 的主要更新點包括:(1)圖像分析圖像分析:升級后的多模態 GPT3.5 和 GPT4 能夠解讀圖片中的內容,并根據圖像信息
45、進行響應。(2)語音處理語音處理:增加了語音交互功能。其語音識別采用 OpenAI 的 Whisper 模型。對于語音合成功能,OpenAI 采用新穎的“文本轉語音模型”。(3)推理能力推理能力:較之 ChatGPT,GPT-4 能解決邏輯更為復雜的問題。圖16.GPT4 進行圖像分析示例 數據來源:OpenAI,財通證券研究所 圖17.ChatGPT 與 GPT4 邏輯推理能力比較示例 數據來源:OpenAI,財通證券研究所 類類 GPT 技術技術為機器人帶來最核心進化是對話理解能力為機器人帶來最核心進化是對話理解能力。具備了多模態思維鏈能力的 GPT-4 模型具有一定邏輯分析能力,已經不是
46、傳統意義上的詞匯概率逼近模型。此外,在機器人研發和制造環節,類 GPT 技術也促進機器人研發制造環節效率提高。機器人接入 GPT 的可以粗略分為 L0L2 三個級別:謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 17 行業深度分析報告/證券研究報告 表5.機器人接入 GPT 的三個級別 級別級別 具體內容具體內容 L0 僅接入大模型官方 API,幾乎沒有做二次開發,難度系數較低 L1 在接入大模型的基礎上,結合場景理解滿足需求做產品開發 L2 接入大模型的機器人企業基于本地知識做二次開發,甚至得到自己的(半)自研大模型(平民化大模型),解決場景問題,產品能做出來、賣出去 數據來源:智東西公
47、眾號,財通證券研究所 GPT-3、GPT-3.5以及以及 GPT-4 發布之后發布之后,Engineered Arts便將它們接入到了便將它們接入到了 Ameca機器人機器人的“大腦”的“大腦”中中。有了 GPT-3/3.5 的 Ameca 可以像專家一樣與工程師們談笑風生,也能快速對答網友的提問,而不再是此前實驗室里只會做 20 多種豐富表情的仿生機器人,它有了自主性。而有了 GPT-4 意識能力加持的的 Ameca 已經可以通過豐富表情來讓人類形成多層對話意圖的理解,成功從一個快問快答急于表現的“聰明人”,變成了一個深邃娓娓道來的“智者”。圖18.Ameca 搭載 GPT3 輸出憤怒情緒
48、數據來源:21 世紀英文報公眾號,財通證券研究所 英偉達英偉達基于基于 GPT-4 打造打造 Eureka,可自動訓練實體機器人的動作指令,可自動訓練實體機器人的動作指令,具備零樣具備零樣本生成、編寫代碼和語境改進等能力,可對強化學習的獎勵設計流程、代碼進行本生成、編寫代碼和語境改進等能力,可對強化學習的獎勵設計流程、代碼進行大幅度優化,達到人類專家級水平大幅度優化,達到人類專家級水平。Eureka 利用 GPT-4 生成出的獎賞設計方案可助力機器人的試錯(trial-and-error)學習,并能夠起到接替 80%人類專家的任務,從而使機器人平均訓練效率提升超過50%。并且,在Eureka生
49、成獎賞設計方案時,謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 18 行業深度分析報告/證券研究報告 開發者不需要額外輸入任務提示或撰寫預定義的獎賞范本,只需結合人工修正獎賞使機器人動作更符合開發人員的意圖。圖19.Eureka 執行復雜動作示意圖 數據來源:中國機器人網公眾號,財通證券研究所 2.3 Meta 與與 CMU 聯手打造聯手打造 RoboAgent,用更少的數據訓練更強的具用更少的數據訓練更強的具身智能體身智能體 ChatGPT 獲得巨大成功后,獲得巨大成功后,OpenAI 已然奔向下一個目標已然奔向下一個目標AI Agents(智能(智能體)。體)。無獨有偶,Meta也看到
50、了AI Agents的機會。今年3、4月份,Camel、AutoGPT、BabyAGI、西部世界小鎮等多個 AI Agents 產品陸續推出。AI Agents 可以定義為基于可以定義為基于 LLM 驅動的驅動的 Agent 實現對通用問題的自動化處理。實現對通用問題的自動化處理。AI Agents 代替人類與 GPT 等大語言模型(Large Language model,LLM)進行反復交互,只要給定目標,它便可以模擬智能行為,自主創建任務、重新確定任務列表優先級、完成首要任務,并循環直到目標達成。LLM 主要是一個被動的工具,但AI Agents 可以在沒有人類控制的情況下獨立運行。通過
51、接入 API,AI Agents 甚至可以瀏覽網頁、使用應用程序、讀寫文件、使用信用卡付款等等。從架構來說,從架構來說,AI Agents 就是以就是以 LLM 為大腦,再賦予任務規劃能力、長短期記憶為大腦,再賦予任務規劃能力、長短期記憶力、工具使用能力,即可實現自動化處理更復雜的任務。力、工具使用能力,即可實現自動化處理更復雜的任務。通過建立思維鏈來實現模型的連續思考和決策,AI Agents 可以分析復雜問題,并將其拆解成簡單、細化的子任務。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 19 行業深度分析報告/證券研究報告 圖20.AI Agents 架構圖 數據來源:LLM Powe
52、red Autonomous Agents,財通證券研究所“RoboAgent”是被是被來來自自 Meta、CMU 的研究人員用了的研究人員用了 2 年的時間打造出年的時間打造出的的通用機通用機器人智能體器人智能體,突破突破了了缺乏足夠龐大的數據集來訓練通用智能體缺乏足夠龐大的數據集來訓練通用智能體和和缺乏能夠生成此缺乏能夠生成此類數據的通用智能體類數據的通用智能體的的困境困境。研究員們將重點放在開發一種高效的范例上,能夠在實際數據有限的情況下訓練一個能夠獲得多種技能的通用智能體,并將這些技能推廣應用于多樣的未知情境。為實現這一目標,Meta 和 CMU 開發了一個高效的系統MT-ACT,即多
53、任務行動分塊轉換器(Multi-Task Action Chunking Transformer)用于訓練通用機器人。該系統的核心原理是,在現有機器人經驗的基礎上創建一個多樣化的語義增強集合來倍增離線數據集,并采用一種具有高效策略表示的新型策略架構,以在數據預算范圍內恢復高性能策略。在 MT-ACT 加持下,RoboAgent 能夠在 6 大活動情景,38 個任務中,實現 12 個操作技能,能力泛化可達到 100 種未知場景。圖21.MT-ACT 指導下 RoboAgent 完成任務圖示 數據來源:Homanga Bharadhwaj 等 RoboAgentGeneralization and
54、 Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking,財通證券研究所 具體來看 RoboAgent 的運行原理,RoboAgent 建立在以下模塊化和可補償的要素之上:謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 20 行業深度分析報告/證券研究報告 表6.RoboAgent 模塊與要素 名稱名稱 介紹介紹 RoboPen 利用商品硬件構建的分布式機器人基礎設施,能夠長期不間斷運行。RoboHive 跨仿真和現實世界操作的機器人學習統一框架。RoboSet 一個高質量的數據集,代表不
55、同場景中日常對象的多種技能。MT-ACT 一種高效的語言條件多任務離線模仿學習框架。它通過在現有機器人經驗的基礎上創建一個多樣化的語義增強集合來倍增離線數據集,并采用一種具有高效動作表示法的新型策略架構,以在數據預算范圍內恢復高性能策略。數據來源:RoboAgent 官方介紹網站,財通證券研究所 RoboAgent 基于兩個關鍵的階段來學習低數據環境下的通用策略?;趦蓚€關鍵的階段來學習低數據環境下的通用策略。它利用來自基礎模型的世界先驗知識來避免模式崩潰,并采用一種能夠攝取高度多模式數據的新型高效策略表示法。(1)語義增強(語義增強(Semantic Augmentations):):Rob
56、oAgent 通過對 RoboSet(MT-ACT)進行語義增強,將來自現有基礎模型的世界先驗知識注入其中。由此產生的數據集可在不增加人類/機器人成本的情況下,將機器人的經驗與世界先驗相乘。(2)高效的策略表示(高效的策略表示(Efficient Policy Representation):):由此產生的數據集具有高度的多模態性,包含豐富多樣的技能、任務和場景。Meta 和 CMU 將動作分塊適應于多任務設置,開發出 MT-ACT一種新穎高效的策略表示,既能攝取高度多模態的數據集,又能在低數據預算設置中避免過度擬合。圖22.RoboAgent 兩階段學習框架 數據來源:Homanga Bha
57、radhwaj 等 RoboAgentGeneralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking,財通證券研究所 從數據集從數據集 RoboSet 出發,經過數據出發,經過數據/語義增強處理,進而經由語義增強處理,進而經由 MT-ACT 策略處理,策略處理,便是便是 RoboAgent 的核心原理的核心原理。下面對各個部分和步驟進行詳細介紹。用于訓練用于訓練 RoboAgent 的數據集的數據集 RoboSet(MT-ACT)僅包含僅包含 7500 條軌跡,
58、比條軌跡,比 RT-1少少 18 倍。倍。該數據集由在商品機器人硬件(配備 Robotiq 夾具的 Franka-Emika 機器 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 21 行業深度分析報告/證券研究報告 人)上使用人類遠程操作收集的高質量軌跡組成,涉及多個任務和場景。RoboSet(MT-ACT)涵蓋了幾個不同場景中的 12 種獨特技能。收集該數據集的方法是將日常廚房活動(如泡茶、烘焙)劃分為不同的子任務,每個子任務代表一種獨特的技能。該數據集包括常見的拾取-放置技能,也包括擦拭、蓋蓋子等接觸性較強的技能以及涉及鉸接物體的技能。圖23.RoboSet 數據集軌跡的技能分布 數據
59、來源:Homanga Bharadhwaj 等 RoboAgentGeneralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking,財通證券研究所 機器人數據機器人數據+語義增強滿足訓練場景和數據多樣性需求。語義增強滿足訓練場景和數據多樣性需求。一般來說,有用的機器人操縱系統需要能夠處理分布以外的場景(例如不同的家庭和辦公室)。研究人員使用兩種場景增強技術增強交互對象和增強背景,來使數據倍增,泛化到有不同的背景和不同交互對象的場景。同時,基于最近在分割和局部重繪模
60、型方面取得的進展,研究人員從互聯網數據中提煉出真實世界的語義先驗,以結構化的方式修改場景,進一步滿足訓練對場景和物體多樣性的需求。圖24.數據增強方法圖解 數據來源:Homanga Bharadhwaj 等 RoboAgentGeneralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking,財通證券研究所 MT-ACT 策略架構設計策略架構設計是是一個有足夠容量的一個有足夠容量的 Transformer 的模型,可以處理多模的模型,可以處理多模態多任務機器人數據集
61、態多任務機器人數據集,也是,也是 RoboAgent 的核心架構的核心架構。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 22 行業深度分析報告/證券研究報告 圖25.MT-ACT 的策略體系結構 數據來源:Homanga Bharadhwaj 等 RoboAgentGeneralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking,財通證券研究所 2.4 特斯拉特斯拉打通打通自動駕駛的自動駕駛的 FSD 算法與機器人板塊算法與機器人板塊,Optimus 迎來新
62、迎來新進展進展 特斯拉的 FSD 是指全自動駕駛系統,包含多個傳感器、計算能力較強的計算機、先進的人工智能技術和算法,以及相應的導航和地圖數據等組成部分,使得車輛在各類交通環境中具備感知、決策和控制的能力。而特斯拉機器人特斯拉機器人 Optimus 將使將使用與該公司電動汽車相同的用與該公司電動汽車相同的 FSD 系統,系統,FSD 和機器人的底層模塊之間實現了鏈和機器人的底層模塊之間實現了鏈接接。圖26.FSD 算法利用傳感器數據進行環境感知 數據來源:量子位公眾號,財通證券研究所 Occupancy Networks 是特斯拉在自動駕駛汽車上的神經網絡模型是特斯拉在自動駕駛汽車上的神經網絡
63、模型,這是讓Optimus 機器人感知并理解周圍環境的重要技術,綠色代表人類,紫色代表地面,而白色則代表不重要的物品但不能碰到,暗紅色則代表預設任務目標,藍色代表的是工具,青色代表的自己身體。從演示的畫面來看,在 Occupancy Networks 這 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 23 行業深度分析報告/證券研究報告 套模型下的幫助下 Optimus 對環境空間有著相對精準的識別能力,通過基這套神經網絡模型的學習和訓練,Optimus 就能清楚的知道自己位置,具備分析與執行的工作能力,包括即將需要去做的工作,如何完成工作等。圖27.Optimus 在 Occupancy
64、 Networks 模型的幫助下識別環境空間 數據來源:機器人大講堂公眾號,財通證券研究所 2023 年年 9 月月 24 日日,特斯拉,特斯拉 Optimus 迎來迎來了了新的進展新的進展,它可以自主地對物體進行,它可以自主地對物體進行分類了分類了。其中的亮點是神經網絡完全端到端訓練端到端訓練:輸入視頻,輸出控制,這類似于特斯拉自動駕駛 FSD V12 開發中的神經網絡訓練處理所有輸入信號,輸出駕駛決策。精確的校準能力使 Optimus 更高效地學習各種任務,并且僅使用視覺,其神經網絡完全實現了 on-board 運行。這樣一來,Optimus 可以完全自主地將物體按顏色進行分類。團隊資深軟
65、件工程師 Julian Ibarz 表示只需要收集更多數據,則無需更改任何代碼就可以訓練新的復雜任務。Optimus 并沒有聚焦高爆發力、高動態扭矩這些通用化運動問題,而是在底層邏輯和算法方面,讓 Optimus 初步具備了識別環境空間,以及完成標定任務等工作。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 24 行業深度分析報告/證券研究報告 圖28.Optimus 自主地將物體按顏色進行分類 數據來源:機器之心公眾號,財通證券研究所 此外,Optimus 也展示了其基于端到端 AI 學習人類行為的過程,還展示了其從一個容器中拾取物體并將它放入第二個容器中。值得注意的是,操作員只是親自完操
66、作員只是親自完成任務,而機器人則從過程中學習,并非直接被操縱成任務,而機器人則從過程中學習,并非直接被操縱,這需要機器人看到物體、繪制出它們的 3D 形狀、弄清楚如何更好地接近它們,然后選擇合適的電機運動和角度變化抓住并抬起物體。Optimus 端到端訓練的神經網絡可以最大限度地提升 Optimus 的本地安全性。它需要使用遙控器或手機暫停,而不需要集中式的控制。Optimus 在任務操作方面的先進性已初露鋒芒,比起運動神經,它顯露出更多“智在任務操作方面的先進性已初露鋒芒,比起運動神經,它顯露出更多“智慧”慧”。這在很大程度上得益于特斯拉對其自動駕駛技術的復用,它加快了人形機器人的技術迭代速
67、度。馬斯克曾表示,機器人所采用視覺算法、計算芯片、電池均與特斯拉汽車產品線共用。他強調現在是推進研發人形機器人的絕佳機會,因為可以共享大量自動駕駛領域的軟硬件技術成果,認為自動駕駛的本質其實就是機器人。3 機器人擁抱大模型:機器人擁抱大模型:邁向邁向 AGI 的曙光與挑戰的曙光與挑戰 3.1 大模型大模型+機器人機器人:AGI 如何走向物理世界如何走向物理世界?大模型之前的 AI 模型多是面向特定領域單獨訓練的,面對新場景通常需要“數據收集標注訓練部署應用”等一系列流程,耗時長且通用性差。大模型的出現讓高成本的垂直領域 AI 開發變成“預訓練大模型“預訓練大模型+特定任務微調特定任務微調”謹請
68、參閱尾頁重要聲明及財通證券股票和行業評級標準 25 行業深度分析報告/證券研究報告 的形式,大幅提高模型的泛化能力和開發速度,在面向各種精度要求不高的場合時具備了一定意義上的通用智能。人工智能大模型的語言處理能力可以被看作“大腦”,若想真正發揮通用人工智能人工智能大模型的語言處理能力可以被看作“大腦”,若想真正發揮通用人工智能的力量,未來的的力量,未來的 AGI 需要有具身實體需要有具身實體,讓它能夠和真實物理世界交互,完成各種任務,如此才能讓技術帶來更大價值。據圖靈獎獲得者姚期智所言,打造一個有泛應用能力的通用機器人,既要讓它具備人類這一具身智能體所具備的身體、小腦、大腦三個主要成分,還要讓
69、它更適應人類社會環境,人形是最合適的形態。圖29.完整機器人系統構成 數據來源:腦極體公眾號、清華大學人工智能國際治理研究院公眾號、財通證券研究所 目前進展最大也最有可能跟機器人深度結合的是大語言模型(目前進展最大也最有可能跟機器人深度結合的是大語言模型(LLM),有助于實),有助于實現任務級編程現任務級編程/交互交互。只需要告訴機器人它要做的任務是什么,機器人就會理解需要做的事情,拆分任務動作,生成應用層控制指令,并根據任務過程反饋修正動作,最終完成人類交給的任務。整個過程基本不需要或者僅需少量人類的介入和確認,基本實現了機器人自主化運行,無需掌握機器人專業操作知識的機器人應用工程師介入。圖
70、30.大模型能力與機器人需求的映射關系 數據來源:數字時氪公眾號、財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 26 行業深度分析報告/證券研究報告 任務級編程或者任務級交互落地之后,任務級編程或者任務級交互落地之后,機器人的使用者從工程師變成了一般用戶機器人的使用者從工程師變成了一般用戶。在大模型之前,一般只有控制和反饋環節是由計算機自動完成,前面的任務定義、拆解和機器人運動代碼生成主要是機器人工程師完成。大模型并不適合做底層精確的控制,更適合做相對模糊的任務級規劃,通過大模型直接生成機器人應用級代碼是目前看來技術儲備最多,最有可能快速落地的方向,這就降低了機器人的使用門
71、檻。當然,靠 AI 完全自主生成的機器人代碼可能存在不完備、不安全的問題,這時候就需要人類介入(RLHF)進行確認、修改、調優等工作。圖31.機器人控制框架 數據來源:數字時氪公眾號、財通證券研究所 任何一個系統對外界的影響程度取決于它的輸出能力,計算機系統的輸出都是虛擬的,無法對現實世界產生物理的影響,而機器人的輸出包含了虛擬和物理兩種能力。多輸入多輸出能力是通用機器人平臺的基礎能力,也是機器人具備從事多種多樣任務能力的硬件基礎,也由此構成了機器人作為物理世界平臺的基礎。多多模態大模型使得機器人開始理解如何合理使用多種輸出能力來更好的完成任務模態大模型使得機器人開始理解如何合理使用多種輸出能
72、力來更好的完成任務。但語言大模型和圖像大模型以及其他多模態大模型之間的知識如何映射、如何鏈接仍然是一個未能很好解決的難題。圖32.機器人多輸入輸出能力 數據來源:數字時氪公眾號、財通證券研究所 3.2 大模型大模型+機器人還在路上,機器人還在路上,AGI 道阻且長道阻且長 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 27 行業深度分析報告/證券研究報告 根據 Stuart Russell 在 2023 北京智源大會上的演講,我們離通用人工智能還很遙我們離通用人工智能還很遙遠,仍然存在許多尚未解決的重大問題遠,仍然存在許多尚未解決的重大問題。如果說通用人工智能是一件完整的拼圖,大語言模型僅
73、僅只是其中的一塊,但我們并不真正了解如何將它與拼圖的其他部分連接起來,甚至還有部分缺失的拼圖沒有被找到。圖33.具身機器人四大挑戰 數據來源:清華大學人工智能國際治理研究院公眾號、數字時氪公眾號、財通證券研究所 操作安全性可分為任務級安全性與操作級安全性操作安全性可分為任務級安全性與操作級安全性。任務生成的安全性指的是大模型生成的任務動作是否能很好的適應新環境和新情境,不會對環境造成破壞或者引發安全性后果,本質上是模型產出的魯棒性問題。雖然大模型具備很強的通識能力,但是如何保證每一次生成的任務都符合彼時情境的安全規范,仍然是一個需要持續優化的問題。除了需要常識就能解決的任務生成問題,在很多需要
74、專業技能的領域機器人還要關注細微工藝動作是否符合安全規范,這就是操作動作的安全性。此外,機器人的發展需要收集很多數據,其中也面臨很多安全隱私等方機器人的發展需要收集很多數據,其中也面臨很多安全隱私等方面的問題,即數據安全與信息安全面的問題,即數據安全與信息安全。缺乏高質量訓練數據也是大模型和機器人融合需要解決的難題之一缺乏高質量訓練數據也是大模型和機器人融合需要解決的難題之一。機器人需要通過多種傳感器感知環境狀態,然后執行實際動作來完成任務,因此訓練用于機器人的大模型需要用到大量機器人在真實世界中與環境進行交互的數據集。相比圖像和自然語言處理領域可以從網上大量獲取訓練數據或者通過人類標注快速低
75、成本的獲取數據,可用于訓練機器人學會執行新任務新技能的高質量數據非常匱乏。一方面是由于機器人真實數據收集效率低且可能會對周圍環境造成影響,另一方面是由于機器人保有量還太少。在欠缺優質數據的大背景下,仿真數據、真實機器人數據、教學視頻、自然語言數據都有可能對訓練機器人基礎大模型有至關重要的作用。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 28 行業深度分析報告/證券研究報告 圖34.大模型+機器人還處在快速發展路上 數據來源:數字時氪公眾號、財通證券研究所 展望未來,展望未來,大模型會給機器人軟件系統帶來系統性的變革大模型會給機器人軟件系統帶來系統性的變革。隨著 AI 大模型的發展,機器人
76、的功能越來越多,機器人軟件化的定義將愈加明顯,機器人公司的軟件能力和服務將成為新的評價指標。之前面向固定領域的工業機器人、協作機器人、移動機器人的產品形態將無法滿足未來更多樣任務的需求,多模態大模型必然需要多模態機器人。4 國內核心公司介紹國內核心公司介紹 考慮到以 RT-2 為代表的軟件模型算法正在不斷提升,有望加速提升通用機器人與行業機器人的可能性與迭代速度,帶動下游需求的產生,并實現包括軟件算法、機械組件、機器人整機等在內的產業鏈共振。(1)三花智控三花智控 三花智控是全球領先的生產和研發制冷空調控件元件和零部件的廠商,有著 30 多年的歷史經驗,是全球眾多車企和空調制冷電器廠家的戰略合
77、作伙伴。機器人項目與公司現有業務的核心技術同源,公司積極布局機器人產業,重點聚焦仿生機器人機電執行器業務,機電執行器是仿生機器人的核心部件。機器人主流的兩種驅動方式為電機驅動、液壓驅動,其中電機驅動是使用最普遍、最成熟的驅動系統,公司機電執行器的技術研發方向就是電機驅動。公司全方面配合客戶產品研發、試制、調整,設計出滿足仿生機器人需求的機電執行器產品。同時,以配合客戶量產為目標,積極籌劃機電執行器海外生產布局。(2)拓普集團拓普集團 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 29 行業深度分析報告/證券研究報告 拓普集團自 1983 年創立,總部位于中國寧波,在汽車行業中專注篤行 40
78、 年。集團設有動力底盤系統、飾件系統兩大事業群,以及一個面向智能駕駛的獨立品牌業務單元域想智行。集團主要生產汽車 NVH 減震系統、內外飾系統、車身輕量化、底盤系統、智能座艙部件、熱管理系統、空氣懸架系統和智能駕駛系統等產品。拓普集團與國內外多家汽車制造商建立了良好的合作關系,主要客戶包括國際國內智能電動車企和傳統 OEM 車企等。拓普集團研發智能剎車系統 IBS 項目多年,在機械、減速機構、電機、電控、軟件等領域形成了深厚的技術積淀,并且橫向拓展至熱管理系統、智能轉向系統、空氣懸架系統、座艙舒適系統以及機器人執行器等業務。公司研發的機器人直線執行器和旋轉執行器,已經多次向客戶送樣,項目要求自
79、 2024 年一季度開始進入量產爬坡階段,初始訂單為每周100 臺。公司拆分設立機器人事業部并設立電驅事業部,實現智能汽車部件業務與機器人部件業務的協同發展。(3)埃斯頓埃斯頓 埃斯頓自動化成立于 1993 年,經過近 30 年公司全體員工持續的努力奮斗,得益于公司專注于自動化完整生態鏈布局,長期保持年收入 10%左右的研發投入,以及國際化發展構建的全球資源平臺的大力支持,公司已經成功培育三大核心業務:工業自動化系列產品,工業機器人系列產品,工業數字化系列產品。作為中國最早自主研發交流伺服系統的公司,工業自動化系列產品線包括全系列交流伺服系統,變頻器,PLC,觸摸屏,視覺產品和運動控制系統,以
80、及以 Trio 控制系統為核心的運動控制和機器人一體化的智能單元產品,為客戶提供從單軸單機單元的個性自動化解決方案;工業機器人產品線在公司自主核心部件的支撐下得到超高速發展,產品已經形成以六軸機器人為主,負載范圍覆蓋 3kg-700kg,54 種以上的完整規格系列,在新能源,焊接,金屬加工、3C 電子、工程機械等細分行業擁有頭部客戶和較大市場份額。2020 年被福布斯評為“2020 年度福布斯中國最具創新力企業榜工業機器人唯一上榜企業”。(4)億嘉和億嘉和 億嘉和科技股份有限公司是機器人智能應用服務商,致力于機器人的研發、生產和推廣應用。億嘉和成立于 1999 年,并于 2018 年登陸 A
81、股主板,現已在中國南京、深圳、松山湖、中國香港以及新加坡、美國等地建立研發中心/分支機構,逐步構建全球化布局。公司主要從事特種機器人產品的研發、生產、銷售及智能化服務。公司以電力行業特種機器人為發展核心,通過推進實施“機器人+行業”全面發展戰略,成功覆蓋商業清潔、新能源充電、軌道交通等新行業領域,幫助更 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 30 行業深度分析報告/證券研究報告 多行業客戶實現無人化、智能化、精密化管理。公司產品主要分為操作類機器人、巡檢類機器人、商用清潔機器人、智能化系統及解決方案、消防類機器人。(5)博實股份博實股份 博實創建于 1997 年,是專業從事化工、冶
82、煉、物流、食品、飼料、建材等領域智能制造裝備及工業機器人的研發、生產、銷售、服務,并圍繞系列產品提供智能工廠整體解決方案的高新技術上市公司。公司擁有國家企業技術中心,是國家先進制造業與現代服務業融合試點單位、國家服務型制造示范企業、中國機器人TOP10 峰會成員、智能制造系統解決方案供應商 TOP10、中國最具投資價值百強企業、智能工廠非標自動化集成商百強企業、中國新經濟 500 強企業、品牌認證五星級和全國商品售后服務達標認證五星級企業。博實系列產品覆蓋國內除港、澳、臺的所有省區,并出口歐、亞、美、非洲多個國家。目前,以面向礦熱爐冶煉高溫特種作業機器人產品方向為例,公司針對傳統電石礦熱爐領域
83、迫切的安全生產、替代人工需求,以工業機器人技術為基礎,成功研發應用對替代高危惡劣環境人工作業有劃時代意義的(高溫)爐前作業機器人(“點”),并相繼成功研發電石搗爐機器人、巡檢機器人、智能鍋搬運技術等關鍵生產作業系統(“線”),直至形成真正顛覆行業傳統生產作業的智能車間整體解決方案(“面”)的科技創新能力,實現少人、無人工廠和智能制造。這種由“點”及“線”到“面”的技術、產品研發及產業化進程,創造了由“0”到“1”到“N 倍”的市場空間,打開了行業成長的天花板。(6)德昌股份德昌股份 寧波德昌電機股份有限公司,成立于 2002 年 1 月,是一家符合產業發展方向的規模以上企業。10 月 23 日
84、,德昌股份發布公告,公司第二屆董事會第六次會議于 2023 年 10 月20 日召開,會議審議通過了 關于對外投資設立合資公司的議案。該公司計劃與五家產業相關的企業進行戰略合作,共同成立名為“深圳人形機器人國創中心有限公司”的合資公司,該合資公司將作為人形機器人創新中心的實際運營平臺。合資公司的注冊資本為 6500 萬元人民幣,其中德昌股份出資 500 萬元,持股比例為7.69%。5 投資建議投資建議 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 31 行業深度分析報告/證券研究報告 AGI 是人工智能未來發展的方向,LLM 和多模態推動 AGI 實現技術上的突破,“人形機器人+大模型”為
85、 AGI 走進物理世界提供了更多的可能性。隨著谷歌、OpenAI、Meta 和特斯拉等科技大廠以及斯坦福等高等學府紛紛投入 AGI 的研究中,“人形機器人+大模型”將會進入發展的快車道,帶動機器人軟件和硬件系統的迭代升級,具有較好的發展前景。建議關注機器人整機領域的公司,如三花智控、拓普集團、埃斯頓、億嘉和、博實股份、德昌股份等。6 風險提示風險提示 特斯拉人形機器人量產進展不及預期。特斯拉人形機器人量產進展不及預期。特斯拉在人形機器人上的進展對行業量產具有引領作用,但是特斯拉人形機器人降本仍然有一定壓力,量產進展有低于預期的可能性。國產化替代進展不及預期。國產化替代進展不及預期。高端絲杠國產
86、化率較低,國產化替代為主旋律,但高端絲杠產品技術壁壘較高。制造業景氣度恢復低于預期。制造業景氣度恢復低于預期。絲杠導軌作為自動化設備核心部件,與制造業景氣度有較強相關性。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 32 行業深度分析報告/證券研究報告 分析師承諾分析師承諾 作者具有中國證券業協會授予的證券投資咨詢執業資格,并注冊為證券分析師,具備專業勝任能力,保證報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解。本報告清晰地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,作者也不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。資質聲明
87、資質聲明 財通證券股份有限公司具備中國證券監督管理委員會許可的證券投資咨詢業務資格。公司評級公司評級 以報告發布日后 6 個月內,證券相對于市場基準指數的漲跌幅為標準:買入:相對同期相關證券市場代表性指數漲幅大于 10%;增持:相對同期相關證券市場代表性指數漲幅在 5%10%之間;中性:相對同期相關證券市場代表性指數漲幅在-5%5%之間;減持:相對同期相關證券市場代表性指數漲幅小于-5%;無評級:由于我們無法獲取必要的資料,或者公司面臨無法預見結果的重大不確定性事件,或者其他原因,致使我們無法給出明確的投資評級。A 股市場代表性指數以滬深 300 指數為基準;香港市場代表性指數以恒生指數為基準
88、;美國市場代表性指數以標普 500 指數為基準。行業評級行業評級 以報告發布日后 6 個月內,行業相對于市場基準指數的漲跌幅為標準:看好:相對表現優于同期相關證券市場代表性指數;中性:相對表現與同期相關證券市場代表性指數持平;看淡:相對表現弱于同期相關證券市場代表性指數。A 股市場代表性指數以滬深 300 指數為基準;香港市場代表性指數以恒生指數為基準;美國市場代表性指數以標普 500 指數為基準。免責聲明免責聲明 本報告僅供財通證券股份有限公司的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告的信息來源于已公開的資料,本公司不保證該等信息的準確性、完整性。本報告所載的資
89、料、工具、意見及推測只提供給客戶作參考之用,并非作為或被視為出售或購買證券或其他投資標的邀請或向他人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司通過信息隔離墻對可能存在利益沖突的業務部門或關聯機構之間的信息流動進行控制。因此,客戶應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,
90、本公司的員工可能擔任本報告所提到的公司的董事。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議。在任何情況下,本公司不對任何人使用本報告中的任何內容所引致的任何損失負任何責任。本報告僅作為客戶作出投資決策和公司投資顧問為客戶提供投資建議的參考??蛻魬敧毩⒆鞒鐾顿Y決策,而基于本報告作出任何投資決定或就本報告要求任何解釋前應咨詢所在證券機構投資顧問和服務人員的意見;本報告的版權歸本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。信息披露信息披露