《計算機行業:機器人與大模型催化具身智能東風已至-230528(16頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業:機器人與大模型催化具身智能東風已至-230528(16頁).pdf(16頁珍藏版)》請在三個皮匠報告上搜索。
1、請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 2023.05.28 機器人機器人與與大模型大模型催化催化,具身智能具身智能東風東風已已至至 李沐華李沐華(分析師分析師)齊佳宏齊佳宏(分析師分析師)010-83939797 010-83939837 證書編號 S0880519080009 S0880519080007 本報告導讀:本報告導讀:具身智能概念由來已久,最近隨著特斯拉人形機器人的功能性突破以及多模態大模型具身智能概念由來已久,最近隨著特斯拉人形機器人的功能性突破以及多模態大模型的的創新創新演化,具身智能的落地應用已見曙光。演化,具身智能的落地應用已見曙光。摘要:摘要
2、:具身智能是具身智能是 AIAI 的終極形態。的終極形態。具身智能最大的特質就是能夠以主人公的視角去自主感知物理世界,用擬人化的思維路徑去學習,從而做出人類期待的行為反饋,而不是被動的等待數據投喂。這也是人工智能的行為主義學派所堅信的真正智能的代表。具身智能旨在創建機器與環境交互的軟硬件結合具身智能旨在創建機器與環境交互的軟硬件結合且可自主學習進化且可自主學習進化的的智能體。智能體?!熬呱碇悄堋钡幕炯僭O是,智能行為可以被具有對應形態的智能體通過適應環境的方式學習到,并且具身智能的根本科學立場是,只有通過行為的有效執行才能代表真正理解,反面例子是,即使是可以辨識萬物的視覺大模型也不知道如何倒一
3、杯水。因此計算機視覺、NLP 技術以及各類大模型僅僅是具身智能的工具,通用人工智能才是具身智能的終極目標。大模型大模型+機器人成果顯著,具身智能機器人成果顯著,具身智能落地落地的東風已至的東風已至。特斯拉利用一些技術方法改進了人形機器人的動作和控制,包括電機扭矩控制、環境發現與記憶、基于人類演示訓練機器人,人形機器人的成熟也為具身智能的發展提供了重要土壤,并且具身智能帶來的 AI 價值遠比人形機器人更大;谷歌、微軟以及阿里在大模型與機器人的結合上,均作出了效果杰出的探索,其背后意味著大模型為工業機器人的開發打開了新的大門。繼續推薦科大訊飛、金山辦公、淳中科技、虹軟科技。繼續推薦科大訊飛、金山辦
4、公、淳中科技、虹軟科技??拼笥嶏w:同時擁有 AI 大模型與諸多行業數據的稀缺標的。采用“1+N”架構,將大模型落地于教育、醫療、人機交互、辦公等多個行業,5 月 6 日已發布星火大模型。金山辦公:國產辦公軟件龍頭,全力發力 AI 戰略,加大 AI 人才投入力度,與微軟有直接映射關系。淳中科技:視頻融合顯控廠商;虹軟科技:機器視覺算法及應用廠商。風險提示風險提示:產業鏈不成熟的風險,技術迭代不及預期風險。評級:評級:增持增持 上次評級:增持 細分行業評級 計算機 增持 相關報告 計算機 重點關注 AI大模型原生應用,優選兼具模型與垂直場景的廠商 2023.05.26 計算機 蘋果 MR 有望引爆
5、機器視覺的iPhone 時刻 2023.05.18 計算機 北京市促進 AI發展政策出爐,聚焦算力、數據與場景 2023.05.16 計算機 4月訂單環比繼續回升,醫院繼續貢獻大單 2023.05.04 計算機 美國科技制裁風險強化,信創迎重大催化 2023.04.23 行業專題研究行業專題研究 股票研究股票研究 證券研究報告證券研究報告 計算機計算機 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 2 of 16 目目 錄錄 1.具身智能AI 的終極形態.3 1.1.具身智能的行為主義人工智能的第三個流派.3 1.2.具身智能旨在創建機器與環境交互
6、的軟硬件結合智能體.3 1.3.“知行合一”具身智能的根本科學立場.4 1.4.具身智能的實現需具備三種基本特性.5 2.具身智能的發展需要圍繞“行為理解”解決三個核心科學問題.6 2.1.具身智能首先得實現人類行為的有效克隆.6 2.2.從生物認知角度來看,機器認知具有其合理性.8 2.3.機器能夠執行行為才是真正理解行為.9 3.大模型與機器人成果顯著,具身智能的東風已至.11 3.1.人形機器人具身智能成長的重要土壤.11 3.2.AIGC 助力具身智能瓶頸突破,智能與泛化能力是關鍵.12 3.3.巨頭紛紛布局,產業融合加速推進.12 4.投資建議.14 5.風險提示.14 BViX0X
7、jZ9Y5XgV3UmUcV9PbPbRmOqQpNtQlOnNrMiNmOzQ8OqQrRuOqRpRuOpPwO 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 3 of 16 1.具身智能具身智能AI 的的終極形態終極形態 1.1.具身智能具身智能的行為主義的行為主義人工智能的第三個流派人工智能的第三個流派 從符號主義到聯結主義,從符號主義到聯結主義,智能體與真實世界的交互日益重視智能體與真實世界的交互日益重視。上世紀五十年代的達特茅斯會議之后的一段時期內,對人工智能的研究主要限于符號處理范式(符號主義)。符號主義的局限性很快在實際應用中暴露出
8、來,并催動了聯接主義的發展,形成了包括多層感知機、前向神經網絡、循環神經網絡,直至今日風靡學術界與產業界的深度神經網絡等多種方法。這種用人工神經網絡模擬認知過程的方法在適應、泛化與學習方面的確取得了很大的進展,但并未真正解決智能體與真實物理世界交互的難題。該難題“莫拉維克悖論”可以通俗地表述為:要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的。針對以上問題,針對以上問題,“具身智能具身智能”(”(E Embodied AImbodied AI)概念)概念應運而生應運而生。針對智能體的交互問題,明斯基從行為學習的角度提出了“強化學習”的概念
9、。1986年,布魯克斯從控制論角度出發,強調智能是具身化(Embodied)和情境化(Contextlized)的,傳統以表征為核心的經典 AI 進化路徑是錯誤的,而清除表征的方式就是制造基于行為的機器人。Rolf Pfeifer 在其著作How the Body Shapes the Way We Think中通過分析“身體是如何影響智能的”對“智能的具身化”做了清晰的描述,闡明了“具身性”對理解智能本質與研究人工智能系統的深遠影響。以上這些工作為人工智能的第三個流派以具身智能為代表的行為主義方法奠定了堅實基礎。1.2.具身智能旨在具身智能旨在創建創建機器與機器與環境交互的環境交互的軟硬件結
10、合智能體軟硬件結合智能體 “具身智能具身智能”的基本假設是”的基本假設是,智能行為可以被具有對應形態的智能體通,智能行為可以被具有對應形態的智能體通過適應環境的方式學習到過適應環境的方式學習到??梢院唵卫斫鉃楦鞣N不同形態的機器人,讓它們在真實的物理環境下執行各種各樣的任務,來完成人工智能的進化過程。拆分來理解,“具身”的基本含義是認知對身體的依賴性,即身體對于認知具有影響,換句話說,身體參與了認知,影響了思維、判斷等心智過程?!熬呱怼币馕吨J知不能脫離身體單獨存在。此外,“具身”相對的概念是“離身”(Disembodiment),指的是認知與身體解 耦(ChatGPT 為代表的大模型就僅僅實現
11、了離身智能);“智能”代表智能體(生物或機械)通過與環境產生交互后,通過自身學習,產生對于客觀世界的理解和改造能力。此外,一些通過強化學習訓練的機器人,也可以被認為是具身智能的一種形式,如 OpenAI 的單手還原魔方機器人等。因此,具身智能旨在基于機器與物理世界的交互,創建軟硬件結合、可自主學習進化的智能體。具身的概念是可檢驗、可測量的具身的概念是可檢驗、可測量的。人所理解的世界概念,其中既包括人類獨有的責任心、榮譽、感情、欲望等非具身的概念,也包括了杯子、車等實體以及相應行為的具身概念。而具身概念是具備可達性、可檢驗性以及可解釋性的,即具身的概念對應的實體和行為是可以被測量,可以通過任務的
12、完成來驗證以及通過具身學習來實現概念的推斷。相比之下,非具身概念基本要素不能實現可測量及可檢驗。24214 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 4 of 16 圖圖 1:具身具身的的概念可以形成一個可測量、可檢驗的閉合集概念可以形成一個可測量、可檢驗的閉合集 資料來源:盧策吾行為認知與具身智能,國泰君安證券研究 1.3.“知行合一”“知行合一”具身智能的根本具身智能的根本科學科學立場立場 “知行合一”是具身智能的科學立場“知行合一”是具身智能的科學立場。根據具身智能的技術實現邏輯,“知”是建立在“行”之上的,也就是說只有通過“具身”才能理
13、解某個場景。比如有個臥室,其具有睡覺、休息、放衣服等行為特征,這類行為是基于人的身體設計的,因此真正理解臥室的場景,就是要能夠直接通過坐上椅子、躺在床上等行為任務去驗證。同理,機器人通過理解場景,能夠實現以上行為才能代表它真正理解了該場景。因為從本質上,物體和場景的類別大多是由功能和任務來定義的,“我能用來干什么,那它是什么”,比如錘子不能叫木棍,錘子有它獨特的行為屬性。圖圖 2:通過行為任務確認才能保證對場景理解的準確性通過行為任務確認才能保證對場景理解的準確性 資料來源:Scene parsing by integrating function,geometry and appearanc
14、e models 具身知識在中國古老漢字中都占據較高比例具身知識在中國古老漢字中都占據較高比例。甲骨文等古老漢字,絕大多數就是通過行為的表征來刻畫一個概念,比如“爭”的古老寫法中,代表兩個人的手拔一根繩子,因此,理解行為才是理解概念及場景的關鍵。圖圖 3:中國古老漢字中就具備“具身”理念中國古老漢字中就具備“具身”理念 資料來源:北京通用人工智能研究院,國泰君安證券研究 所以,計算機視覺和所以,計算機視覺和 NLPNLP 更多更多是具身智能的是具身智能的工具工具,而而通用人工智能才是通用人工智能才是具身智能的終極目標具身智能的終極目標。具身智能要能夠實現使用身體(各個部位)完成物理任務的一些現
15、象,比如外國人不會用筷子,但仍能叉起來吃東西,行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 5 of 16 因此具身智能也要通過物理環境完成任務的過程中,表現出完成之前沒有覆蓋的場景。所以,根據具身智能的特點可以研判,如同經典力學領域的速度、動量、彈性等概念奠基了物理學領域,驅動了后續科學的發展,同理,具身智能因其實現了知識、概念、可解釋以及行為因果關系,其有望成為通用人工智能的驅動力。圖圖 4:類似于人類,:類似于人類,具身智能具身智能最終最終要能夠完成陌生場景的任務實現要能夠完成陌生場景的任務實現 資料來源:北京通用人工智能研究院 1.4.具身
16、智能具身智能的實現的實現需具備需具備三種基本特性三種基本特性 具身智能首先要具備可供性具身智能首先要具備可供性??晒┬砸馕吨寵C器知道物體和場景能夠提供的是什么,比如整個身體、部件怎么和場景進行有效擬合。根據Gendexgrasp:Generalizable dexterous grasping論文中的案例,用兩、三、五根手指去握一個柱子,倘若不同的手都能夠產生無誤的握桿效果,就代表有了可供性,而物理學正是機器理解可供性的關鍵。圖圖 5:可供性就是要能理解物體場景提供的是什么可供性就是要能理解物體場景提供的是什么 資料來源:Gendexgrasp:Generalizable dexterou
17、s grasping 具身智能還要具有功能性具身智能還要具有功能性。具身智能在把物體作為工具使用的過程中,要能夠以任務執行為導向去理解功能。從智能體來理解世界,核心就在于任務改變實體狀態,是任務實現來驅動智能體的。例如,在解決“鏟土”任務過程中,需要實現用不同的工具去鏟土,比如杯子、鏟子、平底鍋等,都要能夠讓智能體實現“鏟土”這個任務。因此,具身智能的功能性就是賦予了物體一個功能,用來解決某個特定任務。圖圖 6:功能性就是智能體賦予一些物體一個功能,從而完成特定任務功能性就是智能體賦予一些物體一個功能,從而完成特定任務 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之
18、后的免責條款部分 6 of 16 資料 來源:Understanding Tools:Task-Oriented Object Modeling,Learning and Recognition 具身智能需要實現因果鏈具身智能需要實現因果鏈。就以上提到的“鏟土”例子,智能體能否順利鏟起土來是有因果關系的,例如控制揮動錘子的方式、動量、沖量等指標的改變程度和改變過程,需要用數學和物理的因果鏈來控制。人工智能研究院朱松純教授團隊介紹了一種學習和規劃框架,并證明了所提出的學習和規劃框架能夠識別對任務成功有重要意義的基本物理量,使智能體能夠自主規劃有效的工具使用策略,模仿人類使用工具的基本特性。智能體
19、學習如何使用工具涉及到多個認知和智能過程,這個過程即使對智能體學習如何使用工具涉及到多個認知和智能過程,這個過程即使對人類來說也并不容易人類來說也并不容易。讓機器人掌握工具使用所涵蓋的所有技能是一項有挑戰性的難題,這項工作包括三個層面:其一是底層的運動控制。很多研究基于阻抗控制(Impedance control)來跟蹤工具使用的運動軌跡,或在不同階段改變力和運動約束,或使用基于學習的方法來控制機器人運動軌跡。在底層控制中,魯棒地執行運動軌跡是關注的核心。其二是中間層表征。各種利于下游任務的中間表征被提出,以便更好地理解工具的使用。盡管引入這些表征有利于學習更多不同的工具使用技能,但它們目前仍
20、然局限于工具的形狀和任務之間的幾何關聯。其三是理解在工具使用中的涉及的高層概念,比如物體的功能性(Functionality)和可供性(Affordance),以及工具使用中涉及的因果關系與常識,從而實現更好的泛化能力。圖圖 7:科學家實現了科學家實現了使機器人以適應其自身的使機器人以適應其自身的方式方式來來使用工具使用工具完成任務完成任務 資料來源:Understanding Physical Effects for Effective Tool-use,國泰君安證券研究 現有的現有的具身智能具身智能工作大多集中在以上工作大多集中在以上三種基本特性三種基本特性中的某一層面。中的某一層面。要么
21、主要關注于機器人的動作軌跡而不去理解任務本身,要么旨在高層次概念理解而過度簡化運動規劃,都不能夠較全面的涵蓋所有層面。因此,機器人還遠遠沒有辦法基于特定的情境去制定工具使用的策略,并且由于運動學結構的顯著差異,機器人觀察到的人類使用工具的策略對其來說可能并不是最理想的方式。例如給定一組物體(典型的工具或其他物體),機器人如何判斷哪一個會是完成任務的最佳選擇?一旦選擇了一個物體作為工具,根據機器人和工具特定的運動學結構和動力學限制,機器人該如何有效地使用它?這些問題也正是行業的前沿研究領域。2.具身智能的發展需要圍繞“行為理解”解決具身智能的發展需要圍繞“行為理解”解決三個核三個核心科學問題心科
22、學問題 2.1.具身智能首先得實現人類行為的有效克隆具身智能首先得實現人類行為的有效克隆 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 7 of 16 要機器理解實體與行為,就得回答三個核心的科學問題。要機器理解實體與行為,就得回答三個核心的科學問題。首先,從機器認知角度,如何讓機器看懂行為?其次,從神經認知角度,機器認知語義與神經認知的內在關聯如何?再者,從具身認知的角度,如何將行為理解知識遷移到機器人系統?要實現具身智能,就必須先要實現具身智能,就必須先回答回答機器能否克隆人類的行為機器能否克隆人類的行為這個問題這個問題。行為認知是智能科學中的
23、重要和核心問題,要讓機器理解世界代表著:理解實體+理解行為,因為不確定性的世界空間就可以歸類為實體與行為兩者。圖圖 8:要實現機器理解行為必須拆分為:要實現機器理解行為必須拆分為“理解實體“理解實體+理解行為本身”理解行為本身”資料來源:國泰君安證券研究 深度學習框架在深度學習框架在行為認知中行為認知中遇到了瓶頸遇到了瓶頸。因為深度學習得到長足發展,計算機視覺領域有兩個要素,一個是以物體為中心的感知,一個是以人為中心的感知。配合不斷進化的深度學習算法,復雜物體識別可以十分成功,但是要機器明白從人類視角的這個行為的真實語義,卻十分困難。市場表現來看也是如此,很多商用產品都是基于物體檢測,行為理解
24、的產品都是很少的。之所以人為中心的感知十分困難,是因為深度學習本身達到了瓶頸。根據盧策吾教授的研究結果,行為識別的 SOTA 要遠低于物體識別。圖圖 9:當前的計算機視覺相關技術在行為識別上存在當前的計算機視覺相關技術在行為識別上存在一定一定局限性局限性 資料來源:盧策吾教授(上海交通大學)行為理解行為理解的關鍵的關鍵是要在極大語義噪聲中提取行為理解要素是要在極大語義噪聲中提取行為理解要素。行為是一個抽象概念,因而需要在圖像中捕抓行為相關要素。要衡量圖像的語義判斷區間,可以用語噪比(語噪比=支撐語義判斷區間/全圖像區間)來刻畫,即抹去圖像上的某個區域使得其他人無法識別出行為類型的最小區域。盧策
25、吾教授團隊通過計算發現,物體識別的語噪比要遠大于行為識別,這意味著遮住較大區域仍可以識別物體,但哪怕遮住一小塊區域就無法識別行為。因此,可以得出結論,行為理解的關鍵是要在極大語義噪聲中提取行為理解要素,也就是需要在很大干擾情況下,真正挖掘圖像的真實語義。而這個工作是無法通過增加深度學習的工作量來達到的。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 8 of 16 圖圖 10:行為識別的正確往往取決于區域較小的關鍵部分行為識別的正確往往取決于區域較小的關鍵部分 資料來源:盧策吾教授(上海交通大學)將行為認知問題分解為感知到知識、知識到推理融合的兩個較
26、為簡單的將行為認知問題分解為感知到知識、知識到推理融合的兩個較為簡單的階段,是一個較階段,是一個較優優的科學路徑。的科學路徑。離散語義符號是被不同行為所共享的,比如吃飯、讀書和打掃都有著“手-握-某物”的標簽,通過對這些共享標簽的遷移、復用和組合,可以形成行為原語,從而構造“中間層知識”,這種組合可以有著一定的泛化能力,即通過原語組合,機器可以做出沒見過的行為。圖圖 11:將行為認知過程分解為兩個較為簡單的階段將行為認知過程分解為兩個較為簡單的階段 圖圖12:從構建原語知識到組合為行為的流程如下所述從構建原語知識到組合為行為的流程如下所述 數據來源:盧策吾教授(上海交通大學)數據來源:國泰君安
27、證券研究 因此,構建海量原語知識以及邏輯規則庫是首當其沖的工作。因此,構建海量原語知識以及邏輯規則庫是首當其沖的工作。人類理解行為的基本原因,約等于人類各個部件在干什么事情,因此首先得構建大量的基于人類局部狀態的原語知識,并能識別它們。其次,有了好的原語檢測,之后就需要對它們進行編程,實現邏輯規則引導下的數據驅動學習,但這里容易出的問題是,規則是人類自己認為的,如果規則庫錯了就會有很大的影響,因此規則學習是解決該問題的辦法。具體流程是,在行為原語知識庫中隨機采樣,形成對該行為的判斷,然后基于人類給的先驗起始點去搜索,規則空間采樣,若準確率提高就加上規則,不然就刪掉該規則,通過調整后的規則分布形
28、成新規則。盧策吾教授發現,以“人騎車”圖像為例,經過以上技術流程,機器可以在未見過的“騎車規則”中自動識別出“騎車”這個行為,所以該技術路線可以有效逼近行為識別的人類性能。圖圖 13:針對行為認知的原語知識庫示例如下針對行為認知的原語知識庫示例如下 圖圖 14:邏輯規則學習流程如下所示邏輯規則學習流程如下所示 數據來源:盧策吾教授(上海交通大學)數據來源:盧策吾教授(上海交通大學)2.2.從生物認知角度從生物認知角度來看,來看,機器認知機器認知具有其具有其合理性合理性 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 9 of 16 機器能夠理解人類行
29、為需要有科學依據的支撐。機器能夠理解人類行為需要有科學依據的支撐。因此,科學家需要進一步確定機器視覺行為分類特征跟神經特征之間是否存在穩定映射關系。如果有穩定關系,視覺定義行為就是有客觀依據的。實驗發現行為從模式到腦信號存在映射,且模型穩定實驗發現行為從模式到腦信號存在映射,且模型穩定。盧策吾教授聯合生物醫學團隊,搭建了首套大規模視覺理解-神經信號閉環系統,對小鼠的行為模式和神經信號進行了相關性分析。通過實驗發現機器學習得出行為從模式到腦信號存在映射,并可以建立一個穩定模型。另外,通過構建一套基于機器學習的行為相關的神經回路發現系統,成功發現解析了“小鼠社會等級”行為的神經回路。綜上可以得出結
30、論,通過視覺定義行為是有科學依據的。圖圖 15:小鼠實驗證明了小鼠實驗證明了視覺定義行為的科學性和有效性視覺定義行為的科學性和有效性 資料來源:盧策吾教授(上海交通大學)2.3.機器能夠執行行為才是真正理解行為機器能夠執行行為才是真正理解行為 不僅僅理解行為,更需要能執行行為不僅僅理解行為,更需要能執行行為,機器能夠執行行為才是真正理解機器能夠執行行為才是真正理解行為。行為。通過計算機視覺以及行為認知識別,讓機器能夠確認和分辨一個行為僅僅只是第一步,這也只是傳統旁觀式 AI 學習所達到的功能水平,例如,傳統 AI 學習可以讓機器學習“盒子”概念并在新的場景中說出“盒子”這個標簽,但在具身智能學
31、習模式中,機器通過感知環境實體,通過親身體驗完成具身學習,最終理解場景并形成“打開”這個概念。因此,當機器可以執行該行為才是具身智能的落腳點。圖圖 16:具身智能學習模式與傳統旁觀式具身智能學習模式與傳統旁觀式 AI 學習有著根本不同學習有著根本不同 資料來源:盧策吾行為認知與具身智能,國泰君安證券研究 執行行為需要涉及到形態、行為和學習的體系化交互。執行行為需要涉及到形態、行為和學習的體系化交互。在基于形態的具身智能中,形態、行為與學習之間的關系密切。首先,需要利用形態產生行為,該過程重點強調利用具身智能體的形態特性巧妙地實現特定的行為,從而達到部分取代“計算”的目的。其次,需要利用行為實現
32、學習,重點強調利用具身智能體的探索、操作等行為能力主動獲取學習樣 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 10 of 16 本、標注信息,從而達到自主學習的目的,此領域當前屬于研究前沿。再者,需要強調利用學習提升行為以及利用行為控制形態,后者有多種實現方法,但當前利用學習手段來提升行為,并進而控制形態的工作是現代人工智能技術發展起來后涌現出來的新型智能控制方法,特別是基于強化學習的技術已成為當前的熱點手段。最后,具身智能需要利用學習來優化形態,強調利用先進的學習優化技術實現對具身智能體的形態優化設計。圖圖 17:基于形態的具身智能的體系架構如
33、下所示基于形態的具身智能的體系架構如下所示 資料來源:劉華平基于形態的具身智能研究:歷史回顧與前沿進展“具身感知”“具身感知”是以執行動作為導向的全概念是以執行動作為導向的全概念的交互感知的交互感知。具身智能首先第一步就得解決具身概念學習的問題,即如何定義、獲取、表達可以被機器人使用的物理概念。具身感知和傳統計算機視覺不同,計算機視覺沒有解析全部的知識,而具身感知包含了“全概念感知”和“交互感知”,從而保證機器看到的不是標簽,而是怎么利用它。例如,可以從人類認知的角度,構建大規模關節體知識庫,該知識庫涵蓋外形、結構、語義、物理屬性,同時標注關節體每個部件的質量、體積、慣性等,記錄真實世界物體操
34、作力反饋與仿真操作力反饋,在物理屬性知識加持下,物體力反饋曲線可以完全擬合出來,這時候仿真物體操作的時候,不再是去檢測標簽,而是所有知識全部檢測出來,檢測出來后,可以通過機器執行的準確率,判斷感知的準確率。圖圖 18:整個具身智能的有效實現需要經歷感知整個具身智能的有效實現需要經歷感知-想象想象-執行三個步驟執行三個步驟 資料來源:盧策吾行為認知與具身智能,國泰君安證券研究 通過行為的反饋和模式學習的空間壓縮,可以實現通過行為的反饋和模式學習的空間壓縮,可以實現“具身執行”的“具身執行”的一定一定泛化性泛化性。在交互感知下,機器如果只是看物體,信息量沒有增加,但如果交互它,就能迅速減少誤差。機
35、器面對物體,初步檢測它的知識,但肯定存在知識結構不準的情況,但可以在猜測它是怎么做出這個行為的基礎上,指導機械去做,倘若做完之后跟真實不一樣,就證明猜測有問題,再反過來優化問題。并且,可以把抓取到的所有特征模式,壓縮到可以被學習的空間范圍內,通過這種機制,機器在面對沒見過的物體時,也能進行相關的行為,因而具備了一定的通用性。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 11 of 16 3.大模型大模型與與機器人機器人成果顯著成果顯著,具身智能,具身智能的東風已至的東風已至 3.1.人形機器人人形機器人具身智能具身智能成長成長的的重要重要土壤土壤
36、Tesla BotTesla Bot 功能進展迅速功能進展迅速,商業化商業化前景可期前景可期。2021年,在“特斯拉AI日”上,馬斯克發布了特斯拉的通用機器人計劃,并用圖片展示了人形機器人 Tesla Bot 的大致形態。但當時的 Tesla Bot 只是個概念。一年后在2022 特斯拉 AI 日上,人形機器人擎天柱(Optimus)實體亮相。2023 年5 月中旬的特斯拉股東大會上,馬斯克又展示了Tesla Bot 的最新進展,現在 Tesla Bot 已經可以流暢行走,并還能靈活抓取放下物體。馬斯克在會上表示“人形機器人將會是今后特斯拉主要的長期價值來源。如果人形機器人和人的比例是 2 比
37、 1,則人們對機器人的需求量可能是 100億乃至 200 億個,遠超電動車數量”。圖圖 19:2022 年特斯拉機器人實體首次亮相年特斯拉機器人實體首次亮相 圖圖 20:Tesla BotTesla Bot 已能夠直立行走和抓取物體已能夠直立行走和抓取物體 數據來源:特斯拉 數據來源:特斯拉 最近的最近的 Tesla BotTesla Bot功能突破來源于特斯拉改進的電機扭矩控制以及環境功能突破來源于特斯拉改進的電機扭矩控制以及環境建模等技術建模等技術。特斯拉利用一些技術方法改進了人形機器人的動作和控制,包括電機扭矩控制、環境發現與記憶、基于人類演示訓練機器人。首先,研究團隊使用電機扭矩控制(
38、motor torque control)操縱人形機器人腿部的運動,讓機器人落腳力度保持輕緩。對于一個機器人來說,觀察或感知周圍環境是非常重要的,因此特斯拉為人形機器人添加了環境發現與記憶的能力?,F在該人形機器人已經可以對周圍環境進行大致建模。特斯拉的人形機器人具備與人類相似的身體結構,特斯拉的研究團隊使用大量人類演示訓練了機器人,特別是在手部動作方面,旨在讓其具備與人類似的物體抓取能力。圖圖 21:機器人已能夠對周邊環境進行建模機器人已能夠對周邊環境進行建模 圖圖 22:基于基于人類演示人類演示可以可以訓練機器人訓練機器人 數據來源:特斯拉 數據來源:特斯拉 具身智能帶來的具身智能帶來的 A
39、IAI 價值遠比人形機器人更大。價值遠比人形機器人更大。具身智能最大的特質就是能夠以主人公的視角去自主感知物理世界,用擬人化的思維路徑去學習,從而做出人類期待的行為反饋,而不是被動的等待數據投喂。人形機器人提供了各種基于人類行為的學習和反饋系統,為實現更復雜行為 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 12 of 16 語義提供了迭代的基礎和試驗場,因此,人形機器人的逐步完善也為具身智能的落地提供了方向。而面向工業等場景的具身智能應用并非一定要是人形機器人,因此具身智能背后的技術和方法論才是核心,也意味著具身智能所帶來的價值要遠遠高于人形機器
40、人本身。換句話說,人形機器人是具身智能的重要應用場景,也將為具身智能的迭代優化提供方向和空間。3.2.AIGCAIGC 助力助力具身智能具身智能瓶頸瓶頸突破突破,智能與泛化能力是關鍵,智能與泛化能力是關鍵 強化學習興起之后,具身智能受到了更廣泛的關注。強化學習興起之后,具身智能受到了更廣泛的關注。之前隨著Alpha Go的成功,學術界對于強化學習的興趣大增,隨之很多人開始用 RL 來打通智能體的感知-決策-執行,希望實現具身智能。訓練 RL 是一個不斷試錯的過程,所以從 2017、18 年開始,出現了很多仿真訓練平臺,能把一個智能體以具身的形式放進去,然后通過與環境的交互中獲得 reward,
41、進而學習一個 policy。但是因為仿真環境和現實環境總是有差距的(叫sim2real gap),習得的 policy 不一定能遷移到現實里。當前能實現技能 policy 從仿真遷移到現實環境中的,主要還是像移動導航、單步驟的抓取或者操作這類較為單一的技能,而且很難泛化。最近大語言模型的風頭又壓過最近大語言模型的風頭又壓過了強化學習。了強化學習。最近業界希望通過大規模sequence to sequence,用一個模型整合視覺、語言、機器人,也取得了一定效果。但是機器人的執行需要的是 4D 數據(三維環境和機器人運動的時序軌跡),它的數據量和豐富度都遠不如圖片和文本,采集成本也高的多,因此迭代
42、演化的難度相比于大模型高得多。而而多模態大模型為具身智能的技術瓶頸突破提供了重要驅動力多模態大模型為具身智能的技術瓶頸突破提供了重要驅動力。具身智能是人工智能、機器人等各技術分支融合發展的必然結果,因為計算機視覺為圖像的采集和處理打開了窗口,圖形學也為物理仿真提供了工具支撐,NLP 也為人類-機器交互提供了便捷性,也為機器從文本中學習知識提供了有效途徑,認知科學也為具身智能的行為認知原理提供了科學研究途徑。各類機器人構件也為智能體與物理環境交互提供了橋梁。因此,人工智能的技術分支以及機器人功能性的提升,為具身智能的進一步發展帶來了可能,而當前 AIGC 時代的大模型可以將之前的技術分支更優地集
43、成和創新,已有不少研究者嘗試將多模態的大語言模型作為人類與機器人溝通的橋梁,即通過將圖像、文字、具身數據聯合訓練,并引入多模態輸入,增強模型對現實中對象的理解,從而更高效地幫助機器人處理具身推理任務,一定程度提升了具身智能的泛化水平。所以,GPT 等 AI 大模型為具身智能的自我感知和任務處理的優化升級提供了新的研究手段。圖圖 23:具身智能是人工智能、機器人等各技術分支融合發展的必然結果具身智能是人工智能、機器人等各技術分支融合發展的必然結果 資料來源:國泰君安證券研究 3.3.巨頭紛紛布局巨頭紛紛布局,產業融合,產業融合加速推進加速推進 行業專題研究行業專題研究 請務必閱讀正文之后的免責條
44、款部分請務必閱讀正文之后的免責條款部分 13 of 16“算力霸主”英偉達“算力霸主”英偉達高調布局高調布局具身智能。具身智能。在 ITF World 2023 半導體大會上,黃仁勛表示人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統。同時,他也介紹了英偉達的多模態具身智能系統 Nvidia VIMA,其能在視覺文本提示的指導下,執行復雜任務、獲取概念、理解邊界、甚至模擬物理學,這也標志著 AI 能力的一大顯著進步。融合傳感器模態與語言模型融合傳感器模態與語言模型,谷歌推出的谷歌推出的視覺語言模型視覺語言模型相較于相較于ChatGPTChatGPT新增了視覺功能新增
45、了視覺功能。2023 年 3 月,谷歌和柏林工業大學 AI 研究團隊推出了當時最大視覺語言模型PaLM-E 多模態視覺語言模型(VLM),該模型具有 5620 億個參數,集成了可控制機器人的視覺和語言能力,將真實世界的連續傳感器模態直接納入語言模型,從而建立單詞和感知之間的聯系,且該模型能夠執行各種任務且無需重新訓練,其相較于 ChatGPT新增了視覺功能。PaLM-E 的主要架構思想是將連續的、具體化的觀察(如圖像、狀態估計或其他傳感器模態)注入預先訓練的語言模型的語言嵌入空間,因此實現了以類似于語言標記的方式將連續信息注入到語言模型中。谷歌谷歌實現實現視覺語言與機器人高水平實時互聯視覺語言
46、與機器人高水平實時互聯,且,且觀察到了類似多模態思觀察到了類似多模態思維鏈推理與多圖像推理等涌現能力的出現維鏈推理與多圖像推理等涌現能力的出現?;谡Z言模型,PaLM-E 會進行連續觀察,例如接收圖像或傳感器數據,并將其編碼為一系列與語言令牌大小相同的向量。因此,模型就能繼續以處理語言的方式“理解”感官信息。而且,同一套 PaLM-E 模型能夠達到實時控制機器人的水準。PaLM-E 還展現出隨機應變的能力,例如盡管只接受過單圖像提示訓練,仍可實現多模態思維鏈推理(允許模型對包含語言和視覺信息在內的一系列輸入進行分析)和多圖像推理(同時使用多張輸入圖像進行推理或預測)。但谷歌展示的 Demo 中
47、的空間范圍、物品種類、任務規劃復雜度等條件還比較有限,隨著深度學習模型愈發復雜,PaLM-E 也將打開更多可行性應用空間。圖圖 24:PaLMPaLM-E E 可以可以控制機械臂控制機械臂對視覺和語言命令進行對視覺和語言命令進行有效有效執行執行 資料來源:PaLM-E:An Embodied Multimodal Language Model 微軟正計劃將微軟正計劃將 ChatGPT ChatGPT 的能力擴展到機器人領域,使得能用語言文字控的能力擴展到機器人領域,使得能用語言文字控制機器人制機器人。目前實驗已經能夠通過給 ChatGPT 的對話框輸入指令,讓其控制機器人在房間中找到“健康飲料
48、”、“有糖和紅色標志的東西”等。微軟研究人員表示,“研究的目標是看 ChatGPT 是否能超越生成文本的范疇,對現實世界狀況進行推理,從而幫助機器人完成任務”。微軟希望幫助人們更輕松地與機器人互動,而無需學習復雜的編程語言或有關機器人系統的詳細信息。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 14 of 16 阿里采用和微軟相似的路徑,正在實驗將千問大模型接入工業機器人阿里采用和微軟相似的路徑,正在實驗將千問大模型接入工業機器人。在近日舉行的第六屆數字中國建設峰會上,阿里云發布一個演示視頻中展示了千問大模型的實際應用場景。其中,千問大模型接入了工
49、業機器人,工程師通過釘釘對話框向機器人發出指令后,千問大模型在后臺自動編寫了一組代碼發給機器人,機器人開始識別周邊環境,從附近的桌上找到一瓶水,并自動完成移動、抓取、配送等一系列動作,遞送給工程師。在釘釘對話框輸入一句人類語言即可指揮機器人工作,這將為工業機器人的開發和應用帶來革命性的變化,其背后意味著大模型為工業機器人的開發打開了新的大門。因為千問等大模型為機器人提供了推理決策的能力,從而有望讓機器人的靈活性和智能性大幅提升。圖圖 25:將千問大模型接入工業機器人將千問大模型接入工業機器人,使機器人可以為人類服務,使機器人可以為人類服務 資料來源:阿里云 4.投資建議投資建議 繼續推薦繼續推
50、薦科大訊飛科大訊飛、金山辦公、金山辦公、淳中科技、虹軟科技淳中科技、虹軟科技??拼笥嶏w:同時擁有 AI 大模型與諸多行業數據的稀缺標的。采用“1+N”架構,將大模型落地于教育、醫療、人機交互、辦公等多個行業,5 月 6 日已發布星火大模型。金山辦公:國產辦公軟件龍頭,全力發力 AI 戰略,加大 AI人才投入力度,與微軟有直接映射關系。淳中科技:視頻融合顯控廠商;虹軟科技:機器視覺算法及應用廠商。表表 1:重點公司估值情況:重點公司估值情況 股票代碼股票代碼 證券名稱證券名稱 總市值總市值(億元)(億元)營業收入(億元)營業收入(億元)PS(倍)(倍)評級評級 20230526 2021A 20
51、22A 2023E 2021A 2022A 2023E 002230 科大訊飛 1,315.56 183.14 188.20 275.68 7.18 6.99 4.77 增持 688111 金山辦公 1,905.46 32.80 38.85 52.93 58.09 49.05 36.00 增持 603516 淳中科技 43.24 4.68 3.81 6.84 9.24 11.36 6.32 增持 688088 虹軟科技 176.12 5.73 5.32 9.38 30.74 33.13 18.78 增持 數據來源:wind,國泰君安證券研究 5.風險提示風險提示 市場拓展不及預期市場拓展不及預
52、期。在工業領域,功能各異的專業機器人已經占據著大部分使用場景,人形機器人顯得十分雞肋。在服務領域,人形機器人的使用可能也并不如人們想象地智能,市場需求仍待進一步開發。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 15 of 16 產業鏈不成熟的風險產業鏈不成熟的風險。關于機器人的成本問題,尤其是三大核心零部件減速器、伺服電機及控制器的成本,仍需等待產業鏈進一步發展。技術迭代不及預期技術迭代不及預期。目前具身智能的“感知-想象-決策”的很多案例均局限在實驗室場景,在生活、工業等海量場景中的普適性仍需要技術路線以及算法的進一步突破。行業專題研究行業專題
53、研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 16 of 16 本公司具有中國證監會核準本公司具有中國證監會核準的證券投資的證券投資咨詢咨詢業務資格業務資格 分析師聲明分析師聲明 作者具有中國證券業協會授予的證券投資咨詢執業資格或相當的專業勝任能力,保證報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解,本報告清晰準確地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,特此聲明。免責聲明免責聲明 本報告僅供國泰君安證券股份有限公司(以下簡稱“本公司”)的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅在相關法律
54、許可的情況下發放,并僅為提供信息而發放,概不構成任何廣告。本報告的信息來源于已公開的資料,本公司對該等信息的準確性、完整性或可靠性不作任何保證。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可升可跌。過往表現不應作為日后的表現依據。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或
55、所表述的意見均不構成對任何人的投資建議。在任何情況下,本公司、本公司員工或者關聯機構不承諾投資者一定獲利,不與投資者分享投資收益,也不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者務必注意,其據此做出的任何投資決策與本公司、本公司員工或者關聯機構無關。本公司利用信息隔離墻控制內部一個或多個領域、部門或關聯機構之間的信息流動。因此,投資者應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報告所提到
56、的公司的董事。市場有風險,投資需謹慎。投資者不應將本報告作為作出投資決策的唯一參考因素,亦不應認為本報告可以取代自己的判斷。在決定投資前,如有需要,投資者務必向專業人士咨詢并謹慎決策。本報告版權僅為本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用。如征得本公司同意進行引用、刊發的,需在允許的范圍內使用,并注明出處為“國泰君安證券研究”,且不得對本報告進行任何有悖原意的引用、刪節和修改。若本公司以外的其他機構(以下簡稱“該機構”)發送本報告,則由該機構獨自為此發送行為負責。通過此途徑獲得本報告的投資者應自行聯系該機構以要求獲悉更詳細信息或進而交易本報告中提及的證券。本
57、報告不構成本公司向該機構之客戶提供的投資建議,本公司、本公司員工或者關聯機構亦不為該機構之客戶因使用本報告或報告所載內容引起的任何損失承擔任何責任。評級說明評級說明 評級評級 說明說明 1.1.投資建議的比較標準投資建議的比較標準 投資評級分為股票評級和行業評級。以報告發布后的 12 個月內的市場表現為比較標準,報告發布日后的 12 個月內的公司股價(或行業指數)的漲跌幅相對同期的滬深 300 指數漲跌幅為基準。股票投資評級股票投資評級 增持 相對滬深 300 指數漲幅 15%以上 謹慎增持 相對滬深 300 指數漲幅介于 5%15%之間 中性 相對滬深 300 指數漲幅介于-5%5%減持 相
58、對滬深 300 指數下跌 5%以上 2.2.投資建議的評級標準投資建議的評級標準 報告發布日后的 12 個月內的公司股價(或行業指數)的漲跌幅相對同期的滬深300 指數的漲跌幅。行業投資評級行業投資評級 增持 明顯強于滬深 300 指數 中性 基本與滬深 300 指數持平 減持 明顯弱于滬深 300 指數 國泰君安證券研究國泰君安證券研究所所 上海上海 深圳深圳 北京北京 地址 上海市靜安區新閘路 669 號博華廣場 20 層 深圳市福田區益田路 6003 號榮超商務中心 B 棟 27 層 北京市西城區金融大街甲 9 號 金融街中心南樓 18 層 郵編 200041 518026 100032 電話(021)38676666(0755)23976888(010)83939888 E-mail: