《具身智能產業深度: 技術模型分析、市場展望、相關產業及公司深度梳理-230602(17頁).pdf》由會員分享,可在線閱讀,更多相關《具身智能產業深度: 技術模型分析、市場展望、相關產業及公司深度梳理-230602(17頁).pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、 1/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 行業研究報告 慧博智能投研 具身智能產業深度:具身智能產業深度:技術模型分析、市場展技術模型分析、市場展望、相關產業及公司深度梳理望、相關產業及公司深度梳理 特斯拉 2023 年股東會上,馬斯克表示,人形機器人將是今后特斯拉主要的長期價值來源,“如果人形機器人和人的比例是 2 比 1 左右,那么人們對機器人的需求量可能是 100 億乃至 200 億個,遠超電動車的數量”。英偉達創始人黃仁勛在 ITF World 2023 半導體大會上也表示,AI 下一個浪潮將是“具身智能”?!熬呱碇悄堋币庵赣猩眢w并支持物理交
2、互的智能體,人形機器人為標桿產品。具身智能,首先需要聽懂人類語言,分解任務、規劃子任務,移動中識別物體,與環境交互,最終完成任務。人形機器人很好的契合了具身智能的要求,有望成為標桿應用。圍繞具身智能,我們從下面幾方面展開討論:具身智能的概念是如何定義的,具體方案模塊是如何設置的,發展歷程又是怎樣的,相關技術及模型有哪些,可能受益的相關公司都有哪些。希望通過這些問題的探討,讓我們對于具身智能有個淺顯的了解。目錄目錄 一、具身智能概述.1 二、具身智能發展歷程.3 三、具身智能相關技術及模型.5 四、相關產業梳理.9 五、具身智能相關公司.12 六、具身智能發展展望.14 七、參考文獻.17 一、
3、一、具身智能具身智能概述概述 1.概念概念 具身智能(Embodied Intelligence)是指一種具備自主決策和行動能力的機器智能,它可以像人類一樣感知和理解環境,通過自主學習和適應性行為來完成任務。要實現具身智能與環境實時交互并完成自主做事的功能,其所涉及到的主要環節可以抽象理解為包括感知、傳輸、決策、執行。感知層類似人的五官,負責收集環境信息,在單一場景下機器或許可以通過感知來繞過決策控制,比如1986 年,美國著名機器人制造專家羅德尼 布魯克斯(Rodney Brooks)研發了第一個基于感知行為模式的輪式機器人,不需要中樞控制可以實現避讓、前進和平衡等功能,但是如果想要讓機器實
4、現與人類互動并完成多樣化指令要求,它面對的可能是結合了語言、圖像等多個模態的復雜信息,決策層的多模態處理就顯得不可或缺。2/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 決策層作為核心處理樞紐,需要類似人類大腦的處理能力,滿足機器在理解指令、分解任務、規劃子任務、識別物體完成人機交互和環境交互等方面的需求,多維度的人機交互在傳統的機器人領域是一大難題,因而當下的研究更多體現在特定指令下對于環境交互的探索,也即如何更智能地執行特定物理任務上。而 ChatGPT 等 AI 大模型的快速突破提供了新的思路,有望充當機器人的大腦與人類進行多維度交互,從而更為出色完成任
5、務。此外,隨著感知和決策的復雜化,傳輸層對于的實時性的要求日益提升,從而對傳輸速率和邊緣計算等提出更高的需求。2.PIE 方案是實現具象智能的解決方案之一方案是實現具象智能的解決方案之一 PIE 方案是實現具象智能的解決方案之一,可分為三個模塊具身感知(Perception)、具身想象(Imagination)和具身執行(Execution)。具象感知(Perception):交互感知,自動挖掘、定義具象概念??梢酝ㄟ^兩種方式實現:1)全感知:構建一個大規模的數據庫,包含我們所操作的這個世界模型(world model)的各種各樣的知識,跟操作相關的知識,包括外形、結構、語義,以及 48 個真
6、實世界關節體類別等;2)具身交互感知:各種內容交互的感覺帶來的全新感知,通過牛頓定律和數據驅動的結合,不斷修正誤差從而得到正確的模型。具象想象(Imagination):自動具身任務模擬,仿真引擎構建。通過名為 RFUniverse 的仿真引擎,這個仿真引擎支持 7 種物體(比如關節可移動的、柔性的、透明的、流體的)、87 種原子操作的仿真。當研究人員把物體輸入,模型會在仿真引擎中進行想象操作。具身執行(Execution):多傳感器合作,自意識執行誤差。研究人員通過構建一個元操作庫,調用各種元操作來解決執行的問題。通過半自動的 data collection and labeling,能夠非
7、??焖俚禺a生 20 億個抓取點位,再進行訓練,把grasp這個問題分解為 where(去哪里抓)和 how(怎么去抓)的貝葉斯問題,分別估測網絡。0VgVpZaVkY8ZnXhZgY9YdUtR8ObPbRsQnNtRsRlOpPoQkPqQrN6MmOrRuOtRrPwMtOtR 3/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 二、二、具身智能發展歷程具身智能發展歷程 1.“具身智能具身智能”的機器人是人工智能的終極形態的機器人是人工智能的終極形態 1950 年,圖靈在他的論文Computing Machinery and Intelligence中首次提
8、出了具身智能的概念。具身智能(Embodied AI)指的是,有身體并支持物理交互的智能體,如智能服務機器人、自動駕駛汽車等,具身智能機器人指的是,像人一樣能夠與環境交互感知、自助規劃、決策、行動、執行任務的機器人。它包含人工智能領域幾乎所有的技術,包括機器視覺、自然語言理解、認知和推理、機器人學、博弈倫理、機器學習等,橫跨多個學科方向,是人工智能的集大成者。2.現有機器人難以適應現實世界,是因為其學習模式為現有機器人難以適應現實世界,是因為其學習模式為“旁觀型學習旁觀型學習方式方式”4/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 目前大部分深度學習模型訓練
9、使用的數據來自于互聯網(InternatAI)而非現實世界第一人稱視角,只能學習到數據中心的固定模式,但無法在真實世界中直接學習,因此也無法適應真實世界?,F實當中的人類是通過對現實世界的觀察、互動、反饋等學習,大腦中的部分認知依賴物理身體與世界持續不斷的交互,因此學習到越來越多的技能來適應環境。3.具身智能是通往通用人工智能的關鍵鑰匙,賦予機器人實踐學習的能力具身智能是通往通用人工智能的關鍵鑰匙,賦予機器人實踐學習的能力 斯坦福大學的李飛飛教授稱“具身的含義不是身體本身,而是與環境交互以及在環境中做事的整體需求和功能?!鄙虾=煌ù髮W的盧策吾教授通過貓學習走路來做出形象比喻:“如圖中的貓一樣,主
10、動貓是具身的智能,它可以在環境中自由行動,從而學習行走的能力。被動貓只能被動的觀察世界,最終失去了行走能力?!睂嵺`性學習方法與旁觀型學方法的不同點在于,實踐性學習是機器人像人一樣,通過物理身體與環境的互動來學習,可以主動感知或者執行任務的方法來感知世界,對世界進行建模,增強對世界的認知和鍛煉行動能力。4.具身智能更側重具身智能更側重“交互交互”上世紀以來,具身智能的研究已廣泛拓展到教育、材料、能源等領域,成為未來新一代人工智能理論與應用突破的一個重要窗口。麻省理工學院成立了名為“具身智能”的研究團隊進行相關領域的研究。5/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研
11、究報告 清華大學劉華平教授等人在基于形態的具身智能研究:歷史回顧與前沿進展中總結了海內外多方面研究后提出,具身智能(Embodied intelligence)相對于離身智能(Disembodied intelligence)更側重關注“交互”,即智能受腦、身體與環境協同影響,并由身體與環境相互作用中,通過信息感知與物理操作過程連續、動態地產生。具身智能未來可望獲得突破的發展方向包括形態涌現、感知進化、物理實現、多體協同等,劉教授等人也強調,盡管具身智能很重要,其有著自身的局限性,與離身智能的緊密結合才是實現通用智能的必由之路。5.近期英偉達創始人近期英偉達創始人 CEO 黃仁勛強調黃仁勛強調
12、“具身智能具身智能”的重大價值的重大價值 黃仁勛在 ITFWorld2023 半導體大會上表示,人工智能的下一個浪潮是具身智能(Embodied AI),即能理解、推理、并與物理世界互動的智能系統,比如機器人、自動駕駛汽車,甚至聊天機器人,他們都能很好的理解物理世界。同時,黃仁勛公布 NividiaVIMA,一個多模態具身視覺語言模型。據介紹,VIMA 可以通過視覺執行任務,也可以通過文本提示來做任務,比如重新排列這些方塊以與場景匹配;它能明白概念,采取適當行動,他可以在演示中學習,并且將行為控制在合理范疇內。6.具身智能的現實應用存在諸多難點,涉及到多學科知識具身智能的現實應用存在諸多難點,
13、涉及到多學科知識 拆解具身智能的應用過程:當人要求機器人完成某一項任務,機器人要經過的步驟包括:能夠聽懂人類語言分解任務規劃子任務移動中識別物體與環境交互最終完成相應任務。這個過程涉及到自然語言理解、邏輯推理、機器視覺、運動控制、機器學習、運動規劃、機械控制等。因此,要實現完全的具身智能,依然有很長的一段路要走。三三、具身智能、具身智能相關技術及模型相關技術及模型 具身智能已成為全球學術和企業的重要的研究方向。今年的 IROS(機器人領域頂級學術會議)將具身智能作為重要主題。目前谷歌、微軟等技術團隊、眾多頂尖研究院所和高校已探索具身智能的發展落地。谷歌、微軟、UCBerkeley 等走在技術前
14、沿。1.谷歌:視覺語言大模型谷歌:視覺語言大模型 PaLM-E 2023 年 3 月 6 日,來自谷歌和德國柏林工業大學的一組人工智能研究人員公布了史上最大視覺語言模型 PaLM-E(Pathways Language Model with Embodied)。PaLM 包括了 540B 語言模型與 22B 視覺ViT(Vison Transformer)模型,最終參數量達 562B。PaLM-E 本身是個多模態的大模型,不僅能理 6/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 解文本,還能理解圖片(ViT),可以理解圖片中的語義信息。ViT 將大模型能力泛
15、化至 CV 領域,賦予大模型視覺能力。兩相結合,PaLM-E 模型具備多模態能力,能夠觀察物理實體世界的信息,由大模型進行分析理解,再將決策結果反饋至物理世界,由此溝通物理和虛擬兩個世界。亮點在于多模態大模型應用于人機交互領域。1)發現參數擴大有助于提升人機交互中的語言能力:語言模型越大,在視覺語言與機器人任務的訓練中,保持的語言能力就越強,5620 億參數的 PaLM-E 幾乎保持了它所有的語言能力。2)對于機器人的長跨度、長周期任務,以往通常需要人工協助,PaLM-E通過自主學習全部完成,如下圖左。3)展示了模型的泛化能力,研究人員要求機器人將“綠色色塊推到烏龜旁邊”的指令,即便機器人之前
16、沒有見過這只烏龜擺件,也能完成任務。同時 PaLM-E 通過分析來自機器人攝像頭的數據來實現對高級命令的執行,而無需對場景進行預處理。這消除了人類對數據進行預處理或注釋的需要,并允許更自主的機器人控制。7/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 2.Meta:SAM 分割模型分割模型 2023 年 4 月 6 日,Meta 推出一個 AI 模型 Segment Anything Model(SAM,分割一切模型),能夠根據文本指令等方式實現圖像分割。SAM 任務目的:零樣本(zero-shot)或者簡單 prompt 下,就對任意圖片進行精細分割。SAM
17、 證明,多種多樣的分割任務是可以被一個通用大模型涵蓋的。SAM 做到的分割一切并不是 CV 大模型的終點,我們期待一個模型可以無監督完成分割、檢測、識別、跟蹤等所有 CV 任務,屆時視覺大模型應用會得到極大發展。3.微軟微軟:ChatGPT for Robotics 在 Microsoft Research 的 ChatGPT for Robotics 文章中,研究者使用 ChatGPT 生成機器人的高層控制代碼,從而可以通過自然語言和 ChatGPT 交流,使用 ChatGPT 來控制機械臂、無人機、移動機器人等機器人。目前的機器人的應用基礎是代碼,工程師需要經常編寫代碼和規范來控制機器人的
18、行為,這個過程緩慢、昂貴且低效,使用場景有限。ChatGPT 帶來一種新的機器人應用范例,通過大型語言模型(LLM)將人的語言快速轉換為代碼。在這種情境下,人們不需要學習復雜的編程語言或機器人系統的詳細信息,就可以控制機器人來完成各種任務,更輕松的與機器人互動。目前實驗已經能夠通過給 ChatGPT 的對話框輸入指令,讓其控制機器人在房間中找到“健康飲料”、“有糖和紅色標志的東西”(可樂),以及一面供無人機自拍的鏡子。4.伯克利的伯克利的 LM-Nav 模型模型 UCBerkeley、波蘭華沙大學聯合谷歌機器人團隊發表論文LM-Nav:具有大型預訓練語言、視覺和動作模型的機器人導航系統,該模型
19、結合了三種預訓練模型,從而無需用戶注釋即可執行自然語言指令。其中,大語言模型(LLM)用于完成自然語言處理的任務;視覺和語言模型(VLM)將圖像和文本信息進行關聯,即用戶指令和機器人視覺感知的外部環境進行關聯;視覺導航模型(VNM)用于從其觀察到的信息中直接進行導航,將圖像和將要執行的任務按時間進行關聯。8/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 5.國內現狀國內現狀 國內政策也在加碼推進具身智能領域的發展,5 月 12 日,北京市發布北京市促進通用人工智能創新發展的若干措施(2023-2025 年)(征求意見稿),其中便提出探索具身智能、通用智能體和類
20、腦智能等通用人工智能新路徑,包括推動具身智能系統研究及應用,突破機器人在開放環境、泛化場景、連續任務等復雜條件下的感知、認知、決策技術。具身智能有望打開 AI 新空間,引領人工智能下一站浪潮,建議關注包括數字基礎設施及機器人制造等相關環節投資機會。國內服務機器人企業加速領跑,開放化的行業生態日漸形成。當前,國產機器人的性能和可靠性大幅提升,國內企業圍繞國內外特色市場需求,在手術醫療、消費服務等多個賽道推出了獨具特點、功能新穎的特色產品,部分產品性能水平已突破“并跑”,實現與國際領先水平“領跑”。9/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 四四、相關產業梳
21、理相關產業梳理 1.具身智能具身智能+機器人機器人將有望成為將有望成為 AI 的重要解決方案,傳感器、執行器與計的重要解決方案,傳感器、執行器與計劃控制是三大基本要素劃控制是三大基本要素 傳感器包括本體感受傳感器、觸覺+視覺+聲音傳感器、機器視覺等;執行器包括減速器、伺服系統、微電機等;計劃控制部分包括控制器、工控系統、AI 系統等。傳感器與執行器數量較多。具身智能核心技術壁壘和價值環節主要聚焦核心零部件:減速器、伺服系統和控制器,其中減速器在機器人中成本占比最高達 30%,其次是伺服系統(20%)和控制器(10%)。2.未來未來 Optimus 的數量可能將達到的數量可能將達到 100 億以
22、上億以上 2023 年 5 月 17 日,特斯拉召開 2023 年股東大會,展示了一直備受關注的人形機器人 Optimus 進化情況,在機械關節控制方面,特斯拉機器人電機扭矩控制,力度控制更加精確靈敏;在感知方面,該機器人環境感知和記憶能力提升不僅可以看路,亦會記路;在學習方面,Optimus 可根據人類動作范例,進行端到端動作操控。特斯拉創始人兼首席執行官馬斯克表示:未來 Optimus 的數量可能將達到 100 億以上。3.算力硬件層算力硬件層具身智能的底層土壤具身智能的底層土壤 算力硬件層是構成 AI 產業的核心底座,主要包括 AI 芯片、AI 服務器等。AI 芯片需求有望率先擴張。AI
23、 芯片是用于加速人工智能訓練和推理任務的專用硬件,主要包括 GPU、FPGA、ASIC 等,具有高度并行性和能夠實現低功耗高效計算的特點。隨著 AI 應用的普及和算力需求的不斷擴大,AI 芯片需求有望率先擴張。根據 IDC 預測,中國 AI 算力規模將保持高速增長,預計到 2026 年將達 1271.4EFLOPS,CAGRA(2022-2026 年)達 52.3%。在此 10/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 背景下,IDC 預測異構計算將成為主流趨勢,未來 18 個月全球人工智能服務器 GPU、ASIC 和 FPGA的搭載率均會上升,2025
24、年人工智能芯片市場規模將達 726 億美元。4.機器視機器視覺覺具身智能的具身智能的“眼睛眼睛”若要實現具身智能與外界的互動感知,機器視覺也是必不可少的一環。機器視覺是在機器人和自動化設備中代替人眼實現高精度檢測、識別、測量和定位引導等功能,助力企業構建數字化車間、打造智能工廠。從機器視覺產業鏈角度來看,機器視覺行業產業鏈環節較長,上游由機器視覺系統硬件和軟件算法構成,中游為設備商和系統集成商主要負責軟件的二次開發和設備制造,下游應用場景和行業廣泛。工業是目前中國機器視覺行業最大的下游應用領域,工業領域的銷售額占比為 81.2%。具身智能有望成為下一個快速發展的下游應用。機器視覺行業隨工業自動
25、化技術的演進逐步升級規?;瘧?,全球市場來看,GGII 預計至 2025 年市場規模超 1200 億元。11/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 國內視覺龍頭有望充分受益于具身智能發展。國內兩大機器視覺龍頭均深度布局。根據中國機器視覺產業聯盟(CMVU)調查統計,現在已進入中國的國際機器視覺品牌已近 200 多家(如康耐視、達爾薩、堡康耐視、達爾薩、堡盟盟等為代表的核心部件制造商,以基恩士、歐姆龍、松下、邦納、基恩士、歐姆龍、松下、邦納、NI 等為代表的則同時涉足機器視覺核心部件和系統集成),中國自有的機器視覺品牌也已有 100 多家(如???、華睿、
26、盟拓光電、神州視覺、???、華睿、盟拓光電、神州視覺、深圳燦銳、上海方誠、深圳燦銳、上海方誠、上海波創電氣上海波創電氣等),機器視覺各類產品代理商超過 300 家(如深圳鴻富視覺、微視深圳鴻富視覺、微視新紀元、三寶興業、凌云光、陽光視覺新紀元、三寶興業、凌云光、陽光視覺等)。從視覺業務規模的角度看,2021 年,各大廠商均有較為亮眼的業務增速,尤其國產廠商,??岛?禉C器人機器視覺業務 2021 年實現超過 100%的增長,國內業務規模超過基恩士、康耐視基恩士、康耐視,位居第一,其他國產廠商如奧普特、華??萍紛W普特、華??萍家嘤休^高的增速。12/17 2023 年年 6 月月 2 日日 行業行業|
27、深度深度|研究報告研究報告 五、具身智能相關公司五、具身智能相關公司 具身智能的出現會持續引領“大模型+機器人”潮流,機器人產業鏈及布局具身智能多模態大模型的廠商有望深度受益:機器人產業鏈:三花智控三花智控、綠的諧波、鳴志電器、禾川科技、綠的諧波、鳴志電器、禾川科技等;機器視覺器視覺:虹軟科技、虹軟科技、??低?、大華股份??低?、大華股份等;大模型:中科創達、商湯科技、云從科技、科大訊飛中科創達、商湯科技、云從科技、科大訊飛等。1.機器人產業鏈機器人產業鏈(1)三花智控三花智控 機器人方面,公司重點聚焦仿生機器人機電執行器業務,并已與多個客戶建立合作,具備先發優勢,公司將同步配合客戶量產目標
28、,并積極籌劃機電執行器海外生產布局。2023 年 4 月公司發布公告,與蘇州綠的諧波傳動科技股份有限公司簽署戰略合作框架協議,雙方將在三花墨西哥工業園共同出資設立一家合資企業,合資公司主營業務為諧波減速器。(2)綠的諧波綠的諧波 諧波減速器長期需求向好,公司先發優勢持續。諧波減速器長期需求向好。工業機器人領域需求有望持續增長,人工成本上升以及老齡化持續推動國內機器人對人工的替代,諧波減速器作為智能制造設備的核心基礎零部件持續受益。非工業機器人應用領域不斷拓展,由于具有自身體積小、傳動比大等優點,加之公司創新底層數理模型,大幅提升產品剛性指標,為諧波減速器打開了大量新的應用場景,公司諧波減速器應
29、用領域已經從工業機器人拓展至服務機器人、數控機床、醫療器械、半導體設備、新能源設備等多個領域。13/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 2.機器視覺機器視覺(1)虹軟科技虹軟科技 公司是計算機視覺行業領先的算法服務提供商及解決方案提供商,是全球領先的計算機視覺人工智能企業。23Q1 移動智能終端收入實現正增長,同時智能駕駛視覺解決方案不斷落地并持續取得前裝定點項目,有望培育新的增長點。(2)??低暫?低?公司較早地對人工智能的技術趨勢作出反應,在技術上實現了更大規模和更深的網絡、更強的并行能力、更強的數據中心、更強的數據生成和數據標注的能力。在
30、AI 技術的發展過程中,公司的 AI 模型規模持續擴大,已形成了千卡并行的能力并訓練了百億級參數的模型。公司始終專注于 AIOT,從客戶的場景需求出發解決問題。3.大模型大模型(1)中科創達中科創達 中科創達發布全新的人工智能基礎大模型系列和應用產品路線圖。其中,RUBIK 基礎平臺(RUBIKFOUNDATIONFAMILY),全面覆蓋了從邊緣端、語言大模型、多模態、機器人等大模型系列。RUBIK 應用產品全家桶全面覆蓋了包括汽車大模型、終端大模型、行業大模型、開發套件大模型等一系列大模型產品組合。Rubik 大模型接入 Kanzi,賦能汽車 HMI 設計。公司基于 Rubik 大模型和 K
31、anzi,推出 HMI 設計輔助工具 Rubik Genius Canvas,該產品能夠為設計師提供從概念創作、3D 元素設計、特效代碼生成以及場景搭建制作等方面的幫助,極大的提升了汽車座艙 HMI 的設計效率與質量。Rubik 或將對標 GooglePaLM2,賦能邊緣 AI 應用。Rubik 大模型將與公司現有的智能汽車和物聯網業務整合,并通過私有化部署和系統調優來滿足各行業需求。當前市場聚焦于云端大模型 AI 以及上游算力等環節,對于邊緣 AI 預期差較大,而中科創達先發優勢顯著。(2)科大訊飛科大訊飛 深度參與互聯網產業格局重塑,攻關“訊飛星火大模型”筑牢技術底座優勢。2022 年 1
32、2 月,科大訊飛啟動了“1+N 認知智能大模型技術及應用”專項攻關,其中“1”指的是通用認知智能大模型算法研發及高效訓練方案底座平臺,“N”指的是將認知智能大模型技術應用在教育、醫療、人機交互、辦公、翻譯等多個行業領域??拼笥嶏w有信心在中文認知領域形成獨特優勢,同時在教育、醫療等多個行業領域形成業界領先的深度創新應用。公司在 2023 年 5 月 6 日舉辦了“訊飛星火認知大模型”成果發布會,除了發布“訊飛星火認知大模型”之外,還有星火認知大模型在公司現有產品上的商業應用成果:大模型+AI 學習機:AI 像老師一樣批改作文,像口語老師一樣實景對話;大模型+訊飛聽見:錄音一鍵成稿,一分鐘輸出流暢
33、會議文案;大模型+智能辦公本:根據手寫要點自動生成會議紀要;大模型+智慧駕艙:車內跨業務,跨場景人車自由交流;大模型+數字員工:基于自然語言生成業務流程和 RPA(RPA 即機器人流程自動化),幫助企業員工完成大量重復性工作;大模型+開放平臺:聯合各行業合作伙伴共建大模型生態,首批接入來自 36 個行業的 3000 余家開發者?!靶腔鸫竽P汀钡娜齻€重要時間點。2023 年 6 月 9 日科大訊飛 24 周年慶時,“星火”會通過類搜索插件突破開放式問答,即實時問答,多輪對話能力、數學能力也將升級。8 月 15 日,“星火”的多模態能力、代 14/17 2023 年年 6 月月 2 日日 行業行業
34、|深度深度|研究報告研究報告 碼能力會上升一個“大臺階”,并將開放給客戶。10 月 24 日,“星火”大模型將能夠在通用大模型能力上對標 ChatGPT,“在中文上要超越 ChatGPT,英文上達到相當的水平?!绷?、具身智能發展具身智能發展展望展望 大模型與機器人成果顯著,具身智能的東風已至:1.人形機器人人形機器人具身智能成長的重要土壤具身智能成長的重要土壤 TeslaBot 功能進展迅速,商業化前景可期。2021 年,在“特斯拉 AI 日”上,馬斯克發布了特斯拉的通用機器人計劃,并用圖片展示了人形機器人 TeslaBot 的大致形態。但當時的 TeslaBot 只是個概念。一年后在 20
35、22 特斯拉 AI 日上,人形機器人擎天柱(Optimus)實體亮相。2023 年 5 月中旬的特斯拉股東大會上,馬斯克又展示了 TeslaBot 的最新進展,現在 TeslaBot 已經可以流暢行走,并還能靈活抓取放下物體。馬斯克在會上表示“人形機器人將會是今后特斯拉主要的長期價值來源。如果人形機器人和人的比例是 2 比 1,則人們對機器人的需求量可能是 100 億乃至 200 億個,遠超電動車數量”。最近的 TeslaBot 功能突破來源于特斯拉改進的電機扭矩控制以及環境建模等技術。特斯拉利用一些技術方法改進了人形機器人的動作和控制,包括電機扭矩控制、環境發現與記憶、基于人類演示訓練機器人
36、。首先,研究團隊使用電機扭矩控制(motor torque control)操縱人形機器人腿部的運動,讓機器人落腳力度保持輕緩。對于一個機器人來說,觀察或感知周圍環境是非常重要的,因此特斯拉為人形機器人添加了環境發現與記憶的能力?,F在該人形機器人已經可以對周圍環境進行大致建模。特斯拉的人形機器人具備與人類相似的身體結構,特斯拉的研究團隊使用大量人類演示訓練了機器人,特別是在手部動作方面,旨在讓其具備與人類似的物體抓取能力。具身智能帶來的 AI 價值遠比人形機器人更大。具身智能最大的特質就是能夠以主人公的視角去自主感知物理世界,用擬人化的思維路徑去學習,從而做出人類期待的行為反饋,而不是被動的等
37、待數據投喂。15/17 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告 人形機器人提供了各種基于人類行為的學習和反饋系統,為實現更復雜行為語義提供了迭代的基礎和試驗場,因此,人形機器人的逐步完善也為具身智能的落地提供了方向。而面向工業等場景的具身智能應用并非一定要是人形機器人,因此具身智能背后的技術和方法論才是核心,也意味著具身智能所帶來的價值要遠遠高于人形機器人本身。換句話說,人形機器人是具身智能的重要應用場景,也將為具身智能的迭代優化提供方向和空間。2.AIGC 助力具身智能瓶頸突破,智能與泛化能力是關鍵助力具身智能瓶頸突破,智能與泛化能力是關鍵 強化學習興起之后
38、,具身智能受到了更廣泛的關注。之前隨著 AlphaGo 的成功,學術界對于強化學習的興趣大增,隨之很多人開始用 RL 來打通智能體的感知-決策-執行,希望實現具身智能。訓練 RL 是一個不斷試錯的過程,所以從 2017、18 年開始,出現了很多仿真訓練平臺,能把一個智能體以具身的形式放進去,然后通過與環境的交互中獲得 reward,進而學習一個 policy。但是因為仿真環境和現實環境總是有差距的(叫 sim2realgap),習得的 policy 不一定能遷移到現實里。當前能實現技能 policy 從仿真遷移到現實環境中的,主要還是像移動導航、單步驟的抓取或者操作這類較為單一的技能,而且很難
39、泛化。最近大語言模型的風頭又壓過了強化學習。最近業界希望通過大規模,用一個模型整合視覺、語言、機器人,也取得了一定效果。但是機器人的執行需要的是 4D 數據(三維環境和機器人運動的時序軌跡),它的數據量和豐富度都遠不如圖片和文本,采集成本也高的多,因此迭代演化的難度相比于大模型高得多。而多模態大模型為具身智能的技術瓶頸突破提供了重要驅動力。具身智能是人工智能、機器人等各技術分支融合發展的必然結果,因為計算機視覺為圖像的采集和處理打開了窗口,圖形學也為物理仿真提供了工具支撐,NLP 也為人類-機器交互提供了便捷性,也為機器從文本中學習知識提供了有效途徑,認知科學也為具身智能的行為認知原理提供了科
40、學研究途徑。各類機器人構件也為智能體與物理環境交互提供了橋梁。因此,人工智能的技術分支以及機器人功能性的提升,為具身智能的進一步發展帶來了可能,而當前 AIGC 時代的大模型可以將之前的技術分支更優地集成和創新,已有不少研究者嘗試將多模態的大語言模型作為人類與機器人溝通的橋梁,即通過將圖像、文字、具身數據聯合訓練,并引入多模態輸入,增強模型對現實中對象的理解,從而更高效地幫助機器人處理具身推理任務,一定程度提升了具身智能的泛化水平。所以,GPT 等 AI 大模型為具身智能的自我感知和任務處理的優化升級提供了新的研究手段。3.巨頭紛紛布局,產業融合加速推進巨頭紛紛布局,產業融合加速推進 16/1
41、7 2023 年年 6 月月 2 日日 行業行業|深度深度|研究報告研究報告“算力霸主”英偉達高調布局具身智能。在 ITFWorld2023 半導體大會上,黃仁勛表示人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統。同時,他也介紹了英偉達的多模態具身智能系統 NvidiaVIMA,其能在視覺文本提示的指導下,執行復雜任務、獲取概念、理解邊界、甚至模擬物理學,這也標志著 AI 能力的一大顯著進步。融合傳感器模態與語言模型,谷歌推出的視覺語言模型相較于 ChatGPT 新增了視覺功能。2023 年 3 月,谷歌和柏林工業大學 AI 研究團隊推出了當時最大視覺語言模型Pa
42、LM-E 多模態視覺語言模型(VLM),該模型具有 5620 億個參數,集成了可控制機器人的視覺和語言能力,將真實世界的連續傳感器模態直接納入語言模型,從而建立單詞和感知之間的聯系,且該模型能夠執行各種任務且無需重新訓練,其相較于 ChatGPT 新增了視覺功能。PaLM-E 的主要架構思想是將連續的、具體化的觀察(如圖像、狀態估計或其他傳感器模態)注入預先訓練的語言模型的語言嵌入空間,因此實現了以類似于語言標記的方式將連續信息注入到語言模型中。谷歌實現視覺語言與機器人高水平實時互聯,且觀察到了類似多模態思維鏈推理與多圖像推理等涌現能力的出現?;谡Z言模型,PaLM-E 會進行連續觀察,例如接
43、收圖像或傳感器數據,并將其編碼為一系列與語言令牌大小相同的向量。因此,模型就能繼續以處理語言的方式“理解”感官信息。而且,同一套PaLM-E 模型能夠達到實時控制機器人的水準。PaLM-E 還展現出隨機應變的能力,例如盡管只接受過單圖像提示訓練,仍可實現多模態思維鏈推理(允許模型對包含語言和視覺信息在內的一系列輸入進行分析)和多圖像推理(同時使用多張輸入圖像進行推理或預測)。但谷歌展示的 Demo 中的空間范圍、物品種類、任務規劃復雜度等條件還比較有限,隨著深度學習模型愈發復雜,PaLM-E 也將打開更多可行性應用空間。微軟正計劃將 ChatGPT 的能力擴展到機器人領域,使得能用語言文字控制
44、機器人。目前實驗已經能夠通過給 ChatGPT 的對話框輸入指令,讓其控制機器人在房間中找到“健康飲料”、“有糖和紅色標志的東西”等。微軟研究人員表示,“研究的目標是看 ChatGPT 是否能超越生成文本的范疇,對現實世界狀況進行推理,從而幫助機器人完成任務”。微軟希望幫助人們更輕松地與機器人互動,而無需學習復雜的編程語言或有關機器人系統的詳細信息。阿里采用和微軟相似的路徑,正在實驗將千問大模型接入工業機器人。在近日舉行的第六屆數字中國建設峰會上,阿里云發布一個演示視頻中展示了千問大模型的實際應用場景。其中,千問大模型接入了工業機器人,工程師通過釘釘對話框向機器人發出指令后,千問大模型在后臺自
45、動編寫了一組代碼發給機器人,機器人開始識別周邊環境,從附近的桌上找到一瓶水,并自動完成移動、抓取、配送等一系列動17/17 2023 年年 6 月月 2 日日行業行業|深度深度|研究報告研究報告 作,遞送給工程師。在釘釘對話框輸入一句人類語言即可指揮機器人工作,這將為工業機器人的開發和應用帶來革命性的變化,其背后意味著大模型為工業機器人的開發打開了新的大門。因為千問等大模型為機器人提供了推理決策的能力,從而有望讓機器人的靈活性和智能性大幅提升。七、參考文獻七、參考文獻 1.東吳證券-計算機行業 AI 浪潮下一站:具身智能2.華西證券-計算機行業:TeslaBot,ChatGpt 產業共振,劍指具身智能3.國泰君安-計算機行業:機器人與大模型催化,具身智能東風已至4.中泰證券-電子行業:具身智能推動 AI 新浪潮,持續推薦算力、機器視覺供應鏈5.長城證券-通信行業:具身智能機器人開啟 AI 新浪潮,關注相關環節投資機會6.申萬宏源-機器人行業點評:機器人是人工智能終極形態,具身智能是關鍵鑰匙7.浙商證券-機器人行業點評報告:特斯拉人形機器人產業化提速,聚焦 AI 下一個浪潮“具身智能”免責聲明:以上內容僅供學習交流,不構成投資建議。