《機械設備行業人形機器人報告(一):大模型視角下人形機器人的現在和未來-231219(32頁).pdf》由會員分享,可在線閱讀,更多相關《機械設備行業人形機器人報告(一):大模型視角下人形機器人的現在和未來-231219(32頁).pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、 請仔細閱讀本報告末頁聲明 Page 1/33 Table_Main 人形機器人報告人形機器人報告(一)(一):大模型視角下大模型視角下人形機器人的現在和未來人形機器人的現在和未來 機械設備機械設備 評級:評級:看好看好 日期:日期:2023.12.19 分析師分析師 祁巖祁巖 登記編碼:S0950523090001 :021-61102527 : 行業行業表現表現 2023/12/18 資料來源:Wind,聚源 相關研究相關研究 特斯拉發布 optimus gen2 視頻點評(2023/12/15)工信部印發人形機器人創新發展指導意見點評(2023/11/8)報告要點報告要點 人形機器人人形
2、機器人的核心價值在于通用的核心價值在于通用+智能智能,將和工業機器人共同推動制造業智能,將和工業機器人共同推動制造業智能化化。工業機器人雖然技術成熟,但卻無法解決泛化性的問題,不適應現代制造業柔性生產的需要。我們認為人形機器人將作為工業機器人的補充,與工業機器人共同推進制造業的智能化發展?!叭诵巍敝皇潜硐?,人形機器人的核心價值在于通用+智能。未來的工廠中,工業機器人、人形機器人、人工或將以7:2:1 的比例存在。以以 GPT 為代表的大模型是邁向通用人工智能為代表的大模型是邁向通用人工智能 AGI 的重要一步的重要一步。之前的人工智能屬于專業 AI,走的是“先專后通”的發展路徑。而以 GPT
3、為代表的大模型具備了一定的常識和推理能力,有望走出一條“先通后?!钡陌l展路徑。而具備控制、感知、執行能力的 AI Agent 是大模型落地的重要形式。LLM 與機器人結合的研究在短時間取得了眾多突破,讓我們對產業化多了一與機器人結合的研究在短時間取得了眾多突破,讓我們對產業化多了一份信心。份信心。我們把人形機器人視為 LLM+機器人領域的 AI Agent。LLM 的引入解決了之前機器人行業的兩大痛點:1)交互不便,無法理解人類的自然語言;2)不夠聰明,無法對復雜任務自主拆解。在 LLM 與機器人結合方面,學界取得了眾多進展。Google 在 2022 年發表的 SayCan 模型,解決了 L
4、LM 作為語言模型無法適應現實世界的問題;2022 年 12 月,google 發布 RT-1 模型,使人形機器人表現出了泛化性,可以解決未訓練場景的任務;2023 年 2 月,微軟發表 ChatGPT for Robots,提出用 LLM 語言模型控制機器人的方法,使機器人可以利用 LLM 模型的“常識”和推理能力;2023 年 3 月,google 發布 PaLM-E 模型,把具身信息融入大模型,進一步提升了泛化能力;2023 年7 月,google 發布視覺-語言-動作(VLA)的機器人模型 RT-2,模型直接輸出機器人的動作,泛化能力進一步增長,并為解決機器人數據缺乏問題提供了一種新的
5、思路。人形機器人的商業化落地需要具體的場景人形機器人的商業化落地需要具體的場景。當前人形機器人產業面對數據不足、算力不足、人機交互安全性、長尾場景等挑戰,終極的通用人形機器人還比較遙遠,但是基于特定場景的人形機器人可以降低對數據、算力的依賴,有望率先落地。2023 年 10 月,亞馬遜宣布已經在倉庫試用人形機器人 Digit。自動駕駛與人形機器人有眾多相似之處,自動駕駛的發展歷程有借鑒意義。自動駕駛與人形機器人有眾多相似之處,自動駕駛的發展歷程有借鑒意義。何小鵬認為,自動駕駛本質上是機器人科學,智能汽車公司最終也會和機器人公司在技術、產品、生態等等方面融合。參考自動駕駛的發展歷程,我們認為人形
6、機器人的發展也會有 3 個趨勢:1)終極的人形機器人還很遙遠,但基于特定場景的機器人會率先落地;2)隨著人形機器人對大數據、大模型的要求越來越高,數據閉環能力越來越關鍵;3)端到端模型可以節省算力,但當前受限于數據、規模。區分規劃算法、控制算法的多模塊的方案更容易落地,其中連接 LLM 和控制算法的 prompt 是瓶頸所在。風險提示:風險提示:1.人工智能技術仍在快速發展階段,軟硬件都在持續迭代中,行業發展存在較大技術風險。2.人形機器人作為新興產業,產業鏈尚不成熟,可能阻礙產品的商業化落地。-14%-9%-3%2%8%13%2022/122023/32023/62023/9機械設備滬深30
7、0 證券研究報告|行業深度 請仔細閱讀本報告末頁聲明 Page 2/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 內容目錄內容目錄 人形機器人的核心價值來自通用性.4 大模型加速人形機器人產業化落地.6 技術和成本限制人形機器人的產業化.6 LLM:人工智能邁出走向 AGI 的重要一步.9 人形機器人:機器人領域的 AI Agent.15 人形機器人的落地需要具體場景.22 未來推演:自動駕駛發展歷程給人形機器人的啟示.25 自動駕駛在港口、礦山已經取得進展.25 大數據+大模型驅動的方案成為趨勢.27 端到端的大模型或是終極方案.29 風險提示.31 圖表目
8、錄圖表目錄 圖表 1:工業機器人市場規模.4 圖表 2:工業機器人在不同行業、不同場景的應用成熟度.4 圖表 3:汽車總裝線依然大量依賴人工.5 圖表 4:谷歌 everyday robot(左)、波士頓動力 Spot(中)和特斯拉 Optimus(右).6 圖表 5:2022 年比亞迪員工人數.6 圖表 6:ASIMO 機器人的前身.7 圖表 7:ASIMO 機器人可以完成倒水任務.8 圖表 8:ASIMO 機器人可以做出各種手勢.8 圖表 9:波士頓動力推出的代表性產品.8 圖表 10:AI 發展的三次浪潮.10 圖表 11:生成式 AI 發展歷程.10 圖表 12:公元前 9000 年至
9、今的通用目的技術(GPT).11 圖表 13:AI Agent 通過與真實世界交互,構建了完整的“感知-認知-執行”的信息閉環.12 圖表 14:復旦大學團隊提出 AI Agent 框架包括控制、感知、行動三個模塊.13 圖表 15:Open AI 認為 Agent 是用 LLM(大腦)+記憶+規劃+工具使用.13 圖表 16:人類與 AI 協同的三種模式.14 圖表 17:LLM-based agents 主要研究方向.14 圖表 18:斯坦福構建的虛擬小鎮,里面有 25 個 AI Agents 生活.15 圖表 19:傳統機器人的兩大挑戰.15 圖表 20:單純的大預言模型會給出不合情景的
10、回答.16 圖表 21:SayCan 模型結合 LLM輸出結果的相關性和可執行性,綜合做出最佳選擇.16 圖表 22:研究人員讓 Saycan 模型執行的 101 個任務.17 圖表 23:Saycan 模型在各模型下的執行成功率.17 圖表 24:把 chatGPT 引入機器人改變了過去人機交互的邏輯.17 圖表 25:RT-1 模型結構.18 圖表 26:RT-1 模型的執行成功率要高于其他模型.18 圖表 27:Palm-E 是一個多模態語言具身模型.19 yUfXcXdYfZfYnPnNrQrPoO6MdN6MtRpPmOsRjMmNpNiNoMrRbRrRwPMYqNxONZsRyR
11、 請仔細閱讀本報告末頁聲明 Page 3/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 28:搭載 Google PaLM-E 模型的機器人從抽屜里拿出薯片.19 圖表 29:機器人控制算法一般是雙層結構.20 圖表 30:使用強化學習做機器人運動控制.20 圖表 31:RT-2 在大模型的基礎上用機器人數據微調,然后輸出機器人動作.20 圖表 32:RT-2 模型在理解、推理方面的能力要顯著優于 RT-1 模型.21 圖表 33:RT-2 模型在未知場景的表現明顯優于 RT-1 模型.21 圖表 34:google 在機器人大模型領域研究進展.21 圖
12、表 35:特斯拉 optimus 在 2022 年 4 月邁出第一步.22 圖表 36:2023 年 9 月特斯拉發布的視頻中 optimus 進行瑜伽和物品分揀.22 圖表 37:2023 年 12 月 optimus-gen2 可以完成深蹲動作.22 圖表 38:2023 年 12 月 optimus-gen2 搭配觸覺傳感器拿起雞蛋.22 圖表 39:人形機器人潛在落地場景.23 圖表 40:小米科技人形機器人的 1+N+X戰略.24 圖表 41:優必選 walker 機器人的六大應用場景.24 圖表 42:digit 機器人在工廠搬運.25 圖表 43:digit 機器人收到命令后的思
13、考過程.25 圖表 44:踏歌智行的國家能源勝利一號露天煤礦項目.26 圖表 45:踏歌智行基于車、地、云協同的“曠谷”解決方案.26 圖表 46:踏歌智行的車載硬件方案.26 圖表 47:華為在天津港實現 L4 級自動駕駛.27 圖表 48:自動駕駛進入 3.0 時代.28 圖表 49:自動駕駛的數據閉環.28 圖表 50:使用英偉達 EmerNeRF 進行仿真.29 圖表 51:關于自動駕駛端到端方案的論文數量明顯增加.29 圖表 52:端到端方案與傳統方案的對比.30 圖表 53:特斯拉基于占用網絡的感知.30 圖表 54:特斯拉基于車道線和物體算法(lane&object)的感知.30
14、 請仔細閱讀本報告末頁聲明 Page 4/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 人形機器人的核心價值來自通用性人形機器人的核心價值來自通用性 工業機器人雖然技術成熟,但卻無法解決泛化性的問題,不適應現代制造業柔性生產的需要。我們認為人形機器人將作為工業機器人的補充,與工業機器人共同推進制造業的智能化發展。如何增強機器人的泛用性是行業一直致力解決的問題。傳統的工業機器人并不能直接使用,需要被系統集成商集成后使用。機器人的系統集成需要對客戶工藝的深刻理解,是高度定制化的環節,同時也是嚴重依賴工程師經驗的環節。系統集成不僅增加了工業機器人的使用成本,還使工業
15、機器人失去了泛化性。在工業機器人被集成的過程中,工業機器人遵循編寫好的程序運行,與應用場景高度綁定。一旦環境變化后,用戶需要通過工程師重新部署、編程,無法通過簡單操作實現場景適配。這注定了工業機器人適用于大規模、重復性生產,無法適應柔性化生產的需要。這嚴重限制了機器人的使用范圍,阻礙了機器人行業的成長。2022 年工業機器人市場規模 585 億,并不是一個非常大的市場。圖表 1:工業機器人市場規模 資料來源:中商情報網,IFR,五礦證券研究所 盡管工業機器人已經廣泛應用于汽車、3C、紡織、包裝等行業,但在這些行業之中依然有大量環節離不開人工。以汽車行業為例,目前工業機器人在汽車行業主要應用于搬
16、運、上下料、焊接、噴涂、切割和沖壓。在打磨、清潔、檢測、分揀、包裝等領域依然依賴人工。在汽車的總裝環節 95%依然是重人工。原因在于:1)汽車總裝的時候需要工人進入車內空間操作,而車內空間是有限的、為人體設計的,工業機器人沒有多余的施工空間;2)單個工人使用的工具超過 10 個,并非簡單、單一的操作。圖表 2:工業機器人在不同行業、不同場景的應用成熟度 資料來源:iresearch 五礦證券研究所 01002003004005006007002019202020212022中國工業機器人市場規模中國工業機器人市場規模 請仔細閱讀本報告末頁聲明 Page 5/33 Table_Page 機械設備
17、機械設備 2023 年 12 月 19 日 圖表 3:汽車總裝線依然大量依賴人工 資料來源:AI 汽車制造業,五礦證券研究所 小米小米集團高級副總裁曾學忠集團高級副總裁曾學忠認為,在認為,在未來智能制造體系里面,自動化設備、人形機器人以及未來智能制造體系里面,自動化設備、人形機器人以及人將以人將以 7:2:1 黃金法則來組成黃金法則來組成。未來 70%的對制造質量和制造效率要求高的工作依靠自動化設備來完成;20%高復雜度、高柔性的場景需要人形機器人來完成;10%是工作還是要依靠人,因為最終數據與價值的管理還是要依靠人,人才可以定義價值。根據智研咨詢,2022年中國自動化設備的市場規模達到 29
18、09 億元,全球自動化設備達到 2308 億美元。以此推算,僅在工業制造領域,人形機器人未來潛在市場規模約 660 億美元(全球市場)。人形機器人人形機器人會帶來整個自動化市場的擴張會帶來整個自動化市場的擴張。我們希望機器人滲透到社會的方方面面幫助我們工作,但當前的工業機器人需要系統集成商去安裝部署,所以很難滲透到非標準化的場景之中,這限制了整個行業的市場規模。我們認為,依賴人形機器人的泛用性,未來機器人可以從標準化工業場景進一步滲透到非標準化場景,也包括建筑、商業導覽、醫療護理、教育培訓、家庭服務等非工業領域。這將會給機器人行業帶來遠超之前的市場空間?!叭诵巍敝皇潜硐?,“人形”只是表象,通用
19、通用+智能智能是人形機器人更為核心的價值。是人形機器人更為核心的價值。選擇“人形”,只是因為我們活動的世界是為人的身體所創造的,人的形態可以操作一切工具,具有最廣泛的適應性。通用+智能才是人形機器人的核心價值。人形機器人的發展也不是孤立的,而是從四足機器人、機械臂上衍化而來。人形機器人的“小腦”運動控制算法,是在四足機器人的基礎上發展而來。人形機器人的“大腦”大模型,常被搭載在機器臂上進行研究。所以在討論廣義的人形機器人時,我們不局限于特斯拉 Optimus 這樣的雙足機器人,也會討論波士頓動力 Spot 這樣的四足機器人,甚至還包括谷歌 everyday robot 這樣的輪式機器人。請仔細
20、閱讀本報告末頁聲明 Page 6/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 4:谷歌 everyday robot(左)、波士頓動力Spot(中)和特斯拉Optimus(右)資料來源:機器人大講堂、新智元、特斯拉,五礦證券研究所 人形機器人潛在的市場規模是巨大的人形機器人潛在的市場規模是巨大的。比亞迪 2022 年年報披露,比亞迪共有員工 57.01 萬人,其中生產工人 44.21 萬人,占比 78%??梢娂词乖诟叨茸詣踊钠囆袠I,依然有大量環節是工業機器人無法勝任的,需要依靠人工的力量。假設比亞迪的生產工人中有10%(4.4萬人)被人形機器人按
21、1:1 比例替代,按單臺機器人 20 萬估算,僅一家企業就能貢獻 88 億元市場規模。圖表 5:2022 年比亞迪員工人數 資料來源:wind,五礦證券研究所 大模型加速人形機器人產業化落地大模型加速人形機器人產業化落地 人形機器人出現多年,但功能一直集中于簡單的跑跳、抓取,幾乎沒有可以落地的商業場景。以 chatGPT為代表的新一代人工智能技術,讓人形機器人的場景落地進度大大加快。我們認為人形機器人是 LLM+機器人領域的一種 AI Agent,是大模型落地的重要場景之一。LLM 充當機器人的大腦,很好解決了以往機器人的兩大難題:1)基于“常識”的語義理解,2)復雜任務的分解。LLM 賦予人
22、形機器人更好的人機交互能力、規劃決策能力,解決了傳統工業機器人的泛用性問題。技術和成本限制人形機器人的產業化技術和成本限制人形機器人的產業化 早在 1973 年,日本早稻田大學就制造出了世界上第一臺人形機器人 WABOT-1。WABOT-1不僅能與人交流,還可以抓握和運輸物體。WABOT-1 行走一步需要 45 秒,步伐也僅有 10 厘米左右。1984 年,WABOT-2 誕生。WABOT-2 具有與日本人進行自然對話的能力,還能生產人員,442076,77.5%銷售人員,23690,4.2%技術人員,76016,13.3%財務人員,2527,0.4%行政人員,25751,4.5%請仔細閱讀本
23、報告末頁聲明 Page 7/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 用眼睛看樂譜,用手腳靈活地演奏電子琴,具有演奏中級難度音樂的能力。此外,它還可以識別歌聲,自動進行轉錄。盡管人形機器人早已出現,但商業化落地始終沒有成功。本田、波士頓動力曾嘗試過人形機器人的商業化,均已失敗告終。本田的本田的 ASIMO 機器人機器人 本田的 ASIMO(中文名:阿西莫)機器人,是全球最早實現雙足行走能力的機器人?!癆SIMO”的初代型號于 2000 年 10 月 31 日推出,但其前身可以追溯到 1986 年。1986 年,本田制造的第一臺機器人被稱為 E0。E0 只有
24、“下半身”而且走得很慢,有時需要 20 秒才能完成一個步驟,所以也被稱為“靜態步行”。1987 年,本田推出 E1,可以執行“動態步行”,更加類似人的步伐。1991-1993 年,本田陸續推出了 E4E5E6。此時機器人已經可以輕松在斜坡、樓梯、崎嶇不平的路面行走。1993-1997 年,本田推出 P1/P2/P3 機器人,看起來更具“人形”,可以抓住物品、推動小車、在外力作用下保持平衡。2000 年,第一代 ASIMO 推出,之后分別于 2006 年、2011 年推出了第二代、第三代ASIMO。第三代 ASIMO 已經有高達 57 個自由度,可以實現 9km/h 的行走速度,可以上下樓梯、開
25、瓶、倒水,還可以對周圍人群或動物的位置、動作和行動路線進行預估判斷。圖表 6:ASIMO 機器人的前身 資料來源:VTEC 范兒,五礦證券研究所 盡管人形機器人可以行走、開瓶、倒水,但離實際應用還有一段距離。2011 年福島核電站事故發生后,民眾希望把 ASIMO 派到核電站進行災后救援工作,但本田表示“現在還沒有達到大家期望的技術水平”。同時,ASIMO 的高達 300-400 萬美金的造價也決定了 ASIMO 很難商業化落地。2018 年 6 月 28 日本田汽車公司官方已經宣布停止人形機器人 ASIMO 的研發,以專注于該技術的更多實際應用。請仔細閱讀本報告末頁聲明 Page 8/33
26、Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 7:ASIMO 機器人可以完成倒水任務 圖表 8:ASIMO 機器人可以做出各種手勢 資料來源:VTEC 范兒,五礦證券研究所 資料來源:機器人大講堂,五礦證券研究所 波士頓動力波士頓動力 波士頓動力起源于 1983 年成立的 The Leg Laboratory。1992 年,創始人馬克 雷波特(Marc Raibert)將波士頓動力從麻省理工學院獨立出來,成為一家獨立運作的公司。波士頓動力的早期項目大多是和軍方合作。2005 年,波士頓動力和美國國防高等研究計劃局合作的四足機器人 Big Dog 和用于逼真人體
27、模擬的 DI-guy 問世,讓波士頓動力名聲大噪。之后,波士頓動力又陸續推出多個產品,其中有代表性的包括 LS3、cheetah、Atlas、Spot 等。圖表 9:波士頓動力推出的代表性產品 產品 圖片 產品介紹 Big Dog(2005)Big Dog 的設計目的是為軍方提供一款可以幫助美軍士兵背負裝備、運送物資,并且可以適應崎嶇地形的機器人。Big Dog 以四足哺乳動物的軀體結構作為參考,高度約 1 米,重量109kg,可以背負45kg負載奔跑,最高速度 6.4km/h,最大爬坡角度35 度。就算有人施加外力,Big Dog 也可以迅速調整避免摔倒。配置方面,Big Dog 采用了一個
28、 15 馬力的賽車引擎作為動力源,每條腿都擁有 4個自由度,依靠液壓執行器提供動力。全身上下共有 50個傳感器:足部有力傳感器,感知地面接觸力;膝蓋有紅外接近開關檢測障礙;關節有位置傳感器和力傳感器以檢測運動狀態;軀干安裝了慣性傳感器檢測身體姿態;此外還集成了視覺相機、激光雷達、GPS 等。LS3(2012)LS3 高度約為 1.7 米,重量約為 509 公斤,可以背負 181kg 的負載。LS3 集成了 big dog 的通過特性,并且具備自動追蹤技術,可跟隨目標人員前進。LS3 具有12 個關節自由度,由柴油發動機或燃氣發動機提供動力,由液壓系統驅動關節,最高可運行 24小時。LS3 因噪
29、音大、維修難度大,被美國軍方棄用。Cheetah(2012)Cheetah 采用關節型的背部結構,這使得 Cheetah 的背部結構能夠在其奔跑過程中靈活運動,以更好地協調整體姿態,提高步幅和奔跑速度。Cheetah 在跑步機上創造了48 公里/小時的速度記錄 請仔細閱讀本報告末頁聲明 Page 9/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 Spot(2015)Spot 高度約為 0.94 米,重量約為 75 公斤,可背負 45 公斤的有效負載進行自由行動或奔跑。具有 12 個自由度,電池提供動力,液壓系統輸出動力。采用激光雷達傳感器和立體視覺傳感器感知周
30、邊路面信息 petman(2009)Petman 的設立目的是為美軍測試防護服性能,是波士頓的動力的首個雙足機器人,需要拖著電纜在履帶上晃晃悠悠地行走 Atlas(2013)波士頓動力最著名的機器人,以 petman 為原型打造,2013 年首次亮相,后歷經多次迭代。2018年第三代altas 身高 1.5m,體重82kg,共有 28 個主動自由度。最新版本的 atlas 可以自主感知環境,根據實時感知到的數據規劃,完成一些列跑酷動作 資料來源:新智元、古月居、百度百科、澎湃、搜狐、鋼鐵俠科技,五礦證券研究所 波士頓動力很多機器人都沒有產業化,主要原因在于:1)應用場景,波士頓動力的機器人很多
31、是以軍用目的研發的,設計之初就不是以民用為目的。2)價格,由于以軍用為目標進行研發更看重性能要求,波士頓動力的機器人采用了高成本的液壓驅動的系統。液壓驅動系統的優點是明顯的抗負載剛性大、驅動力大,但功耗高、自重更重,也很難降本。波士頓動力在 2020 年推出了首款商用機械狗 Spot,盡管采用了電驅動關節,但售價依然高達 7.45 萬美元。彭博社報道 2020 年 spot 僅賣出了大約 400 臺。與此同時,波士頓動力幾經易手,估值大幅下調。2013 年,波士頓動力以 30 億美元被 google收購,被歸入 Google X項目下。2017 年,日本軟銀以不公開條款收購了波士頓動力的股權。
32、2020 年現代集團斥資 8.8 億美元收購了波士頓動力 80%股份,對應估值從 30 億美元下降到了 11 億美元。LLM:人工智能邁出走向人工智能邁出走向 AGI 的重要一步的重要一步 基于對于智能的不同理解,人工智能產生了不同的流派。符號主義:符號主義:符號主義認為智能是基于邏輯規則的符號操作,人的認知活動是符號計算的過程。智能的核心就是根據某套規則做出理性決策。19561986 年,符號主義經歷了從一枝獨秀到逐漸衰落的過程,對應人工智能發展的第一次浪潮。當時 AI 的主要成就是用機器證明的辦法證明和推理一些知識,能夠解開拼圖或實現簡單的游戲。但當時的人工智能卻幾乎無法解決任何實用的問題
33、。聯結主義聯結主義:聯結主義也被稱為仿生學派,認為智能是腦神經元構成的信息處理系統。他們認為大腦是由神經元構成的神經網絡聯結而成,而人類智能的實現過程就是通過神經網絡中神經元之間的交互而實現。70 年代,神經元聯結網絡模型突飛猛進,并在文字識別、字符識別、人臉識別等垂直領域獲得了應用。聯結主義貫穿第二次人工智能浪潮(1976-2006)和第三 請仔細閱讀本報告末頁聲明 Page 10/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 次人工智能浪潮(2006 至今)。兩者的劃分點在于深度學習算法:隨著硬件瓶頸的突破、模型的進步,深度學習算法取得突破并在第三次浪潮中
34、被廣泛運用。行為主義行為主義:行為主義也被稱之為進化主義,認為智能是通過感知外界環境做出相應的行為。符號主義和聯結主義并未真正解決智能體與真實物理世界交互的難題,在可解釋性、魯棒性方面也面臨很大挑戰。莫拉維克悖論(要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的)就體現了很多學者的擔憂。布魯克斯從控制論角度出發,強調智能是具身化和情境化的,智能體必須擁有“身體”并通過與真實世界的交互來發育或進化出智能。行為主義希望能夠通過模擬生物的進化機制,使機器獲得自適應能力。在第三次浪潮中,人工智能又分化出 2 個研究主線:一個是 AlphaGo 為
35、代表的判別式 AI;另一個是以 chatGPT為代表的生成式 AI。圖表 10:AI發展的三次浪潮 資料來源:騰訊 STAC 科創聯合大會,五礦證券研究所 生成式 AI 的歷史原型可以追溯到 20 世紀 60 年代的聊天機器人 Eliza,但直到 2014 年生成對抗網絡 GAN 模型(Generative Adversarial Nets)被提出,它才開始了實質性發展。此后,隨著 VAE 模型(Variational Auto-Encoder)、擴散模型等新訓練方法的提出和應用,生成式AI迎來了高速發展。圖表 11:生成式 AI發展歷程 資料來源:2023 年全球生成式 AI 產業研究報告,
36、五礦證券研究所 生成式 AI領域最大的突破還是來自于大語言模型(Large language models,LLM)。2017年 google 提出 transformer,為之后的大語言模型奠定基礎。2022 年 11 月 open AI上線了大語言模型 chatGPT,并在 2023 年 1 月活躍用戶達 1 億,成為歷史上增長最快的應用。2023 年 3 月,Open AI推出 GPT-4,在 chatGPT3.5 的基礎上進一步擁有多模態能力,可以接受圖像輸入并理解圖像內容。請仔細閱讀本報告末頁聲明 Page 11/33 Table_Page 機械設備機械設備 2023 年 12 月
37、19 日 GPT 驚人的展現出了創造力,因而有觀點認為驚人的展現出了創造力,因而有觀點認為 GPT 正在逐漸演化為一種“通用人工智能正在逐漸演化為一種“通用人工智能”(Artificial General Intelligence,AGI),盡管這種觀點并未達成一致。中科院院士張鈸認為,“chatGPT 向通用人工智能邁出了一步”。微軟也在人工通用智能的星星之火:GPT-4 的早期實驗一文指出,“GPT-4 能力的通用性,與跨越廣泛領域的眾多能力相結合,以及它在廣泛的任務范圍上達到或超越人類水平的表現,使我們可以輕松地說,GPT-4 是邁向 AGI的重要一步”。在在 GPT 之前,之前,AI
38、研究的主陣地是專用研究的主陣地是專用 AI 或者功能性或者功能性 AI,發展路徑走的是“先專后通”。,發展路徑走的是“先專后通”。先在下棋、計算、圖像識別、語音識別等專業細分領域入手,在專業領域有足夠積累之后逐步演化為通用智能,是以往人工智能發展的主流路徑。大模型大模型打開了一條“先通后?!钡娜斯ぶ悄馨l展路徑打開了一條“先通后?!钡娜斯ぶ悄馨l展路徑。AI先具備龐大的先驗知識庫和通識理解能力,在此基礎上我們再給 AI 賦予專業能力,會讓很多原來不可能的任務變得簡單。比如,讓機器人把桌上垃圾扔到垃圾桶里,不再需要告訴它垃圾是什么、垃圾桶是什么,這些都在預訓練的大模型里。具備通識理解能力的大模型,將
39、作為一項通用目的技術具備通識理解能力的大模型,將作為一項通用目的技術賦能各行各業,賦能各行各業,成為經濟增長的重要成為經濟增長的重要引擎引擎?,F代經濟增長理論有“通用目的技術”(General Purpose Technology,GPT)的概念。與之對應的則是“專用目的技術”(Specific Purpose Technology,SPT)。通用目的技術的影響范圍廣泛,對經濟具有整體性影響,通常被稱為“經濟增長的引擎”。Bresnahan 和 Trajtenberg 認為通用目的技術應該具備的特點包括:1)普遍適用性;2)進步性,通過持續創新學習,通用目的技術的表現會隨著時間推移改進;3)創
40、新孕育性,通用目的技術的創新會促進相關應用技術的創新。Lipsey 等人在Economic transformations:general purpose technologies and long-term economic growth中曾對歷史上的通用目的技術進行過專門的研究。研究結果顯示,從公元前 9000 年至今,只有 24 種技術可以稱為通用目的技術。陳永偉則在作為 GPT 的 GPT:通用目的技術視角下新一代人工智能的機遇與挑戰一文指出,生成式 AI也應當可以被認為是通用目的技術。圖表 12:公元前 9000 年至今的通用目的技術(GPT)編號 技術 時間 分類 1 分類 2 1
41、 動物馴化 公元前 9000-8000 年 流程型技術 材料技術 2 動物馴養 公元前 8500-7500 年 流程型技術 材料技術、能源技術、交通技術 3 礦石冶煉 公元前 8000-7000 年 流程型技術 材料技術 4 輪子 公元前 4000-3000 年 產品型技術 工具、交通技術 5 寫作 公元前 3400-3200 年 流程型技術 信息和通訊技術 6 青銅 公元前 2800 年 產品型技術 材料技術 7 鋼鐵 公元前 1200 年 產品型技術 材料技術 8 水車 中世紀早期 產品型技術 能源技術 9 三桅帆船 15 世紀 產品型技術 交通技術 10 印刷術 16 世紀 流程型技術
42、信息和通訊技術 11 蒸汽機 18 世紀晚期到 19 世紀早期 產品型技術 能源技術 12 工廠體系 18 世紀晚期到 19 世紀早期 組織型技術 組織技術 13 鐵路 19 世紀中期 產品型技術 交通技術 14 鐵輪船 19 世紀中期 產品型技術 交通技術 15 內燃機 19 世紀晚期 產品型技術 能源技術 16 電力 19 世紀晚期 產品型技術 能源技術 17 汽車 20 世紀 產品型技術 交通技術 請仔細閱讀本報告末頁聲明 Page 12/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 18 飛機 20 世紀 產品型技術 交通技術 19 大規模生產 20
43、世紀 組織型技術 組織技術 20 計算機 20 世紀 產品型技術 信息和通訊技術 21 精益生產 20 世紀 組織型技術 組織技術 22 互聯網 20 世紀 產品型技術 信息和通訊技術 23 生物技術 20 世紀 流程型技術 材料技術 24 納米技術 21 世紀某個節點 流程型技術 材料技術 資料來源:作為 GPT的 GPT:通用目的技術視角下新一代人工智能的機遇與挑戰,五礦證券研究所 大模型問世后,具體如何應用落地一直有所爭議,但近期基于 AI Agent 的落地方式逐步得到認可。AI Agent 的核心意義的核心意義在于在于補足了執行環節,強調大模型與真實世界的互動,從而構建了完整補足了執
44、行環節,強調大模型與真實世界的互動,從而構建了完整的信息閉環。的信息閉環。完全基于互聯網的文字、圖片信息訓練而來的 GPT 具有一定的通識能力和推理能力,展現出了智慧的火花。但這種智能是“紙上談兵”,缺乏對現實世界復雜性和多樣性的深刻。圖文是一種抽象的、高度凝練的信息,在傳遞信息的時候也遺漏了很多信息,這從根本上決定了大模型存在一些難以避免的局限性。我們認為,大模型需要與真實世界產生互動,并通過“具身交互”構建多模態的“感知-認知-執行”的完整信息閉環。AI 三大學派中的行為主義學派有類似的觀點行為主義學派認為,智能體必須擁有“身體”并通過與真實世界的交互來發育或進化出智能。圖表 13:AI
45、Agent 通過與真實世界交互,構建了完整的“感知-認知-執行”的信息閉環 資料來源:五礦證券研究所 目前對 AI Agent 沒有形成完全統一的定義。復旦大學團隊在 The Rise and Potential of Large Language Model Based Agents:A Survey 提出,AI Agent 的框架包括三個部分:控制(brain)、感知(perception)、行動(action)。OpenAI 應用研究主管 LilianWeng 對 AI Agent 的形容是:Agent=LLM+記憶+規劃+工具使用。其中 LLM 是核心大腦;記憶、規劃、工具使用則是 A
46、gents 系統實現的三個關鍵組件。一般認為,AI Agent 是具有自主性、反應性、積極性和社交能力特征的智能實體,本質是一個可以感知其環境、在給定目標下做出決策并采取行動的系統。請仔細閱讀本報告末頁聲明 Page 13/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 14:復旦大學團隊提出 AI Agent 框架包括控制、感知、行動三個模塊 資料來源:The Rise and Potential of Large Language Model Based Agents:A Survey,五礦證券研究所 圖表 15:Open AI認為 Agent 是用L
47、LM(大腦)+記憶+規劃+工具使用 資料來源:騰訊研究院,五礦證券研究所 AI Agent 更強調“執行”,更強調“執行”,會會帶來帶來人人與與人工智能交互模式人工智能交互模式的巨大改變的巨大改變。生成式 AI 至今與人的交互有三種模式,包括嵌入模式(embedding)、副駕駛模式(Copilot)和智能體模式(Agent)。嵌入(embedding)模式。用戶使用提示詞來設定目標,然后 AI 協助用戶完成這些目標,比如普通用戶向生成式 AI 輸入提示詞創作小說;副駕駛(Copilot)模式。人類和 AI 更像是合作伙伴,共同參與到工作流程中,各自發揮作用。智能體(Agent)模式。人類設定
48、目標和提供必要的資源,然后 AI獨立地承擔大部分工作,最后人類監督進程以及評估最終結果。請仔細閱讀本報告末頁聲明 Page 14/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 16:人類與 AI協同的三種模式 資料來源:騰訊研究院,五礦證券研究所 Embedding 模式和 Copilot 模型下,執行工作的主體依然是人,AI只是起到提升效率的作用。但“協作”這種工作模式本身就有較高的溝通成本,加上 AI的智能水平尚未達到完美,使用體驗可能并不理想。而基于 Agent 的交互模式更為高效,將會更大程度的使人類從重復復雜的勞動中釋放,帶來更好的使用體驗。面
49、壁智能認為,大模型想要落地到具體場景,AI Agent 是重要路徑,它代表的是比“裸”模型更擬人的使用體驗;未來萬物都會是 Agent,比如電飯鍋可以是 Agent,放入食材后,我們跟它說要熬粥,它就會根據熬粥的邏輯,去設定相應的加熱方式。目前學術界針對 LLM-based agents 的研究主要集中在社會科學、自然科技、機械工程三個領域。其中在計算機科學和軟件工程、機器人和具身智能方面的研究成果相對較多。圖表 17:LLM-based agents 主要研究方向 資料來源:A Survey on Large Language Model based Autonomous Agents,五礦
50、證券研究所 我們認為,我們認為,AI Agent 將會是大模型在各個場景落地的重要形式,同時也是通向將會是大模型在各個場景落地的重要形式,同時也是通向 AGI 的重要的重要一步一步。復旦大學論文The rise and potential of Large Language Model Based Agents:A survey將 NLP 到 AGI 的發展路線分為五級:語料庫、互聯網、感知、具身和社會屬性。目前的大語言模型已經來到了第二級。依靠 LLM-based Agents 感知和行動,人工智能將達到第三、第四級。進一步通過多個 Agent 互動,則有潛力來到第五級代理社會。一個知名的案
51、例是“西部小鎮”。斯坦福的研究者構建了一個名為 Smallville 的虛擬小鎮,里面有 25 個 AI Agents 在小鎮上生活,他們有工作,會八卦,能組織社交,結交新朋友,甚至舉辦情人節派對,每個 agent 都有獨特的個性和背景故事。LLM-based agents社會科學領域心理學政治經濟學社會模擬法學研究助理自然科學領域文件數據管理實驗助手自然科學教育機械工程領域土木工程計算機科學和軟件工程工業自動化機器人和具身智能 請仔細閱讀本報告末頁聲明 Page 15/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 18:斯坦福構建的虛擬小鎮,里面有 2
52、5個 AI Agents 生活 資料來源:機器之心,五礦證券研究所 人形機器人人形機器人:機器人領域的:機器人領域的 AI Agent 我們把人形機器人我們把人形機器人理解為大模型在理解為大模型在機器人領域的一種機器人領域的一種 AI Agent。通過大模型,機器人具備了自然語言和視覺/觸覺的多模態交互能力、適應多場景的泛化能力,這是之前的機器人所做不到的。圖表 19:傳統機器人的兩大挑戰 資料來源:Cornell University,五礦證券研究所 在 LLM 模型出現后,學術界進行了大量研究,把 LLM 的語義理解能力和推理生成能力引入到機器人,讓 LLM 來充當機器人的“大腦”。在引入
53、 LLM 的過程中,首先遇到的問題是:最初的 LLM 是一個語言模型,并不是以物理世界為基礎的。這使得 LLM 會給出一些正確的,但和當時的情景格格不入、毫無用處的輸出。請仔細閱讀本報告末頁聲明 Page 16/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 20:單純的大預言模型會給出不合情景的回答 資料來源:Do As I Can,Not As I Say:Grounding Language in Robotic Affordances,五礦證券研究所 2022 年,google 提出的 SayCan 模型提供了解決思路。SayCan 分為兩個部分:
54、LLM 和 value function。收到一個任務后,LLM 會給出多個輸出選項,并給每個選項生成一個相關性打分;同時 value function 還會對 LLM 每個輸出選項的可執行性(affordance)打分。最后 SayCan模型綜合兩個打分,給出最合適的結果。圖表 21:SayCan 模型結合 LLM輸出結果的相關性和可執行性,綜合做出最佳選擇 資料來源:Do As I Can,Not As I Say:Grounding Language in Robotic Affordances,五礦證券研究所 研究人員以 Palm 和 FLAN 兩個大模型為基礎,構建了 2 個 Say
55、Can 模型。研究員讓 SayCan模型執行了 101 個任務,結果顯示兩個模型都取得了較好的成果。在模擬環境下 Palm-SayCan 成功率為 84%,FLAN-SayCan 的成功率為 70%;在真實環境下 Palm-SayCan 的成功率為 74%,FLAN-SayCan 的成功率為 61%。請仔細閱讀本報告末頁聲明 Page 17/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 2023 年 2 月,微軟發表了 ChatGPT for Robotics:Design Principles and Model Abilities。文章提出,可以利用 LL
56、M 把用戶納入到與機器人交互的“循環”之中??紤]到 LLM 模型的輸出內容是文字,不能操作機器人的動作,因此微軟提出了使用 API調用的方法:事先定義好各種任務相關的 API 庫,讓用戶通過 LLM 的輸出文本(prompt)調用 API 接口,最終實現通過自然語言控制機器人。微軟指出,在這個過程中,API 的名字定義至關重要。好的 API命名可以讓 LLM 選擇正確的 API 接口。文章中,研究人員要求 ChatGPT 編寫一種算法,讓無人機能夠在不撞上障礙物的情況下到達空中的目標位置。ChatGPT 立即理解了研究人員的任務,并編碼了算法的大部分關鍵構建塊。一個好的輸出文本(prompt)
57、是大語言模型能否成果的關鍵。但 prompt 工程復雜且耗時,并且屬于實證科學,缺少綜合、可及的資源。微軟為了解決這個問題提供了 LLM-Robotics 研究工具 PromptCraft,讓用戶貢獻各種機器人策略的 prompt 和對話例子。圖表 24:把 chatGPT 引入機器人改變了過去人機交互的邏輯 資料來源:ChatGPT for Robotics:Design Principles and Model Abilities,五礦證券研究所 2022 年 12 月,google 發布了 RT-1 模型。RT,即 Robotics Transformer。谷歌通過谷歌通過 RT-1第一
58、次證明了,通過龐大的、多樣化的、任務無關的數據,機器人也可以第一次證明了,通過龐大的、多樣化的、任務無關的數據,機器人也可以展現出泛化性,執展現出泛化性,執行一些未曾見過的任務。行一些未曾見過的任務。Google 耗費 13 個機器人歷時 17 個月,收集了超過 13 萬個片段的真實世界數據。Google 也強調,因為收集真實世界機器人數據非常困難,因此模型的泛化和圖表 22:研究人員讓 Saycan 模型執行的101個任務 圖表 23:Saycan 模型在各模型下的執行成功率 資 料 來 源:Do As I Can,Not As I Say:Grounding Language in Rob
59、otic Affordances,五礦證券研究所 資 料 來 源:Do As I Can,Not As I Say:Grounding Language in Robotic Affordances,五礦證券研究所 請仔細閱讀本報告末頁聲明 Page 18/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 微調能力非常關鍵。RT-1 是一個基于機器人數據的端到端模型,輸入端是一小段圖像序列和用文本描述的任務,輸出端是動作指令,包括 7 個維度的手臂動作指令(arm movement)、3 個維度的基礎移動指令(base movement)和 1 個維度的狀態切換指
60、令(modes)。RT-1 構建了新的網絡結構,包括三層:1)經過 FilM 網絡進行預處理;2)使用 token learner model 計算出一組 token;3)使用 transformer 模型計算 token。圖表 25:RT-1 模型結構 資料來源:RT-1:Robotics Transformer for Real-World Control at Scale,五礦證券研究所 研究人員讓機器人執行了超過 700 項任務,結果顯示:在之前見過的場景、之前未見過的場景、被干擾場景、背景更換場景,搭載 RT-1 模型的機器人都展現出了更高的成功率。圖表 26:RT-1 模型的執行成
61、功率要高于其他模型 資料來源:RT-1:Robotics Transformer for Real-World Control at Scale,五礦證券研究所 2023 年 3 月,Google 發布了視覺語言模型 PaLM-E。PaLM-E 的名稱來自于 google 之前發布的 PaLM 預訓練算法,和機器人的身體 E(embodied)。谷歌和柏林工業大學稱,PaLM-E 是迄今為止人類開發的最大規模視覺語言模型(Vision-Language Model,VLM),可以在不需要再訓練的情況下執行各種任務。通過 PaLM-540B 語言模型與 ViT-22B 視 覺Transforme
62、r 模型相結合,PaLM-E 最終的參數量高達 5620 億。PaLM-E 的創新之處在于:的創新之處在于:PaLM-E 首首次把具身信息(包括自然語言、視頻、次把具身信息(包括自然語言、視頻、傳感器傳感器狀態等狀態等非文字信息)非文字信息非文字信息)非文字信息 token 化,統一輸入到模型之中化,統一輸入到模型之中。請仔細閱讀本報告末頁聲明 Page 19/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 27:Palm-E是一個多模態語言具身模型 資料來源:PaLM-E:An Embodied Multimodal Language Model,五礦證
63、券研究所 PaLM-E 展示了 long-horizon 場景1下的能力。當研究人員要求機器人“把抽屜里的薯片拿過來”,PaLM-E 可以為一個有“手臂”的移動機器人平臺生成行動計劃,并自行執行任務。圖表 28:搭載 Google PaLM-E模型的機器人從抽屜里拿出薯片 資料來源:PaLM-E:An Embodied Multimodal Language Model,五礦證券研究所 PaLM-E 和微軟使用大模型充當的是機器人的“大腦”,而沒有介入“小腦”也就是底層的控制算法。微軟、PaLM-E 模型最后輸出的都是文字,并通過文字調用 API來實現最終的控制。最底層的控制算法依然是傳統的控
64、制方法。目前主流的足式機器人控制方法是雙層結構。最常見的方案是基于模型預測控制(Model Predictive Control,MPC)的上層軌跡規劃和基于動力學模型的下層全身關節力控(Whole-Body Control,WBC)。這種方法的典型代表是 MIT 的 mini cheetah。但 MPC+WBC 的方法需要復雜的建模和繁瑣的人工調參,生成的動作在自然度和靈活性上也有所欠缺。也有一些研究使用了強化學習(Reinforcement Learning,RL)的方法,好處是沒有模型的限制,對復雜環境適應力更強。為了滿足強化學習所需要的龐大數據,一般會把機器人放在仿真環境訓練,之后再遷
65、移到真實世界的機器人。由于仿真環境無法 100%模擬真實世界,因此會有 sim-to-real gap 的問題。1 Long-horizon 場景:指需要結合環境進行多次預測以完成任務的復雜場景 請仔細閱讀本報告末頁聲明 Page 20/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 2023 年 7 月,Google 發布 RT-2 模型。RT-2 是一個視覺-語言-動作(VLA)模型。RT-2 通過海量的互聯網數據對視覺語言模型進行預訓練,然后再用少量的機器人的數據進行微調,并使模型直接可以輸出機器人的動作。RT-2 的參數量高達 55B(RT-1 只有 3
66、5M)。圖表 31:RT-2 在大模型的基礎上用機器人數據微調,然后輸出機器人動作 資料來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,五礦證券研究所 研究人員對 RT-2 模型進行了和 RT-1 一樣的測試。結果顯示,RT-2 的理解能力、推理能力、針對未知場景的泛化能力都顯著優于 RT-1 模型。圖表 29:機器人控制算法一般是雙層結構 圖表 30:使用強化學習做機器人運動控制 資料來源:小米技術,五礦證券研究所 資料來源:姚期智:機器人邁向具身通用人工智能,五礦證券研究所 請仔
67、細閱讀本報告末頁聲明 Page 21/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 32:RT-2 模型在理解、推理方面的能力要顯著優于 RT-1 模型 資料來源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,五礦證券研究所 RT-2 在未見過的場景下,表現明顯要比 RT-1 好,說明 RT-2 擁有更好的泛化性。圖表 33:RT-2 模型在未知場景的表現明顯優于 RT-1 模型 資料來源:RT-2:Vision-Language-Action M
68、odels Transfer Web Knowledge to Robotic Control,五礦證券研究所 圖表 34:google 在機器人大模型領域研究進展 資料來源:google,五礦證券研究所 特斯拉將特斯拉將 FSD 技術復用到人形機器人,率先開啟產業化技術復用到人形機器人,率先開啟產業化。馬斯克表示特斯拉已經打通了 FSD和 optimus 的底層模塊,實現了一定程度的算法復用。Optimus 的神經網絡是端到端的:輸入視頻,輸出動作。2022.8 Saycan使LLM的輸出內容更合理2022.12 RT-135M參數端到端模型,用真實世界數據訓練機器人使其具有泛化性2023.
69、3 Palm-E562B參數采用海量互聯網數據增強機器人泛化性2023.7 RT-255B參數 VLA模型,直接輸出機器人的動作 請仔細閱讀本報告末頁聲明 Page 22/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 盡管當下時點來看,人形機器人的能力仍有不足,但已經顯示出了非??斓倪M化速度,這背后是 2023 年以來人工智能技術的突飛猛進。還是以特斯拉為例,2022 年 4 月,optimus 邁出了第一步,還只能笨拙的蹣跚;而 2023 年 9 月的最新視頻,optimus 可以做到:1)基于純視覺和編碼器定位四肢;2)根據顏色分類物塊;3)較為流暢的行走
70、并做一些簡單的瑜伽動作。2023 年 12 月,特斯拉再次發布 optimus-gen2 視頻,機器人的行動流暢度大幅度提升,搭配手部的觸覺傳感器可以用雙指拿起雞蛋。人形機器人的落地需要具體場景人形機器人的落地需要具體場景 機器人引入大模型后擁有了“常識”,并帶來了一定的泛化能力,解決了自然語言理解和任務規劃的兩大難題。但這種解決方案仍然有很多不足:數據。機器人數據的可得行是最大的限制。OpenAI在2021年解散了旗下的機器人團隊,核心原因就是難以獲取數據。由于互聯網的發達,我們有豐富的文字、圖像信息可供大模型訓練,但可用于機器人訓練的數據十分寶貴。Google 用于訓練 RT-1 和 RT
71、-2 的機器人數據是歷時超過 17 個月在 13 個機器人上收集而來,成本高昂。雖然模型數據量的增加可以顯著提升模型的泛用性和效果,但這樣的數據采集效率明顯無法支撐大模型的需求。針對這一問題的解決思路主要有:1)通過仿真軟件模擬真實環境,從而獲得數據。但是仿真軟件畢竟無法完全模仿現實世界,在仿真世界訓練的算法平移到現實世界后,模型效果會出現下降;2)采用類似 RT-2 的方法,基于互聯網的文字、圖片數據訓練獲得通識,然后再基于少量的機器人數據做微調。圖表 35:特斯拉 optimus 在 2022 年4 月邁出第一步 圖表 36:2023 年 9 月特斯拉發布的視頻中optimus 進行瑜伽和
72、物品分揀 資料來源:特斯拉 AI day 2022,五礦證券研究所 資料來源:特斯拉,五礦證券研究所 圖表 37:2023 年 12 月optimus-gen2 可以完成深蹲動作 圖表 38:2023 年 12 月optimus-gen2 搭配觸覺傳感器拿起雞蛋 資料來源:特斯拉 AI day 2022,五礦證券研究所 資料來源:特斯拉,五礦證券研究所 請仔細閱讀本報告末頁聲明 Page 23/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 場景?,F階段大多數論文都局限于桌面操作。雖然桌面上有很多難題,但當機器人移動時,情況通常會變得更加復雜 安全性。大模型內部
73、是一個黑箱,無法保證安全性,但機器人要在真實環境運行,可能造成的潛在傷害更大。模型過大,訓練成本過高。成功率。真實世界的應用場景中,一般需要 99%以上的準確性和可靠性。然而目前學術文章中大多數結果的最高成功率在 80%左右。而要進一步提升成功率,難度會指數級增加。長尾問題。訓練數據很難覆蓋所有可能性,這也導致模型可能會在一些極端情況下失效。盡管模型在泛用性上取得了一定的進展,但依然無法完美解決所有情況。邊緣側算力不足。通用人形機器人在控制周期需要達到 500Hz 的水平,而目前谷歌研發的 RT-2 模型在機器人控制周期上只能達到 3Hz 人形機器人的商業化離不開具體的場景。人形機器人的商業化
74、離不開具體的場景?;诖竽P驮诋斍皶r點的不足,我們認為想要制作出像真正人類一樣,可以勝任多場景下復雜任務的機器人,是非常遙遠的。但是,基于特定場景下的、具有一定程度泛用性的人形機器人則有很大概率落地。1)人體具有 200 多個自由度來適應真實世界的各種環境。受限于技術,現階段人形機器人最多也就幾十個自由度,我們需要根據具體的使用場景簡化機器人的設計、控制復雜度,降低對機器人泛用性的要求,使人形機器人更快落地。2)盡管人形機器人具有一定的“常識”,但不能“無所不知”。所謂隔行如隔山,經濟活動的復雜性要求機器人在一定“常識”的基礎上具備具體場景下的專業知識。而專業知識需要基于具體的場景。3)人形機
75、器人在具體場景下的應用,可以提供寶貴的機器人數據用于迭代,使人形機器人的發展進入正向循環,是必經之路?;趫鼍暗娜诵螜C器人商業化基于場景的人形機器人商業化思路思路得到政策認可。得到政策認可。工信部在 人形機器人創新發展指導意見中,明確提出把特種環境、制造業、民生作為人形機器人落地的三個重點方向。特種環境,主要是指惡劣條件、危險場景,包括要地警戒守衛、民爆、救援等。這些場景對人形機器人復雜地形行走的魯棒性、態勢感、決策能力、高精度操作能力提出挑戰。制造業典型場景,主要是面向 3C 和汽車領域,包括裝配、檢測、轉運、維護等工序,支撐制造業的柔性制造需求。民生領域,以醫療、家政、農業、物流為重點,重
76、點在于提升人形機器人的交互可靠性和安全性。圖表 39:人形機器人潛在落地場景 資料來源:人形機器人創新發展指導意見,五礦證券研究所 特種環境要地警戒守衛民爆救援制造業3C/汽車裝配、轉運、檢測、維護柔性制造民生醫療家政農業物流 請仔細閱讀本報告末頁聲明 Page 24/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 企業主動明確應用場景,對接企業主動明確應用場景,對接下游下游需求。需求。小米為機器人規劃的發展路徑是從單點到多點,最終發展成為生態。短期小米的人形機器人扎根某一個具體場景,以完成 1-2 個工種為目標。中期人形機器人將融入小米制造的多個場景規?;瘧?/p>
77、。這個過程小米會搭建泛化平臺,積累數據、迭代模型。長期小米的人形機器人將會擴展更多場景。圖表 40:小米科技人形機器人的1+N+X 戰略 資料來源:小米集團,五礦證券研究所 優必選在官網址列舉了人形機器人 walker 的 6 大應用場景:展館展廳、影視綜藝、科研高校、家庭服務、倉儲物流、辦公場景。圖表 41:優必選walker 機器人的六大應用場景 資料來源:優必選,五礦證券研究所 2023 年 10 月,亞馬遜宣布已在旗下物流倉庫中試用 Digit。Digit 高約 1.75 米,體重約為 65公斤,它具備雙臂和雙腿,能夠從下蹲,能夠拾取和搬運重達 16 公斤的物體。Digit 具備自主導
78、航和感知能力,可以在繁忙的倉庫環境中與人類員工協同工作。Digit 機器人的引入,則進一步提升了亞馬遜的物流和倉儲操作的效率。亞馬遜表示,Digit 的身形非常適合在倉庫移動。2023 年 12 月,Digit 機器人搭載了 LLM。研究人員使用自然語言給 Digit 發出命令之后,Digit 可以自主思考,拆解任務并完成。請仔細閱讀本報告末頁聲明 Page 25/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 未來推演:未來推演:自動駕駛發展歷程給人形機器人的啟示自動駕駛發展歷程給人形機器人的啟示 自動駕駛汽車和人形機器人作為具身智能的兩大形式,在很多地方都有
79、相通之處。何小鵬認為,自動駕駛本質上是機器人科學,智能汽車公司最終也會和機器人公司在技術、產品、生態等等方面融合。參考自動駕駛的發展歷程,我們認為人形機器人的發展也會有 3 個趨勢:1)結合具體的落地場景可以簡化機器人結構,規避技術難題,加快人形機器人落地;2)隨著人形機器人對大數據、大模型的要求越來越高,數據閉環能力越來越關鍵;3)當前階段區分規劃算法、控制算法的多模塊的方案將會更容易落地,但連接 LLM 和控制算法的 Prompt 是當前的瓶頸所在。端到端的方案規避了這一難題,但對數據量的需求巨大,需要大規模的機器人本體支撐。自動駕駛在港口、礦山已經取得進展自動駕駛在港口、礦山已經取得進展
80、 自動駕駛的發展,也是從特定場景開始落地。在礦山、港口等特定場景,自動駕駛已經取得了亮眼的進展。礦山礦山自動自動駕駛駕駛 礦山環境不存在交通法規問題,且車輛路線相對固定,車速大多在 40km/h 以下,非常適合開展自動駕駛。此外,礦區生產運輸車輛大、盲區多,夜晚作業疲勞駕駛,如何杜絕安全事故一直是生產企業關注的重點。中國礦區無人駕駛源于上世紀 90 年代,2014 年伴隨著無人駕駛發展才逐漸成熟。礦山無人駕駛車輛落地過程一般分為三個階段:工程師跟車作業階段、安全員隨車階段及無安全員運行階段。踏歌智行在 2018 年完成了無人駕駛礦卡和寬體車的應用,開始落地“安全員下車”。2022 年,踏歌智行
81、在國家能源、國家電投旗下煤礦,以及鄂爾多斯永順煤礦等礦區先后實現了 24 小時無安全員常態化無人運輸作業。礦山自動駕駛成了 L4 級別自動駕駛商業化落地的難得亮點。圖表 42:digit 機器人在工廠搬運 圖表 43:digit 機器人收到命令后的思考過程 資料來源:X科技館,五礦證券研究所 資料來源:機器之能,礦證券研究所 請仔細閱讀本報告末頁聲明 Page 26/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 44:踏歌智行的國家能源勝利一號露天煤礦項目 資料來源:踏歌智行,五礦證券研究所 目前從事礦山無人駕駛業務的主要企業包括踏歌智行、慧拓智能、易控
82、智駕、伯鐳科技等。據工信部賽迪顧問數據統計,截至 2022 年 6 月,踏歌智行在礦區無人駕駛領域市占率為45.1%,位居行業首位。GlobalData 公布的 2023 年第一季度全球礦業新銳公司排名中,踏歌智行位列中國第一、全球第六,也是榜單中唯一的礦區無人駕駛科創公司。港口自動駕駛港口自動駕駛 港口自動駕駛因為半封閉及標準化程度高等特點而被視為最有潛力落地自動駕駛的場景之一。中國港口自動駕駛自 2020 年開始在政策推動下加速,發展至今呈現“百家爭鳴、百花齊放”的發展態勢。截至 2023 年 3 月底,全國各港口和內陸口岸開展自動駕駛測試或運營的場景已近 40 家,其中,無人駕駛集卡已超
83、過 250 臺,平板式自動導引車近 320 臺。港口自動駕駛的代表項目是華為參與的天津港第二集裝箱碼頭。華為從 2020 年開始參與天津港第二集裝箱碼頭的設計規劃實施和運營,目前已經實現了港口 L4 級別自動駕駛。通過云端的統一調度,76 輛 IGV(Intelligent Guided Vehicle,智能導引車)高效協同作業實現全局效率最優。通過北斗+5G+高精地圖的方案,結合路側輔助感知,使岸橋一次對位成功率達到 90%以上。經過數百萬公里的行駛,華為方案的故障接管率小于 0.1%。圖表 45:踏歌智行基于車、地、云協同的“曠谷”解決方案 圖表 46:踏歌智行的車載硬件方案 資料來源:踏
84、歌智行,五礦證券研究所 資料來源:踏歌智行,五礦證券研究所 請仔細閱讀本報告末頁聲明 Page 27/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 47:華為在天津港實現 L4級自動駕駛 資料來源:華為,五礦證券研究所 類比自動駕駛,我們認為人形機器人的落地場景需要有以下特點:1)強需求,在惡劣環境條件下的作業、高危作業、重復性高強度作業對人形機器人有較高的需求;2)場景適度復雜,簡單空曠場景工業機器人可以勝任,過于復雜多變的環境則對技術的挑戰太大。綜合以上兩點,我們認為在民爆、救援、制造業生產(裝配)、物流(分揀)等行業,人形機器人有望率先落地。大數據
85、大數據+大模型驅動的方案成為趨勢大模型驅動的方案成為趨勢 自動駕駛的發展可分為三個階段:1.0 時代的特點是硬件驅動。自動駕駛車輛的感知主要依靠昂貴的激光雷達,認知依靠人工規則。由于激光雷達成本高昂,這個時代的數據收集量也比較少,一般在百萬公里。Google在 2012 年曾指出其無人駕駛車成本約 15 萬美元。2.0 時代的特點是軟件驅動。感知層面,攝像頭、激光雷達等傳感器的識別結果輸出后進行結果融合。認知層面,主要依靠人工規則和深度學習算法。隨著數據的增加,2.0 時代對中央計算平臺的算力需求明顯增加。3.0 時代的特點是大模型+大數據驅動。當前我們正邁入 3.0 時代。感知層面,視覺、雷
86、達多傳感器聯合輸出感知結果,認知層面依靠大模型基于可解釋的場景化駕駛常識進行規劃。請仔細閱讀本報告末頁聲明 Page 28/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 圖表 48:自動駕駛進入3.0 時代 資料來源:毫末智行,五礦證券研究所 數據閉環數據閉環能力是能力是自動駕駛自動駕駛 3.0 時代的核心競爭力時代的核心競爭力,也會成為人形機器人企業的核心競爭力,也會成為人形機器人企業的核心競爭力。生產出來一個可以行走的人形機器人不難,難的是如何讓人形機器人可以適應各種各樣的場景,代替我們進行工作。這背后考驗的是人形機器人企業的 AI能力,其中數據是關鍵生產
87、要素,數據閉環能力是核心競爭力。數據閉環全流程包括數據的采集、傳輸、存儲、處理、清洗、標注、仿真、訓練、驗證、部署。數據采集、數據標注、仿真是數據閉環的關鍵環節。圖表 49:自動駕駛的數據閉環 資料來源:億歐,五礦證券研究所 數據采集:不管是自動駕駛汽車還是機器人,工作的時候傳感器也在不間斷的收集數據,這些數據會成為模型迭代學習的基礎。因此我們認為這兩個行業都會有比較明顯的先發優勢。數據標注:自動標注可以大幅降低成本、提升銷量,是企業的必由之路。理想汽車的創始人李想曾表示:“過去我們一年要做大概 1000 萬幀的自動駕駛圖像的人工標定,所以我們請了很多外包公司進行標定,大概 6 元到 8 元錢
88、一張,一年的成本接近一個億,這僅僅是來做自動駕駛方面的圖片標定。但是當我們使用軟件 2.0 的大模型,通過訓練的方式進行自動化標定,結果和效果會非??膳?,過去需要用一年做的事情,基本上 3個小時就能完成,效率是人的 1000 倍,這個領域的工作完全不一樣了?!闭堊屑氶喿x本報告末頁聲明 Page 29/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 數據仿真:傳統解決 corner case(極端場景)的方式主要是加大數據規模,這種方式成本高、效率低。近年來,人們發現可以采用 NeRF 技術做場景重建,人為合成數據作為真實數據的補充?;?NeRF 技術,英偉達已
89、經開發了用于自動駕駛的仿真 框架EmerNeRF。圖表 50:使用英偉達 EmerNeRF 進行仿真 資料來源:電子發燒友,五礦證券研究所 端到端端到端的大模型的大模型或是終極方案或是終極方案 近年來,基于端到端的自動駕駛方案熱度漸起。全球頂級計算機視覺會議 CVPR 把 2023 年的最佳論文獎頒給了Planning-oriented Autonomous Driving。這是一篇以路徑規劃為導向的自動駕駛論文,其獲獎的關鍵在于提出了一個感知決策一體化的端到端自動駕駛通用大模型 UniAD。圖表 51:關于自動駕駛端到端方案的論文數量明顯增加 資料來源:Advancements in End
90、-to-End Autonomous Driving using Deep Learning:A Survey,五礦證券研究所 傳統自動駕駛方案采用多模塊部署的體系構建,從傳感器收集來的數據,要經過感知、預測、規劃等子模塊,最后由汽車執行。傳統模式下下,每一個子模型都有一個特定的目標任務,所以這種體系的可解釋性、可調試性有很明顯的優勢。但是這些子模塊都是單獨開發并最后集成在一起,每個子系統的誤差最后可能會被疊加放大。而端到端的體系架構直接輸出動作,請仔細閱讀本報告末頁聲明 Page 30/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 就避免了累積誤差的問題。另
91、外,端到端模型所有計算都是圍繞最后的決策展開,不同模塊的主干可以共享,大大降低了計算工作量。圖表 52:端到端方案與傳統方案的對比 資料來源:Advancements in End-to-End Autonomous Driving using Deep Learning:A Survey,五礦證券研究所 特斯拉特斯拉 FSD V12 將是有史以來第一個端到端將是有史以來第一個端到端 AI 自動駕駛系統。自動駕駛系統。馬斯克聲稱:在 FSD V12中,特斯拉沒有程序員寫一行代碼來識別道路、行人等概念,全部交給了神經網絡自己思考。FSD V12 的 C+代碼只有 2000 行,而 V11 有 3
92、0 萬行。在 FSD V12 之前的版本是多模塊體系的傳統方案。其中感知算法采用占用網絡(occupancy network)+車道線和物體算法(lane&object)的組合,規劃算法主要采用 interaction search。我們認為人形機器人的復雜度超過自動駕駛,同時對空間體積的要求比自動駕駛更高,因此端到端方案共享不同模塊主干、降低算力需求的優勢非常重要。當前階段區分規劃算法、控制算法的多模塊的方案將會更容易落地,但連接 LLM 和控制算法的 Prompt 是當前的瓶頸所在。端到端的方案規避了這一問題,但對數據量的需求巨大,需要大規模的機器人本體采集圖表 53:特斯拉基于占用網絡的
93、感知 圖表 54:特斯拉基于車道線和物體算法(lane&object)的感知 資料來源:特斯拉 AI day 2022,五礦證券研究所 資料來源:特斯拉 AI day 2022,五礦證券研究所 請仔細閱讀本報告末頁聲明 Page 31/33 Table_Page 機械設備機械設備 2023 年 12 月 19 日 數據做支撐。風險提示風險提示 1.人工智能技術仍在快速發展階段,軟硬件都在持續迭代中,行業發展存在較大技術風險。2.人形機器人作為新興產業,產業鏈尚不成熟,可能阻礙產品的商業化落地。請仔細閱讀本報告末頁聲明 Page 32/33 Table_Page1 2023 年 12 月 19
94、日 分析師聲明分析師聲明 作者在中國證券業協會登記為證券投資咨詢(分析師),以勤勉的職業態度,獨立、客觀地出具本報告。作者保證:(i)本報告所采用的數據均來自合規渠道;(ii)本報告分析邏輯基于作者的職業理解,并清晰準確地反映了作者的研究觀點;(iii)本報告結論不受任何第三方的授意或影響;(iv)不存在任何利益沖突;(v)英文版翻譯若與中文版有所歧義,以中文版報告為準;特此聲明。投資評級說明投資評級說明 投資建議的評級標準投資建議的評級標準 報告中投資建議所涉及的評級分為股票評級和行業評級(另有說明的除外)。評級標準為報告發布日后 6 到 12 個月內的相對市場表現,也即:以報告發布日后的6
95、到12個月內的公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。其中:A 股市場以滬深300指數為基準;香港市場以恒生指數為基準;美國市場以納斯達克綜合指數或標普 500 指數為基準。評級評級 說明說明 股票評級 買入 預期個股相對同期相關證券市場代表性指數的回報在 20%及以上;增持 預期個股相對同期相關證券市場代表性指數的回報介于 5%20%之間;持有 預期個股相對同期相關證券市場代表性指數的回報介于-10%5%之間;賣出 預期個股相對同期相關證券市場代表性指數的回報在-10%及以下;無評級 預期對于個股未來 6 個月市場表現與基準指數相比無明確觀點。行業評級 看好 預
96、期行業整體回報高于基準指數整體水平 10%以上;中性 預期行業整體回報介于基準指數整體水平-10%10%之間;看淡 預期行業整體回報低于基準指數整體水平-10%以下。一般聲明一般聲明 五礦證券有限公司(以下簡稱“本公司”)具有中國證監會批復的證券投資咨詢業務資格。本公司不會因接收人收到本報告即視其為客戶,本報告僅在相關法律許可的情況下發放,并僅為提供信息而發放,概不構成任何廣告。本報告的版權僅為本公司所有,未經本公司書面許可,任何機構和個人不得以任何形式對本研究報告的任何部分以任何方式制作任何形式的翻版、復制或再次分發給任何其他人。如引用須聯絡五礦證券研究所獲得許可后,再注明出處為五礦證券研究
97、所,且不得對本報告進行有悖原意的刪節和修改。在刊載或者轉發本證券研究報告或者摘要的同時,也應注明本報告的發布人和發布日期及提示使用證券研究報告的風險。若未經授權刊載或者轉發本報告的,本公司將保留向其追究法律責任的權利。若本公司以外的其他機構(以下簡稱“該機構”)發送本報告,則由該機構獨自為此發送行為負責。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入或將產生波動;在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告;本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,
98、投資者應當自行關注相應的更新或修改。本報告的作者是基于獨立、客觀、公正和審慎的原則制作本研究報告。本報告的信息均來源于公開資料,本公司對這些信息的準確性和完整性不作任何保證,也不保證所包含信息和建議不發生任何變更。本公司已力求報告內容的客觀、公正,但文中的觀點、結論和建議僅供參考,不包含作者對證券價格漲跌或市場走勢的確定性判斷。在任何情況下,報告中的信息或意見不構成對任何人的投資建議,投資者據此做出的任何投資決策與本公司和作者無關。在任何情況下,本公司、本公司員工或者關聯機構不承諾投資者一定獲利,不與投資者分享投資收益,也不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。本公司及作
99、者在自身所知情范圍內,與本報告中所評價或推薦的證券不存在法律法規要求披露或采取限制、靜默措施的利益沖突。五礦證券版權所有。保留一切權利。特別聲明特別聲明 在法律許可的情況下,五礦證券可能會持有本報告中提及公司所發行的證券并進行交易,也可能為這些公司提供或爭取提供投資銀行、財務顧問和金融產品等各種金融服務。因此,投資者應當考慮到五礦證券及/或其相關人員可能存在影響本報告觀點客觀性的潛在利益沖突,投資者請勿將本報告視為投資或其他決定的唯一參考依據。聯系我們聯系我們 上海上海 深圳深圳 北京北京 地址:上海市浦東新區東方路 69 號裕景國際商務廣場 A 座 2208室 地址:深圳市南山區濱海大道3165號五礦金融大廈 23 層 地址:北京市海淀區首體南路 9 號4 樓603 室 郵編:200120 郵編:518035 郵編:100037