《中國信通院:具身智能發展報告(2024年)(54頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院:具身智能發展報告(2024年)(54頁).pdf(54頁珍藏版)》請在三個皮匠報告上搜索。
1、中國信息通信研究院北京人形機器人創新中心有限公司2024年8月具身智能發展報告具身智能發展報告(2022024 4 年年)No.202405版權聲明版權聲明本報告版權屬于中國信息通信研究院和北京人形機器人創新中心有限公司,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明“來源:中國信息通信研究院和北京人形機器人創新中心有限公司”。違反上述聲明者,編者將追究其相關法律責任。本報告版權屬于中國信息通信研究院和北京人形機器人創新中心有限公司,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明“來源:中國信息通信研究院和北京人形機器人創新中心有限公司”。違反上
2、述聲明者,編者將追究其相關法律責任。前言前言具身智能是人工智能(AI)與其他學科交叉融合發展的新范式,從字面可理解為“具身+智能”,通過給 AI 賦予“身體”,使其能夠與物理世界產生交互,并在交互中主動探索世界、認識世界、改變世界。隨著數字世界的 AI 算法開始展現出逼近甚至超越人類的思維能力,具身智能有望打開 AI 從數字世界到物理世界的窗口,在復雜的物理世界中進一步延伸和拓展 AI 邊界,實現“知行合一”。具身智能將在技術涌現式創新和突破下,實現“一腦多形”,即讓一個智能系統適配各種形態的物理實體,如智能機器人、智能車輛等;實現“一機多用”,即讓一個機器設備可以靈活地執行多種任務,適應多樣
3、化的場景需求。未來具身智能將從工業協作生產到柔性制造,從家務助手到醫療護理,從災難救援到太空探索,深入融入人類社會。但當前其仍面臨技術能力不足,數據短缺,以及工程實現復雜等一系列挑戰。本報告從 AI 視角切入,致力于厘清具身智能的概念內涵、演進歷程、技術體系,通過梳理當前具身智能技術發展現狀,研判分析具身智能應用潛力與可能影響,提出面臨的問題挑戰,展望思維智能和行動智能融合的未來發展趨勢。由于具身智能發展日新月異,限于編寫時間、編寫組知識積累水平有限等因素,報告中存在不足之處,敬請大家批評指正。目錄目錄一、全球具身智能發展態勢.1(一)具身智能的概念與內涵.2(二)具身智能發展歷程.7(三)全
4、球具身智能提速發展.14二、具身智能技術突破,重塑智能邊界.15(一)感知模塊賦予機器感官,實現多模態感知泛化.17(二)決策模塊提升機器腦力,實現人類思維模擬.19(三)行動模塊提升機器自主行動能力,實現精細動作執行.21(四)反饋模塊拓展機器交互通道,實現自主學習演進.23(五)支撐要素本體、數據和軟硬件底座共同構成具身智能發展基礎.25(六)安全與隱私保障確保具身智能執行安全可信.29三、具身智能在各領域的應用前景.29(一)工業制造領域:打破人機協作瓶頸,實現智能化柔性適配.30(二)自動駕駛領域:適應開放交通環境,實現安全可靠智能駕駛.31(三)物流運輸領域:優化倉儲物流產線,實現高
5、效貨物運轉.32(四)家庭服務領域:解放人類雙手束縛,實現全場景的智能家務服務.34(五)醫療康養領域:應對老齡化問題,實現擬人化交互服務.35(六)其他領域:從賦能到變革,推動各行各業創新與轉型.36四、具身智能發展所面臨的挑戰.38(一)技術挑戰.38(二)應用挑戰.41(三)標準與合規挑戰.44五、邁向未來,具身智能迎來無限可能.45(一)技術創新發展,推動具身智能持續進化.45(二)產業跨界整合,開辟更廣闊的市場空間.46(三)體系重構加速,引發更深層次社會思考.47圖 目 錄圖 目 錄圖 1國內外專家有關具身智能的觀點.3圖 2具身智能的“三要素”概念內涵示意圖.6圖 3具身智能發展
6、歷程.13圖 4具身智能技術體系.16圖 5具身智能產業鏈示意圖.43具身智能發展報告(2024 年)1一、全球具身智能發展態勢1950 年,圖 靈 在 其 經 典 論 文 Computing Machinery andIntelligence1中探討“機器是否能思考”這一根本問題,認為人工智能的終極形態是像人一樣能與環境交互感知,自主規劃、決策、行動和執行的機器人/仿真人(在虛擬環境中)。而有望實現的兩條路徑,一是聚焦抽象計算(比如下棋)所需的智能,二是為機器配備最好的傳感器,使其可以與人類交流,像嬰兒一樣進行學習。后續,這兩條路徑逐漸演變成了離身智能(Disembodied Artific
7、ialIntelligence2)和具身智能(Embodied Artificial Intelligence,簡稱“EAI”)。當前,依靠海量數據,結合算法和計算能力的提升,以 ChatGPT為代表的離身智能實現智能涌現。自其推出之后,數字世界的 AI技術逐步展現出逼近人類甚至超越人類的思維能力。加利福尼亞大學圣迭戈分校的研究團隊在交互式雙人圖靈測試中發現,人們無法區分 GPT-4 與人類3。但在物理世界中,智能機器人仍然僅是智力有限的任務工具。在此背景下,人們的關注點轉向如何讓 AI 的認知從互聯網的數字信息拓展到現實的物理概念,包括感官、空間、行動等信息,并將其更好地應用于物理世界。實際
8、上,大模型對互聯網上大量圖文信息的處理和學習,本質上是“讀萬卷書”的過程,這1https:/ 年)2可以增強智能體的感知、知識理解和思維能力,但無法取代“行萬里路”所帶來的體驗。就像人類在真實世界中的親身體驗和勞動,無法僅通過閱讀和觀看視頻來替代。具身智能可以賦予 AI 身體,并具備與物理世界的交互學習能力,這是不能通過看圖、看文這些數字信息所能夠彌補、習得的。2023 年,Nature 子刊刊登了由 YoshuaBengio、Yann LeCun 等科學家聯名發表的文章,提出下一代 AI 的終極挑戰是通過具身圖靈測試,即復現生物體的感覺運動能力,包括與世界互動、靈活的行為、高效的能源利用等4
9、。具身智能被譽為邁向通用人工智能的重要一步,引發了新一輪的技術浪潮。(一)具身智能的概念與內涵(一)具身智能的概念與內涵1.具身智能:依靠物理實體通過與環境交互來實現智能增長的智能系統具身智能從字面可理解為“具身化的人工智能”,“具身”是前提,即具有身體且能通過交互、感知、行動等能力來執行任務,具身本體的形態不必限制在外觀上的“人形”,同時身體的形態也不能作為判斷是否屬于“具身智能”的依據。根據使用用途和場景的不同,具身智能可以有多種形態。例如,通用智能機器人,大型的工業設備加上 AI 系統,自動駕駛等多種具象化形態都屬于具身智能?!爸悄堋笔呛诵?,GPT-4o、Sora 等 AI 技術的最新進
10、展,實現了對文本、視覺、語音等多模態信息的理解和轉換。將這些 AI 技術4https:/ 年)3嵌入到物理實體如機器人上,可顯著提升對環境的感知、交互和任務執行能力。先前的智能機器人,更側重于執行特定的任務。而具身智能更強調在環境中交互能力,智能表現在物理實體能以“第一人稱”主動進行感知、理解、推理、規劃到移動和操作等任務。來源:公開信息整理圖 1 國內外專家有關具身智能的觀點具身智能的發展主要來自于兩個領域的交叉融合,一方面機器人的通用智能需要借助人工智能,另一方面人工智能走向物理世界需要一個身體,同時涉及到包括機械工程自動化、嵌入系統控制優化、認知科學、神經科學等多個學科的融合。這也導致了
11、當前對具身智能這一概念的界定,不同專家的說法略有差異,一類觀點強調具身交互對智能的影響。清華大學教授劉華平等在基于形態的具具身智能發展報告(2024 年)4身智能研究:歷史回顧與前沿進展中總結:具身智能在身體與環境相互作用中,通過信息感知與物理操作過程可以連續、動態地產生智能。上海交通大學教授盧策吾曾表示通過智能體與環境的交互能夠產生智能行為和適應性5。另一類觀點關注具身交互對解決實際問題的作用。斯坦福大學教授李飛飛表示具身的含義在于與環境交互以及在環境中做事的整體需求和功能。中國科學院院士姚期智認為通用人工智能(AGI)的未來發展需要具備具身實體,與真實物理世界交互以完成各種任務。但普遍認可
12、:智能不僅體現在處理信息和解決問題的能力上,還體現在對其周圍環境的感知、理解和操作能力上。當前,針對具身智能各家觀點百花齊放,但都明確了“智能”的核心地位。因此,本報告從 AI 的角度切入,認為具身智能是指通過機器人等物理實體與環境交互,能進行環境感知、信息認知、自主決策和采取行動,并能夠從經驗反饋中實現智能增長和行動自適應的智能系統。2.具身智能與人形機器人、智能體等的概念辨析實際上,人工智能領域的快速發展使得大模型、智能體等技術名詞不斷涌現,也導致關于具身智能的概念有許多容易混淆的表述。首先,具身智能不等于“大模型+機器人”,準確來說是人工智能+機器人等物理實體。大模型具備思維推理、計劃決
13、策、語言和視覺5https:/ 年)5理解等能力,這僅能模擬大腦皮層部分功能分區的智力表現。2024年 5 月,斯坦福大學教授李飛飛在時代周刊撰文寫道,“大模型不存在主觀感覺能力,多少億參數都不行”。腦、身體和環境的深度耦合是產生高級認知的基礎。這需要構建新一代人工智能算法,結合了腦神經、運控控制等復雜理論,推動具身智能實現認知涌現。其次,具身智能不等于人形機器人,從載體看具身智能可以是搭載到任意形態的機器人。人形機器人只是具身智能的一種形態,也被廣泛認為是最理想的應用形態。但除此之外,比如能在家庭中行駛并與人簡單交互的寵物機器人、比如 L4 自動駕駛,本質上都同時具備具身和智能兩種屬性。再者
14、,具身智能不等于智能體,兩者各有交叉和側重。智能體(Agent)是指能自主感知環境并在該環境中采取行動以實現特定目標的實體,更強調自主性和目標導向性。智能體既可以是虛擬世界中的計算機程序(軟件智能體),如聊天機器人 ChatGPT、虛擬助手蘋果 Siri 等;也可以存在于物理世界的智能實體,如智能機器人。具身智能則強調智能體的具體形態和環境之間的交互作用,通過行動的物理交互能夠感知和改變環境,通過行動反饋能不斷學習和適應環境。具身智能的主要存在形式是物理世界中的各種物理實體。具身智能發展報告(2024 年)6來源:中國信息通信研究院圖 2 具身智能的“三要素”概念內涵示意圖對具身智能可以用“三
15、個要素”來對其概念內涵進行理解。如圖 2 所示,具身智能同時需要具備“本體+環境+智能”三要素,首先強調要有具身本體,通常是機器人等物理實體,可以有多種形態,如人形機器人、四足機器人、無人車、無人機等。本體具備環境感知、運動和操作執行等能力,是連接數字世界和物理世界的載體,同時本體的能力邊界會限制智能體的能力發揮。其次強調與環境的交互能力,具身智能不僅能感知環境,還能通過行動來影響環境,并在與環境的交互中不斷學習和適應。以“第一人稱”視角去自主感知物理世界,用擬人化的思維路徑去學習,從而做出人類期待的行為反饋。最后強調一個增量,主要是智能的提升,具身智能利用大模型的知識理解和表達能力,賦能多種
16、形態的物理實體實現智能增長。在數據驅動的算法學習下,不斷增強感知、決策以及行動能具身智能發展報告(2024 年)7力,并讓感知與行動更緊密地連接在一起。強調不僅通過算法和計算實現智能,還通過本體與物理世界的交互來展現和發展智能?!罢宫F智能”在于依賴具身本體與環境的交互行為來解決實際問題,例如機器人在通用智能的加持下將本體的行動價值最大化?!鞍l展智能”可理解為在具身本體與環境的交互中實現可持續的智能進化。(二)具身智能發展歷程(二)具身智能發展歷程具身智能與離身智能相互補充、協作發展共同促進了對智能的理解、模擬與擴展,從具身智能與離身智能兩類研究范式在歷史上多次交鋒的角度出發,整體發展歷程如圖
17、3 所示。具身智能從字面上可以拆分為“具身”+“智能”,天然具備“機器人”和“人工智能”兩種屬性,同時鏈接物理和虛擬兩個世界。從人工智能視角看,自 1956 年 AI 概念誕生以來,智能的發展主要由符號主義與連接主義主導,兩種范式從不同的側面模擬人類的大腦,在以互聯網信息處理為代表的領域取得了極大的成功。與符號主義強調“表示”和連接主義強調“計算”的離身智能不同,基于行為主義的“具身智能”更側重關注“交互”,即智能受腦、身體與環境協同影響,并由身體與環境相互作用中,通過信息感知與物理操作過程連續、動態地產生6。從機器人視角看,早期機器人無需與人協同,關注點主要集中在替代人力和工業場景自動化上,
18、以工業機器人的應用為典型代表。當前,機器人與人的交互能力和廣泛6http:/ 年)8的通用性成為發力點,探索機器人的自適應性和智能性成為重點,伴隨著硬件制造和軟件技術等方面的進步,以及產業鏈各環節的相互促進,具身智能將賦予機器人更多的智慧,不斷拓寬機器人的智能邊界和自主行動能力,使其更好地理解世界、自然化人機交互和高效執行任務,引領機器人進入通用智能新代際。結合人工智能的演進歷程,具身智能的發展大致可以分為三個階段,即:早期萌芽階段(1950s-1990s)、技術積累階段(1990s-2022),以及技術突破階段(2022 年至今)。早期萌芽階段(1950s-1990s),在對智能的激烈爭論和
19、分立研究中,形成 AI 三大學派,尚未形成成熟的智能理論。1956 年達特茅斯會議之后的一段時期內,符號主義主導了 AI 早期發展,試圖用邏輯規則、符號、知識工程來模擬人類思維。這一階段的研究集中在邏輯抽象、邏輯運算和邏輯表達等方面,如邏輯理論家、通用問題求解器、專家系統等。連接主義則強調通過神經網絡模擬人類大腦的學習和計算能力,但早期的連接主義模型是簡單的、淺層的網絡,如感知機,難以處理復雜任務。直到 1986 年反向傳播算法讓多層網絡的訓練成為可能,重新激發了研究者們對神經網絡的研究熱情。然而以符號主義和連接主義為代表的計算智能的局限性很快顯現出來。1988 年“莫拉維克悖論”提出人類認為
20、困難的任務對機器來說很容易,而人類容易做到的事情對機器來說卻非常困難??梢酝ㄋ椎乇硎鰹椋阂岆娔X如成人般地下棋是相對容易的,但要讓電具身智能發展報告(2024 年)9腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的。1980 年代,羅德尼布魯克斯(Rodney Brooks)發現傳統的邏輯程序在機器人導航方面顯得非常緩慢和笨拙,開始直接關注通過感知和動作驅動的環境交互來設計智能機器。自此,行為主義 AI 開始發展,主張通過身體與環境的交互來產生智能。該階段“具身”機器人進行早期實驗性嘗試,關注“邏輯規則算法+機器人”實現特定應用功能。1954 年麻省理工學院生產第一臺能夠預先編程控制
21、的機械臂,具備了機器人的雛形。1960s 機器人學誕生。1960 年首臺工業機器人 Unimate 投入使用,在美國通用汽車公司(General Motors)的一條生產線上進行焊接工作。這一時期,開始將以符號主義為基礎的邏輯規則算法與控制論結合,實現移動、對話等功能。例如 1968 年,斯坦福研究院(SRI)人工智能中心研制了世界上第一臺移動機器人 Shakey。1973 年,日本早稻田大學研發了會對話的人形機器人 WABOT-1。1970s 工業機器人開始在制造業領域廣泛應用。1980s 計算機硬件和傳感器等技術取得突破性進展,服務機器人進入人們的視野,例如 1985 年,日本公司 Eps
22、on 推出了第一款家庭機器人“AIBO”。1990 年,麻省理工學院制作一款模仿人頭部的機器人 Kismet,具有聽覺,視覺和本體感受等能力。技術積累階段(1990s-2022),隨著智能理論的完善、底層數學理論的深耕,AI 三大學派從各自突破,逐步走向取長補短的綜合性研究,為具身智能發展奠定理論和算法基礎。一方面,行為主義在具身智能發展報告(2024 年)10反思計算智能的局限中獲得發展。布魯克斯在 1980 年代對計算智能的根本性思考,推動了一系列以“底層智能”(即從簡單的感知反應機制逐漸累積到復雜行為的生成)為基礎的研究,試圖參考生物的結構設計和行為方式模仿生物感官和運動能力。1991
23、年由布魯克斯發表研究論文沒有表征的智能提出智能行為可以直接從自主機器與其環境的簡單物理交互中產生,而這種交互不依賴于預先設定的復雜算法。另一方面,底層數學理論的深耕研究讓 AI 算法逐漸打破桎梏,三大學派在相互補充中協作發展。深度學習、強化學習、形態計算等理論及算法模型快速突破。與具身智能緊密相關的算法理論突破主要有三方面。一是深度強化學習(強化學習+深度學習),2016 年,基于深度強化學習和蒙特卡羅樹搜索的 AlphaGo 擊敗了人類頂尖職業棋手。二是模仿學習(強化學習+監督學習),1999 年提出模仿學習,聚焦讓機器人模仿人類行為的研究,通過讓機器人直接模仿專家行為,可以快速、穩定地使其
24、掌握技能,而不依賴于過多探索。三是形態計算,將物理形態的影響引入對智能體感知、學習、控制的作用分析,探索基于形態計算的行為生成。2004 年 C Paul提出形態計算,聚焦雙足運動形態和控制研究。該階段“具身”機器人快速發展,關注“行為主義”架構的仿生機器人研發和“人工智能+機器人”的智能化水平提升。1990 年,麻省理工學院制作一款模仿人頭部的機器人 Kismet,具有聽覺,視覺和本體感受等能力。1991 年由布魯克斯基于“感知行動”框架,具身智能發展報告(2024 年)11研發六條腿機器人 Genghis,可以自主行走。1999 年,日本索尼公司推出犬型機器人愛寶(AIBO)。2002 年
25、,丹麥 iRobot 公司推出第一款家用掃地機器人 Roomba,獲得當時的市場認可。2010 年代,出現了眾多消費級機器人,例如掃地機器人、智能音響等。同期,無人駕駛技術取得了顯著進展,特斯拉、谷歌等企業推出了自動駕駛汽車,此外無人機在物流、航拍、監測等領域也得到了廣泛應用。在醫療、養老、家政等領域服務機器人逐漸成為標配。此外,在如今機器人行業的發展中,常常能看到生物學的身影,因為仿生能夠幫助機器人更好地適應自然。例如 Boston Dynamics 的“大狗”、會飛的蜻蜓機器人、軟體章魚機器人等。技術突破階段(2022-至今),具身智能時代有望加速來臨。2022以來,以 ChatGPT 為
26、代表大模型的通用知識和智能涌現能力為機器人實現智能感知、自主決策乃至擬人化交互方面帶來巨大潛力。大模型讓具身智能的新進展井噴式涌現,大幅提高機器人的語言交互、環境感知和任務決策等關鍵能力。例如,2023 年提出的 VoxPoser模型利用 ChatGPT 理解任務語言描述并進行任務步驟分解。PaLM-E具身多模態語言模型,將真實世界的連續傳感器模態融入大語言模型(Large Language Models,LLMs)中,構建了文本和其他感知數據之間的語義聯系,實現更全面的環境感知。2024 年,NaviLLM 為導航任務中語言描述、視覺觀察對象以及運動軌跡等不同階段的任務需求設計了統一的指令輸
27、入方案,讓 LLMs 能夠直接生成運動方具身智能發展報告(2024 年)12向、對象位置等行動信息。探索具備通用智能,能夠像人類一樣執行任務的具身機器人成為業界共同目標?!?023 半導體大會”上,英偉達創始人黃仁勛表示 EAI 是能理解、推理、并與物理世界互動的智能系統,是人工智能的下一個浪潮。2024 年,人形機器人集中爆發,其他形態的本體如協作機械臂、移動操作機器人、仿生靈巧手、無人駕駛出租車等也顯現出智能升級趨勢。2024 年 3 月 OpenAI 與人形機器人初創公司 Figure 合作推出了 Figure 01 機器人,能聽、會說、能與人類對話交流并且可以執行多樣化任務。8 月推出
28、的 Figure 02 憑借 GPT-4o的大腦升級和本體的巧妙設計,如配有全方位攝像頭、仿生靈巧手等,在感知、移動和操作能力上取得進一步突破。7 月世界人工智能大會(WAIC2024)上,有超過 25 款人形機器人亮相,同時在該大會上,加持了 Noematrix Brain 窮徹具身大腦的雙臂協作系統展現了疊衣、削黃瓜皮等能力。百度蘿卜快跑無人駕駛出租車進入商業化運營階段,有數據顯示曾單日單車峰值超過 20 單,與出租車司機的平均日單量相當7。7https:/ 年)13來源:中國信息通信研究院圖 3 具身智能發展歷程具身智能發展報告(2024 年)14(三)全球具身智能提速發展(三)全球具身
29、智能提速發展全球主要經濟體均高度重視具身智能發展,不斷提升細分領域關注度。美國緊抓人工智能基礎研究,保持具身智能領域的前沿領先地位。2024 年 4 月,美國高校聯合發布新版“國家機器人路線圖”,旨在重振機器人技術領先地位。日本正在將機器人納入社會并使機器人成為其社會基礎的關鍵部分8。在人口老齡化的背景下持續聚焦機器人應用以升級制造業生產和替代人類服務。2024 年豐田研究所推出軟機器人 Punyo 定位于服務人類日常生活,配備內置傳感器結合柔軟肢體實現全身協同操作。韓國出臺多項政策推動以機器人和自動駕駛為核心的具身智能技術創新。2023 年發布機器人產業發展戰略,擘畫有關行業中長期發展藍圖。
30、在戰略中提出到 2030 年在各領域推廣使用百萬臺的目標。我國加快推進新型工業化,具身智能作為新質生產力的典型代表,成為各省布局產業規劃的關注重點。2024 中關村論壇年會“未來人工智能先鋒論壇”上,北京市海淀區發布了打造全國具身智能創新高地三年行動方案。具身智能有望成為邁向通用人工智能的重要驅動力,巨頭紛紛布局,產業融合加速推進。具身智能將可以充分利用大模型的優勢,在新任務上實現少樣本和零樣本學習,有效推動“具身化”機器人向跨任務學習和多任務遷移發展。2023 年 5 月,英偉達發布多模態具身智能系統 VIMA,能在視覺文本提示的指導下,執行復雜任務、獲取概念和理解邊界。2023年8月谷歌D
31、eepMind推出機器人模型Robotics8東方法學2024 年第 3 期(人形機器人法治???(總第 99 期)具身智能發展報告(2024 年)15Transformer 2(RT-2),是全球第一個控制機器人的視覺-語言-動作大模型(Vision Language Action Models,VLAs),10 月發布 RT-X機器人大模型。2024 年 2 月,英偉達宣布成立通用具身智能體研究實驗室 GEAR,標志著英偉達正式入局具身智能領域的研究,加速人工智能具身化進程。2024 年 4 月,優必選人形機器人 Walker S 通過百度智能云千帆 AppBuilder 平臺接入百度文心
32、大模型進行任務調度應用開發,共同探索 AI 大模型+人形機器人應用。2024 年 4 月份起,北京具身智能機器人創新中心圍繞具身智能基礎模型、具身智能仿真應用以及大規模具身智能數據集等,開展具身智能體母平臺“開物”的研發。特斯拉宣稱將推進 Optimus 人形機器人的進一步應用,預計2025 年 Optimus 正式部署到工廠9。二、具身智能技術突破,重塑智能邊界具身智能技術的發展從前期模塊化的 AI 算法集成,逐漸轉向大模型驅動的統一技術框架,在通用性和泛化性上取得明顯突破。早期實現通過集成多個“小模型”結合人工介入方式,根據場景或用途按需調用模型,來完成相應任務,如視覺層面采用目標檢測算法
33、用于識別物體、控制層面憑借強化學習、模仿學習和形態計算等傳統機器人學習技術,讓機器人能夠在沒有人為干預情況下做出最優行動決策。這一階段的技術發展主要是為了滿足日益增長的機器人應用需求,試圖為機器人賦予智能化元素,使其不再局限于固定的自動化機械操作。大模型出現后,具身智能逐漸將不同模塊的功能融合到一個統一框架9https:/ 年)16下,利用大模型潛在的知識理解和表達能力,實現了自然的語言交互,無感的多模態信息處理與轉換,甚至可以對語言、視覺、觸覺、聽覺等各種感官信息進行統一處理,并通過融合機器人軌跡數據等運動經驗,可以執行具體行動操作。來源:中國信息通信研究院圖 4 具身智能技術體系具身智能技
34、術體系如圖 4 所示,可分為“感知決策行動反饋”四個模塊,四個模塊形成一個閉環,在與環境的不斷交互中,實現對環境的重構映射、自主決策和自適應行動,并從經驗反饋中不斷學習進化。具身智能的技術尚處于多條路徑探索發展階段,可以類比于自然語言處理領域的“BERT”發展時期。BERT 和 GPT 的出現讓自然語言理解能力有了里程碑式突破,但仍有多條技術路線在并行發展,直到 ChatGPT 的出現。目前具身智能也正在圍繞“感知+決策”、“感知+決策+行動”等并行探索多條有潛力的技術路徑,探索如何打具身智能發展報告(2024 年)17造具備通用智能的具身智能基礎模型。(一)感知模塊(一)感知模塊賦予機器感官
35、,實現多模態感知泛化賦予機器感官,實現多模態感知泛化感知模塊是具身智能的“信息采集和處理器”,建立對外部環境的感知和理解,為可靠的決策和成功完成行動提供支持。感知模塊主要任務包括對象識別、位置定位、場景理解、環境重建和狀態監測等。感知實時性和精度將直接影響決策的可靠性和行動的準確度。例如在倉儲物流場景,對象識別即識別不同的包裝箱、貨架、托盤和環境中的其他設備,當一批新貨物到達倉庫時,可快速完成分揀。場景理解即理解倉庫內物體布局、貨物堆放以及人員活動等情況,用于分析倉庫內的貨物存儲情況、貨架占用率等。環境重建即生成倉庫的三維模型,用于規劃貨物導航方案。位置定位即確定自身和貨物運輸的目標位置。引導
36、機器人從指定位置取貨,并準確送到目標位置。狀態監測即通過機器人運作中不斷接收的傳感數據,監測倉庫內的溫度、濕度、照明、障礙物、設備運行狀態等,幫助及時發現并處理故障問題。感知模塊的具體實現從集成不同的 AI 算法,逐漸轉向使用多模態模型來處理和融合多維傳感數據。感知模塊需要對來自 RGB 攝像機、激光雷達、深度攝像機、重力傳感器等多種外接傳感設備的輸入數據進行處理,進而從不同模態的數據中獲得多維環境信息。由于不同模態的數據存在格式差異性、時間和空間的不一致性以及干擾噪聲等問題,多模態數據的融合以及統一的環境概念表達面臨挑戰。先前,通過組合各個 AI 算法來執行不同的感知任務,實現針對特定場景的
37、環境感知和理解。這一階段,通常在空間有限、場景結構具身智能發展報告(2024 年)18相對固定、且動態變化相對可控的封閉場景下,預先構建目標檢測、姿態估計、3D 重建等 AI 算法模型,組合用于識別環境中的對象,理解場景和環境狀態變化。例如移動機器人在導航時至少需要理解有什么物體和目標位置在哪里。常見解決方案是采用計算機視覺技術如YOLO 負責物體的識別和定位,采用 SLAM 技術生成環境的三維地圖,幫助規劃導航路徑。當前,大模型通過對多模態信息的統一處理與靈活轉換,實現對環境的多模態感知泛化。視覺基礎模型(Vision Foundation Models,VFMs),如 CLIP、MVP、R
38、3M 等,幫助大模型獲取預訓練好的視覺表達,提供視覺輔助信息。EmbCLIP、CLIPort、RoboFlamingo 等均采用這一方法。視覺語言大模型(Vision Language Models,VLMs)支持處理圖像、3D 數據、狀態信息等多模態數據,將現實世界數據轉化為可被 LLMs 理解的表達,彌合了語言符號指令與視覺感知信息間的差距,例如直接根據語言指令中的“蘋果”一詞識別環境中蘋果區域和位置信息等。動態學習作為 VFMs、VLMs 等的學習策略,可以為模型注入時間維度的動態變化信息,提升模型視覺表達的豐富度。Vi-PRoM10在對比預訓練基礎上聯合動態學習,通過捕捉時間上的視覺變
39、化,來理解視覺的語義信息。大模型結合世界模型能夠實現感知預測,模擬環境的動態變化。3D-VLA11在 VLM 之上結合 3D 世界模型的視覺生成能力,能夠想象和預演環境動態變化與行動后果間的關聯。隨著多模態處理能力的演進,具身智能將融合語言與視覺、聽覺、10https:/arxiv.org/pdf/2308.03620.pdf11https:/arxiv.org/abs/2403.09631具身智能發展報告(2024 年)19觸覺等感官信息,更容易實現可變環境的自適應和未見任務的行動泛化。2024 年 1 月 UCLA 提出多模具身智能大模型 MultiPLY 具備包括視覺、聽覺、觸覺在內的多
40、模態感知能力,能夠與 3D 環境全面交互。(二)決策模塊(二)決策模塊提升機器腦力,實現人類思維模擬提升機器腦力,實現人類思維模擬決策模塊是具身智能的“指揮中心”,接受環境感知信息后,完成高級任務規劃和推理分析,并生成逐步決策指令來控制行動。決策模塊的主要任務包括任務規劃和推理分析等??煽康臎Q策依賴于感知模塊對環境的準確理解。尤其在動態變化的環境中,豐富的感知信息能帶來明顯增益。北京大學提出的視覺導航技能 PixelNav 利用多模態大模型提取環境中的視覺語義、物體線索等多視角的感知信息,實現了對任意類別物體的導航任務規劃和策略推理12。精細決策可以增強行動的精準度和可控性。例如,中國人民大學
41、提出了可泛化鉸鏈物體操縱的具身智能框架,其中的決策模塊在基于運動學信息推理操縱步驟后,可進一步生成精確的 3D 操縱關鍵點,解決了復雜鉸鏈物體的底層操縱難題。決策模塊的具體實現從依靠人工知識的編程決策、專用任務的算法設計,轉為以大模型為核心的機器智能決策。決策模塊負責接收來自感知模塊的各種信息,并結合任務目標做進一步處理后,制定具體的行動策略。決策模塊的靈活性和適應性直接影響著具身智能系統的智能化水平。一個高度智能化的具身智能系統,能夠根據環境和任務需求的變化,實時調整決策;能夠不斷獲取感知信息和行動經驗,學習和優化決策;能夠有效協調和控制其他各個模塊,確保決策效率。先前,人工編程決策和強化學
42、習算法設計在環境狀態變化可控的12https:/arxiv.org/abs/2309.10309具身智能發展報告(2024 年)20條件下,能夠完成簡單任務決策。尤其在一些明確、可定義的任務場景中,人工編程決策可以發揮作用。例如人工編寫的 A*算法和Dijkstra 算法,廣泛用于完成簡單的導航和路徑規劃任務。通過預編程的任務腳本用于完成工業產線任務的順序執行決策。但這類完全定制化的算法很難應對動態變化的環境和未知情況。隨著強化學習方法發展,基于近端策略優化算法、Q-learning 算法的強化學習方法在具身智能自主導航、避障和多目標收集等任務中13,可以獲取運動序列樣本進行策略更新,展現更好
43、的決策靈活性。但對復雜環境的適應能力、決策準確度和效率仍然受限。當前,大模型在環境動態變化的條件下,能夠模擬人類思維完成復雜任務決策。大模型在大規模的互聯網數據上進行預訓練后展現出強大的思考和推理能力,能夠像人類一樣做出更加智能和適應性的決策。一是利用 LLMs 的語言理解能力,彌合了自然語言和機器指令間的語義鴻溝。俄亥俄州立大學推出的 LLM-Planner14提出了高級和低級兩層的任務規劃策略,其中高級規劃器利用 LLM 對用戶的任務描述生成自然語言規劃,低級規劃器將子任務轉化為行動指令。LLM+P15利用 GPT-4 能直接將任務規劃轉化為機器能夠理解的規劃領域定義語言(PDDL)描述。
44、二是利用 LLMs 的代碼生成能力,替代人類的復雜編程環節。Code as Policies16利用 LLMs 生成任務策略代碼,調度其他模塊或底層 API 函數。三是 LLMs 結合其他輔助信息,更好地適應實際環境的復雜性和動態變化。Inner Monologue17將視覺13http:/ 年)21的檢測結果整合到 LLMs 的提示詞中進行規劃或重新規劃。PHYSOBJECTS18利用 LLMs 生成初始規劃,并通過查詢日常物體的物理概念(如材料、易碎性),在 VLMs 的幫助下進行下一步決策。3D-VLA19整合了 3D 空間信息,能夠完成 3D 空間推理和交互決策,如把最遠的杯子放在中間
45、的抽屜里。(三)行動模塊(三)行動模塊提升機器自主行動能力,實現精細動作執行提升機器自主行動能力,實現精細動作執行行動模塊是具身智能的“執行單元”,負責接收決策模塊指令,并執行具體動作。行動模塊的主要任務包括導航、物體操作和物體交互。導航任務即通過四處移動,尋找目標位置,例如把客廳里的椅子放到第二個陽臺上20,在物流運輸、車間搬運、家庭清潔、家庭伴隨等場景中都有涉及。物體操作需要接觸物體并通過操作改變物體狀態,如簡單操作扔、推、滑等,復雜操作炒菜、轉筆等。物體交互指通過交互才能完成的操作任務,如拉開抽屜、按按鈕、旋轉閥門等。物體操作和物體交互常見于家務勞動、工業分揀等場景。行動模塊要實現精細的
46、動作控制面臨很大挑戰,具體實現可分為三條主要技術路線。在真實環境中,機器人行動能力受到復雜環境以及環境動態變化的限制。環境中溫度、濕度、摩擦力、障礙物、部件磨損等環境屬性和條件的動態變化,均會導致感知觀測誤差和決策準確性,進而影響任務執行的成功率。當前,僅依賴大模型仍難以很好應對操作對象的變化和復雜的操作要求,需要考慮優化獎勵策略,以及整合環境、運動等多樣化信息。18https:/arxiv.org/abs/2309.0256119https:/ 年)22一是強化學習與主流 Transformer 架構結合,應對泛化性挑戰。強化學習范式一直主導了機器人行動學習技術的研究,讓機器人在與環境的交互
47、中,不斷試錯、學習和優化策略,并依據獎勵策略不斷優化動作執行結果。然而,強化學習方法在面對未知環境時存在泛化差距,難以將學習到的行動經驗遷移到新的、以前未見過的環境中21。最近,一些研究工作利用主流 Transformer 對多模態數據的通用表達和轉換能力,驅動強化學習方法實現多任務泛化。例如 Q-Transformer采用強化學習方法在大規模多樣化的真實世界數據集上訓練Transformer 模型,能夠自動積累經驗,快速適應不同任務。二是大模型作為強化學習的輔助工具,突破強化學習發展瓶頸。一方面,利用 LLMs 設計或塑造深度強化學習的獎勵策略,避免了人工費力設計策略函數的過程。EUREKA
48、 利用 GPT-4 自主設計的獎勵函數在 83%的任務中優于人類專家設計的獎勵。這種獎勵能夠讓具身智能完成很多之前不容易完成的任務,如轉筆、打開抽屜和柜子、拋球接球和盤球、操作剪刀等22。另一方面,大模型的先驗知識和多模態信息提取能力解決了強化學習方法的低樣本效率問題。例如多模態大模型能夠處理語言提示、目標圖像、軌跡規劃策略、3D 熱力圖等各種類型的數據,并將其轉化為監督且能夠靈活地將其納入反饋機制來優化策略。三是視覺語言動作大模型實現了從語言到可執行動作指令的直接轉換。VLAs 是對 LLMs 和 VLMs 的進一步擴展,將互聯網知識、物理世界概念與運動信息融合到統一框架中,能夠直接依據自然
49、語言描述生成可執行的動作指令。Prompt2Walk23將語言與運動信息結合,21https:/arxiv.org/abs/2010.1081422https:/ 年)23使用 LLMs 通過收集的少量運動數據提示直接輸出關節角度。英偉達發布 VIMA24可以通過多模態的輸入提示來學習操作動作。RT-225采用模仿學習的范式將 VLMs 融合機器人運動數據,能夠直接生成可被機器人識別的操作指令。然而,這類解決方案仍面臨較大的成本挑戰。谷歌 RT-1 的數據收集使用了 13 個機器人且耗時 17 個月26。(四)反饋模塊(四)反饋模塊拓展機器交互通道,實現自主學習演進拓展機器交互通道,實現自主學
50、習演進反饋模塊是具身智能的“調節器”,通過多層交互不斷接收來自環境的反饋經驗并進行調整和優化,以提高對環境的適應性和智能化水平。反饋模塊將環境交互的經驗用于優化感知、決策和行動模塊,實現感知增強,策略優化和行動適應。對感知模塊而言,環境交互中能夠持續反饋視覺、觸覺、聽覺等各種感官數據,從而提高對外部環境變化的敏感度,實現更準確且更細致的環境感知。例如配備了攝像頭和觸覺傳感器的機器人,通過不斷接收和處理視覺圖像和觸覺反饋,可以更準確地識別物體的形狀、位置和材質。對決策模塊而言,環境交互中能夠持續反饋行動結果、獲取語言指令等,從而快速識別有效和無效策略,做出更智能的決策。例如在家庭服務中,通過持續
51、收集用戶的生活習慣和偏好等反饋信息,來優化照明、溫控和安防策略,為用戶提供更舒適和智能的居住體驗。對行動模塊而言,接收反饋信息后,會根據決策模塊的指令靈活調整動作,確保在不確定和多變環境中也能高效運轉。例如調整運動軌跡、改變力量輸出或改變動作順序,以應對實時的環境變化和任務需求。反饋模塊主要依賴大模型來加速反饋經驗的學習,形成閉環的優24https:/vimalabs.github.io./25https:/deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/26http
52、s:/ 年)24化過程。一是通過大模型處理收集到的真實交互數據,實現更細致的環境感知。環境交互層面,大模型在與環境交互的過程中,持續收集對象位置、動態和空間關系等細節物理概念信息,并將其轉換為獎勵信號,實現高保真的動態環境模擬。劍橋研究實驗室的 LanGWM27將不同時間段的觀察、語言和行動納入記憶反饋模塊,增強對環境狀態的動態感知。二是通過大模型處理交互信息,實現模仿人類反饋的決策。人機交互層面,LLMs 及 VLMs 大模型允許以更自然的方式將環境屬性、狀態或各種模態的輸入提示信息轉化為特定的行動指令信號,降低了從交互經驗到決策優化間的反饋鏈路復雜性。斯坦福大學最新的具身智能系統 YAY
53、Robot28能夠基于人類語言反饋及時調整策略。例如在“清洗盤子”任務中,通過口頭反饋使清潔力度明顯更強。多機交互層面,大模型在具身智能中主要用于解決單智能體的任務規劃問題。然而,由于大模型知識和特定的具身環境不對齊,大模型產生的規劃往往難以在環境中執行。中國電信李學龍教授團隊提出了一種通過多智能體強化學習的大模型反饋方式,大幅提升群體溝通和環境反饋的效率29。三是大模型獲取交互行動經驗,學習最佳行為策略。當 LLMs 生成行動決策后,可以通過強化學習反饋,根據價值函數對行動進行重新排序,以最大化行動的累計獎勵。谷歌的 SayCan30利用操作完成程度的價值度反饋來不斷優化行動選擇。27htt
54、ps:/arxiv.org/abs/2311.1759328https:/ 年)25(五)支撐要素(五)支撐要素本體、數據和軟硬件底座共同構成具身智能發展基礎本體、數據和軟硬件底座共同構成具身智能發展基礎本體作為具身智能的任務執行機構,負責對環境的主動感知并執行具體動作。本體配有的傳感器和核心零部件等硬件組件,以及自身形態對具身智能的能力發揮有直接影響。短期來看,硬件的基礎能力足以支撐具身智能的研究和落地驗證。在運動層面,電機、絲杠、減速器等執行器不僅能夠支撐機器人的穩定運動,且成本可控,移動機器人和四足機器人的研發費用只需萬元左右。人形機器人“天工”每條胳膊上的 3 個關節、每條腿上的 6
55、個關節里有機組合了電機、減速器、編碼器、控制器四大關鍵零部件,實現了 6 公里/小時的擬人化穩定奔跑。在操作層面,機械臂技術較為完善和成熟,被谷歌、清華、斯坦福大學等機構廣泛用于科研實驗中,也在工業場景里得到了落地驗證。靈巧手的進展相對緩慢,目前更多關注通過增加關節自由度和傳感器配置來提高操作靈活性,在仿生人手結構的精巧度、類似皮膚的柔性感知方面仍有較大挑戰。不同形態的本體適用于不同的環境和任務需求。例如輪式機器人在平坦地面上移動效率高,四足、雙足機器人在不平坦地形上具有更好的適應性,空中無人機適用于高空檢測,多關節機械臂、仿生靈巧手等可以執行更復雜的動作,而人形機器人在手的操作能力和腳的移動
56、能力上具有最高的自由度和最強的通用性,作為更容易被人類接受的本體形態,不僅可以執行復雜的抓取和操作任務,也常用于社交互動、情感陪伴以及交互服務等場景。長期來看,具身智能從落地驗證走向商業化的過程中,需要本體硬件能力具身智能發展報告(2024 年)26的持續提升和應用形態的恰當設計,實現研發成本、執行效率和通用性的平衡。硬件的抗沖擊能力、靈巧手的操作能力、觸覺和力覺傳感器的集成等仍需不斷地提升,例如英國 Shadow Robot 公司推出的Shadow dexterous hand 是目前最成熟的商品化多指靈巧手之一,擁有24 個自由度,配備指端觸覺傳感器,但仍然不能實現與人手相當的自由靈活程度
57、和操作能力。數據對具身智能的能力提升和應用探索至關重要。在能力提升上,高質量的多模態數據驅動具身智能感知、決策及行動控制能力快速提升。上海人工智能實驗室在研究工作 EmbodiedScan 中提出更大、更真實的數據集、更多樣的場景和更詳盡的標注可以顯著提升具身智能的 3D 感知能力。北京大學構建了涵蓋 132 萬條的靈巧機械手抓取數據集 DexGraspNet,在規模、穩定性和多樣性上明顯優于現有數據集。已有算法在該數據集上訓練后能提升抓取成功率,最高可達 10%31。在應用探索上,數據是具身智能快速適應新的環境和任務的關鍵。谷歌聯合全球機構匯集了 22 種不同機器人類型的數據,構建了最全面的
58、具身智能數據集 Open X-Embodiment,并用于訓練通用具身智能大模型 RT-X。RT-X 可以在無需任何訓練數據或極少訓練的情況下,泛化到特定任務上,如倉庫搬運、防爆救險、家庭護理等。北京具身智能機器人創新中心正在組織建設大規模的高質量具身智能數據集,支持機器人實現長行程的任務規劃能力。具身智能數據按采集方式主要分為真實數據和仿真數據兩大類。31https:/arxiv.org/abs/2210.02697具身智能發展報告(2024 年)27短期來看,仿真數據用于解決簡單任務,助力具身智能實現 0 到 1 的突破。尤其針對跑步、跳躍或跳舞等簡單的運動任務,仿真數據已經足夠支撐。仿真
59、數據的優勢在于獲取快、成本低且數據量大。然而,實際研發過程對仿真效率和成本投入的綜合考量,導致現在仿真數據的模擬質量仍然粗糙。例如為保證仿真效率,會簡化和近似處理對環境中的物理屬性和三維場景的建模。同時高逼真的環境模擬也需要高性能的 GPU 顯卡和大量的計算資源支持。長期來看,真實數據對處理復雜任務不可或缺,推動具身智能實現 1 到 N 的深度應用。例如炒菜、裝配等復雜任務涉及復雜操作和動態變化,仿真和現實之間的微小差異都會影響策略的有效性。斯坦福大學家務機器人 MobileALOHA 推椅子的任務成功率有 80%,而炒蝦只有 40%,在執行這類復雜家務活動時,仍需要收集人類操控機械臂的動作數
60、據來模仿相似的動作32。軟件工具驅動具身智能系統的靈活開發和高效測試。數據準確階段,數據采集、生成、處理和分析等全鏈路工具讓復雜的數據工程化任務變得簡單高效。LabVIEW 傳感器編程軟件通過豐富的硬件接口和驅動程序,支持接入各種傳感器進行數據采集。Unity3D、Omniverse、Gazebo 等 3D 仿真引擎可以產生大量的仿真數據,緩解真實數據的獲取難題。技術研發階段,強大的軟件生態系統顯著提升技術研發效率。ROS 和 ROS 2 是目前廣泛使用的機器人操作系統,通過標準化的接口能快速集成各種傳感器、執行器和其他軟件工具,簡化了復雜具身32https:/mobile-aloha.git
61、hub.io/resources/mobile-aloha.pdf具身智能發展報告(2024 年)28智能系統的開發和測試過程。例如在 ROS 2 集成英特爾的 OpenVINO視覺推理工具,可使具身智能系統具備實時人臉識別、目標檢測和人體姿態估計等能力。技術驗證階段,具身智能仿真測試平臺提供了一個安全、高效且低成本的測試環境。英偉達 Isaac Sim 和斯坦福大學的 BEHAVIOR-1K 等仿真測試平臺,能夠真實地模擬多樣化任務活動,創建高保真 3D 環境,準確再現具身智能在真實世界應用時可能遇到的情況。落地部署階段,為了讓物理實體更好地承載 AI 模型的推理和計算,需要并行計算、低比特
62、量化、模型壓縮、3D 空間計算等配套算法支持,優化端側的實時性、多模融合和 3D 空間計算能力。通用計算平臺為具身智能系統的復雜計算和可靠運行提供有力支持。具身智能對計算系統的靈活性、計算效率和可擴展性方面有著嚴苛要求33。在傳感數據處理計算層面,具身智能需要依賴不同硬件模塊同步處理多個傳感數據,才能有效融合各個傳感器的環境感知信息。NVIDIAJetson Nano 計算模組支持來自多個高分辨率傳感器的數據并行計算。在模型決策推理層面,需要高性能的端側計算芯片支持大規模推理計算和實時決策。英偉達 Jetson AGX Orin 模組在邊緣端的計算能力,可與內置 GPU 的服務器相比。在數據流
63、處理層面,需要分布式數據處理滿足不同應用場景下的通信計算需求。英偉達Isaac機器人平臺通過適配 ROS 2 軟件生態,引入數據分布服務(DataDistribution Service,DDS)通信協議,實現低延遲的數據通信計算。33https:/ 年)29(六)安全與隱私保障(六)安全與隱私保障確保具身智能執行安全可信確保具身智能執行安全可信安全和隱私保障能力是具身智能成功應用和推廣的關鍵。具身智能系統在真實世界中執行任務時,需要遵守道德規范、保護用戶隱私不受侵犯、確保用戶的數據安全以及系統可靠運行。在道德規范方面,具身智能系統的設計和應用需要遵循倫理原則,確保其行動不會對人類產生不利影響
64、。在隱私保護方面,真實數據收集的過程中要做好數據脫敏和匿名化處理,并制定清晰透明的隱私政策,讓用戶了解系統如何收集、使用和保護他們的數據。在數據安全方面,應采用數據加密和隱私計算技術,保障數據在存儲、傳輸、使用以及處理過程中的安全性。在系統可靠運行方面,系統部署前可以進行大量的仿真模擬測試,在仿真環境中再現真實世界應用時潛在的安全問題。但很難完整模擬所有情況。以將盤子放入洗碗機這一任務為例,從初始狀態“找到盤子”到實現最終狀態“盤子在洗碗機里”,有無數種狀態變化,很容易存在潛在風險,例如機器人在行動中撞倒障礙物導致任務失敗。系統運行中,可以通過對話、指令輸入等方式進行干預,糾正錯誤決策。清華大
65、學提出人機協同框架 HumanTHOR,該框架使人類可以通過虛擬現實設備在虛擬 3D 環境中與機器人協同工作,解決用戶信任問題。此外,系統迭代時可以利用收集到的真實任務數據進行反饋學習,讓系統對齊真正的任務需求。三、具身智能在各領域的應用前景具身智能通過模擬人類大腦的“智能”和不同形態的機器人“身具身智能發展報告(2024 年)30體”,將在多個領域釋放出巨大的應用潛力,成為邁向通用人工智能的重要一步。相比于傳統基于 AI 視覺及特定場景預訓練的機器人,具身智能具體表現在:一是不再依賴預定義的復雜邏輯來管理場景;二是能形成學習進化機制,持續獲取交互反饋來實現環境自適應;三是能通過身體與環境交互
66、產生新的交互數據,并用于實現智能增長。目前的最新進展僅是基本具備三個表現,尚未出現功能完善的商業化產品。但可以預見的是,隨著技術的不斷突破,具身智能將使得各種物理實體顯現出四個能力增長點,即對環境動態變化的自適應能力、多任務行動的泛化能力、交互方式的擬人化表現和更高的任務執行效率。這些能力增長點有望帶來更高的應用價值和廣闊的市場空間。(一)工業制造領域:打破人機協作瓶頸,實現智能化柔性適配(一)工業制造領域:打破人機協作瓶頸,實現智能化柔性適配工業制造領域具身智能有望成為新型工業化的關鍵核心和有效抓手。具身智能將使得機器人從“能動”到“能干活”轉變,以此來為工業制造業的智能化升級提供強大支持。
67、以機器人和機械臂等為載體的具身智能應用,將使得工業制造過程更加智能化、靈活和高效。微軟正計劃將 ChatGPT 的能力擴展到機器人領域,通過自然語言和ChatGPT 交流,使用 ChatGPT 來控制機械臂、無人機、移動機器人等。阿里巴巴也在將千問大模型接入工業機器人,為機器人提供了推理決策的能力,從而有望讓機器人的靈活性和智能性大幅提升。西安中科光電推出智能焊接機器人,目標是替代焊接工人在工廠自主進行焊接作業。具身智能發展報告(2024 年)31具體來說,具身智能將變革人機協作模式,實現更安全、智能化的柔性制造流程。一方面,具身智能從根本上打破人機交互的語義隔離,以高效的人機溝通方式提高整個
68、協作過程的安全性。人類可以用自身習慣的方式與具身智能工業機器人溝通,如自然語言、肢體語言、動作示范等。機器能夠更及時、更好地理解人類意圖,提前做出適應性的安全控制動作,降低錯誤發生概率。例如,香港理工大學利用LLMs 讓機器人實現更直觀、靈活的人機交互,可以適應工業場景中非結構化的作業環境,如環境的頻繁變化、不同類型的操作任務等。發那科 CRX 系列協作機器人在感知到機器人本體與人類或其他物體輕微接觸時,便會立即停止運動,從而防止傷害的發生。另一方面,具身智能工業機器人將能夠替代人類成為工業生產線上最柔性的執行機構。具身智能將使工業機器人實現智能化的柔性制造,能夠不斷觀察周圍環境,并在執行任務
69、過程中自動更新決策和優化行動,讓工業產線需要的人工干預程度降低。這種生產模式上不僅具備高度適應性,還具有更高的生產效率和制造精度。例如,特斯拉 Optimus 人形機器人在特斯拉電池工廠工作時,能夠提高電池生產效率,降低人為因素對產品質量的影響。(二)自動駕駛領域:適應開放交通環境,實現安全可靠智能駕駛(二)自動駕駛領域:適應開放交通環境,實現安全可靠智能駕駛自動駕駛領域,具身智能有望通過提升開放交通環境適應性實現安全可靠駕駛。自動駕駛汽車不僅要能感知周圍環境,還需要根據感知到的信息做出快速且準確的決策,并通過執行系統來實現車輛的操具身智能發展報告(2024 年)32控。具身智能能夠將這些環節
70、緊密結合,形成一個高效、協同的工作流程。例如,特斯拉的自動輔助駕駛系統 Autopilot 通過車載傳感器和攝像頭收集數據,實現自適應巡航控制、車道保持輔助和自動變道等功能,顯著提高了駕駛的安全性和便捷性。以谷歌 Waymo 自動駕駛技術融合感知、定位、規劃、控制等,能夠在行駛過程中實時識別行人、車輛、交通信號燈等關鍵信息。通過這些信息,系統能夠預測潛在的風險并提前做出規避動作,大大提高了行車的安全性。具體來說,具身智能通過融合感知、決策和執行等功能,將提升自動駕駛系統的整體性能。一是實現對動態環境的全面感知和高度泛化。具身智能自動駕駛系統能夠理解環境中廣泛的物理世界概念,并在與環境的實時互動
71、中,適應不同的光照、天氣等條件。二是實現可靠的智能決策和可控行動,具身智能自動駕駛系統具備高效的多模態信息提取能力,將最大化利用車輛搭載的各種傳感器優勢,綜合考慮各種信息實現合理可靠的駕駛決策和及時的行動控制。三是實現高度智能的自主學習適應。車輛在與環境交互的過程中,不斷收集新的數據和經驗,通過學習和適應,不斷提高在復雜開放交通環境下駕駛性能和智能水平。特斯拉創始人馬斯克宣布將推出無人駕駛出租車Robotaxi,或將引領具身智能自動駕駛的跨越式發展。(三)物流運輸領域:優化倉儲物流產線,實現高效貨物運轉(三)物流運輸領域:優化倉儲物流產線,實現高效貨物運轉物流運輸領域,具身智能有望降低流通成本
72、,成為形成高效、快捷、智能化的物流體系的關鍵因素。當前物流領域包括揀選機器人、具身智能發展報告(2024 年)33叉取機器人、搬運機器人、料箱機器人等。具身智能技術的賦能,可以在倉儲、裝卸、搬運、分揀、包裝、配送等環節提升工作效率和管理水平。物流機器人將更加智能化,具備更強的自主決策和學習能力,能夠適應更復雜、多樣化的任務,不僅局限于傳統的倉儲和物流行業,還將滲透到制造業、農業、醫療、教育等領域,提高各行各業的智能化水平和生產效率。例如,亞馬遜近期在其倉庫運營中,已經在測試由其投資的公司 Agility Robotics 開發的人形雙足機器人 Digit,綜合全面完成主要包括卸載貨車、搬運箱子
73、、管理貨架等任務,大幅提高了倉庫作業的效率。具體來說,具身智能將助力倉儲物流產線的智能化升級,實現安全、高效且可持續的物流運輸作業。一是更好的環境適應性。在具身智能的加持下,物流移動機器人對環境感知、路線規劃和運動導航能力將明顯增強,更好地適應可變環境,識別多點目標,自主調整路徑并能夠及時避障。丹麥 Capra Robotics 公司最新推出的 Hircus 移動機器人平臺,實現厘米級的位置精度定位,并首次能夠同時適用室內室外兩種環境。二是更靈活高效的工作模式。物流移動機器人可以憑借具身智能同時執行多點、多任務甚至多層任務。美國 Brightpicks 公司推出的自動移動機器人(AMR)可以無
74、縫進行商品訂單識別和揀選任務,整個過程無需員工人工推車揀選。三是低成本的連續作業。具身智能移動機器人可以連續 24 小時待機,隨時投入生產,同時憑借其高度的智能化水平,將避免作業過程中的人工監督成本。美國初創公司 Agility Robotics 的 Digit 人形機器人在亞馬遜倉庫打工連續工作具身智能發展報告(2024 年)34長達 7.5 小時,并在任務執行時實現了 100%的自主性,據稱其工作效率已達到人類速度的 75%,任務完成成功率高達 97%。(四)家庭服務領域:解放人類雙手束縛,實現全場景的智能家務服務(四)家庭服務領域:解放人類雙手束縛,實現全場景的智能家務服務家庭服務領域,
75、具身智能通過高級的認知和行動能力實現真正意義的定制化服務。家庭服務機器人的發展已經從基礎的掃地機器人演變到現在可以進行地面清潔、物品搬運和基本家務的多功能機器人。未來,通用具身智能機器人能夠(擬人化)感知、使用傳統工具、在非確定環境下自主執行任務,屬于全場景家庭助手,像汽車一樣走進千家萬戶,成為每個家庭不可或缺的生活伙伴和幫手,如康復、家務類任務等。例如,1X 公司與 OpenAI 公司已經在深度合作,開發一款具身智能類人機器人 EVE,可以實現對人類日常工作環境的認知理解,在與環境交互的過程中學習、糾正、收集數據,完成自主居家、辦公幫手任務。具體來說,具身智能使得家庭服務機器人真正成為人類友
76、好的智能助手,提供智能化、人性化的全場景家庭服務。家庭服務機器人在具身智能的不斷發展下,已經從基礎的掃地機器人演變到可以進行全面清潔、基本家務和餐飲服務多功能機器人。一是模擬人類執行多種家務。2024 年 2 月,美國谷歌和斯坦福聯合推出家務服務機器人MobileALOHA2,通過移動底座在大的空間范圍內實現長距離操作,同時能夠模擬人類雙手進行備菜、翻炒、出鍋,洗衣、逗貓、澆花等。據智元機器人官網介紹看,其推出的智元絕塵 C5,集掃地、洗地、具身智能發展報告(2024 年)35塵推等多種清潔能力于一身,并且能夠在人工最小干預的情況下,在復雜的環境中自主完成充電、加排水、清潔污水箱等任務。202
77、4 年 4月,星塵智能在發布視頻中展示了 Astribot S1 家務服務機器人的能力,能夠執行疊衣服、物品分類、烹飪、吸塵清潔以及疊杯子等家務活動。二是替代人類進行體力勞作。2024 年 4 月,越韁科技發布 X-Trainer具身智能機器人,在演示視頻中自主完成了刷盤子任務,利用視覺語言大模型從帶有紅色食物殘留物的盤子、放在黃色盤子上的海綿,以及后面掛著碟子的金屬架等復雜任務描述中,推理出清洗盤子并收納到金屬架的任務。三是陪伴人類滿足情感需求。日本家庭陪伴機器人LOVOT 主打情感陪伴功能,每臺全新的 LOVOT 會呈現不同的性格特點,有的熱情和主人聊天,有的害羞不敢說話,甚至會根據與人們
78、相處的時間、互動的過程展現不同的情感狀態。截至 2023 年,在日本的售賣量超過 1 萬臺。(五)醫療康養領域:應對老齡化問題,實現擬人化交互服務(五)醫療康養領域:應對老齡化問題,實現擬人化交互服務醫療康養領域,具身智能正逐漸成為應對老齡化挑戰、提供高質量醫療服務的關鍵技術。當前,具身智能技術已被應用于自動化手術機器人,這些機器人能夠執行精確的切割和縫合操作,極大地提高了手術的安全性和效率。達芬奇手術系統是此類技術的典型代表,它允許外科醫生通過高度精確的機器臂進行遠程手術操作。未來,具身智能有望極大地改善醫療服務的質量和效率。不僅能夠提供擬人化的交互服務,提高老年人的生活質量和幸福感,還能有
79、效減輕醫護人員的具身智能發展報告(2024 年)36負擔,提高醫療服務的效率和質量。例如,日本公司 AIST 已推出外形像海豹的 Paro 治療機器人,被用于老年護理和兒童醫院,提供情感支持和陪伴,幫助緩解焦慮和孤獨感。美國公司捷邁邦美推出用于機器人輔助肩關節置換手術的 ROSA Shoulder 系統,能夠幫助外科醫生靈活地使用解剖或反向技術進行全肩關節置換術,并實現精確放置以改善手術結果。具體來說,具身智能讓醫療康養機器人實現擬人化的交互模式,可以提供人性化的服務體驗。一是實現個性化的情感社交互動。迪士尼推出情感互動型機器人“瓦力”,在兒童大小的身體中融入具有情感表達的肢體動作。韓國公司
80、Hyodol 推出專門為老年人服務的 AI伴侶娃娃,旨在緩解老年人孤獨感和阿爾茨海默病問題,在大模型支持下能夠與老人進行完整對話。二是提供人性化的服務體驗。美國Glidance 開發的導盲機器人 Glide,采用完全人性化的設計,它不會主動拉動用戶,而是根據用戶的動作做出響應,確保用戶在導航過程中保持控制和主動性。2024 年 2 月,日本豐田研究所發布軟體人體機器人 Punyo 為緩解老年人勞動力不足問題提供了解決方案,幫助搬運大型、重型和笨重的物品,例如搬抬箱子、堆疊兩個收納箱以減少空間占用、搬起水桶等操作。(六)其他領域:從賦能到變革,推動各行各業創新與轉型(六)其他領域:從賦能到變革,
81、推動各行各業創新與轉型除以上領域之外,科研、應急等領域的具身智能應用也將帶來深刻變革??蒲刑剿黝I域,具身智能能夠自主執行科研實驗,進行長時具身智能發展報告(2024 年)37間連續工作,從而加速科研進程。在極端環境中,如深海和太空,具身智能機器人可以代替人類進行探索,發現未知的科學奧秘。同時,它們還能承擔高?;蚍爆嵢蝿?,確保人員安全并提高工作效率。此外,具身智能機器人還能高效地收集和分析數據,為科研人員提供重要信息。通過機器學習和人機協作,具身智能機器人正成為科研領域的重要助手,推動科學研究的深入發展。例如,美國宇航局(NASA)的毅力號探測器在火星表面不僅采集到巖石,還收集到火星空氣樣本,將
82、幫助了解地球以外的其他星球氣候是如何演化的34。應急領域,具身智能通過執行高風險或人類難以承受的任務,成為保障人員安全和優化作業流程的關鍵技術。在搜索與救援場景,具身智能機器人可以用于搜索失蹤人員、運送醫療物資和執行救援任務,減少人員傷亡。在爆炸物處理和排雷場景,具身智能機器人可以攜帶爆炸物探測器,探測和處理爆炸物,同時也可以在雷區進行排雷作業,避免人員傷亡。烏克蘭國防技術發展集群 Brave1 推出 ST1 掃雷無人機,能夠在野外條件下執行任務,排雷速度是人類的 4 倍35。七騰機器人的防爆四足機器人能夠實現在樓梯、臺階、縫隙、狹小空間等復雜路面上進行防爆巡檢。在核、危、化、害等惡劣環境,具
83、身智能機器人有望完整替代人類進行復雜危險作業。例如,后端通信中斷的情況下,無人機自主導航與作戰目標達成、全自主無人化作戰系統的大規模應用(基于視覺+慣性)。因為這些場景中因作業對象不確定(多品種、小批量)、作業環境不確定且惡劣,當前相關產品在復雜環境34https:/ 年)38下的運動能力已有突破,如星動紀元的人形機器人小星,可以爬長城、過雪地,在多種地形上穩定行進。云深處科技的四足機器人絕影 X30能夠在-20到 55的極端環境下作業。但整體來看,還未實現對復雜人工作業過程的完整替代??傮w來看,具身智能正迅速發展成為與各行各業深度融合的創新驅動力,其相關應用正快速擴展至社會經濟的各個層面,將
84、推動著生產力的躍升和生活方式的變革。四、具身智能發展所面臨的挑戰具身智能被譽為是實現通用人工智能的重要路徑。具身智能在感知與認知、學習與泛化、計算能力、多任務處理、安全性、隱私保護以及人機關系等多個方面都面臨著挑戰。(一)技術挑戰(一)技術挑戰算法層面:具身智能在實現通用智能時面臨兩大根本性挑戰。具身智能的目標是具備通用智能,即能夠自主學習如何在各種場景和任務要求下執行任務。然而,現在的具身智能研究大多是將大模型的智能塞進機器人中,這仍是學習人類知識和經驗的過程,缺乏自主產生意圖的能力,也難以快速適應環境變化。一是系統需要人類智能的介入。目前的學習系統本質上仍是一個開環系統,需要人類根據學習結
85、果,有針對性地采集更多更好的數據,調整數據的概率分布,反復迭代優化獎勵函數等來實現閉環,Yann Lecun 將目前的機器學習系統描述為“輔助智能(Assisted Intelligence)”,而實現通用具身智能需具身智能發展報告(2024 年)39要的是“自主智能(Autonomous Intelligence)”36。二是尚未實現感知到行動間的認知映射。感知和行動需要緊密相連,才能快速應對不斷變化的環境。Thinking,Fast and slow這本書中提到了人類思維的兩種模式,即系統 1(快思考)和系統 2(慢思考)。系統 1 負責實現快速的反應式自主控制,而系統 2 負責實現需要慎
86、重思考、推理分析的有意識的決策。人腦高效運作的原因在于,95%的時間在調度系統 1,只有很少的任務需要調度系統 2。而目前具身智能的智能增益主要在于系統 2,也是由大模型主導實現的思維推理能力。從感知到行動的認知映射涉及物理概念理解、感知預測、行為推理等,也需要構建感知輸入與行為輸出的關聯。目前業界從世界模型、擴散策略、腦神經科學等角度開展了相關研究,但仍未完全解決這一難題。數據層面:缺乏數據成為具身智能能力突破的重要壁壘。與大模型所依賴的互聯網數據不同,EAI 所依賴的數據涉及動態環境中的復雜交互,這使得收集數據成為一項昂貴且具有挑戰性的工作。EAI 的數據來源,一方面,通過真實數據收集,例
87、如遙操作、觀察學習人類等技術路線,面臨一是獲取廣泛、高質量和多樣化的數據挑戰。機器人在不同環境中的適應和泛化能力取決于其處理數據的多樣性。例如,家庭服務機器人必須適應各種家庭環境和任務,要求它們從廣泛的家庭環境數據中學習,以提高其泛化能力。二是獲取大量真實數據成本過高。例如,為自動駕駛汽車捕獲一小時的多模式機器人數據的成本36LeCun,Yann.Apath towards autonomous machine intelligence version 0.9.2,2022-06-27.Open Review62.1(2022).具身智能發展報告(2024 年)40為 180 美元,是模擬相同
88、數據的成本的 100 倍37。另一方面,則是合成數據,例如通過提供虛擬仿真環境,機器人可以在各種條件下進行模擬操作;或通過算法和數學模型創建的,模擬真實數據中的統計模式和關系。合成數據主要面臨“現實差距”即模擬環境與現實世界之間的差異挑戰,包括物理、光照和意外交互的差異,在需要高度真實交互的場景中,如精密操作、復雜環境導航等,仿真環境通常無法滿足需求。軟件層面:軟件生態與硬件結合成為具身智能能力提升的關鍵挑戰。具身智能系統的軟件不僅要能夠高效地處理和解釋由硬件傳感器收集的數據,還要能夠與硬件平臺緊密集成。一是缺乏統一的操作系統和標準化軟件開發工具鏈,目前市場上存在多種機器人操作系統,如 ROS
89、 或基于 Linux 自行開發等,由于采用了大量開源組件,常會出現兼容性或版本升級導致系統不可用的情況,增加了開發難度,帶來開發時間和成本的增加。二是算法成熟度不高,盡管 AI 算法有所進步,但在實際應用中仍面臨挑戰。例如,在 3D 場景中的情景問答(SQA3D)任務中,當前最先進的模型也只能達到約 47.20%的準確率,遠低于人類的 90.06%38。三是軟硬件解耦難題,硬件在移動空間需要做到厘米級別,手眼協調的空間做到毫米級別,具身智能模型才能夠實現動作控制算法與產品形態的緊密耦合。硬件層面:耐用性和能源效率以及與軟件的深度集成需求構成了37https:/cacm.acm.org/blog
90、cacm/the-value-of-data-in-embodied-artificial-intelligence/38https:/arxiv.org/pdf/2210.07474.pdf具身智能發展報告(2024 年)41具身智能硬件發展的主要障礙。具身智能硬件的發展不僅需要技術上的突破,還需要考慮成本效益、維護升級等多方面因素。一是耐用性和可靠性挑戰。具身智能硬件載體需要在多變的環境中穩定運行,這對機械部件的耐用性提出了高要求。當前機器人在復雜環境下的故障率仍然較高,維護成本也相對較大。二是能源效率問題。電池技術的能量密度和充電速度限制了機器人的持續工作時間。當前,機器人可能僅能連續工
91、作數小時,之后就需要充電。例如,Figure01 續航時間5 小時,優必選 Walker X 裝續航時間 2 小時。三是硬件需要與軟件系統深度集成,以實現高效的數據處理和精確控制。例如,自動駕駛汽車需要將傳感器收集的數據實時傳輸給控制系統,這要求硬件具備高速數據傳輸能力和與軟件的無縫對接。(二)應用挑戰(二)應用挑戰產品層面:產品形態的合理性和內部硬件系統結構,會影響具身智能的行動能力邊界。具身智能在真實世界中的落地應用,需要構型合理、兼容性高、接口豐富、運動能力良好且可靠性高的機器人產品。一是通用且強大的具身本體挑戰。具身智能的產品研發需要兼顧芯片算力供給和經濟性、通信總線的交換效率、運動功
92、耗等各項指標。例如在需要連續工作的場景,本體的電池續航能力很重要。在實時性和可靠性要求高的場景,對云端通信的效率和本體側芯片推理能力有更高要求。在執行操作任務的場景,需要本體形態有著更高的靈活度和自適應調節能力。在野外等復雜環境中,可能會遇到滑倒或從高處跌具身智能發展報告(2024 年)42落的情況,要求本體具備更高的抗擊打和抗沖擊能力。而實現這些不僅需要對具體場景的需求有深入理解,也面臨將本體的執行可靠性、任務效率和成本控制做到平衡這一巨大挑戰。二是內部軟硬系統的緊密耦合挑戰。隨著具身智能基礎模型的多模態和泛化能力提升,具身智能的行動能力也獲得改善,但大多仍需結合復雜動作控制算法執行復雜任務
93、。動作控制算法與產品硬件是緊密耦合的關系。產品內部硬件系統結構,會影響具身智能的行動能力邊界。例如,波士頓動力Spot 四足機器人搭載先進動作控制算法,使其能夠在復雜地形中行走,但它的硬件設計限制了它在需要精細操作或與人交互時的能力,使得Spot 機器人擅長在戶外巡檢,但使用工具靈活不足。商業場景層面:市場需求的明確性和用戶接受度會影響具身智能的商業應用進程。具身智能雖然潛力巨大,但具體應用場景和商業模式不夠清晰,面臨:一是場景差異化和開放度挑戰,服務、生產、消費等各種場景都可能成為具身智能的潛在應用領域。然而當前的大規模商用還需要選擇容錯度較高的環境,且用戶買單能力比較強的場景,市場需求的甄
94、別和預測成為商業落地的首要難題。二是用戶接受度和信任建立的挑戰,用戶對具身智能技術的接受程度和信任感需要建立和維護,這對于技術的成功商業化至關重要。例如,在醫療領域,盡管機器人手術系統如達芬奇手術系統能提供高精度手術操作,但患者和醫生對機器人手術的接受度和信任仍在逐步建立過程中,這限制了其廣泛應用。三是安全與隱私問題,在數據隱私方面,通過機器人的攝像頭、麥克風等傳感器設備,收集用戶的個人信息和行為數據,如具身智能發展報告(2024 年)43語音指令、生物特征數據等,帶來數據安全隱私問題;在物理安全方面,機器人具有較高的動力和運動能力,因此可能對周圍人員和環境造成傷害。系統安全方面,入侵者可能通
95、過篡改指令、控制機器人、竊聽敏感信息等方式對機器人進行遠程操控,從而對用戶造成威脅。來源:中國信息通信研究院圖 5 具身智能產業鏈示意圖產業鏈層面:產業鏈條的完整性和各環節之間的協同效率,影響具身智能產業的持續發展。如圖 5 所示,上游:硬件迭代周期與成本跟不上軟件或算法模型的迭代速度。在具身智能本體技術的關鍵領域和價值鏈條中,核心技術壁壘主要圍繞三大核心組件展開:減速器、伺服系統以及控制器,在機器人整體成本結構中占比六到七成。三大核心組件行業面臨精度、穩定性、計算能力等挑戰,影響上層軟件的運動控制指令以及對更多精準大規模數據的收集能力。中游:挑戰在于如何開發出高效、可靠的軟件系統,以及如何實
96、現軟硬件的深度集成。比如,開發能夠適應復雜環境和任務的控制算法是一個技術難點,同時需要大數據、大模型和大算力的加持,且三個大互相關聯,缺一不可,還需要不斷更新,適應新的任務與環境。下游:跨界融合成具身智能發展報告(2024 年)44為應用新挑戰。隨著具身智能在家庭服務、教育培訓、休閑娛樂、醫療保健、生物制造、物流運輸、制造業、低空經濟、航空航天等行業的廣泛應用,個性化定制將成為機器人生成的新模式,跨界融合突破單一領域的應用將成為新的趨勢。需要垂直場景探索與通用泛化兼顧。(三)標準與合規挑戰(三)標準與合規挑戰具身智能產業在發展和培育的過程中,面臨促發展與安全監管并重挑戰。在標準化層面,具身智能
97、技術、評測、安全倫理等標準缺失。因涉及跨人工智能、機械自動化等交叉學科技術,安全和倫理問題突出,標準化工作面臨系列挑戰和難度。在技術評測標準方面,雖然已有國外 softGym、Habitat 3.0、BEHAVIOR-1K 以及國內 AIIA EAIBench 等工作,但具身智能基準測試標準體系仍建設面臨數據規模有限和質量不高、需要構建任務活動知識庫,模擬真實任務活動情況等問題。在安全標準方面,因機器人能與現實世界直接進行互動,盜竊或誤用可能會產生直接的物理后果,具身智能技術的安全問題包括傳統網絡安全中不存在的漏洞,安全標準也必須不斷發展。法律與倫理規范層面,具身智能機器人的出現,不僅要考慮生
98、命安全風險,還面臨信息安全、個人隱私等一系列倫理和社會學問題。當機器人與人類倫理發生沖突時,如何規范、合理地開發 AI 技術、使用 AI 產品,以及如何應對人機交互過程中可能出現的社會問題,成為當今時代下必須重視的問題。需要有相關的監管標準和規范,明確機器人在各個應用場景中的邊界和限制。同時,人工智能與機器人技術的進步將帶來勞動力變化,擴大技能差距和人才短缺。2023 年 3 月高盛發布報告具身智能發展報告(2024 年)45稱,人工智能可能取代相當于 3 億個全職工作崗位39,新技術驅動的工作所需技能與當前勞動力所擁有技能之間的不匹配,需要監管和政策更好地應對行業構成和就業模式的轉變。五、邁
99、向未來,具身智能迎來無限可能具身智能使信息域和物理世界深度融通,進一步拓展人工智能發展邊界,使機器人等物理實體更好地理解世界、更自然地與人類交互和更高效地執行任務。思維智能和行動智能的有機融合將推動人類社會進一步邁向智能化新時代,加速通用人工智能(AGI)的到來。(一)技術創新發展,推動具身智能持續進化(一)技術創新發展,推動具身智能持續進化具身智能將進一步加深對智能本質的深刻理解。通過感知、決策、行動、反饋的循環,具身智能可以實現持續地智能進化。未來,智能不再是先驗設計的結果,而是在開放環境中涌現的產物;不再局限于中央處理器,而是分布在感知、思維、行動的動態網絡之中。一是數據驅動下的“感知決
100、策行動反饋”閉環,具身智能需要具備跨模態(如視覺、聽覺、觸覺)感知和認知能力,以能夠更好地理解復雜場景,并在其中做出更加精確和靈活的響應,獲得更全面和深入的環境理解。未來,能夠理解、預測、做出決策并適應變化的世界模型是實現通用具身智能的關鍵。二是形態涌現,將通過強化學習、進化算法等技術,實現具身智能形態和行為的自適應和優化,提升自主決策能力和行為執行的精確性。未來。探索如何減少人類干預,使控制系統更加自主成為重要發力點。三是多體協同,如何構建多個智能體之39https:/ 年)46間的協作框架,實現集體優化是多體協同關注的重點。未來,這一方向可能發展出更加高級的群體智能算法和多智能體系統,使得
101、具身智能體能夠協同完成復雜任務。(二)產業跨界整合,開辟更廣闊的市場空間(二)產業跨界整合,開辟更廣闊的市場空間大模型的快速突破讓具身智能在各個行業的應用優勢不斷釋放。未來,具身智能將突破數據瓶頸和產品形態限制,以經濟、靈活且高效的方式實現規?;瘧?。工業制造領域,具身智能有望成為新型工業化的關鍵核心和有效抓手,使得機器人從“能動”到“能干活”轉變,以此來為工業制造業的自動化和智能化升級提供強大支持。未來,以機器人和機械臂等為載體的具身智能應用,將使得工業制造過程更加自動化、靈活和高效。自動駕駛領域,自動駕駛的感知、決策與行動能力與具身智能天然契合。將從簡單的導航到全面的環境交互和決策的轉變,
102、為未來智能交通和智慧城市的建設提供堅實的基礎。航空航天領域,具身智能將憑借強大的環境感知和自主決策能力實現更好的飛行規劃和太空探索。通過探索各類飛行仿真場景,有望將任務規劃周期從幾天縮短到幾分鐘。醫療康養領域,具身智能提供輔助和服務。具身智能有望極大地改善醫療服務的質量和效率。它將推動醫療服務從傳統的被動治療向主動預防、個性化護理和智能化康復轉變。交通物流領域,具身智能降低流通成本助力形成高效、快捷、現代化、智能化的物流體系。應用在包括提升倉儲、裝卸、搬運、分揀、包裝、配送等環節的工作效率和管理水平。家庭消費領域,具身智能將為高端家庭服務,家庭服務機器人可以實現對人類日常工作環境的認知理具身智
103、能發展報告(2024 年)47解,在與環境交互的過程中學習、糾正、收集數據,完成自主居家、辦公幫手任務。未來的機器人應用將更加多樣化、個性化、智能化,跨界融合成為機器人應用的新趨勢。(三)體系重構加速,引發更深層次社會思考(三)體系重構加速,引發更深層次社會思考具身智能代表著人工智能發展的一個新的里程碑,預示著我們即將進入一個“知行合一”的新時代。在這個時代,智能將不再局限于冰冷的算法和數據,而是與現實世界緊密交織、共生共進。未來,其發展和應用將對社會的各個層面產生復雜而深遠的影響。勞動就業層面,隨著具身智能在制造業、服務業、醫療健康等各個行業的深入應用,許多傳統的工作崗位可能會被自動化技術取
104、代,這要求社會對就業結構進行調整,并為勞動力提供再培訓和轉崗的機會。人機關系層面,具身智能的發展意味著機器將更加深入地融入人類生活的各個方面,從日常輔助到高級決策支持,將使人類與機器的關系更加緊密。這可能導致人類對機器的過度依賴,甚至失去一些基本的技能和能力。我們需要思考如何在享受技術帶來便利的同時,保持人類的自主性和獨立性。社會關系層面,一些人可能會對新技術持懷疑態度,擔心其帶來的不確定性和風險。社會需提高公眾對具身智能技術的認識和理解,同時,企業也需要在推廣新技術時,充分考慮用戶的接受度和心理反應。倫理和法律層面,具身智能的自主性和決策能力將引發對倫理和法律問題的討論。一是倫理決策和責任歸
105、屬,具身智能的倫理問題和責任歸屬需要明確,包括是否應賦予機器人某些權利,如何防止其被濫用,如何設定具身智能系統的行動準則以確保其決策符合人類倫理具身智能發展報告(2024 年)48標準,以及如何在具身智能發生故障或者導致事故發生時判定責任歸屬等,這涉及制定相應的倫理標準和法律法規。二是數據隱私和安全,具身智能系統會加大數據濫用和泄露風險,如何確保數據的安全和合法使用,具身智能的全球性影響要求國際社會共同參與,制定全球性的政策和標準,以實現平衡創新與監管的目標。具身智能發展報告(2024 年)中國信息通信研究院地址:北京市海淀區花園北路 52 號郵編:100191電話:13552276063傳真:010-62304980網址: