《哈爾濱工業大學:2024大模型時代的具身智能(212頁).pdf》由會員分享,可在線閱讀,更多相關《哈爾濱工業大學:2024大模型時代的具身智能(212頁).pdf(212頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型時代的具身智能RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL什么是智能機器人?RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心3HARBIN INSTITUTE OF TECHNOLOGY機器人的從古至今穆王驚視之,趨步俯仰,信人也。巧夫!領其顱,則歌合律;捧其手,則舞應節。千變萬化,惟意所適。王以為實人也,與盛姬內御并觀之。列子湯問周穆王西巡狩獵遇見了一個名叫偃師的奇人。偃師造出了一個機器人,與
2、常人的外貌極為相似,達到了以假亂真的程度。那個機器人會做各種動作。掰動它的下巴,就會唱歌;揮動它的手臂,就會翩翩起舞。公元前9世紀4HARBIN INSTITUTE OF TECHNOLOGY機器人的從古至今公元前4世紀古希臘數學家 阿基塔斯 研制出一種由機械蒸汽驅動的鳥狀飛行器,并被命名為“鴿子”。其腹部是一套用于產生蒸汽的密閉鍋爐。阿基塔斯“鴿子”設計圖5HARBIN INSTITUTE OF TECHNOLOGY機器人的從古至今公元15世紀萊昂納多達芬奇在 1495 年左右繪制了人形機器人的草圖?,F在被稱為萊昂納多的機器人,能夠坐起、揮動手臂、移動頭部和下巴。萊昂納多的機器人6HARBI
3、N INSTITUTE OF TECHNOLOGY機器人的從古至今公元20世紀機器人從“玩具”變成“工具”,并應用于工業領域1961年,世界上第一臺工業機器人Unimate,用于堆疊金屬1973 年,KUKA公司推出的世界第一臺擁有六個機電驅動軸的工業機器人,FAMULUS一定的自主性:編程后可自主運行,自主判斷和決定接下來的操作7HARBIN INSTITUTE OF TECHNOLOGY機器人的從古至今公元21世紀工業機器人已經相對成熟,人們開始探索更多場景、更智能的機器人醫療微創機器人物流運輸機器人展廳服務機器人家庭清潔機器人更好的自主性:應對的場景和任務更復雜,涉及多機器人協調8HAR
4、BIN INSTITUTE OF TECHNOLOGY智能機器人機器人智能機器人 人類自主能力:盡可能少的人類干預泛化能力(通用能力):具備強大的綜合能力9HARBIN INSTITUTE OF TECHNOLOGY最受關注的智能機器人類人機器人世界第一臺全尺寸人形機器人人形運動能力重大進步人形機器人成功商業落地人形動作能力邁入新紀元1972200020082013ASIMO,日本本田制造,歷經數次迭代,掌握雙足奔跑、搬運托盤、上下樓梯等功能 WABOT-1,日本早稻田大學加藤實驗室,行走一步需要45秒,步伐也只有10公分法國 Aldebaran公司研發的小型教學陪伴用人形機器人NAOAtla
5、s機器人,美國波士頓動力公司研發,有很強的運動控制能力運動控制型機器人智能機器人重點關注機器人的運動能力新的關注點:機器人智能10HARBIN INSTITUTE OF TECHNOLOGY智能機器人機器人智能機器人 人類自主能力:盡可能少的人類干預泛化能力(通用能力):具備強大的綜合能力一種算法人工智能?人工智能?11HARBIN INSTITUTE OF TECHNOLOGY機器人與人工智能工業機器人已經相對成熟,人們開始探索更多場景、更智能的機器人醫療微創機器人物流運輸機器人展廳服務機器人家庭清潔機器人視覺技術視覺技術語音技術自然語言處理視覺技術語音技術人工智能真的讓機器人智能了嗎?RE
6、SEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心13HARBIN INSTITUTE OF TECHNOLOGY我們設想中的智能機器人是什么?像人類一樣工作的機器人?各方面強于人類的機器人?有意識和情感的機器人?14HARBIN INSTITUTE OF TECHNOLOGY縱觀人工智能發展p1956年20世紀60年代初,使用人工智能做符號推理,進行數學證明p20世紀60年代70年代初,啟發式的搜索算法能力有限p20世紀70年代初80年代中,構建專家系統處理醫療、化學、地質等特定領域
7、應用p20世紀80年代中90年代中,專家系統需要海量的專業知識,實用價值有限p20世紀90年代中2010年,機器學習算法處理實際問題p2011年之后,深度學習算法用于圖像、文本、語音等信息處理p2022年之后,可以處理通用任務的大模型 一定的自主能力 一定的泛化能力(通用能力)但離我們設想的智能還有多遠?15HARBIN INSTITUTE OF TECHNOLOGY大模型與人形機器人結合形成智能機器人p上個世紀對未來人工智能的幻想,主要表現為智能人形機器人,但目前人工智能技術仍然停留在電腦屏幕,沒有以實體的方式進入物理世界p目前智能程度最強的大模型,與目前最先進的人形機器人,能否結合形成智能
8、機器人?如何構建一個智能機器人?RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心人工智能真的讓機器人智能了嗎?先要說明的問題:17HARBIN INSTITUTE OF TECHNOLOGY構建智能機器人(以人形機器人為例)機器人軀體的所有硬件結構2D視覺信號或3D點云信號語音信號觸覺信號或力反饋信號位姿信號硬件方面:軟件及算法方面:收集所有傳感器采集的環境信息和自身狀態。并綜合分析當前所有狀態(具身感知)根據當前狀態,對自身下一步的運動做出決策和規劃(具身推理)向下位機下發送運
9、動指令(具身執行)下位機通過運控技術執行指令大腦小腦(形式包括代碼、技能庫(形式包括代碼、技能庫APIAPI、關節旋轉角度等)、關節旋轉角度等)18HARBIN INSTITUTE OF TECHNOLOGY舉個不是特別形象的簡單例子機器人采集視覺信息,分析出應對咖啡進行清理機器人采集視覺信息,分析出應對咖啡進行清理機器人視覺傳感器信號機器人視覺傳感器信號 收集所有傳感器采集的環境信息和自身狀態。并綜合分析當前所有狀態(具身感知)清理咖啡需要如下幾步:清理咖啡需要如下幾步:1.1.扶正杯子并拿起杯蓋扶正杯子并拿起杯蓋2.2.找到抹布找到抹布3.3.用抹布擦拭地面用抹布擦拭地面4.4.將抹布放回
10、將抹布放回5.5.將杯子和杯蓋扔掉將杯子和杯蓋扔掉 根據當前狀態,對自身下一步的運動做出決策和規劃(具身推理)生成機器人的運動軌跡,包括手臂如何運動、生成機器人的運動軌跡,包括手臂如何運動、手掌如何運動、腿部如何運動等手掌如何運動、腿部如何運動等 向下位機下發送運動指令(具身執行)機器人執行機器人執行 下位機通過運控技術執行指令人工智能真的讓機器人智能了嗎?RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心回到問題:20HARBIN INSTITUTE OF TECHNOLOGY構
11、建智能機器人的技術,我們具備和不具備哪些?機器人軀體的所有硬件結構2D視覺信號或3D點云信號語音信號觸覺信號或力反饋信號位姿信號硬件方面:我們已經能造出具備基本性能的機器人硬件和高精度的傳感器21HARBIN INSTITUTE OF TECHNOLOGY構建智能機器人的技術,我們具備和不具備哪些?軟件及算法方面:收集所有傳感器采集的環境信息和自身狀態。并綜合分析當前所有狀態(具身感知)根據當前狀態,對自身下一步的運動做出決策和規劃(具身推理)向下位機下發送運動指令(具身執行)下位機通過運控技術執行指令大腦小腦(形式包括代碼、技能庫(形式包括代碼、技能庫APIAPI、關節旋轉角度等)、關節旋轉
12、角度等)運控技術相對來說已經較為成熟還存在諸多問題22HARBIN INSTITUTE OF TECHNOLOGY當前人工智能這幾個方面存在哪些問題?收集所有傳感器采集的環境信息和自身狀態。并綜合分析當前所有狀態(具身感知)多模態大模型LLaVA已能做到:但實際場景遠比此復雜這是什么?如何打開它?人的一些手勢是什么意思?3D點云圖如何理解?23HARBIN INSTITUTE OF TECHNOLOGY當前人工智能這幾個方面存在哪些問題?根據當前狀態,對自身下一步的運動做出決策和規劃(具身推理)來看目前大模型在一組數據集中的表現:24HARBIN INSTITUTE OF TECHNOLOGY
13、當前人工智能這幾個方面存在哪些問題?根據當前狀態,對自身下一步的運動做出決策和規劃(具身推理)主流大模型在該數據集上的表現:25HARBIN INSTITUTE OF TECHNOLOGY當前人工智能這幾個方面存在哪些問題?向下位機下發送運動指令(具身執行)(形式包括代碼、技能庫(形式包括代碼、技能庫APIAPI、關節旋轉角度等)、關節旋轉角度等)對于生成關節旋轉角度形式的運動指令:對于生成技能庫API或代碼API形式的運動指令:現實世界場景過于復雜,構建完整的技能庫幾乎不可能關上抽屜拿起可樂轉移紅色方塊多模態大模型 擴散小模型執行的成功率執行的流暢度泛化能力多模態大模型較低(60%70%)不
14、夠流暢物品泛化擴散小模型較高(90%以上)流暢位置泛化或無泛化技能泛化場景泛化物品泛化位置泛化無泛化泛化能力因此,當前人工智能還不足以讓機器人更智能,需要具身智能RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心什么是具身智能?27HARBIN INSTITUTE OF TECHNOLOGY機器人能學習文本圖像,能學會走路嗎?1 Richard Held,Alan Hein.Movement-produced stimulation in the development of vi
15、sually guided behavior.1963 Jouranal of Comparative and Physiological Psychology1963年進行了一場心理學實驗,兩只貓自出生起便在黑暗封閉的環境中生活。p 被動移動位置p 只能注意到眼中的物體在變大、縮小p 沒有學會走路,甚至不能意識到眼中物體逐漸變大就是在靠近自己p 可以自由的移動p 隨著腿部動作,眼中物體的大小有相應的變化p 最終學會走路有行走條件才能學會走路:有物理身體,可以進行交互28HARBIN INSTITUTE OF TECHNOLOGY具身智能的定義p 定義:一種基于物理身體進行感知和行動的智能系統
16、,其通過智能體與環境的交互獲取信息、理解問題、做出決策并實現行動,從而產生智能行為和適應性。p 實質:強調有物理身體的智能體通過與物理環境進行交互而獲得智能的人工智能研究范式。具身智能|CCF專家談術語,盧策吾,王鶴抽象的智能(圍棋、文本處理、圖像識別)有物理身體、與環境進行交互的具身智能學習“有遮擋的物體識別”學習“移開遮擋后的物體識別”VS29HARBIN INSTITUTE OF TECHNOLOGY環境仿真環境真實環境Sim2Real交互感知環境反饋從交互中學習學習交互數據感知推理執行物體感知場景感知行為感知表達感知物人具體分為任務規劃導航具身問答具體分為智能體基于規則基于大模型基于學
17、習具身智能劃分:感知、推理、執行目 錄C O N T E N T S具身感知1具身推理2具身執行3RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心具身感知RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心32HARBIN INSTITUTE OF TECHNOLOGY具身感知p機器人需要具備環境感知能力,依據感知對象的不同,可以分為四類:場景感知物體感知行為感知表達感
18、知33HARBIN INSTITUTE OF TECHNOLOGY具身感知p機器人需要具備環境感知能力,依據感知對象的不同,可以分為四類:p物體感知p幾何形狀、鉸接結構、物理屬性p場景感知p場景重建&場景理解p行為感知p手勢檢測、人體姿態檢測、人類行為理解p表達感知p情感檢測、意圖檢測p重點需要感知能力的機器人:服務機器人、人機協作場景下機器人、社交導航機器人、環境探索機器人34HARBIN INSTITUTE OF TECHNOLOGY具身感知p具身感知的過程主要包括以下幾步:感受信息信息的表示/建模/重建信息理解下游任務物體感知場景感知行為感知表達感知RGB相機3D相機觸覺傳感器熱傳感器麥
19、克風獲取3D物體的幾何形狀、鉸接結構、物理屬性信息信息編碼方法場景重建(主動探索、主動定位、場景的表示)基于交互的物體檢測、空間關系理解、時序變化檢測位姿估計、物體抓取、交互感知、可供性預測主要基于2D圖片和深度信息手勢識別、姿態檢測、人類行為理解社交導航、自動駕駛、人機協作主要基于視覺表情和聲音情感識別、意圖推斷(指代表示)物體感知RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心36HARBIN INSTITUTE OF TECHNOLOGY物體感知范疇p對于3D空間中的物體,
20、有必要感知其:p幾何形狀p鉸接結構p物理屬性1 https:/adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.html2 Xu et al.UMPNet:Universal Manipulation Policy Network for Articulated Objects.2022 RA-L3 Dong et al.Tactile-RL for Insertion:Generalization to Objects of Unknown Geometry37HARBIN INSTITUTE OF TECHNOLOGY物體
21、幾何形狀感知數據格式描述來源編碼方法點云一組點,每個點包括3D坐標和特征LiDARPointNet,PointNet+網格基于點、線、面(三角形)表示物體表面CAD模型、點云轉換MeshNet體素一組立方體,每個立方體包括坐標、體積和特征點云轉換VoxelNet、DeepSDF、Occupancy Network深度圖為2D圖片每個像素匹配一個深度雙目立體相機、結構光相機、ToF相機GVCNN38HARBIN INSTITUTE OF TECHNOLOGYPointNetp基于多層感知機,編碼點云數據,可以獲得點云整體的表示、每個點的表示pPointNet為點云數據編碼的經典方法,針對其難以捕
22、捉局部特征的缺點又提出了改進版本PointNet+1 Qi et al.Pointnet:Deep learning on point sets for 3d classification and segmentation.2017 CVPR2 Qi et al.Pointnet+:Deep hierarchical feature learning on point sets in a metric space.2017 NIPS39HARBIN INSTITUTE OF TECHNOLOGYMeshNetp基于MLP和CNN,編碼每個面的空間特征和結構特征,最后獲得整體的物體外形表示1 F
23、eng et al.Meshnet:Mesh neural network for 3d shape representation.2019 AAAI40HARBIN INSTITUTE OF TECHNOLOGYVoxelNetp首先將點云體素化,然后使用基于MLP和CNN的網絡編碼體素pPointNet、MeshNet、VoxelNet對3D數據的卷積編碼方式,類似于CV中對2D圖片的編碼1 Zhou et al.VoxelNet:End-to-End Learning for Point Cloud Based 3D Object Detection.2018 CVPR41HARBIN
24、INSTITUTE OF TECHNOLOGYDeepSDF(Signed Distance Function)p之前PointNet、MeshNet和VoxelNet將3D數據視為離散的單元進行卷積編碼pDeepSDF訓練神經網絡,擬合一個連續函數:以體素坐標為輸入,輸出其離最近物體表面的距離。這個連續函數同樣蘊涵物體的幾何形狀信息。1 Park et al.DeepSDF:Learning Continuous Signed Distance Functions for Shape Representation.2019 CVPR為使訓練的SDF不局限于一個物體,引入Code作為物體形狀標
25、簽42HARBIN INSTITUTE OF TECHNOLOGYOccupancy Networks 占用概率網絡p類似于DeepSDF使用一個連續的函數來表示整個空間的體素分布情況,Occupancy Network同樣使用神經網絡來擬合一個連續的函數,該函數以體素坐標為輸入,輸出該坐標處體素出現的概率1 Mescheder et al.Occupancy Networks:Learning 3D Reconstruction in Function Space.2019 CVPR43HARBIN INSTITUTE OF TECHNOLOGY幾何形狀感知的下游任務:物體位姿估計p位姿估計
26、任務是預測一個物體在3D空間中的位姿,包括三自由度的平移,與三自由度的旋轉,或者可視為物體的位置與朝向p根據是否物體的CAD模型是否已知,位姿估計可以分為:p實例級別的位姿估計:需要物體CAD模型,從而獲取平移的中心和旋轉的初始朝向p類別級別的位姿估計:不需要物體CAD模型中點是哪里?正面(初始朝向)是哪?沒有這些信息如何知道平移和旋轉的情況?通過“見過”訓練集中一個類別下很多物體的中心點和初始朝向,從而可以在測試時對未見過的物體“預設”一個中心點和朝向,然后估計位姿44HARBIN INSTITUTE OF TECHNOLOGY構建同類別物體統一坐標空間p物體上每一個點對應一個(x,y,z)
27、,代表該點在標準空間中的位置。給定任意一個圖片,分割其中物體,然后在每個像素上預測(x,y,z)。mask上的(x,y,z)就代表這個物體在標準空間中的朝向,結合深度可得位移pCNN預測:類別、分割Mask、標準空間Map1 Wang et al.Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation.2019 CVPR45HARBIN INSTITUTE OF TECHNOLOGY具身感知小結一(提前放在這里,應對可能的疑惑)p以上物體外形的研究,與智能機器人根據人類指令
28、執行特定動作的關聯在哪里?p上述研究與大模型有什么關聯?p在我們能很好的端到端解決具身智能任務前,以感知物體作為中間任務,助力下游的推理、執行任務,滿足實際應用的需要,是很有意義的。p正如句法分析、詞性標注之于早期的NLP領域,以及T5模型統一自然語言理解與生成p有觀點認為,一個顯式的世界模型是人工智能的后續方向,該觀點下感知具有更重要的意義p在深度學習范疇內,3D數據的處理方式與對2D圖片的處理方式非常相似,或許不久之后就會出現很多3D領域的大模型46HARBIN INSTITUTE OF TECHNOLOGY物體抓取p傳統的物體抓?。簆需要已知物體的3D模型,然后使用分析的方法通過數學建模
29、求解抓取點位p基于深度學習的物體抓?。簆依賴3D相機獲取初步點云,不進行顯式的物體重建,直接基于點云通過神經網絡求解抓取位姿原始點云/多角度圖片物體重建得到高質量物體3D模型物體抓取Model-FreeModel-Basep感知3D物體的幾何形狀,與計算機圖形學(CG)中的物體重建有密切聯系,即使不進行顯式的物體重建,一個好的物體重建方法往往也是很好的3D物體和場景的表示方法,例如有研究將CG中3DGS方法用于機器人任務47HARBIN INSTITUTE OF TECHNOLOGYAnygraspp經典的物體抓取方法,基于物體幾何外形信息,并支持動態物體抓取和碰撞檢查p基于單張RGBD圖片,
30、即可生成多個7自由度抓取位姿1 Fang et al.AnyGrasp:Robust and Efficient Grasp Perception in Spatial and Temporal Domains.2022 T-RO48HARBIN INSTITUTE OF TECHNOLOGYCoPA:結合大模型物體感知的抓取p多模態大模型結合物體分割模型由粗到細確定抓取點位(物體部件級別)p抓取小模型GraspNet生成多個抓取位姿,與大模型給出的抓取點位接近的分數更高1 Huang et al.CoPa:General Robotic Manipulation through Spatia
31、l Constraints of Parts with Foundation Models.2024 ICRA49HARBIN INSTITUTE OF TECHNOLOGY物體感知范疇p對于3D空間中的物體,有必要感知其:p幾何形狀:點云、體素、網格、深度圖的編碼表示,以及位姿估計,物體抓取下游任務p鉸接結構p物理屬性1 https:/adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.html2 Xu et al.UMPNet:Universal Manipulation Policy Network for Articul
32、ated Objects.2022 RA-L3 Dong et al.Tactile-RL for Insertion:Generalization to Objects of Unknown Geometry50HARBIN INSTITUTE OF TECHNOLOGY鉸接結構p鉸接物體與剛性物體:p剛性物體內部構件剛性連接,無法變形p鉸接物體內部構件由關節或其他鉸接結構連接,部件可以旋轉、平移p剛性物體關注幾何形狀,對其的操作主要為抓取、放置,即位姿估計和物體抓取任務p鉸接物體除幾何形狀外,還關注對其鉸接結構。鉸接物體支持復雜的操作,例如開關柜門,擰瓶蓋1 Liu et al.Towar
33、d Real-World Category-Level Articulation Pose Estimation.2022 TIP51HARBIN INSTITUTE OF TECHNOLOGY鉸接結構數據來源p鉸接物體數據格式主要為URDF,通過定義物體的邊、關節屬性來定義物體鉸接結構p鉸接結構數據來源主要包括p手工收集,e.g.AKB-48p在已有3D數據集上標注鉸接信息p合成數據1 Liu et al.AKB-48:A Real-World Articulated Object Knowledge Base.2022 CVPR2 Cage et al.CAGE:Controllable
34、Articulation GEneration.2024 CVPR52HARBIN INSTITUTE OF TECHNOLOGY鉸接物體表示方法p鉸接物體的表示,應該主要包括以下信息:p每個組件的幾何形狀信息p每個組件的運動學信息,包括:位移類型(平移、旋轉)、位移參數(平移方向、旋轉軸)、位移限制(最大移動距離、最大旋轉角度)p一個好的鉸接表示有助于機器人理解鉸接物體p兩種鉸接結構表示方法p直接建模關節參數p建模位移變化情況53HARBIN INSTITUTE OF TECHNOLOGY建模關節參數表示鉸接物體p通過分別建模物體部件和整體兩個層次的信息來表示鉸接物體,實現基于RGBD圖片預
35、測物體鉸接結構。p物體層次信息主要為關節參數和狀態,部件層次信息為部件的位姿和規模1 Li et al.Category-Level Articulated Object Pose Estimation.2020 CVPR54HARBIN INSTITUTE OF TECHNOLOGY建模位移情況表示鉸接物體p該論文同樣希望通過多視角圖片得到物體的形狀、外觀、鉸接結構信息。p其認為物體狀態可以由形狀、外觀、鉸接狀態來表示,并使用不同的code來表示,通過一個變形網絡分離物體鉸接狀態(位移情況)得到新的物體位置,然后分別得到幾何形狀和物體外觀p變形網絡使用有監督訓練的方式,以形狀和鉸接code為
36、輸入,預測物體每個點的位移1 Wei et al.Self-supervised Neural Articulated Shape and Appearance Models.2022 CVPR55HARBIN INSTITUTE OF TECHNOLOGY鉸接結構的下游任務p幾何結構部分與主流計算機視覺領域相比,其特點在于主要基于3D信息p但對3D信息的處理并非具身智能的核心,具身智能的核心在于其是一種行為智能,在感知領域具體體現為:可以通過與環境的主動交互,增強對環境的感知效果p鉸接物體支持機器人進行豐富的操作任務,并提供相應的反饋。與之相關的下游任務有交互感知、物體可供性預測兩類p交互感
37、知:機器人通過與物體交互獲取更多信息p物體可供性預測:預測物體能否支持機器人進行某種操作56HARBIN INSTITUTE OF TECHNOLOGY交互感知獲取物體鉸接結構p之前介紹的工作基于靜態數據集預測物體鉸接結構,該工作通過實際物理交互行為獲取物體鉸接結構p首先以原始物體點云作為輸入,基于物體組件級分割,得到物體初始URDF文件p機器人操作物體,基于當前URDF文件可以預測操作后的物體狀態,與實際觀察到的物體狀態進行對比,該監督信號對于物體模型參數(URDF文件)是可微的,從而進行參數更新1 Lv et al.SAGCI-System:Towards Sample-Efficient
38、,Generalizable,Compositional and Incremental Robot Learning.2022 ICRA57HARBIN INSTITUTE OF TECHNOLOGY物體可供性預測p對于任務規劃和導航任務,知道一個物體可以施加哪些動作是很重要的,也可以用于指導物體操作pWhere2act訓練一個預測網絡,給定一個原子動作(推、拉),對于圖片或點云中每一個像素預測1)可行性分數;2)動作軌跡;3)成功概率p基于此,機器人可以知道每一個原子動作在物體上的最佳操作點位與軌跡1 Mo et al.Where2Act:From Pixels to Actions fo
39、r Articulated 3D Objects.2024 ICCV58HARBIN INSTITUTE OF TECHNOLOGY物體感知范疇p對于3D空間中的物體,有必要感知其:p幾何形狀:點云、體素、網格、深度圖的編碼表示,以及位姿估計,物體抓取下游任務p鉸接結構p物理屬性1 https:/adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.html2 Xu et al.UMPNet:Universal Manipulation Policy Network for Articulated Objects.2022 RA-
40、L3 Dong et al.Tactile-RL for Insertion:Generalization to Objects of Unknown Geometry59HARBIN INSTITUTE OF TECHNOLOGY物理屬性p物體的物理屬性種類及來源包括:p觸覺:觸覺傳感器p力矩:六軸力矩傳感器,3自由度力,3自由度扭矩,p溫度:溫度傳感器p材質、硬度p物理屬性的表示p與其他模態融合,如圖像和點云:IMAGEBIND、LANGBINDp單獨使用物理信息:強化學習端到端的方式利用觸覺信息1 Girdhar et al.Imagebind:One embedding space t
41、o bind them all.2023 CVPR2 Zhu et al.Languagebind:Extending video-language pretraining to n-modality by language-based semantic alignment.2024 ICLR3 Dong et al.Tactile-rl for insertion:Generalization to objects of unknown geometry.2024 ICRA60HARBIN INSTITUTE OF TECHNOLOGY物理屬性輔助操作解決視覺遮擋問題p利用觸覺傳感器理解物理
42、屬性:T-NTp根據視覺和觸覺反饋,用強化學習訓練機器人將線穿過針孔p使用觸覺傳感器查找線的末端,以及判斷針是否穿過針孔1 Yu et al.Precise Robotic Needle-Threading with Tactile Perception and Reinforcement Learning.2023 CoRL場景感知RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心62HARBIN INSTITUTE OF TECHNOLOGY場景感知簡述p定義:場景感知是通過實
43、現與場景的交互來理解現實世界場景p意義:賦予機器人理解周圍環境并與之交互的能力p內核:p對空間布局的幾何理解p對場景中物體的語義理解p組成:p粗粒度:場景中物體的組成、物體的語義、物體的空間關系p細粒度:場景中每個點的精確空間坐標和語義p具體形式:點云、地標、拓撲圖、場景圖、隱表示63HARBIN INSTITUTE OF TECHNOLOGY場景感知的研究內容場景信息獲取場景重建場景理解環境原始信息場景認知場景表示抽取視覺信息易利用難利用構建形成激光信息雷達信息觸覺化學聽覺超聲紅外單個物體多個物體場景圖像對象實現物體識別時序變化檢測空間關系推理傳統SLAM深度學習新方法新任務主動映射主動定位
44、新表示拓撲結構場景圖64HARBIN INSTITUTE OF TECHNOLOGY場景信息構成p場景信息組成p粗粒度p場景中物體的組成p場景中物體的語義p場景中物體的空間關系p細粒度p場景中每個點的精確空間坐標和語義p場景信息提取方式p構建場景表示p點云、地標、拓撲圖、場景圖及隱式表示65HARBIN INSTITUTE OF TECHNOLOGY易利用的場景信息p視覺:符合人類的先驗知識,相關研究工作多p激光/雷達:可以直接獲取準確的場景表示,無需視覺重建1 Sun,et al.A quality improvement method for 3D laser slam point clo
45、uds based on geometric primitives of the scan scene.2021 IJRS2 Kong,et al.Multi-modal data-efficient 3d scene understanding for autonomous driving.2024 arXiv3 Zheng,et al.Scene-aware learning network for radar object detection.2021 PCMR4 Yang,et al.An ego-motion estimation method using millimeter-wa
46、ve radar in 3D scene reconstruction.2022 IHMSC激光傳感器工作原理雷達傳感器工作原理66HARBIN INSTITUTE OF TECHNOLOGY難利用的場景信息p聽覺:可用于視聽導航任務p觸覺:可用于感知物體表面p化學:可用于特殊任務,如識別氣味來源p紅外:可用于特殊場景,如煙霧場景下p超聲:可用于深度測量1 Singh,et al.Sporadic Audio-Visual Embodied Assistive Robot Navigation For Human Tracking.2023 PETRA2 Gan,et al.Look,list
47、en,and act:Towards audio-visual embodied navigation.2020 ICRA3 Roberge,et al.StereoTac:A novel visuotactile sensor that combines tactile sensing with 3D vision.2023 RAL4 Padmanabha,et al.Omnitact:A multi-directional high-resolution touch sensor.2020 ICRA5 Armada,et al.Co-operative smell-based naviga
48、tion for mobile robots.2004 CLAWAR6 Ciui,et al.Chemical sensing at the robot fingertips:Toward automated taste discrimination in food samples.2018 ACS sensors7 Sinai,et al.Scene recognition with infra-red,low-light,and sensor fused imagery.1999 IRIS8 Kim,et al.Firefighting robot stereo infrared visi
49、on and radar sensor fusion for imaging through smoke.2015 Fire Technology9 Shimoyama,et al.Seeing Nearby 3D Scenes using Ultrasonic Sensors.2022 IV10 Mulindwa,et al.Indoor 3D reconstruction using camera,IMU and ultrasonic sensors.2020 JST應用范圍狹窄并非場景感知任務焦點67HARBIN INSTITUTE OF TECHNOLOGY場景重建場景信息獲取場景重建
50、場景理解環境原始信息場景認知場景表示抽取視覺信息易利用難利用構建形成激光信息雷達信息觸覺化學聽覺超聲紅外單個物體多個物體場景圖像對象實現物體識別時序變化檢測空間關系推理傳統SLAM深度學習新方法新任務主動映射主動定位新表示拓撲結構場景圖68HARBIN INSTITUTE OF TECHNOLOGY場景重建p場景重建的核心技術是SLAM(同步定位與映射)pSLAM是機器人在未知環境下移動,逐步構建周圍環境的連續地圖,并同時估計其在地圖中位置的技術p傳統的SLAM技術:p濾波算法p非線性優化技術p引入深度學習后的SLAM:p新方法p新任務p新表示1 Durrant et al.Simultane
51、ous localization and map:part I.2006 RAM2 Taketomi e al.Visual SLAM algorithms:A survey from 2010 to 2016.2017 IPSJ場景信息SLAM我在哪?我周圍是什么樣的?69HARBIN INSTITUTE OF TECHNOLOGY場景重建-新方法p將深度學習集成到SLAMp用深度學習方法替換傳統的SLAM模塊p特征提取p深度估計p在傳統SLAM上加入語義信息p圖像語義分割p語義地圖構建p基于深度學習的新方法主要為SLAM領域的自我優化或迭代,很少有方法從具身智能的角度出發1 DeTone,
52、et al.Toward geometric deep slam.2017 arXiv2 Tateno,et al.Cnn-slam:Real-time dense monocular slam with learned depth prediction.2017 CVPR3 Li,et al.Undeepvo:Monocular visual odometry through unsupervised deep learning.2018 ICRA 70HARBIN INSTITUTE OF TECHNOLOGY場景重建-新任務p傳統SLAMp機器人由人類控制,或使用預定義的航點,或基于給定
53、的路徑規劃算法進行導航p主動SLAMp機器人可以自主行動,以實現更好的場景重建和定位p主動映射:機器人自主選擇下一步視點,以獲得更好的觀察,進行環境探索p主動定位:機器人自主規劃路徑,旨在解決模糊位置定位,而不僅僅是導航主動SLAM我怎么能更快地完成場景重建?我怎么能更快地知道自己在哪?主動映射主動定位傳統SLAM自動映射同步定位我在哪?我周圍是什么樣的?71HARBIN INSTITUTE OF TECHNOLOGY具身感知小結二p具身智能與非具身的智能,乃至其他領域,例如CV、NLP、CG(計算機圖形學)、Robotics、Control,核心區別在哪里?p3D數據?機器人任務中的深度學習
54、技術?p在于行為智能,在于交互,在于告訴機器人怎么動p此處的交互具體指 空間中一條7自由度的軌跡p操作鉸接物體、主動探索、主動定位p多模態大模型和文本大模型沒見過軌跡數據,如果將軌跡數據壓縮為大模型,或許有更智能的交互效果72HARBIN INSTITUTE OF TECHNOLOGY主動映射p主動映射任務,即下一個最佳視圖(Nest Best View)任務,旨在找到更好的觀測視點或更有效的觀測策略p視圖的評估標準:信息增益、機器人運動成本和場景重建的質量1 Collander,et al.Learning the next best view for 3d point clouds via
55、 topological features.2021 ICRA 2 Gazani,et al.Bag of views:An appearance-based approach to next-best-view planning for 3d reconstruction.2023 RAL基于拓撲的信息增益度量確定下一個最佳視圖RL方法,目的是識別最大化其場景記憶變化的視圖。核心思想是幫助智能體記住盡可能多的不可見的視覺特征73HARBIN INSTITUTE OF TECHNOLOGY主動映射1 Liu,et al.Object-aware guidance for autonomous
56、scene reconstruction.2018 TOG2 Dong,et al.Multi-robot collaborative dense scene reconstruction.2019 TOG將 NBV 任務與次優對象(NBO)任務集成,選擇感興趣的對象,確定重建它們的最佳視角多智能體協作的主動映射74HARBIN INSTITUTE OF TECHNOLOGY主動定位p主動定位涉及在參考圖中規劃后續運動路徑,以盡量地減輕機器人空間方向的模糊性p傳統的定位算法與動作選擇無關pANL(Active neural localization)通過端到端強化學習(包括感知模塊和策略模塊)
57、最大化移動后的“后驗概率”(可理解為位置的置信度),從而最小化定位所需的步驟數量1 Chaplot,et al.Active neural localization.2018 arXiv75HARBIN INSTITUTE OF TECHNOLOGY場景重建-新表示pSLAM領域亦在探索幾何外觀等經典屬性之外的環境表示,旨在對層次結構、功能、動態和語義等屬性進行建模p主要的表示形式:p拓撲模型p描述環境連通性的拓撲圖p場景圖p將環境建模為有向圖,其中節點表示對象或位置等實體,邊緣表示這些實體之間的關系76HARBIN INSTITUTE OF TECHNOLOGY場景理解場景信息獲取場景重建場
58、景理解環境原始信息場景認知場景表示抽取視覺信息易利用難利用構建形成激光信息雷達信息觸覺化學聽覺超聲紅外單個物體多個物體場景圖像對象實現物體識別時序變化檢測空間關系推理傳統SLAM深度學習新方法新任務主動映射主動定位新表示拓撲結構場景圖77HARBIN INSTITUTE OF TECHNOLOGY場景理解p理解場景信息是場景感知的重要組成部分p高效的理解過程(例如分割、識別和檢測)為智能體理解復雜環境p場景理解不僅包括物體的識別,還包括物體之間的空間關系和場景幀之間的時間變化物體識別空間關系推理時序變化檢測78HARBIN INSTITUTE OF TECHNOLOGY物體識別p常規的、主流的
59、物體識別方法:pYOLOpMASK RCNNpResNetp這些方法的局限性:難以利用機器人與環境的交互能力p具身智能的物體識別:p物理交互:通過移動(觸碰)物體實現更好的物體識別p更改視點:通過移動改變自身在場景中的位置,結合多視角信息實現更好的物體識別1 Redmon,et al.You only look once:Unified,real-time object detection.2016 CVPR2 He,et al.Mask r-cnn.2017 ICCV3 He,et al.Deep residual learning for image recognition.2016 CV
60、PR79HARBIN INSTITUTE OF TECHNOLOGY物體識別-物理交互pPathak et al.利用簡單的對象操作來協助實例分割和對象識別1 Pathak,et al.Learning instance segmentation by interaction.2018 CVPR通過對象操作實現實例分割的流程80HARBIN INSTITUTE OF TECHNOLOGY物體識別-更改視點pSeeing by Moving模仿人類“通過繞著同一物體走動來獲取多個觀察視角”的策略,使機器人能夠通過自主運動獲取單個物體的多視圖數據p該方法從人類的演示中學習移動策略,而其他方法則依靠
61、強化學習來學習行為策略1 Fang,et al.Move to see better:Self-improving embodied object detection.2020 arXiv81HARBIN INSTITUTE OF TECHNOLOGY空間關系推理p空間關系主要涉及視覺檢測和關系推理p相關的數據集以及空間關系推理的基準benchmark:pRel3dpSpatialsensepopen images1 Goyal,et al.Rel3d:A minimally contrastive benchmark for grounding spatial relations in 3d
62、.2020 NIPS2 Yang,et al.Spatialsense:An adversarially crowdsourced benchmark for spatial relation recognition.2019 ICCV3 Kuznetsova,et al.The open images dataset v4:Unified image classification,object detection,and visual relationship detection at scale.2020 IJCVRel3dSpatialsenseopen images82HARBIN I
63、NSTITUTE OF TECHNOLOGY時序變化檢測p場景變化檢測:一個機器人在兩個不同的時間探索環境,并識別它們之間的任何物體變化。物體變化包括環境中添加和移除的物體p常用數據集:probotic vision scene understanding challengepChangeSimpVL-CMU-CDpPCD1 Hall,et al.The robotic vision scene understanding challenge.2020 arXiv2 Park,et al.Changesim:Towards end-to-end online scene change dete
64、ction in industrial indoor environments.2021 IROS3 Prabhakar,et al.Cdnet+:Improved change detection with deep neural network feature correlation.2020 IJCNN4 Sakurada,et al.Weakly supervised silhouette-based semantic scene change detection.2020 ICRA83HARBIN INSTITUTE OF TECHNOLOGY場景變化檢測pCSR主要針對具身導航任務
65、,智能體在移動穿越場景時跟蹤物體,相應地更新表示,并檢測房間配置的變化pDCA-Det實現面向物體級別的變化檢測1 Gadre,et al.Continuous scene representations for embodied ai.2022 CVPR2 Zhang,et al.Object-level change detection with a dual correlation attention-guided detector.2021 ISPRSCSR框架圖DCA-Det框架圖84HARBIN INSTITUTE OF TECHNOLOGY場景動態感知p4D全景場景圖(PSG-4
66、D),放棄了“動態”的概念,將時間視為場景表示中的變量,作為第四維度納入現有的3D場景圖中。這種新的表現形態適用于場景預測和動態場景理解1 Yang,et al.4d panoptic scene graph generation.2024 NIPS行為感知RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心86HARBIN INSTITUTE OF TECHNOLOGY行為感知p不同于對物體、場景的感知,對人的感知需要人的行為,包括:p手勢識別p身體位姿識別p人類行為理解p機器人對
67、人的行為感知有助于人機交互應用:p社交導航p自動駕駛p人機協作裝配87HARBIN INSTITUTE OF TECHNOLOGY手勢識別p手勢識別是識別圖片中人體手勢的類別,一般以分類任務的形式出現p手勢識別的一般流程:p使用RGB相機或RGBD相機獲取圖片p手勢的分割與檢測:基于膚色、輪廓、深度信息等信息檢測圖中手勢區域和手的關節點p手勢識別:在分割檢測結果的基礎上進行手勢分類88HARBIN INSTITUTE OF TECHNOLOGY人體姿態檢測p人體姿態檢測需要預測2D圖像或3D數據中人體的關節點p單人的姿態檢測,可以使用回歸的方法或基于熱圖的方法p回歸:直接基于圖片預測關節點位置
68、p熱圖:預測每個像素點屬于某個關節的概率,進而基于概率決定關節位置p多人的位姿檢測,可以分為自頂向下和自底向上p自頂向下:識別圖中人體后分別進行姿態估計p自底向上:首先檢測圖中所有關節點,然后進行組合89HARBIN INSTITUTE OF TECHNOLOGY社交導航機器人&自動駕駛p人體姿態估計的結果可以用于預測人類下一步動作,這有助于機器人進行決策p社交導航機器人基于人體位姿預測人類下一步方向,從而選擇移動方向p自動駕駛決策時同樣需要預測人類移動軌跡1 Narayanan et al.ProxEmo:Gait-based Emotion Learning and Multi-view
69、Proxemic Fusion for Socially-Aware Robot Navigation.2020 IROS90HARBIN INSTITUTE OF TECHNOLOGY人機協作裝配場景下防碰撞p除預測人類移動軌跡用于社交導航場景和機器人場景外,在工業場景中人機協作進行裝配任務同樣需要預測人類未來行為軌跡,以免機器人和人發生碰撞1 Zhang et al.Recurrent neural network for motion trajectory prediction in human-robot collaborative assembly.2020 CIRP.91HARBI
70、N INSTITUTE OF TECHNOLOGY人類行為理解p人類行為理解即通過檢測姿勢、運動和環境線索來推斷其正在進行的行為p該領域超越了對基本動作的識別,還包括對復雜行為的分析p人物交互p多人協作p動態環境中的自適應行為p最近的進展側重于通過更深入的語義理解來建模這些行為92HARBIN INSTITUTE OF TECHNOLOGY人類行為理解:統一的動作-語言生成預訓練模型p統一的動作-語言生成預訓練模型MotionGPTp將人類動作視為一種外語,引入自然語言模型進行動作相關生成p功能包括:給定文本生成動作,給定動作生成文本,動作擴增,文本動作描述生成1 Jiang et al.Mo
71、tiongpt:Human motion as a foreign language.2024 NIPSMotionGPT的演示MotionGPT的方法總覽93HARBIN INSTITUTE OF TECHNOLOGY人類行為理解:可理解人類動作和視頻的大語言模型p可理解人類動作和視頻的大語言模型MotionLLMp收集并構建了一個名為MoVid的大規模數據集和MoVid-Bench的基準測試p提出了一個結合視頻和動作數據的統一框架,通過大語言模型來理解人類行為1 Chen L H et al.MotionLLM:Understanding Human Behaviors from Huma
72、n Motions and Videos.2024 arXiv preprint arXiv:2405.20340MotionLLM的基本架構MotionLLM的兩階段訓練表達感知RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心95HARBIN INSTITUTE OF TECHNOLOGY表達感知概述p機器人想獲取人類的情感和意圖,可以通過人的:p面部表情p語音p上述兩種模態信號的結合面部表情、語音情感、意圖96HARBIN INSTITUTE OF TECHNOLOGY表達感
73、知研究意義p表達感知的研究意義:p增強任務協作能力,從而提升機器人在人機交互中的自然性和有效性p更準確地感知用戶的情感變化與意圖,從而顯著提高用戶體驗和滿意度p可能應用的實際場景:陪伴老年人、智慧家居、工業協作等陪伴機器人智慧家居工業機器人97HARBIN INSTITUTE OF TECHNOLOGY面部情感感知p面部表情數據采集一般是通過攝像頭設備進行采集p特征提取p 如幾何特征(關鍵點坐標)、紋理特征(局部二值模式,LBP)和動作單元(Action Units,AU)等p面部情感識別的主要挑戰p 復雜環境下的面部情感感知p 可能包括光照變化、姿態變化、遮擋和不同的背景場景等,對準確性和魯
74、棒性要求更高1 Ma F et al.Facial expression recognition with visual transformers and attentional selective fusion.2021 IEEE Transactions on Affective Computing98HARBIN INSTITUTE OF TECHNOLOGY面部情感感知:復雜環境下的面部情感感知pVisual Transformers與特征融合p針對在野外(即非實驗室控制環境)中的FER任務,能夠處理遮擋、不同的頭部姿勢、面部變形和運動模糊等復雜情況p區域注意力網絡RANp旨在解決現實
75、世界中FER的遮擋魯棒性和姿態不變性問題p構建了若干具有姿態和遮擋屬性的野外FER數據集,解決了對應領域數據集缺乏的情況p邊緣AI驅動(Edge-AI-driven)的FER框架p該框架可以在低功耗設備上實現實時的面部表情識別,確保在有限的計算資源和能源消耗下,仍能保持高精度p這對于智能穿戴設備、智能手機和遠程醫療等應用場景尤為重要1 Ma F et al.Facial expression recognition with visual transformers and attentional selective fusion.2021 IEEE Transactions on Affect
76、ive Computing2 Wang K et al.Region attention networks for pose and occlusion robust facial expression recognition.2020 IEEE Transactions on Image Processing3 Wu Y et al.Edge-AI-driven framework with efficient mobile network design for facial expression recognition.2023 ACM Transactions on Embedded C
77、omputing Systems99HARBIN INSTITUTE OF TECHNOLOGY語音情感感知多模態情感感知p語音情感感知:p從人類的語音信號中提取音高、音調、節奏、音色等特征作為輸入p表示聲音頻率內容的圖像形式:梅爾頻譜圖(Mel-spectrogram)及其梅爾頻率倒譜系數(MFCC)p通過理解說話者的情感狀態,系統能夠做出更加人性化和智能化的響應p在客服機器人、智能助理、心理健康監測等領域有廣泛的應用p多模態情感感知:p通過結合多種不同類型的數據源,如語音、面部表情、身體語言、文本等,來識別人類的情感狀態p在本節特指結合人類的面部表情和語音來進行情感感知p相比單一模態的情感
78、識別,多模態方法能夠從不同維度捕捉情感特征,提高識別的準確性和魯棒性100HARBIN INSTITUTE OF TECHNOLOGY意圖推斷p表達感知不僅可以幫助機器人獲知用戶的情感變化,還可以輔助機器人進行對人類意圖的推斷p意圖推測的精確度對于提升機器人在人機交互中的表現、提高用戶體驗和滿意度具有重要意義p未來的機器人一定是能夠“理解”人的想法的機器人內嵌谷歌PaLM-SayCan模型的機器人正在廚房內幫人類拿零食,該模型能夠幫助機器人更好地理解自然語言并執行復雜任務Figure 01機器人(基于OpenAI大模型)聽到人類說“我餓了”之后,準確領悟到了人類的意圖,選擇了蘋果放到盤子中10
79、1HARBIN INSTITUTE OF TECHNOLOGY指代表達p指代表達是指在特定上下文中生成描述性語言或表達,以便清晰地指代某個特定對象或實體p意圖推斷與指代表達之間的關系:p 指代表達的理解是意圖推測的重要應用形式之一p 在理解指代表達的過程中,機器人需要推測用戶的意圖,以確定用戶所指代的具體對象或位置p指代表達的研究方向p 指代表達的生成(從人類的角度出發)p 指代表達的理解(從機器人的角度出發)p最常見的指代表達形式為接收人類的語言指令來完成人類想要其完成的操作102HARBIN INSTITUTE OF TECHNOLOGY指代表達的理解p動態圖注意力網絡DGAp首次從語言驅
80、動視覺推理的角度探索了引用表達式理解問題,顯著提高了識別復雜引用表達式的能力p模塊化注意力網絡MAttNetp通過模塊化框架關注相關單詞和視覺區域,并動態計算整體匹配分數,顯著提高了機器人的理解性能。1 Yu L et al.Mattnet:Modular attention network for referring expression comprehension.2018 Proceedings of the IEEE conference on computer vision and pattern recognition2 Yang S et al.Dynamic graph att
81、ention for referring expression comprehension.2019 Proceedings of the IEEE/CVF International Conference on Computer Vision指代表達理解的動態圖注意網絡(DGA)的整體架構模塊化注意網絡(MAttNet)的示意圖具身感知小結RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心104HARBIN INSTITUTE OF TECHNOLOGY具身感知p具身感知的過程主
82、要包括以下幾步:感受信息信息的表示/建模/重建信息理解下游任務物體感知場景感知行為感知表達感知RGB相機3D相機觸覺傳感器熱傳感器麥克風獲取3D物體的幾何形狀、鉸接結構、物理屬性信息信息編碼方法場景重建(主動探索、主動定位、場景的表示)基于交互的物體檢測、空間關系理解、時序變化檢測位姿估計、物體抓取、交互感知、可供性預測主要基于2D圖片和深度信息手勢識別、姿態檢測、人類行為理解社交導航、自動駕駛、人機協作主要基于視覺表情和聲音情感識別、意圖推斷(指代表示)105HARBIN INSTITUTE OF TECHNOLOGY具身感知p感知能力強 AND 有一定的推理能力,就可以成為一個很好的機器人
83、落地產品p服務機器人、人機協作場景下機器人、社交導航機器人、環境探索機器人p感知能力也可以為抓取、操作等執行任務提供幫助,在端到端執行模型性能達標前,抓取等任務更多依賴感知能力p多模態大模型處理語言、2D圖片、3D數據都沒有超出我們的想象。但能處理交互數據的大模型還沒有出現在地平線上p在交互感知、主動探索等任務中,模型能否zero-shot的給出行為軌跡p基于已有大模型,依賴人類先驗設計模型結構或訓練算法來彌補這個缺陷?人類先驗或許不那么有效具身推理RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算
84、與信息檢索研究中心107HARBIN INSTITUTE OF TECHNOLOGY環境仿真環境真實環境Sim2Real交互感知環境反饋從交互中學習學習交互數據感知推理執行物體感知場景感知行為感知表達感知物人具體分為任務規劃導航具身問答具體分為智能體基于規則基于大模型基于學習具身智能劃分:感知、推理、執行任務規劃RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心109HARBIN INSTITUTE OF TECHNOLOGY任務規劃簡介我渴了,可以幫我拿杯水放桌上嗎移動到水瓶附近
85、(MoveTo,bottle)把水放到桌上(Put,bottle,table)移動到桌子附近(MoveTo,table)拿起水瓶(PickUp,bottle)p任務規劃(Task Planning)是具身智能的核心任務之一(另一個核心是技能學習),將抽象的非可執行人類指令轉換為具體的可執行技能p完成人類指令只需要兩步:人類指令分解為機器人可執行的技能,執行技能110HARBIN INSTITUTE OF TECHNOLOGY任務規劃簡介p任務規劃的假設:機器人有一組可執行技能集p潛在含義一:機器人并非萬能,技能集之外的不能執行p潛在含義二:需要顯式的指定技能,“你先拿捏住”這種自然語言要解析才
86、能被執行p與軌跡規劃的區別(Motion Planning)p任務規劃:將人類指令分解為給定技能集的離散技能序列p軌跡規劃:為機器人執行操作技能生成連續7-DOF軌跡p難點:p需要理解人類指令p需要理解周圍環境p需要理解技能集合111HARBIN INSTITUTE OF TECHNOLOGY任務規劃早期方法:專家系統p專家系統,如STRIPS,PRODIGYAI,SHOP2等,使用不同的形式化建模和搜索策略 STRIPS PRODIGYAI SHOP21 Fikes et al.STRIPS:A New Approach to the Application of.Theorem Provi
87、ng to Problem Solving.1971 IJCAI.2 Carbonell et al.PRODIGY:an integrated architecture for planning and learning.1991 SIGART Bull.3 Au et al.SHOP2:An HTN Planning System.2003 arXiv.112HARBIN INSTITUTE OF TECHNOLOGY任務規劃早期方法:統一建模語言p建模語言,PDDL和ASP:統一規劃建模語言,簡化問題求解器的開發。PDDL示例 ASP示例 1 Howe et al.PDDL-the pl
88、anning domain definition language.1998 ICAPS2 Lifschitz et al.What Is Answer Set Programming?.2008.AAAI113HARBIN INSTITUTE OF TECHNOLOGY基于深度學習技術的任務規劃:RPN網絡pRPN網絡在符號空間進行回歸規劃,給定最終目標和當前觀測,從后向前預測中間目標,直到中間目標對當前狀態是可達的p使用神經網絡進行搜索,而非傳統的啟發式搜索、深度優先或廣度優先搜索(搜索空間隨物體數量指數增加)1 Xu et al.Regression Planning Networks.
89、2019.NeurIPS114HARBIN INSTITUTE OF TECHNOLOGY結合大模型的任務規劃:大模型作為轉換器p大模型作為轉換器pLLM+P,用LLM將狀態信息描述成PDDL語言再進行規劃,取代以往需要人工針對實際問題書寫PDDL語言對任務進行建模 1 Liu et al.LLM+P:Empowering Large Language Models with Optimal Planning Proficiency.2023 arXiv.115HARBIN INSTITUTE OF TECHNOLOGY結合大模型的任務規劃:大模型作為規劃器p大模型作為規劃器p可以zero-s
90、hot進行任務規劃 1 Huang et al.Language Models as Zero-Shot Planners:Extracting Actionable Knowledge for Embodied Agents.2022.arXiv.116HARBIN INSTITUTE OF TECHNOLOGY構建用于任務規劃的具身智能體p結合大模型(多模態大模型)、小模型,以圖片、自然語言、代碼構建Prompt,設計Pipeline框架,作為具身智能體pPrompt中還可以加入記憶、反饋等信息。充分利用大模型的圖文理解能力、推理能力 1 Singh et al.ProgPrompt:Ge
91、nerating Situated Robot Task Plans using Large Language Models.2023 Autonomous Robots.117HARBIN INSTITUTE OF TECHNOLOGY微調大模型用于任務規劃pPalm-E搜集了大量具身智能數據對LLM進行訓練,并支持多模態輸入 1 Driess et al.PaLM-E:An Embodied Multimodal Language Model.2023.arXiv.118HARBIN INSTITUTE OF TECHNOLOGY訓練小模型檢測可行性,與大模型結合p技能小模型為技能提供可行
92、性評分,為大模型任務規劃提供參考p該工作經典之處在于,大模型難以判斷一個技能的可執行性,沒有grounding到物理世界 1 Ahn et al.Do As I Can,Not As I Say:Grounding Language in Robotic Affordances.2022.arXiv.119HARBIN INSTITUTE OF TECHNOLOGY任務規劃的評估p基準集和相關指標1 Yi et al.EgoPlan-Bench:Benchmarking Multimodal Large Language Models for Human-Level Planning.2023
93、.arXiv.2 Srivastava et al.BEHAVIOR:Benchmark for Everyday Household Activities in Virtual,Interactive,and Ecological Environments.2021.arXiv.3 Puig et al.Watch-and-help:A challenge for social perception and human-ai collaboration.2020.arXiv.4 Shridhar et al.ALFRED:A Benchmark for Interpreting Ground
94、ed Instructions for Everyday Tasks.2020.CVPR2020.120HARBIN INSTITUTE OF TECHNOLOGY任務規劃的關鍵問題、關鍵信息p任務規劃的關鍵問題p結構化p大模型輸出自然語言,需要解析后才能被程序使用,可能出現未精準匹配,無法映射為單技能的情況p可行性p結構化的動作不具備執行的可行性,例如操作不存在的物體,物體離機器人太遠,物體不支持操作p有用性p即使結構化的動作、被操作物體可被執行,它們還應該是有助于完成任務的p任務規劃的兩種關鍵信息p觀測信息p場景描述、物體列表、圖片。不同類型的觀察信息有不同的特點p反饋信息p即使通過可行性
95、檢測,機器人仍有可能執行技能失敗,此時反饋信息很重要121HARBIN INSTITUTE OF TECHNOLOGY通用執行模型出現后的任務規劃指令文本、環境圖片動作(一般就是軌跡)規劃大模型洗碗切菜炒菜技能庫結構化的規劃結果(調用哪個小模型,參數是什么)文本大模型(只拆解任務)語言短指令(非結構化的)通用執行器具身執行大模型動作(一般就是軌跡)技術路線一技術路線二VS技能小模型人類演示強化學習模仿學習組成導航RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心123HARBIN
96、INSTITUTE OF TECHNOLOGY訓練小模型檢測可行性,與大模型結合p具身導航(Embodied Navigation):智能體在3D環境中移動完成導航目標p目標的形式可以是點、物體、圖像、區域;目標可以結合聲音、自然語言指令、人類先驗傳統導航方法基于學習的導航方法與LLM結合的導航方法大模型之前大模型之后20222000124HARBIN INSTITUTE OF TECHNOLOGY基于規則的導航SLAM建圖技術路徑規劃算法避障算法p 早期的具身導航,通過構建一系列基于規則的組件和算法,實現有效的環境感知、定位、路徑規劃和避障p 關鍵技術包括:p 優點:魯棒性強、計算效率高、實
97、現方法簡單、確定性高p 缺點:適應性差、依賴地圖,建圖成本高、缺乏學習能力125HARBIN INSTITUTE OF TECHNOLOGY基于學習的導航p 基于學習的導航利用深度學習與強化學習技術,提高模型對復雜環境和新場景的泛化能力p 不同于傳統算法依賴預定義的規則和手工設計的特征,基于學習的導航算法從大量數據中學習環境特征和導航策略,實現強自適應性和高靈活性p 按照輸入模態可以分為:p 視覺導航(Visual Navigation)p 視覺語言導航(Vision-Language Navigation)126HARBIN INSTITUTE OF TECHNOLOGY視覺導航p 視覺導航
98、是基于學習的導航的一個重要分支,它依靠計算機視覺來理解環境信息并做出導航決策p 視覺導航面臨的主要挑戰包括:p 如何從視覺輸入中提取有用的信息p 如何理解和記憶環境的布局p 如何規劃路徑視覺輸入輸出規劃視覺輸入輸出規劃強化學習算法環境理解記憶模塊規劃模塊特征提取模塊非端到端的方法端到端的方法127HARBIN INSTITUTE OF TECHNOLOGY提取視覺信息p 從環境中提取信息有多種方法:p 卷積神經網絡(CNN)在捕捉圖像空間層次結構方面表現優異p 多種預訓練模型的應用p ResNet、VGG、Inception等預訓練模型大幅提升了目標識別的效率和成功率p 注意力機制在視覺感知中
99、的應用p VTNet 通過學習場景中所有對象實例的關系和空間位置,生成方向性導航信號128HARBIN INSTITUTE OF TECHNOLOGY提取視覺信息p VTNet包含一個視覺 Transformer(VT)和一個導航策略網絡。p 視覺策略網絡首先分割出場景中物體實例。實例特征與空間特征融合,獲取對局部的重點表示p 同時全局特征也添加位置嵌入,獲得對場景整體的表示,兩個表示一起解碼得到視覺表示1 Du et al.VTNet:Visual Transformer Network for Object Goal Navigation.ICLR 2021129HARBIN INSTIT
100、UTE OF TECHNOLOGY建模環境信息p 模型構建方法p 空間布局建模:使用地圖構建和路徑規劃的聯合架構,如Gupta et al提出的認知圖構建p 拓撲圖建模:基于圖神經網絡進行的定位與導航行為分解p 場景占用狀態推斷:p 使用RGB-D觀測進行超出可見區域的場景占用狀態推斷,提升空間感知能力p 知識圖譜與深度強化學習結合:p 將知識圖譜與強化學習結合,推斷目標對象可能位置,生成導航策略p 貝葉斯關系記憶(BRM):p 捕捉訓練環境中的布局先驗,在測試中更新記憶并高效規劃導航路徑1 Gupta et al.Cognitive mapping and planning for visu
101、al navigation.2020 IJCV2 Chen et al.A behavioral approach to visual navigation with graph localizationnetworks.2019 RSS 3 Ramakrishnan et al.Occupancy anticipation for efficient exploration and navigation.2020 ECCV4 Yang et al.Visual semantic navigation using scene priors.2018 arxiv5 Yi Wu.2019.Baye
102、sian relational memory for semantic visual navigation.2019 ICCV130HARBIN INSTITUTE OF TECHNOLOGY路徑規劃p 近年來,對于未知環境路徑規劃任務,基于強化學習的端到端系統取得了顯著的成功p DFP(直接未來預測):基于未來行為預測的學習方法,解決感知運動控制問題p BDFP:引入中間地圖表示,使黑盒更具解釋性p DD-PPO方法p 三種輔助任務(動作條件對比預測編碼、逆動力學學和時間距離估計),提升樣本和時間效率p SAVN方法p 鼓勵模型在動態環境中進行自適應學習,提高了路徑規劃的靈活性和效率1 Do
103、sovitskiy et al.Learning to act by predicting the future.2017 ICLR2 Mishkin et al.Benchmarking classic and learned navigation in complex 3d environments.2019 arxiv3 Wijmans et al.DD-PPO:Learning Near-Perfect PointGoal Navigators from 2.5 Billion Frames.2019 arxiv4 Ye et al.Auxiliary tasks speed up l
104、earning point goal navigation.2021 CoRL5 Wortsman et al.Learning to learn how to learn:Self-adaptive visual navigation using meta-learning.2019 CVPR131HARBIN INSTITUTE OF TECHNOLOGY視覺語言導航p 視覺語言導航是通過通過自然語言指令和視覺圖像進行導航的任務,其目標是開發一種能夠與人類進行自然語言交流并在現實3D環境中導航的具身智能體p 視覺語言導航可以根據時間節點分為p 大模型之前的視覺語言導航p 主要通過RNN,L
105、STM,Transformer等網絡來提取命令中的語義信息p 結合LLM的具身導航p 利用大模型作為輔助來幫助規劃器輸出規劃或者大模型直接作為規劃器來輸出規劃132HARBIN INSTITUTE OF TECHNOLOGY自監督的輔助推理任務提高VLN效果p 該論文針對視覺語言導航任務,提出四個輔助推理任務用于預訓練:軌跡復述、進度評估、角度預測、跨模態匹配,基于LSTM和注意力機制,提高視覺信息和語義信息的融合效果,進而生成更好的導航動作1 Zhu et al Vision-Language Navigation with Self-Supervised Auxiliary Reasoni
106、ng Tasks 2020,arxiv133HARBIN INSTITUTE OF TECHNOLOGY結合LLM的具身導航p 大模型的出現顯著改變了視覺語言導航領域的發展p 大模型,或者視覺語言聯合預訓練模型如CLIP等,為該領域帶來了新的方法和思路,使得視覺語言導航系統變得更加智能和魯棒p 根據大模型的作用不同,這里我們將這些工作分為:p 視覺語言聯合預訓練模型的應用p 大模型基于構建的地圖輸出規劃p 大模型基于圖片轉換的文本描述輸出規劃134HARBIN INSTITUTE OF TECHNOLOGY視覺語言聯合模型的應用1 Dorbala et al.CLIP-Nav:Using CL
107、IP for Zero-Shot Vision-and-Language Navigation.2022 arxivp 首先將粗粒度指令分解為關鍵詞短語,然后使用 CLIP 將短語與當前輸入圖片計算相似度,選擇最恰當的圖片作為下一步方向135HARBIN INSTITUTE OF TECHNOLOGY大模型基于構建的地圖1 Yu et al L3MVN:Leveraging Large Language Models for Visual Target Navigation 2022,arxivp 構建語義地圖,從已探索地圖和障礙物地圖中提取邊界地圖,每個邊界都是下一步候選搜索窗口p LLM根
108、據目標物體和候選搜索窗口的觀測信息之間的相關性打分,選擇下一步方向136HARBIN INSTITUTE OF TECHNOLOGY大模型基于圖片轉換成的文本描述輸出規劃1 Zhou et al NavGPT:Explicit Reasoning in Vision-and-Language Navigation with Large Language Models.2023 arxivp NavGPT 將視覺觀察的文本描述、導航歷史和未來可探索方向作為輸入來推理代理的當前狀態,并做出接近目標的決定具身問答RESEARCH CENTER FOR SOCIAL COMPUTING AND INF
109、ORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心138HARBIN INSTITUTE OF TECHNOLOGY具身問答p具身問答任務最早由Das et al.提出,該任務下機器人需要主動探索環境,定位目標物體或位置,獲取環境中的信息,然后基于獲取的信息回答問題。該任務可視為導航、VQA任務的結合p相比于VQA等已有問答任務,具身問答的特點在于機器人具有主動行動能力1 Das et al.Embodied Question Answering.2018 CVPR139HARBIN INSTITUTE OF TECHNOLOGY具身問答方法創新p最早的具身問答論文:
110、一個模塊處理一個子任務p路徑規劃模塊:導航p視覺識別模塊:目標識別p問答模塊:生成自然語言回復p方法優化:pLuo et al.針對嘈雜環境設計魯棒性更強的導航、問答模塊,并提出兩階段魯棒學習算法pLi et al.提出Model-based RL的EQA算法,通過“想象”下一個子目標環境圖片,提高探索效率,并使得智能行為更加具有可解釋性pChaplot et al.多任務聯合學習,將文本信息與視覺特征融合1 Das et al.Embodied Question Answering.2018 CVPR2 Luo et al.Robust-EQA:Robust Learning for Emb
111、odied Question Answering With Noisy Labels.2023 ITNNLS3 Li et al.Walking with MIND:Mental Imagery eNhanceD Embodied QA.2019 ACM MM4 Chaplot et al.Embodied Multimodal Multitask Learning 2019 IJCAI140HARBIN INSTITUTE OF TECHNOLOGY具身問答任務創新p多目標EQA:在單個EQA樣例中,智能體需要找多個目標才能準確回答問題,更強調規劃、推理、記憶能力p多智能體EQA:多智能體協
112、作一起完成任務,不同的智能體需要有一個策略分配任務,避免重復搜索,還需要交換、整合信息,提高完成任務的效率p知識增強EQA:外源知識增強的EQA,外源知識可以幫助智能體回答更復雜,范圍更全面的問題1 Yu et al.Multi-Target Embodied Question Answering.2019 CVPR2 Tan et al.Multi-agent Embodied Question Answering in Interactive Environments.2020 ECCV3 Tan et al.Knowledge-Based Embodied Question Answer
113、ing.2021 TPAMI141HARBIN INSTITUTE OF TECHNOLOGY具身問答數據集與盲人BenchmarkpEQA數據集:750個場景,45個不同物體,7種房間類別,5000個問題pMT-EQA數據集:6種復合問題類型,包括多目標比較。588個場景,19287個問題pBlind Benchmark:在EQA v1數據集上,不基于環境觀察回答問題,2018年提出時成為當時的sota,僅在智能體初始點離物體特別近的情況下效果略有落后具身推理小結RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱
114、工業大學社會計算與信息檢索研究中心143HARBIN INSTITUTE OF TECHNOLOGY具身推理p在推理任務上,大模型具有非常顯著的優勢,其相比于小模型推理能力有了顯著的提升p基于大模型構建具身智能體是一個非常自然的選擇,但也存在許多問題:p推理速度慢,推理開銷大p生成結果不夠穩定p復雜的Agent結構難以維護,且時間開銷會更大具身執行RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心145HARBIN INSTITUTE OF TECHNOLOGY環境仿真環境真實環境
115、Sim2Real交互感知環境反饋從交互中學習學習交互數據感知推理執行物體感知場景感知行為感知表達感知物人具體分為任務規劃導航具身問答具體分為智能體基于規則基于大模型基于學習具身智能劃分:感知、推理、執行146HARBIN INSTITUTE OF TECHNOLOGY具身執行:技能學習p在具身感知中我們介紹了很多任務,并根據感知對象的不同分為四大類p對非人的感知:物體感知、場景感知p對人的感知:行為感知、表達感知p在具身推理中我們介紹了三個重點任務:任務規劃、導航、具身問答p在具身執行中我們僅介紹一個任務:技能學習p技能學習:以技能描述、環境觀察為輸入,輸出完成技能所需的7Dof軌跡p7Dof
116、軌跡主要指:人手腕或者機械臂末端執行器的位置、朝向、末端狀態p主要為手部操作,雖然不足以表達人或機器人全部動作空間,但足以覆蓋生活中絕大多數技能147HARBIN INSTITUTE OF TECHNOLOGY技能學習的兩類方法p模仿學習:收集專家演示數據,用神經網絡擬合p強化學習:設計獎勵函數,機器人通過交互學習行為策略p行為策略:給定技能描述,在當前觀察下,選擇動作執行p其本質差別在于p模仿學習從樣例中學習;機器人學習過程中不與環境進行交互p樣例一般也是提前收集的交互樣例數據,也可以算廣義的交互學習p強化學習從交互中學習;機器人學習過程中與環境進行交互模仿學習RESEARCH CENTER
117、 FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心149HARBIN INSTITUTE OF TECHNOLOGY模仿學習p模仿學習主要理解并復制人類或機器人行為p數據采集方法p基于通過攝像頭捕捉的專家演示p攝像頭通常安置在執行主體的手腕、頭部或側面p演示數據來源p動覺教學(手動接觸)、VR、手柄、GUI界面控制等p演示數據組成p收集到的專家演示包括一系列觀察和行動p示范數據展示了末端執行器或關節的位置或者速度p學習策略與目標p核心是學習行為策略,將觀察映射到連續動作空間p模仿學習可以分為兩部分:對圖像的編碼
118、,圖像表示映射到動作p一般而言,圖像的編碼器使用預訓練的視覺編碼器更好,如果只使用樣例數據集訓練編碼器會導致實際應用中缺乏泛化性p機器人的動作空間一般是連續的。對于連續動作值的預測一般有以下幾類:150HARBIN INSTITUTE OF TECHNOLOGY模仿學習總覽直接策略隱式策略擴散策略觀察動作回歸預測分布離散化建模全概率分布,尋找最優動作K步去噪到最優動作想辦法直接映射到動作151HARBIN INSTITUTE OF TECHNOLOGY直接策略:行為克隆p最經典、使用最廣泛的策略學習算法,是將圖像編碼后直接映射到動作p唯一的區別在于損失函數的設計,即預測的動作值與真實動作值之間
119、的損失p包括RT-1、RT-2在內的具身多模態大模型均采用該方法BC-Z模型,使用回歸的方式設計LossRT-1模型,離散成256個bin1 Jang et al.BC-Z:Zero-Shot Task Generalization with Robotic Imitation Learning.2021 CoRL2 Brohan et al.RT-1:Robotics Transformer for Real-World Control at Scale.2022 Arxiv152HARBIN INSTITUTE OF TECHNOLOGY行為克隆可能出現的問題 以及 動作聚類方法p模仿學習
120、數據集往往假設:專家完成任務只使用一種方式此方法將動作進行聚類,然后分別預測動作的類別和偏移量中間是障礙物,可以向上繞過,可以向下繞過,但不能走中間可以向左,可以向右,但是不能中間真實軌跡有多條的情況下,使用回歸的方式就會有問題p作者認為上述假設錯誤地認為,樣例數據集的動作來自同一個分布。真實情況是多個分布。1 Shafiullah et al.Behavior Transformers:Cloning k modes with one stone.NIPS 2022153HARBIN INSTITUTE OF TECHNOLOGY隱式策略:隱行為克隆p直接的動作映射存在一些問題,包括:p軌跡
121、不連續p多種模式(存在多種軌跡)p作者提出隱式策略,不直接建模條件概率分布,而是建模觀察與動作的聯合概率分布。在實際推理中,需要基于聯合概率分布,基于優化的方法尋找最優動作。兩次離散操作軌跡多種模式(操作軌跡)橫軸是觀察空間,縱軸是動作空間,圖中每個點表示(觀察、動作)對,顏色的深淺表示(觀察、動作)對的好壞,黑色軌跡就是最好的那些(觀察、動作)對1 Florence et al.Implicit Behavioral Cloning.CoRL 2021154HARBIN INSTITUTE OF TECHNOLOGY擴散策略p為機器人生成動作其實是生成軌跡,因為生成動作一般不是預測一個動作,
122、而是生成動作序列。p軌跡生成需要考慮序列的連貫性,因此有研究者將其他領域中的生成方法引入策略學習中:p聯合概率建模 隱行為克隆p擴散模型生成圖片 擴散策略生成軌跡序列既能建模多種模式的軌跡,又帶有隨機性可以采樣出多種可行的軌跡能建模多種模式的軌跡,但整個過程是確定性的,只能產生一種模式的軌跡建模多種模式的軌跡失敗圖中藍色箭頭表示梯度,是某個觀察下最好的動作取值點的方向,可以看到梯度都指向軌跡上的點,也就是最好的(觀察、動作)對155HARBIN INSTITUTE OF TECHNOLOGY擴散策略p訓練過程:p加噪:從專家演示中隨機采樣一條軌跡,然后不停的向其中加入噪聲;p去噪:取加噪后的軌
123、跡,基于觀察預測加入的噪聲,進行軌跡的還原;p推理:p初始從高斯分布中采樣一小段軌跡,基于這段軌跡和觀察預測噪聲,然后減去噪聲,去噪持續K步生成最后的軌跡1 Chi et al.Diffusion Policy:Visuomotor Policy Learning via Action Diffusion.RSS 2023156HARBIN INSTITUTE OF TECHNOLOGY策略學習:最近鄰居算法p無參數的策略學習算法:對于給定圖片,尋找和它最相似的一組圖片,取這組圖片對應的動作進行加權平均,即為輸出動作p證明了視覺編碼的重要性。使用好的視覺編碼,結合簡單的策略學習算法,效果可以達
124、到與行為克隆同等水平1 Pari et al.The Surprising Effectiveness of Representation Learning for Visual Imitation.RSS 2022強化學習RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心158HARBIN INSTITUTE OF TECHNOLOGY強化學習:獎勵函數指導的交互學習框架p強化學習(Reinforcement learning,RL)p強化學習專注于如何讓智能體在環境中采取行動以
125、最大化某種累積獎勵p基于與環境的交互,智能體學習選擇最佳行動,逐步改善其行為策略p應用廣泛,包括自動駕駛、游戲、機器人控制等p無模型強化學習(Model-Free RL)直接從環境交互學習最優策略或價值函數,依賴嘗試和錯誤經驗提升策略性能優點:能學習復雜行為,無需構建顯式的環境模型挑戰:可能需大量環境交互,樣本效率較低p基于模型的強化學習(Model-Based RL)學習環境的動態模型,用于規劃或預測未來狀態。通過“想象”未來的環境狀態,提高樣本效率,減少實際交互需求優點:更高的效率和規劃能力挑戰:環境模型的準確性對性能起到至關重要的作用159HARBIN INSTITUTE OF TECH
126、NOLOGYTD-MPC2 Model-basedpDynamic modelp獎勵函數 =,p總回報 =,p多任務訓練中不同任務之間獎勵大小差別可能太大,將獎勵預測和回報預測看作離散回歸(分類)問題。用CE損失函數p狀態預測模型=,p策略 =,p編碼器 =,以上五個組件均為MLP(LayerNorm,Mish激活函數)(任務表示)(環境觀測)(動作)(環境編碼)在TD-MPC基礎上添加了多任務的支持1 Hansen et al TD-MPC2:Scalable,Robust World Models for Continuous Control.2024 ICLR160HARBIN INST
127、ITUTE OF TECHNOLOGYEUCLID Model-basedp預訓練p交互 p更新(基于 TD-MPC 的)dynamic modelp更新策略 得到prep微調(下游任務)p交互 prep更新 dynamic modelp更新策略pre得到1 Yuan et al EUCLID:Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model.2023 ICLR161HARBIN INSTITUTE OF TECHNOLOGYGrasp-Q-Network Model-f
128、reepDQN在抓取中的應用pQ網絡p目標網絡與當前訓練網絡分離p經驗重放pp環境輸入p獎勵p電機反饋信號p多視角相機p輸出p電機動作1 Joshi et al Robotic Grasping using Deep Reinforcement Learning.2020 CoRR未來方向RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心163HARBIN INSTITUTE OF TECHNOLOGY通用執行模型指令文本、環境圖片動作(一般就是軌跡)規劃大模型洗碗切菜炒菜技能庫結
129、構化的規劃結果(調用哪個小模型,參數是什么)文本大模型(只拆解任務)語言短指令(非結構化的)通用執行器具身執行大模型動作(一般就是軌跡)技術路線一技術路線二VS技能小模型人類演示強化學習模仿學習組成164HARBIN INSTITUTE OF TECHNOLOGY未來方向p鑒于大模型的成功案例,開發一個通用執行模型變得尤為重要p一個高度泛化的通用執行模型,能夠理解各種人類文本命令,適應不同的場景配置、物體位置和形狀,以及不同機器人的動作空間和操作模式p這樣的模型可以持續適應新技能,提供更好的泛化能力,并且學習速度更快p此外,模型的性能極大地受到數據質量、模型架構和訓練方法的影響p實現卓越的泛化
130、能力需要依賴多樣化和高質量的訓練數據p通過跨多個任務聯合訓練,模型可以在不同的任務技能中展示廣泛的適應性p當前,像Octo、RT-X和OpenVLA等模型已經在高質量數據集Open X Embodiedemnt的基礎上表現出卓越的性能,實現了包括物體類型、位置、任務場景、機器人類型和人類命令等多個維度的泛化165HARBIN INSTITUTE OF TECHNOLOGY什么最重要?泛化!泛化!泛化!以RT-1實驗為例p 第一行從左到右干擾物(Distractors)難度逐漸加大p第二行從左到右分別是初始環境,變換桌布圖案,新的廚房環境166HARBIN INSTITUTE OF TECHNO
131、LOGY具體效果:RT-1p 轉到真實廚房中的真實場景中,分為三個等級:p L1 用于泛化到新的桌面布局和照明條件p L2 用于泛化到未見過的干擾對象p L3 用于泛化到新的任務設置、新任務對象或未見過的位置(例如水槽附近)167HARBIN INSTITUTE OF TECHNOLOGY具體效果:RT-1p 加入仿真數據會降低真實環境下見過的物體和技能上的表現,大幅提高仿真環境下的表現p 加入新類型機械臂在新任務的數據不會造成嚴重的性能下降,且會提高在新加入任務的表現168HARBIN INSTITUTE OF TECHNOLOGY具體效果:RT-1p 數據多樣性更重要p 減少3%的數據量和
132、25%見過的任務量,p 幾乎等同于減少50%數據量和0%任務量數據多樣性降低25%數據規模減少50%169HARBIN INSTITUTE OF TECHNOLOGY具體效果:RT-2p 保持對圖片、文字的語義理解能力、推理能力,并與動作策略相結合?;蟮哪P捅憩F更好170HARBIN INSTITUTE OF TECHNOLOGY具體效果:RT-2p 參數量大效果更好,混合預訓練數據聯合微調可以提高泛化性p From scratch:僅使用機器人數據,不基于VLMp fine-tuning:使用機器人數據微調VLMp Co-fine-tuning:機器人數據和VQA數據一起訓練VLM混合預
133、訓練數據分別帶來2%和11%的成功率增幅增加參數量分別帶來10%和20%的增幅171HARBIN INSTITUTE OF TECHNOLOGY具體效果:OpenVLAp 定義了視覺泛化、運動泛化、物理泛化和語義泛化四種評估任務,OpenVLA僅在語義上落后p visual:未見過的的背景、干擾物體、物體的顏色/外觀p motion:未見過的物體位置/方向p physical:未見過的大小和形狀p semantic:未見過的目標物體、指令、概念p 額外增加一個多對象的任務,測試能否做到語言和對應物體的grounding172HARBIN INSTITUTE OF TECHNOLOGY數據 大規
134、模收集人工數據pOpen-X-Embodiment數據集p匯編了來自22個不同機器人系統的超過一百萬個操作軌跡p涵蓋了34個機器人研究實驗室的60個獨立數據集p記錄了從拾取到組裝等簡單到復雜的行動,涵蓋了包括家電、食物在內的多種家庭物品p研究表明,使用Open X Embodiment數據集訓練的模型如RT-X、Octo和OpenVLA,與先前模型相比,在泛化能力上有顯著提升pRT-X的研究顯示,使用足夠大的模型,更廣泛的數據集顯著提高了模型在多個領域的性能pOcto在對象定位、照明、背景和干擾等泛化條件下表現出色,與從零開始訓練或使用傳統微調基線方法相比,展示了更好的學習效率pOpenVLA
135、在視覺、動力、物理和語義泛化的各種任務中設定了新的評估標準,雖然在語義泛化方面略有不足,但在將微調轉移到新機器人的大多數任務中,相比其他算法表現更佳1 Padalkar et al.Open x-embodiment:Robotic learning datasets and rt-x models.2023 arXiv2 Team et al.Octo:An open-source generalist robot policy.2024 arXiv3 Kim et al.OpenVLA:An Open-Source Vision-Language-Action Model.2024 arX
136、iv173HARBIN INSTITUTE OF TECHNOLOGY數據 自動化構造數據pGraspNeRFp基于可泛化的神經輻射場(NeRF)的多視角6自由度(DoF)抓取檢測方法p透明物體的特殊材質給深度相機準確感知其幾何結構帶來挑戰,而此方法有效應對了這一挑戰p生成大規模、光學真實的領域隨機合成數據集p系統能直接從仿真轉移到現實世界并泛化出穩健的材料特定表現1 Dai et al.Graspnerf:Multiview-based 6-dof grasp detection for transparent and specular objects using generalizable
137、 nerf.2023 IEEE International Conference on Robotics and Automation174HARBIN INSTITUTE OF TECHNOLOGY數據 自動化構造數據pRoboGenp自主提出有趣的任務和技能,然后生成相應的模擬環境以在此基礎上學習和獲取技能p任務提案:通過隨機抽樣機器人類型和物體,使用基于GPT-4的語言模型生成任務提案p場景生成:系統為任務生成相應的場景,通過聚合必要的物體增加場景的復雜性和多樣性p訓練監督生成:RoboGen計劃并分解生成的任務為更短的子任務,并選擇適當的算法(如強化學習、基于梯度的軌跡優化或帶有運動規
138、劃的動作原語)進行學習1 Wang et al.Robogen:Towards unleashing infinite data for automated robot learning via generative simulation.2023 arXi175HARBIN INSTITUTE OF TECHNOLOGY數據 無標注數據pVideoDexp使用大量未標記人類視頻數據訓練機器人的方法,數據源為從互聯網收集的大量手部動作視頻p通過重新定位和調整運動數據,該方法自動細化動作和視覺先驗p隨后指導機器人在復雜環境中進行視覺感知和運動規劃p特別是,這種方法使機器人能夠模仿人類對小型或復雜
139、物體的精細操控,無需額外的訓練負擔1 Shaw et al.Videodex:Learning dexterity from internet videos.2023 Conference on Robot Learning176HARBIN INSTITUTE OF TECHNOLOGY數據 無標注數據pH2Rp通過觀察日常環境中人類行為的視頻來學習執行任務p利用基于視覺表示技術的動作預測模型,從單一視點拍攝的初始圖像預測人類行為的未來序列p通過采用先進的視覺處理技術,該模型將人類運動軌跡轉換為機器人世界坐標系中的動作序列p整個學習過程僅依賴于觀察自然人類互動,無需針對機器人任務的先前注釋。
140、1 Bharadhwaj et al.Zero-shot robot manipulation from passive human videos.2023 arXiv177HARBIN INSTITUTE OF TECHNOLOGYRecall:最簡單的策略算法 和 有效的視覺表示p無參數的策略學習算法:對于給定圖片,尋找和它最相似的一組圖片,取這組圖片對應的動作進行加權平均,即為輸出動作p證明了視覺編碼的重要性。使用好的視覺編碼,結合簡單的策略學習算法,效果可以達到與行為克隆同等水平1 Pari et al.The Surprising Effectiveness of Represent
141、ation Learning for Visual Imitation.RSS 2022178HARBIN INSTITUTE OF TECHNOLOGY模型-視覺表示與動作策略解耦pGAPartNetp首先對觀察到的物體進行分割和分類,然后根據物體的類別選擇特定的操作p使用大規模合成數據訓練視覺處理部分,顯著增強了模型在真實世界環境中的適用性p特別是對于透明物體或具有特殊姿態的物體,在抓取和操控方面實現了高成功率1 Geng et al.Gapartnet:Cross-category domain-generalizable object perception and manipulati
142、on via generalizable and actionable parts.2023 CVPR179HARBIN INSTITUTE OF TECHNOLOGY訓練-多任務聯合訓練pBC-Zp一個基于視覺的機器人操控系統,通過模仿學習實現對新任務的零樣本泛化p能夠根據不同的任務信息進行條件化,例如來自自然語言的預訓練嵌入或人類執行任務的視頻p通過將數據收集擴展至涵蓋100多項獨特任務,研究發現該系統能夠在沒有任何機器人示范的情況下完成24項以前未見過的操控任務,平均成功率達到44%p該研究展示了模仿學習在處理未知任務中的潛力,并為零樣本泛化提供了有效的解決方案1 Jang et al.
143、Bc-z:Zero-shot task generalization with robotic imitation learning.2022 Conference on Robot Learning具身執行小結RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心181HARBIN INSTITUTE OF TECHNOLOGY具身執行p大模型用于具身執行會存在很多問題:推理速度慢、數量需求大、可解釋性差p但是具身執行強調泛化性,對物體位置、形狀、場景、技能、機器人類別各種維度上的泛
144、化性,泛化性也是目前最主要的挑戰p因此大模型仍然是具身執行未來的趨勢p目前使用大模型壓縮大量數據,實現一個比較好的擬合效果,在真實場景數據上有很好的泛化性,仍然是最有可能實現通用執行模型的方式p雖然目前10B量級以下大模型的能力不斷增強,但是1B以上的模型規模應該有必要的p如果不在具身執行上取得突破,實現一個通用執行模型,那么科幻電影中的智能人形機器人就永遠不會到來,人工智能也只存在于命令行和對話界面上RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心具身智能今后如何發展?183H
145、ARBIN INSTITUTE OF TECHNOLOGY需要深入研究的具身智能技術棧 多模態具身智能大模型構建技術 基于大模型的持續學習技術 基于大模型的交互式學習技術 仿真環境及世界模型的構建技術184HARBIN INSTITUTE OF TECHNOLOGY需要深入研究的具身智能技術棧 多模態具身智能大模型構建技術如何解決數據問題?如何處理復雜和多模態的輸入數據?如何輸出穩定、像人類的執行動作?如何讓模型具備更豐富的世界知識、常識知識?如何像人類一樣有邏輯的分析和決策規劃?決策規劃模型和執行模型能否統一?185HARBIN INSTITUTE OF TECHNOLOGY需要深入研究的具
146、身智能技術棧 基于大模型的持續學習技術人類在一生當中需要不斷學習,智能機器人是否也需要這樣?如何讓智能機器人在不斷學習時,避免“狗熊掰棒子”?186HARBIN INSTITUTE OF TECHNOLOGY需要深入研究的具身智能技術棧 基于大模型的交互式學習技術人類的學習過程絕大部分是通過與環境交互,智能機器人是否也需如此?人類一直在通過接收環境反饋信息,糾正自己的行為和認知人類一直在通過接收環境反饋信息,糾正自己的行為和認知如何讓智能機器人在真實世界中自主的去學習?187HARBIN INSTITUTE OF TECHNOLOGY需要深入研究的具身智能技術棧 仿真環境及世界模型的構建技術如
147、何構建可以媲美真實環境的仿真環境或世界模型?Real2Sim:模型算法、機器人硬件效果都需要在仿真環境中測試驗證,仿真越逼真越有效模型算法、機器人硬件效果都需要在仿真環境中測試驗證,仿真越逼真越有效世界模型:模型的訓練也需要環境反饋怎么辦?需要仿真快速給出準確反饋:模型的訓練也需要環境反饋怎么辦?需要仿真快速給出準確反饋RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心為什么研究具身智能?189HARBIN INSTITUTE OF TECHNOLOGY新質生產力新質生產力,是創新
148、起主導作用,擺脫傳統經濟增長方式、生產力發展路徑,具有高科技、高效能、高質量特征,符合新發展理念的先進生產力質態。新質生產力作為先進生產力的具體體現形式,是馬克思主義生產力理論的中國創新和實踐,是科技創新交叉融合突破所產生的根本性成果。190HARBIN INSTITUTE OF TECHNOLOGY人工智能將成發展新質生產力重要引擎191HARBIN INSTITUTE OF TECHNOLOGY通用人工智能的關鍵分支具身智能與機器人工信部人形機器人創新發展指導意見192HARBIN INSTITUTE OF TECHNOLOGY具身智能的研究意義p宏觀意義:具身智能的發展,可以推動我國工業
149、生產智能化,為建設制造強國、網絡強國和數字中國提供支撐,促進我國實體經濟的發展。p科研意義:“具身”意味著主動性和交互性,而這也是目前最接近“智能”的大模型所欠缺的。因此,我們認為,具身智能是通用人工智能未來的發展方向。p應用意義:家務機器人四足機器狗物流機器人工業機器人RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心具身智能的行業應用194哈爾濱工業大學 計算學部 社會計算與信息檢索研究中心產業分析我們的嘗試p 為解放展廳人類講解員的重復勞動,團隊開發可全自動導覽或人機協同半自
150、動導覽的展廳講解機器人輪式機器人“小紅”195哈爾濱工業大學 計算學部 社會計算與信息檢索研究中心p 語音識別準確率高:在35dB,45dB,55dB的環境音測試中,用戶整句的識別成功率達到了99%(即錄音的起始點判斷準確率極高)p 人機交互覆蓋范圍全:人工設計了20個常見的多輪問答和多個導航指令,該機器人的回答準確率高達95%、而導航指令均能命中對應的展區名稱p 檢索增強穩定高效:針對兩萬字的數據設計了30個問題,實現了100%的命中率產業分析我們的嘗試196HARBIN INSTITUTE OF TECHNOLOGYTesla Optimus Gen2pTesla推出Optimus的二代版
151、本,其能力比一代有了長足的進步。但目前其技術細節并未公布197HARBIN INSTITUTE OF TECHNOLOGYFigure Figure 01pOpenAI ChatGPT與機器人結合的產物,Figure 01具備強大的與人深入交流,同時獨立做出決策和執行命令的能力pFigure 01通過OpenAI多模態大模型提供視覺和文本的理解能力,并通過策略神經網絡提供快速,低級,靈巧的機器人動作198HARBIN INSTITUTE OF TECHNOLOGY宇樹 H1p宇樹科技打造全國第一臺能跑的全尺寸通用人形機器人,在機動性、靈活性等方面具備優勢,移動速度達到世界領先水平pH1機器人的
152、機器腦智能化水平暫未公布199HARBIN INSTITUTE OF TECHNOLOGY行業應用機器人宇樹B2機器狗優必選遞送機器人優必選清潔機器人優必選導覽機器人200HARBIN INSTITUTE OF TECHNOLOGY產業分析人形機器人行業熱潮國際投資銀行高盛援引的一份報告指出,如果人形機器人的產品設計、用例、技術、負擔能力和廣泛公眾接受度方面的障礙得到徹底克服,預計到 2035 年,市場規模將高達 1540 億美元。優必選(中國深圳)Walker S美國 Figure(OpenAI)Figure 01小米 CyberOne201HARBIN INSTITUTE OF TECHN
153、OLOGY產業分析海外代表性公司和產品公司本田波士頓動力 Agility Robot特斯拉1XFigureSanctuary AI產品名稱AsimoAtlasDigitOptimusEveFigure 01phoenix產品圖片時間2011201320182021201920242023應用領域交互服務未明確物流、工業制造工業制造醫療護理通用機器人通用機器人最新進展20年終止研發融資1.5億美元小規模量產融資1.25億美元融資6.75億美元結合LLM/人工智能202HARBIN INSTITUTE OF TECHNOLOGY產業分析國內代表性公司和產品公司優比選小米追覓智元傅立葉智能宇樹達闥產
154、品名稱WalkerXCyber one 通用人形機器人遠征A1GR1H1XR4產品圖片時間2021202220232023202320232023應用領域生活服務生活服務家務工業制造生活、醫療C端服務C端交互最新進展市值超過1000億最新融資6億元 最新融資4億元 最新融資10億元 最新融資超10億元203HARBIN INSTITUTE OF TECHNOLOGY產業分析關注度較高的創業公司銀河通用銀河通用美團為公司第一大外部股東估值:數億美金公司名稱成立時間高管團隊產品范圍估值2023-05-19王鶴王鶴,博士斯坦福,北大助理教授,北京智源具身大模型中心主任姚騰洲姚騰洲,北航機器人碩士,曾
155、就職于ABB機器人研發中心聚焦藥店藥店、商超商超等零售場景零售場景,專注研發雙臂輪式機器人雙臂輪式機器人,預計2024年發布,2026年量產星海圖星海圖2023-09-05穹徹智穹徹智能能盧策吾盧策吾,上海交大教授,師從李飛飛王世全,本科浙江大學機械,博士斯坦福大學堅持AI算法與本體協同研發的技術路線,從需求出發,自主設計并制造本體自主設計并制造本體天使輪:融資額千萬級美元2023-11-02智能機器人智能機器人;服務消費機服務消費機器人器人;通用應用系統通用應用系統;硬硬件銷售件銷售;融資金額千萬級別,估值數億許華哲許華哲,本科清華,博士加州伯克利,博后斯坦福,清華叉院助理教授高繼揚高繼揚,
156、本科清華,博士南加州大學,多家無人駕駛企業就職,引用量4000+204HARBIN INSTITUTE OF TECHNOLOGY產業分析關注度較高的創業公司星動紀元星動紀元獲超億元天使輪融資公司名稱成立時間高管團隊產品范圍估值2023-08-04陳建宇陳建宇,博士加州伯克利,清華叉院助理教授人形機器人硬件本體;以大語言模型和力控算法構建的人形機器人智能模塊。千尋智能千尋智能2024-01-16加速進加速進化化程昊程昊,清華大學碩士,字節跳動游戲部門朝夕光年創始人智能機器人智能機器人研發;硬件銷硬件銷售售、人工智能應用軟件開人工智能應用軟件開發發、互聯網銷售互聯網銷售等2023-06-20人形
157、機器人本體制造和運控開發平臺千萬元天使輪融資高陽高陽,博士加州伯克利,清華叉院助理教授韓峰濤,珞石機器人聯合傳世人,浙江大學205HARBIN INSTITUTE OF TECHNOLOGY產業分析總結技術落地還需時間p 通用機器人產業分析p 頭部聚集效應嚴重,僅排名靠前的頭部企業才容易存活p 需要大量的供應鏈優勢,以加速機器人量產p 需要長期積累,短期難以獲得收益p難以商業化落地到特定場景p難以通過技術突破獲得融資通用機器人具有重要的研究意義和應用價值,但短期內難以收獲效益。且該行業競爭激烈,需要足夠的資金和快速的技術迭代才能取得優勢RESEARCH CENTER FOR SOCIAL CO
158、MPUTING AND INFORMATION RETRIEVAL哈爾濱工業大學社會計算與信息檢索研究中心具身智能的機遇與挑戰207HARBIN INSTITUTE OF TECHNOLOGY具身智能研究的機遇p模型和算法創新:具身智能需要新的模型與算法,通過交互提升機器的感知、認知和決策能力p實驗平臺的發展:機器人為各種感知、認知、決策算法提供了落地平臺,研究人員可以在真實環境中對算法進行測試p多學科交叉:具身智能是人工智能、機器人學、人機交互等多學科融合的研究方向,有些問題或許換個視角就能解決p技術轉移潛力:具身智能的研究可以促進技術的轉移,推動本方向的發展,如CV為Robotics提供視
159、覺功能非交互的算法:學習有遮擋物體的識別交互的算法:學習如何移開遮擋識別物體AI&Robotics:我們希望打造兒童情感陪伴機器狗,如何才能更智能?人機交互:低智能的陪伴機器狗也能滿足需求,過于智能會導致恐怖谷效應208HARBIN INSTITUTE OF TECHNOLOGY具身智能研究的挑戰機器人復雜系統實現的挑戰:智能化機器人包括感知、決策和行動,系統設計和實現的復雜性極高機器人持續學習進化的挑戰:人類社會在發展,機器人也要不斷的學習新工具、提高自身能力機器人倫理安全的挑戰:確保智能系統的行為符合人類價值觀并且不構成威脅機器人量產和商業化的挑戰:智能化算法需要達到低資源、低成本、高可控
160、性、高穩定性的商業化、產品化需求209HARBIN INSTITUTE OF TECHNOLOGY機器人倫理安全的挑戰能夠精準殺傷人類目標的智能無人機AI 殺人蜂210HARBIN INSTITUTE OF TECHNOLOGY機器人倫理安全的挑戰2024年7月15日,馬克米利稱:2039年,美國作戰部隊將有1/3是機器人美國前任參謀長聯席會議主席馬克米利超級士兵機器人211HARBIN INSTITUTE OF TECHNOLOGY機器人倫理安全的挑戰“從技術角度出發,你可以想象在未來,人工智能驅動的機器、人工智能驅動的機器人可以自己做出決定。這是世界想要的嗎?”美國前任參謀長聯席會議主席馬克米利謝謝!郵箱:主頁:https:/ 博士在讀陳一帆 碩士在讀長聘教授長聘教授/博士生導師博士生導師哈工大人工智能學院執行院長哈工大人工智能學院執行院長兼計算學部副主任兼計算學部副主任國家級青年人才國家級青年人才