《嚴駿馳-AiDD主會場-世界模型增強下的自動駕駛.pdf》由會員分享,可在線閱讀,更多相關《嚴駿馳-AiDD主會場-世界模型增強下的自動駕駛.pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、世界模型增強下的自動駕駛嚴駿馳 上海交通大學目 錄CONTENTS1.世界模型介紹2.世界模型增強下的自動駕駛 視頻生成3.世界模型增強下的自動駕駛 閉環決策演講嘉賓嚴駿馳上海交通大學計算機系教授/國家優青嚴駿馳,上海交通大學計算機系教授,支部書記,CCF杰出會員/杰出講者。國家優青、IET Fellow、科技部2030新一代人工智能重大項目、基金委人工智能重大研究計劃項目負責人,教育部深度學習資源建設首席專家。曾任IBM研究院首席研究員。主要研究興趣為機器學習及交叉應用。發表第一/通訊作者CCF-A類論文超百篇,谷歌引用過萬次,成果先后獲PaperDigest評選的最具影響力AAAI21、I
2、JCAI23論文榜首,及陜西省自然科學一等獎(排三)。長期任機器學習三大會議ICML/NeurIPS/ICLR領域主席,模式識別旗艦期刊PRJ編委。指導學生獲得挑戰杯特等獎、CCF優博/CV新銳獎、交大學術之星等榮譽和本科生自然科學基金。世界模型介紹PART 01圖靈獎得主 Yann LecunYann Lecun的人腦模型IYann LeCun構想的人腦模塊I總控(Configurator):協調所有模塊感知(Perception):獲得環境當前狀態評價(Cost):評估在當前以及可能的未來下,個體的“舒適度”短期記憶(Short Memory):存儲當前狀態以及預測的未來以及對應的“舒適度
3、”行動(Actor):給出在當前狀態下最大化個體“舒適度”的行為世界模型(World Model):給定當前狀態,基于打算做的動作,預測可能的未來狀態“人類和動物能夠通過觀察和以獨立于任務、無監督的方式學習大量有關世界如何運作的背景知識,也就是我們所謂的常識 世界模型世界模型模塊構成了體系結構中最復雜的部分。其角色是雙重的:(1)估計感知模塊未提供的有關世界狀態的缺失信息(2)預測世界的合理未來狀態。世界模型可以預測世界的自然演變,也可以預測由執行器模塊提出的一系列動作導致的未來世界狀態”I A Path Towards Autonomous Machine Intelligence.2022
4、.Yann Lecun世界模型介紹世界模型介紹世界模型的神經網絡實現初步探索IILSTM之父Jrgen Schmidhuber 在其2018年NeurIPS的文章中,探索了神經網絡能否在自己想象中的環境中學習?環境狀態編碼器 VAE未來狀態預測器 MD-RNN控制器(決策)-C可以完成簡單的游戲I Understanding comics:the invisible art.S.McCloud.Tundra Publishing.1993.II Recurrent World Models Facilitate Policy Evolution.Ha,David,and J rgen Schm
5、idhuber.NeurIPS 2018世界模型示例。源自I,在II中被被使用,而成為經典示例一個基于神經網絡的世界模型IIJrgen Schmidhuber世界模型與自動駕駛自動駕駛子任務多且繁雜(感知、預測、決策)-標注成本高數據成長尾分布,多樣性要求高-要求豐富的時間、地點、行為-高采集成本世界模型與自動駕駛視頻生成模型OpenAI Sora展示了無監督Scale Up視頻生成模型的強大潛力Video by Sora:“SUV in the dust”世界模型與自動駕駛世界模型增強下的自動駕駛顯式生成逼真視頻-數據增強,感知訓練GAIA-1 DriveDreamer/DriveDream
6、er2GenADDrive-WMADriver-Ietc隱空間預測未來世界-神經仿真器,閉環決策訓練Think2Drive(上海交通大學)視頻生成模型,以GenAD為例隱空間預測模型,以Think2Drive為例世界模型增強下的自動駕駛 視頻生成PART 02世界模型增強下的自動駕駛 視頻生成GAIA-1(Generative Artificial Intelligence for Autonomy,Wayve,2023)世界模型:Autoregressive Transformer,預測下一個圖片Token(僅前視相機)解碼器:將預測出的Token轉換成視頻,可以于世界模型分別訓練4700小
7、時訓練集,世界模型6.5B參數(128 A100*15天),解碼器2.6B參數(32 A100*15天)GAIA-1模型圖GAIA-1:A Generative World Model for Autonomous Driving.arXiv:2309.17080世界模型增強下的自動駕駛 視頻生成DriveDreamer(GigaAI+清華大學,2023)/DriveDreamer-2(GigaAI+自動化所,2024)專注Conditioned Generation,給定3D框、高精地圖、自車動作、文本描述等約束,同時生成未來視頻與動作分階段訓練生成圖片、視頻,可利用圖片預訓練V2版本和LL
8、M結合自動化生成車輛軌跡,根據軌跡訓練一個高精地圖生成器,擴充數據nuScenes:3.89小時訓練數據DriveDreamer模型圖DriveDreamer:Towards Real-world-driven World Models for Autonomous Driving.arXiv:2309.09777DriveDreamer-2:LLM-Enhanced World Models for Diverse Driving Video Generation.arXiv 2403.06845DriveDreamer2模型圖世界模型增強下的自動駕駛 視頻生成GenAD(CVPR 2024
9、,上海人工智能實驗室OpenDriveLab)Language Condition+僅前視自采公開數據:2000+小時Youtube視頻,64 A100Zero-shot 泛化數據集能力GenAD模型圖Generalized Predictive Model for Autonomous Driving.CVPR 2024世界模型增強下的自動駕駛 視頻生成Drive-WM(CVPR24,自動化所)Conditioned Generation+環視一致性結合下游目標檢測與高精地圖檢測模型,計算未來幀的合法性,進而通過Tree-Search,完成決策nuScenes數據集:3.89小時訓練數據Dr
10、ive-WM模型圖Driving into the Future:Multiview Visual Forecasting and Planning with World Model for Autonomous Driving.CVPR 2024世界模型增強下的自動駕駛 視頻生成ADriver-I(曠視,2023)圖文大模型:根據當前圖片與自車狀態,產生動作擴散視頻生成模型:根據當前圖片、自車狀態、打算執行的動作,產生未來圖片二者可聯合進行rolloutAdriver-I模型圖ADriver-I:A General World Model for Autonomous Driving.arX
11、iv 2311.13549世界模型增強下的自動駕駛 視頻生成總結方法名輸入輸出數據規模Condition 3D框Condition高精地圖環視輸出預測動作GAIA-14700小時DriveDreamer/DriveDreamer2/3.89小時GenAD2000小時Drive-WM3.89小時ADriver-I 3.89小時ADriver-I:A General World Model for Autonomous Driving.arXiv 2311.13549世界模型增強下的自動駕駛 視頻生成總結通過結合Foundation Model中的常識,視頻生成有望為長尾問題的解決提供助力更多討論
12、見 LLM4Drive:A Survey of Large Language Models for Autonomous Driving.(arxiv.org/abs/2311.01043)世界模型增強下的自動駕駛 閉環決策PART 03世界模型增強下的自動駕駛 閉環決策傳統的基于規則的車端自動駕駛系統決策方案:狀態機+路徑搜索+運動規劃等多個模塊結合的人工定義決策方案“小鵬官方稱,與高速公路NGP(Navigation Guided Pilot 導航輔助駕駛)相比,城市NGP的代碼量是高速NGP的6倍、感知模型數量多出4倍、預測和規控的代碼量多出了88倍”復雜場景下的手工設計決策的難度指數上
13、升,長尾場景越多,新增代碼難度越大(新舊規則兼容)-反向 Scaling Law世界模型增強下的自動駕駛 閉環決策基于學習的數據驅動的車端自動駕駛系統決策方案:ChatGPT擊敗基于規則的聊天機器人-數據驅動范式 從人類專家數據與自主探索中學習:數據+算力+訓練時間越多,性能越好-Scaling Law 自動駕駛公司特斯拉CEO馬斯克:最新的FSDV12中,基于神經網絡的決策模塊代碼量相比基于規則的減少30萬行VS世界模型增強下的自動駕駛 閉環決策 模仿學習監督學習人類駕駛數據只知道怎么開是對的,不知道怎么開是錯的,不知道怎么從錯誤中回復(知其然,不知其所以然)因果倒置、魯棒性差、泛化能力差、
14、閉環實車評測效果不佳I 強化學習通過探索學習駕駛策略獎勵與懲罰-知其所以然隨機探索解決自動駕駛中的長尾分布效率存在挑戰I Parting with Misconceptions about Learning-based Vehicle Motion Planning,CoRL 2023世界模型增強下的自動駕駛 閉環決策 已有的基于強化學習的方案 Roach基于經典Model-Free RL模型PPO,純決策模塊使用鳥瞰圖下的(BEV)表征,解耦感知與決策可學會基本駕駛技能:跟車、變道、急剎、紅燈停綠燈行探索效率相比Model-based RL較低,不具備超車、避障、匯流、窄道會車等復雜交互能力
15、End-to-End Urban Driving by Imitating a Reinforcement Learning Coach.ICCV 21(Oral)世界模型增強下的自動駕駛 閉環決策 Think2Drive基于RSSM world model(Google Deepmind最新工作)通過在訓練出的世界模型中學習,可提高數十倍采樣效率,模型訓練僅需單卡A6000-48G GPU 3天第一個,也是唯一一個解決其中CARLA v2中所有39種長尾場景的方案Think2Drive:Efficient Reinforcement Learning by Thinking in Laten
16、t World Model for Quasi-Realistic Autonomous Driving(in CARLA-v2).arXiv 2024世界模型增強下的自動駕駛 閉環決策 Think2DriveWorld Model實現(RSSM):編碼器(Encoder):將輸入圖片映射為狀態(隱變量)-編碼信息隱空間預測模型(Sequence Model+Dynamics Predictor+Reward Predictor+Termination Predictor):根據當前狀態和執行動作,預測下一時刻的狀態、得到的獎勵-預測未來解碼器(Decoder):將狀態轉換回圖片 提供監督信號
17、結合World Model的強化學習1.用當前駕駛策略網絡+隨機擾動,在物理仿真中采集數據,訓練world model2.在world model中,用RL算法,訓練駕駛策略網絡1、2交替進行Think2Drive:Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving(in CARLA-v2).arXiv 2024世界模型增強下的自動駕駛 閉環決策 Think2Drive基于世界模型的強化學習在自動駕駛中的優勢:物理仿真較慢,難以大量并行
18、,是強化學習的探索效率瓶頸。在世界模型的隱空間中訓練,相當于Neural仿真,可利用GPU的Tensor層面并行,單卡就可同時進行上千個環境仿真自動駕駛BEV下的世界預測難度相對較低,易得到好的世界模型額外結合最前沿的強化學習技術,進一步提高性能課程學習 由易到難優先級采樣 在有挑戰的場景中學習退火世界模型訓練-世界模型后期已經非常精準,專注訓練策略網絡動作穩定性 減少RL算法內在的動作波動Think2Drive:Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Auto
19、nomous Driving(in CARLA-v2).arXiv 2024世界模型增強下的自動駕駛 閉環決策 Think2Drive性能斷崖式領先(91.7 vs 0.6)世界模型(左一輸入,后續為世界模型預測)Think2Drive:Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving(in CARLA-v2).arXiv 2024總結與展望 總結世界模型作為以一種Neural Simulator,使得自動駕駛中的策略學習可以計算驅動,更多的GPU=更多的探索高幾個數量級級別的探索,對于解決自動駕駛策略學習中的長尾問題至關重要 展望海量無監督自動駕駛數據中學習World Model基于強化學習的策略網絡嵌入端到端自動駕駛框架強化學習+人類駕駛數據對齊(SFT/RLHF)THANKS