1、張偉楠上海交通大學http:/決策智能:任務與技術概覽歡迎關注動手學強化學習https:/ 決策智能前沿論壇2分享內容 決策智能技術概覽 強化學習的基礎概念和思維方式 強化學習的落地現狀與挑戰兩種人工智能任務類型3p預測型任務 根據數據預測所需輸出(有監督學習)生成數據實例(無監督學習)p決策型任務 在靜態環境中優化目標(優化問題)在動態環境中采取行動(強化學習)決策智能的任務和技術分類4環境特性白盒環境變量和目標之間的關系可以用具體公式表示黑盒環境變量和目標之間的關系無法用具體公式表示靜態環境環境沒有轉移的狀態單步決策運籌優化(混合整數)線性規劃非線形優化黑盒優化神經網絡替代模型優化貝葉斯優
2、化動態環境環境有可轉移的狀態多步決策動態規劃MDP直接求解樹、圖搜索強化學習策略優化Bandits、序貫黑盒序貫決策p根據決策環境的動態性和透明性,決策任務大致分為以下四個部分,對應具體的技術方案5運籌優化(Operational Research)生產排期例子變量:每個時段生產的物品和量 約束:生產物品、生產環境的依賴 目標:成本p運籌優化任務往往可以由數學公式直接寫出,是典型的白盒環境,以常見的混合整數規劃問題為例目標約束變量6黑盒優化(Black-box Optimization)工業制造例子:一套生產線500個參數可以調整,需要找到合適的參數,使得產出零件的壞件率最低;但開啟生產線后一
3、段時間才能計算壞件率。p黑盒優化任務往往無法由數學公式直接寫出輸入和輸出的對應關系,主要面臨的挑戰包括無顯式解、收斂性等問題優化的目標函數未知、甚至評估也不容易在一定范圍內尋找最優變量7序貫決策(Sequential Decision Making)絕大多數序貫決策問題,可以用強化學習來解p序貫決策中,智能體序貫地做出一個個決策,并接續看到新的觀測,直到最終任務結束智能體動態環境機器狗例子:操作輪足和地形持續交互,完成越過障礙物的任務8分享內容 決策智能 強化學習的基礎概念和思維方式 強化學習的落地現狀與挑戰9強化學習定義p通過從交互中學習來實現目標的計算方法p三個方面:感知:在某種程度上感知
4、環境的狀態 行動:可以采取行動來影響狀態或者達到目標 目標:隨著時間推移最大化累積獎勵觀察(observation)行動(action)獎勵(reward)智能體(agent)10強化學習交互過程p在每一步t,智能體:獲得觀察Ot 執行行動At 獲得獎勵Rtp環境:獲得行動At 給出獎勵Rt 給出觀察Ot+1pt在環境這一步增加獎勵觀察行動智能體環境!獨特性:策略不同,交互出的數據也不同!11在與動態環境的交互中學習有監督學習無監督學習強化學習預測模型固定的數據智能體動態環境12一個智能體的例子:MIT機器狗Margolis et al.Rapid Locomotion via Reinfor
5、cement Learning.Arxiv 2205.02824,2021.https:/ 即,一直到時間t為止的所有可觀測變量 根據這個歷史可以決定接下來會發生什么 智能體選擇行動 環境選擇觀察和獎勵p狀態(state)是一種用于確定接下來會發生的事情(行動、觀察、獎勵)的信息 狀態是關于歷史的函數!=,#,#,#,!$,!$,!$,!=(!)14強化學習系統要素p策略(Policy)是學習智能體在特定狀態的動作決策 確定性策略(Deterministic Policy)=()隨機策略(Stochastic Policy)p獎勵(Reward)一個定義強化學習目標的標量,能立即感知到什么是“
6、好”的(,)=!=!=)p環境(Environment)預測下一個狀態!=#$%=|#=,#=!=#|#=,#=預測下一個(立即)獎勵獎勵觀察行動智能體環境!價值-策略的動態規劃求解(白盒動態環境)15p價值是一個標量,用于定義對于長期來說什么是“好”的p給策略定義價值函數:從某個狀態和動作開始,獲得的累積獎勵期望&(%,%)=()+5!(!()5!)*(*,)&(,)=(+)+(%)+,(,)+|+=,+=,Bellman等式立即獎勵時間折扣狀態轉移下一個狀態的價值p基于函數,改進策略;基于上式,更新函數(策略迭代的動態規劃)SARSA強化學習方法(黑盒動態環境)16p對于當前策略執行的每個
7、(狀態-動作-獎勵-狀態-動作)元組pSARSA更新狀態-動作值函數為,+(+%,%(,)狀態,執行動作觀測到獎勵轉移到下一個狀態狀態,執行動作SARSA算法17注:在線策略時序差分控制(on-policy TD control)使用當前策略進行動作采樣。即,SARSA算法中的兩個“A”都是由當前策略選擇的SARSA示例:Windy Gridworld18注意:隨著訓練的進行,SARSA策略越來越快速地抵達目標p每步的獎勵=-1,直到智能體抵達目標網格p無折扣因子價值和策略近似19p假如我們直接使用深度神經網絡建立這些近似函數呢?p深度強化學習!-(,)-(|)-(,)-(|)價值函數近似策略
8、近似a1a2s13.24.1s20.81.2s32.3-0.3價值函數表格a1a2s10.20.8s20.40.6s30.90.1策略表格20深度強化學習的崛起 2012年AlexNet在ImageNet比賽中大幅度領先對手獲得冠軍 2013年12月,第一篇深度強化學習論文出自NIPS 2013 Reinforcement Learning WorkshopVolodymyr Mnih,Koray Kavukcuoglu,David Silver et al.Playing Atari with Deep Reinforcement Learning.NIPS 2013 workshop.深度
9、強化學習21p深度強化學習 利用深度神經網絡進行價值函數和策略近似 從而使強化學習算法能夠以端到端的方式解決復雜問題Volodymyr Mnih,Koray Kavukcuoglu,David Silver et al.Playing Atari with Deep Reinforcement Learning.NIPS 2013 workshop.Q函數的參數通過神經網絡反向傳播學習端到端強化學習22標準(傳統)計算機視覺深度學習標準(傳統)強化學習深度強化學習深度強化學習使強化學習算法能夠以端到端的方式解決復雜問題從一項實驗室學術變成可以產生GDP的實際技術Slide from Serge
10、y Levine.http:/rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf深度強化學習帶來的關鍵變化23p將深度學習(DL)和強化學習(RL)結合在一起會發生什么?價值函數和策略變成了深度神經網絡 相當高維的參數空間 難以穩定地訓練 容易過擬合 需要大量的數據 需要高性能計算 CPU(用于收集經驗數據)和GPU(用于訓練神經網絡)之間的平衡 p這些新的問題促進著深度強化學習算法的創新輸出:行動行動價值多層全連接網絡多層卷積網絡輸入:直接觀察在 Atari 環境中的實驗結果24“Human-Level Control Th
11、rough Deep Reinforcement Learning”,Mnih,Kavukcuoglu,Silver et al.(2015)The performance of DQN is normalized with respect to a professional human games tester(that is,100%level)normalized performance=DQN score random play scorehuman score random play score25深度強化學習的研究前沿多智能體強化學習分散式、去中心化的人工智能模仿學習無獎勵信號下跟
12、隨專家做策略學習目標策動的層次化強化學習長程任務的中間目標是橋梁的基石基于模擬模型的強化學習模擬器的無比重要性強化學習大模型探索以大的序列建模方式來完成序貫決策任務離線強化學習訓練過程中智能體不能和環境交互26強化學習大模型:從序列建模來看強化學習任務Chen et al.Decision Transformer:ReinforcementLearning via Sequence Modeling.NeurIPS 2021.Transformer的架構Decision Transformer的基本架構CQLDecision Transformer在一些離線強化學習的任務中已經取得很不錯的效果
13、27強化學習大模型:從序列建模來看強化學習任務Meng,Linghui,et al.Offline Pre-trained Multi-Agent Decision Transformer:One Big Sequence Model Conquers All StarCraftII Tasks.arXiv:2112.02845(2021).p數字大腦研究院、中科院和高校團隊于2021年11月發布首個多智能體強化大模型MADT,使用一個GPT模型完成多個星際爭霸對戰任務。離線訓練效果預訓練微調效果MADT架構MADT訓練流程28強化學習大模型:從序列建模來看強化學習任務Reed et al.A
14、 Generalist Agent.Arxiv 2021.pDeepMind于2022年5月發布Gato決策大模型,使用同一個GPT網絡(11.8億參數)同時完成約600個任務 采樣每個任務的專家數據 使用完全有監督學習離線訓練 使用部分專家軌跡做prompt29分享內容 決策智能 強化學習的基礎概念和思維方式 強化學習的落地現狀與挑戰30強化學習的落地場景 無人駕駛 游戲AI 交通燈調度 網約車派單 組合優化 推薦搜索系統 數據中心節能優化 對話系統 機器人控制 路由選路 工業互聯網場景 31快遞倉庫分揀機器人Tech China32強化學習技術在體育場景的新嘗試https:/ M.Le,P
15、eter Carr,Yisong Yue and Patrick LuceyData-Driven Ghosting using Deep Imitation LearningMIT Sloan Sports Analytics Conference(SSAC),2017(Soccer)33無人駕駛歸控https:/ et al.SMARTS:Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving.CoRL 2020.專門為訓練無人駕駛場景下的多智能體規控AI的模擬器34強化學習技術落地的挑戰人對于AI的更高要求p強化學習要求機器做出決策,改變世界,這其實是賦予了AI更大的權力,反過來也就對強化學習算法有了更高的要求p高仿真度模擬器和安全強化學習技術決策場景千變萬化p任務多種多樣,目標、數據、效率要求等皆不同p需要算法團隊對具體的場景任務比較了解算力的極大需求pTrial-and-error學習機制導致強化學習比起預測型深度學習模型需求的數據量和相應的算力都更大(大12個數量級)p一個統一的、高效的、服務強化學習的計算平臺很重要