1-1 表征強化學習研究及應用.pdf

編號:102342 PDF 17頁 3.10MB 下載積分:VIP專享
下載報告請您先登錄!

1-1 表征強化學習研究及應用.pdf

1、表征強化學習研究與應用華為諾亞方舟實驗室李棟Security Level:目錄1.背景2.強化學習研究3.強化學習業務落地Huawei Proprietary-Restricted Distribution31.背景 強化學習工業界進展 強化學習學術界進展ICLR2021詞云圖Covariant,視覺輸入的RL機械臂控制應用于制造,物流倉儲,零售等領域。強化學習短視頻精細推薦用戶觀看時長提升10%+,流量分發場景效率提升100%強化學習MOBA游戲AI取得與職業選手相當的Elo分值強化學習芯片布局6小時完成布局,質量超過/匹配人類專家,可用于ASIC/TPU芯片強化學習相關挑戰賽強化學習算法發

2、展路線圖Huawei Proprietary-Restricted Distribution42.1 強化學習基本概念 強化學習關鍵要素智能體通過與環境交互,基于環境反饋信號以試錯式學習方式學習最優策略。關鍵概念:狀態 ,可以為離散或連續狀態,低維或高維動作 ,可以為離散或連續動作獎賞信號 =(,)狀態轉移模型(+1|,)Andrey MarkovS1S2S3(+1|,)(+1|,)a1a2馬爾可夫性,+1與1無關vs.High rewardLow rewardLow-dim stateDiscrete actionHigh-dim stateContinuous action通常未知Huaw

3、ei Proprietary-Restricted Distribution52.1 強化學習基本概念 強化學習關鍵要素智能體通過與環境交互,基于環境反饋信號以試錯式學習方式學習最優策略。關鍵概念:狀態 ,可以為離散或連續狀態,低維或高維動作 ,可以為離散或連續動作獎賞信號 =(,)狀態轉移模型(+1|,)觀測=(|),智能體所看到的真正世界!Andrey MarkovS1S2S3(+1|,)(+1|,)a1a2S1S2S3(+1|,)(+1|,)a1a2o1o2o3End-effector position:x,yToy1 position:x,yToy2 position:x,y馬爾可夫性

4、,+1與1無關Huawei Proprietary-Restricted Distribution62.1 強化學習基本概念 強化學習關鍵要素智能體通過與環境交互,基于環境反饋信號以試錯式學習方式學習最優策略。值函數:狀態值函數(V函數):貝爾曼方程=,+,(),=,+,(,)強化學習優化目標:優化控制策略,最大化期望累積獎賞回報動作值函數(Q函數):Richard BellmanS1S2S3(+1|,)(+1|,)a1a2通常未知-蒙特卡洛估計馬爾可夫性,+1與1無關Huawei Proprietary-Restricted Distribution72.2 強化學習的挑戰樣本生成估計值函數

5、/環境模型策略提升采樣慢!游戲世界采樣1000 x wall-clock1x wall-clock現實世界采樣挑戰:數據效率低,難以直接在現實世界學習“9600 TPUs were used and over 60 000 years of StarCraft 2 wasplayed,costing 26 million for dedicated,uninterrupted TPUs.”https:/ Proprietary-Restricted Distribution82.3 強化學習的挑戰數據效率低 如何提升數據利用率?從表征學習角度的思考End-effector position:x

6、,yToy1 position:x,yToy2 position:x,yMocoSimCLRYann LeCun:Self-supervised learningalgothmsthose that generate labelsfrom data by exposing relationshipsbetween the datas parts,believed to becritical to achieving human-levelintelligence.Yoshua Bengio:Reveal the way high-level semantic variables connect

7、 withhow the brain processes information.Prof.LeCun,Bengio at ICLR 2020.Huawei Proprietary-Restricted Distribution92.3 強化學習的挑戰數據效率低 如何提升數據利用率?從表征學習角度的思考狀態表征學習:RAD,CURL使用對比學習輔助視覺輸入特征學習;策略/動作表征學習:策略擴展值函數PeVFA(自研);任務空間表征學習:對比元強化學習方法CCM(自研);獎賞/Goal表征學習:UPN學習planning-based reward表征,RIG生成imaginary goal完成g

8、oal space表征;時序對比表征學習:TCN,mfTCN從時序角度對同一事件構建多視角對比表征任務;MDP過程一致性表征學習:Deep MDP學習Bisimulation metric。RAD:RL with augmented dataPeVFA:Policy extended value function approximatorCCM:Contrastive Context Meta-RLRIG:RL with imagined goal SPR:self-predictive representationDeep MDP(Laskin,et al,2020)(Gelada,et a

9、l.2019)(Schwarzeret al.,2021(Nair et al.,2018)Huawei Proprietary-Restricted Distribution102.3 強化學習的挑戰數據效率低 如何提升數據利用率?SPR(Self-Predictive Representation)基于自監督方式學習具備良好前向預測能力的隱空間核心思想:時序預測+數據增廣EncoderTransition modelPredictive headPrediction lossSchwarzer,et al.Data efficient reinforcement learning with

10、 self-predictive representation,ICLR 2021Huawei Proprietary-Restricted Distribution112.3 強化學習的挑戰數據效率低 如何提升數據利用率?利用環境模型時序前向+逆向推演,引入更豐富梯度信號 Learning via Forward Prediction時序前向推演可學習到強語義特征的隱空間結構Model-free:SPRModel-based:Dreamer Learning via RetracingIntuition:同一套物理運動規則(transition)約束著環境的運行,前向推演和逆向推演互為補充,

11、符合同一套MDP的約束同一個世界,同一套物理規則Yu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution122.3 強化學習的挑戰數據效率低 如何提升數據利用率?利用環境模型時序前向+逆向推演,引入更豐富梯度信號 Learning via Retracing 前向預測Optimization:Maximize ELBOReconstruction errorRegularization b

12、etween variationalposterior and predictive priorYu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution132.3 強化學習的挑戰數據效率低 如何提升數據利用率?利用環境模型時序前向+逆向推演,引入更豐富梯度信號 Learning via Retracing 逆向預測:Cycle-Consistency World ModelReverse

13、action approximator前向預測逆向預測Optimization:constrain the deviation of the retraced states from the original statesBisimulation metric based loss:Yu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution142.3 強化學習的挑戰數據效率低 如何提升數據利

14、用率?利用環境模型時序前向+逆向推演,引入更豐富梯度信號 Learning via Retracing 逆向預測:Cycle-Consistency World Model“不可逆”狀態自適應截斷Q函數的變化是隱空間距離的一種體現Q函數滑窗檢測不可逆狀態,該狀態不接入回環一致性優化過程Yu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution152.3 強化學習的挑戰數據效率低 如何提升數據

15、利用率?利用環境模型時序前向+逆向推演,引入更豐富梯度信號 Learning via Retracing 實驗驗證CCWM前向預測更準確Yu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution162.3 強化學習的挑戰數據效率低 如何提升數據利用率?利用環境模型時序前向+逆向推演,引入更豐富梯度信號 Learning via Retracing 實驗驗證CCWM狀態隱空間中前向逆向模式的一

16、致性自適應截斷的影響Zero-shot TransferR:reward,M:mass,S:stiffness,F:friction技術應用算法研究總結數據高效的強化學習算法多模態與交互行為模仿學習算法多模態/多智能體交互多智能體信用分配學習TripleGAIL/CoDAIL多樣性策略生成基于強化學習的調度優化自動駕駛華為音樂、短視頻推薦策略遷移元強化學習Q-value Decomposition認知一致性ARN/Multi-actionPBT分層強化學習芯片優化Yang et.al,NeurIPS 2021.Mu et.Al,NeurIPS 2021Fu et.al,AAAI 2021.Fei et.al,IJCAI 2020.Liu et.al,ICLR 2020.Yang et.al,ICML 2020.Mao et.al,AAAI 2020.Wang et.al,AAAI 2020.Shen et.al,IJCAI 2020.Ma et.al,NeurIPS 2021.基于模型的強化學習求解器優化

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(1-1 表征強化學習研究及應用.pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站