1、117決策智能2 清華大學張崇潔:高效協作的多智能體強化學習前沿研究進展整理:智源社區竇勇強在第二屆北京智源大會“決策智能”專題論壇上,來自清華大學交叉信息研究院的張崇潔助理教授以“Efficient Collaborative Multi-Agent Reinforcement Learning”為題進行了演講報告。張崇潔,于 2011 年在美國麻省大學阿默斯特分校獲計算機科學博士學位,而后在美國麻省理工學院從事博士后研究。目前的研究專注于人工智能、深度強化學習、多智能體系統、以及機器人學,擔任清華大學交叉信息科學院助理教授,博士生導師,機器智能研究組主任。過去幾年人工智能得到了很大的發展,
2、機器學習特別是深度學習方面在實際問題上的應用使人工智能受到了極大的關注。然而隨著人工智能應用的不斷廣泛化和復雜化,使得研究者對人工智能提出更高的需求。研究趨勢也從簡單的模式識別到更加復雜的智能決策與控制,從單研究智能體的問題,過渡到解決多智能體的問題。在本次演講中,張崇潔系統講述了高效協作的多智能體強化學習研究的前沿進展。他抽絲剝繭般回顧了當前多智能體學習存在的挑戰,通過引入通信和角色的方式逐步解決挑戰達到最佳性能水平的研究歷程。此外,張崇潔通過理論分析工作展望了對未來多智能體強化學習研究的趨勢性看法,見解獨到,相信會給大家帶來很多啟迪。演講正文:一、多智能體強化學習簡介1研究者通常把具有感知
3、和決策的能力的個體稱為智能體(agent)。智能體基于它的感知,可以做出相應的決策以及行動來改變周圍的環境,多個智能體可以通過協作式的行為實現一個整體的目標。例如,在機器人集群控制中,每一個機器人就可以看作一個智能體;在一個風力發電場,每一個風機就可以看作一個智能體。圖 1:人工智能愈加復雜的應用場景3多智能體學習的問題可以分為三類:協作式多智能體,對抗式多智能體,以及混合式多智能體。其中,協作多智能體是一群智能體通過協同合作,來共同來優化整體目標的行為。在大多數協作式多智能體問題中,環境往往是部分可觀察的(partially observable):每個智能體只能觀察環境的部分信息,而且環境
4、的變化會存在一些隨機性。這樣一類復雜的多智能體協作決策問題,可以用一個較為通用的模型來刻畫部分可觀察的 Markov 決策過程(Dec-POMDP)。圖 2:協作式多智能體模型 Dec-POMDPDec-POMDP 決策過程是非常通用的,它可以刻畫大部分在不確定環境中多智能體決策的問題。從一種簡單的角度來看,可將它視為把單個智能體的 Markov 決策過程過渡到多智能體的環境中。模型的運作方式如圖 2 所示,在這個環境有兩個機器人,在每一時刻,每個機器人都會根據它當前的感知輸入選擇某一個動作,執行這個動作之后將會改變環境中某一部分的狀態。在這之后機器人通過進一步觀察環境,得到新的觀測。盡管每個
5、機器人可能會有不同的觀測信息,但它們會得到同一個反饋信號。因為這里整體的假設是協作式多智能體的范圍,所以這個反饋稱為聯合的報酬(joint reward)。在這類協作式多智能體問題中,研究者希望找到一組決策策略,使得智能體根據這個決策策略來執行它們的行動的時候,可以收獲最大化的期望累計報酬。圖 3:Dec-POMDP 形式化定義4這里尋找的決策策略,是指在前文定義的分布式-部分可觀察的馬爾可夫決策過程(Dec-POMDP)中,尋求一個映射關系,對每一個智能體把它的局部觀察的歷史映射到一個動作(action)上。而在 Dec-POMDP 的定義下,全局的環境狀態是不可直接觀測的。智能體往往需要記
6、住一些歷史的信息來輔助今后更好的決策。決策策略又稱“聯合策略”,所謂的聯合策略是智能體策略的集合。為了更好的描述和解決多智能體決策的問題,研究者定義了一個值函數(Q value function)來量化任務中的執行目標,這個值函數是折扣的未來累計期望收益和(Discounted future cumulative reward)。對給定一個任務如果能夠學習出相應的值函數的話,那么智能體的最優聯合策略也就相應得到。最優策略,可以直接從值函數中推導出來,即相對于行為變量 a(action)取參數最大化(argmax)的結果。因此,求解協作式多智能體的 Dec-POMDP 問題,有兩種途徑:直接學習
7、一個最優的策略來最大化智能體的值函數(累積回報);學習出智能體的行為值函數,從值函數中推導出一個最優的策略。在許多實際問題中,環境往往是非常復雜的,同時無法預先知道環境的模型。在這種情形下,愈加能夠體現出強化學習的優勢不斷試錯:當環境不可知時,可以采用智能體與環境不斷交互和探索的方式,在這個過程中建立關于環境的模型,進而進行動作的規劃;也可以在環境學習獎勵規則,在交互中直接學習智能體的策略。每個人的生活中都有強化學習的影子,在完成一個新的目標時,我們無法預先知道每一步該怎么走,而往往會有走完一步之后發現是好還是壞的反饋。人類學習的過程就是根據這種反饋信號來反思自己做出的行為,進而更好地面對未來
8、的類似的場景。當后面遇到類似的情形時,一般會有兩種做法:分析之前發生的類似經歷,選擇之前反饋最好的那個行為進行執行;同時可以嘗試之前沒做過的行為,如果新的動作比我們已知期望的回報要好,那今后就會要多做一些,如果比我們期望差,那么今后就會少做類似的行為。強化學習將這種試錯+探索的方式,通過在貪婪選擇目前已知的最優策略的算法中添加隨機性來實現人類中學習的思想。多智能體強化學習是在單智能體的基礎上擴展到多個智能體的試錯學習:在單智能體學習中,為單個智能體學習一個策略;多智能體學習則會選一組策略(也成為聯合策略)為多個智能體服務。同時,在多智能體中一般有智能體之間是相互交互影響的而非完全獨立的約束條件
9、。在協作式多智能體中,智能體間的交互可以通過報酬來反映,每一個智能體的動作都會影響整體的報酬。那么,多智能體強化學習如何應用到多智能協作問題?又如何去學習最優的聯合策略或者值函數呢?圖 4:多智能體強化學習的三種范式5第一種方式是中心化的訓練方法,將所有的智能體觀測以及動作作為輸入,建立一個聯合的神經網絡來輸出聯合值函數的函數值。中心化的方式存在的問題是:不具有擴展性。在訓練中觀測空間是指數級增長的,即使神經網絡表達形式特別強,可以學到這種映射關系,在執行過程中也會遇到通信的困難,要實時的去收集所有智能體的觀測,做出決定之后再分配給所有智能體相應的決策動作。另外一種方式是分布式學習,每一個智能
10、體有自己的網絡,來實現學習的可擴展性。但分布式學習的問題在于當智能體在一個環境中共同學習的時候,環境成為非穩態的(non-stationary),不具有收斂性和最優性。另一個困難是不能很好地分配智能體獲得的聯合獎勵,即信度分配(credit assignment)。因此,更好的方法是將這兩種方法合并,稱為可分解價值函數學習方法:每個智能體都有其自己的行為價值網絡或策略網絡,并通過混合網絡輸出聯合的實際價值。在這種情況下,每個智能體有分解的值函數也有共同的值函數。在執行過程中,每個只用僅僅通過個體的值函數或策略網絡進行決策。因此,它具有很好的可擴展性的同時解決了一些分布式學習問題,介于中心化訓練
11、和分布式學習兩種方式之間的一種較好的學習范式。在具體的實現過程中,通過時間差分學習(TD-learning),將環境的反饋信息進行反向傳播(back propagation)影響和更新每一個智能體的值函數,以解決環境的非穩態(non-stationarity)和信度分配的問題(credit assignment)的問題。圖 5:可分解的值函數學習范式(CTDE)在中心化訓練-分布式學習的范式之下,許多研究者提出一些結構約束假設的來實例化這種范式,其核心思想在于價值函數混合網絡(Mixing Network)的確定。2017 年,領域研究者提出了價值分解網絡 Value Decompositio
12、n Network(VDN)2,該方法通過簡單求和的方式將智能體局部價值函數整合為聯合價值函數。這種方式簡單有效,但是限制了對于聯合價值函數Qtot的表達能力。在此基礎之上,研究者將 VDN 的較強假設進行了松弛,提出 QMIX3,它只假設總體的報酬對于個人報酬的偏導是大于零的。這樣每個人提高自己的報酬就可以提高整體的報酬,以這樣的方式實現 CTDE 范式。這一系列工作中,研究者提出了不同的假設來設計聯合價值網絡(Mixing Network)(圖 5 綠色部分)進行中心化訓練。同時在分布式執行過程中,把聯合價值網絡去掉,智能體通過自己的局部價值網絡進行決策(圖 5 藍色部分),從值函數中推導
13、得到相應的策略,來進行分布式執行。目前基于這種值分解的方法,在多智能體強化學習上取得一些前沿的一些結果,例如在星際爭霸 2 的微操作游戲任務中,能學到很多有意思的策略,如放風箏策略,一個狂熱者打兩個海軍陸戰隊,傳統上海軍陸戰隊是打不過的,通過不?!袄鸷蕖钡姆椒?,就可以打敗比自己強大的狂熱者。6圖 6:智能體學習到的放風箏戰斗策略目前值函數分解方法在一些復雜的問題上還存在著局限性,張崇潔給出了三點重要的方面。其一,前述方法不能很好地處理不確定性。因為當智能體學到自己的策略時,所有智能體進行完全分布的執行,隨著環境的不確定,比如說狀態不確定性等等,智能體間的協作則會變得不協調(miscoordi
14、nation)。隨著時間的推移,由于不能很好處理中環境的不確定性,這種不協調會得到積累進而導致較大的問題。此外,由于智能體間網絡參數的共享(共享子網絡或策略網絡),目前的方式不能解決比較復雜的問題,智能體的行為趨向于單一化。即使參數共享的方式能夠解決這樣復雜的問題,也會導致龐大的網絡的參數。此外,一些復雜的問題往往需要多樣性異構智能體才能夠解決。第三點,對這目前這些方法理論的分析,何時有效的理解有待深入。針對上述三點挑戰,張崇潔帶領的團隊近期進行了三方面的工作來解決。第一方面,通過通信優化的方式來解決不確定性的問題;第二方面,通過這種角色涌現的方式來解決智能體參數動態共享的學習過程;第三方面,
15、關于線性值函數分解的理論分析工作。二、引入最小化通信的多智能體協作4圖 7:完全值函數分解存在的缺陷7圖 7 中展示了完全值函數分解方法存在的缺陷,在該例中,有兩個智能體分別位于長度不同的通道中,其中 a1是智能體 1 所在通道出口的位置,b1 是智能體 2 的通道出口位置。當兩個智能體同時到達通道出口目標 g 的時候,會收到一個報酬。如果兩個智能體在不同的時間點到達目標 g,則不會收獲報酬。假設初始狀態是隨機的,每個智能體初始位于不同的位置。由于智能體部分可觀察的特性,即使中心化的訓練方法表達能力非常強,最終兩個智能體也只會以很小的概率同時到達收獲報酬,因為智能體在執行的時候行為是完全確定的
16、,向左走或者向右走,而互相不知道對方的初始位置,并且智能體間沒有通信的交流,導致了之前的研究工作無法完成這類任務。如果考慮加入智能體間的通信交流,只要任意一個智能體快到達目的地之前,就是告訴其他智能體這個信息。并且等待接收對方同樣到達目的地之前的信息,最后同時執行到達目標 g 來解決這個問題。通信的加入可以解決此問題,但是這種通信不是長期需要的,比如說智能體 1 在位置時,無需進行通信向另一個智能體通報自己的位置。只有在離目標 g 最近的位置處進行通信的協調就可以,所以張崇潔團隊提出在允許通信的同時需要最小化通信量。該方法稱為近似可分解的值函數(NDQ)算法(圖 8),該算法解決智能體通信的時
17、間、內容以及通信對象的問題。圖 8:近似可分解的值函數方法 NDQ 解決的問題圖解NDQ 的框架如圖 9 所示,傳統值函數分解的結構下,每個智能體有自己獨立的函數空間,基于智能體的局部觀測歷史進行優化。而 NDQ 則再此基礎上進行改進,允許智能體之間可以相互發信息,智能體的策略不僅僅基于局部觀察,還基于它收到的通信信息。圖 9:NDQ 算法框架結構圖8然而,如果每個時間步,所有智能體之間都互相通信,則會變成了中心化的過程,不具有擴展性且浪費通信資源。因此,在該工作中,張崇潔團隊加入兩個約束條件來優化通信:首先是通信消息的表達性約束,即希望這個智能體發送方到接收方之間發送的消息一定是對于接收方有
18、幫助的,該約束通過最大化通信內容與智能體決策之間的互信息來實現。信息簡潔性約束,即盡最大努力縮小和減少信息的熵(Entropy),如果一條信息沒有用,數值上的表現是 Entropy 很小,也就代表發送該條信息是沒有必要的。因此通過兩個約束,一是最大化互信息,二是最小化信息熵,保證了智能體之間的通信的簡潔和有效。在實際實現中,無法直接優化這兩個目標函數,所以通過借鑒變分推斷中的思想,推導出了相應的變分下界來支持實際優化,有關具體推導過程感興趣的讀者可以參考4中附錄。圖 10:NDQ 推導的優化目標函數如圖 10 所示,最終 NDQ 算法通過兩個目標函數的結合進行端到端訓練:第一個是訓練混合網絡的
19、強化學習中常用的時間差分損失 TD loss,第二個是對于信息的通訊約束損失 communication loss。在簡單和復雜的任務中,NDQ 都表現出了非常優異的效果。首先,是傳統完全值分解方法不能夠解決的Hallway 任務,NDQ 能夠很好的學到最優策略。如圖 16 所示,初始 t=1 時智能體在左 1 圖中黃色的兩個位置,此時由于它們沒有到達通道出口,智能體間無需通信,NDQ 算法學習到了這個特征,因此此時沒有信息的交流。這種不需要通信的狀態持續到智能體 2 到達出口 b1 的時候,會向智能體 1 發送消息告知它已經到達出口b1 的信息。最終當智能體 1 也到達對應的出口 a1 時,
20、同樣發送信息給智能體 2。因此 NDQ 算法在這個任務中學到了最優的策略。為了驗證 NDQ 算法在復雜環境上的有效性,他在星際爭霸 II 微操作管理的任務上同樣進行了實驗,本文主要顯示六個實驗結果(測試基準 Benchmark 是由牛津大學的團隊提出,感興趣的讀者可以訪問網站 https:/ 查看更多的實驗結果。)圖 11:Hallway 任務中 NDQ 算法的表現結果9圖 12:星際爭霸 II 微操作管理實驗(https:/ QMIX 與 TacMAC 的結合算法,測試 NDQ 的表現情況。實驗結果分析:TacMAC 是一個中心化的學習方法,它幾乎在所有的復雜環境下都不能學習到好的策略;QM
21、IX在一些復雜環境中的表現不是很好;當為 QMIX 增加通信的 Tarmac 算法時,性能表現有提高,但是與所提出的NDQ 相比還是有一定的差距?;谧⒁饬C制 Tarmac 算法的通信學習方法是一種軟約束的學習方法,而 NDQ則是顯式地進行優化學習,能夠很大程度提高和解決通信的優化問題。當對于通信進行剪切(communication cut)時,即將 80%的通信信息進行丟棄時,接近可分解的值函數 NDQ 方法幾乎沒有受到影響,而對于基于注意力機制的 TacMAC 方法,則不能魯棒應對信息丟失的環境的影響。圖 13:在星際爭霸 II 中無信息丟棄的條件下的實驗結果10圖 14:在星際爭霸 I
22、I 中 80%信息丟棄的條件下的實驗結果三、基于角色的多智能體強化學習(Role-based)6NDQ 算法通過通信的方式解決多智能體在執行過程中不確定性,本節的工作則是介紹通過如何通過基于角色的方式,來加速多智能體的學習。為什么需要動態的共享學習呢?原因是在很多復雜問題中,需要智能體有多樣化的行為,或者甚至智能體本身必須為異構,即不能共享參數,因為不同功能的智能體不適合采用一個網絡來表達。圖 15:蟻群中不同螞蟻有不同的角色在現實生活或者自然界中有很多這樣的情況,比如蟻群中不同螞蟻有不同的角色,每個角色由不同的螞蟻來執行挖洞、尋找食物、搬運食物、清理垃圾、以及專門下蛋的螞蟻 Queen。如果
23、用一個網絡來學上述所有行為,則需要通過全局搜索的方式學習一個很大的網絡。學得智能體的行為多樣性則會受限于網絡的大小,過小的網絡不能解決復雜的問題。與此同時,另一種方式是為每一個智能體學習一個獨立的價值網絡或者策略網絡,這種方式也存在缺陷,因為智能體間或多或少可以通過共享個體學習到的一些知識來加速整體的學習。特別是在一些大型系統中,并不是每一個智能體都完全不同。因此,他的團隊提出一種基于角色的多智能體強化學習11方法。他的基本思想是,如果智能體在任務中承擔類似的角色,就分配類似的決策策略,從而共享智能體間學習的經驗。而類似的決策策略意味著智能體在執行類似的子任務,它們將展現類似的行為。圖 16:
24、劃龍舟,基于角色涌現的多智能體強化學習可以從一個簡單的示例理解動態共享參數的原因,以劃龍舟為例(圖 16),其中有三種角色,掌舵者,船員以及協調敲鼓者。顯然,劃船的船員策略高度一致,所以可以分享他們的學習經驗。而掌舵者其他人策略是很不一樣的,所以不一定需要有經驗的分享。劃龍舟的角色劃分例子引入了人類的先驗知識,但是解決很多問題之前,無法預先獲知需要的角色,也無法劃分相應的角色給不同的智能體,張崇潔的團隊針對這個問題給出了一種巧妙的解決方案 ROMA(Multi-Agent Reinforcement Learning with Emerging Roles)。首先由于這些角色的非預定義性,設計
25、的算法要能夠自動學習出所需要的角色。具體的做法是通過推理的方式,根據智能體的行為推理它之前相應的角色是什么。每一個智能體的策略由他的角色所決定。如果智能體角色相同,那么它們的策略也相同;如果角色不同,那它們的策略也會不同,這樣就達到動態共享的一種方式。當然,智能體的角色不是一成不變的,一個智能體可以根據環境的不同來動態改變它的角色。圖 17:基于角色的多智能體學習框架 ROMA12ROMA 的框架如圖 17 所示,在執行過程中,智能體 i 通過一個編碼器把它的觀測編碼到一個隨機的隱空間中,然后在這個角色的隱空間中進行采樣,采樣出當前智能體需要的一個角色。通過 Role Decoder 解碼器(
26、一種超網絡 hyper network),解碼輸出智能體的局部效用函數的參數。該效用函數的輸入為歷史信息和當前智能體的觀測,輸出為該智能體的值函數 Q value,每一個角色都對應著智能體的每一種策略。訓練過程中,每一個智能體把他們的局部值函數 Q value 輸入到一個混合網絡中(Mixing Network),該混合網絡輸出全局聯合價值(Total Q value),這樣可以通過時間差分 TD 的方式進行訓練。圖 18:角色學習中的兩個正則器(Regularizer)但是簡單按照上述的做法很難學到較優的策略,為了保證學得的角色在空間上是有意義的,需要施加一定的約束條件。具體包括兩個方面,一
27、是角色跟它的行為的相對應性,一個角色對應某一類的行為,通過最大化角色在隱空間中的參數以及角色的經歷(trajectory)二者的互信息實現;二是角色可以區分不同智能體的行為,如果智能體的行為類似,應該將它們的角色在隱空間中聚在一起,需要分化聚類的功能,不同智能體要么承擔相同的角色,要么具有不同的行為。圖 19:角色可聚類的損失函數因此,整個損失函數由三方面組成,一是訓練混合網絡的 TD Loss,二是可區分角色的 Identifiability loss,三是不同智能體聚類的 Clusterability loss。13圖 20:ROMA 整體的優化目標實驗結果表明,在具有挑戰性的星際爭霸 2
28、 微操作管理任務中,ROMA 在越復雜的環境下表現地越突出,例如,在 27 vs.30 個海軍陸戰隊的場景中,智能體需要具有非常好的微操作才能以少數贏多數。在比賽初期,智能體大致采用相同的角色分布,而后期會根據血量的多少來承擔不同的角色。智能體的角色是動態的,在初期智能體會根據所處的位置選取角色,比如站在前、中、后的智能體將會具有不同的角色。角色相近的智能體隨著打斗的過程中血量的變化承擔新的角色,例如血多的向前沖,血少的向后退。圖 21 ROMA 在星際爭霸 II 微操作管理挑戰上的實驗結果(https:/ 21 和 22 展示了 ROMA 在星際爭霸 II 微操作管理挑戰上的實驗結果,學習階
29、段初期時,智能體在探索不同的角色,隨著學習越來越深入,角色功能的分化也會越來越好。因此角色和學習的過程是一個相互反饋的交互過程。上面是同構的情況,在異構的情況下也是相同,能夠學出不同的角色,智能體的功能不同,角色也會不同。圖 22:動態角色學習圖解14圖 23:幾個 ROMA 角色學習中令人興奮的示例總結前兩項工作在多智能體強化學習研究中的位置,如圖 24 所示,協作式多智能體主要由兩個方面刻畫。圖 24:協作式多智能體研究工作總覽一個是方法學習的難易度;另一個是方法學習得到的效果,即表達最優策略的效果。顯然完全中心化的學習方式(Fully centralized),具有很強的表達能力,但同時
30、較難學習。而完全分布式的學習方式(Fully decentralized),具有較弱的表達能力,但是較為容易學習。在它們中間值函數分解(Value factorization)的方法,具有折中的表達能力以及中等的學習難度,從表現上講相較于完全分布式的學習方式要好得多。上述介紹的接近可分解的值函數算法 NDQ 通過增加通信的方式具有更強的表達能力,而學習的難度相較于值函數分解的算法(如 QMIX)也相差無幾。同時,基于角色的多智能體學習 ROMA 算法則有更多的多樣性。四、線性值函數分解的理論分析工作以及 OfflineRL7最后一節介紹張崇潔團隊在線性值函數分解方面的理論分析工作,在該工作中意
31、圖解決的問題是:為什么多15智能體學習值函數的分解的算法(如 VDN,QMIX)能夠取得不錯的效果?在該工作中,他們設計了一個 Multi-agent Fitted Q-iteration 的理論框架,將單智能中研究函數近似(Function Approximation)下算法的收斂性以及最優性的表現的 Fitted Q-iteration 框架擴展到了多智能體領域(Multi-agent fitted Q-iteration)。從中推導出了閉式的更新規則(closed-form update rule),即 Empirical Bellman error minimization,基于這個閉
32、式解,他們發現簡單的線性值函數分解方法(linear value factorization),例如 VDN 中的局部值函數求和得到聯合值函數,基于這樣簡單的結構假設以及混合網絡的訓練,它們隱式地實現了一個非常好的信度分配(credit assignment),一種聯合報酬分配的機制,稱為反事實的報酬分配。具體來說,單個智能體自己的報酬,等價于假想做隨機的動作得到的整體的報酬,與做最優的策略行為得到的報酬之間的差值,將這個作為行為值函數 Q value,是一種非常好的方式。在現實生活中,如公司評價一個員工的貢獻也是類似的做法,由此解釋了值函數分解方法在多智能體學習的任務中具有較好表現的原因,同
33、時該工作也證明了在智能體 on-policy 訓練過程中的局部收斂性。圖 25:反例的構造與收斂性實驗圖 26:值函數分解方法及分布式訓練方法 IQL 在離線訓練中的實驗盡管有特定條件下局部收斂性的證明(圖 25),但是目前的工作缺乏全局的收斂性保證。此外,而且在采用不同的策略得到的數據訓練(Off-policy)時,線性值函數分解算法表現的不盡如人意,無法從示例中進行學習(learn from demonstrations)。如在圖 25c 的離線訓練實驗中,當前許多最好的算法的價值函數都無法收斂,會發散。在復雜的環境下(圖 26),如果 data 先通過一個好的策略收集起來(實驗采用 QM
34、IX 收集),用收集的數據來進行訓練的方法也沒有效果,即使采用 QMIX 的得到數據訓練同類 QMIX 智能體,也無法得到很好的表現,這與常識中單智能體 Q-learning 是一個離線策略訓練的觀念相違背,非常值得進一步的探索。五、結語多智能體強化學習是一個具有很大前景的研究領域,本次演講中,張崇潔從協作式多智能體的角度分享了前沿的研究工作,包括通過值分解的方法與通訊優化方式結合實現多智能體合作,有效地解決多智能體任務中的不確定性問題;通過基于角色學習的方法,通過動態共享智能體的參數提升可擴展性,使得在非常困難的任務中16相對于最好的方法也有極大的性能提升。談到領域未來的發展方向,他指出在環
35、境允許的條件下,支持分層的學習具有較大的前景。同時,針對線性值函數分解算法的理論分析工作,表明了當前算法對于離線訓練(off-policy training)需要有較大的關注。離線訓練不僅具有較高的學習效率,同時可以利用已有的示例數據,如自動駕駛中的經驗數據,來進行策略的學習。未來離線多智能體強化學習將會成為重要的組成部分。參考資料1 J.N.Foerster,“Deep Multi-Agent Reinforcement Learning,”p.205.2 P.Sunehag et al.,“Value-Decomposition Networks For Cooperative Multi
36、-Agent Learning,”arXiv:1706.05296 cs,Jun.2017,Accessed:May 29,2020.Online.Available:http:/arxiv.org/abs/1706.05296.3 T.Rashid,M.Samvelyan,C.S.de Witt,G.Farquhar,J.Foerster,and S.Whiteson,“QMIX:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning,”arXiv:1803.11485 cs,sta
37、t,Jun.2018,Accessed:Mar.13,2020.Online.Available:http:/arxiv.org/abs/1803.11485.4 T.Wang,J.Wang,C.Zheng,and C.Zhang,“Learning Nearly Decomposable Value Functions Via Communication Minimization,”arXiv:1910.05366 cs,stat,Oct.2019,Accessed:May 23,2020.Online.Available:http:/arxiv.org/abs/1910.05366.5 A
38、.Das et al.,“TarMAC:Targeted Multi-Agent Communication,”arXiv:1810.11187 cs,stat,Feb.2020,Accessed:May 25,2020.Online.Available:http:/arxiv.org/abs/1810.11187.6 T.Wang,H.Dong,V.Lesser,and C.Zhang,“ROMA:Multi-Agent Reinforcement Learning with Emergent Roles,”arXiv:2003.08039 cs,Mar.2020,Accessed:May
39、08,2020.Online.Available:http:/arxiv.org/abs/2003.08039.7 J.Wang,Z.Ren,B.Han,and C.Zhang,“Towards Understanding Linear Value Decomposition in Cooperative Multi-Agent Q-Learning,”arXiv:2006.00587 cs,stat,May 2020,Accessed:Jun.15,2020.Online.Available:http:/arxiv.org/abs/2006.00587.17 清華交叉信息學院吳翼:多智能體強
40、化學習中的課程學習、演化與復雜性涌現整理:智源社區熊宇軒作為 ACM-ICPC 領域的傳奇人物之一,昔日的姚班少年吳翼在加州大學伯克利分校取得博士學位之后,加入了 OpenAI 從事通用人工智能研究。近年來,他發表了以 MADDPG 為代表的一系列高水平研究成果。在本屆智源大會上,吳翼博士帶來了以多智能體強化學習中的課程學習、演化與復雜性涌現(Curriculum,Evolution and Emergent Complexity)為題的主題演講。吳翼博士從哲學的終極命題我們從哪里來?出發,介紹了涌現出復雜群群體行為的條件,并結合 OpenAI 近期完成的捉迷藏游戲項目進行了詳細的說明。下面是
41、演講正文,智源社區編輯做了一定的編輯整理。一、物種進化的啟示本次演講,我主要針對人工智能研究領域最重要的任務之一構建通用人工智能進行討論。為了實現這一最終的目標,我們已經在深度學習、強化學習、規劃/推理、搜索等方面取得了許多令人備受鼓舞的進展。這些偉大的技術用到了與機器學習和優化方法有關的諸多概念。在本次演講中,吳翼博士主要從受人類自身啟發的新型人工智能研究的角度進行了深入探討。圖 1:智能的涌現我們來自何方?該領域的研究要從人類智能的漫長歷史說起。我們美麗的地球母親擁有著神奇的生態系統,它最終孕育了人類的生命。在現代科學技術的幫助下,我們逐漸開始構建和人類有相似行為的機器。然而,在我們創造一
42、類新型智能體之前,我們需要回答一個問題:我們(智慧生命)從哪里來?18我們從哪里來?這是一個經久不衰的問題。200 年前,一位名叫查爾斯 達爾文的年輕人也對這一問題產生了興趣。1831 年,為了探尋該問題的答案,達爾文開始了他的環球航行。大約 4-5 年后,達爾文抵達了一處被稱為加拉帕戈斯的群島。如今,這里已經是一個自然保護區,成為了各種生物棲息的樂園。在此后的數月中,達爾文環繞整個群島進行了深入的考察,并受此啟發撰寫出了名垂后世的巨著物種起源。在達爾文的環島旅行中,最著名的故事莫過于達爾文雀的演化。他注意到,盡管所有的達爾文雀都起源于大陸上,但是分布在加拉帕戈斯群島中不同小島上的達爾文雀演化
43、出了形狀不同的喙,這是由于它們吃的食物不同。除了鳥類之外,我們還可以在加拉帕戈斯群島上發現許多有趣的現象,這些物種在數百萬年間涌現出來的過程會令人感到震驚。例如,那里有生活在陸地上或者生活在水中的不同種類的蜥蜴,有生活在赤道上的企鵝,還有不會飛的鳥(鸕鶿)。這正是大自然的神奇之處,它們有著出人意料的極為多樣的能力和行為。因此,加拉帕戈斯之旅鞏固了達爾文腦海中偉大的理論進化論。達爾文在它的巨著物種起源中詳細介紹了進化論,他認為這種物種的多樣性并不是刻意設計的,而是進化(自然選擇)的結果。有機生命會努力適應環境的變化,而只有那些最適合的種群能夠在自然選擇的過程中幸存下來。這些物種本身也成為了環境變
44、化的一部分,使得各種不同的物種能夠以合作、競爭等形式協同演化。人類作為地球上唯一真正具有智能的生物,能夠得以誕生,本身也是生命的奇跡。那么,我們能從物種進化的過程中得到怎樣的啟示呢?首先,生物體循序漸進地從簡單形式演化到復雜形式;其次,各物種作為環境的一部分進行交互、合作、競爭,并協同進化;第三,地球是一個復雜系統,進化的過程存在極大的復雜性,并且會產生意想不到的結果;最后,進化發生在大量個體組成的種群中,在一個種群中會涌現出群體行為。簡而言之,對于強化學習來說,我們可以從物種進化的過程中得到以下啟示:(1)我們需要構建一個足夠復雜的仿真環境;(2)我們應該讓智能體在該仿真環境下協同演化。在上
45、述要點的啟發下,我們的工作主要涉及兩個方面:(1)在符合規律的物理環境下根據簡單的規則涌現出復雜性;(2)涌現出群體行為,以及如何實現這種行為。吳翼博士在本次演講中僅僅介紹了第一個部分的工作。19二、捉迷藏游戲中的智能涌現圖 2:捉迷藏游戲的仿真環境如圖 2 所示,在捉迷藏游戲的仿真環境中,我們設置一些仿真物種(可愛的小智能體),還有道具物體、墻,這些智能體會在該環境中玩捉迷藏游戲。紅色的智能體(seeker)需要找到藍色的智能體(hider),hider 則需要躲起來而不被 seeker 找到。當紅色的智能體找到 hider 時,seeker 會得到獎勵,而 hider 則會由于被找到而受到
46、懲罰。因此,通過執行強化學習讓這些智能體能夠協同學習,從而優化他們的獎勵函數。為了模擬自然環境下的演化過程,我們創建了數以千計的捉迷藏游戲,讓智能體在仿真的物理世界中并行運行游戲。仿真演化實驗的技術細節如下:圖 3:捉迷藏游戲的技術細節20為了簡化控制過程,我們將智能體視為一個個點,它們只執行簡化的定向運動。通過對智能體施加一個 x 和 y 軸上的力,以及 z 軸上的扭矩(讓智能體旋轉),使智能體移動。圖 4:智能體的視線智能體可以看見正面的圓錐形視線(如圖 4 中 seeker 正面的紅色區域)中的物體和智能體,它只能接收這些可見物體和智能體的信息。圖 5:智能體的感知能力智能體也可以通過類
47、似于激光雷達的傳感器感知到它們與物體、墻,以及其它周圍的智能體之間的距離。因此,它們可以通過感知門和墻壁在該環境中進行導航。21圖 6:智能體的特殊行為除了移動之外,智能體還能完成兩種特殊的行為:(1)抓?。?)上鎖/解鎖。當智能體執行抓取行為時,它們可以移動面前的物體,并一直持有這些物體。當智能體執行上鎖動作時,它們可以將面前的物體鎖定在某個地方。請注意,我們進行的是有組別的鎖定動作,如果 seeker 將某物體上鎖,那么只有 seeker 能夠將該物體解鎖;反之,如果 hider 將某物體上鎖,那么只有 hider 能夠將該物體解鎖。此外,我們還設計了一些額外的細節。例如,設計了一種基于團
48、隊的獎勵函數,來自同一個團隊的智能體會得到同樣的獎勵。如果某 seeker 發現了任意的 hider,則紅隊獎勵函數+1,反之則-1;如果某 hider 沒有被發現,則藍隊獎勵函數+1,反之則-1。同時,我們還為 hider 設計了一個準備階段,在此期間 seeker 不能移動,所有的智能體也不會得到獎勵。在訓練過程中,我們希望在隨機環境下,通過并行的近端策略優化算法進行訓練。我們將在并行的環境中隨機初始化物體的位置、墻的結構,以及智能體的數量。在這里,我們也使用了參數共享機制,每一個智能體會共享相同的策略權值。我們向策略的輸入中引入了智能體的類別信息,每個智能體知道它們是 seeker 還是
49、 hider。在明確了這些技術細節之后,我們接下來將討論涌現出的行為。22圖 7:涌現出的行為逃跑和追趕、構建堡壘、使用扶梯、防御扶梯攻擊、箱子沖浪如圖 7 所示,我們一共總結出了 6 種涌現出的行為階段,我們也展示出了各個智能體的獎勵函數曲線:階段 1逃跑和追趕:在訓練初期,智能體基本上學習到的行為是逃跑和追趕,seeker 試圖追趕上 hider,而 hider 試圖逃跑。階段 2構建堡壘:在本階段中,hider 學會了在準備階段使用環境中的箱子在它們自己周圍搭建一個堡壘,這樣一來,seeker 在準備階段結束后就無法直接看到 hider。階段 3使用扶梯:隨著訓練繼續進行,seeker
50、很快就發現了一種對策,它們學會了將扶梯移動到 hider 構建的堡壘旁,然后爬上扶梯跳入堡壘,從而發現 hider。階段 4防御扶梯攻擊:在經過了長時間的訓練后,hider 也會針對 seeker 的扶梯攻擊找到相應的對策。Hider 學會了在準備階段構建堡壘之前就鎖上所有的扶梯,這樣一來 seeker 就無法借助扶梯跳入堡壘了。我們曾經認為這就是群體智能涌現的最終階段了,然而正如我們在視頻中所展示的,在該階段之后又發生了一些意想不到的現象。階段 5箱子沖浪:seeker 學會了將箱子移動到被鎖定的扶梯旁,然后通過扶梯爬上箱子,站在箱子頂上向堡壘沖浪,最終跳入堡壘發現 hider。這是由于我們
51、構建環境中的物理模型的方式所導致的(尤其是抓取機制)當智能體抓取住某物體后,這二者之間的距離就固定下來了,因此當智能體站到箱子上之后,它可以同時執行抓取和移動兩種行為,從而使箱子和智能體一起移動(即沖浪)。這并不是一種漏洞,而是該環境的特性,智能體只是學會了利用這種特性。階段 6防御沖浪攻擊:最后,hider 學會了在準備階段將包括箱子、扶梯在內的所有物體都鎖上,從而防御箱子沖浪攻擊。這也正是我們觀測到的最后的階段。23圖 8:訓練細節下面,我們將討論訓練的細節。實際上,我們進行了大量的模型簡化實驗(又稱消融實驗),如果你想了解全面的訓練細節,請參閱論文Emergent Tool Use Fr
52、om Multi-Agent Autocurricula(https:/arxiv.org/abs/1909.07528)。我們在實驗中也觀測到兩個重要事實。首先,對于智能體的表征是十分關鍵的。由于實驗中會涉及到隨機數量的物體,我們對各個實體使用了基于自注意力機制的策略。接著,我們通過掩模屏蔽了一些策略的輸入,從而使智能體只能獲取它們可以看見的物體的信息。對于值函數而言,我們使用了一種不帶有掩模的全局值函數,從而減小了方差。圖 9:訓練細節訓練規模24此外,我們還觀察到訓練規模也有很大的影響。我們使用了不同的 Batch size 進行模型簡化實驗,我們發現當 Batch size 較大時,訓
53、練速度會快很多。如圖 9 所示,藍色的部分代表我們采樣得到的所有用于訓練智能體的狀態序列,黃色部分是訓練時間。顯然,隨著 Batch size 增大,訓練時間會縮短。除了這六個智能涌現階段,我們還有很多有趣的實驗發現。首先,我們發現智能體可以學習到很棒的協作策略。例如,我們觀察到智能體會相互傳遞持有的箱子,從而更高效地堵住門。在我們的實驗中,也出現了一些意想不到的行為,這與地球上物種的自然進化十分相似。例如,在訓練的初期,hider 實際上僅僅學會了不斷逃向距離 seeker 無限遠的地方,而這種行為會阻礙其它有趣的行為的涌現。因此,在最終的環境實現方案中,我們在圍繞游戲場地中心的一定范圍內設
54、定了一個懲罰區域,這樣一來就不會有智能體試圖逃向無限遠處。實際上,智能體是非常聰明的,他們學會了利用環境中的一些漏洞。例如,hider 學會了通過非常明智的方式利用環境中的物理機制,這是由于在訓練初期物理引擎中的某些設置情況造成的,我們需要在最終的環境實現中修正這些漏洞。同樣地,seeker 也會利用一些環境的漏洞。例如,seeker 發現了它們可以利用扶梯爬到某些特定位置,然后飛到空中。這也是由于物理設定造成的,我們需要仔細地修正這些漏洞。圖 10:hider 構建一個堡壘將 seeker 圍住另一個令人意想不到的行為是,由于 hider 可以構建堡壘將它們自己包圍起來,那么它們是否能構建堡
55、壘將 seeker 圍起來,從而讓 seeker 無法出來抓 hider 呢?這是一種非常自然的策略,但是在我們標準的捉迷藏游戲中并沒有涌現出來。但是在一些變體中,這種策略確實發生了。在如圖 10 所示的變體游戲中,綠色的發光點是一些獎勵金幣。Hider 不僅僅要防止它們自己被 seeker 找到,還要保護這些金幣不被 seeker 撿到。因此,在這種情況下,僅僅構建一個堡壘將 hider 自己圍起來并不足以保護這些金幣。而這些 hider 非常聰明,它們找到了正確的應對策略:在準備階段將 seeker 推到角落,然后使用箱子將這些 seeker 堵在這些角落中。有趣的是,hider 甚至使用
56、了兩層箱子加固這個陷阱,這種行為是非常出乎我們的意料的。這種變體是由吳翼博士本人發現的,這也是他本人最喜歡的整個項目中的一段視頻。25圖 11:對比實驗那么,其它的方法也能夠得到與我們相似的行為涌現結果嗎?為此,我們也和其它方法進行了對比實驗。具體而言,我們通過一種常用的基于計數的探索(count-based exploration)方法進行了一系列對比實驗。我們的多智能體強化學習框架發現的行為如圖 11 最左側的圖所示。我們可以很容易地描述不同行為的強度,這些策略對于人類而言也是可解釋的,很容易理解。然而,在基于技術的探索中,我們可以觀察到此時確實涌現出了某些行為。例如,智能體抓取到某物體,
57、然后在環境中移動。但是此時出現的行為是比較低級的,即我們無法看到任何策略性的行為。圖 12:用于定量評估的遷移學習任務除了觀察涌現出的行為之外,我們執行了一些遷移學習任務,用于定量評估。由于捉迷藏游戲中的智能體學習到了一些復雜的技能(例如,導航、操作物體,建造等),那么我們能將這些技能遷移到其它的環境中嗎?26為了實現這一目標,我們提出了一套由 5 個遷移學習任務組成的智能實驗,將其用于定量評估。為了完成每項任務,都需要智能體具備某些特定的技能。我們假設,如果某個智能體學會了某種技能,那么它應該在相應的任務中能夠更好地遷移這種技能(相對于從頭開始訓練調優更快)。我們可以把這 5 個遷移學習任務
58、分成兩類:(1)記憶(2)構建。圖 13:5 類遷移任務實驗5 類遷移任務如圖 13 所示。其中,物體計數、上鎖并返回、順序鎖定為記憶任務。為了完成記憶任務,智能體需要記住從環境中發現的關鍵信息。此外,藍圖構建和遮蔽物構建為構建任務。為了完成建造任務,智能體需要以一種特殊的方式操縱大量的物體。任務 1物體計數:在該任務中,智能體不能移動。環境中有一些數量隨機的箱子,這些箱子會隨機向左側或右側移動。智能體需要觀察這些箱子的移動情況,并且在狀態序列(episode)的最后回答出有多少箱子移動到了左側,有多少箱子移動到了右側。因此,智能體需要記住這些箱子的移動過程。任務 2上鎖并返回:在環境中存在一
59、個箱子,智能體需要找到這個箱子,將其上鎖,并且自己返回到出生點。因此,智能體需要記住自己的出生點信息,而這種信息并不是輸入的一部分。任務 3順序鎖定:這是最具挑戰的一類任務,環境中分布著若干箱子,智能體需要以特定的順序鎖定這些箱子,然而智能體事先并不知道這種順序。因此,智能體首先需要對環境進行探索,然后記住箱子的狀態,通過不斷地試錯最終完成任務。因此這是一種典型的長期收益(long horizon)任務。任務 4藍圖構建:在該任務中,給定一個藍圖(blueprint),智能體需要將所有箱子移動到藍圖中規定的期望地點才能完成任務。任務 5遮蔽物構建:在環境中有一個大的紅色圓柱體,智能體需要用箱子
60、將這個圓柱體包圍起來,保護它不被環境所發現。在實驗中,我們在這 5 個遷移任務中執行了近端策略優化(PPO)算法,采用不同的初始化策略時的學習曲線如27圖 13 下方所示。藍色的曲線為使用我們的捉迷藏游戲初始化的策略的學習曲線,紅色的曲線為從頭開始訓練的學習曲線,綠色曲線代表受到通過基于計數的方法啟發的預訓練方法。在所有的遷移任務中,捉迷藏游戲都要優于對比基線或與其性能相當。在記憶任務中,這種優勢要更為普遍,尤其是對于那些需要導航技能的任務來說。但是,對于構建任務來說,這種差別就非常小了。我們至今還不明白為什么這種差距如此之小,這也是一個有待研究社區解決的開放性問題。圖 14:見解與開放性問題
61、那么,我們可以從捉迷藏游戲項目中學到什么呢?最重要的一點是,通過將多智能體強化學習與開放式的物理世界相結合,會自然地涌現出一些人類能夠理解的復雜技能。這歸功于多智能體強化學習的強大能力,而這種訓練過程與人類的進化過程非常相似。我們相信,這是通向通用人工智能之路上的重要研究方向。該項目的環境與策略已經開源,感興趣的讀者可以通過以下鏈接獲取相關資源:https:/ OpenAI 過于依賴巨大的算力。但是,在我看來,這并不是一件壞事,因為這里的龐大計算量實際上意味著在未來還有巨大的提升空間。我相信,這個項目會成為該領域的一個對比基準,幫助那些激動人心的研究涌現出來。最后,我想說,實現通用人工智能(A
62、GI)是 OpenAI 的使命,我們對我們所堅信的道路非常有信心。我們希望,通用人工智能有朝一日能夠真正得以實現,并造福于整個人類社會!29 北京大學盧宗青:多智能體合作中的通信整理:北京大學姜杰川第二屆北京智源大會上,北京大學計算機系盧宗青教授做了通信驅動的合作學習的報告。近年來,強化學習在理論和應用層面都有了很大的突破,但是在多智能體的情景下表現卻不盡人意。自然界中的生物和人類社會都廣泛地采用通信作為合作方式,這啟發我們可以將通信引入多智能體合作算法。圍繞通信的必要性和影響等方面,盧宗青教授分享了他們團隊近年來的一些工作,包括通信如何幫助優化目標的提升和通信在多智能體情景中的應用。以下為盧
63、宗青教授的演講正文:一、通信作為合作方式:從自然界到人類社會在自然界中存在著廣泛的合作現象。例如在 Wood Wide Web 中,樹根通過菌絲連在一起。森林中比較高的樹,光合作用比較強,因此可以合成更多的養分,它可以通過菌絲把多余的養分傳給旁邊的小樹苗,而一些將要死掉的樹也會把養分傳送給旁邊的樹。此外,當有害蟲侵蝕植物時,它們通過樹根之間的連接傳遞一些化學信號,提醒旁邊的植物有害蟲出現,這樣這樣旁邊的樹可以提前分泌特定的化學物質,從而抵御害蟲。另一個案例發表在 2013 年 Nature 上,研究者們發現在紅海海底,石斑魚可以與海鰻協同捕魚。石斑魚向海鰻搖搖頭,然后一起游向珊瑚礁。海鰻身體比
64、較柔軟,可以進入珊瑚礁里邊,而石斑魚在外面等待。石斑魚可以用頭給海鰻提醒這個魚藏匿的位置,從珊瑚礁里邊被海鰻趕出來的魚也會被石斑魚捕食。靈長類動物的合作就更高級了。在 Social Moneys 的例子中,猴子們通過不同的聲音來提醒族群中其他猴子附近有捕食者。比如一只猴子看到了一條蛇,它就會發出聲音提醒大家附近有蛇??偨Y這三個例子,植物是通過分享一些化學物質來進行合作,魚是通過一些特定的行為姿勢,猴子是通過不同的聲音。對于經過幾千年進化的人類來說,我們的合作利用了所有這些方式,除此之外我們還進化出了更高級別的語言。這些合作方式可以概括為 Communication,這也是我今天要講的的主題研究
65、如何通過Communication 來更好地促進智能體之間的合作。對于 Communication,學界的研究主要有兩個方向,一個方向是 Information Sharing,智能體學習分享有助于算法訓練和協作決策的表示或者其他特殊信息;另一個方向是 Grounded Language,主要探究智能體之間所學會的由離散信號構成的語言是否與人類語言具有某種相似的特性。在這個報告中,我主要關注第一方面的Information Sharing,重點介紹我們最近的一些工作。前兩個工作主要是研究通信如何服務于強化學習的優化目標,后兩個是研究如何通過簡單的通信來使智能體更好地合作。二、通信服務于強化學習
66、優化的目標通信的直觀理解,是每個智能體都把自己的一些信息分享給其他的智能體。但是這樣存在一些問題,首先是通30信代價比較大。另外簡單的分享信息未必可以得到更好的效果,我們真正需要的是“必要的通信”,即能夠對獎勵帶來增益的通信,這也是我們提出 ATOC 的初衷。圖 1:ATOCATOC 中的通信采用比較傳統的設定,智能體可以與視野內所有智能體進行通信。通信的具體形式是,通過一個雙向 LSTM 對信息進行整合。而何時與視野內智能體發起通信是通過一個門控機制來控制的。這個門控機制的學習采用的是反事實推斷的思路,利用 Critic 計算通信或不通信所做出決策的 Q 值之差,差值越高說明通信對于獎勵的增
67、益越大,也就意味著越必要。將這個差值作為監督的信號訓練門控機制,可以衡量通信在什么時候是有必要的。圖 3 中展示的是 Cooperative Navigation 實驗中通信情況隨時間的變化。綠色的虛線表示通信通道,方形智能體表示通信的發起者??梢钥吹诫S著智能體占據更多的 Landmark,通信會越來越少。最右邊的圖顯示的是在四個智能體構成的一個通信組,黑色和黃色箭頭分別代表有無通信時的動作??梢钥吹?,加入通信之后,智能體會趨向于合作的動作。圖 2:Cooperative NavigationATOC 以及之前的通信方法 CommNet、TarMAC、IC3Net,都是某種形式的 All to
68、 All、One to All 或者 One to Many 通信機制。但對于真正的網絡通信或者人類對話,大部分情況下都是一對一通信。如何在中心訓練分布執行的學習范式上進行一對一的通信,是我們接下來的第二個研究“l2C”的主要出發點。I2C 利用的是Request-Reply 通信機制。智能體決定與視野內哪個智能體進行通信,并發送一個 Request,相應智能體的信息被傳送給發出 Request 的智能體。31圖 3:I2CI2C 通過 Joint Action-Value Function 推斷通信何時發生。在單個智能體中,通信對于獎勵的提升容易衡量,但是這在 Joint Action-Va
69、lue Function 中并不容易。我們的想法是,一個智能體應該選擇與對自己影響比較大的智能體通信。對另一個智能體的動作考慮或不考慮這兩種情況,我們將它們分布的 KL 散度作為智能體之間的影響。這兩個分布通過 Joint Action-Value Function 計算得到,如圖 4 中所示。計算所得的影響作為監督信號學習一個 Prior Network,用于在執行過程中決定通信與否。通過近似我們可以去除其他智能體動作的依賴,使得 Prior Network 能夠獨立工作,不依賴其他智能體信息。圖 4:Traffic junction在 Traffic Junction 場景中,對比 Tar
70、MAC 和 IC3NET,I2C 取得了性能上的提升,另外 I2C 也有助于減少通信量。左下角的圖顯示的是通信的 Overhead,顏色越深通信越大,可以很直觀地看到通信量顯著減少。32三、通信在智能體合作中的應用實例通信中如何衡量其他智能體信息的重要性?我們希望,通過智能體信息的編碼計算出智能體之間的某種關系,并利用這種關系來衡量來自其他智能體信息的重要性。圖 5:DGNDGN 采用圖卷積架構,并采用多頭注意力機制作為卷積核,處理來自不同智能體的通信信息。每個智能體只與周圍的鄰居進行通信,通過多頭注意力機制把信息整合在一起,發給下一卷積層。在下一層同樣接收其他一跳內智能體的通信信息。這樣隨著
71、卷積層的增加,所收集到的信息覆蓋面積就會越來越大,從而使得智能體通過一跳內的通信機制獲得更廣泛的信息。另外考慮在一些場景中,智能體高動態的變化,我們希望在這種情況下合作具有持續性。我們對前后兩個時間步所計算的權重分布施加一個正則,促進權重在連續兩個狀態上盡量保持一致,從而提到合作的持續性。最后一個研究中,我們探討的是公平。公平對于我們社會有幫助的,但是我們想要的肯定不是絕對的公平,因為絕對的公平對系統性能沒有幫助。在多智能體的系統中,我們想要的是公平和效率的權衡,這是多智能體中的經典問題。33圖 6:Fair-efficient rewardFEN 探討的是如何通過簡單的通信,來同時學習公平和
72、效率。這是一個多目標優化問題,如果簡單把兩個目標融合在一起,這兩個目標不是獨立的,通過傳統強化學習難以得到比較好的結果。我們提出如圖所示的公平-效率獎勵(Fair-Efficient Reward)作為這個問題的優化目標,這一目標同時考慮了效率與公平。但是直接優化這一目標也比較困難,因此我們提出一種分層結構。上層的控制器的優化目標是Fair-Efficient 獎勵,控制器選擇下層一個子策略執行策略。其中一個子策略的優化目標是環境給出的獎勵,而對于其他子策略,我們提出一種基于互信息的獎勵,使得不同的子策略行為不同,以提供給控制器多種選項。FEN 是分布式訓練的,智能體之間只需要通過簡單的通信獲
73、得平均效用即可。圖 7:FEN圖中的實驗情景模擬了馬太效應,能力較強的智能體更容易吃到食物,因而能力變得更強。如果沒有公平性衡量,會陷入強者更強的困境。FEN 對比其他基線方法,在公平與效率指標都是最優的,并且使用了分層結構比不使用分層結構的訓練速度快了十倍。右圖中可以看到當智能體的效用低于平均效用時,控制器傾向于選擇優化環境獎勵的子策略,反之則傾向于選擇優化信息論目標的子策略,這與人類經驗相吻合。34圖 7:The Matthew Effect四、結語無論是對于智能體還是人類,通信的作用都非常大,因為通信能夠改變學習的過程。從人類的角度來講,我們很多語言性質,都反映了我們對事物的認知。關于通
74、信如何去改變人類的學習以及人對事物的認知這一方面,當前的研究并沒涉及。但隨著我們進一步深入的研究,可能會探索到通信以及語言在人類認知、學習上所產生的更深遠的影響。35 中科院自動化所趙冬斌:從仿真到實體的深度強化學習方法整理:中科院自動化所朱圓恒6 月 23 日,中科院自動化所研究員趙冬斌在 2020 北京智源大會“決策智能”專題論壇上做了深度強化學習-從仿真到實體的報告。趙冬斌是 IEEE Fellow,是多個國際計算智能領域權威期刊的編委,也是多個國際權威期刊的特邀編輯,擔任 IJCNN2019 國際程序委員會的主席。其工作主要在計算智能,深度強化學習,自適應動態規劃理論和方法,以及智能車
75、輛、機器人等方面的應用。在報告中,趙冬斌從三個方面展開介紹:第一,研究探索更聰明,更智能的游戲 AI 算法。第二,應用游戲 AI 的算法實現智能駕駛的安全、穩定決策。第三,在視覺導航、環境探索、協作和博弈對抗領域實現機器人從仿真到實體的遷移。以下是趙冬斌演講全文:今天的報告大家都提到深度強化學習,深度強化學習結合了強化學習的決策能力和深度學習的感知能力,這需要感謝 Google DeepMind 和 David Silver 提出的深度強化學習方法,這個方法也被列為了人工智能近幾年幾個里程碑的事件之一。圖 1:基于 DRL 的 AI 里程碑事件36圖 1 列出了基于 DRL 的 AI 的里程碑
76、事件,包括 2015 年谷歌提出解決 Atari 游戲的深度強化學習方法 DQN;2016 年的 AlphaGo 以 4:1 的大比分戰勝了世界圍棋頂級選手李世石;2017 年谷歌的 Alpha Zero 用人類的數據自學習,還具有泛化性,可以下國際象棋和日本將棋;2019 年包括谷歌的 Alpha Star 攻破星際爭霸,CMU的六人德撲 Bot Pluribus,這都是不完全信息的博弈,谷歌還將其擴展到三維的第一視角,做了雷神之錘游戲,微軟也針對麻將做了一個麻將 AI Suphx,Suphx 的實力達到十段,人類基本在九段左右;2020 年谷歌又提出了MuZero,既能玩游戲,還可以做圍棋
77、,進一步提高了算法的泛化性,也就是我們常說,更通用的人工智能。我們早期的研究主要圍繞強化學習和自適應動態規劃,拿到了深度強化學習方向國家第一個自然科學基金;2016 年發表一篇深度強化學習的綜述文章;2017 年 IEEE TCDS 論文獲得了年度優秀論文(唯一);2018 年組織深度強化學習的???,參加了 Robomaster 全球人工智能挑戰賽,全部 4 次最高評價;2019 年參加星際爭霸天梯賽,獲得學生組冠軍,參加 IEEE CoG Fighting AI 比賽,獲得亞軍等等。這次報告主要是挑選一些從仿真到實體相關的工作跟大家分享。一、游戲 AI首先跟大家分享就是格斗游戲的工作,格斗游
78、戲動作空間比較大,動作和連招組合起來有 56 個動作,但是反應時間只有 16 毫秒。雖然對手的狀態一目了然,但是對手是否能放大招卻無法知道,因此這是一個不完全信息博弈問題。而且有三個對手,需要適應多種不同類型的格斗人物特性,對泛化性有一定的要求。我們和英國 Simon 教授合作,利用 RHEA 決策和強化學習對手建模的方法做了一個通用的格斗游戲 AI。利用遺傳算法的搜索能力強、強化學習對手建模能力強的優勢,實現了算法的泛化性,適合不同的格斗角色。我們也和 2018 年排名靠前的 AI 做了一個對比測試,得到了一個效果(如圖 2)。我們參加了 2019 年的格斗比賽,在比賽中,我們有對手建模學習
79、的過程,一邊和對手比賽,一邊學習對手的策略,利用學習到的對手模型,更新策略網絡,利用更新的策略獲得了比賽的勝利。最終我們在比賽中獲得了亞軍。圖 2:格斗游戲37前面的格斗游戲是一對一,星際爭霸游戲則是多對多。我們針對星際爭霸的研究也比較早,主要做星際爭霸的微操,針對多智能體、不完全信息和實時決策的問題,我們定義一種高效的狀態表示方法(如圖 3),包括前一時刻的,自己的動作狀態和對手以及隊友的狀態,輸出移動或進攻動作。提出了多智能體梯度下降 SARSA()的方法來解決星際微操中多智能體的決策控制問題。相關文章發表在 IEEE TETCI 期刊上,得到 Popular Article,同時文章也被
80、谷歌發表在 Nature 的 AlphaStar 論文引用。在游戲 AI 領域,我們發表兩篇綜述,2016年發表在控制理論與應用的深度強化學習綜述:兼論計算機圍棋的發展,2017 年深度強化學習進展:從AlphaGo 到 AlphaGo Zero,加起來下載量 1 萬余次,也在中國自動化學會等官方微信里面分享了一些體會。組織了一個 IEEE 神經網絡與學習系統匯刊???,主題為深度強化學習和自適應動態規劃。和 Simon 和 Julian這兩位 IEEE ToG 的創刊主編和現任主編,一起組織了深度強化學習和游戲的???。圖 3:星際爭霸微操總結一下游戲 AI 的發展,我們分析谷歌和 Open A
81、I 基本都是從游戲開始做,最終把它應用到實際,包括電力系統優化,機器人操作,機器人運動和機器人玩魔方。因為在游戲環境下學習驗證,可以避免決策過程遇到的安全、倫理、數據高效和加速等等問題。我們自己做了一個游戲 AI 的發展趨勢(如圖 4),橫軸從單個體到多個體,縱軸是二維到三維。在左下角的 Atari 游戲和圍棋這類單個體完全信息問題,目前是解決的比較好的,最典型的包括谷歌的 MuZero。但是包括蒙特祖瑪等關于推理的游戲還有待進一步的提升。第一視角三維的游戲,比如賽車、Minecraft 以及 ViZDoom 等還有許多需要做的工作。二維環境下,如星際爭霸、DOTA2 等多智能體、不完全信息博
82、弈問題,已經有很多優秀的工作,但是已有的工作對硬件資源需求比較大,如何能夠優化算法,更好的把這些算法應用在實際的系統中,還有很多的工作要做。再結合起來就是三維多個體問題,這一塊也更具挑戰性。38圖 4:游戲 AI 發展趨勢二、智能駕駛我們將上述游戲 AI 的算法盡量應用到實際系統中,第一個考慮的就是智能駕駛。智能駕駛是對車輛通過相機、激光雷達等傳感器獲得的一些信息來進行周圍環境的檢測和物體的識別,在這個基礎之上,我們再來做車輛的預測和決策的控制,整個鏈條比較長,這里我只是挑一些識別,還有車輛的縱向控制、換道控制等來跟大家分享一下。圖 5:車型識別39我們在 2016、2017 年做了一個基于視
83、覺注意力的車型識別框架(如圖 5),針對圖像細分類問題需要挖掘圖像中細微差別,提出了融合視覺注意力的深度強化學習方法。人對車型識別時會關注車標、進氣格柵、擋風玻璃和雨刷器等等,我們希望把注意力集中在這些位置,通過卷積網絡來計算,利用識別信息熵做反饋評價。這種方法使得性能獲得了很好的提升,相關文章發表在 IEEE TCDS 期刊雜志上,得到 Popular Article 第一位,被評為年度優秀論文。把這個方法用在實際的多任務學習,進行前方車輛檢測和前車距離的檢測,這兩項我們參加中國智能車未來挑戰賽,均獲得了第一名。其他的工作包括交通信號檢測、車道線識別檢測,車道保持狀態監測等也都參與了一些。在
84、得到了檢測的信息之后,下一步的工作就是做智能駕駛的決策控制,其中有一個工作比較典型,就是車道保持。我們延續之前的工作,輸入的是車輛觀察到的圖片,用多任務學習的方法得到車輛和車道偏離的距離,包括車輛的偏角以及車道的朝向。再把學習到的結果作為輸入,利用 DDPG 方法進行決策,來控制方向盤的轉角,進而實現車道保持的任務(如圖 6)。圖 6:車道保持從實驗的結果來看,多任務的學習與單任務學習相比,經過不同任務的加權,可以得到更好的性能。將多任務學習與一些基線方法進行比較,結果也更穩定,同時可以泛化到新的賽道環境??偟膩碚f,把多任務的感知和強化學習的控制結合起來,可以實現車道保持的控制,既可以看到自己
85、本身的感知結果,還可以獲得目標控制的結果,包括在單車道和三車道環境下的控制。上面介紹的是單車道的保持,但是如果本車道有一輛開的比較慢的車或者事故車,我們就需要換道通行,這在車輛控制里面屬于橫縱向綜合控制。我們設計了一個分層的強化學習(如圖 7),上一層進行高層的決策,判斷是否保持車道或是換道,下一層進行軌跡規劃進而執行。測試過程中,算法首先在 Udacity 平臺進行測試,從40實驗結果中可以看到,當規則因素和深度強化學習相結合的時候,可以實現及時換道的功能,單純使用規則的話,換道決策比較保守。為了驗證算法的可遷移性,我們直接把算法遷移到另外一個更專業的仿真測試平臺VTD 里面,在遷移過程中并
86、沒有進行網絡訓練,但是效果非常好,這主要得益于之前設計的分層的架構。把前面智能駕駛的感知和決策的工作結合起來,我們設計了一個無人配送車。這也是在今年的疫情之后,大家盡量避免在食堂集中就餐,由我們的無人配送車帶著裝有 200 斤盒飯的拖車,并將其送至我們所里面的兩個大廈,讓大家分散就餐。這個工作量還是比較大,無人配送車可以減少人和人的接觸。無人配送車具有路人檢測,路徑規劃,及時避障等功能。我們的無人配送車在自動化所開放日自動化之光進行了展出,也得到了今日頭條的報道。圖 7:超車換道在智能駕駛和深度強化學習領域,大家應該齊力為這個領域做一些貢獻。因此我們也做了一些自己的工作,收集了深度強化學習相關
87、的數據集,包括車道線檢測和車輛檢測、交通標志檢測,并將我們參加的比賽和我們自己收集的數據集公布在開源的網站上(如圖 8),歡迎大家更好的利用。我們自己的算法也進行開源,包括車道保持算法,希望對智能駕駛和深度強化學習領域有所推進。41圖 8:智能駕駛-數據公開今年我們也參與了智能駕駛決策比賽 I-VISTA 的組織,大家感興趣可以報名(如圖 9)。一共有預選賽和決賽兩部分,提供專業軟件 VTD 讓大家試用,參賽選手利用軟件進行算法的調試,最終提供一個性能的測試報告,以此判斷參賽選手是否可以參加決賽。決賽的時候,由主辦方提供裝有 VTD 的電腦,來做硬件在環的測試,考驗參賽選手的算法是否更適合實際
88、的應用系統。圖 9:第三屆 I-VISTA 虛擬仿真比賽42智能駕駛的比賽有很多,但是決策相關的比賽很少。前面我提出了對游戲 AI 的展望,針對智能駕駛領域,平臺和算法方面也都需要很多的工作,需要大家共同參與。包括設計一個典型的測試環境,到底哪一種環境能夠更好的對智能駕駛算法進行測試;怎么進行交互,如何實現環境車輛的切入干擾,以此來檢測算法的智能性,也就是環境和交互;算法的智能該如何評價,目前比較簡單的評價方式就是如果違規就扣一點分,但是這種評價的方式是否科學,是否評價出來的前幾名真正代表了算法的智能水平比較高;在 L4、L5 甚至無人駕駛里面,是不是能夠細分更多的評價準則,這都還有很多的問題
89、需要我們共同去解決。我們也希望在決策智能領域,可以做出一個平臺提供給大家來進行學習測試。當然,智能駕駛的算法也有很多的工作目前還不是很成熟,主要針對復雜環境有很多開放的不確定的問題,比如有車有人隨時出現。算法在智能駕駛里面一定要有可解釋性,在一些干擾情況下,算法可能會出現一些誤動作,包括各種場景的魯棒性、泛化性,還有很多的工作要做。三、機器人最后跟大家分享一下我們在機器人方面的工作,包括視覺導航、環境探索以及實體的對抗。視覺導航是在室內的場景,通過視覺傳感器,尋找一個物體,比如找微波爐,機器人能夠發現它并能走到附近,就表示這個任務完成。常用的方法是 Slam 建圖,然后定位,如果沒有地圖的時候
90、,我們就用強化學習的方法來實現。但是傳統的建圖,對物體的位置信息要求比較嚴格,在新的環境里面可能不適用。我們提出了一個基于 Markov 網絡和圖神經網絡的強化學習方法 MGRL。物體之間的關系,我們用 Markov 網絡來表示,用圖神經網絡來推理,用強化學習的框架來訓練。圖 10 中,輸入是攝像頭拍攝的前向、左側、右側的圖片,用卷積網絡提取視覺的特征,同時用 Markov 網絡來獲得三張圖片中離目標點的距離,得到三個具體的信息,把它們定義為系統的狀態,用 Actor-Critic 的方式來計算 Value Network 和 Policy Network。圖 10:MGRL43在一個標準的測
91、試環境里面,有四類的場景,包括一個廚房、起居室、臥室等等。我們應用圖神經網絡強化學習的方法,結合各種消融實驗,跟 A2C 進行比較。圖 11 右下角是學習到的物體之間的關系,假如物體之間沒有關系,它就沒有連接線。此外,我們將我們的方法和一些最先進的方法進行比較,比如 ICLR 2019 年的方法,在四個環境里面進行的測試,對比的方法針對每個環境需要一個模型,我們的方法總共只需要一個模型;我們的方法對動作的需求更低;同時,我們的方法找到目標所需要的最大步數也更少。我們將這個方法遷移到實際的環境中,我們用一個機器人搭載幾個攝像頭,去找一個目標,通過簡單幾個步驟就可以找到目標的位置。圖 11:MGR
92、L 實驗結果關于機器人,還想介紹一下未知環境探索,這也是智能駕駛和機器人等領域里面大家比較關注的問題。一般的方法,可以通過規則的方法來進行探索,但是對于比較雜亂的環境,這個方法就有一些局限性。也有人用端到端的學習方法,但是遷移性比較差,新環境需要大量的樣本。我們提出一個深度強化學習的方法,包括幾個模塊:決策、規劃和建圖(如圖 12)。決策模塊根據機器人已經走過的路徑以及現在的地圖,來確定下一個要走的位置的點;規劃模塊,根據這個點用傳統的 A*方法規劃出到達這個點的軌跡;建圖模塊是在完成行駛軌跡的過程中,一邊做動作,一邊收集信息,來完成整個地圖的更新。44圖 12:基于 DRL 的自動探索框架我
93、們采用一個全卷積神經網絡,定義一個性能指標函數,定義地圖和已知真值地圖的差別。但是真值地圖我們很難獲得,因此我們將其替換為所獲得地圖的香農熵,也就是地圖的不確定性。同時考慮建圖所用的路徑的長度,路徑越短越好,結合機器人運動的約束,進而得到獎勵的定義(如圖 13)。圖 13:全卷積 Q 網絡我們設計了基于全卷積 Q 網絡的輔助任務,輸入地圖的位置和邊緣的圖像,輸出是優勢函數和狀態值函數。將地圖進行離散化,判斷網格點是否被占用,灰色的網格點是沒有探索到的空間,輔助任務就是發現在建圖過程45中得到的邊緣圖像,使得探索更有效率。在地圖測試結果中,輔助任務的方法效果都是比較好的。圖 14:輔助任務上述是
94、在仿真環境里進行測試,同時我們也利用自己的比賽地圖,來做實際的測試。圖 15 可以看到性能的對比,從仿真到實際里面,可以看到算法性能有一點損失,但是大部分還是能夠保持算法的效果。分析原因,我們覺得是因為算法的決策輸出是一個目標點,而并不是機器人的具體的控制,具體的控制可能不確定性更大一點,而目標點是更中觀或者宏觀的指標,所以這個算法遷移帶來的差異性更小一點。圖 15:實車試驗與分析46最后我來介紹一下我們在 Robomaster AI 挑戰賽的工作,這是大疆在 2018 年開始的在 ICRA 會議上舉辦的一個比賽。每隊有兩個機器人,在一個 5 米 8 米長的空間里面有一些障礙,互相尋找并攻擊對
95、方。機器人可以發射炮彈,需要攻擊機器人的裝甲板,機器人四周有四塊裝甲板,如果被擊中的話,這個機器人就會掉血。在規定的時間里,哪一組機器人的血量保持最多哪一組就獲勝。我們在 2018 年獲得了算法的最高評價。在 2018 年的時候,大疆的機器人跟所有的對手來進行比賽,他們的機器人性能比較好,速度比較快,因此我們果斷采取一個保守的策略。在打斗的時候如果發現裝甲板在閃爍,就表示子彈打中對手,隊友機器人立刻過來補刀,對手機器人沒有燈了,就表示它已經死掉了,最終我們獲得了比賽的勝利。2018 年大家的平臺不一樣,很難公平比較算法的優劣,2019 年都用了同樣的平臺來進行設計,也增加了一些難度,比如每輛機
96、器人最開始沒有子彈,需要到兩個固定裝彈區域進行裝彈,每次裝彈數量也是限量的,其他的跟 18 年基本相同。這個實體比賽會有很多不確定性出現,所以實體的比賽和應用還是有很多的難度,我們需要去克服,而且我們還有很多工作需要去做。整個 Robomaster 比賽還是蠻復雜的,我們做了一個系統架構的圖(如圖 16),包括底層的驅動,如何根據它做運動;包括相機、激光雷達這樣的驅動,將得到的數據到輸入感知層,實現機器人的定位;前邊車輛的檢測,自己車輛的檢測、敵方車輛檢測,車輛檢測的裝甲板在哪里,根據檢測結果融合、追蹤和預測節點。接下來做規劃,規劃過程中要兼顧全局規劃和局部的避碰,最終實現底盤的控制、云臺控制
97、以及射擊控制,兩個機器人之間的協作也會有一個學習的策略。圖 16:Robomaster 系統架構和關鍵技術如果直接進行實體實驗來完成上述工作,實驗很難進行,因為實體實驗經常發生碰撞,對機器人有損耗。所以我們開發仿真平臺,仿真平臺課題提供機器人汆的第一視角,能夠為檢測提供一些數據。在二維的環境下,可以來演練兩個機器人協作的策略,驗證包括瞄準、射擊,提高射擊的準確率。還包括整個全局協作的工作,后47續還將這些工作遷移到實體平臺當中。如圖 17 所示,我們針對仿真到實體的工作,將實體環境抽象簡化,簡化成二維的環境,我們用一個類似于星際的環境進行策略學習,學習兩個機器人之間如何進行協作。再把它分層強化
98、,在下一層的時候把策略轉化為每個個體、每個機器人執行的任務,在執行的過程中進行路徑規劃、尋找目標、目標檢測,最后遷移到實體里面。這也是一個多智能體強化學習協同博弈問題,這還是比較復雜的一項任務。圖 17:Robomaster從仿真到實體 四、總結我們主要在做深度強化學習相關的工作(如圖 17),在游戲 AI 包括單個體格斗的游戲,例如星際爭霸和ViZDoom 等方面進行研究。游戲環境是基礎,我們繼續探討更智能的游戲 AI 的算法,更具可解釋性的算法。進而把這些方法應用到智能駕駛領域,包括車輛檢測、車輛的保持和決策的控制,還包括機器人導航、位置環境探索,以及協作和博弈對抗的問題中。48 啟元世界
99、高超:啟元星際指揮官基于高效平臺訓練的最高級強化學習智能體整理:啟元世界6 月 23 日,啟元世界技術副總裁高超在 2020 北京智源大會“決策智能”專題論壇上作了啟元星際指揮官:基于高效平臺訓練的最高級強化學習智能體的報告。高超曾先后就職于易趣、百度、阿里巴巴等知名企業。在離開阿里巴巴前負責廣告投放平臺團隊。2018 年加入啟元世界,任技術副總裁,負責強化學習平臺產品的建設,在分布式系統、高性能計算、大數據等領域有 13 年的工作經驗。在報告中,高超從三個方面展開介紹:第一,介紹啟元星際指揮官達到職業玩家水平,其背后的技術要點第二,介紹啟元世界強化學習平臺的設計要點第三,介紹啟元世界強化學習
100、平臺與產業的結合點以下是高超演講的全文:首先,向大家介紹一則消息,6 月 21 日,啟元星際 AI 頂級職業選手挑戰賽中,啟元星際指揮官以兩個 2:0 的比分,分別擊敗了中國兩位頂尖星際職業選手黃慧明和李培楠。其中,李培楠更是現役中國選手中排名最高的。這一成績說明了啟元世界已經具備解決強化學習領域最為復雜問題的能力,以及世界一流的技術水平。一、星際爭霸智是強化學習領域最為復雜的問題之一星際爭霸是電競領域最為經典的游戲之一,也被認為是最具挑戰的即時戰略游戲。在該款游戲中,玩家需要同時考慮經濟建設、基礎設施建設、科技發展、戰斗單元的建造。尤其是該游戲中各個兵種有相克關系,玩家在建造建設的過程中,還
101、要綜合考慮戰斗規劃、兵種配合、資源合理分配等要素,從而達到相對的戰斗力最大化。最后,玩家還需要有快速響應的臨場操控能力,指揮部隊戰斗。啟元世界從 2017 年 8 月,公司誕生之初就開始基于星際爭霸的環境研究強化學習技術。在 2018 年 4 月,北京大學舉辦的第 42 屆 ACM-ICPC 全球總決賽上發布了星際爭霸人機協作挑戰賽。2018 年 11 月,啟元星際指揮官在 Mini Game 中達到職業選手水平,并受邀在加拿大舉辦的 AIIDE 會議上演講。之后,啟元星際指揮官全面進入 Full Game 的研究,并于 2019 年 9 月達到白金水平,3:0 擊敗人類黃金級選手。2019
102、年 12 月,達到鉆石水平,并在同年的 NeurIPS 會議中展示 Demo,成為該屆會議最火爆的體驗項目。2020 年 6 月達到宗師水平,并于當月擊敗了人類頂級選手。星際爭霸是當今強化學習屆最為復雜的問題之一,其決策復雜度對比圍棋有數十個數量級的提升,其表現如下圖:49圖 1:圍棋 AI 與星際 AI 對比圖1.圍棋是完全信息下的博弈,而星際是非完全信息的;2.圍棋是回合制對戰,而星際是毫秒級的變頻決策;3.圍棋僅對一枚棋子進行操作,而星際是要從上百個單位中選擇若干;4.圍棋僅有落子一種指令,而星際有建造、移動、攻擊等上百種指令;5.圍棋的指令目標在 19*19 的格子中選擇一個,而星際的
103、目標則要在 256*256 的區域,或者數百個單位中做選擇;6.圍棋平均每局只需要決策 100 次,而星際需要 2000 次以上的決策。綜合上述復雜度,圍棋的決策空間是 361,而星際是 10 的 26 次方。二、啟元世界星際指揮官的算法實現要點啟元世界星際指揮官為了應對如此復雜的問題,設計了模仿學習、強化學習、演化學習三位一體的訓練流程。模仿學習可以以較低的成本初始化星際 AI 智能體,從而節約大量的、低效的智能體初期探索算力。模仿學習以少量人類數據作為輸入,輸出超過人類黃金選手水平的智能體。同時,以人類數據初始化的智能體,可以為后續的訓練過程帶來打法上的多樣性,從而保證在與人類對抗中的魯棒
104、性。模仿學習的另一個好處是,可以構建一個快速驗證算法策略的技術架構。強化學習以模仿學習階段輸出的模型作為起始模型,使用帶有 GAE 的近端策略優化算法(PPO)進行優化。為了在強化學習階段保持人類多變的打法,會比較正在優化的策略分布與模仿學習策略分布的 KL 距離,并在損失函數中加入一個懲罰項。50為了在強化學習過程中演化出更為強勁魯棒的打法,加入了智能體聯賽機制,以期在智能體相互博弈的過程中,共同促進成長。在該聯賽中,主要包括三類智能體。其一是 Main Agent,其目的為變強和變魯棒。它會與聯賽中的所有打法的智能體及其歷史版本進行對抗。第二類是 Main Exploiter,其目的是發現
105、 Main agent 的缺陷,并針對缺陷訓練應對的策略,最終作為 Main Agent 的陪練,補強其漏洞。第三類是 League Exploiter,其目的是發現 league 中全體智能體的打法缺陷,并找到應對策略,最終作為 Main Agent 的陪練,補強其漏洞。圖 2:Commander Neural Network啟元星際指揮官使用了啟元世界自主設計的網絡模型 Commander Neural Network。這是一套類似于圖像處理領域中 ResNet 等模型一樣的標準化模型。它將輸入、輸出、獎勵標準化,可以端到端的解決基于空間和時間特征關聯的,博弈對抗類型的強化學習問題。三、高
106、效的智能體訓練平臺啟元世界從建立之初,就確定了一橫兩縱策略。通過競賽項目或星際爭霸類的研究型項目積累技術經驗,并沉51淀到智能體訓練平臺中。通過平臺的轉化,輸出給業務項目。而通過業務項目積累的行業經驗再次反哺到平臺中,為日后的項目節約解決方案上的成本。圖 3:啟元智能體訓練云啟元世界面向于產業級大問題提供解決方案,通過大量案例的分析,將該類問題分解成兩個關鍵要素:問題規模和業務效果,其關系如下圖所示:圖 4:兩個關鍵要素問題規模主要依靠分布式技術解決,而業務效果主要依靠算法能力。啟元世界在算法能力之上進行了進一步的抽象,總結了在相關領域的最佳實踐,進一步提升了算法結合產業的效果。52根據上述要
107、素,我們進一步分解,設計了五層系統架構,如下圖所示:圖 5:對要素進行分解,設計一個五層系統架構通過硬件架構的設計,提供了高計算密度、低通信延時的集群部署方案。通過分布式操作系統層的抽象,將眾多服務器抽象成如同一臺電腦的、可靈活分配的算力模型。最后通過四大引擎的計算抽象,將大規模算力轉化為數據生產和消費的能力,從而簡化了大規模算法的實施成本。算法層涵蓋了算法實施的全過程,包括原始數據處理的特征庫、支撐強化學習優化方法的算法庫、上面提到的標準化神經網絡模型結構及組件的模型庫,以及優化智能體魯棒性的訓練方法庫。最后,啟元還將上述技術結合十余年的系統建設經驗,構建了涵蓋工程師從研發、調試、到模型訓練
108、、評估、部署,全周期的產品解決方案。上述架構的運行邏輯如下圖:圖 6:循環邏輯53四、啟元智能體訓練平臺的技術優勢啟元世界擁有業界一流的系統設計和實施能力,根據強化學習計算特點設計的計算模型、網絡通信優化、數據Pipeline 優化、計算優化、Placement 優化等多種手段,將平臺的計算能力推高到開源實現的 10 倍以上。另外,啟元世界還開創性的提出了對抗博弈類的標準網絡結構,Commander 網絡模型(群體指揮控制)和 Hero網絡模型(多智能體協作)。配合標準化的訓練方法(模仿學習、自博弈訓練、聯賽機制),可以產出達到甚至超過人類水平的智能體。啟元智能體訓練平臺于其它競品的對比如下圖
109、:圖 7:競品對比啟元智能體訓練平臺和 Google SEED(TPU)同屬于產業級大規模分布式強化學習計算平臺,因為二者都已經解決了該領域最為復雜的問題。如果 SEED 部署在 GPU 集群上,最多支撐單機 8 塊 GPU,也就退化到單機多卡的領域,與其類似的是 PARL,從發布的信息上看,它們更多的是在解決競賽問題。Berkeley Ray 可以較大規模的部署,但受限于分布式多進程的計算模型及實現,其規模擴展也受到限制,并且多用于研究領域。而其它的單機框架更是只能解決非常小規模的問題。54五、啟元智能體訓練平臺的商業應用啟元世界依托于成熟的平臺技術,憑借高強度的計算性能、大規模生產問題的算法能力、低成本的算法實施方案,可以將強化學習技術應用于諸多行業,如:智慧防務、數字娛樂、金融科技等。圖 8:平臺產品:跨行業通用技術,市場空間極為廣闊六、結語啟元世界以星際爭霸為平臺,通過三年的潛心研究,將公司的強化學習技術水平推升至世界一流。并通過標準化、平臺化,賦能于眾多行業,為我們的生產生活帶來巨大的社會和商業價值。