本文介紹的是 ICLR 2020 接收論文《Network Randomization: A Simple Technique for Generalization in Deep Reinforcement Learning》,論文作者來自韓國科學技術院、密西根大學、谷歌。
作者 | wang王編輯 | 叢末
論文地址:arxiv.org/abs/1910.05396
深度強化學習中的智能體通常無法在不可見環境里訓練,這一點在高維狀態空間(如圖像)上進行訓練時尤為突出。本文通過在輸入觀測樣本中引入隨機擾動,隨機化(卷積)神經網絡,提高智能體的泛化能力,使用基於蒙特卡洛近似的推理方法減小隨機化方差。受訓練的智能體在不同隨機環境中學習保持不變的魯棒特徵後,可以適應嶄新的領域。在2D CoinRun平台、3D DeepMind Lab探索平台和3D機器人控制任務中進行實驗,對於同一優化目標,本文提出的方法明顯優於其他各種正則化和數據增強方法。
1 研究背景與研究目標
深度強化學習(RL)已被廣泛應用於各種領域,然而智能體往往過於適應訓練環境,但因缺乏泛化能力而在醫療、金融等領域的應用變得不可靠。
智能體泛化可以通過視覺變化、不同的結構和動力學過程來表征。本文關注任務泛化,經過訓練的智能體在測試時採用各種不可見視覺模式,例如圖1中背景、地板和其他目標物的不同樣式。作者發現,智能體完全失敗是因為視覺變化很小,從高維輸入觀測樣本(如圖像)中學習泛化特徵是一項挑戰。
圖1:(a)是通過重新初始化隨機層的參數而生成的隨機輸入示例,(b)(c)(d)是實驗環境示例。
本文的主要貢獻是開發一種簡單的隨機化技術,提高各種不可見視覺模式任務的泛化能力。主要思想是利用隨機(卷積)網絡生成隨機輸入(如圖1(a)),將智能體(或其策略)送入網絡進行訓練。具體來講,在每次疊代時重新初始化隨機網絡的參數,鼓勵智能體在一系列受擾動的低級特徵下(各種紋理、顏色或形狀)進行訓練。
2
通用網絡隨機化技術本文使用標準強化學習框架開展研究工作,其中一個智能體在離散時間內與環境交互。在每個時間步長t上,智能體從環境中接收狀態
,並根據其策略π選擇動作
。環境返回獎勵
後,智能體轉入下一個狀態
。回報 是時間步長t內的總累積折扣回報,其中折扣因子γ∈(0,1)。強化學習目標是最大化每個狀態的預期回報。1、使用隨機輸入觀測值訓練智能體引入隨機網絡
,其參數φ初始化為先驗分布(例如Xavier正態分布),與原始輸入s不同,使用隨機化輸入
訓練智能體,例如對於基於策略的方法,通過最小化以下策略梯度目標函數來優化策略網絡π的參數θ。
(1)其中
是一組具有累積回報的歷史轉換,通過在每次疊代中重新初始化隨機網絡的參數φ,使用各種隨機的輸入觀測值訓練智能體(見圖1(a))。即環境由不同的視覺模式生成,隨機化網絡使其具有相同的語義,智能體通過學習不變特徵來適應新環境。
為了學習更多的不變特徵,還要考慮隱藏特徵和隨機觀測值之間特徵匹配(FM)損失:
(2)其中
表示策略π倒數第二層的輸出。將隱藏特徵和隨機輸入相結合,根據輸入觀測值的變化學習更多的不變特徵。總損失計算為(3)式,其中β > 0是超參數。
(3)隨機網絡詳細介紹
使用單層卷積神經網絡(CNN)作為隨機網絡,其輸出與輸入具有相同的維數。為了重新初始化隨機網絡的參數,使用以下混合分布:
其中I是恆等核,
是正常數,N表示正態分布,
分別表示輸入和輸出通道數。因為只有隨機輸入的訓練會使訓練複雜化,故以機率
選擇隱藏特徵輸入。Xavier正態分布使輸入s和隨機輸入
的方差趨於穩定,故利用Xavier正態分布進行隨機化。消除視覺偏差
為驗證該方法的有效性,在Kaggle的貓狗資料庫上進行了圖像分類實驗。構建的數據集具有以下不良偏差:訓練集由亮狗和暗貓組成,而測試集由暗狗和亮貓組成。由於CNN偏向於紋理或顏色,而不是形狀,因此預計分類器會基於不良偏差(例如亮度和顏色)做出判定。表1顯示ResNet-18由於過度偏向於訓練數據中的不良偏差而不能有效泛化。為解決此問題,可以應用灰度、剪切、反轉和顏色抖動等圖像處理方法。然而,與本文的方法相比,其在提高泛化能力方面並不奏效。這證實了本文方法通過改變圖像中屬性和實體的視覺外觀,同時有效地保留語義信息,可以使DNN捕捉到更多像形狀一類的有價值信息,不需要用額外信息來消除不良偏差。
表1 基於貓狗大戰數據集的分類精度
2、微小方差推斷方法由於隨機網絡的參數是從先驗分布
中提取的,用隨機神經網絡建模策略。
訓練過程(例如參數隨機化)包含使用蒙特卡洛(MC)近似(每次疊代一個樣本)訓練隨機模型。因此在推斷或測試時,通過將期望值近似如下來選擇動作a:
其中
和M是MC樣本數。也就是說,為每個觀測值生成M個隨機輸入,然後對它們的決策進行聚合,結果表明,該估計器通過更精確地逼近後驗分布來提高訓練智能體性能。
3 實驗1、基線和實驗細節
對於CoinRun和DeepMind Lab實驗,以IMPALA中使用的CNN體系結構作為策略網絡,並使用近端策略優化(PPO)算法來訓練智能體。在每個時間步長上,將64*64的觀察幀作為智能體的輸入,並使用256步展開來收集軌跡以進行訓練。對於超現實機器人實驗,採用CNN結合LSTM結構作為策略網絡,應用分布式PPO算法訓練智能體。在不可見環境中每10M時間步長測量一次性能,並記錄3次運行的平均值和標準偏差。本文提出了一種利用隨機網絡和特徵匹配(FM)損失增強PPO的方法,使用β=0.002作為FM損失的權重,使用=0.1作為跳過隨機網絡的機率,使用M=10作為MC近似,使用核大小為3的單層CNN作為隨機網絡。
2、CoinRun實驗小尺度環境下消融研究
相比正則化技術和數據增強技術,本文提出的方法最有效。隨機輸入的訓練會降低訓練效果,但DNN的高表達能力彌補了這一點。通過優化FM損耗,可進一步提高在不可見環境下的性能。為了驗證MC近似在測試時的有效性,通過改變MC樣本的數量來測量在不可見環境中的性能。圖2(d)顯示了50次評估的平均值和標準偏差。通過增加MC樣本的數量可以改善性能及其方差,但這種改進在10個樣本左右是飽和的,因此使用10個樣本進行以下實驗。
圖2:(a)從不同環境中收集多個片段,將(b)PPO和t-SNE構造的(c)PPO+ours優化訓練智能體並可視化隱藏表示,其中點的顏色表示相應觀測的環境。(d)不同數量的MC樣本的平均成功率。
嵌入分析
分析受訓練智能體的隱藏表示在不可見的環境中是否表現出有意義的抽象概念。使用t-隨機臨近嵌入(t-SNE)算法將訓練智能體的倒數第二層上的特徵可視化並簡化為二維。圖2(a)顯示了人類示範者在可見和不可見環境中拍攝的軌跡投影。來自可見和不可見環境的軌跡在智能體的隱藏空間上對齊,而基線產生分散和不相連的軌跡。這意味著本文方法使智能體能夠學習穩定和魯棒的特徵。
為了定量地評價隱藏表示的性能,還測量了循環一致性。給定兩個軌跡V和U,
首先在另一個軌跡
中找到其最近鄰項。其中 表示智能體倒數第二層的輸出,在V中找到
的最鄰近項。
定義為循環一致性,如果
,則可以返回原點,循環一致性意味著兩個軌跡在隱藏空間中精確對齊。還通過測量是否在VUJV和VJUV兩條路徑上保持循環一致性來評估三向循環一致性,其中J是第三條軌跡。與圖2(C)所示的結果類似,與一般PPO訓練的智能體相比,本文方法顯著提高了循環一致性。大規模實驗結果
在一個固定的500級CoinRun集上評估泛化能力。為了明確區分可見和不可見環境,使用一半可用的主題(即背景、地板、智能體和移動障礙物的樣式)進行訓練,並測量由不可見的主題組成的1000個不同級別的性能。如圖3(a)所示,本文方法在很大程度上優於所有基線方法,特別是成功率從39.8%提高到58.7%。
3、DeepMind Lab和超現實機器人控制實驗結果
根據標準的探索任務設計的,目標對象被放置在三維迷宮中的一個房間中。在這項任務中,智能體的目標是在90秒內收集儘可能多的目標對象,以最大化獎勵。一旦智能體收集目標對象將獲得10分,並重新定位到一個隨機位置。儘管基線智能體通過在可見的環境中學習這個簡單的策略而獲得高分,圖3(b)顯示它們無法適應未知的環境。網絡隨機化方法訓練的智能體在可見和不可見的環境中都能獲得高分。這些結果表明隨機化方法可以從高維和複雜的輸入觀測樣本中學習廣義特徵。
圖3 不同環境下受訓練智能體性能曲線圖
Sawyer機器人如果成功提升隨機放置在桌子上的塊,將獲得獎勵。在單一的環境中訓練智能體,並在五個不可見的環境中使用不同樣式的表和塊進行測試。圖3(c)表明,與不可見環境中的所有基線相比,網絡隨機化方法在保持其在已觀測環境中的性能的同時,獲得了顯著的性能增益,說明網絡隨機化方法可以保持基本屬性不變。
4 總結
本文討論了RL中的泛化問題,為了提高泛化能力,將CNN的第一層隨機地擾動低層特徵,例如各種紋理、顏色或形狀。本方法通過產生各種視覺輸入觀察值鼓勵智能體學習不變性和魯棒性特徵。這種不變性特徵對於其他相關的課題,如RL中的對抗性防禦、仿真到實踐的遷移、遷移學習和在線適應等都有借鑑意義。
文章來源: https://twgreatdaily.com/zh-cn/Eb2UmXEBrZ4kL1Viy-Dn.html