AI模型將視覺和語言轉化為機器人動作。
編譯 | 朱悅
7月28日,谷歌DeepMind推出了一款新的機器人模型Robotics Transformer 2(RT-2)。
這是一個全新的視覺-語言-動作(VLA)模型,從網絡和機器人數據中學習,並將這些知識轉化為機器人控制的通用指令。
高容量視覺-語言模型(VLMs)在web-scale數據集上訓練,使得這些系統非常擅長識別視覺或語言模式並跨不同語言進行操作。但是,要使機器人達到類似的能力水平,需要收集每個物體、環境、任務和情況的第一手機器人數據。
在Google DeepMind的論文中介紹了Robotics Transformer 2(RT-2),一個全新的視覺-語言-動作(VLA)模型,它從網絡和機器人數據中學習,並將這些知識轉化為機器人控制的通用指令,同時保留了web-scale能力。
這項工作建立在Robotic Transformer 1(RT-1)的基礎上。RT-1是一個經過多任務演示訓練的模型,可以學習機器人數據中看到的任務和對象的組合。更具體地說,Google DeepMind的工作使用了在辦公室廚房環境中用13台機器人在17個月的時間內收集的RT-1機器人演示數據。
RT-2表現出了更好的泛化能力,超越了它所接觸到的機器人數據的語義和視覺理解,包括解釋新命令並通過執行基本推理(例如關於對象類別或高級描述的推理)來響應用戶命令。
Google DeepMind研究團隊還展示了將思維鏈推理納入RT-2中使其能夠進行多階段語義推理,例如決定哪種物體可以用作一把臨時錘子(石頭),或者哪種飲料最適合疲倦的人(能量飲料)。
1.採用視覺語言模型進行機器人控制
RT-2以視覺-語言模型(VLMs)為基礎,將一個或多個圖像作為輸入,並生成一系列通常表示自然語言文本的標記。此類VLMs已經在大規模網絡的數據上成功訓練,用於執行視覺問答、圖像字幕或對象識別等任務。在Google DeepMind的工作中,將Pathways Language and Image model(PaLI-X)和 Pathways Language model Embodied(PaLM-E)作為RT-2的支柱。
要控制一個機器人,必須對其進行訓練以輸出動作。Google DeepMind研究團隊通過將動作表示為模型輸出中的標註(類似於語言標記)來解決這一挑戰,並將動作描述為可以由標準自然語言標記化處理的字符串,如下所示:
圖註:在RT-2的訓練中,動作字符串的表示方式。這種字符串的示例可以是機器人動作標記編號的序列,例如:「1 128 91 241 5 101 127 217」。
該字符串以一個標誌開始,指示是繼續,還是終止當前情節不執行後續命令,然後機器人根據指示更改末端執行器的位置和旋轉以及機器人抓手所需伸展的命令。
Google DeepMind研究團隊使用與RT-1中相同的機器人動作離散版本,並表明將其轉換為字符串表示使得可以在機器人數據上訓練VLM模型,因為此類模型的輸入和輸出空間無需改變。
圖註:RT-2的架構和訓練:對一個預訓練的VLM模型在機器人和網絡數據上進行共同微調。生成的模型接收機器人攝像頭圖像並直接預測機器人要執行的動作。
2.泛化和湧現能力
Google DeepMind研究團隊對RT-2模型進行了一系列定性和定量實驗,涵蓋了超過6000次機器人試驗。在探索RT-2的湧現能力時,首先尋找了需要將web-scale數據和機器人的經驗相結合的任務,然後定義了三類技能:符號理解、推理和人類識別。
每個任務都需要理解視覺-語義概念,並具備執行機器人控制以對這些概念進行操作的能力。例如,「拿起即將從桌子上掉下來的袋子」或「將香蕉移動到2加1的和」,要求機器人對機器人數據中從未見過的對象或場景上執行操作任務,這需要從網絡數據轉化而來的知識進行操作。
圖註:機器人數據中不存在的湧現能力示例,需要從網絡預訓練中進行知識轉移。
在所有類別中,與之前的基線相比(例如之前在大規模視覺數據集上預訓練的RT-1模型和Visual Cortex(VC-1)等模型),RT-2的泛化性能提高到了3倍以上。
圖註:湧現能力評估的成功率:RT-2模型優於之前的RT-1和VC-1基線。
Google DeepMind研究團隊還進行了一系列的定量評估,首先從最初的RT-1任務開始,這些任務在機器人數據中有示例,然後繼續進行對機器人來說之前從未見過的不同程度的對象、背景和環境的評估,要求機器人從VLM預訓練中學習泛化能力。
圖註:機器人以前未見過的環境示例,RT-2可以推廣到新的情況。
RT-2在機器人數據中保持了對原始任務的性能,並提高了機器人在之前未曾見過的情景上的性能,從RT-1的32%提高到62%,顯示了大規模預訓練的顯著好處。
此外,Google DeepMind研究團隊還觀察到與僅在視覺任務上預訓練的基準模型相比有顯著改進,例如VC-1和機器人操作的Reusable Representations for Robotic Manipulation(R3M),以及用VLM進行對象識別的算法,例如Manipulation of Open-World Objects(MOO)。
圖註:RT-2在分布內可見的任務上實現了高性能,在分布外不可見的任務上優於多個基線。
在開源的「Language Table」機器人任務套件上評估模型,Google DeepMind研究團隊在模擬環境中取得了90%的成功率,明顯優於以前的基線,包括BC-Z(72%)、RT-1(74%)和LAVA(77%)。
然後研究團隊在真實世界中評估了相同的模型(因為它是在模擬和真實數據上進行訓練的),並展示了它泛化到新物體的能力,如下所示,訓練數據集中除藍色立方體外,沒有其他對象存在。
圖註:RT-2在真實機器人Language Table任務中表現良好。在訓練數據中,除了藍色立方體之外,沒有其他對象存在。
受到LLM中使用的思維鏈提示方法的啟發,研究團隊對模型進行了探測,將機器人控制與思維鏈推理相結合,使得學習長期規劃和簡易技能可以在單個模型中實現。
具體而言,研究團隊對RT-2的一個變體進行了幾百個梯度步驟的微調,以增強其聯合使用語言和動作的能力。然後對數據進行擴充,加入一個額外的「計劃」步驟,首先用自然語言描述機器人即將採取的動作的目的,然後是「動作」和動作標註。下面是一個這樣的推理示例和機器人的行為結果:
圖註:思維鏈推理可以學習一個獨立的模型,既可以規劃長期技能序列,又可以預測機器人的動作。
通過這個過程,RT-2可以執行更複雜的命令,需要推理完成用戶指令所需的中間步驟。得益於其VLM主幹,RT-2可以從圖像和文本命令進行規劃,從而實現視覺基礎規劃,而當前的計劃和執行方法(如SayCan)無法看到真實世界,完全依賴於語言。
3.推進機器人控制
RT-2表明,視覺-語言模型(VLMs)可以轉變為強大的視覺-語言-動作(VLA)模型,通過將VLM預訓練與機器人數據相結合,直接控制機器人。
通過基於PaLM-E和PaLI-X的兩個VLA實例,RT-2導致了高度改進的機器人策略,並且更重要的是,它具有顯著更好的泛化性和湧現能力,這些能力繼承自web-scale的視覺-語言預訓練。
RT-2不僅是現有VLM模型簡單而有效的修改,而且顯示了構建通用型物理機器人的前景,這種機器人可以進行推理、問題解決並解釋信息,以在真實世界中執行各種任務。
論文地址:https://robotics-transformer2.github.io/assets/rt2.pdf
(封面圖來源:谷歌DeepMind)