作者 | Anthony Alford
譯者 | 張凱峰
策劃 | 丁曉昀
Google DeepMind 最近宣布了 Robotics Transformer 2(RT-2),這是一個用於控制機器人的視覺 - 語言 - 動作(VLA)的 AI 模型。RT-2 使用經過精調的 LLM 來輸出運動控制命令。它可以執行訓練數據中未明確包含的任務,並在新出現技能評估中將基線模型的表現提升了 3 倍。
DeepMind 訓練了兩個 RT-2 的變體,使用了兩個不同的底層視覺 -LLM 基礎模型:一個基於 PaLM-E 的 12B 參數版本,以及一個基於 PaLI-X 的 55B 參數版本。LLM 在通用視覺語言數據集和機器人特定數據的混合之上進行了共同微調。該模型學會輸出一個機器人運動指令向量,將其簡單地視為一個整數字符串:實際上,它是模型學習的一種新語言。最終模型能夠接收機器人工作區域的圖像和用戶命令,例如「撿起即將從桌子上掉下來的袋子」,然後生成執行任務的運動指令。根據 DeepMind 的說法,
RT-2 不僅展示了人工智慧的進步如何迅速地滲透到機器人領域,它還展示了更多通用型機器人的巨大潛力。雖然實現在以人類為中心的環境中有用的機器人方面還有大量工作要做,但 RT-2 向我們展示了一個令人興奮的機器人的未來,它就在我們的掌握之中。
RT-2 不僅展示了人工智慧的進步如何迅速地滲透到機器人領域,它還展示了更多通用型機器人的巨大潛力。雖然實現在以人類為中心的環境中有用的機器人方面還有大量工作要做,但 RT-2 向我們展示了一個令人興奮的機器人的未來,它就在我們的掌握之中。
谷歌機器人技術和 DeepMind 已經發布了多個使用 LLMs 進行機器人控制的系統。2022 年,InfoQ 報道了谷歌的 SayCan,它使用 LLM 為機器人生成高級行動計劃,以及 Code-as-Policies,它使用 LLM 生成執行機器人控制的 Python 代碼。這兩個系統都使用純文本 LLM 來處理用戶輸入,視覺組件由獨立的機器人模塊處理。今年早些時候,InfoQ 報道了谷歌的 PaLM-E,它處理來自機器人傳感器的多模態輸入數據,並輸出一系列高級行動步驟。
RT-2 在之前的實現 RT-1 的基礎上進行了改進。RT 系列的關鍵思想是訓練一個模型直接輸出機器人指令,而不是輸出運動的更高級抽象。RT-2 和 RT-1 都接受圖像和任務的文本描述作為輸入。然而,RT-1 使用了一系列不同的視覺模塊來生成輸入到 LLM 的視覺令牌,而 RT-2 使用了單一的視覺語言模型,如 PaLM-E。
DeepMind 在超過 6,000 個試驗中對 RT-2 進行了評估。特別是,研究人員對其新興能力表現感興趣:即能夠執行機器人專門訓練數據中不存在的任務,但這些任務是通過其視覺語言預訓練而出現的。團隊將 RT-2 在三個任務類別上進行了測試:符號理解、推理和人類識別。與基準模型相比,RT-2 取得了「超過最佳基準模型平均成功率 3 倍以上」的成績。然而,該模型未獲得機器人訓練數據中未包含的任何物理技能。
在 Hacker News 上對這件工作的討論中,一位用戶發表了評論:
似乎這項工作(以及許多機器人學習工作)仍然停留在位置 / 速度控制而不是阻抗控制階段。這本質上是輸出去哪裡,可以是通過閉環控制器或開環運動規劃器。這似乎極大地降低了數據需求,但感覺對我們可以完成的任務有一種根本性限制。機器人操作之所以困難是因為我們不僅需要考慮世界上正在發生的事情,還需要考慮到我們的互動如何改變它以及我們如何對此作出反應。
似乎這項工作(以及許多機器人學習工作)仍然停留在位置 / 速度控制而不是阻抗控制階段。這本質上是輸出去哪裡,可以是通過閉環控制器或開環運動規劃器。這似乎極大地降低了數據需求,但感覺對我們可以完成的任務有一種根本性限制。機器人操作之所以困難是因為我們不僅需要考慮世界上正在發生的事情,還需要考慮到我們的互動如何改變它以及我們如何對此作出反應。
儘管 RT-2 尚未開源,但 RT-1 的代碼和數據已經公開。
原文連結:
https://www.infoq.com/news/2023/10/deepmind-robot-transformer/
B 站廣州研發工作室解散;外媒曝光蘋果中國區醜聞;OpenAI 被曝已叫停新大模型項目 | Q資訊
「MySQL 之父」的 MariaDB 要完蛋了?叫停兩款核心產品並裁員 28%,分析師:該行為無異於自毀長城
劍指 Kubernetes!微軟發布開源平台 Radius:高效構建、運行雲原生應用程式
前端根本不需要構建!「技術邪教」 Ruby on Rails 之父再出激進言論引爭議