Meta、史丹福大學用生成式AI實現3D空間環境人機互動

2023-12-12     映維網

原標題:Meta、史丹福大學用生成式AI實現3D空間環境人機互動

(映維網Nweon 2023年12月12日)史丹福大學和Meta旗下的FAIR團隊日前介紹了一種突破性的人工智慧系統:僅根據文本描述就可以在虛擬人和物之間產生自然的同步運動。

這個新系統名為CHOIS(Controllable Human-Object Interaction Synthesis/可控人-物交互合成),而它採用最新的條件擴散模型技術來產生無縫和精確的交互,比如「把桌子舉過頭頂,走路,放下桌子」。

展望未來,以後的虛擬生物將可以像人類一樣流暢地理解和響應語言命令,而系統可以從語言描述中生成連續的人機互動。

團隊指出,在3D環境中合成人類行為對於計算機圖形學、嵌入式人工智慧和機器人技術等應用至關重要。儘管人類可以毫不費力地在環境中導航和執行任務,但這對機器人和虛擬人而言是十分艱巨的挑戰,因為每一項任務都需要人、物和周圍環境之間的精確協調。

在另一方面,語言是表達目的意圖的有力工具。在語言和場景背景的指導下,合成逼真的人類和物體運動是構建先進人工智慧系統的基石。

史丹福大學和FAIR團隊認為,儘管現在已有研究在探索人-場景交互問題,但它們僅限於具有靜態對象的場景,忽略了日常生活中頻繁發生的高度動態交互。另外,儘管業界最近在動態人-物交互建模方面取得了進展,但相關方法只關注較小的對象,或者缺乏操縱多種對象的能力。即便存在探索操縱更大尺寸的各種物體,但它們依賴於過去的交互狀態序列或物體運動的完整序列,無法單獨從初始狀態合成物體運動和人體運動。

所以在CHOIS的研究中,團隊專注於從語言和初始狀態合成涉及更大尺寸的不同對象的逼真交互。

從語言描述生成連續的人機互動帶來了數個挑戰。首先,我們需要生成逼真和同步的物體和人體運動。在交互過程中,人的手應該與物體保持適當的接觸,物體的運動應該與人的行為保持因果關係。

其次,3D場景中經常有大量的物體,限制了可行運動軌跡的空間。因此,交互合成必須適應環境的混亂,而不是在一個空場景的假設下操作。

對於CHOIS,團隊重點研究了從自然語言命令合成三維環境中人-物交互的關鍵問題,在語言和稀疏物體路徑點的指導下生成物體運動和人體運動。

運動應該與語言輸入中指定的指令保持一致,同時符合由3D場景幾何導出的航路點條件定義的環境約束。為了實現這一點,研究人員採用條件擴散模型來同時生成同步的物體和人體運動,條件是語言描述、初始狀態和稀疏的物體路徑點。

為了提高預測物體運動的準確性,在訓練過程中加入了物體幾何損失。另外,他們設計了在採樣過程中應用的guidance term,以提高生成交互的真實感。

實驗證明了學習交互合成模塊在系統中的有效性,可以在給定語言描述和3D場景的情況下產生連續的逼真和情景感知交互。

通過條件擴散模型,CHOIS系統可以模擬生成詳細運動序列。當給定人類和物體位置的初始狀態,以及所需任務的語言描述時,CHOIS就能夠生成一系列運動。

例如,如果指令是將燈移近沙發,CHOIS就會理解這個指令,並創建一個逼真的動畫,令人類化身拿起燈並將其放在沙發附近。

使得CHOIS特別獨特的是,它使用稀疏的對象路徑點和語言描述來指導動畫。路徑點充當對象軌跡中關鍵點的標記,確保運動不僅在物理上合理,而且與語言輸入概述的目標保持一致。

CHOIS的獨特之處同時在於它將語言理解與物理模擬結合在一起。傳統模型往往難以將語言與空間和物理動作聯繫起來,特別是在更長時間的交互範圍內,它們必須考慮諸多因素才能保持真實性。

通過解釋語言描述背後的意圖和風格,然後將它們解讀成一系列尊重人體和所涉及對象約束的物理運動,CHOIS可以彌合了這一差距。系統確保了接觸點(如手觸摸物體)可以準確地呈現出來,並且物體運動與虛擬人施加的力一致。

CHOIS系統可以對一系列的領域產生深遠的影響,特別是在動畫和虛擬現實領域。如果人工智慧能夠解釋自然語言指令並生成逼真的人機互動,CHOIS可以大大減少製作複雜場景動畫所需的時間和精力,而且在虛擬現實環境中,CHOIS可以帶來更加身臨其境的交互式體驗,因為用戶可以通過自然語言命令虛擬角色,並看到它們以逼真的精度執行任務。

這種高水平的交互可以將VR體驗從僵硬的腳本事件轉變為對用戶輸入做出真實響應的動態環境。

相關論文:Controllable Human-Object Interaction Synthesis

研究小組認為,他們的研究是朝著創造可以在不同3D環境中模擬連續人類行為的先進人工智慧系統邁出的重要一步。它同時為進一步研究從3D場景和語言輸入中合成人機互動打開了大門,並可能會在未來帶來更複雜的人工智慧系統。

文章來源: https://twgreatdaily.com/d7b6fbecc59e5e58f747fe905b4b378a.html