找東西不再瞎矇!CMU、FAIR開發出有常識的機器人

2020-07-23     AI科技評論

原標題:找東西不再瞎矇!CMU、FAIR開發出有常識的機器人

作者 | 青 暮

編輯 | 叢 末

CMU和FAIR合作開發了一款語義導航系統SemExp,可以利用常識來進行導航和執行尋物任務,SemExp還在上個月的CVPR室內目標導航挑戰賽中贏得了冠軍。

如果SemExp事先知道沙發在客廳,冰箱在廚房,它在尋找沙發或冰箱時會更有效率,即使是在一個陌生的地方。也就是說,SemExp可以使用類似於人類常識的知識來找東西。

SemExp要找冰箱是嗎?我記得人類一般是把冰箱放在廚房裡的。好的,那我就先去廚房看看吧。哦,果然在,so easy!

上個月,名為SemExp的機器人在CVPR上贏得了室內目標導航挑戰賽(Habitat ObjectNav Challenge),險勝三星中國研究院。這是CMU團隊在年度挑戰賽中連續第二次獲得第一名。

SemExp(即目標導向的語義探索)使用機器學習方法來尋找目標物體。SemExp能夠區分茶几和廚房桌子,從而推斷出它位於哪個房間。

CMU機器學習系博士生Devendra S. Chaplot說,SemExp可以戰略性地思考如何搜索事物。也就是說,SemExp理解物體和房間布局之間的語義關係。

相比之下,傳統的機器人導航系統通過構建顯示障礙物的地圖來探索空間。機器人最終能成功找到目標,但是路線可能是迂迴曲折的,會進行很多不必要的探索。

過去使用機器學習來訓練語義導航系統的嘗試效果不佳,因為它們傾向於記住目標及其在特定環境中的位置。這些環境不僅複雜,而且系統通常難以將其學到的知識泛化到不同的環境。一旦到了新環境,系統就很難利用已有的經驗執行類似的任務。SemExp採用領域無關的模塊化方法解決了這個問題,它不僅能夠適應新的虛擬環境,還能遷移到現實世界中。

SemExp:要找烤箱(oven)?烤箱不也在廚房裡嘛。

這項研究由Chaplot、CMU Robotics Institute副教授Abhinav Gupta、CMU機器學習系教授Ruslan Salakhutdinov和FAIR的Dhiraj Gandhi共同完成。

論文地址:https://arxiv.org/pdf/2007.00643.pdf

項目地址:https://www.cs.cmu.edu/~dchaplot/projects/semantic-exploration.html

參考內容:https://www.cmu.edu/news/stories/archives/2020/july/robot-navigation.html

Chaplot說,該系統利用其語義洞察力來確定尋找特定物體的最佳位置。「一旦決定要去哪裡,就可以使用經典規劃方法來達到目標。」

事實證明,這種模塊化方法在很多方面富有成效。SemExp的學習過程專注於目標與房間布局之間的關係,而不是學習路線規劃;應用語義推理確定最有效的搜索策略;最後,應用經典的導航規劃使機器人到達目的地。

語義導航將使人們與機器人的交互變得更加容易,人們能夠簡單地告訴機器人在特定位置取回一件物品。

1

學習「餐桌在哪裡」的常識

在尋找「餐桌」的任務中,就語義理解而言,涉及目標檢測,即「餐桌」的外觀。研究者利用了現有的預訓練目標檢測和語義分割模型來構建語義圖,而不是從頭開始學習。

此外,還涉及對更可能在哪裡找到「餐桌」的場景的理解。這需要長期的情節記憶以及學習場景中目標相對位置的語義先驗。

學習語義先驗,即目標和區域關聯的常識,可以使智能體使用情節記憶來決定下一個要探索的區域,以便在最短的時間內找到目標。

長期的情景記憶使智能體可以跟蹤去過和未去過的區域。

SemExp由兩個模塊組成,即語義映射模塊(Semantic Mapping)和面向目標的語義策略模塊(Goal-Oriented Semantic Policy)。

語義映射模塊用於構建明確的語義圖,面向目標的語義策略模塊使用可理解語義的長期策略來學習語義先驗。

語義映射模塊接收RGB(It)和景深(Dt)圖像序列,並生成自上而下的語義圖。

面向目標的語義策略根據當前的語義圖確定長期目標,以達到給定的目標(G)。

研究者使用神經網絡來學習語義先驗。神經網絡以語義圖、智能體的當前和過去位置以及目標作為輸入,並預測自上而下的地圖空間中的長期目標。如此,就能將目標類別和通常所處的區域關聯起來。智能體看不到目標時,就先以區域為線索。比如智能體在找餐桌時,所處位置看不到餐桌,就會先以餐桌可能在的區域為線索(餐桌一般放在客廳吧)。

面向目標的語義策略使用強化學習進行訓練,將以目標與智能體的距離減小作為獎勵。

2

實驗結果

下圖展示了Gibson測試集場景中SemExp的示例軌跡。智能體看到的採樣圖像顯示在上行,預測的語義圖顯示在下行。

SemExp的目標是「床」。面向目標的語義策略選擇的長期目標以藍色顯示。帶有智能體軌跡的真實地圖(智能體看不到)顯示在右側,以供參考。

下圖展示了SemExp尋找椅子的第一人稱視角、語義圖和軌跡圖。

如下表所示,與Gibson和MP3D數據集的基線相比,SemExp的性能均達到最佳。

SemExp沒有使用覆蓋率最大化探索策略(目標不可見),而是訓練面向目標的語義探索策略,該策略學習語義先驗以進行有效導航。如此,可以節省不必要的全面探索的時間。

下圖展示了使用面向目標策略(圖左)和不使用面向目標策略(圖右)的探索軌跡,前者使用了81s找到目標,後者使用了332s才找到同一個目標。

下圖展示了SemExp遷移至真實世界的表現,SemExp的目標是「盆栽」,它成功找到了。

3

SemExp學到了多少常識?

CMU在官網報道中宣稱SemExp利用了常識執行尋物任務,但實際上這種常識還是非常有限的,它只是建立了某個物體和通常存在區域的統計關聯。沒錯,冰箱大機率存在廚房,但在辦公室場景里,冰箱一般而言會有,但廚房就很少見了。

一般而言,常識是無法窮盡的不成文規則,無法用邏輯以有限的方式進行壓縮,何況常識之間甚至可能是互相衝突的(例如印度人的搖頭表示肯定,和大多數國家相反)。常識是人類對世界運作方式的印象,由數不清的知識片段構成。常識對於人類的預測能力很有幫助,可以幫助人類在日常生活中保證生存以及便利地解決問題。

要理解常識,語言通常是不夠的,需要結合人的感覺和理解,並且要融入統一的場景,這必然涉及到多模態數據的處理。

要解決常識問題,還有很長的路要走。即便是強大如OpenAI開發的GPT-2那樣的語言模型,也經不住常識問題的考驗(它不知道木柴+火柴=火)。Douglas Lenat於1984年設立的Cyc知識庫不可能通過編寫條目窮盡所有的常識,也無法克服脆弱性問題(常識應用中的模稜兩可現象)。艾倫人工智慧研究所提出的自動知識圖譜構建模型COMET,將常識推理想像成對新輸入生成即便不完美也是合理的響應過程,作為融合深度學習和符號推理的嘗試,在一定程度上緩解了覆蓋性和脆弱性問題。

CMU的這項研究值得稱道的地方在於,將視覺信息轉換為語義知識構建導航系統的常識,將多種模態的數據進行了關聯,而沒有局限於語言知識。SemExp在構建常識的路上,走出了穩健的一步。

京/深圳

擊"閱讀原文",直達「CVPR 交流小組」了解更多會議信息。

文章來源: https://twgreatdaily.com/zh-hk/jCDWfnMBnkjnB-0z8bKh.html