從CVPR2019看計算機視覺的最新趨勢

2019-11-19     AI公園

作者:Priya Dwivedi

編譯:ronghuaiyang

導讀

我從CVPR中選取已被錄用的論文進行分析,了解研究的主要領域和論文題目中的常見關鍵詞。這可以提供研究進展的一個跡象。

用數據做一些很酷的事情!

2019年IEEE計算機視覺與模式識別大會(CVPR)於今年6月16日至20日舉行。CVPR是計算機視覺領域世界三大學術會議之一(與ICCV和ECCV並列)。今年共收到1300篇論文,錄取率達到創紀錄的5165篇(25.2%)。

CVPR帶來了計算機視覺領域的頂尖人才,每年都有許多令人印象深刻的論文。

我從CVPR中選取已被錄用的論文進行分析,了解研究的主要領域和論文題目中的常見關鍵詞。這可以提供研究進展的一個跡象。

底層數據和代碼可以在我的Github:https://github.com/priya-dwivedi/Deep-Learning/blob/master/cvpr2019/CVPR2019_stats.ipynb上找到。

CVPR為每篇論文指定一個主要的主題區域。按學科類別劃分的獲接納論文的細目如下:

不出所料,大多數研究都集中在深度學習(現在還不是所有的都是深度學習!)、檢測和分類以及面部/手勢/姿勢。這種分解是非常普遍的,並不能提供很好的見解。所以接下來我從被接受的論文中提取出所有的單詞,並使用計數器來計算它們的頻率。最常見的25個關鍵詞如下:

現在這個更有趣了。最流行的研究領域是檢測、分割、3D和對抗性訓練。這也表明了對無監督學習方法的研究越來越多。

最後,我還繪製了單詞雲圖。

你可以使用我的Github按主題提取排在前面的論文,如下所示:

研究「人臉」的論文

在接下來的博客中,我從研究的關鍵領域中選擇了5篇有趣的論文。請注意,我挑選了一些最吸引我的論文。

  1. Learning the Depths of Moving People by Watching Frozen People:https://arxiv.org/abs/1904.11111

人類的視覺系統有一種非凡的能力,從它的二維投影來理解我們的三維世界。即使在有多個運動物體的複雜環境中,人們也能夠對物體的幾何形狀和深度順序保持一個可行的解釋。在過去的幾年裡,利用相機圖像進行深度估計已經做了很多工作,但是在許多情況下,魯棒重建仍然是困難的。當攝像機和場景中的物體都在自由移動時,就會出現一個特別具有挑戰性的情況。這混淆了基於三角劃分的傳統3D重建算法。

本文通過在攝像機和被攝對象自由移動的場景中建立深度學習模型來解決這一問題。

為了創建這樣一個模型,我們需要通過移動攝像機捕捉到的自然場景的視頻序列,以及每個圖像的精確深度圖。創建這樣一個數據集將是一個挑戰。為了克服這個問題,這篇論文非常創新地使用了一個現有的數據集——YouTube視頻,其中人們通過凍結在各種各樣的自然姿勢來模仿人體模型,同時手持攝像機在場景中漫遊。由於場景是靜止的,只有相機在移動,因此可以使用三角測量技術構建精確的深度圖。這篇論文讀起來很有趣。它解決了一個複雜的問題,並且在為它創建數據集方面非常有創意。

經過訓練的模型在帶有移動攝像頭和人的網際網路視頻剪輯上的表現比以往任何研究都要好得多。見下圖:

論文中的模型對比

  1. BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames:https://arxiv.org/abs/1903.11779

我看了幾篇關於視頻物體分割(VOS)的論文。這是在視頻中分割物體的任務,在第一幀中提供一個注釋。這在視頻理解中得到了應用,並在過去的一年裡進行了大量的研究。

視頻中物體的位置和外觀會隨著幀與幀之間的變化而發生顯著的變化,本文發現使用不同的幀進行標註會顯著改變性能。

BubbleNets疊代地比較和交換相鄰的視頻幀,直到預測性能最大的幀排名最高,然後選擇該幀供用戶注釋並用於視頻物體分割。

BubbleNet第一幀的選擇

模型的視頻描述在youtube上共享,原始碼在Github上開源。

使用BubbleNets模型預測兩幀之間的相對性能差異。相對性能是通過結合區域相似性和輪廓精度來衡量的。

輸入2幀比較,3幀參考。然後它通過ResNet50和完全連接的層來輸出一個數字f,表示兩幀的比較。為了執行冒泡排序,我們從前兩幀開始比較它們。如果BubbleNet預測第1幀的性能優於第2幀,則交換幀的順序,並將下一幀與目前最好的幀進行比較。在處理完整個視頻序列後,最佳幀仍然存在。下圖顯示了冒泡排序的BubbleNets體系結構和流程。

總的來說,作者表明,在不改變底層分割算法的情況下,改變注釋幀的選擇方式會使DAVIS benchmark data set的性能提高11%。

Bubblenets architecture

  1. 3D Hand Shape and Pose Estimation from a Single RGB Image:https://arxiv.org/pdf/1903.00812.pdf

手的三維形狀和姿態估計是近年來一個非常活躍的研究領域。這在VR和機器人領域都有應用。本文使用單目RGB圖像創建一個三維手部姿態和環繞手部的三維網格,如下圖所示。

從單張圖像得到3D手網格

本文利用CNNs圖重建手部三維網格。為了訓練網絡,作者創建了一個包含ground truth三維網格和三維姿態的大規模合成數據集。在真實的RGB圖像上手工標註ground truth 3D手網格是非常費力和耗時的。然而,基於合成數據集的模型與實際數據集之間的區域差距導致模型的估計結果往往不盡人意。為了解決這一問題,作者提出了一種新的弱監督方法,利用深度圖作為三維網格生成的弱監督,因為在採集真實世界的訓練數據時,深度圖可以很容易地被RGB-D攝像機捕獲。本文在數據集、訓練過程等方面做了詳細的闡述。如果這是你感興趣的領域,請通讀一遍。

對我來說,一個有趣的學習是CNN用於網格生成的圖的架構。這個網絡的輸入是來自RGB圖像的一個潛在向量。它通過兩個完全連接的層,以粗略圖的形式輸出80x64個特徵。然後,它通過層層向上採樣和CNNs圖來輸出更豐富的細節,最終輸出1280個頂點。

3D手網絡模型結構

  1. Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection:http://openaccess.thecvf.com/content_CVPR_2019/papers/Xu_Reasoning-RCNN_Unifying_Adaptive_Global_Reasoning_Into_Large-Scale_Object_Detection_CVPR_2019_paper.pdf

隨著計算機視覺的廣泛應用,目標檢測得到了廣泛的應用。Faster RCNN是一種常用的物體檢測模型。然而,當檢測類的數量小於100時,物體檢測是最成功的。這篇文章針對具有數千個類別的大規模物體檢測問題,提出了一種基於長尾數據分布、重遮擋和類模糊的目標檢測方法。

Reasoning-RCNN通過構建一個知識圖譜來實現這一點,該圖對人類常識進行編碼。什麼是知識圖譜?知識圖編碼物體之間的信息,如空間關係(on、near)、主謂賓關係(如Drive、run)以及屬性相似性(如顏色、大小、材質)。如下圖所示,具有視覺關係的類別彼此之間距離更近。

知識圖譜

在架構方面,它在標準的物體檢測器(如Faster RCNN)之上堆疊了一個推理框架。通過收集分類器的權值,生成所有類別的全局語義池,並將其輸入自適應全局推理模塊。增強的類別上下文(即,推理模塊的輸出)通過軟映射機制映射回區域proposal。最後,利用每個區域的增強特徵以端到端方式提高分類和定位的性能。下圖顯示了模型體系結構。

該模型在3個主要數據集上進行訓練和評估——Visual Gnome(3000個類別)、ADE(445個類別)和COCO(80個類別)。該模型能夠在Visual Gnome上獲得16%的提升,在ADE上獲得37%的提升,在COCO上獲得15%的提升。

  1. Deep Learning for Zero Shot Face Anti-Spoofing:http://arxiv.org/abs/1904.02860

近年來,人臉檢測技術取得了很大的進步,人臉檢測與識別系統在許多領域得到了廣泛的應用。事實上,我們可以用8行代碼建立一個系統來檢測人臉、識別人臉並理解他們的情緒。

然而,也有風險,人臉檢測被欺騙,以獲得非法訪問。人臉反欺詐是為了防止人臉識別系統將假人臉識別為真實用戶而設計的。在開發先進的人臉反欺詐方法的同時,新型的欺詐攻擊也在不斷產生,並對現有的系統構成威脅。文章介紹了一種檢測未知欺詐攻擊的概念,即零樣本人臉反欺詐。以前的人臉反欺詐只研究了1- 2種類型的欺詐攻擊,比如列印/重放,這限制了對這個問題的理解。該工作在13種類型的欺騙攻擊(包括列印、重放、3D蒙版等)中廣泛地研究了人臉反欺詐問題。下圖顯示了不同類型的欺詐攻擊。

人臉欺騙可以包括列印(列印人臉照片)、重放視頻、3D蒙版、眼睛裁剪人臉照片、化妝、透明蒙版等多種形式。本文提出了一種利用深度樹網絡從無監督的欺詐圖片中學習語義嵌入的方法。嵌入在這裡可以模擬像人類凝視這樣的東西。它創建一組欺詐圖像的數據集來學習這些嵌入。在測試過程中,將未知攻擊投射到嵌入中,尋找最接近的屬性進行欺詐檢測。

閱讀論文了解更多關於深樹網絡模型體系結構和訓練過程的細節。本文能夠創建嵌入,用各種類型的欺騙分離出活的人臉(真實的臉)。參見下面的t-SNE圖:

這篇論文很棒。是有希望解決實際問題的的研究。

總結

看到計算機視覺方面的所有最新研究是非常有趣的。這裡分享的5篇論文只是冰山一角。我希望你能使用我的Github對論文進行分類,並選擇你感興趣的論文。

英文原文:https://towardsdatascience.com/latest-computer-vision-trends-from-cvpr-2019-c07806dd570b

請長按或掃描二維碼關注本公眾號

文章來源: https://twgreatdaily.com/zh/tNkDiG4BMH2_cNUgmgAB.html