本論文收錄於ECCV2020,從自下而上的角度出發,在目標檢測任務中引入了投票機制,使得HoughNet能夠集成近距離和遠距離的class-conditional evidence進行視覺識別。本論文解讀首發於「AI算法修煉營」。
作者 | SFXiang
編輯 | 叢 末
論文地址:https://arxiv.org/pdf/2007.02355.pdf
代碼地址:https://github.com/nerminsamet/houghnet
本文提出了一種基於anchor-free和投票voting機制的單階段自底向上的目標檢測方法。受通用霍夫變換啟發,HoughNet通過在某個位置上投票的總和來確定某個位置上某個目標對象是否存在,同時根據對數極坐標投票機制,從近距離和遠距離位置收集選票。得益於這種投票機制,HoughNet能夠集成近距離和遠距離的class-conditional evidence進行視覺識別,從而推廣和增強了目前僅基於local evidence的物體檢測方法。在COCO數據集上,HoughNet達到了46.4AP,在自下而上的目標檢測方面與最新技術性能相當,並且性能優於大多數主要的一階段和兩階段方法。同時,在另一項任務(即通過將HoughNet的投票vote模塊集成到兩個不同的GAN模型中,可以生成「照片標籤」圖像,並顯示在兩種情況下準確性都得到了顯著提高。
1
簡介
目標檢測算法除了可以分為經典的一階段與兩階段兩種之外,還可以將當前方法分為兩類:自頂向下和自底向上。在自上而下的方法中,將以矩形框的形式檢測目標,並基於這些框以整體方式預測目標。設計假設空間(例如anchor框的參數)本身就是一個問題。另一方面,在自下而上的方法中,目標是通過檢測部分結構(或子對象結構)而出現的。例如,在CornerNet 中,首先檢測到目標的左上角和右下角,然後再檢測它們配對形成整個目標。根據CornerNet,Extremenet [4將極端點(例如最左邊等)和中心點進行分組以形成目標對象。CenterNet 與CornerNet 的角點對加了中心點,將每個目標對象建模為三元組。本文的HoughNet遵循自下而上的基於投票策略的方法:從廣泛的區域(包括short and long-range evidence)來投票獲得object presence score。
當前最先進的基於深度學習的目標檢測器(例如:RetinaNet、PANet)主要遵循自頂向下方法,通過矩形區域分類從整體上檢測對象。Pre-deep-learning methods不是這種情況。自下而上的方法是其中主要的研究重點,例如基於投票vote的方法(隱式形狀模型)和基於part的方法(可變形part模型)。但是,如今,在基於深度學習的目標檢測器中,尚未充分探索自下而上的方法。僅在最近,才提出了一些自下而上的方法(例如CornerNet ,ExtremeNet)。
在本文中,提出了一種HoughNet,它是一種基於anchor-free和投票voting機制的單階段自底向上的目標檢測方法。Hough變換是一種基於投票的方法,最初被用於檢測分析例如線條,圓形,橢圓形等特徵。而廣義霍夫變換(GHT)用於檢測任意形狀。類似地,在HoughNet中,屬於某個類的對象在特定位置的存在由在該位置上投射的類條件投票的總和確定(圖1)。HoughNet使用卷積神經網絡處理輸入圖像以生成每個類別的中間分數map(intermediate score map ),這些map中的分數表示存在視覺結構,該視覺結構將支持檢測目標實例。這些結構可以是object parts、partial objects 、屬於相同或其他類的部分,並將這些分數圖命名為「視覺證據」圖(「visual evidence」 map)。視覺證據圖中的每個空間位置都會對可能包含目標對象的目標區域進行投票。目標區域是通過放置一個以對數極點網格( log-polar grid)為中心來確定的,其中心位於選民的位置。使用log-polar vote field的目的是隨著投票者位置和目標區域之間的距離增加而降低投票的空間精度。這是受自然界的偏心視覺系統(foveated vision systems)啟發的,空間解析度從中央向周邊迅速降低。通過投票處理所有「visual evidence」後,累積的投票將記錄在對象所存在地圖中,其中的峰值(即局部最大值)表示目標實例的存在。
圖1 :(左)HoughNet的示例「滑鼠」檢測(帶有黃色邊框)。(右)對該檢測投票的位置。顏色表示投票強度。除了來自滑鼠本身的局部投票外,還有來自「鍵盤」對象附近的高強度投票,這表明HoughNet能夠利用短時和長期證據進行檢測。
目前最先進的物體檢測器依靠局部(或短距離)的visual evidence(如自上而下的方法)或重要的關鍵點如角點(如自下而上的方法)來決定該位置是否有物體。HoughNet能夠通過投票來整合短距離和長距離的視覺證據。圖1是一個例子,被檢測到的滑鼠得到了兩個鍵盤的投票,其中一個鍵盤就在圖像的另一邊。在COCO數據集上,HoughNet實現了與CenterNet相當的結果,同時也是檢測器中速度最快的對象檢測器。它的性能優於著名的單階段檢測器(RetinaNet)和兩階段檢測器(Faster RCNN、Mask RCNN)。為了進一步展示本文方法的有效性,在另一個任務中使用了HoughNet的投票模塊,即 "標籤到照片 "的圖像生成。具體來說,將投票模塊集成到兩個不同的GAN模型(CycleGAN和Pix2Pix)中,結果表明,這兩種情況下的性能都有所提高。
2
本文的方法:oughNet: the method and the models
本文的方法的整個處理流程如圖2所示。輸入圖像首先通過主幹CNN,其主輸出連接到三個不同的分支:(i)進行視覺證據得分的預測, (ii)目標的邊界框尺寸(寬度和高度)預測,以及(iii)目標的中心位置偏移預測。其中第一個分支是進行投票的地方。
1、The log-polar 「vote field」
使用標準對數極坐標系中的區域集來定義收集投票的區域。一個對數極坐標系是由偏心軸(或環)的數量和半徑以及角度軸的數量來定義的,把這種坐標系中形成的單元或區域集稱為 "vote field"(圖3)。在實驗中,使用了不同的vote ∆r(i)表示第i個像素的相對空間坐標。在下文中,R表示vote域中的區域數,Kr表示某一特定區域r中的像素數,Δr(i)表示相對於vote域中心的第i個像素的相對空間坐標。同時,將vote域作為一個固定權重(非學習型)的轉置卷積來實現。
圖3:在HoughNet的投票模塊中使用的對數極坐標「vote field」。數字表示區域ID。vote field的參數是angle bins,eccentricity bins的數量和半徑。在這個特定的投票區域中,總共有13個區域,6個angle bins和3個環。環的半徑分別為2、8和16。
2、Voting module
輸入的圖像通過主幹網絡和「visual evidence」分支後,HoughNet的投票模塊將接收C個張量E1,E2,...,EC,它們的大小分別為H×W×R,其中C是類別數,R是區域數。這些張量中的每個張量均包含類條件的(即針對特定類)「visual evidence」得分。投票模塊的工作是生成C個「object presence」map,每個map的大小為H×W。然後,這些圖中的峰值將表示目標實例的存在。
投票過程將visual evidence張量(例如Ec)轉換為目標存在map,其工作過程如下所述:假設要在證據張量E的第i個行,第j個列和第三個通道上處理visual evidence。將投票欄位放置在以位置(i,j)為中心的2D地圖上時,區域標記要投票的目標區域,可通過將坐標偏移量∆r(·)加到(i,j)來計算其坐標。然後,將視覺證據分數E(i,j,r)添加到目標存在地圖的目標區域中,同時處理來自(i,j)以外位置的視覺證據分數,並在目標存在圖下累積分數。在算法1中正式定義了此過程,該過程以視覺證據張量作為輸入並生成目標存在圖。注意,由於for循環,單純的算法1實現效率很低,但是,使用「轉置卷積」操作可以有效地實現它。
3、 Network architecture
主幹網絡選用CenterNet,輸出是尺寸為H×W×D的特徵圖,這是輸入尺寸為4H×4W×3的圖像的結果。主幹網絡的輸出被送到所有三個分支。每個分支具有一個3×3的卷積層,然後是ReLU層和另一個1×1卷積層。這些轉換層的權重不在分支之間共享。Visual evidence分支輸出的尺寸為H×W×C×R的特徵圖,其中C和R分別對應於類別數和投票欄位區域數。寬度/高度預測分支輸出H×W×2大小的特徵圖,該輸出預測每個可能的目標中心的高度和寬度。最後,中心偏移分支可預測中心位置在空間軸上的相對位移。
損失函數:為了優化visual evidence分支,使用了在CornerNet 中引入的修改後的Focal loss。為了恢復由於通過網絡進行下採樣操作而導致的中心點精度損失,中心偏移預測分支會輸出與目標中心無關的位置偏移,並像其他自下而上的檢測器一樣,我們使用L1 loss優化此分支。最後,寬度和高度預測分支按照CenterNet 的建議通過將損失縮放0.1來使用L1 loss。總損失是每個分支所計算的損失總和。
3
實驗與結果
1、數據集: Mini COCO
為了在消融實驗中更快地進行分析,本文創建了「 COCO mini train」作為經過統計驗證的迷你訓練集。它是COCO train2017數據集的子集,包含25K個圖像(約占COCO train2017的20%數據量)和80個類別中約184K個樣本。本文從全套樣本中隨機抽取這些圖像,同時儘可能保留以下三個數量:(i)每個類別的對象實例所占的比例(ii)小,中和大型物體的總體比例(iii)每個小、中大型物體類別的比例。
2、消融實驗
3、可視化實驗
圖4:HoughNet及其投票圖的樣本檢測。在「檢測」列中,顯示了對感興趣的對象的正確檢測,並標有黃色邊框。在「投票者Voter」列中,顯示了為檢測投票的位置。顏色表示基於標準顏色圖的投票強度,其中紅色對應最高值,藍色對應最低值(見圖1)。在最上面的一行中,有三個「滑鼠」檢測。在所有情況下,除了位置投票(在滑鼠本身上)之外,還有來自附近「鍵盤」對象的強大投票。考慮到滑鼠和鍵盤對象經常同時出現,這種投票方式是合理的。在第二行的「棒球棒」、「棒球手套」和「網球拍」的檢測中觀察到類似的行為。這些對象從遙遠的「球」對象中獲得了強大的vote。同樣,在第三行中,「花瓶」檢測得到鮮花的強烈支持。在底行的第一個示例中,「可餐桌」檢測從蠟燭對象中獲得了強烈的支持,這可能是因為它們經常同時發生。蠟燭不屬於COCO數據集的80個類別。類似地,在底部行的第二個示例中,「餐桌」具有來自標準客廳的對象和部分的強烈支持。在最後一個示例中,部分遮擋的鳥從樹枝上獲得了較高的票數(強於鳥本身的票數)
4、遷移實驗
更多細節可參考論文原文。
招聘
AI科技評論希望能夠招聘科技編輯/記者一名
辦公地點:北京
職務:以跟蹤學術熱點、人物專訪為主
工作內容:
1、關注學術領域熱點事件,並及時跟蹤報道;
2、采訪人工智能領域學者或研發人員;
3、參加各種人工智能學術會議,並做會議內容報道。
要求:
1、熱愛人工智能學術研究內容,擅長與學者或企業工程人員打交道;
2、有一定的理工科背景,對人工智能技術有所了解者更佳;
3、英語能力強(工作內容涉及大量英文資料);
4、學習能力強,對人工智能前沿技術有一定的了解,並能夠逐漸形成自己的觀點。
感興趣者,可將簡歷發送到郵箱:jiangbaoshang@yanxishe.com
點
擊"閱讀原文",直達「ECCV 交流小組」了解更多會議信息。