「每周CV論文推薦」 初學目標檢測必須要讀的文章

2019-09-03   有三AI

歡迎來到《每周CV論文推薦》。在這個專欄里,還是本著有三AI一貫的原則,專注於讓大家能夠系統性完成學習,所以我們推薦的文章也必定是同一主題的。

目標檢測作為計算機視覺的基礎任務之一,應用非常廣泛,今天給大家推薦初學目標檢測必讀的一些文章。

作者&編輯 | 言有三

1 OverFeat

傳統的目標檢測如V-J人臉檢測算法需要使用多尺度的滑動窗口技術來提取候選檢測區域然後提取特徵,OverFeat作為ILSVRC2013年目標檢測和定位的冠軍網絡,它把分類過程中提取到的特徵同時又用於定位檢測任務,將滑動窗口從圖像空間轉移到了特徵空間,大大降低了計算代價。

文章引用量:3000+

推薦指數:

[1] Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.

2 Cascade CNN

Cascade CNN是級聯的結構和深度卷積神經網絡結合的代表,與V-J框架思想相同。具體實現是將分類網絡最後的全連接層修改成卷積層得到全卷積網絡,從而可以接受任意大小的輸入圖像。這樣由粗到精的框架是目標檢測中很常見的思路,以後還會看到很多的研究。

文章引用量:600+

推薦指數:

[2] Li H, Lin Z, Shen X, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 5325-5334.

3 RCNN

基於候選區域的RCNN框架是卷積神經網絡做目標檢測中影響巨大的研究,引領了一個系列的發展,這也是傳統算法和CNN的一個結合。

文章引用量:9000+

推薦指數:

[3] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.

4 SPPNet與Fast RCNN

SPPNet提出的Spatial Pyramid Pooling層實現了將輸入的任意尺度的特徵圖轉換為特定維度的輸出,從而去掉了RCNN框架中原始圖像上的crop/warp等操作的約束。

Fast RCNN借鑑了SPPNet的思想,使用了一個簡化的SPP層,即RoI(Region of Interesting)Pooling層,通過RoI pooling反投影回原來的圖像空間,實現獲取任意圖像區域特徵的目標。它有點類似於VJ算法中的積分圖,實現了一次特徵提取,處處可以使用,從而大大降低了計算量。

文章引用量:3000+

推薦指數:

[4] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916.

[5] Girshick R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.

5 Faster RCNN與R-FCN

Faster RCNN方法提出了Region Proposal Networks,實現了神經網絡自己學習生成候選區域,充分利用了feature maps的價值,去除了耗時的selective search,使得目標檢測框架達到了實時的性能。

R-FCN使用了全卷積的架構,去除了Faster RCNN中每一個區域進行分類時需要單獨使用全連接層進行特徵提取的方案,進一步降低了計算代價。

文章引用量:11000+

推薦指數:

[6] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.

[7] Dai J, Li Y, He K, et al. R-fcn: Object detection via region-based fully convolutional networks[C]//Advances in neural information processing systems. 2016: 379-387.

6 FPN

為了解決Faster RCNN系列不能很好地適用多尺度目標預測的問題,FPN框架將高層的特徵與低層的特徵進行融合,分別對每一層進行預測,多尺度從此是一個性能強勁的目標檢測框架中必不可少的元素。

文章引用量:1000+

推薦指數:

[8] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.

7 如何獲取文章與交流

找到有三AI開源項目即可獲取。

https://github.com/longpeng2008/yousan.ai

文章細節眾多,閱讀交流在有三AI知識星球中進行,感興趣可以加入。

總結

以上就是初次進入目標檢測領域要讀的文章,下一次,我們將介紹初次進入圖像分割領域要讀的文章。