Anchors的終結，物體檢測模型和標註的提升

2019-10-06 AI公園

作者：Anders Christiansen
編譯：ronghuaiyang

導讀

最近物體檢測領域掀起陣anchor free的風，今天借這個風，也給大家分享一篇anchor free相關的文章。

問題

如果你之前干過修改anchor的活，你可能會感到沮喪、困惑，並對自己說：「一定有另一種方法！」現在看來，確實另一種方法。

當我第一次寫關於anchor box的文章時，我的想法是繞過所有anchor box，將物體檢測問題轉化為語義分割問題。我嘗試預測過對於每個像素，每個類的物體的界框的數量是多少。由於以下幾個問題，結果相當糟糕：

我無法將分割蒙版轉換回包圍框。這意味著我不能隔離或對物體進行計數。
神經網絡很難去學習物體周圍的哪個像素屬於邊界框。這可以在訓練中看到，模型首先分割物體，然後才開始在物體周圍形成矩形框。

COCO數據集中的樣本

很快的，這幾個月以來，已經有幾個模型以一種更創新的方式取消了anchor boxes。

沒有anchors的物體檢測

CornerNet使用一個嵌入為每個像素預測邊界框的左上角和右下角。每個corner的嵌入匹配以確定它們屬於哪個物體。一旦你匹配了所有的corner，恢復邊界框就很簡單了。這解決了我所面臨的問題，即取消anchor box，同時能夠從輸出中恢復出邊界框。

然而，CornerNet並沒有解決我所面臨的第二個問題，即網絡必須學習如何定位一個甚至不包含該物體的像素。這就是ExtremeNet的用武之地。這種方法是基於CornerNet的，但它不是預測corners，而是預測物體的中心以及最遠的左、右、頂和底點。這些「極值點」然後根據它們的幾何形狀進行匹配，結果非常好：

標註

但如何找到極值點的標註呢?不幸的是，作者從分割掩碼中提取了極值點，如果只有邊界框，則無法使用此選項。但是，極限點標註有幾個優點：

標記一個對象的端點要比標記邊界框容易得多。要標記一個邊界框，你必須注意與兩個最極端點對齊的角的位置。通常，標註工具必須在之後調整邊界框，以便與極端點對齊。ExtremeNet論文估計，標記極值點所花費的時間幾乎是標記邊界框所花費時間的五分之一。
就像人類更容易標記極端點一樣，神經網絡也應該更容易指出它們的確切位置。目前，ExtremeNet的表現似乎優於其他一階段檢測器。
給定物體的極值點，生成邊界框非常簡單。如果還可以使用圖像，DEXTR算法可用於生成分割的mask。這使得極限點比邊界框更加通用。

速度不是很快

在將所有物體檢測系統遷移到ExtremeNet之前，請記住，當前的實現是大而慢的。預訓練模型達到了最先進的結果，擁有近2億個參數，大小為800mb。當我在特斯拉K80 GPU (p2)上測試批量的單個圖像時。使用GitHub中的demo.py腳本，每個圖像大約需要8秒。使用DEXTR創建一個分割掩碼，根據檢測的次數每次增加2-12秒。如果你想從多個圖像尺度對檢測進行分組，那麼這個數字會進一步增長。總的來說，在一張圖像上運行多尺度分割需要一分鐘的時間，儘管我認為可以通過優化代碼來改進這些數字。CornerNet聲稱在Titan X (Pascal) GPU上運行速度約為4幀每秒，這也比現有的單階段的檢測器慢得多。在我考慮將ExtremeNet作為大多數應用程式的可行選項之前，需要有一個既快速又準確的版本。

結論

ExtremeNet論文聲稱，與所有其他single shot檢測器相比，ExtremeNet的性能優越，同時也避免了必須仔細調整anchor box，然後解碼輸出。即使沒有這樣的模型，標註方法本身也提供了顯著的好處。作為一個神經網絡，該模型還沒有完全端到端的學習，還需要包括各種算法來生成邊界框或分割掩碼。儘管如此，我非常希望在未來，極值點標註和模型成為物體檢測的規範。

References

[1] Lin, Tsung-Yi et al. 「Microsoft COCO: Common Objects in Context.」 Lecture Notes in Computer Science (2014): 740–755. Crossref. Web.

[2] Law, Hei, and Jia Deng. 「CornerNet: Detecting Objects as Paired Keypoints.」 Lecture Notes in Computer Science (2018): 765–781. Crossref. Web.

[3] Zhou, Xingyi, Jiacheng Zhuo, and Philipp Krähenbühl. 「Bottom-up Object Detection by Grouping Extreme and Center Points.」 arXiv preprint arXiv:1901.08043 (2019).

[4] Maninis, K.-K. et al. 「Deep Extreme Cut: From Extreme Points to Object Segmentation.」 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018): n. pag. Crossref. Web.

英文原文：https://medium.com/@andersasac/the-end-of-anchors-improving-object-detection-models-and-annotations-73828c7b39f6

請長按或掃描二維碼關注本公眾號

Anchors的終結，物體檢測模型和標註的提升

導讀

構建一個增量推薦系統

LinkedIn招聘推薦系統中的機器學習的威力

如何高效的做機器學習項目

構建生產機器學習系統的一些考慮

部署基於嵌入的機器學習模型的通用模式

物品推薦系統中的挑戰和解決方案

BERT中的黑暗秘密

AI項目成功的4要素

推薦系統論文回顧：神經協同過濾理解與實現

10個2019年的機器學習和NLP的研究亮點

不僅僅用CTR：通過人工評估得到更好的推薦

12個現實世界中的機器學習真相

不容錯過的12個深度學習面試問題

NeurIPS 2019：進入NLP的黃金時代

推薦系統中信息增強的小技巧

MixNet了解一下，來自Google Brain最新SOTA移動AI架構

公共行政領域的7大數據科學應用場景案例

一行代碼將Pandas加速4倍

正確的debug你的TensorFlow代碼（不用這麼痛苦）

構建神經網絡的一些實戰經驗和建議

如何對機器學習做單元測試

深度神經網絡故障排除指南，解決你模型問題的實操指南

圖像太大，顯存放不下？來看看跑FCN網絡的高效方法

CBNet：物體檢測的一種新的組合主幹網絡結構