這是專欄《圖像分割模型》的第3篇文章。在這裡，我們將共同探索解決分割問題的主流網絡結構和設計思想。

前兩篇文章介紹了編解碼分割結構，今天具體聊聊解碼器中涉及到的空間解析度恢復問題。

作者 | 孫叔橋

編輯 | 言有三

1 緒論

通過前兩篇文章，我們了解到分割任務是一個像素級別的任務，因此需要在輸入的空間尺寸下對每個像素都有分割的結果。換句話說，如果輸入的空間尺寸是HxW，那麼輸出也需要是HxW的。

然而，為了提高網絡性能，許多結構採用了池化或striding操作來增加感受野，同時提升遠程信息的獲取能力。但是這樣的結構也帶來了空間解析度的下降。

比如之前提到的編解碼結構中的編碼器。

在空洞卷積提出以前，大部分的空間尺寸恢復工作都是由上採樣或反卷積實現的。前者通常是通過線性或雙線性變換進行插值，雖然計算量小，但是效果有時不能滿足要求；後者則是通過卷積實現，雖然精度高，但是參數計算量增加了。

（複製方法上採樣示意圖）

（反卷積方法上採樣示意圖）

基於此，DeepLab就提出了「空洞卷積」（atrous convolution）的概念。

2 空洞卷積

一句話概括空洞卷積：調整感受野（多尺度信息）的同時控制解析度的神器。

(1) 控制感受野

下圖是空洞卷積結構的示意圖，從左到右比率（rate）分別為1、6和24，比率可以粗暴理解為卷積核內相鄰兩個權重之間的距離。從圖中可以看出，當比率為1的時候，空洞卷積退化為常見的卷積。

很明顯，應用空洞卷積後，卷積核中心像素的感受野（也就是一個卷積核能看見的區域）增大了，但是在步長為1的情況下，特徵圖的空間解析度卻可以保持不變。

(2) 控制解析度

除了維持空間解析度，空洞卷積也可以像標準卷積一樣通過設置輸出步長（output_stride）實現輸出特徵圖解析度的控制。

3 網絡結構

(1) 網絡結構介紹

在目標檢測、圖像分割等計算機視覺任務中，圖片中可能出現如下圖情況中的不同大小的目標。為了應對一個目標在不同尺度下的識別或分割造成的困難，研究者們想出了許多方法獲取同一位置上不同尺度的上下文信息，從而保證算法對於尺度變化具有一定魯棒性。

在圖像分割領域中，主要存在下面四種網絡結構能夠實現多尺度上下文的獲取。從左到右分別是金字塔結構、編解碼結構、空洞卷積結構和空間金字塔池化結構。

前兩種結構是通過輸出步長的設置，逐步縮小輸出特徵圖的解析度，從而使得每層特徵上所對應的感受野的尺寸變化；第三種結構是通過直接改變每個卷積核的可見區域實現感受野變化；最後一個結構是通過對特徵層進行不同尺度的池化，實現感受野的遍歷。

(2) 空洞卷積結構1

下圖(b)是基於上面第三種結構的空洞卷積分割網絡結構圖，(a)是對應的第三種結構的網絡結構圖。

可以看到從block4到block7，通過應用不同比率的空洞卷積，該網絡結構實現了在維持空間解析度的前提下的感受野（尺度）變化。

(3) 空洞卷積結構2

下圖是基於最後一種結構的空洞卷積網絡結構，也稱為ASPP（Atrous Spatial Pyramid Pooling），也是前兩個DeepLab版本中所使用的網絡結構。

這種結構將上個結構的串聯空洞卷積變成了並聯的空洞卷積運算，基於同一級特徵結構提取不同尺度下的卷積結果。

4 實驗及分析

(1) 卷積核的有效權重

通過前面的了解，我們可以發現一個問題。那就是，當空洞卷積的區域與特徵圖實際空間尺寸相近的時候，實際有效的卷積核權重是非常有限的。

比如，對一個65x65的特徵圖應用不同比率的3x3濾波器，我們可以得到下圖的結果。

可見，在極端條件下，當空洞卷積的比率接近特徵圖空間尺寸時，一個3x3的卷積核就退化成了1x1的卷積核。

為了克服這個問題，DeepLabv3中採用的做法是對最後一層特徵圖應用全局池化（global pooling），再將其送入一個1x1的卷積層中，最後，通過雙線性上採樣實現希望的空間解析度。

(2) 實驗總結

DeepLabv3給出了諸多條件下的剝離實驗，首先給出整體結論：

輸出步長為8時效果比更大的步長要好；
基於ResNet-101的結構比基於ResNet-50的要好；
用變化的比率比1:1:1的比率要好；
加上多尺度輸入和左右翻折數據效果更好；
用MS COCO下預訓練的模型效果更好。

具體結果看下面表格：

表格均來源於DeepLabv3論文：

《Rethinking Atrous Convolution for Semantic Image Segmentation》

5 更多結果

總結

經過DeepLab和空洞卷積的學習，我們一起從之前的編解碼結構共同邁入了第二大分割問題的處理方法：上下文信息整合。從這篇文章開始，我們將一起探索多種不同的上下文信息整合方法。

下篇文章將介紹空洞卷積的實時網絡結構。下回見！

「圖像分割模型」感受野與解析度的控制術—空洞卷積

1 緒論

2 空洞卷積

3 網絡結構

4 實驗及分析

5 更多結果

總結

【直播】言有三回放！如何系統性地學好計算機視覺

一文道儘自然語言處理主要研究方向，你懂了幾個？

如何準備3月計算機視覺春招！深入掌握模型優化，人臉算法等算法

「GAN優化外篇」詳解生成模型VAE的數學原理

「文本信息抽取與結構化」詳聊文本的結構化「上」

「文本信息抽取與結構化」目前NLP領域最有應用價值的子任務之一

「好工具」你還只會百度？我已經用上了一款更有范兒的AI搜尋引擎

「NLP」如何利用BERT來做基於閱讀理解的信息抽取

完成知識圖譜中的知識抽取後，如何進行存儲和便捷的檢索？

「福利」送書，人人都讀得懂的彩色印刷人工智慧書籍

《每周CV論文》人臉識別難題：遮擋年齡姿態妝造親屬偽造攻擊

科大訊飛發布初中版人工智慧教材，初中生應該怎麼開始學習呢？

「每周CV論文推薦」初學深度學習活體與偽造人臉檢測必讀的文章

「知識圖譜」AI技術最重要基礎設施之一，知識圖譜你該學習的東西

「AutoML」損失函數也可以進行自動搜索學習嗎？

ALBERT：更輕更快的NLP預訓練模型

能閒聊的聊天機器人(AI小女友)背後都有哪些技術？

「NLP-ChatBot」能閒聊的生成型聊天機器人背後都有哪些技術？

如何使用AutoML方法學習到最合適的歸一化(Normalization)操作

五分鐘樸素貝葉斯文本分類實戰

「GAN優化」GAN訓練的小技巧

解決GAN模式崩潰的兩條思路：改進優化和網絡架構

「每周NLP論文推薦」知識圖譜重要論文介紹

「圖像分類」圖像分類中的對抗攻擊是怎麼回事？