本文解讀的是論文《SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection》,論文作者來自加州大學聖地亞哥分校和香港科技大學機器人學院。該論文解讀首發於「AI算法修煉營」。
作者 | SFXiang
編輯 | 青暮
這篇文章收錄於ECCV2020,是一篇關於無碰撞空間區域分割的文章,整體效果很不錯。最主要的核心思想是在表面發現估計器的設計,在得到表面法線後將其用於分割網絡的編碼器環節,並在特徵融合部分,借鑑了DenseNet的思想,進行密集連接。網絡的計算量和參數量文中並沒有比較,應該做不到實時。
- 論文地址:https://arxiv.org/abs/2008.11351
- 代碼地址:https://github.com/hlwang1124/SNE-RoadSeg
Freespace無碰撞空間檢測是自動駕駛汽車視覺感知的重要組成部分。近年來,數據融合data-fusion卷積神經網絡CNN架構大大改善了語義場景分割算法的性能。通常,可以將自由空間假設為一個地面平面,在這個平面上,各點具有相似的表面法線。
因此,在本文中,首先介紹了一個名為表面法線估計器( surface normal estimator ,SNE)的新型模塊,該模塊可以從密集的深度/視差圖像中高精度和高效率地推斷出表面法線信息。此外,提出了一種稱為RoadSeg的數據融合CNN架構,該架構可以從RGB圖像和推斷出的表面法線信息中提取並融合特徵,以進行準確的自由空間檢測。同時,出於研究目的,我們發布了在不同光照和天氣條件下收集的大規模合成自由空間檢測數據集,名為Ready-to-Drive(R2D)道路數據集。實驗結果表明,本文提出的SNE模塊可以使所有最新的CNN架構都可用於自由空間檢測,而本文所提出的SNE-RoadSeg可以在不同數據集中獲得最佳的整體性能。
1
簡介
自動駕駛汽車是科幻電影和系列電影中的一個常見場景,但由於人工智慧的興起,在您的車庫前院挑選一輛這樣的汽車的幻想已經變成了現實。駕駛場景下對周圍環境的理解是自動汽車的一項重要任務,隨著人工智慧的最新進展,它有了很大的飛躍。無碰撞空間(Collision-free space,簡稱freespace)檢測是駕駛場景理解的一個基本組成部分。自由空間檢測方法一般將RGB或深度/差值圖像中的每個像素分類為可駕駛或不可駕駛。這種像素級的分類結果會被自主系統中的其他模塊所利用,如軌跡預測和路徑規劃,以確保自動駕駛汽車能夠在複雜的環境中安全航行。
現有的自由空間檢測方法可以分類為傳統方法或基於機器/深度學習的方法。傳統方法通常使用顯式幾何模型來構造自由空間,並使用優化方法找到其最佳係數。《B-spline modeling of road surfaces with an application to free-space estimation.》是一種典型的傳統自由空間檢測算法,其中通過將B樣條模型擬合到2D視差直方圖(通常稱為v-視差圖像)上的道路視差投影來執行道路分割。隨著機器/深度學習最新進展的提出,自由空間檢測通常被視為語義驅動場景分割問題,其中使用卷積神經網絡(CNN)來學習最佳解決方案。例如,《Monocular semantic occu-pancy grid mapping with convolutional variational encoder–decoder networks.》採用編碼器-解碼器體系結構在鳥瞰圖中分割RGB圖像,以進行端到端自由空間檢測。最近,許多研究人員已採用數據融合CNN架構來進一步提高語義圖像分割的準確性。例如,《Fusenet: Incorporating depth intosemantic segmentation via fusion-based cnn architecture.》通過數據融合CNN架構將深度信息整合到常規語義分割中,極大地提高了駕駛場景分割的性能。
在本文中,首先介紹一種名為表面法線估計器(SNE)的新型模塊,該模塊可以從密集的視差/深度圖像中以高精度和高效率推斷出表面法線信息。此外,設計了一種名為RoadSeg的數據融合CNN架構,該架構能夠將RGB和表面法線信息合併到語義分割中,以進行準確的自由空間檢測。由於現有的具有各種光照和天氣條件的自由空間檢測數據集既沒有視差/深度信息也沒有自由空間ground truth,因此本文創建了一個大規模的合成自由空間檢測數據集,稱為「 Ready-to-Drive(R2D)」道路數據集(包含11430對RGB和深度圖像),涵蓋了在不同的光照和天氣條件下的道路數據,同時R2D道路數據集也可以公開用於研究目的。為了驗證引入的SNE模塊的可行性和有效性,實驗部分使用了三個道路數據集(KITTI 、SYNTHIA [和我們的R2D)訓練了十個最新的CNN(六個單模態CNN網絡和四個數據融合CNN網絡),並且對嵌入或不嵌入SNE模塊進行對比。實驗表明,本文提出的SNE模塊可以使所有這些CNN在自由空間檢測任務上有性能提升。同樣,SNE-RoadSeg方法在自由空間檢測方面也優於其他CNN,其整體性能在KITTI道路基準benchmark上排名第二。
2
本文方法:SNE-RoadSeg
圖1:SNE-RoadSeg的網絡結構。它由SNE模塊,一個RGB編碼器,一個表面法線編碼器和一個具有緊密連接的skip連接的解碼器組成。s代表RGB的輸入解析度和深度圖像。cn代表不同級別的特徵圖通道數。
1、SNE
SNE是基於最近的工作《Three-filters-to-normal: An accurate and ultrafast surface normal estimato》(3F2N)開發出來的。其架構如圖2所示。對於透視相機模型,可以使用以下公式將歐幾里得坐標系中的3D點與2D圖像像素點連接起來:
其中,K是相機內在矩陣,(xo,yo)是圖像中心;fx和fy是相機焦距(以像素為單位)。估計P表面的法線向量的方法是:
由上面兩個式子可以得出:
對x、y分別求微分可以得到:
如圖2所示,可以分別用水平和垂直圖像梯度濾波器對反深度圖像1 / Z(或視差圖像與深度成反比)進行卷積來分別近似。對上面的式子進行變形,可以得到nx、ny的表達式:
而nz為:
由此,獲得的表面法向量為:
由於任何歸一化表面法線都可以投影在中心為(0,0,0)且半徑為1的球體上,因此最佳表面法線也可以投影在同一球體上的某個地方,用以下球坐標公式表示:
其中,
具體推導細節可以參考原文及其代碼實現。
2、RoadSeg
U-Net 已經證明了使用跳躍連接來恢復整個空間解析度的有效性。但是,它的跳躍連接僅在編碼器和解碼器的相同比例的特徵圖上強制聚合,作者認為這是不必要的約束。受到DenseNet 的啟發,本文提出了RoadSeg,它利用密集連接的跳躍連接在解碼器中實現靈活的特徵融合。
如圖1所示,本文提出的RoadSeg也採用了流行的編解碼器架構。採用RGB編碼器和表面法線編碼器分別從RGB圖像和推斷的表面法線信息中提取特徵圖。提取的RGB和表面法線特徵圖通過逐元素求和進行分層融合。然後通過密集連接的跳躍連接在融合器中再次融合特徵圖,以恢復特徵圖的解析度。在RoadSeg的末尾,使用一個Sigmoid層來生成用於語義駕駛場景分割的機率圖。
本文使用ResNet 作為RGB和表面法線編碼器的主幹網絡,它們的結構彼此相同。具體來說,初始塊由卷積層,批處理歸一化層和ReLU激活函數層組成。然後,依次採用最大池化層和四個殘差層,以逐漸降低解析度並增加特徵圖通道的數量。ResNet具有五種體系結構:ResNet-18,ResNet-34,ResNet-50,ResNet-101和ResNet-152。RoadSeg對於ResNet-18和ResNet-34,c0-c4的通道數分別為64、64、128,256和512,對於ResNet-50,ResNet-101和ResNet-152,c0-c4的通道數分別為64、256、512、1024和2048。 。
解碼器由兩類不同的模塊組成:特徵提取器和上採樣層,這兩類模塊密集連接,實現靈活的特徵融合。採用特徵提取器從融合後的特徵圖中提取特徵,並保證特徵圖解析度不變。採用上採樣層來提高解析度,減少特徵圖通道。特徵提取器中的3個卷積層和上採樣層的卷積核大小相同,為3×3,步長相同,padding值相同,為1。
3
實驗與結果
數據集:DIODE dataset 、The KITTI road dataset 、The SYNTHIA road dataset 、本文的R2D road dataset(sites.google.com/view/sne-roadseg)
評價指標:AAE(average angular error)、準確率和召回率、F-score、IoU等
該部分使用這三個數據集來訓練10個最先進的CNNs,包括6個單模態CNNs和4個數據融合CNNs。用三種設置來進行單模態CNNs的實驗:a)用RGB圖像進行訓練,b)用深度圖像進行訓練,c)用表面法線圖像(用本文的SNE來從深度圖像中生成)進行訓練,分別表示為RGB、Depth和SNE-Depth。同樣,數據融合CNNs的實驗也是使用兩種設置進行的:使用RGB-D視覺數據進行訓練,有嵌入和沒有嵌入SNE,分別表示為RGBD和SNE-RGBD。為了比較提出的RoadSeg和其他最先進的CNNs之間的性能,用與數據融合CNNs相同的設置在三個數據集上訓練RoadSeg。此外,還重新訓練了SNE-RoadSeg,以便將結果提交給KITTI道路benchmark數據集上。
1、Performance Evaluation of Our SNE
準確度的評價:
從下圖可以看出,在室內和室外場景中,我們提出的SNE均優於SRI和LINE-MOD。
2、Performance Evaluation of Our SNE-RoadSeg
KITTI road benchmark上的對比
消融實驗
更多細節可參考論文原文。
點擊閱讀原文,直達「CCF-NLP走進高校之鄭州大學」直播頁面!
文章來源: https://twgreatdaily.com/lhEfvHQBd8y1i3sJTdFa.html