來源 | 馭勢科技
行人檢測作為計算機視覺領域最基本的主題之一,多年來被廣泛研究。儘管最先進的行人檢測器已在無遮擋行人上取得了超過90% 的準確率,但在嚴重遮擋行人檢測上依然無法達到滿意的效果。究其根源,主要存在以下兩個難點:
嚴重遮擋的行人框大部分為背景,檢測器難以將其與背景類別區分;
給定一個遮擋行人框,檢測器無法得到可見區域的信息;
針對這兩大難題,地平線與 Buffalo 學院提出 Tube Feature Aggregation Network(TFAN)新方法,即利用時序信息來輔助當前幀的遮擋行人檢測,目前該方法已在 Caltech 和 NightOwls 兩個數據集取得了業界領先的準確率。
核心思路
利用時序信息輔助當前幀遮擋行人檢測
目前大部分行人檢測工作都集中於靜態圖像檢測,但在實際車路環境中大部分目標都處於運動狀態。針對嚴重遮擋行人的複雜場景,單幀圖像難以提供足夠有效的信息。為了優化遮擋場景下行人的識別,地平線團隊提出通過相鄰幀尋找無遮擋或少遮擋目標,對當前圖像中的遮擋行人識別進行輔助檢測。
實驗新方法
Proposal tube 解決嚴重遮擋行人檢測
如下圖,給定一個視頻序列,首先對每幀圖像提取特徵並使用 RPN(Region Proposal Network)網絡生成 proposal 框。 從當前幀的某個 proposal 框出發,依次在相鄰幀的空間鄰域內尋找最相似的proposal框並連接成 proposal tube。
在相鄰的第 i 幀和第 i-1 幀之間,具體兩個 proposal 的匹配準則可根據以下公式:
其中 s 是用於計算兩個 proposal 特徵的餘弦相似度,而 l 是用於計算兩個 proposal 在尺寸大小及空間位置上的相似程度(具體公式可見論文)。X 和 b 分別表示 proposal 特徵和 proposal 邊界框,字母的上標表示 proposal 編號, Q k i-1表示在第 i-1 幀搜索區域內的 proposal 框的編號集合。
假設視頻序列共有 13 幀,可以得到一個具有 13 個 proposal 框的 tube 以及他們對應的 proposal 特徵。這樣的做法可以有效的將時序上前後存在的無遮擋行人連接到 proposal tube 當中。隨後,將這些 proposal 特徵以加權求和的方式融合到當前幀的 proposal 特徵中來,具體的融合權重可根據以下公式求得:
其中,τ 代表時序上前後各有 τ 幀,λ 為常數,t 表示當前幀。公式 5 的做法可以避免無關的特徵被錯誤融合進來。當背景框被連接到了行人的 tube 當中,他們的特徵相似度較低,所以最後產生的融合權重較小,從而防止了行人特徵被背景特徵所污染,反之亦然。最後,我們將融合後的特徵送入分類器,從而更好的識別嚴重遮擋的行人。
TDEM模塊有效避免行人框與背景框交叉
為了避免連接 tube 過程中發生錯誤的偏移,比如行人框連到了背景框,或背景框連到了行人框。針對這種情況,研究團隊提出 TDEM(Temporally Discriminative Embedding Module)模塊用於將原 proposal 特徵映射到一個 embedding 空間,然後利用 embedding 特徵來計算兩個 proposal 之間的特徵相似度。在這個 embedding 空間我們可利用損失函數來進行監督,使行人的 embedding 與前後幀背景的 embedding 相互排斥與前後幀行人的embedding相互吸引。具體的損失函數由 triplet loss 實現如下:
其中 en,ep,et^kt*分別代表前後幀背景,行人和當前幀行人的 embedding 特徵。根據實驗發現 TDEM 模塊可以有效的避免行人框與背景框錯誤的相連(參見原文表 3 及圖 5)。
利用 PRM 模塊解決融合權重較少的問題
即使通過以上的設計能夠使得當前幀遮擋行人連接上前後幀未遮擋的行人,依然又一個亟待解決的難題:融合權重。由下圖(a)可見,因為遮擋行人的特徵充斥大量背景,所以遮擋行人的特徵和無遮擋行人的特徵相似度較低,產生的融合權重較小。因此即便找到了未遮擋行人,也很難有效地將其利用。
為了解決此問題,研究團隊提出了 PRM(Part-based Relation Module)模塊。在 PRM 模塊中,首先預測當前幀行人的可見區域位置。然後,在比較兩個行人框特徵的相似度時,只會計算在這個可見區域內的相似度。如下圖(a)右,當只比較兩個行人的上半身相似度時,我們會發現他們其實是同一個人,由此產生的融合權重會較高。圖 7 顯示了 PRM 的可視化結果,我們發現 PRM 模塊計算的相似度會比直接使用全身特徵計算的相似度更高。
實驗結果
在 Caltech 數據集上的結果如下:
註:R 表示 Reasonable 少量遮擋及無遮擋的結果,HO 表示 Heavily Occlusion 嚴重遮擋的結果,R+HO 表示綜合結果。
可視化結果如下:
利用時序信息提升遮擋行人檢測準確度的方法基本如上。
論文連結:
https://cse.buffalo.edu/~jsyuan/papers/2020/TFAN.pdf
文章來源: https://twgreatdaily.com/zh-tw/KliYrXIBd4Bm1__YkLVh.html