關注度越來越高的行人重識別,有哪些熱點?

2020-09-12   AI科技大本營

原標題:關注度越來越高的行人重識別,有哪些熱點?

來源 | HyperAI超神經

責編 | Carol

封圖 | CSDN付費下載自視覺中國

在茫茫人海中,你能不能一眼就找到想找的那個人?

如今,這個任務對於計算機來說,可能是小菜一碟了。而這得益於近年行人重識別技術的飛速發展。

行人重識別(Person Re-identification),也稱行人再識別,簡稱 ReID,是利用計算機視覺技術,判斷圖像或者視頻序列中,是否存在特定行人的技術。 直觀點來說,就是能夠通過穿著、體態、髮型等特徵,識別出不同場景中的同一個目標人物,因此它也被稱作跨境追蹤技術。

行人重識別被稱為人臉識別之後的「殺手級應用」

行人重識別已經成為人臉識別之後,計算機視覺領域的一個重點研究方向。

儘管人臉識別技術已經十分成熟,但在很多情況下,比如人群密集、或監控攝像頭解析度低、拍攝角度較偏等,人臉常常無法被有效識別。行人重識別便成為了重要補充。

因此,人臉重識別近年來也得到越來越多的關注,其相關應用也日益廣泛。

了解一項技術,我們首先要了解它解決的問題是什麼,如何取得突破,發展到什麼階段了,又存在哪些挑戰。接下來,我們將進行全面解析。

首先,上文中已提到,行人重識別是人臉識別技術的一個重要補充。

人臉識別的前提是:清晰的正臉照。但在圖像只有背面、或其它看不到人臉的角度時,人臉識別便失效了。這時候, 行人重識別便可通過姿態、衣著等特徵,繼續追蹤目標人物。

目前, 行人重識別技術在安防領域、自動駕駛等領域都有著廣泛的應用。比如:

智能安防:警方辦案人員能夠藉助 ReID 幫助快速篩查可疑人員;

智能尋人系統:在人流量較大的場所如機場、火車站,通過 ReID 尋找走失兒童和老人;

智能商業:ReID 可以根據行人外觀的照片,實時動態跟蹤用戶軌跡,以此了解了解用戶在商場的興趣所在,以便優化用戶體驗;

自動駕駛系統:通過 ReID,能夠更好地識別行人,提升自動駕駛安全性。

某安防領域解決方案提供商,藉助 ReID 快速尋回走失少年

技術突破的關鍵:大規模數據集

根據相關研究者總結,實現 行人重識別技術,一般需要以下五個步驟:

  1. 數據收集;
  2. 包圍框生成;
  3. 訓練數據標註;
  4. 模型訓練;
  5. 行人檢索

其中,數據收集作為第一步,是整個 行人重識別研究的基礎。 近年來, 行人重識別之所以取得重大突破,離不開大規模數據集的推動與支撐。

本篇將介紹幾個行人檢測常用數據集,以供大家研究和訓練模型。

INRIA Person Dataset 行人檢測數據集

INRIA Person 數據集目前是最流行的、使用最多的靜態行人檢測數據集之一,由 INRIA(法國國家信息與自動化研究所)於 2005 年發布。該數據集用來對圖像和視頻中的直立行人進行檢測。

該數據集包含兩類格式的數據。

第一類:原始圖像和相應的直立行人標註;

第二類:標準化為 64x128 像素的直立行人正類和對應圖片的負類圖像。

數據集中 每張圖片上只標出身高 > 100cm 的直立的人

該數據集基本信息如下:

INRIA Person Dataset

發布機構:INRIA

包含數量:訓練集與測試集共 2573 張圖像

數據格式:正樣本為 .png 格式,負樣本為 .jpg 格式

數據大小:969MB

更新時間:2005 年

下載地址:https://hyper.ai/datasets/5331

相關論文:

https://lear.inrialpes.fr/people/triggs/pubs/Dalal-cvpr05.pdf

UCSD Pedestrian 行人視頻數據集

UCSD Pedestrian 行人視頻數據由加州大學和香港城市大學收集整理,於 2013 年 2 月發布。

該數據集用於運動分割和人群計數。數據集包含了 UCSD(加州大學聖迭戈分校)人行道上行人的視頻,均來自一個固定的攝像機。

其中,所有視頻為 8 位灰度,尺寸 238×158,10 幀/秒。原始視頻是 740×480,30 幀/秒,如果有需求可以提供。

視頻目錄包含兩個場景的視頻(分為 vidf 和 vidd 兩個目錄)。每個場景都在自己的 vidX 目錄中,並被分割成一組 .png 片段。

數據集示例

該數據集基本信息如下:

UCSD PedestrianDataset

發布機構:UCSD,香港城市大學

包含數量:長度約 10 小時的視頻

數據格式:.png

數據大小:vidf:787MB;vidd:672MB

更新時間:2013 年 2 月

下載地址:https://hyper.ai/datasets/9370

相關論文:

http://visal.cs.cityu.edu.hk/static/downloads/crowddoc/README-vids.pdf

Caltech Pedestrian Detection Benchmark

Caltech Pedestrian Detection Benchmark 資料庫,由加州理工學院於 2009 年發布,並且每年都持續更新。

該資料庫是目前規模較大的行人資料庫,包含約 10 個小時的視頻,主要由行駛在城市中正常交通環境的車輛的車載攝像頭拍攝,視頻的解析度為 640x480,30 幀/秒。

視頻中標註了共計約 250000 幀(約 137 分鐘),350000 個矩形框,2300 個行人,另外還對矩形框之間的時間對應關係及其遮擋的情況進行標註。

該數據集基本信息如下:

Caltech Pedestrian Dataset

發布機構:加州理工學院

包含數量:訓練集與測試集共2573 張圖像

數據格式:.jpg

數據大小:11.12GB

更新時間:2019 年 7 月

下載地址:https://hyper.ai/datasets/5334

相關論文:

http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/files/CVPR09pedestrians.pdf

先進方法有哪些?

我們在此例舉兩個最新提出的方法,以供大家學習與參考。

消除不同攝像機的風格差異問題

在計算機視覺國際頂會 CVPR 2020 中,中科院發表的論文 《Unity Style Transfer for Person Re-Identification》(《行人重識別的一致風格轉移》)中, 提出了一種 UnityStyle 自適應方法,該方法可以統一不同攝像機之間的風格差異。

論文地址:http://r6a.cn/dbWQ

無論是同一攝像頭還是不同攝像頭,在拍攝畫面時,受時間,光照,天氣等影響,都會產生較大的差異,為目標查詢帶來困難。

為了解決這個問題,研究團隊首先創建了 UnityGAN 來學習相機之間的風格變化,為每個相機生成形狀穩定的 styleunity 圖像,將其稱之為 UnityStyle 圖像。

同時, 他們使用 UnityStyle 圖像來消除不同圖像之間的風格差異,使得 query(查詢目標)和 gallery(圖像庫)之間更好地匹配。

然後,他們將所提出的方法應用於重新識別模型,期望獲得更具有風格魯棒性的深度特徵用於查詢。

團隊在廣泛使用的基準數據集上進行了大量的實驗來評估所提框架的性能,實驗結果證實了所提模型的優越性。

解決行人遮擋問題

曠視研究院在 CVPR 2020 中發表的論文 《High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification》中, 解決了該領域中,經常出現也最具挑戰性的問題——行人遮擋問題。

論文地址:https://arxiv.org/pdf/2003.08177.pdf

該論文中,曠視研究院提出的框架,包括:

  • 一個一階語義模塊(S),它可以取人體關鍵點區域的語義特徵;
  • 一個高階關係模塊(R),它能對不同語義局部特徵之間的關係信息進行建模;
  • 一個高階人類拓撲模塊(T),它可以學習到魯棒的對齊能力,並預測兩幅圖像之間的相似性。

這三個模塊以端到端的方式進行聯合訓練。

論文中對高階信息和拓撲關係的說明

此前,我們還曾在《史上最火 ECCV 已開幕,這些論文都太有意思了》 中介紹了,由華中科技大學,中山大學,騰訊優圖實驗室發表的論文《請別打擾我:在其他行人干擾下的行人重識別》,該論文提出的方法,解決了擁擠場景中、背景行人干擾或人體遮擋造成的錯誤檢索結果問題。感興趣的同學,可以再次回顧。

熱點技術,尚存難點

目前,行人重識別仍然面臨不小的挑戰,包括數據、效率、性能等方面。

拿數據方面來說,不同場景(如室內和室外)、不同季節風格的變換、不同時間(如白天和晚上)光線差異等,獲取的視頻數據都會有很大差異,這些都是 行人重識別的干擾因素。 這些干擾因素不僅影響模型識別準確度,也會影響識別效率。

非可控環境下行人識別存在的難點

因此,儘管在現有應有案例中,我們看到行人重識別甚至已經超過了人類的分辨能力,但仍然有很多問題需要解決。