人臉遮擋算法研究綜述

2019-07-09     有三AI

作者 | 劉東平、謝遠倫、言有三

編輯 | 言有三

人臉識別技術都是基於人臉關鍵特徵提取對比完成識別的,其中,特徵的完整性是算法成敗的一個極為關鍵的因素,但是當受到外界干擾較多,外界的條件發生明顯變化的時候,由於傳統方法過於依賴明顯的、完整的圖像特徵,一旦由於人臉發生遮擋,造成部分特徵的消失,導致人臉圖像特徵不完整時,這種算法就會失效,導致無法和庫中人臉信息進行對比。遮擋造成的人臉識別的困難主要體現在由遮擋所引發的特徵損失、對準誤差和局部混疊等方面.

1 常見人臉遮擋方式【1】

引發麵部遮擋的原因主要有三種:

1.1光線遮擋:由於不均勻的或極度強烈的外部光照所引起的遮擋。圖a

1.2實物遮擋:覆蓋在人臉上的物品,如帽子,眼鏡,圍巾等。圖b

1.3自遮擋:是由於人體姿勢導致的,如側臉。圖c

2 人臉遮擋對人臉識別的影響

下面我們看一組圖片:

通過眼睛我們很容易判斷上面一組圖片都是同一人。但是我們的人臉識別的應用能判斷出他們是同一人嗎?

接下來我們將把上面的圖片通過百度AI和騰訊AI進行對比

2.1百度AI對比結果

2.2騰訊AI對比結果

通過百度AI和騰訊AI我們可以看到遮擋對人臉驗證的結果影響非常大,特別是第四組圖,由於面紗的遮擋,騰訊AI判斷圖片中沒有人臉,但是同一組照片,百度AI卻給出了71.75%的相似度判定。這也說明了不同的算法,對遮擋處理的結果差別很大。

3 數據集

雖有很多的人臉數據集,但是專門用於人臉遮擋這個問題的卻很少。MAFA【3】是其中最大的,它包含30,811個無遮擋圖像和35,806個有遮擋圖像,包含各種方向和尺度的遮擋,數據集並未開源。

遮擋後的人臉,眼睛基本不會被遮擋的,需要眼睛看東西,所以還是相對穩定的特徵點,下面是其中一個遮擋的例子。

4 人臉識別遮擋傳統方法【1】

主流的方法有:子空間回歸、魯棒誤差編碼與魯棒特徵提取等三類。

4.1子空間回歸

子空間回歸方法將不同類別的人臉劃分為不同的子空間,遮擋是一個獨立的子空間,那麼有遮擋的人臉圖像是不含遮擋的人臉與遮擋的疊加,就可以把有遮擋人臉圖像識別問題視作將無遮擋的人臉圖像和遮擋各自回歸到它們所屬的子空間的問題

子空間回歸方法中最具代表性的方法是稀疏表示分類方法和協同表示分類方法,具體的細節,可以參考文獻【1】。子空間回歸方法的主要困難在於遮擋子空間的構建。

4.2魯棒誤差編碼

魯棒誤差編碼方法主要包括「加法模型」和「乘法模型」。 「加法模型」認為有遮擋圖像是原始的不含遮擋的人臉圖像與由遮擋引發的誤差e的合成體,即y=y0+e,著重考慮如何將誤差e從有y中分離出來。

「乘法模型」將有遮擋的圖像看成是無遮擋的y0與遮擋的拼接,並且只有y0可以精確重構。著重考慮如何分離其有遮擋區域和無遮擋區域,具體細節參考文獻【1】。

4.3魯棒特徵提取

一幅人臉圖像所包含的特徵通常極為豐富,既包括顏色、亮度、紋理、方向等低階特徵,也包括姿態 、表情、年齡、人種等高階特徵,魯棒的特徵提取 方法就是需要對這些特徵進行分解。比如Gabor特徵是在多個尺度和多個方向上分解,屬性特徵是分解為多個可描述的屬性。分解後,可以降低特徵之間的相互干擾,從而為機器學習提供足夠精細的特徵。

傳統的魯棒特徵有代表性的比如梯度臉,以及將子空間學習引入深度學習的PCANet框架和將卷積神經網絡的卷積層引入經典的「特徵圖-模式圖-柱狀圖」的特徵提取框架FPH 框架。儘管並沒有對光照變化和遮擋做任何先驗性假設和顯式處理,甚至沒有用到大規模的訓練數據,PCANet的神經元響應卻對光照變化和遮擋等表現出了很強的魯棒性,關於更具體的細節請參考文獻【2】。

5 深度學習【3-4】

我們下面給大家介紹兩個思路。第一個,來源於【3】的思路,是嘗試對遮擋區域的特徵進行修復。【4】的思路,是如何設計和使用Attention的機制去識別沒有被遮擋的人臉,這也是兩個基本的研究方向,下面分別做說明。

5.1 對遮擋區域進行恢復

上圖就是文【3】解決方案的框架。從上圖我們可以看出,包括3個模塊。

(1)Proposal Module人臉候選區域提取模塊,這就是三個卷積層加一個全連接層的基本結構,為了能夠召回更多的遮擋人臉,選擇了比較低的閾值生成了大量人臉候選區域。隨後使用VGGFace提取4096維的特徵進行歸一化。我們可以知道,這個特徵即含有有用信息也含有噪聲信息。

(2)Embedding Module 這個模塊主要實現對被遮擋的人臉特徵恢復,抑制特徵中的噪聲信息,它將Proposal Module提取出來的描述子,採用LLE方法,轉化為相似度描述子。隨後,在一個利用了大量無遮擋人臉和遮擋人臉得到的特徵池中利用knn尋找匹配。

(3)Verification Module 則可以利用被修復的人臉特徵進行人臉區域驗證,對人臉位置和尺度進行微調。

5.2 基於attention的方法定位遮擋

通過合理的Anchor設置或者是合理的大感受野,我們可以隱式地學到遮擋區域的人臉,為了減少誤召回,可以考慮用segmentation或者是attention的機制去處理。

上面就是它的基本結構,借鑑於RetinaNet。首先通過FPN結構提出特徵,然後會另開一支去學習attention,之後對attention做一個E指數的操作乘到原來的feature map上,加強可見區域信息。後面是一個類似於fast R-CNN兩支操作:一支做classification,一支做regression。 Anchor setting設置可以保證每個人臉都有足夠的感受野以及足夠的context信息。底下這個attention的subnet,它可以通過有監督的信息,學到visible的information,也就能提高對遮擋物體檢測的能力。一些該文的細節,包括以下:

Anchor setting

文章中先統計了一下Wider face數據集,發現大概80%以上的人臉其實都是集中在16 pixel到406 pixel這樣的量級上面,還有約10%的量級是在8pixel到16pixel,如下圖:

要考慮到如何讓anchor去覆蓋這麼大的一個區域,他們選擇了1和1:1.5,其實是潛在地考慮了正臉和側臉情況。與傳統的每一層只有一個anchor的鋪設方式不同,採用每層3個scale,以2 ^ -1/3 步進。

attention整體框架

採用將bounding box的區域填1,直接作segmentation去學的思路。由於大量的ground truth是沒有遮擋的,當發生遮擋時,最後學出來的segmentation會對於這些未遮擋的信息更加敏感。另外在attention網絡裡面,做完attention之後,不是簡單的點乘到原來的feature map上面,而是先做了一個E指數的操作,再去點乘到feature map上面。這樣做就不是只保留attention高量的部分,而是對高量的部分做一些增強,這樣能夠很好地保留它原有的context信息,同時也能夠突出它自身那個可見區域的信息。

這是一個有監督的attention結構,對不同的層賦予不同的anchor level的監督信息。

除了以上兩條思路外,還有一些其他的方案,不再一一展開。

6 解決人臉遮擋的現實意義

6.1 提升門禁系統識別準確率,方便人們的生活

受安全保護的地區可以通過人臉識別辨識試圖進入者的身份。人臉識別系統可用於企業、住宅安全和管理。如人臉識別門禁考勤系統,人臉識別防盜門等。門禁系統採用網絡信息加密傳輸,支持遠程進行控制和管理,可廣泛應用於銀行、軍隊、公檢法、智能樓宇等重點區域的門禁安全控制,但是參與這些活動的人,其面部特徵並不都是標準完整的。在面部特徵不完整的情況下,也能對其進行精準的識別,將會極大的提高工作效率和用戶體驗。

6.2 增強身份識別

可在機場、體育場、超級市場等公共場所對人群進行監視,例如在機場安裝監視系統以防止恐怖分子登機。在恐怖分子有偽裝的情況下,例如戴口罩、墨鏡、帽子等,如果人臉識別技術能對遮擋部分進行補全,就可以在機場或車站安裝系統以抓捕在逃案犯。

參考文獻:

[1] 李小薪、梁榮華有遮擋人臉識別綜述:從子空間回歸到深度學習

[2] Chan T H, Jia K, Gao S, et al. PCANet: A simple deep learning baseline for image classification?[J]. IEEE Transactions on Image Processing, 2015, 24(12): 5017-5032.

[3]Ge S, Li J, Ye Q, et al. Detecting masked faces in the wild with lle-cnns[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 2682-2690.

[4]Wang J, Yuan Y, Yu G. Face Attention Network: An effective Face Detector for the Occluded Faces[J]. arXiv preprint arXiv:1711.07246, 2017.

[5] https://github.com/polarisZhao/awesome-face

文章來源: https://twgreatdaily.com/zh-cn/a6rQK20BJleJMoPMuDjQ.html