本文解讀的是 CVPR 2020 論文《Attention-Guided Hierarchical Structure Aggregation for Image Matting》,作者來自大連理工大學、大連大學、鄭州大學,其中第一作者有兩位,分別是博士生喬羽和碩士生劉宇豪。
作者 | 劉宇豪
編輯 | 叢 末
論文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf
項目地址:
- https://xinyangdut.github.io/matting/Matting.html
- https://wukaoliu.github.io/HAttMatting/
怎樣實現既高質量又無需用戶交互的圖像摳圖一直是學術界和工業界在努力追求的目標,近日,隨著CVPR2020論文的正式公開,有這樣一篇文章,在自動摳圖領域又向前走了一步。下面,我們就來走進這篇文章。
圖像摳圖本身是一個病態的問題,公式如下所示:
給定一張RGB的彩色圖 I,要求得一張表示像素不透明度的Alpha Matte,可見其約束度是遠遠不夠的。通常情況,在求解該問題的時候是藉助於Scribble或者Trimap的方式來增加一些輔助的約束信息,以基於Trimap的方法為例,
其白色表示確切的前景信息,黑色表示明確的背景信息。中間的灰色區域便是留給算法去求解的未知區域。儘管說這種方式對於求解可以大大提升精度,但確需要消耗很大的人力去標註一張高質量的Trimap。
課題組針對這一痛點,提出了注意力機制引導的層級結構融合的圖像摳圖方法。
1
如何實現?
論文中提出的圖像摳圖網絡 HAttMatting 架構,以單幅RGB圖像為輸入,通過特徵提取網絡(FEM)提取多層特徵。然後,將最深層的、語義豐富的特徵輸入到所提出的層級注意力機制(HAM)模塊中,通過對高級語義進行自適應的特徵篩選來實現Image Matting中 Class-Agnotisc 且 Matting-Adaptive 的特徵,進而以此作為引導信息,對包含結構,紋理細節信息的低維特徵執行空間注意力,以此達到對 Matting 邊緣細節補全和優化的目的。
通過這種方式,HAttMatting 利用 FG 定位+boundary 優化,並輔之以對抗網絡用於提升可視化效果,隨之對網絡的輸出進行二倍上行採樣,得到原始圖像解析度大小的Alpha Matte作為輸出。
2
Distinctions-646 數據集
Image Matting 在計算機視覺領域的定義是一個回歸任務,其所需要的GT之精度也非常高,而目前廣泛應用於深度模型優化的自然圖像數據集只有Adobe[1]公開的431張數據。
楊鑫教授稱,為了緩解由於數據造成的欠魯棒問題,課題組構建了Distinctions-646數據集,助力了摳圖領域的進一步發展。該數據集是目前為止ImageMatting領域公開的、針對自然圖像的最大規模高精度數據集,包含訓練集596張,測試集50張。
3
結果如何?
論文作者採用了Image Matting領域通用的四個評價(SAD, MSE, Grad, Conn)指標對該方法分別在 Adobe 數據集[1]和自建的 Distinctions-646 上進行了定性評估。
在Adobe數據上對比的方法都是ImageMatting領域最新的模型,如Late fusion,Context-aware,Indexnet等。從結果上來看,該方法在無需Trimap的眾多方法中達到SOTA,甚至在一些指標上超越了基於Trimap的一些方法。
在自身的Distinctions-646數據集上也對一些公開源碼的Matting模型進行了重新訓練和預測,其提出的HAttMatting模型也實現了SOTA的結果。
4
效率如何?
楊鑫教授解釋道,該方法在Adobe[1]的一千張測試集上,可以達到平均0.2s一張圖片的處理速度,這對於今後模型遷移至視頻流任務和實時性要求較高的任務也是一個很好的鋪墊。
5
結果可視化
從在Adobe[1]數據的可視化結果來看,本文的方法在無需Trimap做輔助的情況下也可以達到一個很好的效果。
除了標準測試集上的結果展示外,研究人員從網絡上搜索的一些自然圖片和這些圖片預測的AlphaMatte結果如上圖所示(敲黑板,小夥伴們要注意哦,本文是單張RGB直接預測Alpha Matte,不需要任何其他輔助信息的)。
後話
楊鑫教授介紹稱,他們團隊針對無需三分圖輔助的 Image Matting,用了一年的時間進行課題調研、確定問題、製作數據集、設計模型、優化模型,研究成果最終被CVPR2020接收。
後續,研究團隊還將圍繞通用物體快速高精準的摳圖來展開研究,以此來進一步擴展問題,並縮小合成數據和自然圖像之間的差異,提高應用價值。
參考文獻:
[1] Xu, Ning, et al. "Deep imagematting." Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition. 2017.
ACL 2020原定於2020年7月5日至10日在美國華盛頓西雅圖舉行,因新冠肺炎疫情改為線上會議。為促進學術交流,方便國內師生提早了解自然語言處理(NLP)前沿研究,AI 科技評論將推出「ACL 實驗室系列論文解讀」內容,同時歡迎更多實驗室參與分享,敬請期待!
文章來源: https://twgreatdaily.com/hWHs4XIBd4Bm1__YKnCU.html