CVPR 2020學術競賽大盤點,中國團隊攬獲眾多冠軍

2020-06-22   AI科技評論

原標題:CVPR 2020學術競賽大盤點,中國團隊攬獲眾多冠軍

者 | 蔣寶尚

編輯 | 叢 末

CVPR 2020已經落下帷幕,除了為期三天的主會議,還穿插著同為期三天的Workshop,這些研討會有一些是討論性質的,還有一些是競賽相關的。

這些競賽涉及了圖像分類,超解析度、圖像視頻壓縮、圖表檢索與分析、低功耗計算機視覺等等領域。

而在這些賽道中,來自中國的選手更是取得了優異的成績,其中商湯更是拿到了三連冠,涉及領域包括時空動作定位和動作分類。

百度也是一舉拿下8項挑戰賽冠軍,涵蓋視頻動作分析、動作識別、圖像增強、智慧城市等多個領域;

而在視頻壓縮領域,圖鴨科技登拿下了視頻壓縮的世界冠軍。

滴滴則是在小樣本學習學習領域獲得了兩項世界第一,在人臉識別、三維重建中的圖像配准問題中獲得了優異的成績。

另外, 在全球最大規模Deepfake檢測挑戰賽,俞能海教授指導的WM/戰隊獲得了亞軍殊榮,並得到獎金30萬美元。

下面AI科技評論就位大家盤點一下在這次CVPR 2020 挑戰賽中,中國團隊所取得的成績,如有遺漏,還請在留言區補充。

1

中科大俞能海張衛明團隊拿下Deepfake 檢測挑戰賽亞軍

此比賽由Facebook牽頭,Microsoft、Amazon和MIT等知名企業與高校聯合創建,全稱是Deepfake檢測挑戰賽(Deepfake Detection Challenge,DFDC)。

所有參賽隊伍需要從大約10萬個短片的數據集中識別假視頻。據悉, Facebook僱傭了3500餘名跨種族、年齡、膚色的演員,花費約1000萬美元錄製了大約10萬個視頻,其中一部分經過了A臉貼及深度偽造,用作比賚檢測數據。

為了保證此次比賽的公平性,主辦方採用了黑盒數據集進行最終結果評定,並發布了目前規模最大的偽造人臉視頻數據集DFDC。該數據集包含超過11萬個偽造人臉視頻,涵蓋了以Deepfake、face2face等方法為基礎的多種面部偽造和表情操縱算法,參賽隊伍以此數據集為基礎,訓練檢測模型。主辦方另外提供了兩個線上的非公開數據集:public test(包含4千個視頻)和private test(包含1萬個視頻),分別用於算法的性能驗證與最後的成績評定。

這項賽事去年十二月正式推出以來,共有2265個參賽隊伍參加,參賽模型超過35000個,最終得出的最高準確率達 82.56%,整體平均精度為 65.18%。

中國科學技術大學網絡空間安全學院俞能海教授團隊-張衛明教授課題組的WM/戰隊,經過三個半月不斷的模擬攻防與算法改進,在2265支參賽隊伍中突出重圍,取得了第二名的好成績。

從俞能海老師接受AI科技評論的採訪中,我們也能看出這一路披荊斬棘的艱辛。

AI科技評論:參加這個比賽的同學總共有多少人。分別博士生多少、碩士生多少?

俞能海:我們以團隊的形式參與這次比賽,主要參與人有6人,1位博士後研究員 ,3位博士生,2位碩士生。

AI科技評論:俞能海老師和張衛明老師帶領的戰隊獲得了0.42842得分,領先季軍接近0.01,請問俞老師的團隊用的方法具體是什麼?

另外,與冠軍相差是只有0.0005分,那麼此次比賽最大的難點在哪裡,也即是什麼因素制約了這0.0005分的提升?

俞能海本次比賽的一大難點就是解決數據集不匹配的問題。由於成績評定所用的private test數據集是不公開的,且與作為訓練數據集的DFDC數據集存在較大的分布差異,因此參賽隊伍只能根據官方在public test集上給出的算法測試結果推測檢測模型性能的優劣,從而相應進行策略調整。為了解決訓練集與測試集不匹配的問題,一個有效的方法就是對訓練數據進行數據增廣。然而DFDC本身的數據量就非常龐大,進行增廣以後的數據量更是加倍,這對訓練檢測模型所需的計算資源要求極高,這也導致比賽一定程度上成為了計算資源的比拼。

為了打破計算資源的約束,強化檢測模型在不匹配的數據集之間的遷移能力,我們在數據的預處理方法和檢測模型結構上進行了創新,採用了適用於人臉偽造檢測的關注機制,引導檢測模型自主學習到值得重點關注的潛在偽造痕跡,從而使網絡聚焦於篡改痕跡而非其他干擾因素。此外針對性的在訓練集中剔除了所有public test集中出現過的人臉,模擬出訓練集與測試集之間的數據不匹配,改善檢測模型的魯棒性。

相比於第一名,我們的差距是0.0005分,這個分數換算成準確率可能也就相差不到1%,這種細微的差距存在一定程度的偶然性,有可能只是一兩個視頻判斷錯誤的差距。從目前我們了解到的第一名算法來分析,我們認為差距產生的主要原因還是所使用的檢測模型上的差別,第一名的方案使用了基於Efficient-Net B7的網絡基礎結構,我們只採用了Efficient-Net B3,其實這也是由於資源上的不足採用的折中策略,B7相比於B3模型結構更大,所需要的訓練資源也更多,為了權衡有效性和我們有限的資源,我們採用了在效率和性能上有所折中的B3結構。

2

圖鴨科技:視頻壓縮力壓群雄

為了促進深度學習在視頻壓縮行業的發展,由google ,Netflix等巨頭聯合舉辦的CLIC(CHALLENGE ON LEARNED IMAGE COMPRESSION)已經舉辦到了第三屆。

圖鴨科技在這項大賽中,登頂視頻壓縮的桂冠,拿下了視頻壓縮的世界冠軍。從今年的比賽結果看,圖鴨科技的性能已經超越了傳統的h.266,比起傳統方法,具有更快的解碼速度。

在今年的比賽中,也加入了對模型大小的考量,在深度學習弱勢的模型大小下,圖鴨科技摘文件大小比較小的情況下,依然在指標上超越了h.266傳統模式。

3

阿里巴巴拿下視頻目標分割比賽第一名

阿里巴巴達摩院,機器智能實驗室,圖像分析與理解團隊在2020年CVPR的DAVIS 視頻目標分割比賽中的半監督(Semi-supervised)賽道中,以J&F score 84.1 的分數,獲得了比賽第一名,比去年的第一名提高了7.4個點。

具體而言,阿里巴巴提出了一個空間信息約束的機制,它基於空間注意力模塊,能夠利用前一幀預測的物體位置,對當前幀做指導,避免算法對相似物體的誤召回。同時,引入了語義分割中的感受野增強技術ASPP和精細化分割的微調(refinement)模塊,大幅提高了分割的精細程度。同時,提出了一個簡單但是有效的訓練策略,減少了訓練階段和測試階段存在的差異,提升了最終效果。

另外,達摩院視覺智能還在HACS ActibitNet比賽中獲得了第一,而淘寶技術團隊還在Deepfashion比賽中獲得了第一。

4

百度AI斬獲8項冠軍

在這次的CVPR 2020上,百度除了有22篇主會議論文的成績,還拿了8項冠軍,另外,百度還舉辦2場高水準Workshop,並有多篇Workshop論文被接收。奪冠挑戰賽涉及的領域包括:

  • 視頻動作分析挑戰賽,專注於提升視頻標註效率;

  • 動作識別挑戰賽,技術成果可廣泛用於可穿戴設備和智能家居;

  • 圖像增強挑戰賽,可有效提高視頻質量;

  • 智慧城市挑戰賽,可有效優化現有城市交通管理,提升管理效率,推動智能化進程。

奪冠8項冠軍列表如下:

在ActivityNet2020挑戰賽的時序動作定位賽道,百度以mAP39.29的得分位居第一。具體而言,百度通過自研BMN模型對視頻序列提取候選框,並結合弱標籤訓練數據,提出級聯金字塔注意力網絡進行打標籤動作,兩者結合最終獲取片段定位及動作標籤。

在EPIC-Kitchens2020挑戰賽中(聚焦於第一人稱視頻理解),百度在Seen kitchens和Unseen kitchens兩項測試集上均以第一名的成績摘獲冠軍。其中,百度提出共生注意力機制和以物體為中心的對齊模塊,大幅提升3D卷積網絡的性能。

在NTIRE2020挑戰賽中,百度在真實圖像降噪賽道、視頻質量映射賽道中分別拿到了冠軍。其中,在真實圖像降噪賽道中,百度設計了多跳躍連接的密集殘差模塊學習不同解析度下的特徵表達,並通過創新性mosaic-stride模塊提升rawRGB的降噪能力,同時使用分布式SA-NAS搜索最優的模型結構;

在視頻質量映射賽道中,百度通過把現有EDVR模型思路與CNN網絡結構DenseNet相結合,利用DenseNet提取視頻的圖片特徵,融合CNN淺層與深層特徵,從而實現更強的表達能力;EDVR模型則完成了視頻幀之間信息交換,對齊幀間信息,實現信息共享與互補。

在AI CITY2020挑戰賽中,百度在車流統計、車輛再識別、異常事件檢測分別都拿到了第一。

在車流統計賽道中,百度提出「檢測-跟蹤-計數」結合的車流統計算法流程,有效解決了檢測框丟失和ID翻轉問題。在車流統計環節,提出基於數據驅動的軌跡匹配分類算法使統計結果更準確。

在車輛重識別賽道中,百度設計了基於多任務多分支的網絡模型,並結合多源信息融合的重識別技術方案。在數據方面,使用風格遷移、圖像內容編輯、背景替代等多種方法生成合成數據,以彌補訓練數據不足的問題。

在異常事件檢測賽道中,百度通過模塊化的多粒度跟蹤方法,將跟蹤問題解耦成不同子問題,利用不同模塊來處理不同子任務,同時將視頻進行正序和逆序分別建模,最後利用一種融合和回溯優化方法,將多個子任務以及正序、逆序的模型進行融合得到最終異常事件的定位結果。

在MOTS2020挑戰賽中,百度獲得冠軍的賽道是KITTI-MOTS,在這個賽道中,百度提出新型方法PointTrack++,在行人和車輛兩個類別中均取得SOTA結果。

5

商湯拿下CVPR 2020三連冠

商湯這次對付的問題是視頻動作識別,角逐的賽事是國際大規模動作識別競賽ActivityNet,歷年由Google、Facebook、UC Berkeley等頂尖院校與研究機構主辦,相關技術在視頻分析、活體檢測等多項實際應用中具有重要價值。

其中,香港中文大學-商湯聯合實驗室及商湯研究院和X-Lab聯合團隊獲得CVPR 2020 ActivityNet 時空動作定位(Spatio-temporal Action Localization)和動作分類(Trimmed Action Recognition)兩項冠軍。

在動作定位比賽中,商湯研究院和X-Lab及聯合實驗室團隊用的是對象-場景-對象關係推理網絡(ACAR-Net)和自有的深度學習超算平台,算法高達39.62mAP。

在動作分類比賽中,自研的時空交錯網路(TIN)亦在多模型融合階段起到了重要作用。

在另一個比賽中,商湯拿下了號稱全球最全面的Low-level視覺大賽之一——NTIRE(New Trends in Image Restoration and Enhancement)光譜重建賽道的冠軍,具體而言,其團隊使用的是一種級網絡結構,增大感受野的同時在不同級子網絡中做特徵提取。

6

滴滴在遷移學習、圖像匹配等領域屢獲佳績!

滴滴 AI Labs 在小樣本學習領域勇奪了兩項世界第一,針對的比賽是CVPR 2020 CD-FSL 挑戰賽,這項比賽是IBM聯合加州大學聖地亞哥分校、麻省理工等多所高校發起,是針對跨域小樣本學習問題的首個挑戰賽。

CD-FSL挑戰賽包含兩個賽道:(1)可以使用源域大量標註數據和目標域少量標註數據,模擬了目標域數據難收集難標註的情況;(2)可以使用源域大量標註數據、目標域少量標註數據以及目標域一定的無標籤數據,模擬了目標域數據難標註但可以收集一定數量的情況。

滴滴AI Labs遷移學習組與北京郵電大學鄧偉洪課題組成參賽隊伍,結合在遷移學習方向已有的技術積累和理論研究,提出Feature Transformation Ensemble Model with Batch Spectral Regularization,FTEM_BSR 模型實現任務目標。

在手工特徵VS 深度特徵,三維重建中的圖像配准問題中,滴滴針對的挑戰賽是《Image Matching Challenge 2020》,此比賽提供的數據集超過2.5萬幅圖像。滴滴 MapVision 團隊融合幾何和深度學習方法,構建低噪聲低冗餘的數據集,在卷積描述子生成方法中提出了基於困難樣本挖掘的二次合頁損失函數改進;另外,在基於深度學習的圖像匹配外點剔除算法中改進了匹配信息中局部和全局上下文的流通;結合卷積描述子生成方法和深度學習外點剔除算法,顯著地提升了相對位姿估計的準確性,形成一套圖像匹配完整方法。

在人臉對齊挑戰賽中,滴滴 AI Labs 圖像技術部和北京郵電大學鄧偉洪老師課題組聯合提出了一種新的基於熱圖回歸的結構化人臉對齊算法,該算法通過將關鍵點熱圖傳播成邊界熱圖來提供結構信息,以供進一步生成注意力圖。

智能交通視頻分析看路口擁堵問題中,滴滴針對的挑戰賽是 AI City Challenge,此挑戰賽由英偉達聯合紐約州立大學奧爾巴尼分校、愛荷華州立大學、聖何塞州立大學、華盛頓大學發起。滴滴參與了任務一「多拍攝角度下,交叉路口的車輛計數」,即在特定交叉路口,對左轉、右轉、直行的車輛進行計數。該任務有助於理解道路交通運力,可用於 交叉路口信號燈控制 ,從而緩解交通擁堵。滴滴獲得本次競賽的第二和第三名的好成績。

7

好未來獲得人臉表情識別競賽冠軍

此項比賽的名字是EmotioNet競賽,是人臉表情識別領域最權威的國際學術競賽之一,其研究成果在計算機視覺三大權威會議中的CVPR和ICCV(國際計算機視覺大會)上均有發表。由CVPR組織、美國俄亥俄州立大學主辦,好未來、阿里巴巴、中國科技大學、中國科學院、馬格德堡大學、南洋理工大學等諸多專業團隊參加了此次競賽。

在競賽中,好未來AI工程院針對人臉表情識別中的多任務學習不一致過擬合問題提出了解決方案,大幅度提升了模型準確率和F值。據悉,該項技術已廣泛應用於好未來集團教學業務中,並通過好未來AI開放平台與全行業共享。

ACL 2020原定於2020年7月5日至10日在美國華盛頓西雅圖舉行,因新冠肺炎疫情改為線上會議。為促進學術交流,方便國內師生提早了解自然語言處理(NLP)前沿研究,AI 科技評論將推出「ACL 實驗室系列論文解讀」內容,同時歡迎更多實驗室參與分享,敬請期待!