僅50張圖片訓練數據的AI分類技術PK​,阿里拿下ECCV 2020競賽冠軍

2020-08-07     AI科技大本營

原標題:僅50張圖片訓練數據的AI分類技術PK​,阿里拿下ECCV 2020競賽冠軍

出品 | AI科技大本營(ID:rgznai100)

近日,兩年一度的世界計算機視覺領域頂會ECCV 2020的各項挑戰賽結果出爐,在圖像分類賽中,阿里安全的高效AI分類技術超越三星、深蘭科技、同濟大學等國內外多支隊伍的同類技術獲得冠軍。目前,阿里安全團隊提出的「A visual inductive priors framework for data-efficient image classification」也已被ECCV 2020 Workshop VIPriors接收。

人工智慧的崛起以海量的帶標籤訓練數據作為基石,海量數據可以保障AI模型的效果,但是數據的收集和標註需要昂貴的人力成本,進行訓練則需要消耗大量計算資源。ECCV 2020分類比賽的難題是,與其他比賽動輒使用十幾萬的數據不同,ECCV 2020的分類比賽共有1000個類別,每個類別僅有50張圖片作為訓練數據。比賽要求選手在不使用任何預訓練模型和額外數據情況下,從零訓練模型。這意味著訓練難度巨大,幾乎是不可能完成的任務。

不過,這也正是ECCV 2020為了考驗參賽隊伍如何對來之不易的訓練數據進行充分利用,促使AI神經網絡進行高效學習,降低神經網絡訓練過程中的人力和計算資源消耗,也就是說,參賽隊伍要打造一個高效能、低成本的分類AI。

阿里安全圖靈實驗室算法工程師夜清介紹,阿里安全智能算法團隊從數據增強、神經網絡結構、目標函數三大技術方向進行了突破。

數據增強通過向訓練數據中增加轉換或者人工增加訓練數據等操作來豐富訓練樣本。在阿里安全的數據增強方案中,訓練時將從訓練數據中隨機抽取兩張圖像A和B,使用自動增強方法預處理,然後對裁剪出B中一塊方形圖像塊並貼在A中,組成拼接圖像。相比如現有的圖像增強方法,他們的方案能夠最大程度上豐富訓練樣本,充分利用每一張圖像。

在網絡模型的選擇上由於訓練樣本樣本較少和缺乏預訓練模型帶來的先驗性知識,他們發現現有的backbone都無法很好地完成特徵提取任務,且容易發生過擬合,性能較為有限。他們總結出顯著性特徵、平移不變性和正則化能力是提升分類性能的關鍵。

顯著性特徵是每個類別有特有的能夠顯著區別其他類別的特徵,如老虎的花紋、狐狸的臉部以及長長的尾巴的等等。而神經網絡是不具備平移不變性的,因此圖像中的目標稍有移動模型的準確率就會有明顯的下降。另外,由於訓練數據缺乏,模型極易發生過擬合,需要使用一些正則化的方法來緩解。

基於上述思路,他們設計並實現了一種三分支的殘差網絡結構DSK-net(Dual Selective Kernel network),在DSK-net中,他們加入了顯著性特徵提取模塊來提升特徵提取的效果,加入抗鋸齒模型來提升模型的平移不變性,將二分支網絡結構基礎上新增一個分支,提升模型的正則化能力。而實驗結果表明,他們提出的DSK-net在少量數據上的學習效果要遠優於目前的一些主流網絡結構,如ResNeXt、EfficientNet,以及最新的ResNeSt等。

目標函數也叫損失函數,是模型訓練過程中的優化的目標,可以指導模型按照其所設定的方向收斂,模型擬合的越好,其值應該越小。在數據量較少的情況下,一般的分類損失函數容易造成模型過擬合,另外數據中的噪聲會對模型也會對模型有較大誤導。

因此,他們設計了一種基於正類的的損失函數,可以從多個方向指導模型收斂,緩解過擬合,消除數據噪聲對模型帶來的誤導。在損失函數中,他們發現訓練數據的1000個類別包含著明確的層次關係,如貓、豹、老虎同屬於「動物-哺乳動物-貓科動物」,卡車、轎車同屬於「車輛-機動車」等,基於此,他們構造了一個多層樹狀語義結構,對類別間的語義關係進行建模,並用該樹狀結構指導分類器進行更好地理解和學習。

阿里安全圖靈實驗室資深算法專家華棠認為,高效AI分類技術極大程度上解決了計算資源消耗和數據標註的人力成本問題,為自動駕駛、物體識別、智慧城市等領域提供了新的思路和方法。

在線下新零售場景中,對於新上架的一件商品,原來AI工程師們需要從不同的角度、光照條件和位置拍攝、收集幾千甚至上萬張圖片並進行標註,用於訓練模型,才可以保證AI模型能充分學習到該商品的特徵。而在阿里安全提出的方案下,商品圖片數量縮減到50張以下,就能保證模型的識別能力。

「我們的方法還可以與自監督有效的結合,在學習更好的數據表征基礎上,指導模型高效學習,獲得更好的識別能力。」夜清說。

目前,阿里安全這項基於小規模圖像的高效AI技術已應用在智慧財產權商標識別、通用商品識別和動植物保護等場景中。這類場景類別數量多,每個類別樣本數量較少,而預訓練任務和目標任務存在差異,預訓練模型可能損害目標任務的準確率,這個方案恰恰能夠解決上述問題。

「以某知名品牌運動鞋上新為例,一段時間內我們僅能獲得該產品不同的配色以及商品幾個不同角度的圖片。在僅有少量商品展示圖的情況下,通過高效AI方案,我們在新產品問世的極短時間內實現新款商品識別能力的覆蓋,降低新產品被山寨和假冒的風險。」華棠說。

阿里安全圖靈實驗室資深算法專家薛暉介紹,疫情期間,突發口罩佩戴問題使得大量人臉門禁失效,很多小區需要摘下口罩刷臉,帶來不必要的健康風險,高效AI分類技術的應用大大降低了模型初始化的數據需求量,幫助快速訓練好模型,解決了戴口罩的人臉識別問題。

今年3月,阿里率先提出新基建的新一代安全架構和安全基建,並開始打造數字基建安全樣板間。作為新一代安全架構安全技術層的核心AI技術,目前高效AI方案對內已賦能阿里多個業務場景,如淘寶視頻、淘寶直播、優酷等平台的智慧財產權保護,為數字基建的安全建設提供樣本參考,對外則通過綠網直接服務大中小企業。

文章來源: https://twgreatdaily.com/zh-my/x-eJynMBd8y1i3sJt5LC.html










CSDN湘苗培優

2020-12-24