618如何避免剁手"X.O"洋酒?這個打假AI說:不怕,我1秒能識別20個!

2021-05-27   AI科技評論

原標題:618如何避免剁手"X.O"洋酒?這個打假AI說:不怕,我1秒能識別20個!

作者 | 維克多

一年一度的「618」剁手節要來了!一時間,康帥博、七匹狠、雷碧、大白免、白事可樂、老於媽......等品牌,紛紛發來賀電。

某些商家在商品名字上下功夫造假,雖然手段低級,但著實有效!例如有位大哥在某影星直播間買的X.O洋酒,一看掃碼價是1888(折後價19.8),以為是奢侈品,就送領導了。據說酒是上午送的,人是晚上走的…..現在廣撒簡歷找工作。

為了解決這一問題,阿里收集了百萬級別的奢侈品商標數據,基於這些數據,升級為了新的AI打假系統:

具體而言,阿里安全圖靈實驗室搭建了一個包含500多個奢侈品大類和1000多個子類商標,累計超過100萬個商標數據集的全球最大奢侈品商標庫,結合龐大的數據集訓練的AI打假算法鑑別真假大牌商標的速度可縮短至30到50毫秒。

除此之外,阿里安全團隊的「打假AI「還解決了以下兩個常見的問題:

商標遮擋、形變等問題:真實場景中,廣泛存在著商標存在遮擋、形變、扭曲等情況,以及刻意PS商標導致部分遮擋,一種商家的惡意對抗行為導致的遮擋。

對此,阿里安全團隊AI打假模型採用的是彈性、高效的網絡結構 - Brand Net,包含三部分:

Cascade-RPN:在目標比例變化很大的場景,anchor的預設非常重要;該結構減輕了Anchor參數設計,提高了Logo proposal的質量,提升了小目標的召回;

Soft Mask Attention:該結構用遷移學習的方式,構造了由bbox特徵到segmentation特徵的映射空間,從而得到bbox內目標的分割結果(Soft Mask)。該結構能夠有效提升logo在bbox中占比較小的,以及形變時的表現;

Feature Representation and Instance Retrieval:該結構能夠在新商標加入時彈性擴展,避免了網絡retrained帶來的時間和算力消耗。

1

百萬logo數據集已公開

這個包含500多個奢侈品大類和1000多個子類商標,累計超過100萬個商標數據集的全球最大奢侈品商標庫,阿里將其命名為Open Brand。

具體而言,數據集來源於各大電商平台,包含了584,920圖片,1,303,563的標註量,包含了行業內大部分商標。

數據收集過程頗為複雜,首先構建一個商標知識庫,將商品圖片與品牌進行匹配,然後從淘寶、天貓、1688等網站抓取產品圖片,其中產品評論圖片和真實拍照圖也沒放過。在數據清洗過程中,用ResNeXt101等網絡進行相似去重、刪除低解析度圖片後,只保留了140萬張圖片;隨後又經歷了耗費精力的圖片標註、質量控制……

圖註:Brand Net架構

2

AI打假,用競賽持續優化

目前賽事已吸引全球30000多支隊伍參賽為「AI打假」貢獻方案。目前,賽事還在繼續,仍然接收競賽方案,歡迎有志之士提供方案!

據悉,本次大賽特別邀請來自學界中國科學院大學的黃慶明老師、中國科學院計算所王樹徽老師、清華大學蘇航教授和王鑫老師、UC Berkeley仉尚航老師,以及產業界的阿里巴巴圖靈實驗室負責人薛暉(奧創)、阿里浙大網際網路挖掘實驗室負責人李朝(涵空)、阿里巴巴視覺智能負責人何源(華棠)作為本次賽事的評審。