618如何避免剁手"X.O"洋酒?这个打假AI说:不怕,我1秒能识别20个!

2021-05-27   AI科技评论

原标题:618如何避免剁手"X.O"洋酒?这个打假AI说:不怕,我1秒能识别20个!

作者 | 维克多

一年一度的“618”剁手节要来了!一时间,康帅博、七匹狠、雷碧、大白免、白事可乐、老于妈......等品牌,纷纷发来贺电。

某些商家在商品名字上下功夫造假,虽然手段低级,但着实有效!例如有位大哥在某影星直播间买的X.O洋酒,一看扫码价是1888(折后价19.8),以为是奢侈品,就送领导了。据说酒是上午送的,人是晚上走的…..现在广撒简历找工作。

为了解决这一问题,阿里收集了百万级别的奢侈品商标数据,基于这些数据,升级为了新的AI打假系统:

具体而言,阿里安全图灵实验室搭建了一个包含500多个奢侈品大类和1000多个子类商标,累计超过100万个商标数据集的全球最大奢侈品商标库,结合庞大的数据集训练的AI打假算法鉴别真假大牌商标的速度可缩短至30到50毫秒。

除此之外,阿里安全团队的“打假AI“还解决了以下两个常见的问题:

商标遮挡、形变等问题:真实场景中,广泛存在着商标存在遮挡、形变、扭曲等情况,以及刻意PS商标导致部分遮挡,一种商家的恶意对抗行为导致的遮挡。

对此,阿里安全团队AI打假模型采用的是弹性、高效的网络结构 - Brand Net,包含三部分:

Cascade-RPN:在目标比例变化很大的场景,anchor的预设非常重要;该结构减轻了Anchor参数设计,提高了Logo proposal的质量,提升了小目标的召回;

Soft Mask Attention:该结构用迁移学习的方式,构造了由bbox特征到segmentation特征的映射空间,从而得到bbox内目标的分割结果(Soft Mask)。该结构能够有效提升logo在bbox中占比较小的,以及形变时的表现;

Feature Representation and Instance Retrieval:该结构能够在新商标加入时弹性扩展,避免了网络retrained带来的时间和算力消耗。

1

百万logo数据集已公开

这个包含500多个奢侈品大类和1000多个子类商标,累计超过100万个商标数据集的全球最大奢侈品商标库,阿里将其命名为Open Brand。

具体而言,数据集来源于各大电商平台,包含了584,920图片,1,303,563的标注量,包含了行业内大部分商标。

数据收集过程颇为复杂,首先构建一个商标知识库,将商品图片与品牌进行匹配,然后从淘宝、天猫、1688等网站抓取产品图片,其中产品评论图片和真实拍照图也没放过。在数据清洗过程中,用ResNeXt101等网络进行相似去重、删除低分辨率图片后,只保留了140万张图片;随后又经历了耗费精力的图片标注、质量控制……

图注:Brand Net架构

2

AI打假,用竞赛持续优化

目前赛事已吸引全球30000多支队伍参赛为“AI打假”贡献方案。目前,赛事还在继续,仍然接收竞赛方案,欢迎有志之士提供方案!

据悉,本次大赛特别邀请来自学界中国科学院大学的黄庆明老师、中国科学院计算所王树徽老师、清华大学苏航教授和王鑫老师、UC Berkeley仉尚航老师,以及产业界的阿里巴巴图灵实验室负责人薛晖(奥创)、阿里浙大互联网挖掘实验室负责人李朝(涵空)、阿里巴巴视觉智能负责人何源(华棠)作为本次赛事的评审。