PapersWithCode和arXiv再次合作!可一键显示论文使用的数据集

2021-05-14   AI科技评论

原标题:PapersWithCode和arXiv再次合作!可一键显示论文使用的数据集

作者 | 陈大鑫

Papers with Code果真是AI领域的学术神器,继去年10月在arXiv上引入代码之后,PaperswithCode和arXiv合作又出新功能啦!

这一次毫无疑问就是引入数据集!

当地时间5月13日,PaperswithCode官方推特宣布他们再次和arXiv合作,现在打开arXiv论文,点击其页面的“Code & Data”导航标签,就可以看到论文所用到的数据集了,加上之前的推出的能显示代码功能,这也就意味着arXiv上代码和数据集都可以很方便地一键查看啦!

这使得跟踪整个机器学习社区中的数据集使用情况并使用相同的数据集快速查找其他论文变得更加容易。

如下图所示,打开EfficientNet论文的arXiv--Code & Data页面,可以清楚的一眼就看到该论文使用到了CIFAR-10、ImageNet、CIFAR-100等数据集。

另外这些显示出来的数据集也是加了超链接可以跳转的,如点击上图的ImageNet之后就会跳转到以下页面(paperswithcode):

这个页面有所有使用到ImageNet数据集的56个任务上的当前Benchmarks模型,如图像分类的最佳模型是Meta Pseudo Labels 、自监督图像分类的最佳模型是MoCo v3、半监督图像分类的最佳模型是 SimCLRv2 self-distilled......

paperswithcode的这个页面还显示了当前所有用到ImageNet数据集的5619篇论文(可真多啊, ImageNet 牛

! ):

下图则是显示了谷歌大脑团队去年很火的一篇论文

《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》所用到的数据集:

如上图,谷歌竟然用到了自家不开源的JFT-300M数据集;

啊这?快逃快逃 ......

另外如下图所示,作者是可以自己手动添加数据集的,在arxiv.org/user页面点击“Link to code & data” 的Papers with Code 图标就可以添加指定的数据集了,添加后,数据集将自动显示在arXiv论文页面上。

2

合作基础

Papers With Code今天这一次和arXiv合作的基础和底气正是来源于今年2月份Papers With Code 新增了数据集索引功能:覆盖数据集3000+,数百任务、多种语言一网打尽!

能够索引的数据集规模达到了3000+,而且提供按任务和模式查找的功能,能够比较数据集的使用情况,浏览基准......

如上,数据集索引共支持的模式包括图像(1066个),文本(830个),视频(342个),音频(173个)、3D(93)、图形(70)等等共38种模式。

至于任务分类,也支持问答(224)、语义分割(159)、目标检测(119)、图像分类(90)等等近百种机器学习任务。

数据集涵盖的语言,除了英文、中文、德语、法语等主流语言之外,还支持包括祖鲁语、西兰语、土库曼语等比较小众的语言。值得一提的是,中国的一些方言,例如壮族语言、粤语等等也包括在内。

而且Papers with Code还支持所有注册用户上传数据集,只需简单描述数据集,并按下上传,就能贡献机器学习社区!

所以,这次arXiv的新功能无非是把Papers with Code的部分原有功能植入了arXiv。

PaperswithCode官网表示他们的目的是通过使研究更易于发现、复制和扩展从而来加速科学进步,而数据集是机器学习模型的至关重要的组成部分。

索引化的数据集地图通过为论文结果和方法带来透明度来加快进度。这决定了未来数据集的发展:何时需要更具挑战性的数据集来评估模型,或者何时现有数据集的使用量变得饱和。

3

数据的重要性

数据是构建人工智能系统必需的关键基础设施。数据在很大程度上决定了AI系统的性能、公平性、稳健性、安全性和可扩展性。

矛盾的是,对于AI研究人员和开发人员而言,数据通常是最不被重视的方面。但相对于构建新颖的模型和算法等大规模工作而言,数据又被认为是有“可操作性”的 。

凭直觉来看,AI开发人员认为了解数据质量很重要,所以他们通常会在数据任务上花费过多的时间。实际上,与模型开发相比,数据工作一向被忽视,大多数组织并没有在数据标准等工作上花费足够的功夫。

谷歌的一项研究发现,对数据工作的低估是具有普遍性的更多内容请查看:谷歌AI研究院:被低估的数据,被高估的模型 一文。

总之一句话,数据的能量超乎你想象,某种程度上,数据集的质量决定了AI模型的上限......

参考链接:

https://medium.com/paperswithcode/datasets-on-arxiv-1a5a8f7bd104

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“ AI科技评论”设为 星标账号,以及常点文末右下角的“在看”。