PapersWithCode和arXiv再次合作!可一鍵顯示論文使用的數據集

2021-05-14   AI科技評論

原標題:PapersWithCode和arXiv再次合作!可一鍵顯示論文使用的數據集

作者 | 陳大鑫

Papers with Code果真是AI領域的學術神器,繼去年10月在arXiv上引入代碼之後,PaperswithCode和arXiv合作又出新功能啦!

這一次毫無疑問就是引入數據集!

當地時間5月13日,PaperswithCode官方推特宣布他們再次和arXiv合作,現在打開arXiv論文,點擊其頁面的「Code & Data」導航標籤,就可以看到論文所用到的數據集了,加上之前的推出的能顯示代碼功能,這也就意味著arXiv上代碼和數據集都可以很方便地一鍵查看啦!

這使得跟蹤整個機器學習社區中的數據集使用情況並使用相同的數據集快速查找其他論文變得更加容易。

如下圖所示,打開EfficientNet論文的arXiv--Code & Data頁面,可以清楚的一眼就看到該論文使用到了CIFAR-10、ImageNet、CIFAR-100等數據集。

另外這些顯示出來的數據集也是加了超連結可以跳轉的,如點擊上圖的ImageNet之後就會跳轉到以下頁面(paperswithcode):

這個頁面有所有使用到ImageNet數據集的56個任務上的當前Benchmarks模型,如圖像分類的最佳模型是Meta Pseudo Labels 、自監督圖像分類的最佳模型是MoCo v3、半監督圖像分類的最佳模型是 SimCLRv2 self-distilled......

paperswithcode的這個頁面還顯示了當前所有用到ImageNet數據集的5619篇論文(可真多啊, ImageNet 牛

! ):

下圖則是顯示了谷歌大腦團隊去年很火的一篇論文

《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》所用到的數據集:

如上圖,谷歌竟然用到了自家不開源的JFT-300M數據集;

啊這?快逃快逃 ......

另外如下圖所示,作者是可以自己手動添加數據集的,在arxiv.org/user頁面點擊「Link to code & data」 的Papers with Code 圖標就可以添加指定的數據集了,添加後,數據集將自動顯示在arXiv論文頁面上。

2

合作基礎

Papers With Code今天這一次和arXiv合作的基礎和底氣正是來源於今年2月份Papers With Code 新增了數據集索引功能:覆蓋數據集3000+,數百任務、多種語言一網打盡!

能夠索引的數據集規模達到了3000+,而且提供按任務和模式查找的功能,能夠比較數據集的使用情況,瀏覽基準......

如上,數據集索引共支持的模式包括圖像(1066個),文本(830個),視頻(342個),音頻(173個)、3D(93)、圖形(70)等等共38種模式。

至於任務分類,也支持問答(224)、語義分割(159)、目標檢測(119)、圖像分類(90)等等近百種機器學習任務。

數據集涵蓋的語言,除了英文、中文、德語、法語等主流語言之外,還支持包括祖魯語、西蘭語、土庫曼語等比較小眾的語言。值得一提的是,中國的一些方言,例如壯族語言、粵語等等也包括在內。

而且Papers with Code還支持所有註冊用戶上傳數據集,只需簡單描述數據集,並按下上傳,就能貢獻機器學習社區!

所以,這次arXiv的新功能無非是把Papers with Code的部分原有功能植入了arXiv。

PaperswithCode官網表示他們的目的是通過使研究更易於發現、複製和擴展從而來加速科學進步,而數據集是機器學習模型的至關重要的組成部分。

索引化的數據集地圖通過為論文結果和方法帶來透明度來加快進度。這決定了未來數據集的發展:何時需要更具挑戰性的數據集來評估模型,或者何時現有數據集的使用量變得飽和。

3

數據的重要性

數據是構建人工智慧系統必需的關鍵基礎設施。數據在很大程度上決定了AI系統的性能、公平性、穩健性、安全性和可擴展性。

矛盾的是,對於AI研究人員和開發人員而言,數據通常是最不被重視的方面。但相對於構建新穎的模型和算法等大規模工作而言,數據又被認為是有「可操作性」的 。

憑直覺來看,AI開發人員認為了解數據質量很重要,所以他們通常會在數據任務上花費過多的時間。實際上,與模型開發相比,數據工作一向被忽視,大多數組織並沒有在數據標準等工作上花費足夠的功夫。

谷歌的一項研究發現,對數據工作的低估是具有普遍性的更多內容請查看:谷歌AI研究院:被低估的數據,被高估的模型 一文。

總之一句話,數據的能量超乎你想像,某種程度上,數據集的質量決定了AI模型的上限......

參考連結:

https://medium.com/paperswithcode/datasets-on-arxiv-1a5a8f7bd104

由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將「 AI科技評論」設為 星標帳號,以及常點文末右下角的「在看」。