作者:daicoolb
編譯:ronghuaiyang
導讀
今天給大家介紹一個github倉庫,收集了非常多的推薦系統的數據集,非常的全面,非常的實用,做推薦系統相關的同學可以收藏一下。
這些數據集在可作為基準的推薦系統中非常流行。
- Douban:http://socialcomputing.asu.edu/datasets/Douban 這是一個匿名的豆瓣數據集,包含129,490個獨立用戶和58,541個獨立電影條目。
- Epinions:http://www.trustlet.org/epinions.html Epinions是一個人們可以評論產品的網站。
- Flixster:http://socialcomputing.asu.edu/datasets/Flixster Flixster是一個社交電影網站,允許用戶分享電影評級,發現新電影,並與其他有類似電影品味的人見面。
- CiaoDVD:https://www.librec.net/datasets.html CiaoDVD是從dvd.ciao.co.中抓取的2013年12月英國網站整個dvd類別的數據集。
- MACLab:http://mac.citi.sinica.edu.tw/LJ#.VRGYfOHlZ40 這個項目的目的是研究用戶的情緒和音樂情緒。
- DEAPdataset:http://www.eecs.qmul.ac.uk/mmv/datasets/deap/index.html 使用腦電圖、生理和視頻信號進行情緒分析的數據集。
- MyPersonalityDataset:http://mypersonality.org/wiki/doku.php myPersonality是一個很受歡迎的Facebook應用程式,它允許用戶進行真實的心理測試,並允許我們(在徵得同意的情況下)記錄他們的心理和Facebook資料。目前,我們的資料庫包含超過600萬個測試結果,以及超過400萬個Facebook個人簡介。
- Bibsonomy:http://www.kde.cs.uni-kassel.de/bibsonomy/dumps 社交書籤系統中的標籤推薦。
- Delicious:http://www.dai-labor.de/en/competence_centers/irml/datasets/ plista新聞推薦數據集,美味可口。
- Movielens:https://grouplens.org/datasets/movielens/ 穩定的基準數據集。2000萬個評分和46.5萬個標籤應用程式被13.8萬用戶應用於2.7萬部電影。包括標籤基因組數據,1100個標籤的1200萬個相關性得分。
- Jester:http://eigentaste.berkeley.edu/dataset/ 來自小丑在線笑話推薦系統的匿名評級。
- BookCrossing:http://www2.informatik.uni-freiburg.de/~cziegler/BX/ Book-Crossing數據集。
- LastFM:https://grouplens.org/datasets/hetrec-2011/ 來自1892個用戶的92,800張藝術家錄音。
- Wikipedia:https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia 維基百科向感興趣的用戶提供所有可用內容的免費拷貝。這些資料庫可用於鏡像、個人使用、非正式備份、脫機使用或資料庫查詢。
- OpenStreetMap:http://planet.openstreetmap.org/planet/full-history/ 這裡找到的文件是OpenStreetMap.org資料庫的完整副本,包括編輯歷史。這些都是在Open Data Commons Open Database License 1.0許可下發布的。
- PythonGitCode:https://github.com/lab41/hermes Hermes是Lab41對推薦系統的一次嘗試。通過分析多種推薦系統算法在不同數據集上的性能,探討了如何為新的應用選擇推薦系統。
- Gist:https://gist.github.com/entaroadun/1653794 為機器學習推薦和評級的公共數據集。
- Yelp:https://www.yelp.com/dataset Yelp數據集是用於個人、教育和學術目的的業務、評論和用戶數據的子集。可以在JSON和SQL文件中使用,在你學習如何製作移動應用程式時,可以使用它來教學生關於資料庫、學習NLP或示例生產數據。
- AmazonReviews:http://jmcauley.ucsd.edu/data/amazon/ 該數據集包含來自Amazon的產品評論和元數據,包括1996年5月至2014年7月期間的1.428億個評論。這個數據集包括評論(評級、文本、幫助投票)、產品元數據(描述、類別信息、價格、品牌和圖像特性)和連結(也查看/購買圖表)。
- CiteULike:http://www.citeulike.org/faq/data.adp CiteULike資料庫對不同領域的研究人員都有潛在的用處。物理學家和計算機科學家對分析數據結構表示了興趣,並經常要求提供數據集。以前,這是在一個特別的基礎上完成的,它依賴於我們記住更新數據文件。現在,有一個自動的過程,每天晚上運行,生成一個快照摘要,說明用哪些標籤發布了哪些文章。
- Taobao:https://tianchi.aliyun.com/datalab/dataSet.htm?spm=5176.100073.888.13.62f83f62aOlMEI&id=1 該數據集包含了匿名用戶在「雙十一」前後6個月的購物記錄,以及表明他們是否重複購買的標籤信息。由於隱私問題,數據採集存在偏差,因此該數據集的統計結果會與天貓的實際情況相背離。
下面是上述數據集的一些統計數據.
英文原文:https://github.com/daicoolb/RecommenderSystem-DataSet
請長按或掃描二維碼關注本公眾號