有人说,机器学习 95% 的问题在于数据。如今开放数据越来越多,几乎在任何领域里都有开源分享的数据集。但是要找到有趣的数据集还是有些难度的,为了深入了解,我广泛搜索了诸多资料,并且把我发现的一些数据集进行的小小的整理并作分享。
想到可能有些人会需要用到,所以这里整理了 20 份出色但又古怪的数据集,你可能在机器学习过程中用得上。
数据集包括(这里只列举一部分):
智能手机记录的人类行为(行走、坐立等)
赛马数据
垃圾短信数据
Flickr 图片中隐藏的美女
心跳声记录
酒品质量
...
数据集下载(Github):
https://gist.github.com/olivercameron/482dcfe8f34d66b536b1048eefe8b40d#file-datasets-csv
(包括了数据集名称、描述、数据集大小、下载链接)
需要注意的是,我尚未完整验证过这些数据集是否确实(在数据集大小或者准确度方面)对机器学习训练有用,在玩转这些数据的时候请自行判断(并且注意检查授权许可)。
如果你要问我最喜欢的是哪一个,我想那应该是那份有着 80,000 多个 UFO 报告的数据集。
此外,还有一份包括了 200 年国际威胁冲突的洲际军事纠纷数据集,它包括了具体的措施、战斗的等级、伤亡情况和结局。
选自:Medium
作者:Oliver Cameron
翻译:张佳维