20 份古怪的机器学习数据集

浏览: 1403

Clipboard Image.png

有人说,机器学习 95% 的问题在于数据。如今开放数据越来越多,几乎在任何领域里都有开源分享的数据集。但是要找到有趣的数据集还是有些难度的,为了深入了解,我广泛搜索了诸多资料,并且把我发现的一些数据集进行的小小的整理并作分享。

想到可能有些人会需要用到,所以这里整理了 20 份出色但又古怪的数据集,你可能在机器学习过程中用得上。


Clipboard Image.png

数据集包括(这里只列举一部分):

  • 智能手机记录的人类行为(行走、坐立等)

  • 赛马数据

  • 垃圾短信数据

  • Flickr 图片中隐藏的美女

  • 心跳声记录

  • 酒品质量

  • ...

数据集下载(Github):

https://gist.github.com/olivercameron/482dcfe8f34d66b536b1048eefe8b40d#file-datasets-csv

(包括了数据集名称、描述、数据集大小、下载链接)

需要注意的是,我尚未完整验证过这些数据集是否确实(在数据集大小或者准确度方面)对机器学习训练有用,在玩转这些数据的时候请自行判断(并且注意检查授权许可)。

如果你要问我最喜欢的是哪一个,我想那应该是那份有着 80,000 多个 UFO 报告的数据集


Clipboard Image.png

此外,还有一份包括了 200 年国际威胁冲突的洲际军事纠纷数据集,它包括了具体的措施、战斗的等级、伤亡情况和结局。

选自:Medium

作者:Oliver Cameron

翻译:张佳维


Clipboard Image.png

推荐 2
本文由 每日一篇机器学习 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

谢谢分享

要回复文章请先登录注册