【译文】17个助你开阔视野、熟练技能的免费的数据科学项目（数据集）

发表: 2017-03-16 浏览: 2442

数据科学家数据科学

作者 MANISH SARASWAT
译者钱亦欣

简介

数据科学项目可以为你的分析师生涯开辟一条康庄大道，通过它们你不仅可以提升实战经验，也可以让你的CV更加吸引人。毕竟现在已经不是只凭证书和简历就能找到好工作的年代，你必须拿出相应的实战经验，而大部分人缺少的就是这一点。

或许你已经做过了一些项目，解决过一些问题，可如果你不能把它们变得简洁而富有解释力，又有谁会信任你的能力。这就是这些项目能给你提供的加分项，我保证，在这些项目上花的时间越多，你会越有竞争力。

下方列出的数据集是我精心挑选过的，我确保能提供给你不同领域不同量级的数据来满足你们的需求。我建议每个人都要学会聪明地处理大数据集，所以下方有些数据量非常多，当然我也保证所有的数据都是免费开源的。

帮助信息

为了让你确定自己的起点，我把数据集划分为三个等级：

初级：该级别的数据较好处理，不需要太过复杂的数据科学技术。只需要基本的回归或者分类算法就能处理，这些方法在网上也有足够多的免费教程。本文也将提供一些教程来帮助你起步。

中级：这个级别有一定挑战性，数据集的量相对较大，而且需要一些模式识别方面的技能。同样，特征工程也是必要技能之一。处理这些数据你可以使用所有现有的机器学习技术。

高级：这个级别适合那些对于神经网络，深度学习和推荐系统等已有了解的人们。集合中的特征往往是高维数据，处理它们可能需要一些富有创造性的方法和技巧。

这是模式识别领域的另一个经典数据集。包含了适合进行回归分析的波士顿不动产行业数据。这个集合有506行，14列，由于数据量小，你在用笔记本进行建模的时候无需考虑内存方面的问题。（译者注：这大概是作者的冷幽默，科科）

问题: 预测自住房的中间价格

数据教程

中级

1. Human Activity Recognition

这个集合中的数据由带有嵌入式感应器的智能手机收集得到，很多机器学习课程拿它给学生练手。它有10299行，561列，适合训练多分类模型。

问题：预测人类活动的类别

数据

2. Black Friday Data Set

这是一家零售企业的交易数据，可以锻炼你在特征工程方面的技能，同时分析他也需要你对消费行为的理解。它有550069行，12列，适用于做回归分析。

问题：预测购买总量

数据

3. Text Mining Data Set

这个数据集来自2007年的siam竞赛，它包括了航班事故的相关安全报告。处理它你将面临高维数据的多分类问题，数据集共有21519条观测和30438列。

问题: 根据标签将文档分类

数据相关信息

4. Trip History Data Set

这个数据集来源于美国的共享单车项目，需要你有比较专业的数据再加工能力。它记录的是从2010年第四季度开始的季度数据，每个文件有7列，可用于训练分类模型。

问题：预测使用者的类别

数据

5. Million Song Data Set

你难道不知道数据分析也能应用于娱乐行业吗？现在就自己动手试试吧。这个数据集可用来做回归分析，有515345个观测，90个变量。然而，它其实只是原始数据的一个小子集，你应当使用下方超链接提供的数据。

问题：预测歌曲的发行年份

数据

6. Census Income Data Set

这个一个经典的不平衡数据分类问题。如你所知，机器学习技术时常用于解决在癌症检测等问题产生的不平衡数据集。现在该你动手了，这个数据集有48842行14列。你可以参考我的不平衡数据分类指南做参考。（点击这里）

问题：预测美国人民的收入类别

数据

7. Movie Lens Data Set

这个数据集让你可以建立自己的推荐系统，它是数据界备受推崇的集合之一，有多重形式可供选择。这里我选择了一个数据量相对较小的版本，包括了6000用户对4000部电影的1百万条评分记录。

问题：给用户推荐新电影

数据

高级

1. Identify your Digits Data Set

这个数据集对你学习图像处理很有帮助，它可以使你了解相机如何进行人脸识别。现在轮到你来建立并测试这套系统了。这是一个数字识别问题，有28X28的7000个图像，共31MB。

问题：识别图像中的数字

数据

2. Yelp Data Set

这个数据集是Yelp数据挑战赛第8轮的问题之一。它包含了将近200000个图像，存储在大小接近2GB的3个json文件中。这些图像包括4个国家10个城市的本土商业信息，你将要使用季节分析、文化分析、文本挖掘、社会图挖掘等技术来处理这个数据集。

问题：从图中挖掘信息

数据

3. Image Net Data Set

这个数据集可以用来做对象识别，定位，分类和屏幕解析等问题。所有图像都可以免费得到。你可以搜索任一种类的图像来做项目。目前，这个图像引擎有14197122个不同尺寸的图像，总计140GB。

问题：取决于你下载的图像类型

数据

4. KDD 1999 Data Set

我怎么能忘记KDD杯呢！它提升了整个数据挖掘竞赛的档次。你不想知道这个比赛所用的数据集吗？我保证处理它们会大有裨益，这个数据可以训练分类模型，有4百万行，48列，存储在一个1.2G的文件里。

问题：判断一个网络入侵检测器的好坏

数据

5. Chicago Crime Data Set

这年头数据科学家都得具备处理大数据集的能力，各种企业也倾向于处理全样数据而不是随机样本了。这个数据集能让你在自己的设备上提升相应的能力。处理问题并不复杂，如何做好数据管理才是关键。这个数据集有6百万个观测，是个多分类问题。

问题：预测犯罪类型

数据 | 下载数据请点击Export -> CSV

结语

你应当从上述17个数据集中挑选最适合你的那几个，如果你是个机器学习的新手，就不要拿高级的数据集练手，毕竟贪多嚼不烂，还是一步步踏踏实实地来。

一旦你完成了2-3个项目，请立即修改你的CV并把相应文件上传到你的github（重中之重），现在很多招聘者通过github来挑选员工。请不要致力于完成所有的项目，你应当根据自己的需求挑选所属领域、数据量大小都最适合你的那些数据集。如果你希望我解决上述的某些问题，并且提供完整的项目文档（例子），请联系我。

如果你已经在这些数据集的基础上完成了一些项目，请在下方留言分享你的经验和建议。

注:原文刊载于Analytics Vidhya网站

链接:17 Ultimate Data Science Projects To Boost Your Knowledge and Skills (& can be accessed freely)

0 个评论

要回复文章请先登录或注册

【译文】17个助你开阔视野、熟练技能的免费的数据科学项目（数据集）

简介

帮助信息

目录

0 个评论