作者 MANISH SARASWAT
译者 钱亦欣
简介
数据科学项目可以为你的分析师生涯开辟一条康庄大道,通过它们你不仅可以提升实战经验,也可以让你的CV更加吸引人。毕竟现在已经不是只凭证书和简历就能找到好工作的年代,你必须拿出相应的实战经验,而大部分人缺少的就是这一点。
或许你已经做过了一些项目,解决过一些问题,可如果你不能把它们变得简洁而富有解释力,又有谁会信任你的能力。这就是这些项目能给你提供的加分项,我保证,在这些项目上花的时间越多,你会越有竞争力。
下方列出的数据集是我精心挑选过的,我确保能提供给你不同领域不同量级的数据来满足你们的需求。我建议每个人都要学会聪明地处理大数据集,所以下方有些数据量非常多,当然我也保证所有的数据都是免费开源的。
帮助信息
为了让你确定自己的起点,我把数据集划分为三个等级:
初级:该级别的数据较好处理,不需要太过复杂的数据科学技术。只需要基本的回归或者分类算法就能处理,这些方法在网上也有足够多的免费教程。本文也将提供一些教程来帮助你起步。
中级:这个级别有一定挑战性,数据集的量相对较大,而且需要一些模式识别方面的技能。同样,特征工程也是必要技能之一。处理这些数据你可以使用所有现有的机器学习技术。
高级:这个级别适合那些对于神经网络,深度学习和推荐系统等已有了解的人们。集合中的特征往往是高维数据,处理它们可能需要一些富有创造性的方法和技巧。
目录
初级
。Iris Data
。Titanic Data
。Loan Prediction Data
。Bigmart Sales Data
。Boston Housing Data中级
。Human Activity Recognition Data
。Black Friday Data
。Siam Competition Data
。Trip History Data
。Million Song Data
。Census Income Data
。Movie Lens Data高级
。Identify your Digits
。Yelp Data
。ImageNet Data
。KDD Cup 1998
。Chicago Crime Data初级
1. Iris Data
这可能是最简单又有趣的数据集了。如果你是数据科学方面的门外汉,这个数据集是你学习分类器的最佳选择,它一共只有150行、4列。
问题:根据提供的特征预测鸢尾花所属的类别。
数据教程
2. Titanic Data Set
这个数据集在数据科学界也是家喻户晓,透过一些教程它能帮助你更深层次地理解数据科学。这个数据集包括了分类数据,数值和文本等多种数据类型,能让你实现很多创意。这个数据集是个分类问题,有891行,12列。
问题:判断泰坦尼克上的乘客是否存活。
数据 教程
3. Loan Prediction Data Set
在业界,保险业是使用数据科学方法最频繁的行业。这个数据集能让你体会保险公司每天面临的挑战和使用的策略。这是一个分类问题,有615行,13列。
问题:预测一笔贷款是否会被批准。
数据教程
4. Bigmart Sales Data Set
零售业时常依靠数据来优化它们的商业模式,诸如新场选址,研发管理、个性定制、捆绑销售等业务需要数据分析的支持。正如其名字所展示的,它是一家商店的交易记录数据集合,有8523行,12个变量来让你进行回归分析。
问题:预测销量
数据教程
5. Boston Housing Data Set
这是模式识别领域的另一个经典数据集。包含了适合进行回归分析的波士顿不动产行业数据。这个集合有506行,14列,由于数据量小,你在用笔记本进行建模的时候无需考虑内存方面的问题。(译者注:这大概是作者的冷幽默,科科)
问题: 预测自住房的中间价格
数据教程
中级
1. Human Activity Recognition
这个集合中的数据由带有嵌入式感应器的智能手机收集得到,很多机器学习课程拿它给学生练手。它有10299行,561列,适合训练多分类模型。
问题:预测人类活动的类别
数据
2. Black Friday Data Set
这是一家零售企业的交易数据,可以锻炼你在特征工程方面的技能,同时分析他也需要你对消费行为的理解。它有550069行,12列,适用于做回归分析。
问题:预测购买总量
数据
3. Text Mining Data Set
这个数据集来自2007年的siam竞赛,它包括了航班事故的相关安全报告。处理它你将面临高维数据的多分类问题,数据集共有21519条观测和30438列。
问题: 根据标签将文档分类
数据相关信息
4. Trip History Data Set
这个数据集来源于美国的共享单车项目,需要你有比较专业的数据再加工能力。它记录的是从2010年第四季度开始的季度数据,每个文件有7列,可用于训练分类模型。
问题:预测使用者的类别
数据
5. Million Song Data Set
你难道不知道数据分析也能应用于娱乐行业吗?现在就自己动手试试吧。这个数据集可用来做回归分析,有515345个观测,90个变量。然而,它其实只是原始数据的一个小子集,你应当使用下方超链接提供的数据。
问题:预测歌曲的发行年份
数据
6. Census Income Data Set
这个一个经典的不平衡数据分类问题。如你所知,机器学习技术时常用于解决在癌症检测等问题产生的不平衡数据集。现在该你动手了,这个数据集有48842行14列。你可以参考我的不平衡数据分类指南做参考。(点击这里)
问题:预测美国人民的收入类别
数据
7. Movie Lens Data Set
这个数据集让你可以建立自己的推荐系统,它是数据界备受推崇的集合之一,有多重形式可供选择。这里我选择了一个数据量相对较小的版本,包括了6000用户对4000部电影的1百万条评分记录。
问题:给用户推荐新电影
数据
高级
1. Identify your Digits Data Set
这个数据集对你学习图像处理很有帮助,它可以使你了解相机如何进行人脸识别。现在轮到你来建立并测试这套系统了。这是一个数字识别问题,有28X28的7000个图像,共31MB。
问题:识别图像中的数字
数据
2. Yelp Data Set
这个数据集是Yelp数据挑战赛第8轮的问题之一。它包含了将近200000个图像,存储在大小接近2GB的3个json文件中。这些图像包括4个国家10个城市的本土商业信息,你将要使用季节分析、文化分析、文本挖掘、社会图挖掘等技术来处理这个数据集。
问题:从图中挖掘信息
数据
3. Image Net Data Set
这个数据集可以用来做对象识别,定位,分类和屏幕解析等问题。所有图像都可以免费得到。你可以搜索任一种类的图像来做项目。目前,这个图像引擎有14197122个不同尺寸的图像,总计140GB。
问题:取决于你下载的图像类型
数据
4. KDD 1999 Data Set
我怎么能忘记KDD杯呢!它提升了整个数据挖掘竞赛的档次。你不想知道这个比赛所用的数据集吗?我保证处理它们会大有裨益,这个数据可以训练分类模型,有4百万行,48列,存储在一个1.2G的文件里。
问题:判断一个网络入侵检测器的好坏
数据
5. Chicago Crime Data Set
这年头数据科学家都得具备处理大数据集的能力,各种企业也倾向于处理全样数据而不是随机样本了。这个数据集能让你在自己的设备上提升相应的能力。处理问题并不复杂,如何做好数据管理才是关键。这个数据集有6百万个观测,是个多分类问题。
问题:预测犯罪类型
数据 | 下载数据请点击Export -> CSV
结语
你应当从上述17个数据集中挑选最适合你的那几个,如果你是个机器学习的新手,就不要拿高级的数据集练手,毕竟贪多嚼不烂,还是一步步踏踏实实地来。
一旦你完成了2-3个项目,请立即修改你的CV并把相应文件上传到你的github(重中之重),现在很多招聘者通过github来挑选员工。请不要致力于完成所有的项目,你应当根据自己的需求挑选所属领域、数据量大小都最适合你的那些数据集。如果你希望我解决上述的某些问题,并且提供完整的项目文档(例子),请联系我。
如果你已经在这些数据集的基础上完成了一些项目,请在下方留言分享你的经验和建议。
注:原文刊载于Analytics Vidhya网站
链接:17 Ultimate Data Science Projects To Boost Your Knowledge and Skills (& can be accessed freely)