【译文】17个助你开阔视野、熟练技能的免费的数据科学项目(数据集)

浏览: 2442

作者 MANISH SARASWAT

译者 钱亦欣

简介

数据科学项目可以为你的分析师生涯开辟一条康庄大道,通过它们你不仅可以提升实战经验,也可以让你的CV更加吸引人。毕竟现在已经不是只凭证书和简历就能找到好工作的年代,你必须拿出相应的实战经验,而大部分人缺少的就是这一点。

或许你已经做过了一些项目,解决过一些问题,可如果你不能把它们变得简洁而富有解释力,又有谁会信任你的能力。这就是这些项目能给你提供的加分项,我保证,在这些项目上花的时间越多,你会越有竞争力。

下方列出的数据集是我精心挑选过的,我确保能提供给你不同领域不同量级的数据来满足你们的需求。我建议每个人都要学会聪明地处理大数据集,所以下方有些数据量非常多,当然我也保证所有的数据都是免费开源的。

帮助信息

为了让你确定自己的起点,我把数据集划分为三个等级:

  • 初级:该级别的数据较好处理,不需要太过复杂的数据科学技术。只需要基本的回归或者分类算法就能处理,这些方法在网上也有足够多的免费教程。本文也将提供一些教程来帮助你起步。

  • 中级:这个级别有一定挑战性,数据集的量相对较大,而且需要一些模式识别方面的技能。同样,特征工程也是必要技能之一。处理这些数据你可以使用所有现有的机器学习技术。

  • 高级:这个级别适合那些对于神经网络,深度学习和推荐系统等已有了解的人们。集合中的特征往往是高维数据,处理它们可能需要一些富有创造性的方法和技巧。

  • 目录

  • 初级
    。Iris Data
    。Titanic Data
    。Loan Prediction Data
    。Bigmart Sales Data
    。Boston Housing Data
  • 中级
    。Human Activity Recognition Data
    。Black Friday Data
    。Siam Competition Data
    。Trip History Data
    。Million Song Data
    。Census Income Data
    。Movie Lens Data
  • 高级
    。Identify your Digits
    。Yelp Data
    。ImageNet Data
    。KDD Cup 1998
    。Chicago Crime Data
  • 初级

    1. Iris Data

    这可能是最简单又有趣的数据集了。如果你是数据科学方面的门外汉,这个数据集是你学习分类器的最佳选择,它一共只有150行、4列。

    问题:根据提供的特征预测鸢尾花所属的类别。

    数据教程

    2. Titanic Data Set

    这个数据集在数据科学界也是家喻户晓,透过一些教程它能帮助你更深层次地理解数据科学。这个数据集包括了分类数据,数值和文本等多种数据类型,能让你实现很多创意。这个数据集是个分类问题,有891行,12列。

    问题:判断泰坦尼克上的乘客是否存活。

    数据 教程

    3. Loan Prediction Data Set

    在业界,保险业是使用数据科学方法最频繁的行业。这个数据集能让你体会保险公司每天面临的挑战和使用的策略。这是一个分类问题,有615行,13列。

    问题:预测一笔贷款是否会被批准。

    数据教程

    4. Bigmart Sales Data Set

    零售业时常依靠数据来优化它们的商业模式,诸如新场选址,研发管理、个性定制、捆绑销售等业务需要数据分析的支持。正如其名字所展示的,它是一家商店的交易记录数据集合,有8523行,12个变量来让你进行回归分析。

    问题:预测销量

    数据教程

    5. Boston Housing Data Set

    这是模式识别领域的另一个经典数据集。包含了适合进行回归分析的波士顿不动产行业数据。这个集合有506行,14列,由于数据量小,你在用笔记本进行建模的时候无需考虑内存方面的问题。(译者注:这大概是作者的冷幽默,科科)

    问题: 预测自住房的中间价格

    数据教程

    中级

    1. Human Activity Recognition

    这个集合中的数据由带有嵌入式感应器的智能手机收集得到,很多机器学习课程拿它给学生练手。它有10299行,561列,适合训练多分类模型。

    问题:预测人类活动的类别

    数据

    2. Black Friday Data Set

    这是一家零售企业的交易数据,可以锻炼你在特征工程方面的技能,同时分析他也需要你对消费行为的理解。它有550069行,12列,适用于做回归分析。

    问题:预测购买总量

    数据

    3. Text Mining Data Set

    这个数据集来自2007年的siam竞赛,它包括了航班事故的相关安全报告。处理它你将面临高维数据的多分类问题,数据集共有21519条观测和30438列。

    问题: 根据标签将文档分类

    数据相关信息

    4. Trip History Data Set

    这个数据集来源于美国的共享单车项目,需要你有比较专业的数据再加工能力。它记录的是从2010年第四季度开始的季度数据,每个文件有7列,可用于训练分类模型。

    问题:预测使用者的类别

    数据

    5. Million Song Data Set

    你难道不知道数据分析也能应用于娱乐行业吗?现在就自己动手试试吧。这个数据集可用来做回归分析,有515345个观测,90个变量。然而,它其实只是原始数据的一个小子集,你应当使用下方超链接提供的数据。

    问题:预测歌曲的发行年份

    数据

    6. Census Income Data Set

    这个一个经典的不平衡数据分类问题。如你所知,机器学习技术时常用于解决在癌症检测等问题产生的不平衡数据集。现在该你动手了,这个数据集有48842行14列。你可以参考我的不平衡数据分类指南做参考。(点击这里

    问题:预测美国人民的收入类别

    数据

    7. Movie Lens Data Set

    这个数据集让你可以建立自己的推荐系统,它是数据界备受推崇的集合之一,有多重形式可供选择。这里我选择了一个数据量相对较小的版本,包括了6000用户对4000部电影的1百万条评分记录。

    问题:给用户推荐新电影

    数据

    高级

    1. Identify your Digits Data Set

    这个数据集对你学习图像处理很有帮助,它可以使你了解相机如何进行人脸识别。现在轮到你来建立并测试这套系统了。这是一个数字识别问题,有28X28的7000个图像,共31MB。

    问题:识别图像中的数字

    数据

    2. Yelp Data Set

    这个数据集是Yelp数据挑战赛第8轮的问题之一。它包含了将近200000个图像,存储在大小接近2GB的3个json文件中。这些图像包括4个国家10个城市的本土商业信息,你将要使用季节分析、文化分析、文本挖掘、社会图挖掘等技术来处理这个数据集。

    问题:从图中挖掘信息

    数据

    3. Image Net Data Set

    这个数据集可以用来做对象识别,定位,分类和屏幕解析等问题。所有图像都可以免费得到。你可以搜索任一种类的图像来做项目。目前,这个图像引擎有14197122个不同尺寸的图像,总计140GB。

    问题:取决于你下载的图像类型

    数据

    4. KDD 1999 Data Set

    我怎么能忘记KDD杯呢!它提升了整个数据挖掘竞赛的档次。你不想知道这个比赛所用的数据集吗?我保证处理它们会大有裨益,这个数据可以训练分类模型,有4百万行,48列,存储在一个1.2G的文件里。

    问题:判断一个网络入侵检测器的好坏

    数据

    5. Chicago Crime Data Set

    这年头数据科学家都得具备处理大数据集的能力,各种企业也倾向于处理全样数据而不是随机样本了。这个数据集能让你在自己的设备上提升相应的能力。处理问题并不复杂,如何做好数据管理才是关键。这个数据集有6百万个观测,是个多分类问题。

    问题:预测犯罪类型

    数据 | 下载数据请点击Export -> CSV

    结语

    你应当从上述17个数据集中挑选最适合你的那几个,如果你是个机器学习的新手,就不要拿高级的数据集练手,毕竟贪多嚼不烂,还是一步步踏踏实实地来。

    一旦你完成了2-3个项目,请立即修改你的CV并把相应文件上传到你的github(重中之重),现在很多招聘者通过github来挑选员工。请不要致力于完成所有的项目,你应当根据自己的需求挑选所属领域、数据量大小都最适合你的那些数据集。如果你希望我解决上述的某些问题,并且提供完整的项目文档(例子),请联系我。

    如果你已经在这些数据集的基础上完成了一些项目,请在下方留言分享你的经验和建议。

    注:原文刊载于Analytics Vidhya网站

    链接:17 Ultimate Data Science Projects To Boost Your Knowledge and Skills (& can be accessed freely)

    推荐 2
    本文由 上大飞猪钱小莲 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
    转载、引用前需联系作者,并署名作者且注明文章出处。
    本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

    0 个评论

    要回复文章请先登录注册