参加DataCastel(数据科学学社区)比赛好激动

浏览: 1388

第一次参加这张比赛,所以打算记录下比赛的过程(比赛本身也很简单的),故而大神可以忽略

顺便也给那些想参加比赛但是不知道套路的朋友提供个方法参考下

比赛题目是,《员工离职预测训练赛

   数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。数据分为训练数据和测试数据

数据以及下载搞到手后,我们现在来看看数据长的是什么样子。

image.png

数据是提供的是CSV格式的

拿到数据后,我们开始干活了。首先通过pandas这个库吧数据导入进来浏览下数据

image.png

 查询前2行数据发现数据中存在字字符串信息

image.png

算法都接受的都是数值行的,所以我们需要进行数据处理的 

image.png

 处理完成后顺便查询下数据

image.png

image.png

接下来就是神器出场(sklearn)

image.png

看见这个准确率我自己觉得还可以的,然后高高兴兴的去提交答案,然后拿到的排名真的是不敢看的

好嘛,既然觉得这个模型还OK,那我们就用人家提供的测试集来测试下嘛。

同样导入数据 

image.png

  以上进行数据处理

最后来个预测嘛

image.png

把预测结果保存为CSV格式

image.png

然后打开RW.csv 格式修改表头,然后按照要求提交结果马上就能知道,自己的排名了

推荐 2
本文由 Infor 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

不错不错

要回复文章请先登录注册