第一次参加这张比赛,所以打算记录下比赛的过程(比赛本身也很简单的),故而大神可以忽略
顺便也给那些想参加比赛但是不知道套路的朋友提供个方法参考下
比赛题目是,《员工离职预测训练赛》
数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。数据分为训练数据和测试数据
数据以及下载搞到手后,我们现在来看看数据长的是什么样子。
数据是提供的是CSV格式的
拿到数据后,我们开始干活了。首先通过pandas这个库吧数据导入进来浏览下数据
查询前2行数据发现数据中存在字字符串信息
算法都接受的都是数值行的,所以我们需要进行数据处理的
处理完成后顺便查询下数据
接下来就是神器出场(sklearn)
看见这个准确率我自己觉得还可以的,然后高高兴兴的去提交答案,然后拿到的排名真的是不敢看的
好嘛,既然觉得这个模型还OK,那我们就用人家提供的测试集来测试下嘛。
同样导入数据
以上进行数据处理
最后来个预测嘛
把预测结果保存为CSV格式
然后打开RW.csv 格式修改表头,然后按照要求提交结果马上就能知道,自己的排名了