kaggle比赛--罗斯曼商店销售预测,xgboost回归

浏览: 9724

作者:zhaikun   风控建模屌丝一枚,现居于北京

个人微信公众号:Python数据分析与评分卡建模

本文数据获取:关注Python爱好者社区微信公众号,回复商店


一直做分类模型,很少做回归模型,今天看了kaggle大神的一个代码,然后用我自己理解的方法改进了一下,在这里分享一下思路和部分代码

Clipboard Image.png

这是1个商店连锁店老板,把相关数据放到kaggle上,并提供奖金,希望用准确的模型对未来进行统筹安排,同时这个连锁店也招收数据科学家。

好吧,这不是个体户,是商超集团,很先进的思想啊。

数据获取方式可以在kaggle上下载,具体网址:https://www.kaggle.com/c/rossmann-store-sales/data,也可以关注Python爱好者社区微信公众号,回复商店获取数据


变量字典:

Clipboard Image.png

评价标准:

Clipboard Image.png

为了方便大家理解,我还是翻译成中文

Clipboard Image.png

预览一下

Clipboard Image.png


上面加载的是商店信息,1113个id,说明连锁店是1113个,9个特征,有缺失值。因为我这在MAC下用的notebook,一直不会弄成中文。

现在加载训练集,关于销量数据

Clipboard Image.png

Clipboard Image.png

选择营业信息,选择销量>0的样本,合并

Clipboard Image.png

Clipboard Image.png

老规矩,分为连续变量和分类变量,批量显示分类变量水平:

Clipboard Image.png

商店等级是有序变量,我们特征抽象转成1、2、3.

再显示连续变量密度分布图

Clipboard Image.png

这里做个转换,偏度0.75以上的连续变量用对数转换一下

Clipboard Image.png

然后再归一化和one-hot编码

Clipboard Image.png

Clipboard Image.png

xgboost建模,最后结果是均方根误差0.059,还算不错。

这个比赛觉得有点坑人的地方是:

测试集时间跨度很少,不包括训练集衍生出的季节_1、季节_2、洲假日_B、洲假日_C,最关键的是,居然没有重要变量 客户数量,觉得这更倾向于做时间序列模型


本文数据获取:关注Python爱好者社区微信公众号,回复商店

Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复课程即可获取:

小编的Python入门视频课程!!!

崔老师爬虫实战案例免费学习视频。

丘老师数据科学入门指导免费学习视频。

陈老师数据分析报告制作免费学习视频。

玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

丘老师Python网络爬虫实战免费学习视频。

Clipboard Image.png

推荐 2
本文由 Python爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册