3
推荐
12015
阅读

[scikit-learn] 特征二值化编码函数的一些坑

目录1. 前言2. 问题起源2.1. 对付数值型类别变量2.2. 对付字符串型类别变量2.3. 无用的尝试3. 另一种解决方案4. 参考资料1. 前言这几天埋头撰写『优雅高效地数据挖掘——基于Python的sklearn_pandas库』 一文,其中有一部分涉及如何批量并行地进行特征二值化,在此过程中发现了 scikit-learn (以下简称 sklearn)中,二值化...

发表了文章 • 2016-09-02 11:10 • 0 条评论

4
推荐
3571
阅读

【强推】数据挖掘比赛通用框架

【原创,转载请注明来自公众号『数据挖掘机养成记』并注明作者『穆文』】1. 前言Kaggle上有篇名为「Approaching (Almost) Any Machine Learning Problem」的博客(点击底部阅读原文),作者是Kaggle比赛的专业户,博客是他参加Kaggle比赛的经验总结。在进入正题前随便扯几句:本文并非原博客的翻译版,而是90%的原创,是...

发表了文章 • 2016-09-01 20:24 • 1 条评论