R语言学习笔记-机器学习1-3章

浏览: 3234

在折腾完爬虫还有一些感兴趣的内容后,我最近在看用R语言进行简单机器学习的知识,主要参考了《机器学习-实用案例解析》这本书。

这本书是目前市面少有的,纯粹以R语言为基础讲解的机器学习知识,书中涉及11个案例。分12章。作者备注以及代码部分都讲得比较深。不过或许因为出书较早,在数据处理方面,他使用更多的是plyr包,而我用下来,dplyr包效果更好。所以许多涉及数据处理的代码,其实可以用更简洁的方法重写。但是思路却是实打实的精华。

我之前在某长途动车上啃完了前三章,两个案例。但越往后读,越觉得后面案例处理方法越复杂,更加晦涩了,需要更多时间消化,因此暂停下来,先把前两个案例给理理顺,消化一下结构点。

书中案例数据及代码均可在官方github中下载到,地址为https://github.com/johnmyleswhite/ML_for_Hackers

案例1:美国UFO观察

该案例用的是一个含有60,000多条不明飞行物的目击记录和报告的数据集。需要回答UFO出现是否有周期性规律,以及地域规律两个问题。主要涉及数据清洗环节。

在研读后,我绘制的流程图如下图:

 

案例2:二分法判别垃圾邮件

该案例用的是来自于SpamAssasin的邮件,它分为垃圾邮件spam,易识别的正常邮件easy ham,不易识别的正常邮件hard ham三个类型。案例目的是做一个分类器,能够通过词频特征(如html等)快速识别邮件的类型。

使用的是朴素贝叶斯分类法。

绘制的流程图及注意事项见下:

 

 

流程图用visio 2013绘制。很喜欢它的手绘风流程图,之前想尝试一下其他流程图软件,比较下来,还是visio最好用啊……

接下来的本月目标

1)金融时间序列

2)机器学习4-7章

推荐 1
本文由 尾巴AR 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册