【译】非开发人员的机器学习入门介绍(Random Forest)

浏览: 1814

作者:Pabloc

来源:R-bloggers

参与:Cynthia

翻译:本文为天善智能编译,未经容许,禁止转载

关于机器学习

我们都知道机器学习是关于数据处理,但它也可以 被看作是:

通过浏览其内部信息来查找数据中的顺序的艺术。


预测模型的背景知识

有几种不同类型的预测模型。这些模型通常几个输入栏和一个目标或输出栏——也就是需要预测的变量。

所以基本上来说,一个模型在输入和输出之间执行映射,找出联系;有时是输入变量之间的关联以预测其他变量。

你可能已经发现,这和人类理解环境>处理信息>并作出特定反应的行为有些类似。


本文的目的

本文将介绍最为常用的预测模型之一:Random Forest

(官方算法网站:https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

因为它在许多不同类型的数据上的简单的调优和鲁棒性,在R语言中实现的它是最常用的模型之一。

如果你是预测模型的初学者,Random Forest是一个很好的出发点


Random Forest 的基本原理是建立成百上千的简单模型(也称作decision tree)以得到一个偏差值更小的模型。

如何做到?

这些决策树模型的每一个“微小”分支都将只关注整个数据的一部分,以产生它们的微小预测。所以整个random forest模型的结果是由所有的决策树“投票决定”的,就像选举一样。


决策树又是什么?

你已经很熟悉决策树的输出结果了:它们产出 IF-THEN规则,如:如果用户访问超过五次,那么他/她将很可能使用app。

如果一个random forest有三个决策树(但通常会有超过五百个),当一个新客户来访时,如果有两个树预测他会购买某产品,总的预测结果就是“yes”

拥有大量的决策树使得其平均结果更趋向准确。

不过在这个模型中,你无法轻易地知道模型是如何为每个输入实例分配高或低概率的。它更像是一个黑盒,类似于用神经网络进行深度学习时,每个神经元都对整体做出贡献。


原文地址

https://www.r-bloggers.com/introduction-to-machine-learning-for-non-developers/

推荐 1
本文由 sw_Yang 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册