作者:Pabloc
来源:R-bloggers
参与:Cynthia
翻译:本文为天善智能编译,未经容许,禁止转载
关于机器学习
我们都知道机器学习是关于数据处理,但它也可以 被看作是:
通过浏览其内部信息来查找数据中的顺序的艺术。
预测模型的背景知识
有几种不同类型的预测模型。这些模型通常几个输入栏和一个目标或输出栏——也就是需要预测的变量。
所以基本上来说,一个模型在输入和输出之间执行映射,找出联系;有时是输入变量之间的关联以预测其他变量。
你可能已经发现,这和人类理解环境>处理信息>并作出特定反应的行为有些类似。
本文的目的
本文将介绍最为常用的预测模型之一:Random Forest
(官方算法网站:https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm)
因为它在许多不同类型的数据上的简单的调优和鲁棒性,在R语言中实现的它是最常用的模型之一。
如果你是预测模型的初学者,Random Forest是一个很好的出发点
Random Forest 的基本原理是建立成百上千的简单模型(也称作decision tree)以得到一个偏差值更小的模型。
如何做到?
这些决策树模型的每一个“微小”分支都将只关注整个数据的一部分,以产生它们的微小预测。所以整个random forest模型的结果是由所有的决策树“投票决定”的,就像选举一样。
决策树又是什么?
你已经很熟悉决策树的输出结果了:它们产出 IF-THEN规则,如:如果用户访问超过五次,那么他/她将很可能使用app。
如果一个random forest有三个决策树(但通常会有超过五百个),当一个新客户来访时,如果有两个树预测他会购买某产品,总的预测结果就是“yes”
拥有大量的决策树使得其平均结果更趋向准确。
不过在这个模型中,你无法轻易地知道模型是如何为每个输入实例分配高或低概率的。它更像是一个黑盒,类似于用神经网络进行深度学习时,每个神经元都对整体做出贡献。
原文地址
https://www.r-bloggers.com/introduction-to-machine-learning-for-non-developers/