【译】非开发人员的机器学习入门介绍（Random Forest）

发表: 2018-05-22 浏览: 1814

机器学习

作者：Pabloc
来源：R-bloggers
参与：Cynthia
翻译：本文为天善智能编译，未经容许，禁止转载

关于机器学习

我们都知道机器学习是关于数据处理，但它也可以被看作是：

通过浏览其内部信息来查找数据中的顺序的艺术。

预测模型的背景知识

有几种不同类型的预测模型。这些模型通常几个输入栏和一个目标或输出栏——也就是需要预测的变量。

所以基本上来说，一个模型在输入和输出之间执行映射，找出联系；有时是输入变量之间的关联以预测其他变量。

你可能已经发现，这和人类理解环境>处理信息>并作出特定反应的行为有些类似。

本文的目的

本文将介绍最为常用的预测模型之一：Random Forest

因为它在许多不同类型的数据上的简单的调优和鲁棒性，在R语言中实现的它是最常用的模型之一。

如果你是预测模型的初学者，Random Forest是一个很好的出发点

Random Forest 的基本原理是建立成百上千的简单模型（也称作decision tree）以得到一个偏差值更小的模型。

如何做到？

这些决策树模型的每一个“微小”分支都将只关注整个数据的一部分，以产生它们的微小预测。所以整个random forest模型的结果是由所有的决策树“投票决定”的，就像选举一样。

决策树又是什么？

你已经很熟悉决策树的输出结果了：它们产出 IF-THEN规则，如：如果用户访问超过五次，那么他/她将很可能使用app。

如果一个random forest有三个决策树（但通常会有超过五百个），当一个新客户来访时，如果有两个树预测他会购买某产品，总的预测结果就是“yes”

拥有大量的决策树使得其平均结果更趋向准确。

不过在这个模型中，你无法轻易地知道模型是如何为每个输入实例分配高或低概率的。它更像是一个黑盒，类似于用神经网络进行深度学习时，每个神经元都对整体做出贡献。

原文地址

0 个评论

要回复文章请先登录或注册