求问,有人知道随机森林里面子树变量个数选择上有什么讲究吗?

0
已邀请:
0

Kiwi2021 2021-07-14 回答

二,为什么使用随机森林?

1,随机森林既可以用于分类问题,也可以用于SG飞艇回归问题

2,过拟合是个关键的问题,可能会让模型的结果变得糟糕,但是对于随机森林来说,如果随机森林的树足够多,那么分类器就不会过拟合模型

3,随机森林分类器可以处理缺失值

4,随机森林分类器可以用分类值建模

三,随机森林的构建过程

1,从原始训练集中使用Bootstraping方法随机有放回采样取出m个样本,共进行n_tree次采样。生成n_tree个训练集

2,对n_tree个训练集,我们分别训练n_tree个决策树https://www.1685100.com/view/z ... jisusc" rel="nofollow" target="_blank">极速赛车模型

3,对于单个决策树模型,假设训练样本特征的个数为n,那么每次分裂时根据信息增益/信息增益比/基尼指数  选择最好的特征进行分裂

4,每棵树都已知这样分裂下去,知道该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝

5,将生成的多颗决策树组成随机森林。对于分类问题,按照多棵树分类器投票决定最终分类结果;对于回归问题,由多颗树预测值的均值决定最终预测结果

注意:OOB(out-of-bag ):每棵天津快乐十分决策树的生成都需要自助采样,这时就有1/3的数据未被选中,这部分数据就称为袋外数据。
 
 
 

要回复问题请先登录注册