Gbdt防止过拟合的几种方法

发表: 2015-10-31 浏览: 6781

数据挖掘

Gbdt防止过拟合的几种方法

1 、控制tree的棵树，即迭代次数M。An optimal value of M is often selected by monitoring prediction error on a separate validation data set.

2、控制shrink，Empirically it has been found that using small learning rates (such as ) yields dramatic improvements in model’s generalization ability over gradient boosting without shrinking ().

3、随机采样迭代。类bagging方法。经验来说随机采样率f在0.5<=f<=0.8比较合适。即可以帮助避免过拟合又可以提高训练速度。

4、控制叶子节点中的最少样本个数。

5、惩罚树的复杂性（复杂性定义为叶子数占树所有节点的比例），用一个后验剪枝算法来对loss和树的复杂度进行联合优化，该方法为去掉那些降低loss幅度小于指定阈值的分支。

6.加入正则，譬如特征的正向正则或者负向正则（譬如，在分裂的时候，除了满足最小平方差之外，要保证左子树的lable平均值小于右子树的lable平均值，反之为负向正则）

0 个评论

要回复文章请先登录或注册