Gbdt防止过拟合的几种方法

浏览: 6781

Gbdt防止过拟合的几种方法

1 、控制tree的棵树,即迭代次数M。An optimal value of M is often selected by monitoring prediction error on a separate validation data set.

2、控制shrink,Empirically it has been found that using small learning rates (such as ) yields dramatic improvements in model’s generalization ability over gradient boosting without shrinking ().

3、随机采样迭代。类bagging方法。经验来说随机采样率f在0.5<=f<=0.8比较合适。即可以帮助避免过拟合又可以提高训练速度。

4、控制叶子节点中的最少样本个数。

5、惩罚树的复杂性(复杂性定义为叶子数占树所有节点的比例),用一个后验剪枝算法来对loss和树的复杂度进行联合优化,该方法为去掉那些降低loss幅度小于指定阈值的分支。

6.加入正则,譬如特征的正向正则或者负向正则(譬如,在分裂的时候,除了满足最小平方差之外,要保证左子树的lable平均值小于右子树的lable平均值,反之为负向正则)

推荐 0
本文由 面包君 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册