Gbdt防止过拟合的几种方法
1 、控制tree的棵树,即迭代次数M。An optimal value of M is often selected by monitoring prediction error on a separate validation data set.
2、控制shrink,Empirically it has been found that using small learning rates (such as ) yields dramatic improvements in model’s generalization ability over gradient boosting without shrinking ().
3、随机采样迭代。类bagging方法。经验来说随机采样率f在0.5<=f<=0.8比较合适。即可以帮助避免过拟合又可以提高训练速度。
4、控制叶子节点中的最少样本个数。
5、惩罚树的复杂性(复杂性定义为叶子数占树所有节点的比例),用一个后验剪枝算法来对loss和树的复杂度进行联合优化,该方法为去掉那些降低loss幅度小于指定阈值的分支。
6.加入正则,譬如特征的正向正则或者负向正则(譬如,在分裂的时候,除了满足最小平方差之外,要保证左子树的lable平均值小于右子树的lable平均值,反之为负向正则)