比较全面的Adaboost算法总结（二）

发表: 2019-01-08 浏览: 1771

人工智能机器学习

作者简介

张磊：从事AI医疗算法相关工作
个人微信公众号：机器学习算法那些事（微信ID：zl13751026985）

1. Boosting算法基本原理

2. Boosting算法的权重理解

3. AdaBoost的算法流程

4. AdaBoost算法的训练误差分析

5. AdaBoost算法的解释

6. AdaBoost算法的过拟合问题讨论

7. AdaBoost算法的正则化

8. 总结

本文详细总结了AdaBoost算法的相关理论，第一篇文章相当于是入门AdaBoost算法，本文是第二篇文章，相当于深入理解AdaBoost算法，该文详细推导了AdaBoost算法的参数求解过程以及讨论了模型的过拟合问题。

AdaBoost算法的解释

AdaBoost算法是一种迭代算法，样本权重和学习器权重根据一定的公式进行更新，第一篇文章给出了更新公式，但是并没有解释原因，本节用前向分布算法去推导样本权重和学习器权重的更新公式。

1. 前向分布算法

考虑加法模型：

给定训练数据和损失函数L(y,f(x))的条件下，构建最优加法模型f(x)的问题等价于损失函数最小化：

我们利用前向分布算法来求解（2）式的最优参数，前向分布算法的核心是从前向后，每一步计算一个基函数及其系数，逐步逼近优化目标函数式（2），那么就可以简化优化的复杂度。

算法思路如下：

M-1个基函数的加法模型：

M个基函数的加法模型：

由（3）（4）得：

因此，极小化M个基函数的损失函数等价于：

前向分布算法的思想是从前向后计算，当我们已知的值时，可通过（6）式递归来计算第 i 个基函数及其系数，i = 1,2,...M。

结论：通过前向分布算法来求解加法模型的参数。

2. AdaBoost损失函数最小化

AdaBoost算法的强分类器是一系列弱分类器的线性组合：

其中f(x)为强分类器，共M个弱分类器，是对应的弱分类器权重。

由（7）式易知，f(x)是一个加法模型。

AdaBoost的损失函数L(y,f(x))为指数函数：

利用前向分布算法最小化（8）式，可得到每一轮的弱学习器和弱学习器权值。第m轮的弱学习器和权值求解过程：

首先根据（9）式来求解弱学习器，权值α看作常数：

求解弱学习器后，（9）式对α求导并使导数为0，得：

其中，α是弱学习器权值，e为分类误差率：

因为AdaBoost是加法迭代模型：

以及，得：

结论：式(14)(15)(16)与第一篇文章介绍AdaBoost算法的权重更新完全一致，即AdaBoost算法的权重更新与AdaBoost损失函数最优化是等价的，每次更新都是模型最优化的结果，（13）式的含义是每一轮弱学习器是最小化训练集权值误差率的结果。一句话，AdaBoost的参数更新和弱学习器模型构建都是模型最优化的结果。

AdaBoost算法的过拟合问题讨论

1. 何时该讨论过拟合问题

模型的泛化误差可分解为偏差、方差与噪声之和。当模型的拟合能力不够强时，泛化误差由偏差主导；当模型的拟合能力足够强时，泛化误差由方差主导。因此，当模型的训练程度足够深时，我们才考虑模型的过拟合问题。

2. 问题的提出

如下图为同一份训练数据的不同模型分类情况：