L1正则化及推导

发表: 2018-06-02 浏览: 2053

数据挖掘

想必大家对L1正则化已经是再熟悉不过了，而且大家也都知道L1正则化是可以得到稀疏解的，即具有特征选择的功能。本文就从几何和数学两个角度来复习以下L1正则化。

1、L1正则化

大部分的正则化方法是在经验损失的基础上增加一个结构化损失，用来限制模型的学习能力，提升模型的泛化能力。L1正则化方法即在经验损失的基础上增加参数的一范数作为结构损失。数学表达如下：

我们都知道在模型损失中加入L1正则化可以获得参数的稀疏解，接下来，我们从几何和数学两个角度进行以下解释，不过重点还是在数学推导上。

2、几何解释

几乎所有解释L1正则化的文章中都会出现这张图，图中等值线是L的等值线，黑色方形是正则项的图形L1。在图中，当L等值线与
图形L1首次相交的地方就是最优解。上图中L与L1在L1的一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为L1正则项的图形L1是棱形，有很多突出的角（二维情况下四个，多维情况下更多），L等值线与这些角接触的机率会远大于与L1其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征选择。

前方高能，非战斗人员请迅速撤离！！！

3、数学推导

以下的部分从word中粘贴而来。

参考文献：

1、https://blog.csdn.net/jinping_shi/article/details/52433975
2、https://www.cnblogs.com/heguanyou/archive/2017/09/23/7582578.html

0 个评论

要回复文章请先登录或注册