L1正则化及推导

浏览: 2053

想必大家对L1正则化已经是再熟悉不过了,而且大家也都知道L1正则化是可以得到稀疏解的,即具有特征选择的功能。本文就从几何和数学两个角度来复习以下L1正则化。

1、L1正则化

大部分的正则化方法是在经验损失的基础上增加一个结构化损失,用来限制模型的学习能力,提升模型的泛化能力。L1正则化方法即在经验损失的基础上增加参数的一范数作为结构损失。数学表达如下:

我们都知道在模型损失中加入L1正则化可以获得参数的稀疏解,接下来,我们从几何和数学两个角度进行以下解释,不过重点还是在数学推导上。

2、几何解释

几乎所有解释L1正则化的文章中都会出现这张图,图中等值线是L的等值线,黑色方形是正则项的图形L1。在图中,当L等值线与
图形L1首次相交的地方就是最优解。上图中L与L1在L1的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L1正则项的图形L1是棱形,有很多突出的角(二维情况下四个,多维情况下更多),L等值线与这些角接触的机率会远大于与L1其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

前方高能,非战斗人员请迅速撤离!!!

3、数学推导

以下的部分从word中粘贴而来。

参考文献:

1、https://blog.csdn.net/jinping_shi/article/details/52433975
2、https://www.cnblogs.com/heguanyou/archive/2017/09/23/7582578.html

推荐 0
本文由 石晓文 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册