聊聊group lasso

浏览: 7223



这次聊聊线性模型中的group lasso (lasso即为将模型中权重系数的一阶范数惩罚项加到目标函数中)惩罚项。

假设Y是由N个样本的观测值构成的向量,X是一个大小为N * p的特征矩阵。在group lasso中,将p个特征分成L组,每个组中特征个数为Pi,其中i的取值为1,2,..., L。将第i个特征组对应的矩阵记为Xi,对应的系数向量记为βi。

容易看出,group lasso是对lasso的一种推广,即将特征分组后的lasso。显然(好久没用这个词了),如果每个组的特征个数都是1,则group lasso就回归到原始的lasso。

group lasso 在特征组内不具有稀疏性。为了使得特征组内的特征具有稀疏性,只需参照原始的lasso中的做法,在目标函数中加入一个惩罚项,这个惩罚项基于对所有特征对应系数的一阶范数。

为了求解group lasso, 可以首先假设组内特征是正交的,针对这种情形可以利用分块坐标下降法求解,对于非正交的情形,可以首先对组内特征施加正交化。

示例:

假设有200个观测样本,特征维数为100, 特征来自10组。观测值服从标准高斯分布,组内特征的相关系数是0.2, 组间特征的相关系数为0,每个观测值都加入了标准差为4的高斯噪声。

图2给出了lasso, group lasso以及sparse group lasso中所得估计系数的符号,每种方法都利用了已经调节好的参数(其中sparse group lasso 中的λ1 = λ2)。

图3给出了组内和每个特征的分类错误率,可以看出,sparse group lasso 很好地折衷了lasso和group lasso, 这种方法能够使得组内特征集和整体特征集合都具有稀疏性。

将原始的lasso融入到group lasso就可以得到sparse group lasso,为了数学上更清晰的区别group lasso和sparse group lasso,下面的公式 1 2分别是相应的目标函数。



sparse group lasso 算法步骤如下:


其中 (8)如下图:





图2



图3

总结一下(发表下愚见),group lasso 归根到底即为对特征分组,这种特性比较适合用于多模态,比如图像+语音+文字,也比较适用于多种组别的特征,比如电子商务中的用户属性+产品属性+上下文属性。

 

参考资料:

http://statweb.stanford.edu/~tibs/ftp/sparse-grlasso.pdf

http://stat.rutgers.edu/home/tzhang/papers/arxiv0901.2962.pdf

Friedman J, Hastie T, Tibshirani R. A note on the group lasso and a sparse group lasso[J]. arXiv preprint arXiv:1001.0736, 2010.

Yuan M, Lin Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2006, 68(1): 49-67.

Meier L, Van De Geer S, Bühlmann P. The group lasso for logistic regression[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2008, 70(1): 53-71.

Simon N, Tibshirani R. Standardization and the group lasso penalty[J]. Statistica Sinica, 2012, 22(3): 983.

Roth V, Fischer B. The group-lasso for generalized linear models: uniqueness of solutions and efficient algorithms[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 848-855.

Jacob L, Obozinski G, Vert J P. Group lasso with overlap and graph lasso[C]//Proceedings of the 26th annual international conference on machine learning. ACM, 2009: 433-440.

推荐 0
本文由 深度学习 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册