【斯坦福---机器学习】复习笔记之牛顿方法(转)

浏览: 2113

前言:因为最近在看斯坦福的机器学习的公开课,所以转一些笔记

本讲大纲:

1.牛顿方法(Newton’s method) 
2.指数族(Exponential family) 
3.广义线性模型(Generalized linear models)

1.牛顿方法

假设有函数:这里写图片描述,我们希望找到满足这里写图片描述这里写图片描述值. 这里这里写图片描述是实数. 
牛顿方法执行下面的更新: 
这里写图片描述 
下图为执行牛顿方法的过程: 
这里写图片描述 
简单的来说就是通过求当前点的导数得到下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.

这里写图片描述,我们可以用同样的算法去最大化这里写图片描述 
这里写图片描述

牛顿方法的一般化: 
如果这里写图片描述是一个向量,那么: 
这里写图片描述 
其中,这里写图片描述这里写图片描述这里写图片描述的偏导数; 
H称为黑塞矩阵(Hessian matrix),是一个n*n的矩阵,n是特征量的个数,并且这里写图片描述(==当年学的各种名词又开始在脑海里翻滚==)

牛顿方法的收敛速度比批处理梯度下降快很多,很少次的迭代就能够非常接近最小值了;但是当n很大时,每次迭代求黑塞矩阵和黑塞矩阵的逆代价是很大的.

2.指数族

指数族形式: 
这里写图片描述 
其中,这里写图片描述被称为自然参数(natural parameter)或者典范参数(canonical parameter); 
T(y)是充分统计量(sufficient statistic)(对于我们考虑的分布来说,通常T(y)=y);这里写图片描述 
是日志分配函数(log partition function),这里写图片描述是一个规范化常数,使得分布的和为1. 
给定T,a,b,通过改变参数这里写图片描述得到不同的分布.

下面展示伯努利(Bernoulli)高斯分布(Gaussian distribution)都是指数分布族的特例:

伯努利分布可以写成: 
这里写图片描述 
因此,令这里写图片描述(有趣地发现其反函数为这里写图片描述这里写图片描述),并且, 
这里写图片描述

高斯分布: 
回忆我们对线性回归求导时,方差对我们最终结果并没有任何影响.为了使问题简化,令这里写图片描述于是有, 
这里写图片描述 
得: 
这里写图片描述

指数分布族还包括很多其他的分布: 
多项式分布(multinomial) 
泊松分布(poisson):用于计数的建模 
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模 
β分布Dirichlet分布:对小数建模

3.GLMS

为了导出GLM,作三个假设: 
(1)这里写图片描述 
(2)给定x,我们的目标是预测T(y)的预期值. 在大部分例子中,我们有T(y)=y,因此意味着我们通过学习得到的假设满足这里写图片描述(这个假设对logistic回归和线性回归都成立) 
(3)自然参数和输入变量是线性相关的,也就是说这里写图片描述(如果自然参数是向量,则这里写图片描述

3.1普通的最小二乘法 
为了说明普通的最小二乘法是GLM的特例,设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的,并且假设服从高斯分布这里写图片描述,高斯分布写成指数族的形式,有这里写图片描述得到: 
这里写图片描述

3.2 logistic回归 
考虑logistic,我们感兴趣的是二元分类,也就是说这里写图片描述很容易想到指数分布族的伯努利分布,有这里写图片描述,同理得到: 
这里写图片描述

正则响应函数(canonical response function):这里写图片描述 
正则链接函数(canonical link function):这里写图片描述

3.3 softmax 回归 
当分类问题的y取值不止两个时,我们需要采用多项式分布(multinomial distribution).

在推导多项式分布的GLM之前,先把多项式分布表达成指数族.

为了参数化多项式分布的k各可能结果,有人可能会用k个参数来说明每一种情况的可能性,但是这些参数是冗余的,并且并不是独立的(由于知道任何其中的k-1个,剩下的一个就可以求出,因为满足这里写图片描述). 因此我们用k-1个参数这里写图片描述对多项分布进行参数化,这里写图片描述
定义这里写图片描述,如下, 
这里写图片描述

介绍一个很有用的记号,这里写图片描述,例如1{2=3}=0,1{3=5-2}=1. 
因此T(y)和y的关系为这里写图片描述
并且有这里写图片描述,因此: 
这里写图片描述

链接函数为,这里写图片描述,为了方便,定义这里写图片描述.

可得: 
这里写图片描述 
因此这里写图片描述,反代回去得到响应函数: 
这里写图片描述

从η到这里写图片描述的映射叫做softmax函数.

根据假设3,这里写图片描述得到: 
这里写图片描述

这个应用于分类问题(当这里写图片描述),叫做softmax回归(softmax regression).是logistic回归的推广.

这里写图片描述

与最小二乘法和logistic回归类似, 
这里写图片描述

再通过梯度上升或者牛顿方法求出θ.

原链接:http://blog.csdn.net/andrewseu/article/details/46771947

推荐 0
本文由 夏尔康 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册