【斯坦福---机器学习】复习笔记之牛顿方法（转）

发表: 2017-08-01 浏览: 2113

数据挖掘

前言：因为最近在看斯坦福的机器学习的公开课，所以转一些笔记

本讲大纲：

1.牛顿方法(Newton’s method)
2.指数族(Exponential family)
3.广义线性模型(Generalized linear models)

1.牛顿方法

假设有函数：这里写图片描述，我们希望找到满足的值. 这里是实数.
牛顿方法执行下面的更新：

下图为执行牛顿方法的过程：

简单的来说就是通过求当前点的导数得到下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.

令这里写图片描述，我们可以用同样的算法去最大化

牛顿方法的一般化：
如果这里写图片描述是一个向量，那么：

其中，是对的偏导数；
H称为黑塞矩阵(Hessian matrix),是一个n*n的矩阵，n是特征量的个数，并且（==当年学的各种名词又开始在脑海里翻滚==）

牛顿方法的收敛速度比批处理梯度下降快很多，很少次的迭代就能够非常接近最小值了；但是当n很大时，每次迭代求黑塞矩阵和黑塞矩阵的逆代价是很大的.

2.指数族

指数族形式：
这里写图片描述
其中，被称为自然参数（natural parameter）或者典范参数（canonical parameter）;
T(y)是充分统计量（sufficient statistic）（对于我们考虑的分布来说，通常T(y)=y）；
是日志分配函数(log partition function),是一个规范化常数，使得分布的和为1.
给定T,a,b，通过改变参数这里写图片描述得到不同的分布.

下面展示伯努利（Bernoulli）和高斯分布（Gaussian distribution）都是指数分布族的特例：

伯努利分布可以写成：
这里写图片描述
因此，令（有趣地发现其反函数为），并且，

高斯分布：
回忆我们对线性回归求导时，方差对我们最终结果并没有任何影响.为了使问题简化，令这里写图片描述于是有，

得：

指数分布族还包括很多其他的分布：
多项式分布（multinomial）
泊松分布（poisson）：用于计数的建模
伽马分布（gamma），指数分布（exponential）:用于对连续非负的随机变量进行建模
β分布，Dirichlet分布：对小数建模

3.GLMS

为了导出GLM,作三个假设：
（1）这里写图片描述
（2）给定x，我们的目标是预测T(y)的预期值. 在大部分例子中，我们有T(y)=y，因此意味着我们通过学习得到的假设满足（这个假设对logistic回归和线性回归都成立）
（3）自然参数和输入变量是线性相关的，也就是说这里写图片描述（如果自然参数是向量，则）