牛顿方法

之前我们在最大化对数似然函数l(θ)时用到了梯度上升法，现在我们介绍另一种方法。

我们先来看下如何用牛顿方法(Newton's Method)求解θ使得f(θ)=0。如下图所示，首先我们选取一个初始点，比如说令θ=4.5，然后作出f(θ)在该点的切线，这条切线与x轴相交的点θ=2.8作为下一次迭代的点。下右图又一次重复了一轮迭代，f(θ)在θ=2.8处的切线与x轴相交于θ=1.8处，然后再次迭代到θ=1.3处。

以此类推，我们得到迭代规则如下：

牛顿方法可以找到θ使得f(θ)=0，那么如何把它应用到最大化l(θ)上呢？当l(θ)达到最大点时，其导数为0，因此问题转化为找到θ使得l'(θ)=0。所以，令f(θ)=l'(θ)，我们推导出迭代规则：

上式中的θ是参数为实数的情况，当θ为向量时，我们可以推导出更通用的公式：

其中∇_θl(θ)是指l(θ)的梯度，H是一个n * n的矩阵，被称为海森矩阵(Hessian Matrix)。

和梯度下降法相比，牛顿方法收敛的速度更快，迭代的次数也更少。但是牛顿方法每次迭代的计算量更大，因为每次都要计算一个n阶矩阵的逆。总体而言，当n不是很大时牛顿方法计算的速度更快。当牛顿方法用来求解最大化对数似然函数l(θ)时，这个方法也被称为Fisher Scoring。

指数分布族

到目前为止，我们分别学习了分类(classification)和回归(regression)两类问题。在回归问题里，我们假设p(y|x;θ)服从高斯分布N(0,σ²)；在分类问题里，我们假设p(y|x;θ)服从伯努利分布B(φ)。后面我们会看到，这两类问题可以被统一到一个更通用的模型，这个模型被称为广义线性模型(Generalized Linear Models, GLM)。在介绍GLM前，我们先引入一个概念：指数分布族(exponential family)。

指数分布族是指一类可以被表示为如下形式的概率分布：

其中η被称为分布的自然参数(natural parameter)，或者是标准参数(canonical parameter)；T(y)是充分统计量(sufficient statistic)，通常T(y)=y；a(η)是对数分割函数(log partition function)。e^-a(η)通常起着归一化的作用，使得整个分布的总和/积分为1。

如果固定参数T, a, b，就定义了一个以η为参数的函数族。当η取不同的值，我们就得到一个不同的分布函数。

现在我们来证明高斯分布(Gaussian distribution)和伯努利分布(Bernoulli distribution)都属于指数分布族。

对于伯努利分布B(φ)，其y值为0或1，因而有p(y=1;φ)=φ; p(y=0;φ)=1-φ 。所以可推导p(y;φ)如下：

对比指数分布族的定义，可得η=log(φ/(1-φ))，进而可得φ=1/(1+e^-η)，而这正是sigmoid函数的定义。同样对比其他参数，可得：

综上可得，伯努利分布属于指数分布族，且φ的形式与sigmoid函数一致。

接下来我们继续来看高斯分布N(μ,σ²)。回忆下之前推导线性回归的时候，σ²的值与θ和h_θ(x)无关，因此为了简化证明，我们令σ²=1，所以可推导p(y;μ)如下：

对比指数分布族的定义，进而可得：

因而我们证明了高斯分布也属于指数分布族。事实上，大多数概率分布都属于指数分布族，我们列举一些如下：

多项式分布(Multinomial distribution)：对有k个离散结果的事件建模
泊松分布(Poisson distribution)：描述单位时间内独立事件发生次数的概率
伽马分布(Gamma distribution)与指数分布(Exponential distribution)：描述独立事件的时间间隔的概率
β分布(Beta distribution)：在(0,1)区间的连续概率分布
Dirichlet分布(Dirichlet distribution)：分布的分布(for distributions over probabilities)