一、似然函数
已知有一组样本X1,X2,...Xn,X服从分布律P{X=x} = p(x;θ),又设x1,x2,...xn是相应于样本X1,X2,...Xn的一个样本值,(已知分布,所以可以知道样本Xi的值取到xi的概率,也就可以知道,对于所有的样本来说X1,X2,...Xn取到x1,x2,...xn的概率。)
那么 ,若是 已知一组数据为x1,x2,...xn,那么可以认为,这是一组从样本中采样得到的值,那么事件{X1=x1,X2=x2,...Xn=xn}的发生的概率为
![](https://img.haomeiwen.com/i5945886/c09d275f96592ac9.png)
这一概率随着θ的取值而变化,他是θ的函数,L(θ)称为样本的似然函数。(这里的x1,x2,...xn是已知的样本值,都是常数。)
通俗的讲就是,我现在手里有一组数据,也知道这组数据的样本服从什么分布(不知道的就假设一个),那么我就可以认为每个数据是一个事件,发生的概率为P{X=x} = p(x;θ),那么这整组数据,是连续对样本采样得到的一个事件,这个事件发生的概率就是所有小事件的乘积。(也可以认为这组数据,是不断地对服从一定分布的样本采样得到的)
二、最大似然估计法
由上面可知,假使现在有一组数据,样本服从一定分布,但是分布的参数θ并不知道,怎么求得这个θ?
由上面可知,既然事情已经发生了,那么就说明在参数θ下,这个事件发生(取得的手中的样本值)的概率L(θ)比较大,若估计出一个θ1和θ2,函数L(θ1)<L(θ2),那么我们就认为θ2更接近于参数θ,因为θ2更能使这件事情发生。所以,我们就是想要找到一个参数θ,使这个事件尽可能的发生,也就是说,L(θ)要尽可能的大。
能使L(θ)最大的值,就作为参数的最大似然估计值。
三、最大似然估计法的应用
无论是在有监督还是无监督,判别模型还是生成模型,但凡是和概率有挂钩的,最终是模型是预测概率的,都少补了最大似然估计的应用。
3.1、有监督学习
3.1.1 逻辑回归分类(判别模型==>条件概率)
-
目标:对于新来的样例,预测其属于y=1 该类的概率
-
已有数据:样例x,标签y。
-
事件:在样例X(i)=x(i)的条件下,类别是y。(这是已知的,这个事件也是服从一个由参数θ控制的分布的。)
于是得到模型:
![](https://img.haomeiwen.com/i5945886/3f37a6ba9c98d20f.png)
对于所有的样本来说,在样例取得m个值的情况下,m个类别分别是y的概率。就是这些小事件一起发生的概率。于是有极大似然函数:
![](https://img.haomeiwen.com/i5945886/e9323bc4defe68b6.png)
于是此时,找到使L(θ)最大的参数θ,就能够使上述事件尽可能的发生, 也是最接近实际值的θ了。于是可以用来预测。
3.1.2、高斯判别模型(生成模型 ==>联合分布)
为什么是生成模型,因为这里认为,数据(样本,类别)都是在满足这些分布的情况下生成的。
判别的时候,模型表达的意思 ,“先采样生成类别y,再采样生成新来样例xi”,这个事件发生的概率,那个大,就说明更符合实际情况。比如在类别是1的情况下, 采样生成新来样例的概率是0.6,在类比是2的情况下采样生成新来样例的概率 是0.8,那么新来阳历属于类比2的情况更符合实际。
- 目标:每个类别服从一个分布P(Y=y) = p(y),确定类别以后每个样例也服从一个分布P(X=x|Y=y) ~p,学习完后,最终可以用“先采样生成一个类别标签,在已知类别标签的情况下采样生成新来样例”的概率,来判断数据哪一类 。
- 数据:样例x,标签y
- 事件:1、同时观测到(x,y),于是我们可以认为一个事件是(X=x,Y=y)同时发生。2、由联合分布公式可知,p(x,y)=p(x|y)p(y)。于是我们也可以认为,一个事件(x,y)是 先采样得到y,再在y的条件下采样生成x得到的 。
所以此时,我们想要知道的是,y的分布(伯努利分布),以及在y确定的情况下x的分布(多值高斯分布),于是可以得到模型。
![](https://img.haomeiwen.com/i5945886/20adab47b3e00ca1.png)
已有的m个数据对,就是取到m个(x,y)数据对的事件,它发生的概率为:
![](https://img.haomeiwen.com/i5945886/d948c57aa0b2aee6.png)
找到上式中的参数,使上述事件尽可能的发生,就是要估计的参数了。
并且,参数的实际意义是 可以根据表达式理解出来的。也就是最接近似然函数的情况下,参数的理想状况。
比如对上面目标函数求导以后得到各参数的值。其中
![](https://img.haomeiwen.com/i5945886/2ca4d79d1a17c41f.png)
这里的φ代表类别是1的概率,就等于 样本中y=1对的个数除以样本总数m。
3.2、无监督学习
- 目标,对于新来的样例,预测其属于某一类(k个类)的概率
- 已有数据: 样例x
- 事件:不同于有监督学习中,(有监督:一个事件是(X=x,Y=y)同时发生,y已经确定,所以可以直接用p(x,y)=p(x|y)p(y)来 表示此事件。)
此时的每个事件,就是样例x发生。(但是每个样例都有k个可能的类与之对应,所以需要全概率公式。)所以得到每个事件的模型:
![](https://img.haomeiwen.com/i5945886/ec56d8e04f118af1.png)
那么数据就是代表着,m个事件X=x同时发生的概率 :
![](https://img.haomeiwen.com/i5945886/59eb62dd8fb45ada.png)
但是,这个式子一开始并不好求,于是我们先随机为每个样例选一个相应的类别,,,接下来就是EM思想,可以看EM算法这一块。
每个类别的概率是所有样例的后验概率的平均值(参考GMM)
总之,最大化这个似然函数,最终得到的,也是我们想要的参数。
3.3 最大后验概率估计(MAP)
逻辑回归中的模型是,认为θ是一个常数,一个事件就是,在样例X=x的条件下,类别是y的概率。
而贝叶斯学派就认为,θ是一个随机变量,最大后验概率估计的模型是:
![](https://img.haomeiwen.com/i5945886/0240ffd8408064c4.png)
也就是认为,是先采样生成θ以后,再在x和θ的情况下,类别是y的概率。
二者(逻辑回归与MAp)都是通过极大似然来找到合适的θ,为什么说贝叶斯最大后验概率估计就能跟好的克服过拟合问题呢?
在《规则化和模型选择》中给出了解释。
网友评论