一、似然函数

已知有一组样本X₁，X₂，...X_n，X服从分布律P{X=x} = p(x;θ)，又设x₁，x₂，...x_n是相应于样本X₁，X₂，...X_n的一个样本值，（已知分布，所以可以知道样本X_i的值取到x_i的概率，也就可以知道，对于所有的样本来说X₁，X₂，...X_n取到x₁，x₂，...x_n的概率。）
那么，若是已知一组数据为x₁，x₂，...x_n，那么可以认为，这是一组从样本中采样得到的值，那么事件{X₁=x₁，X₂=x₂，...X_n=x_n}的发生的概率为

这一概率随着θ的取值而变化，他是θ的函数，L(θ)称为样本的似然函数。（这里的x₁，x₂，...x_n是已知的样本值，都是常数。）

通俗的讲就是，我现在手里有一组数据，也知道这组数据的样本服从什么分布（不知道的就假设一个），那么我就可以认为每个数据是一个事件，发生的概率为P{X=x} = p(x;θ)，那么这整组数据，是连续对样本采样得到的一个事件，这个事件发生的概率就是所有小事件的乘积。（也可以认为这组数据，是不断地对服从一定分布的样本采样得到的）

二、最大似然估计法

由上面可知，假使现在有一组数据，样本服从一定分布，但是分布的参数θ并不知道，怎么求得这个θ？

由上面可知，既然事情已经发生了，那么就说明在参数θ下，这个事件发生（取得的手中的样本值）的概率L(θ)比较大，若估计出一个θ₁和θ₂，函数L(θ₁)<L(θ₂)，那么我们就认为θ₂更接近于参数θ，因为θ₂更能使这件事情发生。所以，我们就是想要找到一个参数θ，使这个事件尽可能的发生，也就是说，L(θ)要尽可能的大。

能使L(θ)最大的值，就作为参数的最大似然估计值。

三、最大似然估计法的应用

无论是在有监督还是无监督，判别模型还是生成模型，但凡是和概率有挂钩的，最终是模型是预测概率的，都少补了最大似然估计的应用。

3.1、有监督学习

3.1.1 逻辑回归分类（判别模型==>条件概率）

目标：对于新来的样例，预测其属于y=1 该类的概率
已有数据：样例x，标签y。
事件：在样例X_(i)=x_(i)的条件下，类别是y。（这是已知的，这个事件也是服从一个由参数θ控制的分布的。）
于是得到模型：

对于所有的样本来说，在样例取得m个值的情况下，m个类别分别是y的概率。就是这些小事件一起发生的概率。于是有极大似然函数：

image.png

于是此时，找到使L(θ)最大的参数θ，就能够使上述事件尽可能的发生，也是最接近实际值的θ了。于是可以用来预测。

3.1.2、高斯判别模型（生成模型 ==>联合分布）

为什么是生成模型，因为这里认为，数据（样本，类别）都是在满足这些分布的情况下生成的。
判别的时候，模型表达的意思，“先采样生成类别y，再采样生成新来样例xi”，这个事件发生的概率，那个大，就说明更符合实际情况。比如在类别是1的情况下，采样生成新来样例的概率是0.6，在类比是2的情况下采样生成新来样例的概率是0.8，那么新来阳历属于类比2的情况更符合实际。

目标：每个类别服从一个分布P(Y=y) = p(y)，确定类别以后每个样例也服从一个分布P(X=x|Y=y) ~p，学习完后，最终可以用“先采样生成一个类别标签，在已知类别标签的情况下采样生成新来样例”的概率，来判断数据哪一类。
数据：样例x，标签y
事件：1、同时观测到（x，y），于是我们可以认为一个事件是（X=x，Y=y）同时发生。2、由联合分布公式可知，p(x,y)=p(x|y)p(y)。于是我们也可以认为，一个事件（x，y）是先采样得到y，再在y的条件下采样生成x得到的。
所以此时，我们想要知道的是，y的分布（伯努利分布），以及在y确定的情况下x的分布（多值高斯分布），于是可以得到模型。

已有的m个数据对，就是取到m个（x，y）数据对的事件，它发生的概率为：

找到上式中的参数，使上述事件尽可能的发生，就是要估计的参数了。

并且，参数的实际意义是可以根据表达式理解出来的。也就是最接近似然函数的情况下，参数的理想状况。
比如对上面目标函数求导以后得到各参数的值。其中

这里的φ代表类别是1的概率，就等于样本中y=1对的个数除以样本总数m。

3.2、无监督学习

目标，对于新来的样例，预测其属于某一类（k个类）的概率
已有数据：样例x
事件：不同于有监督学习中，（有监督：一个事件是（X=x，Y=y）同时发生，y已经确定，所以可以直接用p(x,y)=p(x|y)p(y)来表示此事件。）
此时的每个事件，就是样例x发生。（但是每个样例都有k个可能的类与之对应，所以需要全概率公式。）所以得到每个事件的模型：