逻辑斯谛回归&最大熵模型

作者: 单调不减 | 来源:发表于2019-06-17 22:00 被阅读0次

1、逻辑斯谛回归模型

逻辑斯谛回归是经典的分类方法。二项逻辑斯谛回归模型是如下条件概率分布：

$P(Y=1|x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}$

$P(Y=0|x)=\frac{1}{1+e^{w\cdot x+b}}$

下面我们考察逻辑斯谛回归的特点。

一个事件的几率（odds）是指该事件发生概率与该事件不发生的概率的比值。若事件发生概率为 $p$ ，那么该事件的几率为 $\frac{p}{1-p}$ ，该事件的对数几率（log odds）或logit函数是：

$logit(p)=log\frac{p}{1-p}$

对逻辑斯谛回归而言：

$log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x+b$

因此在逻辑斯谛回归模型中，输出 $Y=1$ 的对数几率是输入 $x$ 的线性函数。这就是逻辑斯谛回归的特点。

模型的参数估计可采用极大似然法，设：

$P(Y=1|x)=\pi(x)\quad\quad P(Y=0|x)=1-\pi(x)$

似然函数为：

$\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x)]^{1-y_i}$

对数似然函数为：

$\begin{aligned} L(w)&=\sum_{i=1}^N[y_ i \log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))] \\ &=\sum_{i=1}^N[y_i\log\frac{\pi(x_i)}{1-\pi_{x_i}}+\log(1-\pi(x_i))] \\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-log(1+e^{w\cdot x_i})] \\ \end{aligned}$

使用梯度下降法求 $w$ 的估计值（注意这里的 $w$ 是加上偏置项扩充后的 $w$ ）。假设 $w$ 的最大似然估计值为 $\hat{w}$ ，则学得的逻辑斯谛回归模型为：

$P(Y=1|x)=\frac{e^{\hat{w}\cdot x}}{1+e^{\hat{w}\cdot x}}$

$P(Y=0|x)=\frac{1}{1+e^{\hat{w}\cdot x}}$

2、最大熵模型

2.1、最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。

直观地，最大熵原理认为要选择的概率模型必须满足已有的事实（即约束），在没有更多信息的情况下，那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。

我们知道，熵定义的实际上是一个随机变量的不确定性，熵最大的时候，说明随机变量最不确定，换句话说，也就是随机变量最随机，对其行为做准确预测最困难。

从这个意义上讲，那么最大熵原理的实质就是，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，这是我们可以作出的不偏不倚的选择，任何其它的选择都意味着我们增加了其它的约束和假设，这些约束和假设根据我们掌握的信息无法作出。

比如说随机变量 $X$ 有3个取值 $\{ A,B,C\}$ ，要估计概率 $P(A),P(B),P(C)$ ，这些概率满足：

$P(A)+P(B)+P(C)=1$

除此之外没有任何信息。满足这个约束的概率分布有无穷多个，根据最大熵原理，取均匀分布时熵最大，因此：

$P(A)=P(B)=P(C)=\frac{1}{3}$

2.2、最大熵模型

最大熵原理应用于分类得到最大熵模型。

假设分类模型是一个条件概率分布 $P(Y|X)$ ，给定训练数据集，可以确定联合分布 $P(X,Y)$ 的经验分布 $\tilde{P}(X,Y)$ 和边缘分布 $P(X)$ 的经验分布 $\tilde{P}(X)$ 。

$\tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}$

$\tilde{P}(X=x)=\frac{v(X=x)}{N}$

其中 $v(X=x,Y=y)$ 表示训练数据集中样本 $(x,y)$ 的频数， $v(X=x)$ 表示训练数据集中输入 $x$ 出现的频数， $N$ 为样本容量。

用特征函数 $f(x,y)$ 描述输入 $x$ 和输出 $y$ 之间的某个事实，定义为：

$\begin{equation} f(x,y)=\left\{ \begin{array}{rcl} 1 & & {x,y满足某一事实}\\ 0 & & {否则} \end{array} \right. \end{equation}$

特征函数 $f(x,y)$ 关于经验分布 $\tilde{P}(X,Y)$ 的期望值 $E_{\tilde{P}}(f)$ 为：

$E_{\tilde{P}}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y)$

特征函数 $f(x,y)$ 关于模型 $P(Y|X)$ 与经验分布 $\tilde{P}(X)$ 的期望值 $E_P(f)$ 为：

$E_P(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)$

若模型能够获取训练数据中的信息，则可假设这两个期望相等（注意 $P(y|x)$ 是我们的模型学得的结果）：

$E_P(f)=E_{\tilde{P}}(f)$

将上式作为模型的约束条件，设所有满足约束的模型集合为：

$C\equiv \{P\in \it{P} |E_P(f_i)=E_{\tilde{P}}(f_i),\quad i=1,2,\dots,n\}$

定义在条件概率分布 $P(Y|X)$ 上的条件熵为：

$H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)$

则模型集合 $C$ 中条件熵 $H(P)$ 最大的模型称为最大熵模型。

逻辑斯谛回归&最大熵模型

1、逻辑斯谛回归模型

2、最大熵模型

2.1、最大熵原理

2.2、最大熵模型

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读