线性分类模型(四)——贝叶斯观点下的Logistic回归

作者: Sui_Xin | 来源:发表于2018-10-25 17:22 被阅读6次

本文首发于我的个人博客Suixin's Blog
原文: https://suixinblog.cn/2018/10/linear-classification4.html　　作者: Suixin

拉普拉斯近似

目标：因为待近似的分布 $p(\pmb{z})$ 不是高斯分布，故寻找一个高斯近似 $q(\pmb{z})$ ，它的中心位于 $p(\pmb{z})$ 的众数的位置。
思路：将待近似的分布 $p(\pmb{z})$ 在众数 $\pmb{z}_0$ 做泰勒展开，去掉三阶项以及更高阶。

假设待近似分布为 $M$ 维 $p(\pmb{z})=\frac{f(\pmb{z})}{Z}$ ，在众数 $\pmb{z}_0$ 处展开，有
$\ln f(\pmb{z})\simeq \ln f(\pmb{z}_0)-\frac{1}{2}(\pmb{z}-\pmb{z}_0)^\top A(\pmb{z}-\pmb{z}_0)$
其中， $M\times M$ 的Hessian矩阵 $A=-\nabla\nabla\ln f(\pmb{z})|_{\pmb{z}=\pmb{z}_0}$ 。两边同取指数，有
$f(\pmb{z})\simeq f(\pmb{z}_0)\exp\{-\frac{1}{2}(\pmb{z}-\pmb{z}_0)^\top A(\pmb{z}-\pmb{z}_0)\}$
分布 $q(\pmb{z})$ 正比于 $f(\pmb{z})$ ，因此
$q(\pmb{z})=\frac{|A|^\frac{1}{2}}{(2\pi )^\frac{M}{2}}\exp\{-\frac{1}{2}(\pmb{z}-\pmb{z}_0)^\top A(\pmb{z}-\pmb{z}_0)\}=\mathscr{N}(\pmb{z}|\pmb{z}_0,A^{-1})$
其中，这个高斯分布well-define的前提为 $A$ 是正定的，即驻点 $\pmb{z}_0$ 必须为一个局部极大值。在实际应用拉普拉斯近似时需计算众数，一般通过数值优化算法得到。
缺点： 对于多峰问题会给出较差的结果。
优点： 在数据点较多的情况下，会更有用。

贝叶斯Logistic回归

Logistic回归不能进行精确的贝叶斯推断的原因：后验分布为先验分布与似然函数的乘积的归一化，而似然函数为一系列sigmoid函数的乘积。

对后验分布做拉普拉斯近似

假设参数 $\pmb{w}$ 有高斯先验
$p(\pmb{w})=\mathscr{N}(\pmb{w}|\pmb{m}_0,S_0)$
其中， $\pmb{m}_0$ 和 $S_0$ 为固定的超参数。 $\pmb{w}$ 的后验分布为
$p(\pmb{w}|\textbf{t})\propto p(\pmb{w})p(\textbf{t}|\pmb{w})$
化简可得对数后验为
$\ln p(\pmb{w}|\textbf{t})=-\frac{1}{2}(\pmb{w}-\pmb{m}_0)^\top S_0^{-1}(\pmb{w}-\pmb{m}_0)+\sum_{n=1}^N\{t_n\ln y_n+(1-t_n)\ln(1-y_n)\}+Constant$
其中，符号与上一篇文章一致。现在，只需极大化后验概率分布，求出MAP解 $\pmb{w}_{MAP}$ ，再根据前面的拉普拉斯近似结果可得后验分布的高斯近似为
$q(\pmb{w})=\mathscr{N}(\pmb{w}|\pmb{w}_{MAP},S_N)$
其中，
$S_N^{-1}=-\nabla\nabla\ln p(\pmb{w}|\textbf{t})=S_0^{-1}+\sum_{n=1}^Ny_n(1-y_n)\pmb{\phi}_n\pmb{\phi}_n^\top$

预测分布

给定一个新的特征向量 $\phi(\pmb{x})$ ，类别 $C_1$ 的预测分布可对后验概率 $p(\pmb{w}|\textbf{t})$ 积分得到
$p(C_1|\pmb{\phi},\textbf{t})=\int p(C_1|\pmb{\phi},\pmb{w})p(\pmb{w}|\textbf{t})d\pmb{w}\simeq\int \sigma(\pmb{w}^\top \pmb{\phi})q(\pmb{w})d\pmb{w}$
具体求解预测分布过程见参考 $\S4.5.2$ 。