线性分类模型(三)——判别式模型

作者: Sui_Xin | 来源:发表于2018-10-20 12:39 被阅读6次

线性分类模型(三)——判别式模型
线性模型与非线性模型在工资测算中的运用
机器学习---感知机的理解
【机器学习实践】有监督学习：线性分类、回归模型
感知机
产生式模型与判别式模型的区别
logistics回归分类
判别式模型与生成式模型
模式识别课程(四)-线性分类器/线性判别函数
生成式判别式模型

本文首发于我的个人博客Suixin's Blog
原文: https://suixinblog.cn/2018/10/linear-classification3.html　　作者: Suixin

判别式方法：直接对条件概率分布 $p(C_k|\pmb{x})$ 进行建模。
相比生成式方法有两个优点：需要训练的参数更少，预测表现会提升（尤其当类条件概率密度的假设没有很好的近似真实分布的时候）。

logistic回归

对于二分类问题，类别 $C_1$ 的后验概率为
$p(C_1|\pmb{\phi})=y(\pmb{\phi})=\sigma(\pmb{w}^\top\pmb{\phi})$
可见，对于 $M$ 维特征空间 $\pmb{\phi}$ ，该模型只有 $M$ 个可调节参数，而生成式模型需要调节参数总数为 $\frac{M(M+5)}{2}+1$ 。
对于一个数据集 $\{\pmb{\phi}_n,t_n\}$ ，其中， $t_n\in \{0,1\}$ 且 $\pmb{\phi}_n=\phi(\pmb{x}_n)$ ， $n=1,2,\cdots,N$ 。
似然函数为
$p(\textbf{t}|\pmb{w})=\prod_{n=1}^Ny_n^{t_n}(1-y_n)^{1-t_n}$
其中， $\textbf{t}=(t_1,t_2,\cdots,t_N)^\top$ 。通过对似然函数取负对数的方式定义一个误差函数，即交叉熵（cross-entropy）误差函数
$E(\pmb{w})=-\ln p(\textbf{t}|\pmb{w})=-\sum_{n=1}^N\{t_n\ln y_n+(1-t_n)\ln(1-y_n)\}$
对 $\pmb{w}$ 求梯度，可得
$\nabla E(\pmb{w})=\sum_{n=1}^N(y_n-t_n)\pmb{\phi}_n=\Phi^\top(\textbf{y}-\textbf{t})$
注：最大似然方法对于线性可分的数据集会产生严重的过拟合。

迭代重加权最小平方（IRLS）

logistic回归不再有解析解，故需要用Newton-Raphson迭代
$\pmb{w}^{new}=\pmb{w}^{old}-H^{-1}\nabla E(\pmb{w})$
其中， $H$ 是Hessian矩阵，其元素为 $E(\pmb{w})$ 关于 $\pmb{w}$ 的二阶导数。
推导可得
$H=\nabla\nabla E(\pmb{w})=\sum_{n=1}^Ny_n(1-y_n)\pmb{\phi}_n\pmb{\phi}_n^\top=\Phi^\top R\Phi$
其中， $N\times N$ 的对角矩阵 $R$ 元素为 $R_{nn}=y_n(1-y_n)$ 。由于 $o<y_n<1$ ，故对任意向量 $u$ 都有 $u^\top Hu>0$ ，即 $H$ 正定，因此误差函数是 $\pmb{w}$ 的凸函数，有唯一最小值。

softmax分类

对于多分类问题，后验概率为
$p(C_k|\pmb{\phi})=y_k(\pmb{\phi})=\frac{\exp(a_k)}{\sum_j\exp(a_j)}$
其中， $a_k=\pmb{w}_k^\top\pmb{\phi}$ 。求导，有
$\frac{\partial y_k}{\partial a_j}=\begin{cases} y_k(1-y_k), & j=k \\ -y_ky_j, & j\neq k \end{cases}$
从而，似然函数为
$p(T|\pmb{w}_1,\cdots,\pmb{w}_K)=\prod_{n=1}^N\prod_{k=1}^Kp(C_k|\pmb{\phi}_n)^{t_{nk}}=\prod_{n=1}^N\prod_{k=1}^Ky_{nk}^{t_{nk}}$
其中， $y_{nk}=y_k(\pmb{\phi}_n)$ ， $T$ 是一个 $N\times K$ 的矩阵，元素 $t_{nk}$ 为1-of-K编码值。
交叉熵误差函数为
$E(\pmb{w}_1,\cdots,\pmb{w}_K)=-\ln p(T|\pmb{w}_1,\cdots,\pmb{w}_K)=-\sum_{n=1}^N\sum_{k=1}^Kt_{nk}\ln y_{nk}$
同样利用Newton-Raphson迭代可求解。

参考

“Pattern Recognition and Machine Learning”

线性分类模型(三)——判别式模型
本文首发于我的个人博客Suixin's Blog原文: https://suixinblog.cn/2018/10...
线性模型与非线性模型在工资测算中的运用
第六章节讲述了线性模型，主要包括了分类模型、线性模型和非线性模型三部分。 1、分类模型分类模型简单来说，就是把类...
机器学习---感知机的理解
感知机是一种线性分类，属于判别式模型，在机器学习中还有一种是生成式模型（generative model）。感知机...
【机器学习实践】有监督学习：线性分类、回归模型
线性模型为线性模型分类和回归的区别分类：离散回归：连续本文主要关注线性回归模型常用线性回归模型类型 OLS...
感知机
感知机是什么？感知机是二分类的线性分类模型（是判别式模型），其输入为实例的特征向量，输出为实例的类别，类别取+1...
产生式模型与判别式模型的区别
产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的...
logistics回归分类
logistics回归分类模型和线性模型的关系非常密切；区分下线性回归模型和线性模型；线性模型：自变量和因变量之间...
判别式模型与生成式模型
# 判别式模型与生成式模型生成式模型(Generative Model)与判别式模型(Discrimitive ...
模式识别课程(四)-线性分类器/线性判别函数
目录前言概念回顾生成式模型判别式模型线性判别函数 Fisher线性判别分析感知机法则总结前言本笔记是...
生成式判别式模型
判别式模型与生成式模型生成式模型(Generative Model)与判别式模型(Discrimitive Mo...