美文网首页
高斯环境下感知器与贝叶斯分类器的关系

高斯环境下感知器与贝叶斯分类器的关系

作者: Powehi_ | 来源:发表于2019-08-17 10:27 被阅读0次

一、引言

感知器与贝叶斯分类器之间有一定的联系。在高斯环境下,贝叶斯分类器退化成线性分类器,这一节我们研究这种联系,并深入研究感知器的运行。首先复习下贝叶斯分类器。

二、贝叶斯分类器

在贝叶斯分类器和贝叶斯假设检验中,我们最小化平均风险,记为R。对二分类问题定义的平均风险为:

R=c_{11}p_1\int_{H_1}^{}p_x(x|\varphi _1)dx+c_{22}p_2 \int_{H_2}^{}p_x(x|\varphi _2)dx+c_{21}p_1\int_{H_2}^{}p_x(x|\varphi _1)dx+c_{12}p_2\int_{H_1}^{}p_x(x|\varphi _2)dx

这里各项的定义如下:

H:训练集空间,H=H_1+H_2

\varphi _i:类i

p_i:观察向量取自子空间H_i的先验概率

c_{ij}:当真实类为\varphi _j,决策类由子空间H_i代表为\varphi _i的代价

p_x(x|\varphi _i):随机向量X的条件概率密度函数,假设观察向量x取自子空间H_i

根据定义,我们很容易知道等式右边的头两项代表正确决策,后两项代表错误决策。每个决策通过两个因子乘积加权:作出决策的代价和先验概率。我们的目的就是最小化平均风险

根据积分规则,我们可以改写上述规则,其等价式子为:

R=c_{11}p_1\int_{H_1}^{}p_x(x|\varphi _1)dx+c_{22}p_2 \int_{H-H_1}^{}p_x(x|\varphi _2)dx+c_{21}p_1\int_{H-H_1}^{}p_x(x|\varphi _1)dx+c_{12}p_2\int_{H_1}^{}p_x(x|\varphi _2)dx

由概率论的知识可知:

\int_{H}^{} p_x(x|\varphi _1)dx=\int_{H}^{} p_x(x|\varphi _2)dx=1

因此,可以将等价式简化为:

R=c_{21}p_1+c_{22}p_2+\int_{H_1}^{} [p_2(c_{12}-c_{22})p_x(x|\varphi _2)-p_1(c_{21}-c_{11})p_x(x|\varphi _1)]dx

等式右边头两项为固定代价,那么想要最小化平均风险,只需要最小化第三项即可。从积分式子可以看出,当被积函数为负数时,代价减少,它对代价做了一个负贡献,我们将使得被积函数为负数的观察向量x都归于子空间H_1,相反,同理,不再赘述。当然使得被积函数为0的点可以随机分配。在此基础上,我们可以导出贝叶斯分类器公式:

假如条件:p_1(c_{21}-c_{11})p_x(x|\varphi _1)>p_2(c_{12}-c_{22})p_x(x|\varphi _2)满足,那么我们将观察向量分配给类1,否则分配给类2。

为了简化公式,我们定义:

\Lambda (x)=\frac{p_x(x|\varphi _1)}{p_x(x|\varphi _2)} \xi =\frac{p_2(c_{12}-c_{22})}{p_1(c_{21}-c_{11})}

熟悉概率论的同学一看就明白,\Lambda (x)就是似然比,这里的\xi 称为阈值。在概率论中,我们通常用对数似然比代替似然比,因为方便计算。

到此为止,我们已经讲述完了贝叶斯分类器的通解,下面我们单独讨论在高斯分布下的贝叶斯分类器。

三、高斯分布下的贝叶斯分类器

我们考虑高斯分布下二分类的问题,假设随机向量X=[x_1,x_2,...,x_m],那么该随机向量的均值E[X]仅仅依赖于X是属于类1还是属于类2。也就是说:

X\in \varphi _1E[X]=\mu _1C=E[(X-\mu _1)(X-\mu_1)^T]

X\in \varphi _2E[X]=\mu _1C=E[(X-\mu _1)(X-\mu_1)^T]

其中的C代表协方差矩阵,即:

X的协方差矩阵

如果协方差矩阵为非对角矩阵,那么我们可以说样本之间是相关的,我们可以假设协方差矩阵是非奇异矩阵,那么在这个背景下,我们可以将X的条件概率密度函数变为多变量高斯分布:

p_ x(x|\varphi _i)=\frac{1}{(2π)^{m/2}(|C|)^{1/2}} exp(-\frac{1}{2}(x-\mu_i)^TC^{-1}(x-\mu_i)),i=1,2

m:观察向量X的维数

进一步假设:

1、p_1=p_2=\frac{1}{2}

2、c_{12}=c_{21},c_{11}=c_{22}=0

好了,到了这里,我们可以简化我们的对数似然比:

log\Lambda (x)=(\mu_1-\mu_2)^TC^{-1}x+\frac{1}{2} (\mu_2^TC^{-1}\mu_2-\mu_1^TC^{-1}\mu_1)

对数似然比推导略有复杂,如果不清楚怎么推的小伙伴请私信我。

对阈值取对数得:

log\xi =0

到了这里,我们不妨令:

y=log\Lambda (x)

w=C^{-1}(\mu_1-\mu_2)

b=\frac{1}{2} (\mu_2^TC^{-1}\mu_2-\mu_1^TC^{-1}\mu_1)

即:y=w^Tx+b

OK,相信小伙伴们都看出来了,当前的贝叶斯分类器在高斯环境下已经退化成了线性分类器。

四、高斯环境下贝叶斯分类器与感知器的区别

虽然在高斯环境下,贝叶斯分类器与感知器都是线性分类器,但是两者还是有细微而重要的差别,我们来看看:

1、感知器运行的前提是线性可分,而贝叶斯分类器是不需要的,为啥呢?因为贝叶斯分类器最小化分类误差的概率,按概率说话,与是否数据线性可分没有关系。

2、感知器收敛算法是一种非参数机器学习算法,而贝叶斯分类器是一种有参数机器学习算法。区别就在于你是否有一个最小化的目标,感知器没有最小化的目标,它只是通过关注误差来运行。

五、小结

好了,到此为止,我们比较了感知器与贝叶斯分类器,实践是检验真理的唯一标准,为了更深层次的理解贝叶斯分类器与感知器,建议你用python去实现它们的算法。下一节我们将利用双月模型,通过计算机实验来探究感知器的更深层次的东西。


本书参考《神经网络与机器学习》,由于本书晦涩难懂,也掺杂了很多本人的想法进去,水平有限,若有错误,还请多多指教。


相关文章

  • 高斯环境下感知器与贝叶斯分类器的关系

    一、引言 感知器与贝叶斯分类器之间有一定的联系。在高斯环境下,贝叶斯分类器退化成线性分类器,这一节我们研究这种联系...

  • 【机器学习实践】高斯朴素贝叶斯分类器

    高斯朴素贝叶斯分类器的原理 网上资料很多,主要原理有以下几点: 中心极限定理(模型的训练过程) 认为任何自然界中的...

  • 4 聚类 - 高斯混合聚类

    背景 协方差与相关系数协方差描述两变量变化的相似度,相关系数除去了变量变化幅度的影响 高斯混合模型多个高斯分布混合...

  • DL01-3:感知器实现(标量版)

    摘要:1、使用标量实现感知器;2、使用鸢尾花作为训练与测试样本; 鸢尾花: 一、感知器算法与公式 1、感知器训练算...

  • 高斯过程Gaussian process与高斯分布的关系

    原文链接侵删。 不,它所代表的是对应x=2时的一个随机变量X_{x=2}"正好"出现的点罢了,本质上对应x=2的是...

  • 基于Python的Rosenblatt感知器模型

    Rosenblatt感知器 Rosenblatt感知器是一种最简单的感知器模型,即输出值为输入与对应权值相乘后取和...

  • 高斯模糊(Gaussian Blur)笔记

    高斯模糊 在我的理解中高斯模糊与高斯滤波器(Gaussian Filter)和高斯平滑(Gaussian Smoo...

  • 机器学习-线性判别分析LDA

    判别分析方法是对后验概率进行估计的判别模型方法。如果样本属于某个类的条件概率密度符合高斯分布,对于贝叶斯分类器[h...

  • 二月九日记

    今天早上想了人一出生就要处理三种关系,与外界环境关系、与他人的关系、与自己的关系。 与外界环境关系——改造环境,要...

  • 2019-03-11

    高斯过程 高斯分布: Q函数与erfc函数 联合高斯:独立高斯的线性组合 高斯过程:随机过程中的任意多个时刻的随机...

网友评论

      本文标题:高斯环境下感知器与贝叶斯分类器的关系

      本文链接:https://www.haomeiwen.com/subject/tshhsctx.html