2019-01-26

作者: hannah1123 | 来源:发表于2019-01-26 20:24 被阅读0次

贝叶斯分类器：

1 极大似然估计

a 类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计,如具体的，关于类别C 的类条件概率为 $p(x|c)$ ---> 假定 $p(x|c)$ 具有确定的形式并且参数向量 $\theta c$ 唯一且确定

b 令 $Dc$ 表示训练集D 中第 c 类样本组成的集合，假定这些样本独立同分布则参数 $\theta c$ 对于数据集 $Dc$ 的似然是

$P(Dc|\theta c) = \prod_{x\in Dc}^n P(x|\theta c)$ （1）

对 $\theta c$ 进行极大似然估计就是去寻找能最大化似然 $P(Dc|\theta c)$ 的参数 $\theta c$ ---> 直观上看，极大似然估计是试图在 $\theta c$ 的所有可能的取值中，找到一个能使数据出现的 “ 可能性 "最大的值

c 对于（1）连乘操作容易出现下溢，通常使用对数似然：

$LL(\theta c) = log P (Dc|\theta c) = \sum_{x\in Dc}^b logP(x|\theta c)$

D 参数 $\theta c$ 的极大似然估计为： $\theta c = arg max LL(\theta c)$

E 所以对于连续属性情况下， p(x|c) 服从分布 $N(\mu ,\sigma ^2 )$ ---> 该参数 $\mu ，\sigma$ 是该分布的样本均值和方差

注意：对于极大似然估计局限性：估计的结果严重依赖所假设的概率分布是否符合潜在的真实数据分布，现实中，在一定程度上会利用先验知识

2 朴素贝叶斯分类器

1 目的：求后验概率： P(c|x)

2 前提：假设所有属性相互独立，即每个属性独立地对分类结果发生影响

3 所以： p(c|x) = $\frac{p(c)p(x|c)}{p(x)} = \frac{p(c)}{p(x)} \prod_{i=1}^dP(xi|c)$ (d 为属性的数目，xi 为x 在第i 个属性上的取值)

4 p(x) 都相同：所以朴素贝叶斯分类器的表达式：

$hnb(x) = argmaxP(c) \prod_{i=1}^dP(xi|c)$

5

6 拉普拉斯修正

网友评论

本文标题：2019-01-26

本文链接：https://www.haomeiwen.com/subject/mhiijqtx.html

2019-01-26