12课 朴素贝叶斯分类器——从贝叶斯定理到分类模型
分类模型 VS 回归模型
最根本的不同:前者是预测一个标签(类型、类别);后者则是预测一个量。
贝叶斯定理
在 B 出现的前提下 A 出现的概率,等于 A 和 B 都出现的概率除以 B 出现的概率。
这个小学一年级学生里面,男生的出现概率是 0.3 —— P(B);
穿白袜子的人的出现概率是0.2 —— P(A);
穿白袜子的人是男生这件事出现的概率是0.25 —— P(B|A)。
已知是男生,他穿白袜子的概率 —— P(A|B)是多少?0.25 * 0.2 / 0.3 = 1/6
一般化的贝叶斯公式
更一般化的情况,假设事件 A 本身又包含多种可能性,即 A 是一个集合:A={A1,A2,…,An},那么对于集合中任意的 Ai,贝叶斯定理可用下式表示:
模型函数
Z 对应P(F1,F2,…,Fn)
预测时:
- 有一个朴素贝叶斯分类模型(器),它能够区分出 k 个类
(c1,c2,…,ck), 用来分类的特征有 n 个:(F1,F2,…,Fn)。 - 现在有个样本 s,我们要用 NB 分类器对它做预测,则需要先提取出这个样本的所有特征值 F1 到 Fn,将其带入到下式中进行 k 次运算:
- 然后比较这 k 次的结果,选出使得运算结果达到最大值的那个 cj(j=1,2,…,k)—— 这个 cj 对应的类别就是预测值。
- 简单的说也就是:想要预测是几种类别中的哪一种?那就把几种的预测结果都求出来,哪种几率最大就预测结果为哪种。
缺点
上述例子之所以这样简单,是因为我们简单地将频率当成了概率,实际上默认了“未被观测到”的就是“出现概率为0”的。这样做显然是不合理的。
13课 朴素贝叶斯分类器——条件概率的参数估计
修正
上一课对于工事中的P(Fi|C) ,我们使用了频率作为概率的估计(即直接统计个数),现在我们要通过该特征在数据样本中的分布来计算该特征的条件概率。
我们认定会有一种参数和一种形式来决定P(Fi|C),通过带入训练数据,训练求取参数,即需要参数估计(Parameter Estimation)
参数估计的常用策略是:
- 先假定样本特征具备某种特定的概率分布形式;
- 再基于训练样本对特征的概率分布参数进行估计。
似然
- 概率用在已知参数的情况下,用来预测后续观测所得到的结果。
- 似然则正相反,用于参数未知,但某些观测所得结果已知的情况,用来对参数进行估计。
最大似然估计
就是去寻找让似然函数 L(θc,i) 的取值达到最大的参数值的估计方法。
最大化求取,等式先取对数,因为最大化一个似然函数同最大化它的自然对数是等价的
正态分布的极大似然估计
带入高斯分布公式,求取每一个特征的θc,i
代码实现
待写
网友评论