贝叶斯公式
贝叶斯公式就一行:
image.png
而它其实是由以下的联合概率公式推导出来:
image.png
其中 P(Y) 叫做先验概率, P(Y|X) 叫做后验概率, P(Y,X) 叫做联合概率。
机器学习的视角理解贝叶斯公式
在机器学习的视角下,我们把 X 理解成“具有某特征”,把 Y 理解成“类别标签”。
而我们二分类问题的最终目的就是要判断 P(“属于某类”|“具有某特征”) 是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,而后者获取方法就简单多了,我们只需要找到一些包含已知特征标签的样本,即可进行训练。
分词以及条件独立假设 image.png
(我们令字母S表示“垃圾邮件”,令字母H表示“正常邮件”。)
## 处理重复词语的三种方式¶
我们之前的垃圾邮件向量(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”),其中每个词都不重复。而这在现实中其实很少见。因为如果文本长度增加,或者分词方法改变,必然会有许多词重复出现,因此需要对这种情况进行进一步探讨。比如以下这段邮件:
“代开发票。增值税发票,正规发票。” 分词后为向量: (“代开”,“发票”,“增值税”,“发票”,“正规”,“发票”)
其中“发票”重复了三次。
9.1 多项式模型:
如果我们考虑重复词语的情况,也就是说,重复的词语我们视为其出现多次,直接按条件独立假设的方式推导,则有
image.png
需要去除停用词
处理未出现的词---平滑技术(加1)
image.png工程处理
取对数,转权重,topk,样本分割,位置权重
网友评论