美文网首页
自然语言处理学习复习2(贝叶斯)

自然语言处理学习复习2(贝叶斯)

作者: 阿门aaa | 来源:发表于2018-12-20 11:09 被阅读0次

    贝叶斯公式

    贝叶斯公式就一行:


    image.png

    而它其实是由以下的联合概率公式推导出来:


    image.png

    其中 P(Y) 叫做先验概率, P(Y|X) 叫做后验概率, P(Y,X) 叫做联合概率。

    机器学习的视角理解贝叶斯公式

    在机器学习的视角下,我们把 X 理解成“具有某特征”,把 Y 理解成“类别标签”。
    而我们二分类问题的最终目的就是要判断 P(“属于某类”|“具有某特征”) 是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,而后者获取方法就简单多了,我们只需要找到一些包含已知特征标签的样本,即可进行训练。

    分词以及条件独立假设 image.png

    (我们令字母S表示“垃圾邮件”,令字母H表示“正常邮件”。)

    ## 处理重复词语的三种方式

    我们之前的垃圾邮件向量(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”),其中每个词都不重复。而这在现实中其实很少见。因为如果文本长度增加,或者分词方法改变,必然会有许多词重复出现,因此需要对这种情况进行进一步探讨。比如以下这段邮件:

    “代开发票。增值税发票,正规发票。” 分词后为向量: (“代开”,“发票”,“增值税”,“发票”,“正规”,“发票”)

    其中“发票”重复了三次。

    9.1 多项式模型:

    如果我们考虑重复词语的情况,也就是说,重复的词语我们视为其出现多次,直接按条件独立假设的方式推导,则有

    image.png
    image.png

    需要去除停用词

    处理未出现的词---平滑技术(加1)

    image.png

    工程处理

    取对数,转权重,topk,样本分割,位置权重

    从朴素贝叶斯(词袋子模型)到N-gram语言模型

    image.png

    相关文章

      网友评论

          本文标题:自然语言处理学习复习2(贝叶斯)

          本文链接:https://www.haomeiwen.com/subject/efnekqtx.html