美文网首页
自然语言处理学习复习2(贝叶斯)

自然语言处理学习复习2(贝叶斯)

作者: 阿门aaa | 来源:发表于2018-12-20 11:09 被阅读0次

贝叶斯公式

贝叶斯公式就一行:


image.png

而它其实是由以下的联合概率公式推导出来:


image.png

其中 P(Y) 叫做先验概率, P(Y|X) 叫做后验概率, P(Y,X) 叫做联合概率。

机器学习的视角理解贝叶斯公式

在机器学习的视角下,我们把 X 理解成“具有某特征”,把 Y 理解成“类别标签”。
而我们二分类问题的最终目的就是要判断 P(“属于某类”|“具有某特征”) 是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,而后者获取方法就简单多了,我们只需要找到一些包含已知特征标签的样本,即可进行训练。

分词以及条件独立假设 image.png

(我们令字母S表示“垃圾邮件”,令字母H表示“正常邮件”。)

## 处理重复词语的三种方式

我们之前的垃圾邮件向量(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”),其中每个词都不重复。而这在现实中其实很少见。因为如果文本长度增加,或者分词方法改变,必然会有许多词重复出现,因此需要对这种情况进行进一步探讨。比如以下这段邮件:

“代开发票。增值税发票,正规发票。” 分词后为向量: (“代开”,“发票”,“增值税”,“发票”,“正规”,“发票”)

其中“发票”重复了三次。

9.1 多项式模型:

如果我们考虑重复词语的情况,也就是说,重复的词语我们视为其出现多次,直接按条件独立假设的方式推导,则有

image.png
image.png

需要去除停用词

处理未出现的词---平滑技术(加1)

image.png

工程处理

取对数,转权重,topk,样本分割,位置权重

从朴素贝叶斯(词袋子模型)到N-gram语言模型

image.png

相关文章

  • 自然语言处理-朴素贝叶斯方法

    最近学习了自然语言处理的朴素贝叶斯方法,下面是我对朴素贝叶斯方法的理解。下面是本文的结构: 1、贝叶斯公式的介绍 ...

  • 自然语言处理学习复习2(贝叶斯)

    贝叶斯公式 贝叶斯公式就一行: 而它其实是由以下的联合概率公式推导出来: 其中 P(Y) 叫做先验概率, P(Y|...

  • NLP体系导览

    自然语言处理(NLP) 数学基础 概率论条件概率、联合概率与独立全概率公式与贝叶斯公式信息熵马尔科夫过程 图论贝叶...

  • 朴素贝叶斯法

    朴素贝叶斯法 朴素贝叶斯法的学习与分类 朴素贝叶斯法的参数估计 朴素贝叶斯实现 高斯朴素贝叶斯实现 使用 skle...

  • 朴素贝叶斯

    学习机器学习最简单的算法可以说就是 朴素贝叶斯了,今天分享下自己的学习心得。 什么是贝叶斯,什么是朴素贝叶斯 贝叶...

  • 贝叶斯推理:机器学习为什么需要大量信息?

    第5章 贝叶斯法 5.2贝叶斯推理:机器学习为什么需要大量信息? ➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖ ️5.2贝叶斯推...

  • 【NLP】经典分类模型朴素贝叶斯解读

    贝叶斯分类器在早期的自然语言处理任务中有着较多实际的应用,例如大部分的垃圾邮件处理都是用的贝叶斯分类器。贝叶斯分类...

  • 朴素贝叶斯算法

    问题 1. 什么是朴素贝叶斯 2. 怎么理解贝叶斯公式和朴素贝叶斯公式 3. 朴素贝叶斯算法流程是怎样...

  • 从胃和瞌睡的关系看认知

    先看看贝叶斯 再看看贝叶斯公式 再说说贝叶斯在生活中的运用 1.数学之美番外篇:平凡而又神奇的贝叶斯方法 2.贝叶...

  • 朴素贝叶斯的垃圾邮件分类器

    引言 文章根据udacity自然语言处理进行整理,提供给初学者进行参考。主要围绕朴素贝叶斯算法的基本原理和使用朴素...

网友评论

      本文标题:自然语言处理学习复习2(贝叶斯)

      本文链接:https://www.haomeiwen.com/subject/efnekqtx.html