自然语言处理学习复习2（贝叶斯）

自然语言处理学习复习2（贝叶斯）

作者: 阿门aaa | 来源:发表于2018-12-20 11:09 被阅读0次

自然语言处理-朴素贝叶斯方法
自然语言处理学习复习2（贝叶斯）
NLP体系导览
朴素贝叶斯法
朴素贝叶斯
贝叶斯推理:机器学习为什么需要大量信息？
【NLP】经典分类模型朴素贝叶斯解读
朴素贝叶斯算法
从胃和瞌睡的关系看认知
朴素贝叶斯的垃圾邮件分类器

贝叶斯公式

贝叶斯公式就一行：

image.png

而它其实是由以下的联合概率公式推导出来：

image.png

其中 P(Y) 叫做先验概率， P(Y|X) 叫做后验概率， P(Y,X) 叫做联合概率。

机器学习的视角理解贝叶斯公式

在机器学习的视角下，我们把 X 理解成“具有某特征”，把 Y 理解成“类别标签”。
而我们二分类问题的最终目的就是要判断 P(“属于某类”|“具有某特征”) 是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率，而后者获取方法就简单多了，我们只需要找到一些包含已知特征标签的样本，即可进行训练。

分词以及条件独立假设 image.png

（我们令字母S表示“垃圾邮件”,令字母H表示“正常邮件”。）

## 处理重复词语的三种方式¶

我们之前的垃圾邮件向量（“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”)，其中每个词都不重复。而这在现实中其实很少见。因为如果文本长度增加，或者分词方法改变，必然会有许多词重复出现，因此需要对这种情况进行进一步探讨。比如以下这段邮件：

“代开发票。增值税发票，正规发票。” 分词后为向量：（“代开”,“发票”,“增值税”,“发票”,“正规”,“发票”）

其中“发票”重复了三次。

9.1 多项式模型：

如果我们考虑重复词语的情况，也就是说，重复的词语我们视为其出现多次，直接按条件独立假设的方式推导，则有

image.png

image.png

需要去除停用词

处理未出现的词---平滑技术（加1）

image.png

工程处理

取对数，转权重，topk，样本分割，位置权重

从朴素贝叶斯（词袋子模型）到N-gram语言模型

image.png

相关文章

自然语言处理-朴素贝叶斯方法
最近学习了自然语言处理的朴素贝叶斯方法，下面是我对朴素贝叶斯方法的理解。下面是本文的结构： 1、贝叶斯公式的介绍 ...
自然语言处理学习复习2（贝叶斯）
贝叶斯公式贝叶斯公式就一行：而它其实是由以下的联合概率公式推导出来：其中 P(Y) 叫做先验概率， P(Y|...
NLP体系导览
自然语言处理(NLP) 数学基础概率论条件概率、联合概率与独立全概率公式与贝叶斯公式信息熵马尔科夫过程图论贝叶...
朴素贝叶斯法
朴素贝叶斯法朴素贝叶斯法的学习与分类朴素贝叶斯法的参数估计朴素贝叶斯实现高斯朴素贝叶斯实现使用 skle...
朴素贝叶斯
学习机器学习最简单的算法可以说就是朴素贝叶斯了，今天分享下自己的学习心得。什么是贝叶斯，什么是朴素贝叶斯贝叶...
贝叶斯推理:机器学习为什么需要大量信息？
第5章贝叶斯法 5.2贝叶斯推理:机器学习为什么需要大量信息？ ➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖ ️5.2贝叶斯推...
【NLP】经典分类模型朴素贝叶斯解读
贝叶斯分类器在早期的自然语言处理任务中有着较多实际的应用，例如大部分的垃圾邮件处理都是用的贝叶斯分类器。贝叶斯分类...
朴素贝叶斯算法
问题 1. 什么是朴素贝叶斯 2. 怎么理解贝叶斯公式和朴素贝叶斯公式 3. 朴素贝叶斯算法流程是怎样...
从胃和瞌睡的关系看认知
先看看贝叶斯再看看贝叶斯公式再说说贝叶斯在生活中的运用 1.数学之美番外篇：平凡而又神奇的贝叶斯方法 2.贝叶...
朴素贝叶斯的垃圾邮件分类器
引言文章根据udacity自然语言处理进行整理，提供给初学者进行参考。主要围绕朴素贝叶斯算法的基本原理和使用朴素...

网友评论

本文标题：自然语言处理学习复习2（贝叶斯）

本文链接：https://www.haomeiwen.com/subject/efnekqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|自然语言处理学习复习2（贝叶斯）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！