DeepLearning笔记: 语言模型和 N-gram

作者: Kidult | 来源:发表于2018-01-02 17:54 被阅读161次

DeepLearning笔记: 语言模型和 N-gram
n-gram模型创建与分析
词向量原理
自然语言处理中的N-Gram模型详解
Word2vec
N-gram
中文NLP笔记：8. 基于LSTM的文本分类
N-gram模型和神经语言模型
n-gram模型
学习笔记-简单概念记录

语言模式是自然语言处理的一个基础概念。我们可以从语料中得到「语言模型」—— 即句子的概率，可用于：

发现错别句子
发现新短语
生成句子（如模仿汪峰写歌）

机器怎样理解自然语言呢？有两种思路：

学习语法：词性、句子成分，但不能保证语义，如，火星追杀绿色的梦
概率统计齐夫定律：频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍），香农的信息论

概率论基本原理

概率空间：所有可能的结果。概率中的原子结构是基本事件，不可分割，不重叠；分子结构是事件（基本事件的集合）。事件的概率，可以理解为所选取的基本事件在整个空间里占的面积比例。

联合概率 P(A,B)：两个事件同时发生，比如掷两次筛子，可能有 $6^2$ 种结果。
条件概率 P(B|A)：A 条件下 B 发生的概率。从一个大的空间进入到一个子空间（切片），计算在子空间中的占比。

概率语言模型

计算句子的概率： P(S) = P(w_1,w_2,w_3,...,w_n)
用处：句子错误检查、输入法候选、生成有用的句子等等
统计：随着空间膨胀，数据变稀疏，样本有效性降低

对句子做最简化的处理，先考虑只有两个词的句子，根据条件概率公式，它的概率等于第一个词的空间占比，乘以第一个词的概率空间中第二个词的占比：P(w_1,w_2) = P(w_2|w_1)*P(w_1)

最初级的语言模型（Unigram），可以人为地假设词之间是独立的： P(w_2|w_1) ≈ P(w_2)，于是这个句子的概率约等于两个词的频率相乘： P(w_2,w_1) ≈ P(w_1)*P(w_2)

如果把两个词的句子扩展为三个词：

以此类推：

这样做的话，对每个词要考虑它前面的所有词，这在实际中意义不大。可以做些简化吗？

我们可以基于马尔科夫假设来做简化。

马尔科夫假设是指，每个词出现的概率只跟它前面的少数几个词有关。比如，二阶马尔科夫假设只考虑前面两个词，相应的语言模型是三元模型。引入了马尔科夫假设的语言模型，也可以叫做马尔科夫模型。

马尔可夫链（Markov chain）为狀態空間中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。

比如对上面公式做一个 i-k 的简化：

物理意义上说，上面的公式意味着每次看到 i 时，只要关注 i 前面的 k 个词，这就是 N-gram 模型的思路。

Ref

Art & Code 的热门文章

DeepLearning笔记: 语言模型和 N-gram
语言模式是自然语言处理的一个基础概念。我们可以从语料中得到「语言模型」—— 即句子的概率，可用于：发现错别句子 ...
n-gram模型创建与分析
n-gram模型：在自然语言里有一个模型叫做n-gram，表示文字或语言中的n个连续的单词组成序列。在进行自然语言...
词向量原理
了解词向量要从语言模型说起，语言模型其实就是计算任意一个句子的概率。经典的语言模型是n-gram模型，该模型假设...
自然语言处理中的N-Gram模型详解
1.自然语言处理中的N-Gram模型详解
Word2vec
预备知识：LR、贝叶斯公式、赫夫曼编码、统计语言模型、n-gram模型、神经概率语言模型、词向量、词袋模型、sof...
N-gram
N-gram模型是一种语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是...
中文NLP笔记：8. 基于LSTM的文本分类
序列模型语言模型 N-gram 前面的词袋模型（Bag-of-Words，BoW），没有考虑每个词的顺序有...
N-gram模型和神经语言模型
概率模型统计语言模型实际上是一个概率模型，所以常见的概率模型都可以用于求解这些参数常见的概率模型有：N-gra...
n-gram模型
n-gram模型 N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑...
学习笔记-简单概念记录
语言模型：衡量一句话是句子的概率假设有句子,根据语言模型计算s的概率为通常还使用n-gram语言模型计算句子概率 ...

DeepLearning笔记: 语言模型和 N-gram

概率论基本原理

概率语言模型

Ref

Art & Code 的热门文章

相关文章

DeepLearning笔记: 语言模型和 N-gram

n-gram模型创建与分析

词向量原理

自然语言处理中的N-Gram模型详解

Word2vec

N-gram

中文NLP笔记：8. 基于LSTM的文本分类

N-gram模型和神经语言模型

n-gram模型

学习笔记-简单概念记录

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

人工智能

Python机器学习

首页投稿（暂停使用，暂停投稿）

@IT·互联网

程序员

人工智能/模式识别/机器学习精华专题

互联网科技