统计语言模型

作者: dreampai | 来源:发表于2019-01-25 18:15 被阅读0次

一个句子是否合理，就看它的可能性大小如何（概率）。

image.png

马尔科夫假设：任意一个词出现的概率只同它前面的词有关。

image.png

高阶语言模型

N 元模型：假设一个词由前面的 N-1 个词决定，对应的模型稍微复杂些。，即 N-1 阶马尔科夫假设

image.png
为什么 N 取值一般很小

N 元模型的大小（空间复杂度）几乎是 N 的指数函数。
三元或四元甚至更高阶的模型也不能覆盖所有的语言现象。在自然语言中，上下文之间的相关性可能跨度非常大，甚至可以从一个段落跨到另一个段落。这就是马尔可夫假设的局限性。

image.png

2、模型的训练、零概率问题和平滑方法

古德-图灵估计原理：对于没有看见的事件，我们不能认为它发生的概率是零，因此从概率的总量中，分配一个很小的比例给这些没有看见的事件。

image.png

看见的那些事件的概率总和就要小于 1 了，因此，需要将所有看见的事件概率调小一点。至于小多少，要根据“越是不可信的统计折扣越多”的方法进行。

image.png

自然语言处理中，一般对出现次数超过某个阈值的词，频率不下调，支队出现次数低于某个阈值的词，频率才下调，下调得到的频率总和给未出现的词。（出现次数越少，折扣越多。对于未看见的词，也给予了一个比较小的概率。）

本文标题：统计语言模型

本文链接：https://www.haomeiwen.com/subject/rnfvjqtx.html