美文网首页
统计语言模型

统计语言模型

作者: dreampai | 来源:发表于2019-01-25 18:15 被阅读0次

一个句子是否合理,就看它的可能性大小如何(概率)。


image.png
image.png

马尔科夫假设:任意一个词出现的概率只同它前面的词有关。

image.png

高阶语言模型

N 元模型:假设一个词由前面的 N-1 个词决定,对应的模型稍微复杂些。,即 N-1 阶马尔科夫假设

image.png
为什么 N 取值一般很小
  • N 元模型的大小(空间复杂度)几乎是 N 的指数函数。
  • 三元或四元甚至更高阶的模型也不能覆盖所有的语言现象。在自然语言中,上下文之间的相关性可能跨度非常大,甚至可以从一个段落跨到另一个段落。这就是马尔可夫假设的局限性。


    image.png

2、模型的训练、零概率问题和平滑方法

古德-图灵估计原理:对于没有看见的事件,我们不能认为它发生的概率是零,因此从概率的总量中,分配一个很小的比例给这些没有看见的事件。


image.png

看见的那些事件的概率总和就要小于 1 了,因此,需要将所有看见的事件概率调小一点。至于小多少,要根据“越是不可信的统计折扣越多”的方法进行。


image.png
image.png
image.png

自然语言处理中,一般对出现次数超过某个阈值的词,频率不下调,支队出现次数低于某个阈值的词,频率才下调,下调得到的频率总和给未出现的词。(出现次数越少,折扣越多。对于未看见的词,也给予了一个比较小的概率。)

相关文章

  • 语言模型

    什么是语言模型 语言模型建模方法分为 统计语言模型 和 规则语言模型 两大类,前者完全依靠大文本的数据,用统计的方...

  • word2vec与cw2vec的数学原理

    统计语言模型(Statistical Language Model) 传统的统计语言模型是表示语言基本单位(一般为...

  • 概念整理

    统计语言模型 统计语言模型(Statistical Language Model)即是用来描述词、语句乃至于整个文...

  • CMU Sphinx语音识别入门:构建语言模型

      CMUSphinx支持多种语言解码模型,包括:关键字列表模型、语法模型、统计语言模型和语言语音模型。不同的模型...

  • 统计语言模型

    说到统计语言模型,我们不得不提到它的提出者贾里尼克,他的出发点很简单:一个句子是否合理,就看它的可能性大小如何。那...

  • 统计语言模型

    一个句子是否合理,就看它的可能性大小如何(概率)。 马尔科夫假设:任意一个词出现的概率只同它前面的词有关。 高阶语...

  • 语言模型

    模型:可以量化,可以打分。 语言模型 概率语言模型(统计语言模型) 用处示例:输入法、机器翻译、语音识别等。 N-...

  • <<数学之美>> part1

    摘要 : [自然语言处理] [基于规则] [基于统计] [统计语言模型] [马尔科夫] [分词] 自然语言处理--...

  • NLP-统计语言模型的平滑方法

    一、引言 在NLP-统计语言模型中简要介绍了统计语言模型的原理和实现方法,以bigram为例,计算了 的概率,这是...

  • 《数学之美》统计语言模型、分词

    语言模型 基于规则的模型 基于概率的模型 统计语言模型 问题:整个句子的概率:为了保证句子通顺,不出现歧义,计算整...

网友评论

      本文标题:统计语言模型

      本文链接:https://www.haomeiwen.com/subject/rnfvjqtx.html