美文网首页
统计语言模型

统计语言模型

作者: dreampai | 来源:发表于2019-01-25 18:15 被阅读0次

    一个句子是否合理,就看它的可能性大小如何(概率)。


    image.png
    image.png

    马尔科夫假设:任意一个词出现的概率只同它前面的词有关。

    image.png

    高阶语言模型

    N 元模型:假设一个词由前面的 N-1 个词决定,对应的模型稍微复杂些。,即 N-1 阶马尔科夫假设

    image.png
    为什么 N 取值一般很小
    • N 元模型的大小(空间复杂度)几乎是 N 的指数函数。
    • 三元或四元甚至更高阶的模型也不能覆盖所有的语言现象。在自然语言中,上下文之间的相关性可能跨度非常大,甚至可以从一个段落跨到另一个段落。这就是马尔可夫假设的局限性。


      image.png

    2、模型的训练、零概率问题和平滑方法

    古德-图灵估计原理:对于没有看见的事件,我们不能认为它发生的概率是零,因此从概率的总量中,分配一个很小的比例给这些没有看见的事件。


    image.png

    看见的那些事件的概率总和就要小于 1 了,因此,需要将所有看见的事件概率调小一点。至于小多少,要根据“越是不可信的统计折扣越多”的方法进行。


    image.png
    image.png
    image.png

    自然语言处理中,一般对出现次数超过某个阈值的词,频率不下调,支队出现次数低于某个阈值的词,频率才下调,下调得到的频率总和给未出现的词。(出现次数越少,折扣越多。对于未看见的词,也给予了一个比较小的概率。)

    相关文章

      网友评论

          本文标题:统计语言模型

          本文链接:https://www.haomeiwen.com/subject/rnfvjqtx.html