语言模型:用于判断一句话是否语法通顺
给已经训练好的语言模型可以对任何一个文本给出概率,概率越高说明语法上越通顺
链式概率 P(今天是周日) = P(今天)P(是|今天)P(周日|今天,是)
语言模型会算好 P(今天)、P(是|今天)、P(周日|今天,是) 每一项的概率值是多少
问题:当句子非常长的时候,语料库很少有相同的句子,很容易出现P=0的情况
马尔可夫假设:当前中心词只考虑前面N个单词的条件概率
马尔科夫假设(1阶、2阶、3阶。。。对应 N = 1、2、3)
image.png
一阶马尔可夫假设:Bigram
第一个 P(w1)= 词频 / 语料单词数
image.png
【总结】
语言模型的概率值可基于语料库来统计
根据使用的马尔科夫假设的不同,可以把语言模型分为unigram, bigram, trigram, ngram。。。
当考虑多个单词的时候,条件概率往往变得稀疏,导致大部分都变成0。
【评估】困惑度,阶数越大,模型越复杂,困惑度越小,越准确也越过拟合
image.png
网友评论