什么是语言模型
用来判断是否一句话是否在语法上通顺.
方法有哪些?
- Unigram: 即每个单词都是独立的,直接将单词的概率累乘得到句子的概率;
- Bigram: 即前后单词是有依赖的,利用条件概率累乘;
- N-gram: 是bigram的扩展
平滑
在统计是分子分母加上一个值,进行平滑. 一般是将分子+k, 分布加kv. 其中k是可调参数,v是固定参数
差值: interpolation
在计算条件概率p时经常会得到0的情况, 我们可以用插值方法进行数据的补充,例如 trigram用unigram来补充数据.
上图是trigram利用bigram,unigram插值, 即trigram的结果是其他gram的加权结果.
网友评论