美文网首页每天学点机器学习
nlp中的传统语言模型与神经语言模型

nlp中的传统语言模型与神经语言模型

作者: fighting41love | 来源:发表于2018-11-03 22:36 被阅读0次

    总有一些专有名词听上去“很屌”,了解了其概念后,便觉得:“哦,原来是这么简单的小知识点”。语言模型就是这样一个名词,作为nlp基础组件之一,在诸多的上层应用中都有重要应用。

    简言之,语言模型就是给一个句子(词序列)分配一个概率。这个概率表示这句话“合理程度”。举个例子:

    你儿子在我手上,快点把钱叫出来。 prob=0.80
    # 这样一个句子,非常“通顺”,就得到一个很高的概率值。
    特朗普在厕所里摆满了多个艺员。 prob=0.20
    # 这样一个句子,非常“怪异”,也可能是有别字、语病的,就得到一个很低的概率值。
    

    把语言模型(词序列-->概率)写成公式,就得到了
    P(w_1,.....,w_n)=P(w_1)*P(w_2|w_1)*P(w_3|w_1,w_2)*......*P(w_n|w_1,...,w_{n-1}).
    上述公式使用了链式法则,即当前第n个词用哪一个,完全取决于前n-1个词。有了上面的公式,我们就可以基于训练语料,计算一个句子的概率值了。这里面有一个问题,每一个词都取决于前n-1个词,这使得计算复杂度猛增。为了简化,采用了Markov-Assumption,即当前要选择的词仅仅依赖于前一个词。有的同学可能会说,对于文本序列,每个当前词仅取决于前一个词,这样会不会过于简单?是的,太简单了,所以传统的语言模型往往采用了k阶Markov-Assumption,k=3,4,5,写成公式:
    P(w_1,.....,w_n)=\prod_{i=1}^{n}P(w_i|w_{i-k},...,w_{i-1}).

    很自然的,我们就可以通过对语料的统计,得出一个句子的概率。
    传统的语言模型也是这么做的,假设\#(w_i,...,w_j)表示词序列w_i,...,w_j在语料中出现的次数。那么,对于一个词“word”,运用公式就可以得到:
    P(w_{i+1}|w_{i-k},...,w_{i})=\frac{\#(w_{i-k},...,w_{i+1})}{\#(w_{i-k},...,w_{i})}
    然后对计算得到的多个P(w_{i+1}|w_{i-k},...,w_{i-1})连乘,就得到了句子的概率。

    这里有个问题,即分母的\#(w_{i-k},...,w_{i})等于0,怎么办?
    有两种处理方法,1. 平滑技术 2. back-off,又出现了两个看起来很“屌”的词汇,其原理其实非常简单。

    1. 平滑技术
      既然分母有可能等于0,那我们就加一个常数,不让其等于0,比如在分母处+1,这就是所谓的平滑。如下所示:
      P(w_{i+1}|w_{i-k},...,w_{i})=\frac{\#(w_{i-k},...,w_{i+1})}{\#(w_{i-k},...,w_{i})+1}
      平滑的技术有很多种,大多论文集中在1990-2000年之间,就不详细介绍了。最常见的叫做\alpha平滑,即
      P(w_{i+1}|w_{i-k},...,w_{i})=\frac{\#(w_{i-k},...,w_{i+1}+\alpha)}{\#(w_{i-k},...,w_{i})++\alpha |V|}
      其中,|V|是词表大小,\alpha是(0,1]之间的常数。

    2. back-off
      退一步海阔天空,这可能就是back-off的由来吧,既然\#(w_{i-k},...,w_{i})为0
      ,那就想办法估计一个值出来。这里我们直接给出最佳的“非神经网络语言模型”中使用到的办法,如下所示,看起来很复杂,其实原理很简单。
      p _ { } \left( w _ { i+1 } | w _ { i - k},...,w_i \right) =\lambda_{w_{i-k},...,w_{i+1}} \frac { \# \left( w _ { i - k},...,w_{i+1} \right) } { \# \left( w_{ i - k },..., w_i \right) } +(1-\lambda_{w_{i-k},...,w_i} )p _ { } \left( w _ { i+1 } | w _ { i - (k - 1)} ,..., w_i \right)
      \#(w_{i-k},...,w_{i})为0,则我们使用后一项估计,最后一项是用k-1元gram去估计k元ngram的值。

    平滑和back-off的变种很多,详见这篇论文:An Empirical Study of Smoothing Techniques for Language Modeling
    非神经网络的最佳语言模型如下:
    p _ { } \left( w _ { i+1 } | w _ { i - k },...,w_i \right) = \frac { \# \left( w _ { i - k},...,w_{i+1} \right) - D \left( \# \left( w _ { i - k },...,w_{i+1} \right) \right) } { \# \left( w _ { i - k },..., w_{i-1} \right) } + \gamma \left( w _ { i - k} ,...,w_{i } \right) p _ { } \left( w_{ i+1 } | w _ { i - (k - 1)} ,..., w_i \right)

    语言模型的评价--perplexity 困惑度
    语言模型的变种有很多,如何评价语言模型的好坏呢?
    公式如下:
    2 ^ { - \sum _ { x } p ( x ) \log _ { 2 } p ( x ) }
    其中, p(x)=p _ { } \left( w _ { i+1 } | w _ { i - k },...,w_i \right)
    困惑度值(1,+\infty), 就是说一个词序列越不合理,其困惑度越大,即让你越困惑。。。这里有个疑问,为什么用上述公式,其本质是什么,留给大家思考。

    传统语言模型的缺点是什么?

    1. 平滑技术 or back-off,这类方法属于人工设计规则,设计规则纷繁复杂,哪一种适合什么样的语料,难有定论。困惑度可以用于评价各种规则,但困惑度本身并不是一个完美的评价方法。
    2. 词表为V的n-gram数目是|V|^n,如果n每增加1,要计算的n-gram至少会倍增。
    3. 基于极大似然估计的语言模型缺少对上下文的泛化,比较“死板”。比如,原语料中出现白汽车、黑汽车,而没有黄汽车,该语言模型就会影响对黄汽车的概率估计。当然,某些具体的nlp应用中,这种“死板”反而是一种优势,这种语言模型的灵活性低,但能够降低了recall,提升precision。举个例子,比如,原语料中出现了黑马、白马,这时出现蓝马的概率就很低。而对于灵活的语言模型,很有可能蓝马的概率也偏高。

    neural language model 神经语言模型

    基于神经网络的语言模型能解决上述三个问题,其模型的数学表达式,简写如下:
    p _ { } \left( w _ { i+1 } | w _ { i - k },...,w_i \right)=softmax(hW^2+b^2)
    以k元文法为例,前k-1个词作为特征,softmax预测最后一个词。词表|V|可能很大,比如1000000,这时可以使用heiraichle softmax,能够有效提升效果、节省预测时间。当然,还有一种NEC方法,通过一系列的二分类问题替换交叉熵目标函数。

    实例总结

    在机器翻译任务中,传统的语言模型和神经语言模型同时使用,会提升翻译质量,模型之间似乎在互相补充。综上所述,神经语言模型的泛化能力更好,传统方法泛化能力差。红马、蓝马的例子中,我们看到泛化能力好,也不一定是优点。在合适的场景下,选择适合的语言模型就ok了。在开发文本纠错的应用过程中,我们采用了传统的语言模型,因为神经语言模型的泛化能力过强,会带来错别字大量误判,反而降低了系统的表现。

    相关文章

      网友评论

        本文标题:nlp中的传统语言模型与神经语言模型

        本文链接:https://www.haomeiwen.com/subject/eszkxqtx.html