美文网首页aboutDL
序列模型之语言模型(Language model)简记

序列模型之语言模型(Language model)简记

作者: madeirak | 来源:发表于2019-01-30 12:29 被阅读5次

语言模型用来估计句子的可能性P(sentence)

一个句子的概率(W_{k} 是第k个词)

语料库(corpus)指的是很大的某种语言(例如英语)句子组成的文本。通过将语料库中的每个单词映射成索引(例如独热向量)形成字典。可以按需在字典中添加句子末尾标志<EOS>(end of sentence)和对应未出现在字典中的低频词的标志<UNK>(unknown words)作为补充。

一个句子的概率 bigram的计算

际应用中还会遇到一个问题:数据稀疏,解决方法介绍加法平滑

假设有一个词组在训练语料中没有出现过,那么它的频次就为0,但实际上显然不能认为它出现的概率为0,我们无法保证训练语料的完备性。那么,解决的方法是什么?如果我们默认每一个词组都出现至少1次呢,无论词组出现的频次是多少,都往上加1,这就能够解决未出现词组概率为0的问题了。

加法平滑,\delta 取常数

相关文章

  • 序列模型之语言模型(Language model)简记

    语言模型用来估计句子的可能性(sentence) 语料库(corpus)指的是很大的某种语言(例如英语)句子组成的...

  • NLP复习(Lecture 9-15)

    Lecture 9 Language Model 语言模型分两类——概率语言模型和结构语言模型 1. N-Gra...

  • 概念整理

    统计语言模型 统计语言模型(Statistical Language Model)即是用来描述词、语句乃至于整个文...

  • word2vec与cw2vec的数学原理

    统计语言模型(Statistical Language Model) 传统的统计语言模型是表示语言基本单位(一般为...

  • Language Modeling

    Language Modeling 语言模型:估计单词序列的概率值,其中单词序列为:。我们要求得概率为 语言模型应...

  • N-gram

    N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是...

  • 第3章 统计语言模型

    以下内容学习、摘录自《数学之美》 统计语言模型( Statistical Language Model),是今天所...

  • Spark之导出PMML文件(Python)

      PMML,全称预言模型标记语言(Predictive Model Markup Language),利用XML...

  • 循环卷积网络

    6.1 语言模型 语言模型(language model)是自然语言处理的重要技术。自然语言处理中最常见的数据是文...

  • NLP语言模型Language Model

    Language Model 语言模型用来判断:是否一句话从语法上通顺 LM—Obgective(目标=) : C...

网友评论

    本文标题:序列模型之语言模型(Language model)简记

    本文链接:https://www.haomeiwen.com/subject/urmqsqtx.html