美文网首页
WFST 语言模型

WFST 语言模型

作者: 电子伏特 | 来源:发表于2020-02-28 15:57 被阅读0次

WFST语言模型表示形式

  1. arpa语言模型格式如下
\data\
ngram 1=5
ngram 2=3
ngram 3=2

\1-grams:
-1.3683  <s>      -2.5372
-1.6684  </s>      -2.2373
-1.5682  A      -2.8371
-1.4681  B      -2.9370
-1.0681  C      -2.0370

\2-grams:
-3.4627  A  B    -0.9884
-3.8627  A  C    -0.4884
-3.1627  B  C    -0.5884

\3-grams:
-4.3813  A    B      C
-4.4782  A    C      B

\end\
  1. arpa2fst转换后的WFST如下
语言模型WFST

状态与词历史对应关系如下表:

状态编号 词历史
0 -
4 A
5 B
6 C
7 AB
8 AC
9 BC(ABC)
10 CB(ACB)

几点说明

  • WFST中每一个状态有两种身份:作为发射状态时,表示词历史;作为到达状态时,表示语言模型中的一个文法条目(准确的说是和发射状态一起组成语言模型中的一个文法条目)
  • WFST中没有表示最高元文法的状态(例如三元文法),因为最高元文法不会作为词历史出现,不满足上一条所说的条件。三元文法A B C的状态是从AB表示的状态到BC表示状态的一条发射边(见上表)。
  • backoff权重的理解:若三元文法A B D不存在,此时词历史是A B,因此要回退到以B为词历史的文法,而回退权重是现在词历史A B所关联的回退权重,计算公式如下:

prob(D|A B) = backoff(A B)*prob(D|B) if (A B D) do not exist

因此最高元文法没有回退权重,因为最高元文法没有词历史的身份。根据以上的理解,WFST中表示回退是从A B表示的状态到B表示的状态的一条空边,边上的权重为backoff-weight

arpa2fst

arpa2fst程序会将apra语言模型转换为上图中的fst形式。
如果添加选项arpa2fst --disambig-symbol=#0指定#0,则会进行以下处理:

  1. 删除空边,即一个状态上只发出空边也就是回退边(例如上图中的状态10),则删除该边并状态合并。从语义上讲,这实际是删除了不存在的二元词历史所映射的状态,达到减小状态数的目的。
  2. 用特殊符号#0替换回退边上的输入空符号
  3. 将开始结束标签<s> </s>替换为空

处理后的G.fst如下:


G.PNG

相关文章

  • WFST 语言模型

    WFST语言模型表示形式 arpa语言模型格式如下 arpa2fst转换后的WFST如下 状态与词历史对应关系如下...

  • AI大语音(十二)——WFST解码器(下)(深度解析)

    把HMM、语言模型N-gram、发音词典、上下文相关转化成WFST,再进行合成得到一个巨大的WFST。 对这个巨大...

  • AI大语音(十一)——WFST解码器(上)(深度解析)

    为了让识别出来的语音符合常规语言表达,引入了语言模型作为约束。 为了加速解码识别效率又引入了WFST解码机制。 解...

  • Kaldi中解码代码解析

    解码就是输入音频,利用声学模型、构建好的WFST解码网络,输出最优状态序列的过程。以Kaldi中LatticeFa...

  • CMU Sphinx语音识别入门:构建语言模型

      CMUSphinx支持多种语言解码模型,包括:关键字列表模型、语法模型、统计语言模型和语言语音模型。不同的模型...

  • WFST相关学习

    知识准备 群非空,上定义二元运算 :满足已下条件:(1)封闭性 有(2)结合律 有 (3)幺元有(4)逆元使得则称...

  • TensorFlow 实战Google深度学习框架(第2版)第九

    第九章:自然语言处理 * 9.1语言模型的背景知识 * 9.1.1语言模型简介 * 9.1.2语言模型的评...

  • 语言模型

    什么是语言模型 语言模型建模方法分为 统计语言模型 和 规则语言模型 两大类,前者完全依靠大文本的数据,用统计的方...

  • 语言模型

    模型:可以量化,可以打分。 语言模型 概率语言模型(统计语言模型) 用处示例:输入法、机器翻译、语音识别等。 N-...

  • 词向量原理

    了解词向量要从语言模型说起,语言模型其实就是计算任意一个句子的概率。 经典的语言模型是n-gram模型,该模型假设...

网友评论

      本文标题:WFST 语言模型

      本文链接:https://www.haomeiwen.com/subject/onfreftx.html