要介绍的Models
大家都是seq2seq模型,所以用各自的名字区分。
需要介绍的模型
LAS
Listen
encoder RNN红色的三角形代表一个filter(吃100个acoustic features)
1D-CNN
self-attention
减少运算量。
image.png image.png
LAS中的attention
image.png另一种attention的方式,不是点乘了,而是相加后通过tanh。
image.png
image.png
Spell
输出第一个字母。
image.png
继续拿z1做match
image.png image.png image.png每次都选几率最大的。
image.png
缺点:但greedy decoding不见得会获取几率最大的结果。
(念博士的结果哈哈哈哈)
image.png
比greedy decoding更常见的是beam search。
image.png
Training
image.pngimage.png image.png
back to attention
image.png最早的语音辨识系统用的attention,两种模式都有(不仅影响当前,也影响下一个)。
image.png
attention的改变不应该乱跳。
image.png
第一篇用LAS的加了机制去控制按顺序改变attention。
image.png
LAS work 么?
很长一段时间之后,加了很多trick,居然打败了传统的模型。
image.png
image.png
神奇诶,机器自己学到了aaa和triple a是一样的。
LAS中decoder相当于加了一个language model。
image.png
正确率还有62.1%。哎,这个老师真的好搞笑,举的例子也很贴近生活,而我还是没懂细节哈哈哈,下来自己再看看。
LAS的限制
期待可以做online的语音辨识系统。
李宏毅DLHLP2020-LAS
网友评论