美文网首页
TF-LSTM、Grid-LSTM

TF-LSTM、Grid-LSTM

作者: ChongmingLiu | 来源:发表于2018-08-13 14:30 被阅读431次

一、简介

F-LSTM和TF-LSTM主要目的是为了取代CNN作为特征提取的工具,来达到对频带间相关性建模的目的。F-LSTM和TF-LSTM也是通过类似卷积的方式,通过一个小的滑动窗来捕获语音的平移不变性。

因为使用Peephole方式的LSTM效果更好一些,因此本文提到了LSTM都是使用Peephole连接方式。
通过对比实验,Grid-LSTM与TF-LSTM特征提取的效果要比CNN好很多,但同时计算速度也慢很多。

T/F-LDNN

二、T-LSTM

T-LSTM就是原始的LSTM,沿着时间轴,将每帧输入LSTM中进行预测。即上图横向。

三、F-LSTM

F-LSTM的形式与T-LSTM类似,只不过输入有变化,其中的
x0 = xt0:Fx1 = xt1:1+Fx2 = xt2:2+F,......,
即将每帧语音按照长为 F的滑动窗 进行分割,并且 步长为S,输入到F-LSTM中。
则特征维度为N的一帧语音被分割为L = (N - F)/S + 1 块。

形式化表述:

其中:

  • ij :输入门
  • fj :遗忘门
  • cj:memory cell
  • oj:输出门
  • mj:LSTM的输出
F-LSTM单元引入了如下信息:
  • 当前时刻输入xj
  • 上一时刻输出mt-1
  • 上一时刻memoryct-1

优点:

  1. 与CNN类似,也是采用权值共享减少参数个数;
  2. 可以提取频带局部结构;
  3. 卷积通过pooling捕获频率的平移不变性,F-LSTM能够实现类似max-pooling的作用,并且省去了对pooling操作调参的步骤;

四、TF-LSTM

手绘示意图

因为语音的时域和频域存在相关性,因此对时频同时建模来引入时频之间的相关性。

形式化表述:
TF-LSTM单元引入了如下信息:
  • 当前时刻输入xt,k
  • 当前时刻第k-1个block的输出mt,k-1
  • 上一时刻第 k 个block的输出mt-1,k
  • 上一时刻第 k 个block的memoryct-1,k

五、Grid-LSTM

TF-LSTM与Grid-LSTM的最大差别就是Grid-LSTM在time-domain和frequency-domain分别各有一个LSTM单元,而TF-LSTM是将time-domain和frequency-domain放在一个LSTM单元里。
Grid-LSTM分别得到时域和频域的输出,然后将两者拼接(concatenate)到一起。

但是两个LSTM单元在训练时计算量很大,导致Grid-LSTM训练速度比TF-LSTM慢很多,但是也可以令gF-LSTM和gT-LSTM的权值共享,可以加快LSTM的训练速度,降低计算开销。

形式化表述:
Grid-LSTM单元引入了如下信息:
  • 当前时刻输入xt,k
  • 当前时刻第k-1个block的输出mt,k-1
  • 上一时刻第 k 个block的输出mt-1,k
  • 上一时刻第 k 个block的memoryct-1,k
  • 当前时刻第k-1个block的memoryct,k-1

相关文章

  • TF-LSTM、Grid-LSTM

    一、简介 F-LSTM和TF-LSTM主要目的是为了取代CNN作为特征提取的工具,来达到对频带间相关性建模的目的。...

网友评论

      本文标题:TF-LSTM、Grid-LSTM

      本文链接:https://www.haomeiwen.com/subject/kwphbftx.html