美文网首页
TF-LSTM、Grid-LSTM

TF-LSTM、Grid-LSTM

作者: ChongmingLiu | 来源:发表于2018-08-13 14:30 被阅读431次

    一、简介

    F-LSTM和TF-LSTM主要目的是为了取代CNN作为特征提取的工具,来达到对频带间相关性建模的目的。F-LSTM和TF-LSTM也是通过类似卷积的方式,通过一个小的滑动窗来捕获语音的平移不变性。

    因为使用Peephole方式的LSTM效果更好一些,因此本文提到了LSTM都是使用Peephole连接方式。
    通过对比实验,Grid-LSTM与TF-LSTM特征提取的效果要比CNN好很多,但同时计算速度也慢很多。

    T/F-LDNN

    二、T-LSTM

    T-LSTM就是原始的LSTM,沿着时间轴,将每帧输入LSTM中进行预测。即上图横向。

    三、F-LSTM

    F-LSTM的形式与T-LSTM类似,只不过输入有变化,其中的
    x0 = xt0:Fx1 = xt1:1+Fx2 = xt2:2+F,......,
    即将每帧语音按照长为 F的滑动窗 进行分割,并且 步长为S,输入到F-LSTM中。
    则特征维度为N的一帧语音被分割为L = (N - F)/S + 1 块。

    形式化表述:

    其中:

    • ij :输入门
    • fj :遗忘门
    • cj:memory cell
    • oj:输出门
    • mj:LSTM的输出
    F-LSTM单元引入了如下信息:
    • 当前时刻输入xj
    • 上一时刻输出mt-1
    • 上一时刻memoryct-1

    优点:

    1. 与CNN类似,也是采用权值共享减少参数个数;
    2. 可以提取频带局部结构;
    3. 卷积通过pooling捕获频率的平移不变性,F-LSTM能够实现类似max-pooling的作用,并且省去了对pooling操作调参的步骤;

    四、TF-LSTM

    手绘示意图

    因为语音的时域和频域存在相关性,因此对时频同时建模来引入时频之间的相关性。

    形式化表述:
    TF-LSTM单元引入了如下信息:
    • 当前时刻输入xt,k
    • 当前时刻第k-1个block的输出mt,k-1
    • 上一时刻第 k 个block的输出mt-1,k
    • 上一时刻第 k 个block的memoryct-1,k

    五、Grid-LSTM

    TF-LSTM与Grid-LSTM的最大差别就是Grid-LSTM在time-domain和frequency-domain分别各有一个LSTM单元,而TF-LSTM是将time-domain和frequency-domain放在一个LSTM单元里。
    Grid-LSTM分别得到时域和频域的输出,然后将两者拼接(concatenate)到一起。

    但是两个LSTM单元在训练时计算量很大,导致Grid-LSTM训练速度比TF-LSTM慢很多,但是也可以令gF-LSTM和gT-LSTM的权值共享,可以加快LSTM的训练速度,降低计算开销。

    形式化表述:
    Grid-LSTM单元引入了如下信息:
    • 当前时刻输入xt,k
    • 当前时刻第k-1个block的输出mt,k-1
    • 上一时刻第 k 个block的输出mt-1,k
    • 上一时刻第 k 个block的memoryct-1,k
    • 当前时刻第k-1个block的memoryct,k-1

    相关文章

      网友评论

          本文标题:TF-LSTM、Grid-LSTM

          本文链接:https://www.haomeiwen.com/subject/kwphbftx.html