美文网首页
端到端语音识别步骤

端到端语音识别步骤

作者: remName | 来源:发表于2021-04-02 11:53 被阅读0次

    speechbrain在LibriSpeech的recipe

    1、提取语音信号。

    2、对每个batch的语音数据复制一份并加上环境噪声,合并到batch中(wav)->(wav,wav_noise)。

    3、在新的batch上使用一种时域逼近的谱增强算法SpecAugment进行进一步数据增强(没有增加新的数据)。

        (也可以在计算完特征后,归一化之后,再直接使用SpecAugment算法进行数据增强,recipe中Transformer模型使用这种方法)

    4、计算语音特征Fbank 

    5、全局归一化 

    6、模型训练

    seq2seq模型训练

    分成两个阶段,第一阶段比如前5个epoch同时使用seq2seq损失和CTC损失,第二个阶段比如后10个epoch,只使用seq2seq损失。

    seq2seq损失:根据编码器输出的语音表达x和解码器输入序列,通过注意力机制计算损失。

    解码器输入:bos、tok1、tok2...

    解码器标签:tok1、tok2...eos

    CTC损失:将解码器输出x,进过dnn层变换,计算所有可能对齐损失和

    第一阶段损失

    这里的ctc标签和seq2seq标签实际上可以不一致,ctc损失对应每一帧的输出,因此,一方面标签没有eos这样无意义的词,另一方面,粒度可以更小,应该更接近字符或音素,而seq2seq的不需要和输入对齐,所以粒度可以更大一点,子词可能会好一点。

    相关文章

      网友评论

          本文标题:端到端语音识别步骤

          本文链接:https://www.haomeiwen.com/subject/cbztkltx.html