美文网首页
Open Transformer2

Open Transformer2

作者: 静一下1 | 来源:发表于2020-12-17 17:27 被阅读0次

特征提取

MFCC提取特征过程(详细请参考https://zhuanlan.zhihu.com/p/88625876)

语音信号——预加重——分帧——加窗——FFT——Mel滤波器组——对数运算——DCT

基于滤波器组的特征 Fbank(Filter bank), Fbank 特征提取方法就是相当 于 MFCC 去掉最后一步的离散余弦变换(有损变换),跟 MFCC 特征, Fbank 特征保留了更多的原始语音数据。

模型结构

\bullet Encoder : 2*conv(3*2)->1*linear+pos embedding->6*(multi-head attention(head=4, d_model=320)+ffn(1280))

\bullet Decoder: 6*(multi-head attention(head=4, d_model=320)+ffn(1280))

\bullet 语言模型:4*(multi-head attention(head=4, d_model=320)+ffn(1280))

训练

\bullet 优化算法:adam

\bullet 学习率策略:stepwise=12000,学习率在前warmup_n迭代步数线性上升,在n_{step}^{-0.5}迭代次数时停止下降

\bullet label smoothing:平滑参数0.1   参考 :https://arxiv.org/pdf/1512.00567.pdf

\bullet batch=8

\bullet epoch=80

\bullet 解码:beam search(beam width=5)+长度惩罚(权重因子=0.6)

用一句话训练

标签平滑:

训练时输出的结果为一个1*31*4708的矩阵,31是句子长度,4708为vocab字典的长度,将每一行进行softmax之后取最大的作为输出,在于真实的标签进行计算损失。

THCH30共13387条数据,将batch_size改为16 ,训练了13367测试其余20条的结果

把数据按7:3 ; 8:2 ; 9:1 划分训练集测试集,训练正常但测试的时候内存满了。

相关文章

网友评论

      本文标题:Open Transformer2

      本文链接:https://www.haomeiwen.com/subject/pquzgktx.html