特征提取
MFCC提取特征过程(详细请参考https://zhuanlan.zhihu.com/p/88625876)
语音信号——预加重——分帧——加窗——FFT——Mel滤波器组——对数运算——DCT
基于滤波器组的特征 Fbank(Filter bank), Fbank 特征提取方法就是相当 于 MFCC 去掉最后一步的离散余弦变换(有损变换),跟 MFCC 特征, Fbank 特征保留了更多的原始语音数据。
模型结构
Encoder : 2*conv(3*2)->1*linear+pos embedding->6*(multi-head attention(head=4, d_model=320)+ffn(1280))
Decoder: 6*(multi-head attention(head=4, d_model=320)+ffn(1280))
语言模型:4*(multi-head attention(head=4, d_model=320)+ffn(1280))
训练
优化算法:adam
学习率策略:stepwise=12000,学习率在前迭代步数线性上升,在迭代次数时停止下降
label smoothing:平滑参数0.1 参考 :https://arxiv.org/pdf/1512.00567.pdf
batch=8
epoch=80
解码:beam search(beam width=5)+长度惩罚(权重因子=0.6)
用一句话训练
标签平滑:
训练时输出的结果为一个1*31*4708的矩阵,31是句子长度,4708为vocab字典的长度,将每一行进行softmax之后取最大的作为输出,在于真实的标签进行计算损失。
THCH30共13387条数据,将batch_size改为16 ,训练了13367测试其余20条的结果
把数据按7:3 ; 8:2 ; 9:1 划分训练集测试集,训练正常但测试的时候内存满了。
网友评论