Open Transformer2

作者: 静一下1 | 来源:发表于2020-12-17 17:27 被阅读0次

Open Transformer2
alias常用配置
iOS实现多个可变cell复杂界面的制作
iOS Mvvm 数据加载model处理
iOS书写高质量代码之耦合的处理
iOS 使用UICountingLabel实现数字变化的动画效果
Open minds
[python] open()与with open()
IOS欢迎界面Launch Screen动态加载广告
quartz

特征提取

MFCC提取特征过程(详细请参考https://zhuanlan.zhihu.com/p/88625876)

语音信号——预加重——分帧——加窗——FFT——Ｍel滤波器组——对数运算——DCT

基于滤波器组的特征 Fbank(Filter bank)， Fbank 特征提取方法就是相当于 MFCC 去掉最后一步的离散余弦变换（有损变换），跟 MFCC 特征， Fbank 特征保留了更多的原始语音数据。

模型结构

$\bullet$ Encoder ： 2*conv(3*2)->1*linear+pos embedding->6*(multi-head attention(head=4, d_model=320)+ffn(1280))

$\bullet$ Decoder： 6*(multi-head attention(head=4, d_model=320)+ffn(1280))

$\bullet$ 语言模型：4*(multi-head attention(head=4, d_model=320)+ffn(1280))

训练

$\bullet$ 优化算法：adam

$\bullet$ 学习率策略：stepwise＝12000，学习率在前 $warmup_n$ 迭代步数线性上升，在 $n_{step}^{-0.5}$ 迭代次数时停止下降

$\bullet$ label smoothing:平滑参数0.1 参考：https://arxiv.org/pdf/1512.00567.pdf

$\bullet$ batch=8

$\bullet$ epoch=80

$\bullet$ 解码：beam search(beam width=5)+长度惩罚(权重因子＝0.6)

用一句话训练

标签平滑：

训练时输出的结果为一个1*31*4708的矩阵，31是句子长度，4708为vocab字典的长度，将每一行进行softmax之后取最大的作为输出，在于真实的标签进行计算损失。

THCH30共13387条数据，将batch_size改为16 ，训练了13367测试其余20条的结果

把数据按7：3 ； 8：2 ； 9：1 划分训练集测试集，训练正常但测试的时候内存满了。

网友评论

本文标题：Open Transformer2

本文链接：https://www.haomeiwen.com/subject/pquzgktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Open Transformer2

特征提取

模型结构

训练

用一句话训练

标签平滑：

相关文章

Open Transformer2

alias常用配置

iOS实现多个可变cell复杂界面的制作

iOS Mvvm 数据加载model处理

iOS书写高质量代码之耦合的处理

iOS 使用UICountingLabel实现数字变化的动画效果

Open minds

[python] open()与with open()

IOS欢迎界面Launch Screen动态加载广告

quartz

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读