美文网首页
扩充训练集 aishell

扩充训练集 aishell

作者: 静一下1 | 来源:发表于2021-02-22 13:07 被阅读0次

    训练集扩充

    将aishell中train文件下120098条语音来扩充训练集:

    原本语音对应的句子格式如下图

    需要改成这样的

    character.txt文件  :将其与原来的训练集合并 一共132098条数据

    wav.scp文件: id 对应路径

    训练

    训练一个epoch大概许需要18分钟,初步训练了80个,也就是需要大概 24个小时

    所占的显存还是7000多MiB 与扩充之前相差不大,训练数据的大小并没有影响所占的显存,模型太大了

    把batch_size降到8之后 显存和GPU占用率都会明显降低

    通过显存占用公式:

    可以解二元一次方程组:\begin{align}\begin{cases}x+16y=7157 \\x+8y=4159\end{cases}\end{align}   解得模型所占显存大概是1161MiB 

                                                                                              一个样本的显存为374.75MiB

    在训练时间上一个epoch需要19分钟左右,增加并不多。

    相关文章

      网友评论

          本文标题:扩充训练集 aishell

          本文链接:https://www.haomeiwen.com/subject/ltphfltx.html