美文网首页
kaldi中文训练时避免的坑

kaldi中文训练时避免的坑

作者: 泉泉酱 | 来源:发表于2018-06-25 19:42 被阅读0次

1:python版本为2.7(否则进行dnn训练那一步会报错)

2:run.sh中选择数据文件必须使用绝对路径

#corpus and trans directory

thchs=/nfs/public/materials/data/thchs30-openslr (此处使用完整路径,不然会报错)

3:run.sh中创建目录以及cp操作一般需要单独复制出来操作(建议run.sh一步一步做,不要直接运行,方便查找错误)

4:在线测试,tri1b   需要文件:final.mdl,words.txt,HCLG.fst

                       tir4b 需要文件 :final.mdl,words.txt,HCLG.fst,final.mat

具体修改部分:(以4b为例)

1. 修改ac_model_type

ac_model_type=tri4b

2. 修改trans_matrix

ac_model=${data_file}/models/$ac_model_type

trans_matrix="$ac_model/final.mat"

audio=${data_file}/audio

3. 增加--left-context=3 --right-context=3

online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\

--max-active=4000 --beam=12.0 --acoustic-scale=0.0769 --left-context=3 --right-context=3\

scp:$decode_dir/input.scp $ac_model/final.mdl $ac_model/HCLG.fst \

$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \

ark,t:$decode_dir/ali.txt $trans_matrix;;

相关文章

网友评论

      本文标题:kaldi中文训练时避免的坑

      本文链接:https://www.haomeiwen.com/subject/secuyftx.html