美文网首页
thchs30中文数据库和脚本分析

thchs30中文数据库和脚本分析

作者: 诸葛村姑 | 来源:发表于2017-11-24 09:08 被阅读0次

    thchs30数据库大小:6.4G,其中,这些录音根据其文本内容分成了四部分,A(句子的ID是1~250),B(句子的ID是251~500),C(501~750),D(751~1000)。ABC三组包括30个人的10893句发音,用来做训练,D包括10个人的2496句发音,用来做测试。

    脚本分析(根据s5/run.sh)


    一、#data preparation(数据准备)

    根据脚本local/thchs-30_data_prep.sh,在data文件夹下生成了train、dev和trest三个文件夹,然后分别在每个文件夹下生成wav.scp,utt2spk.scp,spk2utt.scp,text文件。

    text:包含每段发音的标注,例,A02_000 绿 是 阳春 烟 景 大块 文章……

    说话人编号_发音编号。

    wav.scp:发音编号_对应路径,例,A02_000 /media/dsp_usr……/train/A2_0.wav

    (thchs30例子中没有segments文件,实际上每个文件只是一句话,也不需要分段)

    utt2spk.scp:发音编号_对应说话人编号,例,A02_000 A02

    spk2utt.scp:与utt2spk.scp相反。事实上,自己搭建ASR系统时,该文件直接由utt2spk.scp生成,untils/uut2spk_to_spk2utt.pl data/train/utt2spk > data/train/spk2utt


    二、#produce MFCC features(生成MFCC特征)

    steps/make_mfcc.sh

    steps/compute_cmvn_stats.sh

    相关文章

      网友评论

          本文标题:thchs30中文数据库和脚本分析

          本文链接:https://www.haomeiwen.com/subject/copzvxtx.html