thchs30数据库大小:6.4G,其中,这些录音根据其文本内容分成了四部分,A(句子的ID是1~250),B(句子的ID是251~500),C(501~750),D(751~1000)。ABC三组包括30个人的10893句发音,用来做训练,D包括10个人的2496句发音,用来做测试。
脚本分析(根据s5/run.sh)
一、#data preparation(数据准备)
根据脚本local/thchs-30_data_prep.sh,在data文件夹下生成了train、dev和trest三个文件夹,然后分别在每个文件夹下生成wav.scp,utt2spk.scp,spk2utt.scp,text文件。
text:包含每段发音的标注,例,A02_000 绿 是 阳春 烟 景 大块 文章……
说话人编号_发音编号。
wav.scp:发音编号_对应路径,例,A02_000 /media/dsp_usr……/train/A2_0.wav
(thchs30例子中没有segments文件,实际上每个文件只是一句话,也不需要分段)
utt2spk.scp:发音编号_对应说话人编号,例,A02_000 A02
spk2utt.scp:与utt2spk.scp相反。事实上,自己搭建ASR系统时,该文件直接由utt2spk.scp生成,untils/uut2spk_to_spk2utt.pl data/train/utt2spk > data/train/spk2utt
二、#produce MFCC features(生成MFCC特征)
steps/make_mfcc.sh
steps/compute_cmvn_stats.sh
网友评论