美文网首页Kaldi
Mac os下运行Kaldi中文例子(thchs30,清华大学3

Mac os下运行Kaldi中文例子(thchs30,清华大学3

作者: RiemannLee | 来源:发表于2017-03-31 14:53 被阅读0次

    资料:http://www.kaldi-asr.org/doc/ Kaldi官方文档
    https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/ Kaldi中文手册,翻译自Kaldi官方文档
    kaldi的全部资料-v0.4.pdf from wbglearn(吴本谷)组织
    Kaldi语音识别Lecture1、2、3
    参考博客:http://www.jianshu.com/p/22fc9906878f

    目前能找到的公开中文语音语料库只有清华大学CSLT公开的语音数据,共30小时+。os上运行与在Linux上大致相同。

    1.GitHub上下载Kaldi
    2.下载语音数据

    The database can be downloaded from openslr:
    http://www.openslr.org/18/

    or from the CSLT server:
    http://data.cslt.org/thchs30/README.html

    下载完之后,在kaldi/egs/thchs30/下建立目录thchs30-openslr(名称随意,设置路径要用),解压到此目录下。


    3.修改脚本
    • /thchs30/s5/run.sh中,修改:
      第8行,修改并行任务数(我设为我的CPU核数,电脑配置iMac27 英寸,2015 年中,3.3 GHz Intel Core i5,8 GB 1600 MHz DDR3)
    n=4      #parallel jobs
    

    第11行,修改路径

    thchs=~/documents/riemann/kaldi/egs/thchs30/thchs30-openslr
    
    • 修改/thchs30/s5/cmd.sh为:
    export train_cmd=run.pl
    export decode_cmd=run.pl
    export mkgraph_cmd=run.pl
    export cuda_cmd=run.pl
    
    • thchs30/s5/local/thchs-30_data_prep.sh中,第24行修改为:
    for nn in `find  $corpus_dir/$x -name "*.wav" | sort -u | xargs -I {} basename {} .wav`; do
    

    这个修改是因为os和Linux上shell命令有些许不同所致。不修改的话,会出现xargs: illegal option -- i或argument list too long: find。
    4.运行
    cd到s5目录下,运行run.sh。推荐sh -x ./run.sh。


    5.跑

    好牙口
    6.问题
    跑出的结果及问题见
    http://www.jianshu.com/p/69a4e2ba8531
    还是因为在Mac上些许水土不服。

    相关文章

      网友评论

        本文标题:Mac os下运行Kaldi中文例子(thchs30,清华大学3

        本文链接:https://www.haomeiwen.com/subject/sdkvottx.html