美文网首页语音评测语音识别
kaldi+语音评测+01+效果

kaldi+语音评测+01+效果

作者: 长风浮云 | 来源:发表于2019-03-16 22:15 被阅读0次

做完本地语音识别后,就开始研究语音评测,这方面的资料也是不全,所以进度也搞慢了一点。最近也算是做出了一点成果,效果也不错,所以想着跟大家分享一下。
首先还得感谢https://github.com/tbright17/kaldi-dnn-ali-gop开源项目,我基于这个项目做了一些改进,得到的效果也非常好。我只是参考了该项目中计算gop的部分,其他脚本的部分,我是用一个c++文件实现的,跟脚本掉用的那些c++命令无关。刚开始我也考虑过将make_mfcc.sh脚本中特征提取的c++进行改造,发现并不可取,下面会说到不可取的原因。测试也是基于iOS平台,demo后续也会给出。
不知道该作者是不是漏掉了哪部分,还是说中间哪个环节没有写出来,用脚本跑出来结果是不对的,我用自己的方法跑出来的跟预想的几乎一样,准确度挺高。
我这边提取特征和ivector特征都不是用的make_mfcc.shextract_ivectors_online.sh提取特征的,我是用的一种在线特征管道的方式获取的特征和ivector特征,直接拿到这些特征去计算gop。我对比了一下make_mfcc.sh在线特征管道获取的特征,差别挺大的,最终计算出的结果make_mfcc.sh也是不对的,所以我怀疑,计算gop用脚本获取特征的方式是不是有问题,当然这是我个人猜测。

测试效果:

  • 单词
  1. 正常读单词,每个因素给的准确度高
  2. 读的时候拖长单词中某个音节,计算结果,拖长的因素准确度比较低,其他正常因素准确度高
  3. 读的时候有停顿,整个单词给的准确度比较低

上面对单词评测的准确度合乎评测标准。

  • 句子
  1. 正常读句子,每个单词对应的因素准确度高
  2. 在给出的评测文本中,前中后插入其他单词,评测结果中,未读的单词对应的因素准确度比较低,其他单词对应的因素准确度高
  3. 给定评测文本,在读的音频中故意添加其他单词的读音,评测结果中,给定的评测结果所有因素准确度高

结论:不管是在给定的评测文本中插入其他单词还是在读的音频中插入其他单词的读音(文本或者音频顺序不变)都能很好的给出对应的评测结果。

以上是对语音评测准备度的一个评测结果,效果基本合乎常理,接下来我也会说说gop整个的实现过程。

当然我现在也只是有了语音评测的准确度,语音评测最终的好坏还是要多个维度来评价,比如,完整度,流利度等,后续也会把这些实现的过程跟大家分享一下。同时也跟大家分享一些gop优化的东西,比如,怎么做到,音频传输完成立即返回评测结果,提高实时性。

相关文章

网友评论

    本文标题:kaldi+语音评测+01+效果

    本文链接:https://www.haomeiwen.com/subject/pmodmqtx.html