文章目录如下:
- 官方资源导航
- 功能简介
- 优点
- 缺点
- 后续文章介绍
官方资源导航
- 入门 https://cmusphinx.github.io/wiki/tutorial/
- 进阶 https://cmusphinx.github.io/wiki/
- 问题搜索 https://sourceforge.net/p/cmusphinx/discussion/
功能简介
功能包括按特定语法进行识别、唤醒词识别、n-gram识别等等,Github上还有高层的封装,实现了以下功能:
https://github.com/odetoyama/RapidSphinx
有兴趣的可以了解一下,这里就不展开了。
Features:
- Build dictionary on the fly
- Build language model (Arpa File) on the fly
- Build JSGF Grammar on the fly
- Support PCM Recorder 16bits / mono little endian (wav file)
- Scoring system every single word (range 0.0 - 1.0)
- Detect unsupported words
- Rejecting Out-Of-Vocabulary (OOV) based on keyword spotting
- Speaker Adaptation (in progress)
- SIMPLE TO USE & FAST!
优点
这款语音识别开源框架相比于Kaldi比较适合做开发,各种函数上的封装浅显易懂,解码部分的代码非常容易看懂,且除开PC平台,作者也考虑到了嵌入式平台,Android开发也很方便,已有对应的Demo,Wiki上有基于PocketSphinx的语音评测的例子,且实时性相比Kaldi好了很多。
由于适合开发,有很多基于它的各种开源程序、教育评测论文。
总的来说,从PocketSphinx来入门语音识别是一个不错的选择。
缺点
相比于Kaldi,使用的是GMM-HMM框架,准确率上可能会差一些;其他杂项处理程序(如pitch提取等等)没有Kaldi多。
后续文章介绍
后续文章分为PC平台开发和Android平台开发两部分,先在PC平台上熟悉功能,然后在Android平台上开发一个类似魅族手机上相机喊一句“茄子”就能实现自动拍照的功能的APP。
网友评论