python+keras实现语音识别

python+keras实现语音识别

作者: 南方朗郎 | 来源:发表于2018-11-02 17:43 被阅读513次

python+keras实现语音识别
百度AI 2018-10-16
iOS10新特性－sessions 509 语音识别－Speec
百度语音识别
实现循环语音识别、合成简单封装
智能语音客服服务助手
语音打断功能——深入语音识别技术，设计语音用户界面（VUI）
Android离线语音识别 PocketSphinx
用别人的代码，用我们的Python，简单做个语音识别系统！
对于NLP的感受

本文最先发布在我的CSDN上

市面上语音识别技术原理已经有很多很多了，然而很多程序员兄弟们想研究的时候却看的头大，一堆的什么转mfcc，然后获取音素啥的，对于非专业音频研究者或非科班出生的程序员来说，完全跟天书一样。

最近在研究相关的实现，并且学习了keras和tensorflow等。用keras做了几个项目之后，开始着手研究语音识别的功能，在网上下载了一下语音的训练文件，已上传到了百度云盘：https://pan.baidu.com/s/1Au85kI_oeDjode2hWumUvQ

目录如下，文件夹名就是里面的语音的标签，语音由很多不同年龄性别的人发音收集而来

拿到一个语音文件之后需要先转mfcc，这个操作很简单，不需要什么高深的内功。用python写一段函数专门用来获取语音文件的fmcc值。

参数为单个文件在磁盘的位置，mfcc是一堆的正数和负数组成的数组：

为了在训练的时候避免损失函数应为负数导致输出结果相差太大，需要把原始的mfcc全部转为正数，直接平方后在开方就是正值了。

我们可以把每个音频的mfcc值当做对应的特征向量，然后进行训练，我这里为了测试速度，取了seven 和 stop 两个语音类别来进行训练和识别，每个大概2700多个文件。并且分别从两个文件夹中剪切出来100个当做测试集，并每样拿出5个当做后面的试验集。

test1 中放置的是 100个 seven 语音，test2 中放置的是100个 stop 语音，trunk中放的是5个seven 和5个stop 语音。

如图1开头的都是seven ， 2开头的都是stop 。

训练之前需要先读取数据创建数据集和标签集：

拿到数据集之后就可以开始进行神经网络的训练了，keras提供了很多封装好的可以直接使用的神经网络，我们先建立神经网络模型

训练之后的结果：

两个类型的文件一个4500多个，我本机使用CPU训练大概用时20多秒。

最后显示结果准确率为0.9050.也就是90.5%的准确率，这里可以加大数据集的数量和调参来加大准确率。

最后保存模型到文件：

保存之后会在文件夹中生成一个文件【95M】：

现在训练的模型已经有了，我们开始使用trunk中的文件进行试验：

先加载之前训练的模型：

然后获得当前需要试验的文件的mfcc。并且将数据封装成和训练时一样的维度。并且使用模型的predict函数输出结果：

结果输出：

可以看出结果是一个2个数的数组，里面返回的对应类别相似度，也就是说哪一个下标的值最大，就跟那个下标对应的标签最相似。

之前训练的时候，标签的集是：[seven , stop]

所以如图下标1的值达到了89.9%的相似度。

我们把试验文件换成 1b.wav

结果输出：

本机的试验的识别速度在2秒内。

本文相关的代码已上传github：https://github.com/BenShuai/kerasTfPoj/tree/master/kerasTfPoj/ASR

相关文章

python+keras实现语音识别
本文最先发布在我的CSDN上市面上语音识别技术原理已经有很多很多了，然而很多程序员兄弟们想研究的时候却看的头大，...
百度AI 2018-10-16
安装baidu-aip：pip install baidu-aip语音合成语音识别利用语音识别和语音合成实现学...
iOS10新特性－sessions 509 语音识别－Speec
在 iOS 10 中增加语音识别的API——Speech ，其特点如下： • 可以实现连续的语音识别 • 可以对语...
百度语音识别
实现百度语音识别。首先去https://ai.baidu.com/sdk#asr下载语音识别sdk。下载的demo...
实现循环语音识别、合成简单封装
实现循环语音识别、合成简单封装需求背景最近项目上遇到一个需求：语音识别获取文字后后台交互获取结果并语音合成播报...
智能语音客服服务助手
智能语音客服服务助手语音识别阿里语音识别百度语音识别讯飞语音识别语音合成阿里语音合成百度语音合成讯...
语音打断功能——深入语音识别技术，设计语音用户界面（VUI）
小编说：在语音识别技术的实现过程中，有一个会大大影响设计的语音识别技术是“语音打断”，即你是否允许用户打断系统说话...
Android离线语音识别 PocketSphinx
本文将使用PocketSphinx来实现Android平台的离线语音识别优点: 离线,不用联网识别较准(大家都说...
用别人的代码，用我们的Python，简单做个语音识别系统！
主要是介绍python实现百度语音识别api的具体代码，若文章中示例有不懂的可以详细参考百度语音识别api文档。 ...
对于NLP的感受
NLP是自然语言处理技术的简称，通过这项技术可以实现语音识别和语义识别功能，具体来说就是把语音转换为文字，并且理解...

网友评论

语音识别

本文标题：python+keras实现语音识别

本文链接：https://www.haomeiwen.com/subject/ryvcxqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

语音识别

关于我们|服务条款|联系我们|python+keras实现语音识别|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！