接着上一篇文章,笔者提出了三个情况,音频文件不容易建模分析,那么需要对wav文件进进行清洗,今天就来使用jupyter notebook来可视化完成删除wav静音期,同时展示探索数据的过程。 删除wav静音期之后接下来就是对语音文件进行统一的时长控制,将所有wav文件裁剪为相同的长度或者分帧,保证数据集的统一,这个是下一步的工作。
以前都是在vscode中直接查看代码,或者ipython中运行代码,还有在jupyter notebook查看别人展示探索过程。今天自己使用jupyter notebook,发现真是一个好工具,可以一步步展示详细探索的过程,语音与图像都可以可视化展示。
1、wav文件播放与加载
ipd.Audio完成wav文件显示与播放;
librosa.get_duration显示wav文件时长;
librosa.load加载wav文件,返回语音数据和采样率
2.wav文件频谱图
librosa.display.specshow画出分贝格式的频谱图。

3.MFCCs特征提取
librosa.feature.mfcc提取语音数据特征,返回帧数和特征组成的矩阵。

4.mfcc_mean_features均值
np.mean计算特征均值。

5.删除wav静音期
librosa.effects.trim删除开始和结尾的静音,再次使用librosa.get_duration查看时长变短,ipd.Audio播放可以查看没有后面的静音了。可以再次使用librosa.display.specshow来显示频谱图剩余的文件只保留了有声音部分。


网友评论