语音MFCC的一点探索

作者: 刘小白DOER | 来源:发表于2022-09-02 22:22 被阅读0次

语音MFCC的一点探索
MFCC、FBank、LPC总结
语音识别预处理（MFCC）
端上语音识别:MFCC and Mobilenet
语言合成(二)：梅尔频率倒谱系数(MFCC)
语音特征参数MFCC理解
[Kaldi] 特征提取--MFCC(二)
make_mfcc_pitch.sh阅读笔记
[kaldi] 特征文件格式转换
mfcc简介

今天终于攻破ADPCM解码为线性PCM，并生成wav文件，纠结了好几天终于搞定了。要提取语音的MFCC，那么网络传输过来的语音是有语音的时候才会发送，没有时就处于静默状态，那么对于传统机器学习来说，提取MFCC是需要有固定维度的，笔者使用MFCC均值来作为特征。

那么接下来就是一点小问题了。如果两段语音中间有静默期，而且两端语音其实没有强烈的逻辑性，就相当于你说一句话之后将这段话分成两段然后交换位置，那么对于接收者来说其实可以判断原始的话和交换位置的话其实是不同的，但是听完之后可能会联想也判定为同样的话。

对于机器学习来说，这两段话是否属于同一个语音呢？如果是计算MFCC进行语音信号处理时，为减少语音信号整体的非稳态、时变的影响，从而对语音信号进行分段处理，其中每一段称为一帧，帧长一般取 25ms。为了使帧与帧之间平滑过渡，保持其连续性，分帧一般采用交叠分段的方法，保证相邻两帧相互重叠一部分。对于计算MFCC均值是否存在不同呢？于是笔者使用一段3秒的语音来做测试。

1、librosa库载入语音