美文网首页
语音MFCC的一点探索

语音MFCC的一点探索

作者: 刘小白DOER | 来源:发表于2022-09-02 22:22 被阅读0次

    今天终于攻破ADPCM解码为线性PCM,并生成wav文件,纠结了好几天终于搞定了。要提取语音的MFCC,那么网络传输过来的语音是有语音的时候才会发送,没有时就处于静默状态,那么对于传统机器学习来说,提取MFCC是需要有固定维度的,笔者使用MFCC均值来作为特征。

    那么接下来就是一点小问题了。如果两段语音中间有静默期,而且两端语音其实没有强烈的逻辑性,就相当于你说一句话之后将这段话分成两段然后交换位置,那么对于接收者来说其实可以判断原始的话和交换位置的话其实是不同的,但是听完之后可能会联想也判定为同样的话。

    对于机器学习来说,这两段话是否属于同一个语音呢?如果是计算MFCC进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对语音信号进行分段处理,其中每一段称为一帧,帧长一般取 25ms。为了使帧与帧之间平滑过渡,保持其连续性,分帧一般采用交叠分段的方法,保证相邻两帧相互重叠一部分。对于计算MFCC均值是否存在不同呢?于是笔者使用一段3秒的语音来做测试。

    1、librosa库载入语音

2、MFCCs特征提取,笔者这里提取16个特征

3、MFCC均值的方差

4、在原始语音上切割交换3秒语音, 3*8000=24000

5、比较两者的均值和方差,得到结论,语音交换后MFCC特征变化很小,可以认为是同一段语音。

    于是在后期的语音特征提取中,就可以在不用根据静默期来分段语音,而是直接把语音直接送送到array中,然后按固定时间长或者数据点数来取就可以了。

相关文章

  • 语音MFCC的一点探索

    今天终于攻破ADPCM解码为线性PCM,并生成wav文件,纠结了好几天终于搞定了。要提取语音的MFCC,那么网...

  • MFCC、FBank、LPC总结

    一、MFCC 几乎照搬语音特征参数MFCC提取过程详解参考CSDN语音信号处理之(四)梅尔频率倒谱系数(MFCC)...

  • 语音识别预处理(MFCC)

    梅尔频率倒谱系数(MFCC)资源 MFCC特征参数提取(一)(基于MATLAB和Python实现) kaldi之f...

  • 端上语音识别:MFCC and Mobilenet

    前言 在当前深度学习框架下的语音识别,有两个路线可以走:CNN或者RNN.但观当今研究,看cnn大行主流,故选cn...

  • 语言合成(二):梅尔频率倒谱系数(MFCC)

    语音信号处理之(四)梅尔频率倒谱系数(MFCC) 在任意一个Automatic speech recognitio...

  • 语音特征参数MFCC理解

    1.先通俗理解: 参考知乎作者:我的上铺叫路遥与其关注特征向量或特征值的实际含义,不如关注为何这样的特征向量或特征...

  • [Kaldi] 特征提取--MFCC(二)

    20180701qzd本章讲解mfcc理论知识 一 基本含义 MFCC是Mel-Frequency Cepstra...

  • make_mfcc_pitch.sh阅读笔记

    make_mfcc_pitch.sh阅读笔记计算mfcc和pitch特征调用方式: steps/make_mfc...

  • [kaldi] 特征文件格式转换

    20190108 qzd 1. kaldi中的ark文件与htk中的mfcc文件的互相转换 (1)ark转mfcc...

  • mfcc简介

    MFCC:Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率...

网友评论

      本文标题:语音MFCC的一点探索

      本文链接:https://www.haomeiwen.com/subject/tpvynrtx.html