美文网首页音频分析语音信号处理
使用python_speech_features提取音频文件特征

使用python_speech_features提取音频文件特征

作者: 早上起来闹钟又丢了 | 来源:发表于2019-05-17 11:02 被阅读0次

    1. 读取wav文件

    使用scipy.io.wavfile

    import scipy.io.wavfile as wav
    fs, signal = wav.read(filename)
    

    fs是wav文件的采样率,signal是wav文件的内容,filename是要读取的音频文件的路径。我们将signal绘制出来就是下图这个样子。


    image.png

    2. 使用python_speech_features提取特征

    ①MFCC:

    默认提取的特征维度是13,通常的做法是将该特征进行一阶差分和二阶差分,并将结果进行合并。

    from python_speech_features import *
    import numpy as np
    def get_mfcc(data, fs):
        wav_feature =  mfcc(data, fs)
        d_mfcc_feat = delta(wav_feature, 1)
        d_mfcc_feat2 = delta(wav_feature, 2)
        feature = np.hstack((wav_feature, d_mfcc_feat, d_mfcc_feat2))
        return feature
    
    

    参数介绍:
    内容来源于 金泽夕
    https://www.cnblogs.com/zhuimengzhe/p/10223510.html

    mfcc:

    python_speech_features.base.fbank(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97, winfunc=<function >)
    
    • signal - 需要用来计算特征的音频信号,应该是一个N*1的数组
    • samplerate - 我们用来工作的信号的采样率
    • winlen - 分析窗口的长度,按秒计,默认0.025s(25ms)
    • winstep - 连续窗口之间的步长,按秒计,默认0.01s(10ms)
    • numcep - 倒频谱返回的数量,默认13
    • nfilt - 滤波器组的滤波器数量,默认26
    • nfft - FFT的大小,默认512
    • lowfreq - 梅尔滤波器的最低边缘,单位赫兹,默认为0
    • highfreq - 梅尔滤波器的最高边缘,单位赫兹,默认为采样率/2
    • preemph - 应用预加重过滤器和预加重过滤器的系数,0表示没有过滤器,默认0.97
    • ceplifter - 将升降器应用于最终的倒谱系数。 0没有升降机。默认值为22。
    • appendEnergy - 如果是true,则将第0个倒谱系数替换为总帧能量的对数。
    • winfunc - 分析窗口应用于每个框架。 默认情况下不应用任何窗口。 你可以在这里使用numpy窗口函数 例如:winfunc=numpy.hamming
      返回: 一个大小为numcep的numpy数组,包含着特征,每一行都包含一个特征向量。

    delta:

    python_speech_features.base.delta(feat, N)
    
    • feat - 一个大小为特征数量的numpy数组,每一行都有一个特征向量
    • N - 对于每一帧,计算delta特征根据前后N帧
    • 返回:一个大小为特征数量的numpy数组,包含有delta特征,每一行都有一个delta向量

    ②logfbank

    def get_fbank(data, fs):
        wav_feature = logfbank(data, fs)
        return wav_feature
    

    参数介绍:

    python_speech_features.base.logfbank(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97)
    
    • signal - 需要用来计算特征的音频信号,应该是一个N*1的数组
    • samplerate - 我们用来工作的信号的采样率
    • winlen - 分析窗口的长度,按秒计,默认0.025s(25ms)
    • winstep - 连续窗口之间的步长,按秒计,默认0.01s(10ms)
    • nfilt - 滤波器组的滤波器数量,默认26
    • nfft - FFT的大小,默认512
    • lowfreq - 梅尔滤波器的最低边缘,单位赫兹,默认为0
    • highfreq - 梅尔滤波器的最高边缘,单位赫兹,默认为采样率/2
    • preemph - 应用预加重过滤器和预加重过滤器的系数,0表示没有过滤器,默认0.97
    • 返回: 一个包含特征的大小为nfilt的numpy数组,每一行都有一个特征向量

    相关文章

      网友评论

        本文标题:使用python_speech_features提取音频文件特征

        本文链接:https://www.haomeiwen.com/subject/haknaqtx.html