使用python_speech_features提取音频文件特征

作者: 早上起来闹钟又丢了 | 来源:发表于2019-05-17 11:02 被阅读0次

使用python_speech_features提取音频文件特征
kaldi和psf在Fbank上的区别
使用maryas从音频文件(.wav)提取特征生成arff
ios 使用AVFoundation从视频中提取音频
Mask RCNN 模型
3. opencv提取SIFT特征
object_detectionAPI源码阅读笔记（15-梳理一
机器学习笔记6-特征选择和特征提取
feature selection & feature extr
#Python3组数据挖掘实战总结 6、7章#

1. 读取wav文件

使用scipy.io.wavfile

import scipy.io.wavfile as wav
fs, signal = wav.read(filename)

fs是wav文件的采样率，signal是wav文件的内容，filename是要读取的音频文件的路径。我们将signal绘制出来就是下图这个样子。

image.png

2. 使用python_speech_features提取特征

①MFCC：

默认提取的特征维度是13，通常的做法是将该特征进行一阶差分和二阶差分，并将结果进行合并。

from python_speech_features import *
import numpy as np
def get_mfcc(data, fs):
    wav_feature =  mfcc(data, fs)
    d_mfcc_feat = delta(wav_feature, 1)
    d_mfcc_feat2 = delta(wav_feature, 2)
    feature = np.hstack((wav_feature, d_mfcc_feat, d_mfcc_feat2))
    return feature

参数介绍：
内容来源于金泽夕
https://www.cnblogs.com/zhuimengzhe/p/10223510.html

mfcc：

python_speech_features.base.fbank(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97, winfunc=<function >)

signal - 需要用来计算特征的音频信号，应该是一个N*1的数组
samplerate - 我们用来工作的信号的采样率
winlen - 分析窗口的长度，按秒计，默认0.025s(25ms)
winstep - 连续窗口之间的步长，按秒计，默认0.01s（10ms）
numcep - 倒频谱返回的数量，默认13
nfilt - 滤波器组的滤波器数量，默认26
nfft - FFT的大小，默认512
lowfreq - 梅尔滤波器的最低边缘，单位赫兹，默认为0
highfreq - 梅尔滤波器的最高边缘，单位赫兹，默认为采样率/2
preemph - 应用预加重过滤器和预加重过滤器的系数，0表示没有过滤器，默认0.97
ceplifter - 将升降器应用于最终的倒谱系数。 0没有升降机。默认值为22。
appendEnergy - 如果是true，则将第0个倒谱系数替换为总帧能量的对数。
winfunc - 分析窗口应用于每个框架。默认情况下不应用任何窗口。你可以在这里使用numpy窗口函数例如：winfunc=numpy.hamming
返回：一个大小为numcep的numpy数组，包含着特征，每一行都包含一个特征向量。

delta：

python_speech_features.base.delta(feat, N)

feat - 一个大小为特征数量的numpy数组，每一行都有一个特征向量
N - 对于每一帧，计算delta特征根据前后N帧
返回：一个大小为特征数量的numpy数组，包含有delta特征，每一行都有一个delta向量

②logfbank

def get_fbank(data, fs):
    wav_feature = logfbank(data, fs)
    return wav_feature

参数介绍：

python_speech_features.base.logfbank(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97)

signal - 需要用来计算特征的音频信号，应该是一个N*1的数组
samplerate - 我们用来工作的信号的采样率
winlen - 分析窗口的长度，按秒计，默认0.025s(25ms)
winstep - 连续窗口之间的步长，按秒计，默认0.01s（10ms）
nfilt - 滤波器组的滤波器数量，默认26
nfft - FFT的大小，默认512
lowfreq - 梅尔滤波器的最低边缘，单位赫兹，默认为0
highfreq - 梅尔滤波器的最高边缘，单位赫兹，默认为采样率/2
preemph - 应用预加重过滤器和预加重过滤器的系数，0表示没有过滤器，默认0.97
返回：一个包含特征的大小为nfilt的numpy数组，每一行都有一个特征向量

网友评论

本文标题：使用python_speech_features提取音频文件特征

本文链接：https://www.haomeiwen.com/subject/haknaqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用python_speech_features提取音频文件特征

1. 读取wav文件

2. 使用python_speech_features提取特征

①MFCC：

②logfbank

相关文章

使用python_speech_features提取音频文件特征

kaldi和psf在Fbank上的区别

使用maryas从音频文件(.wav)提取特征生成arff

ios 使用AVFoundation从视频中提取音频

Mask RCNN 模型

3. opencv提取SIFT特征

object_detectionAPI源码阅读笔记（15-梳理一

机器学习笔记6-特征选择和特征提取

feature selection & feature extr

#Python3组数据挖掘实战总结 6、7章#

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

音频分析

语音信号处理