美文网首页
Filter Banks & MFCCs

Filter Banks & MFCCs

作者: liangym | 来源:发表于2019-01-12 19:02 被阅读0次

    推荐一个非常好的网址,它介绍 filter banks 和 MFCCs 得非常好。

    并且我的总结就是来自于这个网址, 并且学习到的代码记录在github

    首先 Filter  Banks 和 MFCCs 的原理流程框图如图1 所示。

    图1  Filter  Banks 和 MFCCs 的原理流程框图

    总结的一些知识点:

    1、预加重使用公式  y(t)=x(t)−αx(t−1) , α 一般取 0.95 或 0.97

    在存在均值归一化的情况下,预加重可能起到的作用并不大,因此在现在的语音识别系统中并不要求有预加重这一操作。

    2、语音处理中的典型帧大小范围为20ms至40ms,连续帧之间具有50%(+/- 10%)重叠。

    3、hanming window : w[n] = 0.54 - 0.46cos(\frac{2\pi n}{N-1} ) , 其中 N 是 一帧包含的点数。

    4、N 点 FFT 一般 N 取 256 或 512 且功率谱的计算公式为: P = \frac{\vert FFT(x_{i} )^2  \vert }{N}

    5、filter banks 的个数即为三角滤波器的个数,一般取 40 。 频率 f 和 mel 频率的映射公式如下,记得在编程时使用小数(例如:700 --> 700.0)

    6、三角滤波器的方程及图为:

    7、如果机器学习算法不易受高度相关输入的影响,请使用Mel缩放滤波器组。 如果机器学习算法易受相关输入的影响,请使用MFCC。(不太理解这句话的意思。。。)

    相关文章

      网友评论

          本文标题:Filter Banks & MFCCs

          本文链接:https://www.haomeiwen.com/subject/mjqxdqtx.html