美文网首页
识别男声女声

识别男声女声

作者: dingtom | 来源:发表于2020-01-14 16:02 被阅读0次

    女性基音频率高,基音周期(基音频率)是由声带张开闭合的周期所决定的,只有浊音的产生与声带的闭合开张相关,故要检测基音频率,首先要找到声音信号中的浊音成分,并对其进行分析频率即可

    声带每次开启和闭合一次的时间被称作基音周期,其倒数被称作基音频率。人的基音频率最低在50Hz左右,最高在500Hz左右。其中,男性的基音频率在50-250Hz左右,女性的基音频率在100-500Hz左右,****声带每次开启和闭合一次的时间被称作基音周期**,其倒数被称作基音频率。人的基音频率最低在50Hz左右,最高在500Hz左右。其中,男性的基音频率在50-250Hz左右,女性的基音频率在100-500Hz左右,如下图所示。

    人的语音信号主要由清音和浊音两种不同性质的成分构成。当空气流经过声带时,若声带紧绷,则声带将产生张弛振动,即声带将周期性地开启和闭合。这种情况下在声门处产生的准周期脉冲状空气流经过声道,再由嘴辐射出的声波便是浊音语音。这个准周期脉冲的周期也是上文所说的基音周期。声带越短,厚度越薄,张力越大,听起来的音调越高,即基音频率越高。因此,基音周期(基音频率)是由声带张开闭合的周期所决定的。

    当空气流经过声带时,若声带时完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。随后由于声道的变化不同,空气流将形成摩擦音或爆破音,它们是清音的两种基本类型。

    综上所述,清音和浊音中,只有浊音的产生与声带的闭合开张相关,故要检测基音频率,首先要找到声音信号中的浊音成分,并对其进行分析。

    在频域上分析语音信号,可以使某些在时域上无法体现的特征变得十分明显。常用的频域分析方法是傅里叶变换法,它可以将信号分解为不同频率分量的组合,从而把信号的时域特征和频域特征结合起来。但单纯地对语音信号进行傅里叶变换,无法看出语音信号中的声道特性和激励特性。于是,人们针对傅里叶变换进行改进,提出了倒谱法。

    image

    有时需要根据语音信号来反解声门信号和声道的冲激响应。即在已知卷积结果的前提下,对该结果“解卷”,求出参与卷积的各个信号。倒谱法便是实现“解卷”的方法之一。
    设X[n]为输入信号,也就是声门的激励信号;H[n]为系统的冲激响应,也就是声道的冲激响应;Y[n]为输出信号,也就是从嘴辐射出的语音信号。倒谱分析实际上是这样一个过程:

    (1) 将原语音信号Y[n]= H[n]* X[n](此处*表示卷积运算)经过傅里叶变换得到频谱:Y(jω)=H(jω)X(jω);只考虑幅度就是:|Y(jω)|=|H(jω)||X(jω)|

    (2) 在两边取对数:ln |Y(jω)|= ln |H(jω)|+ ln |X(jω)|

    (3) 再在两边取逆傅里叶变换得到:y[n]=h[n]+x[n],其中:
    y[n]=IDFT(ln |Y(jω)|)
    h[n]= IDFT(ln |H(jω)|)
    x[n] =IDFT(ln |X(jω)|)
    IDFT为傅里叶反变换。对语音信号的短时谱取对数后,再进行IDFT处理,即可得到该语音信号的倒谱。

    故浊音信号的周期性激励反映在倒谱上是同样周期的冲激。因此,我们可以从浊音信号的倒谱波形图中估计出基音周期,进而计算出基音频率。在语音信号处理中,一般把浊音倒谱波形中的第二个冲激,即第二大的峰值所对应的频率,认为是整个浊音信号的基音频率。如图2.3.1所示,分别给出了清音与浊音的倒谱波形图,此处横轴为频率。清音信号波形图的中部无冲激响应;而浊音信号波形图的中部有些许冲激响应,其第二个冲激响应所对应的频率,为该浊音信号的基音频率,即约为55Hz。

    image

    matlab程序

    相关文章

      网友评论

          本文标题:识别男声女声

          本文链接:https://www.haomeiwen.com/subject/widaactx.html