情绪识别--Emotion Recognition from H

作者: 静夜寒风 | 来源:发表于2019-03-15 17:45 被阅读118次

    Emotion Recognition from Human Speech Using Temporal Information and Deep Learning

    原文链接:https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1132.pdf

    摘要

        情绪识别是使机器具备同理心的一种重要技术,传统方法在提取各种声音特征方面做了许多工作和贡献,但是确都没有利用到短时信息。本文就是利用了传统的一些声音特征和声音的时序特征,利用深度学习方法,进行情感分析。本文提出的方案是具有最佳的准确率的方案之一,准确率达到了88.9%。

    1 背景简介

    2 本文方案--EmNet模型

    图1(a)EmNet模型结构 (b)已训练64 filter local conv权重

    2.1 特征提取

        本文使用eGeMAPS[2]特征集中88个特征里的20个特征,它们分别是:过零率,对数帧能量,帧能量熵,谱质心,光谱扩散,光谱熵,光谱通量,光谱滚降,梅尔频率倒谱系数(MFCC)C1~C5,发声概率,音调,共振峰带宽,共振峰增益,和三个谐波能量比(第一个的对数能量比)谐波到第二到第四的对数能量谐波)。

        这些特征提取使用的是40ms汉明窗,窗口移动为30ms。生成的序列特征维度为20,为了保留音频信息,这些特征被直接输入网络。

    2.2 规范化

        本文使用[2,8]中的特征处理方法,特征使用了说话者所有音频的均值和标准差进行处理。

        为了便于处理,所有序列长度被剪切或用0补充到512(512*10*0.001=5.2秒)维,即最终输入网络的维度为:20*512。

    2.3 局部卷积层

        不同于图像处理的卷积方式使用方块状的卷积,本文使用的是沿时间方向的条状卷积,这是因为输入的20维特征之间并没有相关关系(它们不同特征组合)。所以如图1a中,本文用的是1*6的卷积核,滤波器数为64的卷积,而后是ReLU激活函数,之后是跨度为4的池化层。

        经过恰当训练后,我们希望每个独立的滤波器能够对应一些重要的短时信息,从而有利于后面的情绪识别。例如利用本文所列数据训练的模型,其滤波器权重如上图1b所示。

    2.4 全局卷积层

        局部卷积输出的特征会输入到全局卷积层中,全局卷积层拥有更大的感受野(2帧,对应80毫秒),用于提取更抽象的信息。全局卷积层采用的是128滤波器卷积核,同样后面接的是ReLU激活函数,之后是跨度为2的池化层。此时,一个特征所代表的连续时长为160毫秒。

    2.5 LSTM和前向传播层

        全局卷积层输出结果输入到2层LSTM层,LSTM设置节点数为48,同时设置dropout为0.25。之后,输入一层全连接层,全连接层设置节点为7(情绪类别数),最后用softmax进行分类。

    3 相关实验

    3.1 数据集

        EmNet的性能在柏林情感语音数据库(EMO-DB)[8]上进行了验证,该数据库是最广泛使用的情感识别数据库之一。 它包含535个语音音频文件,由5个女性和5个男性说话者组成,每人包含10个短句。 其中每个文件都标有七种情绪中的一种:愤怒,快乐,悲伤,中立,无聊,厌恶和恐惧。

    3.2 模型训练和验证

        使用采用留一法进行验证(随机9成训练,一成验证),最后取平均作为最终结果。

        本文训练了一个基准模型来证明引入短时信息的有效性。该基准模型使用的特征是40维音频特征,包括上述原始的20维特征和规范化后的20维特征,使用的是SVM分类器。

        本文使用的优化器为Adam,Batchsize设置为64,上述网络参数是实验了98组参数后得到的最优参数。

    3.3 实验结果与分析

    图2 不同参数识别率

            图2显示了98种不同参数的识别率,带×号的是最好的结果。

    表1  EMO-DB数据集实验结果比对

        表1展示了不同模型在 EMO-DB数据集上的表现,我们设置的SVM准确率为77.3%,相对于ComParE+SVM结果差很多的原因估计是因为所用特征太少,因为ComParE+SVM用的特征数是6373个。另外,本文所用方法达到了88.9%的最佳效果。

    图3 对比基准模型识别效果

        图3对比了基准模型(40维+SVM)和本文模型,结果显示本文模型相对而言有很大的提升。另外发现,对于高兴这一情绪,提升效果不是很明显。

    图4 实验结果混肴矩阵

        图4 表示了某些比较容易错分或混淆的情况,比如生气和高兴这两种情绪。

    图5 用t-SNE可视化情绪空间

        图5展示了情绪特征(LSTM最后一个输出)可视化的结果,显示不同情绪能够比较好的分开。

    4 总结

        本文所提出的方法取得了很好的实验结果,但是由于所用数据集不是很大,可能存在过拟合情况,后期可以考虑用更大数据集进行验证,同时,可以实验用 eGeMAPS的其他特征进行实验。    

    5 参考文献

    [1] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F.

    Ringeval, M. Chetouani et al., “The INTERSPEECH 2013

    Computational Paralinguistics Challenge: Social Signals,

    Conflict, Emotion, Autism,” in Proc. INTERSPEECH. Lyon,

    France, 2013.

    [2] F. Eyben, K. Scherer, B. Schuller, J. Sundberg, E. Andre, C.

    Busso, L. Devillers, J. Epps, P. Laukka, S. Narayanan, and K.

    Truong, “The Geneva Minimalistic Acoustic Parameter Set

    (GeMAPS) for Voice Research and Affective Computing,” IEEE

    Transactions on Affective Computing, vol. 7, no. 2, 2016.

    [3] I. Murray and J. Arnott, “Toward the simulation of emotion in

    synthetic speech: A review of the literature on human vocal

    emotion,” J. Acoust. Soc. Am., vol. 32, no. 2, pp. 1097-1108,

    1993.

    [4] G. Hinton, L. Deng, Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly,

    A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, and B.

    Kingsbury, “Deep neural networks for acoustic modeling in

    speech recognition: The shared views of four research groups,”

    IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82– 97,

    November 2012.

    [5] T. Sainath, O. Vinyals, A. Senior, and H. Sak, “Convolutional,

    long short-term memory, fully connected deep neural networks,”

    in Proc. ICASSP, Brisbane, Australia, pp. 4580–4584, April

    2015.

    [6] S. Hochreiter and J. Schmidhuber, “Long short-term memory,”

    Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.

    [7] G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.

    Nicolaou, B. Schuller, and S. Zafeiriou, “Adieu features? end-toend speech emotion recognition using a deep convolutional

    recurrent network,” in Proc. ICASSP, pp. 5200-5204, 2016.

    [8] T. Chaspari, D. Dimitriadis, and P. Maragos, “Emotion

    classification of speech using modulation features,” in Proc.

    European Signal Processing Conference (EUSIPCO), 2014.

    [9] F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, and B.

    Weiss, “A database of German emotional speech,” in Proc.

    INTERSPEECH, Lisbon, Portugal, pp. 1517–1520, 2005.

    [10] D. Kingma and J. Ba, “Adam: A method for stochastic

    optimization,” in Proc. ICLR, San Diego, USA, 2015.

    [11] O. Kalinli, “Analysis of Multi-Lingual Emotion Recognition

    Using Auditory Attention Features,” in Proc. INTERSPEECH,

    2016.

    [12] R. Lotfidereshgi and P. Gournay, “Biologically Inspired Speech

    Emotion Recognition,” in Proc. ICASSP, 2016.

    [13] F. Chollet, keras, in GitHub, GitHub repository,

    https://github.com/fchollet/keras, 2015.

    [14] L. Van der Maaten and G. Hinton, “Visualizing high-dimensional

    data using t-SNE,” J. Machine Learning Research, vol. 9, pp.

    2579-2605, 2008.

    [1] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F.

    Ringeval, M. Chetouani et al., “The INTERSPEECH 2013

    Computational Paralinguistics Challenge: Social Signals,

    Conflict, Emotion, Autism,” in Proc. INTERSPEECH. Lyon,

    France, 2013.

    [2] F. Eyben, K. Scherer, B. Schuller, J. Sundberg, E. Andre, C.

    Busso, L. Devillers, J. Epps, P. Laukka, S. Narayanan, and K.

    Truong, “The Geneva Minimalistic Acoustic Parameter Set

    (GeMAPS) for Voice Research and Affective Computing,” IEEE

    Transactions on Affective Computing, vol. 7, no. 2, 2016.

    [3] I. Murray and J. Arnott, “Toward the simulation of emotion in

    synthetic speech: A review of the literature on human vocal

    emotion,” J. Acoust. Soc. Am., vol. 32, no. 2, pp. 1097-1108,

    1993.

    [4] G. Hinton, L. Deng, Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly,

    A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, and B.

    Kingsbury, “Deep neural networks for acoustic modeling in

    speech recognition: The shared views of four research groups,”

    IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82– 97,

    November 2012.

    [5] T. Sainath, O. Vinyals, A. Senior, and H. Sak, “Convolutional,

    long short-term memory, fully connected deep neural networks,”

    in Proc. ICASSP, Brisbane, Australia, pp. 4580–4584, April

    2015.

    [6] S. Hochreiter and J. Schmidhuber, “Long short-term memory,”

    Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.

    [7] G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.

    Nicolaou, B. Schuller, and S. Zafeiriou, “Adieu features? end-toend speech emotion recognition using a deep convolutional

    recurrent network,” in Proc. ICASSP, pp. 5200-5204, 2016.

    [8] T. Chaspari, D. Dimitriadis, and P. Maragos, “Emotion

    classification of speech using modulation features,” in Proc.

    European Signal Processing Conference (EUSIPCO), 2014.

    [9] F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, and B.

    Weiss, “A database of German emotional speech,” in Proc.

    INTERSPEECH, Lisbon, Portugal, pp. 1517–1520, 2005.

    [10] D. Kingma and J. Ba, “Adam: A method for stochastic

    optimization,” in Proc. ICLR, San Diego, USA, 2015.

    [11] O. Kalinli, “Analysis of Multi-Lingual Emotion Recognition

    Using Auditory Attention Features,” in Proc. INTERSPEECH,

    2016.

    [12] R. Lotfidereshgi and P. Gournay, “Biologically Inspired Speech

    Emotion Recognition,” in Proc. ICASSP, 2016.

    [13] F. Chollet, keras, in GitHub, GitHub repository,

    https://github.com/fchollet/keras, 2015.

    [14] L. Van der Maaten and G. Hinton, “Visualizing high-dimensional

    data using t-SNE,” J. Machine Learning Research, vol. 9, pp.

    2579-2605, 2008.

    相关文章

      网友评论

        本文标题:情绪识别--Emotion Recognition from H

        本文链接:https://www.haomeiwen.com/subject/uyxrmqtx.html