Emotion Recognition from Human Speech Using Temporal Information and Deep Learning
原文链接:https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1132.pdf
摘要
情绪识别是使机器具备同理心的一种重要技术,传统方法在提取各种声音特征方面做了许多工作和贡献,但是确都没有利用到短时信息。本文就是利用了传统的一些声音特征和声音的时序特征,利用深度学习方法,进行情感分析。本文提出的方案是具有最佳的准确率的方案之一,准确率达到了88.9%。
1 背景简介
2 本文方案--EmNet模型
图1(a)EmNet模型结构 (b)已训练64 filter local conv权重2.1 特征提取
本文使用eGeMAPS[2]特征集中88个特征里的20个特征,它们分别是:过零率,对数帧能量,帧能量熵,谱质心,光谱扩散,光谱熵,光谱通量,光谱滚降,梅尔频率倒谱系数(MFCC)C1~C5,发声概率,音调,共振峰带宽,共振峰增益,和三个谐波能量比(第一个的对数能量比)谐波到第二到第四的对数能量谐波)。
这些特征提取使用的是40ms汉明窗,窗口移动为30ms。生成的序列特征维度为20,为了保留音频信息,这些特征被直接输入网络。
2.2 规范化
本文使用[2,8]中的特征处理方法,特征使用了说话者所有音频的均值和标准差进行处理。
为了便于处理,所有序列长度被剪切或用0补充到512(512*10*0.001=5.2秒)维,即最终输入网络的维度为:20*512。
2.3 局部卷积层
不同于图像处理的卷积方式使用方块状的卷积,本文使用的是沿时间方向的条状卷积,这是因为输入的20维特征之间并没有相关关系(它们不同特征组合)。所以如图1a中,本文用的是1*6的卷积核,滤波器数为64的卷积,而后是ReLU激活函数,之后是跨度为4的池化层。
经过恰当训练后,我们希望每个独立的滤波器能够对应一些重要的短时信息,从而有利于后面的情绪识别。例如利用本文所列数据训练的模型,其滤波器权重如上图1b所示。
2.4 全局卷积层
局部卷积输出的特征会输入到全局卷积层中,全局卷积层拥有更大的感受野(2帧,对应80毫秒),用于提取更抽象的信息。全局卷积层采用的是128滤波器卷积核,同样后面接的是ReLU激活函数,之后是跨度为2的池化层。此时,一个特征所代表的连续时长为160毫秒。
2.5 LSTM和前向传播层
全局卷积层输出结果输入到2层LSTM层,LSTM设置节点数为48,同时设置dropout为0.25。之后,输入一层全连接层,全连接层设置节点为7(情绪类别数),最后用softmax进行分类。
3 相关实验
3.1 数据集
EmNet的性能在柏林情感语音数据库(EMO-DB)[8]上进行了验证,该数据库是最广泛使用的情感识别数据库之一。 它包含535个语音音频文件,由5个女性和5个男性说话者组成,每人包含10个短句。 其中每个文件都标有七种情绪中的一种:愤怒,快乐,悲伤,中立,无聊,厌恶和恐惧。
3.2 模型训练和验证
使用采用留一法进行验证(随机9成训练,一成验证),最后取平均作为最终结果。
本文训练了一个基准模型来证明引入短时信息的有效性。该基准模型使用的特征是40维音频特征,包括上述原始的20维特征和规范化后的20维特征,使用的是SVM分类器。
本文使用的优化器为Adam,Batchsize设置为64,上述网络参数是实验了98组参数后得到的最优参数。
3.3 实验结果与分析
图2 不同参数识别率图2显示了98种不同参数的识别率,带×号的是最好的结果。
表1 EMO-DB数据集实验结果比对表1展示了不同模型在 EMO-DB数据集上的表现,我们设置的SVM准确率为77.3%,相对于ComParE+SVM结果差很多的原因估计是因为所用特征太少,因为ComParE+SVM用的特征数是6373个。另外,本文所用方法达到了88.9%的最佳效果。
图3 对比基准模型识别效果图3对比了基准模型(40维+SVM)和本文模型,结果显示本文模型相对而言有很大的提升。另外发现,对于高兴这一情绪,提升效果不是很明显。
图4 实验结果混肴矩阵图4 表示了某些比较容易错分或混淆的情况,比如生气和高兴这两种情绪。
图5 用t-SNE可视化情绪空间图5展示了情绪特征(LSTM最后一个输出)可视化的结果,显示不同情绪能够比较好的分开。
4 总结
本文所提出的方法取得了很好的实验结果,但是由于所用数据集不是很大,可能存在过拟合情况,后期可以考虑用更大数据集进行验证,同时,可以实验用 eGeMAPS的其他特征进行实验。
5 参考文献
[1] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F.
Ringeval, M. Chetouani et al., “The INTERSPEECH 2013
Computational Paralinguistics Challenge: Social Signals,
Conflict, Emotion, Autism,” in Proc. INTERSPEECH. Lyon,
France, 2013.
[2] F. Eyben, K. Scherer, B. Schuller, J. Sundberg, E. Andre, C.
Busso, L. Devillers, J. Epps, P. Laukka, S. Narayanan, and K.
Truong, “The Geneva Minimalistic Acoustic Parameter Set
(GeMAPS) for Voice Research and Affective Computing,” IEEE
Transactions on Affective Computing, vol. 7, no. 2, 2016.
[3] I. Murray and J. Arnott, “Toward the simulation of emotion in
synthetic speech: A review of the literature on human vocal
emotion,” J. Acoust. Soc. Am., vol. 32, no. 2, pp. 1097-1108,
1993.
[4] G. Hinton, L. Deng, Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly,
A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, and B.
Kingsbury, “Deep neural networks for acoustic modeling in
speech recognition: The shared views of four research groups,”
IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82– 97,
November 2012.
[5] T. Sainath, O. Vinyals, A. Senior, and H. Sak, “Convolutional,
long short-term memory, fully connected deep neural networks,”
in Proc. ICASSP, Brisbane, Australia, pp. 4580–4584, April
2015.
[6] S. Hochreiter and J. Schmidhuber, “Long short-term memory,”
Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[7] G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.
Nicolaou, B. Schuller, and S. Zafeiriou, “Adieu features? end-toend speech emotion recognition using a deep convolutional
recurrent network,” in Proc. ICASSP, pp. 5200-5204, 2016.
[8] T. Chaspari, D. Dimitriadis, and P. Maragos, “Emotion
classification of speech using modulation features,” in Proc.
European Signal Processing Conference (EUSIPCO), 2014.
[9] F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, and B.
Weiss, “A database of German emotional speech,” in Proc.
INTERSPEECH, Lisbon, Portugal, pp. 1517–1520, 2005.
[10] D. Kingma and J. Ba, “Adam: A method for stochastic
optimization,” in Proc. ICLR, San Diego, USA, 2015.
[11] O. Kalinli, “Analysis of Multi-Lingual Emotion Recognition
Using Auditory Attention Features,” in Proc. INTERSPEECH,
2016.
[12] R. Lotfidereshgi and P. Gournay, “Biologically Inspired Speech
Emotion Recognition,” in Proc. ICASSP, 2016.
[13] F. Chollet, keras, in GitHub, GitHub repository,
https://github.com/fchollet/keras, 2015.
[14] L. Van der Maaten and G. Hinton, “Visualizing high-dimensional
data using t-SNE,” J. Machine Learning Research, vol. 9, pp.
2579-2605, 2008.
[1] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F.
Ringeval, M. Chetouani et al., “The INTERSPEECH 2013
Computational Paralinguistics Challenge: Social Signals,
Conflict, Emotion, Autism,” in Proc. INTERSPEECH. Lyon,
France, 2013.
[2] F. Eyben, K. Scherer, B. Schuller, J. Sundberg, E. Andre, C.
Busso, L. Devillers, J. Epps, P. Laukka, S. Narayanan, and K.
Truong, “The Geneva Minimalistic Acoustic Parameter Set
(GeMAPS) for Voice Research and Affective Computing,” IEEE
Transactions on Affective Computing, vol. 7, no. 2, 2016.
[3] I. Murray and J. Arnott, “Toward the simulation of emotion in
synthetic speech: A review of the literature on human vocal
emotion,” J. Acoust. Soc. Am., vol. 32, no. 2, pp. 1097-1108,
1993.
[4] G. Hinton, L. Deng, Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly,
A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, and B.
Kingsbury, “Deep neural networks for acoustic modeling in
speech recognition: The shared views of four research groups,”
IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82– 97,
November 2012.
[5] T. Sainath, O. Vinyals, A. Senior, and H. Sak, “Convolutional,
long short-term memory, fully connected deep neural networks,”
in Proc. ICASSP, Brisbane, Australia, pp. 4580–4584, April
2015.
[6] S. Hochreiter and J. Schmidhuber, “Long short-term memory,”
Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[7] G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.
Nicolaou, B. Schuller, and S. Zafeiriou, “Adieu features? end-toend speech emotion recognition using a deep convolutional
recurrent network,” in Proc. ICASSP, pp. 5200-5204, 2016.
[8] T. Chaspari, D. Dimitriadis, and P. Maragos, “Emotion
classification of speech using modulation features,” in Proc.
European Signal Processing Conference (EUSIPCO), 2014.
[9] F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, and B.
Weiss, “A database of German emotional speech,” in Proc.
INTERSPEECH, Lisbon, Portugal, pp. 1517–1520, 2005.
[10] D. Kingma and J. Ba, “Adam: A method for stochastic
optimization,” in Proc. ICLR, San Diego, USA, 2015.
[11] O. Kalinli, “Analysis of Multi-Lingual Emotion Recognition
Using Auditory Attention Features,” in Proc. INTERSPEECH,
2016.
[12] R. Lotfidereshgi and P. Gournay, “Biologically Inspired Speech
Emotion Recognition,” in Proc. ICASSP, 2016.
[13] F. Chollet, keras, in GitHub, GitHub repository,
https://github.com/fchollet/keras, 2015.
[14] L. Van der Maaten and G. Hinton, “Visualizing high-dimensional
data using t-SNE,” J. Machine Learning Research, vol. 9, pp.
2579-2605, 2008.
网友评论