情绪识别--Emotion Recognition from H

作者: 静夜寒风 | 来源:发表于2019-03-15 17:45 被阅读118次

Emotion Recognition from Human Speech Using Temporal Information and Deep Learning

原文链接：https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1132.pdf

摘要

情绪识别是使机器具备同理心的一种重要技术，传统方法在提取各种声音特征方面做了许多工作和贡献，但是确都没有利用到短时信息。本文就是利用了传统的一些声音特征和声音的时序特征，利用深度学习方法，进行情感分析。本文提出的方案是具有最佳的准确率的方案之一，准确率达到了88.9%。

1 背景简介

2 本文方案--EmNet模型

图1（a）EmNet模型结构（b）已训练64 filter local conv权重

2.1 特征提取

本文使用eGeMAPS[2]特征集中88个特征里的20个特征，它们分别是：过零率，对数帧能量，帧能量熵，谱质心，光谱扩散，光谱熵，光谱通量，光谱滚降，梅尔频率倒谱系数（MFCC）C1~C5，发声概率，音调，共振峰带宽，共振峰增益，和三个谐波能量比（第一个的对数能量比）谐波到第二到第四的对数能量谐波）。

这些特征提取使用的是40ms汉明窗，窗口移动为30ms。生成的序列特征维度为20，为了保留音频信息，这些特征被直接输入网络。

2.2 规范化

本文使用[2,8]中的特征处理方法，特征使用了说话者所有音频的均值和标准差进行处理。

为了便于处理，所有序列长度被剪切或用0补充到512（512*10*0.001=5.2秒）维，即最终输入网络的维度为：20*512。

2.3 局部卷积层

不同于图像处理的卷积方式使用方块状的卷积，本文使用的是沿时间方向的条状卷积，这是因为输入的20维特征之间并没有相关关系（它们不同特征组合）。所以如图1a中，本文用的是1*6的卷积核，滤波器数为64的卷积，而后是ReLU激活函数，之后是跨度为4的池化层。

经过恰当训练后，我们希望每个独立的滤波器能够对应一些重要的短时信息，从而有利于后面的情绪识别。例如利用本文所列数据训练的模型，其滤波器权重如上图1b所示。

2.4 全局卷积层

局部卷积输出的特征会输入到全局卷积层中，全局卷积层拥有更大的感受野（2帧，对应80毫秒），用于提取更抽象的信息。全局卷积层采用的是128滤波器卷积核，同样后面接的是ReLU激活函数，之后是跨度为2的池化层。此时，一个特征所代表的连续时长为160毫秒。

2.5 LSTM和前向传播层

全局卷积层输出结果输入到2层LSTM层，LSTM设置节点数为48，同时设置dropout为0.25。之后，输入一层全连接层，全连接层设置节点为7（情绪类别数），最后用softmax进行分类。

3 相关实验

3.1 数据集

EmNet的性能在柏林情感语音数据库（EMO-DB）[8]上进行了验证，该数据库是最广泛使用的情感识别数据库之一。它包含535个语音音频文件，由5个女性和5个男性说话者组成，每人包含10个短句。其中每个文件都标有七种情绪中的一种：愤怒，快乐，悲伤，中立，无聊，厌恶和恐惧。

3.2 模型训练和验证

使用采用留一法进行验证（随机9成训练，一成验证），最后取平均作为最终结果。

本文训练了一个基准模型来证明引入短时信息的有效性。该基准模型使用的特征是40维音频特征，包括上述原始的20维特征和规范化后的20维特征，使用的是SVM分类器。

本文使用的优化器为Adam，Batchsize设置为64，上述网络参数是实验了98组参数后得到的最优参数。

3.3 实验结果与分析

图2 不同参数识别率

图2显示了98种不同参数的识别率，带×号的是最好的结果。

表1 EMO-DB数据集实验结果比对

表1展示了不同模型在 EMO-DB数据集上的表现，我们设置的SVM准确率为77.3%，相对于ComParE+SVM结果差很多的原因估计是因为所用特征太少，因为ComParE+SVM用的特征数是6373个。另外，本文所用方法达到了88.9%的最佳效果。

图3 对比基准模型识别效果

图3对比了基准模型（40维+SVM）和本文模型，结果显示本文模型相对而言有很大的提升。另外发现，对于高兴这一情绪，提升效果不是很明显。

图4 实验结果混肴矩阵

图4 表示了某些比较容易错分或混淆的情况，比如生气和高兴这两种情绪。

图5 用t-SNE可视化情绪空间

图5展示了情绪特征（LSTM最后一个输出）可视化的结果，显示不同情绪能够比较好的分开。

4 总结

本文所提出的方法取得了很好的实验结果，但是由于所用数据集不是很大，可能存在过拟合情况，后期可以考虑用更大数据集进行验证，同时，可以实验用 eGeMAPS的其他特征进行实验。

5 参考文献

[1] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F.

Ringeval, M. Chetouani et al., “The INTERSPEECH 2013

Computational Paralinguistics Challenge: Social Signals,

Conflict, Emotion, Autism,” in Proc. INTERSPEECH. Lyon,

France, 2013.

[2] F. Eyben, K. Scherer, B. Schuller, J. Sundberg, E. Andre, C.

Busso, L. Devillers, J. Epps, P. Laukka, S. Narayanan, and K.

Truong, “The Geneva Minimalistic Acoustic Parameter Set

(GeMAPS) for Voice Research and Affective Computing,” IEEE

Transactions on Affective Computing, vol. 7, no. 2, 2016.

[3] I. Murray and J. Arnott, “Toward the simulation of emotion in

synthetic speech: A review of the literature on human vocal

emotion,” J. Acoust. Soc. Am., vol. 32, no. 2, pp. 1097-1108,

1993.

[4] G. Hinton, L. Deng, Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly,

A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, and B.

Kingsbury, “Deep neural networks for acoustic modeling in

speech recognition: The shared views of four research groups,”

IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82– 97,

November 2012.

[5] T. Sainath, O. Vinyals, A. Senior, and H. Sak, “Convolutional,

long short-term memory, fully connected deep neural networks,”

in Proc. ICASSP, Brisbane, Australia, pp. 4580–4584, April

2015.

[6] S. Hochreiter and J. Schmidhuber, “Long short-term memory,”

Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.

[7] G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.

Nicolaou, B. Schuller, and S. Zafeiriou, “Adieu features? end-toend speech emotion recognition using a deep convolutional

recurrent network,” in Proc. ICASSP, pp. 5200-5204, 2016.

[8] T. Chaspari, D. Dimitriadis, and P. Maragos, “Emotion

classification of speech using modulation features,” in Proc.

European Signal Processing Conference (EUSIPCO), 2014.

[9] F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, and B.

Weiss, “A database of German emotional speech,” in Proc.

INTERSPEECH, Lisbon, Portugal, pp. 1517–1520, 2005.

[10] D. Kingma and J. Ba, “Adam: A method for stochastic

optimization,” in Proc. ICLR, San Diego, USA, 2015.

[11] O. Kalinli, “Analysis of Multi-Lingual Emotion Recognition

Using Auditory Attention Features,” in Proc. INTERSPEECH,

2016.

[12] R. Lotfidereshgi and P. Gournay, “Biologically Inspired Speech

Emotion Recognition,” in Proc. ICASSP, 2016.

[13] F. Chollet, keras, in GitHub, GitHub repository,

https://github.com/fchollet/keras, 2015.

[14] L. Van der Maaten and G. Hinton, “Visualizing high-dimensional

data using t-SNE,” J. Machine Learning Research, vol. 9, pp.

2579-2605, 2008.