翻译 | 林椿眄
编辑 | 阿司匹林
出品 | 人工智能头条(公众号ID:AI_Thinker)
小米和西北工业大学的“交情”不浅。
去年 7 月,小米和西工大计算机学院的谢磊教授合作,在 arXiv 上提交了一篇端对端的语音识别论文。(详见文章《小米首次公开发表论文:基于注意力机制的端对端语音识别》)
如今,小米的谢磊教授的合作更进一步,在今年 3 月一口气发表了三篇论文,都是智能语音方向的热门题目,可见小米对语音的重视。
谢磊教授表示,目前这三篇论文均已被语音领域的顶会 Interspeech 接收。下面我们就来看看这三篇论文都涉及哪些研究方向。
▌一、基于注意力机制的语音关键词检出
作者:Changhao Shan, Junbo Zhang, Yujun Wang, Lei Xie
在本文中,我们提出了一种基注意力机制的端到端神经网络模型,用于检出小资源关键字(Keyword Spotting,简称 KWS),以便简化构建一套“产品--质量”的 KWS 系统流程。我们的模型用到了编码器和注意力机制。利用循环神经网络结构 (RNN), 我们的编码器能将输入信号转换为高级的表示。然后,利用注意力机制对编码器的特征进行加权,并生成一个固定长度的矢量。该矢量经线性变换和 softmax 函数处理,最终输出用于关键字检测的得分。我们还评估了不同编码器结构的性能,包括 LSTM,GRU 和 CRNN。我们采用现实世界的数据来评估我们的方法,实验结果表明,我们的方法大大优于近期提出的深度 KWS 方法,而采用 CRNN 结构的编码器能够取得最佳检测性能。 更具体地说,在每小时 1.0 次误警报 (FA) 的设置下,我们的注意力模型能够实现 1.02% 的漏检率 (false rejection rate FRR),而模型参数量仅为84K。
链接:https://arxiv.org/abs/1803.10916
▌二、用于鲁棒语音识别的基于生成对抗网络的语音去混响
作者:Ke Wang, Junbo Zhang, Sining Sun, Yujun Wang, Fei Xiang, Lei Xie
我们研究了生成对抗网络 (GAN) 在语音去混响中的应用,以便提高语音识别的鲁棒性。近期的许多工作已将 GAN 应用于语音增强的研究,以便消除额外的噪声。然而,这些工作缺乏对语音去混响能力的探究,而且 GAN 结构的优势也未能得到充分发挥。在本文,我们基于 GAN 结构,对 ASR 前端的去混响能力进行了深入的研究。首先,我们研究不同的去混响网络的有效性 (GAN 中的生成器),并发现与我们在这个数据集上研究的前馈 DNN 和 CNN 相比,LSTM 结构能够显著地改善模型的性能。接着,我们进一步发现在深层 LSTM 结构中增加残差连接能够进一步提高模型的性能。最后,我们还发现在网络训练期间使用相同的小批量数据来更新生成器和判别器,对于 GAN 结构的成功是非常重要的。此外,正如先前的研究所提到的,使用混响频谱图作为判别器的条件可能会降低模型的表现。总之,在多状态的声学模型上测试时,我们提出的基于 GAN 结构的去混响网络与基准的 DNN 去混响网络相比,其相对 CER 减少了14%-19%。
链接:https://arxiv.org/abs/1803.10132
▌三、基于深度学习的语音识别说话人自适应技术
作者:Ke Wang, Junbo Zhang, Yujun Wang, Lei Xie
说话者自适应技术旨在不依赖说话人的情况下,能够估计说话者特定的声学模型,以便最小化不同说话者在训练和测试条件下的不匹配。自从深度学习模型成为主流的研究方向,大量的神经网络自适应方法相继被提出,但是不同方法之间的对比实验依旧缺乏,特别是在基于 DNN 的声学模型得到很大改进的情况。在本文,我们旨在通过对三种典型的说话者自适应方法 (LIN, LHUC 和 KLD) 的评估实验来解决这个问题。我们的自适应评估实验,采用不同大小的自适应数据,并在强大的 TDNN-LSTM 声学模型上进行实验。更具挑战的是,我们所关注的说话源和目标分别对应标准普通话的说话者和有口音的普通话的说话者模型,我们比较了不同方法及不用组合下的表现性能,而说话者的自适应性能也能由说话者的口音程度来检验。
网友评论