Deep-AVSR

作者: 湯木 | 来源:发表于2020-04-29 02:06 被阅读0次

Deep-AVSR

Deep Audio-Visual Speech Recognition

作者：Triantafyllos Afouras, Joon Son Chung, Andrew Senior, Oriol Vinyals, Andrew Zisserman
原文链接

0 摘要

　这项工作的目的是识别有语音或无语音的说话人说的短语和句子。不同于以前的工作（只能识别有限数量的单词或短语），我们将唇语作为一个开放世界的问题来解决——视频中无限制的自然语言句子。我们主要的贡献：1、我们比较了两种读唇语的模型，一种是用CTC损失，另一种是用sequence-to-sequence损失，这两个模型都是基于transformer self-attention架构。2、我们研究唇语在多大程度上可与音频语音识别相辅相成，特别是当音频信号嘈杂时。3、我们引入并公开发布了用于视听语音识别的新数据集LRS2-BBC，其中包括来自英国电视台的数千个自然句子。
　　我们训练的模型大大超过了唇读基准数据集上所有先前工作的性能。

1 介绍

　唇语阅读（“lip reading”也翻译为唇读）在实际情况中往往会遇到一些问题，比如说：“p”和“b”在嘴型上都是一样的，不过这种情况可以通过联系上下文或者用语言模型，在一定程度上得到解决。
　　唇读机器会打开许多应用程序：在嘈杂的环境中发出“命令”，向电话发送指令或消息；转录和重新配音存档的无声电影；解决多人同时语音以及总体上改善自动语音识别的性能。
　　由于在计算机视觉任务中众所周知的两个发展，现在这种自动化成为可能：使用深度神经网络模型[30，44，47];以及大规模可用的训练数据集[41]。在这种情况下，唇读模型基于最近开发的编码器-解码器体系结构，用于语音识别和机器翻译[5、7、22、23、46]。
　　本文的目的是开发用于唇读句子的神经转录体系结构。我们比较了两种模型：一种使用连接器时间分类（CTC）损失[22]，另一种使用序列到序列（seq2seq）损失[9，46]。两种模型都基于transformer self-attention架构[49]，因此可以将两种损失的优缺点进行直接比较，而其余的模块则尽可能多。本文开发的用于训练和评估模型的数据集是基于数千小时的视频，这些视频中有说话人的脸以及说话的字幕。
　　我们还研究了唇读如何促进基于音频的语音识别。关于这种贡献的文献很多，特别是在嘈杂的环境中，在某些相反的情况下，某些音频的derived measure可能会导致耳聋或重听的唇读。为了研究这一方面，我们训练了一个模型来识别音频和视觉输入中的字符，然后系统地干扰音频通道。
　　我们的模型在字符级别输出。对于CTC，这些输出彼此独立。在sequence-to-sequence损失，将隐式学习语言模型，并且该体系结构包含了一种新颖的双重关注机制，该机制可以仅对视觉输入，仅对音频输入或对二者进行操作。第3节中描述了这些体系结构。这两种模型都通过beam search进行解码，我们可以选择在其中合并外部语言模型。
　　在第4节中，我们描述了用于训练和评估模型的大型数据集LRS2-BBC的生成和统计信息。数据集包含说话的面孔以及所说的字幕。这些视频包含“自然（in the wild）”面孔，这些面孔具有各种各样的姿势，表情，光线，背景和种族。第5节介绍了网络训练，我们在其中汇报了一种用于加速训练的课程学习形式。最后，第6节评估模型的性能，包括仅用于视觉（嘴唇）输入，音频和视觉输入以及音频和视觉流之间的同步误差的模型。
　　关于内容：此呈件基于会议论文[12]。我们用基于Transformer的模型的两个变体替换了原始论文中的WLAS模型[49]。在[2]中发表了一个变体，而第二个变体（使用CTC损失）是本文的原始贡献。我们还用[45]提出的基于ResNet的可视化前端进行了更新。与[12]中提出的模型相比，新的前端和后端体系结构对字误码率（WER）的绝对改进贡献超过22％。最后，我们公开发布了一个新的数据集LRS2-BBC，它将取代[12]中的原始LRS数据集，由于许可证限制，该数据集无法公开。

2 背景

2.1 CTC vs sequence-to-sequence 架构

　在大多数情况下，用于序列预测的端到端深度学习方法可以分为两种类型。

图1：视听语音识别流水线的概述。
　　第一种使用神经网络作为发射（emission）模型，其在给定输入序列（例如音频）的情况下输出每个输出符号（例如音素）的似然（likelihood）。这些方法通常采用隐马尔可夫模型[25]进行解码的第二阶段。这种变体的一个版本是连接主义者的时间分类（CTC）[22]，其中模型预测逐帧标签，然后在逐帧预测和输出序列之间寻找最佳对齐方式。 CTC的主要缺点是输出标签彼此之间没有条件（假定每个单元都是独立的），因此将语言模型用作后处理步骤。注意，已经提出了一些共同训练两步过程的替代方法[21]。该方法的另一个局限性在于它假定输入和输出序列之间的单调排序。例如，此假设适用于ASR和转录，但不适用于机器翻译。
　　第二种是序列到序列模型[9，46]（seq2seq），该模型先读取所有输入序列，然后再预测输出句子。许多论文采用这种方法进行语音识别[10，11]：例如，Chan等。 [7]提出了一种优雅的序列到序列方法将音频信号转录为字符。序列到序列在时间 t 处以先前 1，...，t − 1 输出为条件的输出符号（例如字符或单词）进行解码。因此，与基于CTC的模型不同，该模型隐式地学习了基于输出符号的语言模型，并且不需要进一步的处理。然而，已经证明[7、26]，在序列到序列模型的解码中并入外部语言模型也是有益的。这样，可以利用较大的纯文本语料库，该语料库包含的自然语言信息要比用于训练声学模型的有限对齐数据要丰富得多。
　　关于体系结构，尽管传统上基于CTC或seq2seq的方法依赖于循环网络，但最近已经转向了纯粹的卷积模型[6]。例如，全卷积网络已用于带有CTC的ASR [51，55]或简化的变体[16，32，54]。

2.2 相关工作

　唇读（Lip reading）使用非深度学习方法进行唇读的工作量很大。在[56]中对这些方法进行了全面的回顾，在此不再赘述。与识别完整的单词或句子相反，许多论文已使用卷积神经网络（CNN）从静止图像预测音素（phonemes）[37]或视位素（visemes）[29]。音素是共同构成一个语音词的最小的可分辨声音单位。视位素是其视觉等同物。
　　为了识别完整的单词，Petridis等人[39]在离散余弦变换（discrete cosine transform，DCT）和深度瓶颈特征（deep bottleneck features，DBF）上训练LSTM分类器。同样，Wand等[50]使用具有HOG输入功能的LSTM来识别短语。唇读中手工特征继续使用的原因大概是缺乏训练数据。现有的数据集仅具有少量主题的视频，以及有限的词汇（少于60个单词），这也是进步的障碍。Chung和Zisserman [13]通过在电视广播中使用面孔来组合500字的词汇量的LRW数据集来解决小词典问题。但是，与任何词级分类任务一样，鉴于必须预先知道词的边界，因此该情形仍与现实世界相去甚远。Assael等[4]使用基于CNN和LSTM的网络和（CTC）[22]来计算标签。这汇报了GRID数据集的约束语法和51个单词的词汇具有很强的独立于说话者的性能[17]。
　　在我们的早期工作中[12]，我们基于[7]的LAS ASR模型提出了WLAS序列到序列模型（WLAS的缩写是Watch，Listen，Attend和Spell，而LAS则是Listen，Attend和Spell）。WLAS模型具有双重attention机制——一种用于视觉（嘴唇）流，另一种用于音频（语音）流。它将语音句子转录为字符，并且可以仅处理视觉输入，或者仅音频输入或者两者兼有。
　　在独立和并行的工作中，Shillingford等人[43]，设计一个唇读流水线（pipeline），该流水线使用一个输出音素概率并经过CTC损失训练的网络。在inference时，他们使用基于有限状态换能器（transducers）的解码器将音素分布转换为单词序列。该网络在由YouTube视频构成的超大规模唇读数据集上进行了训练，并实现了出色的40.9％词错误率。
　　视听语音识别（Audio-visual speech recognition） 视听语音识别（AVSR）和唇读的问题紧密相关。Mroueh等[36]使用前馈深度神经网络（DNN）在大型非公共视听数据集上进行音素分类。事实证明，将HMM与手工制作或预先训练的视觉功能结合使用很普遍——[48]使用DBF编码输入图像；[20]使用DCT；[38]使用经过预训练的CNN对音素进行分类；这三种功能都与HMM结合使用，可以对语音数字或孤立的单词进行分类。与唇读一样，几乎没有尝试开发可推广到实际环境的AVSR系统。
　　Petridis等[40]使用的体系结构的扩展版本[45]从原始像素和波形中学习表示形式，然后将它们连接起来并馈入双向循环网络，该双向循环网络共同对音频和视频序列进行建模并输出单词标签。

3 架构

　在本节中，我们描述用于视听语音识别的模型架构，在此基础上，我们基于最近提出的Transformer模型[49]探索了两种变体：i）用于以seq2seq方式训练的 encoder-decoder 注意力结构，以及用 CTC loss 训练的 self-attention 模块。图2概述了该体系结构。通用模型接收两个输入流，一个输入流用于视频（V），一个用于音频（A）。

图2：视听语音识别模型。（a）通用编码器：视觉图像序列由时空ResNet处理，而音频特征是通过对音频信号应用短时傅立叶变换（STFT）获得的频谱图。然后，每个模态由单独的Transformer编码器编码。（b）TM-seq2seq：Transformer模型。在每个解码器层上，视频（V）和音频（A）编码由独立的多头注意模块分别处理。为两种模态（分别为Vc和Ac）生成的上下文向量在通道上进行级联（concatenated），并馈送到前馈层。 K，V和Q表示多头注意块（multi-head attention blocks）的键，值和查询张量。对于self-attention层，始终为Q = K = V，对于encoder-decoder attentions，K = V是编码（V或A），而Q为上一层的输出（或对于第一层来说，是前一个解码步骤的网络预测）。（c）TM-CTC：Transformer CTC，由self-attention和前馈层的堆栈组成的模型，为每个输入帧产生CTC后验概率。有关多头注意力和前馈模块的完整详细信息，请参阅附录B。

3.1 音频特征

　对于声学表示（acoustic representation），我们使用321维频谱幅度，该幅度是在40kHz窗口和10ms跳长（hop-length）下以16 kHz采样率计算的。由于视频以25 fps（每帧40毫秒）采样，因此每个视频输入帧对应4个声学特征帧。我们将音频功能分为4组，以减少稳定CTC训练常用的输入序列长度[8，42]，同时为两种模式实现相同的时间尺度。

3.2 视觉模块

　输入图像为224×224像素，以25 fps采样，并包含说话者的脸部。如图3所示，我们裁剪了一个112×112的补丁，覆盖了嘴周围的区域。要提取表示嘴唇运动的视觉特征，我们使用基于[45]的时空视觉前端。该网络在输入图像序列上应用3D卷积，其滤镜宽度为5帧，然后是2D ResNet，可随着深度逐渐减小空间尺寸。附录A中详细列出了这些层。对于 $T×H×W$ 帧的输入序列，输出为 $T×\frac {H}{32}×\frac {W}{32}×512$ 张量（即保留时间分辨率（temporal resolution）），其在空间维度上平均池化，为每个输入视频帧生成512维特征向量。

3.3 普通self-attention编码器

　我们考虑的两个变体都使用相同的基于self-attention的编码器体系结构。编码器是多头self-attention层的堆栈，其中输入张量同时用作attention的查询，键和值。如图2（a）所示，每种模式都使用单独的编码器。输入序列顺序的信息以正弦函数形式的固定位置嵌入被馈送到模型。

3.4 Sequence-to-sequence Transformer (TM-seq2seq)

　在此变体中，使用单独的attention heads来引入（attending on）视频和音频嵌入。在每个解码器层中，所得的视频和音频上下文在通道范围内连接在一起并传播到前馈块。两种模态的关注机制都将前一解码层的输出（或在第一层的情况下为解码器输入）作为查询接收。解码器产生的字符概率直接与标准答案标签（ground truth labels）匹配并经过交叉熵损失训练。附录B中提供了有关多头注意力（multi-head attention）和前馈构建模块的更多详细信息。

3.5 CTC Transformer (TM-CTC)

　TM-CTC模型将视频和音频编码连接起来，并通过一堆self-attention/前馈模块传播结果，该模块与编码器中使用的模块相同。网络的输出是每个输入帧的CTC后验概率，整个堆栈都经过CTC损失训练。

3.6 外部（External）语言模型（LM）

　为了在推理中解码这两个变量，我们使用了字符级语言模型。它是一个递归网络，具有4个单向层，每个层有1024个LSTM单元。语言模型经过训练，可以一次预测一个字符，仅接收前一个字符作为输入。两种模型的解码都是通过从左到右的波束搜索进行的，其中LM对数概率通过浅融合[26]与模型的输出组合在一起。附录C和D中提供了有关解码的更多详细信息。

3.7 单模态模型（Single modality models）

　当仅存在两种形式时，可以使用本节中描述的视听模型。代替使用TM-seq2seq的注意力向量或TM-CTC的编码，仅使用来自可用模态的向量。

4 数据集

　在本节中，我们描述了一种多级流水线（multi-stage pipeline），这种多级流水线用于自动生成视听语音识别的大规模数据集LRS2-BBC。使用此流水线，我们已经能够收集数千小时的口头句子和短语以及相应的面部表情。我们使用了各种BBC程序，从Dragon's Den到Top Gear和Countryfile。
　　图4总结了处理流程。大多数步骤都是基于[13]和[14]中描述的方法，不过我们在此简要概述了该方法。
　　视频准备 一个基于Single Shot MultiBox Detector（SSD）[33]的CNN面部检测器用于检测各个帧中的面部外观。与先前工作中使用的基于HOG的检测器[27]不同，SSD可以从各个角度检测人脸，并表现出更强大的性能，同时运行速度更快。
　　通过比较连续帧之间的颜色直方图来确定镜头边界[31]。在每次拍摄中，面部跟踪都是根据面部检测的位置从面部检测生成的，因为当视点发生极端变化时，基于特征的跟踪器（例如KLT [34]）通常会失败。
　　音频和文本准备 电视中的字幕不会与音频同步广播。 Penn Phonetics Lab强制对齐器[53]用于将字幕与音频信号强制对齐。对齐方式中存在错误，因为笔录不是逐字记录的——因此，通过对照工业中IBM Watson语音转文本服务进行检查，可以过滤对齐的标签。
　　AV同步和扬声器检测 在广播视频中，音频和视频流最多可能不同步一秒钟左右，这在提取与句子对应的面部表情时可能会引起问题。 [14]中描述的两流网络（two-stream network）的多视图适配（multi-view adaptation）[15]用于同步两个流。同样的网络还可以用来确定哪些脸部的嘴唇运动与音频相匹配，如果没有匹配，则该剪辑将被视为画外音。
　　句子提取 使用转录产物（transcript）中的标点将视频分为单个句子/短语。句子之间用句号、逗号和问号分隔；由于GPU内存的限制而被裁剪为100个字符或10秒。对于词汇量，我们没有任何限制。
　　根据广播日期（broadcast date），LRS2-BBC数据集分为开发（训练/验证）和测试集。数据集还具有一个“预训练”集，其中包含一些句子摘录，这些摘录可能比开发集中包含的完整句子短或长，并有每个单词的对齐边界的注释。这些集合的统计信息在表1中给出。该表还将“唇读句”（LRS）系列数据集与最大的现有公共数据集进行了比较。除了LRS2-BBC，我们还使用MV-LRS和LRS3-TED进行训练和评估。
　　用于训练外部语言模型的数据集 为了在每个视听数据集上训练用于评估的语言模型，我们使用了一个文本语料库，其中包含视频的完整字幕，并由此生成了数据集的训练集。纯文本语料库包含2600万个单词。

5 训练策略

　在本节中，我们将描述有效地训练模型的策略，并充分利用有限的可用数据量。训练分为四个阶段：i）对视觉前端模块进行了训练； ii）使用视觉模块为所有训练数据生成视觉特征； iii）对序列处理模块进行冷冻视觉特征（frozen visual features）的训练； iv）整个网络是端到端的训练。

5.1 预训练视觉特征

　我们使用MVLRS [15]数据集的词摘录对视觉前端进行预训练，使用2层时间卷积后端对每个片段进行分类，类似于[45]。我们以水平翻转，移除随机帧[4、45]以及在空间维度上最多±5个像素和在时间维度上最多±2帧的随机移位的形式执行数据增强。

5.2 课程式学习（Curriculum learning）

　据报道，当时间步长很大时，序列到序列学习收敛非常慢，因为解码器最初很难从所有输入步骤中提取相关信息[7]。即使我们的模型不包含任何递归模块，我们发现遵循课程设置而不是立即对完整句子进行训练也很有帮助。
　　我们引入了一种新的策略，在该策略中，我们仅在单个单词示例上开始训练，然后让序列长度随着网络训练而增长。这些短序列是数据集中较长句子的一部分。我们观察到训练集上的收敛速度快了好几倍，而课程（curriculum）也显着减少了过拟合，这大概是因为它是扩充数据的自然方式。
　　首先根据MV-LRS，LRS2-BBC和LRS3-TED的预训练集的冻结特征对网络进行训练。我们通过将序列零填充到最大长度来处理发声长度的差异，然后逐渐增加最大长度。然后，我们根据要评估的集合，分别对LRS2BBC或LRS3-TED的训练评估（train-val）集进行端到端微调。

图3：顶部：LRS2-BBC数据集制作中使用的视频中的原始静止图像。底部：来自两个不同扬声器的嘴部动作。网络会看到红色方块内的区域。

表1：有关唇读句（LRS）视听数据集和其他现有的大规模唇读数据集的统计信息。训练，验证和测试数据的划分；以及每个分区的发音数量，单词实例数量和词汇量。 Utt：言语（Utterances）。 y：由于许可证限制，公众不可用。

图4：生成数据集的流水线。

5.3 嘈杂音频训练&多模式训练

　最初，纯音频模型使用纯净的输入音频进行训练。具有多模式输入的网络通常可以由以下模式之一控制[19]。在我们的案例中，我们观察到对于视听模型来说，音频信号占主导地位，因为语音识别比唇读要容易得多。为了防止这种情况的发生，我们在训练期间以 $p_n=0.25$ 的概率向音频流中添加了SNR为0dB的babble噪声。
　　为了评估和提高对音频噪声的泛化性（tolerance），我们随后在始终将原始音频中添加具有0dB SNR的babble噪声的设置中，微调纯音频和视听模型。我们通过混合LRS2-BBC数据集中20种不同音频样本的信号来合成babble噪声样本。

5.4 实施细节

　网络的输出大小为40，占字母表中的26个字符，10个数字以及[space]和[pad]的标记。对于TM-seq2seq，我们使用额外的[sos]令牌，对于TM-CTC，我们使用[blank]令牌。我们不对标点符号建模，因为数据集的转录不包含任何标点符号。
　　TM-seq2seq用教师强制（teacher forcing ）训练——我们将上一个解码步骤的基本事实作为解码器的输入，而在推理过程中，我们会反馈解码器预测。

表2：LRS2-BBC和LRS3-TED数据集的字错误率（WER）。第二列（M）指定输入形式：V，A和AV分别表示仅视频，纯音频和视听模型，而 + extLM表示使用外部语言模型进行解码。https://cloud.google.com/speech-to-text，于2018年7月3日访问。
　　我们的实现基于TensorFlow库[1]，并在具有11GB内存的单个GeForce GTX 1080 Ti GPU上进行了训练。使用具有默认参数和初始学习率的ADAM优化器[28]对网络进行训练，每次验证误差达到稳定水平时，初始学习率将降低2倍，直至最终学习率达到。对于所有模型，我们使用的dropout和标签平滑。

6 实验内容

　在本节中，我们评估和比较提出的体系结构和训练策略。我们还将我们的方法与现有技术进行了比较。
　　我们按照第5.2节所述进行训练，并在各个数据集的独立测试集上评估LRS2-BBC和LRS3-TED的微调模型。推理和评估程序如下所述。
　　测试时间增加 在推论过程中，我们对每个视频样本执行9个随机变换（视频帧的水平翻转和最大±5像素的空间移位），并将扰动后的序列通过网络。对于TM-seq2seq，我们平均了对数结果，而对于TM-CTC，我们平均视觉特征。
　　光束搜索 对于TM-Seq2seq，使用宽度为35的波束搜索来进行解码；对于TM-CTC，使用宽度为100的波束搜索来执行解码（这些值是根据LRS2-BBC的train-val分离的保留验证集确定的）。
　　评估协议 对于所有实验，我们报告的单词错误率（WER）定义为 $WER =（S + D + I）= N$ ，其中S，D和I分别是从中获得的替换，删除和插入的数量。参考假设，N是参考中的字数。
　　实验设置 本节的其余部分结构如下：首先，我们以唇读的方式呈现结果，其中仅将视频用作输入。然后，我们将完整模型用于视听语音识别，其中假定视频和音频已正确同步。为了评估模型在嘈杂环境中的鲁棒性，我们还在人为添加话语噪声的环境中进行了训练和测试。最后，我们提出了一些关于非同步视频和音频的实验。表2总结了所有实验的结果，其中我们报告了字误码率，具体取决于是否在解码过程中使用了语言模型。

6.1 只有唇语

　结果效果最佳的网络是TM-seq2seq，使用语言模型进行解码时，LRS2-BBC的WER达到48.3％，与之前最新的70.4％相比，改善了22％以上[12]。该模型还将LRS3-TED的基准设置为58.9％。
　　在图5中，我们显示了WER如何随测试句子中单词数量的变化而变化。图6显示了该模型在30个最常用词上的性能。图7显示了在LRS2-BBC上进行评估时，仅视频TM-seq2seq模型增加波束宽度的效果。值得注意的是，在使用外部语言模型（+ extLM）进行解码时，增加波束宽度会更加有益。
　　解码示例 该模型将学习从各种内容中正确预测复杂的看不见的句子——表3中显示了示例。

表3：TM-seq2seq正确预测看不见句子的示例（仅视频）。

6.2 视听语音识别

　视觉信息可用于改善ASR的性能，特别是在具有背景噪音的环境中[36、38、40]。在这里，我们分析了第3节中描述的视听模型的性能。
　　结果表2中的结果表明，当音频信号有噪声时，嘴唇的运动为语音识别提供了重要的提示。并且即使在音频信号纯净的情况下也可以提高性能——例如，使用视听TM-CTC模型时，单词错误率从仅音频的10.1％降低到8.2％。与仅音频模型相比，使用视听TM-seq2seq时获得的收益相似。

图5：仅视频模式的句子中每个单词数的单词错误率，在LRS2-BBC的测试集上进行了评估。我们排除了集合中少于5个样本所代表的句子大小（即15、16和19个单词）。虚线显示了所有句子的平均WER。对于这两种模型，WER对于不同的句子大小而言都是相对统一的。但是，单词数量很少的样本（3）似乎更困难，大概是因为它们提供的上下文较少。

图6：对于仅视频模式，在LRS2-BBC测试集中最常见的30个单词中，每个单词F1，精度和召回率。通过最小编辑距离操作（附录E中的详细信息）计算度量。对于所有单词和两个模型，精度都比召回率高。
　　解码示例 表4显示了许多示例，其中该模型无法仅从嘴唇或音频中预测正确的句子，但在同时存在两个流时成功地解密了单词。
　　对齐和注意力可视化 TM-seq2seq模型的编码器-解码器注意力机制在输入视频帧和假定字符输出之间生成显式对齐。图9直观显示了“comes from one of the most beautiful parts of the world”字符和相应视频帧的对齐方式。由于该架构包含多个关注头，因此我们通过对对数域中所有解码器层上的关注蒙版求平均来获得对齐。

图7：在LRS2-BBC上进行评估时，仅视频TM-seq2seq模型的波束宽度对字错误率的影响。

表4：AVSR结果的示例。GT：标准答案（Ground Truth）； A：仅音频； V：仅视频； AV：视听。
　　嘈杂的音频 我们使用嘈杂的音频进行纯音频和视听实验，这些噪声是通过将原始声音添加babble噪声来合成的。从嘈杂的环境中进行语音识别非常具有挑战性，从现成的Google S2T ASR基准的性能显著降低（与纯净性能相比，性能下降60％以上）可以看出这一点。这个困难也反映在我们纯音频模型的性能上，即单词错误率类似于仅使用唇语时获得的单词错误率。但是，将这两种方式结合起来可以带来显著的改进，字错误率下降高达30％。值得注意的是，在背景声音很大的情况下，视听模型的性能要比仅视频或仅音频的模型好得多。
　　AV注意可视化 在图10中，我们比较了不同TM-seq2seq模型在音频流中是否存在附加的babble噪声的情况下的注意力蒙版。

6.3 音频和视频不同步

　在这里，我们评估视听模型在音频和视频输入未在时间上对齐时的性能。由于音频和视频已在我们的数据集中同步，因此我们对视频帧进行综合移位以实现不同步的效果。我们评估了LRS2-BBC数据集的非同步样本的性能。我们考虑TM-CTC和TMseq2seq体系结构，对随机移位的样本进行或不进行微调。结果如图8所示。很明显，TM-seq2seq体系结构更能抵抗这些变化。我们只需将模型校准一个时期，以使不同步效果几乎消失。这展示了针对两种模式采用独立的编码器-解码器注意机制的优势。相反，即使在经过数次微调之后，连接两种编码的TM-CTC仍难以应对这种变化。

图8：当视频帧相对于音频被人为移动了许多帧时，LRS2-BBC上的视听模型对WER评分。 TM-seq2seq模型仅微调了一个时间段，而CTC则调整了训练周期集合上的4个时间段。

6.4 关于seq2seq与CTC的讨论

　如果不提供音频，则TM-seq2seq模型在WER方面的唇读效果要好得多。对于仅音频或视听任务，这两种方法的执行方式相似。但是，CTC模型似乎可以更好地处理背景噪声。在很大的babble噪音的情况下，纯音频和视听TM-seq2seq模型的性能都明显差于它们的TM-CTC模型。
　　训练时间 TM-seq2seq模型的架构更复杂，更难训练，完整的视听模型大约需要8天才能在具有12GB内存的单个GeForce Titan X GPU上完成两个数据集的全部课程（curriculum）。相反，视听TM-CTC模型在相同的硬件上训练速度更快，即大约需要5天。但是，应注意的是，由于两种体系结构均不包含递归模块且不进行批量归一化，因此它们的实现可以高度并行化为多个GPU。

图9：视频帧和使用TM-seq2seq输出的字符之间的对齐。通过平均对数域中所有解码器层上的所有编码器-解码器注意头来生成对齐。
　　预测时间 TM-CTC模型的解码不需要自回归，因此，无论波束宽度W如何，仅需评估一次CTC概率。TM-seq2seq并非如此，对于波束搜索的每一步，解码器子网需要评估W次。这使得CTC模型的解码更快，这可能是部署的重要因素。
　　语言建模 当在波束搜索中加入外部语言模型时，这两种模型的性能都更好，但是，TM-CTC的收益要高得多，因为单独的视觉模型并不能实现明确的语言一致性。
　　推广到更长的序列 我们观察到，随着课程学习过程中序列长度的增加，TM-CTC模型的泛化效果更好，适应速度更快。我们认为这也会影响训练时间，因为后者需要更多的时间才能收敛。

7 结论

　在本文中，我们介绍了一个大规模的不受限制的视听数据集LRS2-BBC，它是通过收集和预处理来自英国电视台的数千个视频而形成的。
　　我们考虑了两个可以将语音的音频和视频序列转换为字符的模型，并表明当仅存在一种模式时，也可以使用相同的体系结构。我们的最佳纯视觉模型在很大程度上超越了LRS2-BBC唇读数据集上现有技术的性能，并为最近发布的LRS3-TED奠定了坚实的基础。我们最终证明，即使有干净的音频信号，视觉信息也有助于提高语音识别性能。尤其是在音频中存在噪声的情况下，将两种模态结合起来可带来重大改进。

图10：附加噪声对不同TM-seq2seq模型的注意掩码的影响的可视化。我们将注意力集中在（a）干净的音频话语上，以及（b）通过在25个中央音频帧中添加babble噪声而获得的嘈杂的话语上。将（c）与（d）进行比较，纯音频模型的注意力似乎更多地散布在了施加噪声的区域周围，而没有关注最后的帧。类似地，对于视听模型，与声音嘈杂时（g）相比，声音干净时（f）的注意力更加集中。这句话的真实记载是“one of the articles there is about the queen　elizabeth”。通过观察转录，我们发现当添加噪声时，纯音频模型（d）不能正确预测中心单词，但是视听模型（g＆h）通过利用视觉提示成功地转录了句子。有趣的是，在此特定示例中，仅视频模型输出的转录（e）完全错误；然而，两种模态的结合产生了正确的预测。最后，视频输入（f）上的AV模型的注意力掩码具有明显的单调趋势，并且类似于仅视频模型（e）之一；这也可以验证该模型确实学会了使用视频模式，即使存在音频也是如此。

8 参考

[1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv preprint arXiv:1603.04467, 2016.
[2] T. Afouras, J. S. Chung, and A. Zisserman. Deep lip reading: A comparison of models and an online application. In INTERSPEECH, 2018.
[3] T. Afouras, J. S. Chung, and A. Zisserman. LRS3-TED: a large-scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496, 2018.
[4] Y. M. Assael, B. Shillingford, S. Whiteson, and N. de Freitas. Lipnet: Sentence-level lipreading. arXiv:1611.01599, 2016.
[5] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. Proceedings of the International Conference on Learning Representations, 2015.
[6] S. Bai, J. Z. Kolter, and V. Koltun. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling. arXiv preprint arXiv:1803.01271, 2018.
[7] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals. Listen, attend and spell. arXiv preprint arXiv:1508.01211, 2015.
[8] C. Chiu, T. N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R. J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski, and M. Bacchiani. State-ofthe-art speech recognition with sequence-to-sequence models. CoRR, abs/1712.01769, 2017.
[9] K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. In EMNLP, 2014.
[10] J. Chorowski, D. Bahdanau, K. Cho, and Y. Bengio. Endto-end continuous speech recognition using attention-based recurrent NN: first results. In NIPS 2014 Workshop on Deep Learning, 2014.
[11] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio. Attention-based models for speech recognition. In Advances in Neural Information Processing Systems, pages 577–585, 2015.
[12] J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman. Lip reading sentences in the wild. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[13] J. S. Chung and A. Zisserman. Lip reading in the wild. In Proceedings of the Asian Conference on Computer Vision, 2016.
[14] J. S. Chung and A. Zisserman. Out of time: automated lip sync in the wild. In Workshop on Multi-view Lip-reading, ACCV, 2016.
[15] J. S. Chung and A. Zisserman. Lip reading in profile. In Proceedings of the British Machine Vision Conference, 2017.
[16] R. Collobert, C. Puhrsch, and G. Synnaeve. Wav2letter: An end-to-end convnet-based speech recognition system. CoRR, abs/1609.03193, 2016.
[17] M. Cooke, J. Barker, S. Cunningham, and X. Shao. An audio-visual corpus for speech perception and automatic speech recognition. The Journal of the Acoustical Society of America, 120(5):2421–2424, 2006.
[18] A. Czyzewski, B. Kostek, P. Bratoszewski, J. Kotus, and M. Szykulski. An audio-visual corpus for multimodal automatic speech recognition. Journal of Intelligent Information Systems, pages 1–26, 2017.
[19] C. Feichtenhofer, A. Pinz, and A. Zisserman. Convolutional two-stream network fusion for video action recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016.
[20] G. Galatas, G. Potamianos, and F. Makedon. Audio-visual speech recognition incorporating facial depth information captured by the kinect. In Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European, pages
2714–2717. IEEE, 2012.
[21] A. Graves. Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711, 2012.
[22] A. Graves, S. Fernandez, F. Gomez, and J. Schmidhuber. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the International Conference on Machine Learning, pages 369–376. ACM, 2006.
[23] A. Graves and N. Jaitly. Towards end-to-end speech recognition with recurrent neural networks. In Proceedings of the International Conference on Machine Learning, pages 1764–1772, 2014.
[24] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015.
[25] G. Hinton, L. Deng, D. Yu, G. Dahl, A.-R. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, B. Kingsbury, and T. Sainath. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29:82–97, November 2012.
[26] A. Kannan, Y. Wu, P. Nguyen, T. N. Sainath, Z. Chen, and R. Prabhavalkar. An analysis of incorporating an external language model into a sequence-to-sequence model. arXiv preprint arXiv:1712.01996, 2017.
[27] D. E. King. Dlib-ml: A machine learning toolkit. The Journal of Machine Learning Research, 10:1755–1758, 2009.
[28] D. P. Kingma and J. Ba. ADAM: A method for stochastic optimization. In Proceedings of the International Conference on Learning Representations, 2015.
[29] O. Koller, H. Ney, and R. Bowden. Deep learning of mouth shapes for sign language. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 85–91, 2015.
[30] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, pages 1106–1114, 2012.
[31] R. Lienhart. Reliable transition detection in videos: A survey and practitioner’s guide. International Journal of Image and Graphics, August 2001.
[32] V. Liptchinsky, G. Synnaeve, and R. Collobert. Letterbased speech recognition with gated convnets. CoRR, abs/1712.09444, 2017.
[33] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg. SSD: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision, pages 21–37. Springer, 2016.
[34] B. D. Lucas and T. Kanade. An iterative image registration technique with an application to stereo vision. In Proc. of the 7th International Joint Conference on Artificial Intelligence, pages 674–679, 1981.
[35] A. L. Maas, Z. Xie, D. Jurafsky, and A. Y. Ng. Lexicon-free conversational speech recognition with neural networks. In Proceedings the North American Chapter of the Association for Computational Linguistics (NAACL), 2015.
[36] Y. Mroueh, E. Marcheret, and V. Goel. Deep multimodal learning for audio-visual speech recognition. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2130–2134. IEEE, 2015.
[37] K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata. Lipreading using convolutional neural network. In INTERSPEECH, pages 1149–1153, 2014.
[38] K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata. Audio-visual speech recognition using deep learning. Applied Intelligence, 42(4):722–737, 2015.
[39] S. Petridis and M. Pantic. Deep complementary bottleneck features for visual speech recognition. ICASSP, pages 2304–2308, 2016.
[40] S. Petridis, T. Stafylakis, P. Ma, F. Cai, G. Tzimiropoulos, and M. Pantic. End-to-end audiovisual speech recognition. CoRR, abs/1802.06424, 2018.
[41] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, S. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. Berg, and F. Li. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 2015.
[42] H. Sak, A. W. Senior, K. Rao, and F. Beaufays. Fast and accurate recurrent neural network acoustic models for speech recognition. In INTERSPEECH, 2015.
[43] B. Shillingford, Y. Assael, M. W. Hoffman, T. Paine, C. Hughes, U. Prabhu, H. Liao, H. Sak, K. Rao, L. Bennett, M. Mulville, B. Coppin, B. Laurie, A. Senior, and N. de Freitas. Large-Scale Visual Speech Recognition. arXiv preprint arXiv:1807.05162, 2018.
[44] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations, 2015.
[45] T. Stafylakis and G. Tzimiropoulos. Combining residual networks with LSTMs for lipreading. In Interspeech, 2017.
[46] I. Sutskever, O. Vinyals, and Q. Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 3104–3112, 2014.
[47] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[48] S. Tamura, H. Ninomiya, N. Kitaoka, S. Osuga, Y. Iribe, K. Takeda, and S. Hayamizu. Audio-visual speech recognition using deep bottleneck features and high-performance lipreading. In 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), pages 575–582. IEEE, 2015.
[49] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. Attention Is All You Need. In Advances in Neural Information Processing Systems, 2017.
[50] M. Wand, J. Koutn, and J. Schmidhuber. Lipreading with long short-term memory. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 6115–6119. IEEE, 2016.
[51] Y. Wang, X. Deng, S. Pu, and Z. Huang. Residual Convolutional CTC Networks for Automatic Speech Recognition. arXiv preprint arXiv:1702.07793, 2017.
[52] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, J. Klingner, A. Shah, M. Johnson, X. Liu, L. Kaiser, S. Gouws, Y. Kato, T. Kudo, H. Kazawa, K. Stevens, G. Kurian, N. Patil, W. Wang, C. Young, J. Smith, J. Riesa, A. Rudnick, O. Vinyals, G. Corrado, M. Hughes, and
J. Dean. Google’s neural machine translation system: Bridging the gap between human and machine translation. CoRR, abs/1609.08144, 2016.
[53] J. Yuan and M. Liberman. Speaker identification on the scotus corpus. Journal of the Acoustical Society of America, 123(5):3878, 2008.
[54] N. Zeghidour, N. Usunier, I. Kokkinos, T. Schatz, G. Synnaeve, and E. Dupoux. Learning filterbanks from raw speech for phone recognition. CoRR, abs/1711.01161, 2017.
[55] Y. Zhang, M. Pezeshki, P. Brakel, S. Zhang, C. Laurent, Y. Bengio, and A. C. Courville. Towards end-to-end speech recognition with deep convolutional neural networks. CoRR, abs/1701.02720, 2017.
[56] Z. Zhou, G. Zhao, X. Hong, and M. Pietikainen. A review of recent advances in visual speech decoding. Image and vision computing, 32(9):590–605, 2014.

Deep-AVSR
Deep Audio-Visual Speech Recognition 作者：Triantafyllos Afo...

Deep-AVSR

Deep Audio-Visual Speech Recognition

0 摘要

1 介绍