Abstract
RNN,尤其是LSTM对于seq2srq的学习任务是非常吸引人的。尽管他们非常成功,他们仍有一个很大的缺点:它们很容易产生具有良好前缀但不良后缀的不平衡目标,因此在处理长序列时性能会受到影响。我们提出了一种简单而有效的方法来克服这个缺点。 我们的方法依赖于成对目标方向LSTM之间的协议,这些LSTM产生更平衡的目标。除此之外,我们开发了两种有效的近似搜索方法,这些方法在经验上显示出在sequence-level losses方面几乎是最优的。对两个标准的序列 - 序列转导任务进行了广泛的实验:机器音译和石墨烯 - 音素转换。结果表明,与六种最先进的系统相比,所提出的方法实现了一致和实质性的改进。 特别是,我们的方法在字形到音素任务上的表现优于最佳报告错误率(相对增益高达9%)。 我们的工具包可在https://github.com/lemaoliu/Agtarbidir上公开获取。
递归神经网络(RNNs)(Mikolov等,2010),尤其是长期短期记忆网络(LSTMs)1(Hochreiter and Schmidhuber,1997; Graves,2013)为传统上需要精心设计的各种任务提供了一个通用而强大的解决方案 ,特定任务的解决方案。 关于分类任务(Graves and Schmidhuber 2008; Tai,Socher,and Manning 2015),他们可以很容易地总结一个对于传统解决方案来说很困难的无边界情况,并且这导致更可靠的预测。与传统的解决方案相比,它们在序列到序列学习(Sutskever,Vinyals和Le 2014)等更普遍和具有挑战性的任务方面具有优势,其中需要一系列本地但相关的预测。 RNN利用整个源序列的上下文信息,并且批判地能够利用先前预测的整个序列。 在各种序列 - 序列转导任务中,RNN已被证明与现有技术相当。
尽管他们在seq2seq学习方面很成功,但RNN遭受了一个根本性和关键性的缺点,这令人惊讶地被忽视。 在进行预测(解码时)时,LSTM需要将先前的局部预测编码为上下文信息的一部分。 如果某些先前的预测不正确,则后续预测的上下文可能包含一些噪音,这会破坏后续预测的质量,如图1所示。
在该图中,较大的字体表示对预测的目标字符更有信心。 t = 7时的预测使用由输入和所有先前预测组成的上下文。 因为在t = 5时预测是不正确的,即它应该是'R'(参考文献中的绿色字符)而不是'L',它会导致t = 7时的不正确预测。这样,LSTM在产生目标序列时可能产生质量恶化的不平衡序列。
对LSTM的真实预测结果进行统计分析是为了激励这里报告的工作。 分析支持我们的假设,发现在超过10个字符的测试例子中,前两个字符的预测精度高于77%,而后两个字符的预测精度仅为65%左右(参见实验部分)。 因此这个缺点可能会限制RNN的潜力,特别是对于长序列。
为了解决上述缺点,在本文中,我们提出了一种简单而有效的方法。 它的基本思想依赖于两个特定于目标的定向LSTM模型之间的协议:一个像通常一样从左到右生成目标序列,而另一个从右到左的生成目标序列。 具体来说,我们首先联合训练两个定向LSTM模型; 然后进行测试,我们尝试搜索支持两种模型的目标序列。 这样,预计最终输出包含好的前缀和好的后缀。 由于联合搜索问题已被证明是NP难题,其确切的解决方案是棘手的,因此我们开发了两个简单而有效的近似替代方案。 尽管提出的搜索技术只考虑整个搜索空间的一小部分,但我们的实证结果表明它们在sequence-level losses几乎是最优的。
这篇文章的主要贡献
1.这是第一次指出并正式分析了一个根本性的缺点,影响顺序到顺序学习中的递归神经网络。
2.它提出了联合搜索问题的有效近似,并且凭经验证明它可以实现接近最优的性能。这种方法足够普遍适用于任何深循环神经网络。
3.在机器音译和字形 - 音素转换任务上,所提出的方法始终如一地大大超过六个现有技术系统,特别是它提高了字形到字符间距的最大报告误差率(高达9%的相对收益) 音素任务。
Revisiting the Generic LSTM重新访问通用LSTM
x表示一个一般(源或目标)的字符序列,他的第t个字符(在时间步t)是xt,长度是|x|。特别地,源序列由f表示,而目标序列由e表示。θ表示递归神经网络的整体模型参数:θ superscript表示θ的组件参数依赖θ superscript,并且他也是一个偏置向量(如果θsuperscript包括b)或者一个矩阵;θ(x t)是表示x t的嵌入的向量,xt是源字符或者目标字符;I(θ,x t)表示由x指定的源词汇表或目标词汇表中的x t的索引。请注意,在本文的其余部分中,下标保留为序列中的时间步,以便于阅读。
模型定义
RNN的seq2seq的学习模型定义如下:
g :softmax function ;;;;;; p : 运算符
vec[I] :vector cec第I个组成的真正的数字表示
ht(x) :基于ht-1(f)=0 和 h-1(e) 在时间步t序列x的循环隐层状态
Agreement on Target-bidirectional LSTMs
正如前一节所解释的那样,虽然通用(从左到右)LSTM在预测后缀时会遇到困难,但幸运的是,它非常有能力预测前缀。另一方面,从右到左生成目标的互补LSTM精通预测后缀。 受到词汇对齐领域工作的启发(Liang et al.2006),我们提出了序列到序列学习的协议模型,以克服基本的缺点。 它鼓励两种目标双向LSTM模型之间达成一致。
形式上,我们制定了以下联合目标双向LSTM模型
P分别代表从左到右和从右到左的LSTM模型,θ代表了他们的参数。这个模型叫做agreement model或者joint model。
训练作为最小化可以写为下面的等式:
image.png
为了进行优化,我们使用AdaDelta,一个mini-batch随机梯度下降的方法。梯度是通过时间上反向传播计算,时间在我们实验中是没有限制的。选用MAP策略去testing,这实质上是方程(2)与P jnt(使用训练的
插入←→θ参数)。
原来的研究论文 方向由源端指定,而不是像我们的方法那样指定目标端。 因此,他们的双向LSTMs仍然会遭受前面提到的缺点。无论如何,源端双向方法已被证明是一种基本且实用的技术,并且可以很容易地在我们的模型中用于潜在的改进。 但我们跳过它来强调本文中模型的新颖性。
此外,我们的协议模型采用了一对LSTM,因此在某种意义上它是一个整体。然而,我们的想法与迄今为止文献中报道的神经网络集合之间存在重大差异。首先,对LSTM全局集合中的每个LSTM进行解码可以直接用标准方式实现,而对于我们的具有不同定向LSTM的协议模型的解码是具有挑战性的,这将在下一节中展示。 其次,我们的想法与一个集合是正交的,因为我们的协议模型的左到右和从右到左的LSTM本身可以是LSTM的集合,事实上这种方法在这里报告的实验中被采用。
Approximations of Joint Search
联合搜寻的挑战
协议模型的确切推断通常是难以处理的,即使在单个模型可以在本地分解的情况下也是如此。
Joint k-best Approximation联合k-best近似
Polynomial Approximation多项式近似
结论
当在RNN的单向过程中生成目标时,精度随着距序列起点的距离而下降,因此产生长序列成为问题。 我们提出了一个关于对称生成过程的目标双向LSTM的协议模型。 对这个协议模型的确切搜索是NPhard,因此我们开发了两个近似的搜索选择,并且凭经验分析他们的行为,发现它们接近最优。 大量的实验表明,我们的方法非常有希望,在机器音译和字形到音素转换方面的一系列强大的基线上实现了巨大的收益。 此外,我们的方法在标准的字形到音素转换数据集上实现了迄今为止报告的最好结果。
网友评论