美文网首页深度学习
ICLR 2019 最佳论文《Ordered Neurons:

ICLR 2019 最佳论文《Ordered Neurons:

作者: 卢晨耀 | 来源:发表于2019-05-13 14:45 被阅读0次

最近ICLR2019接受论文已经公布,最佳论文也跟着亮相了,这篇是两篇最佳论文中的其中一篇,另外一篇是《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》。本文题目是《Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks》,对神经元进行有序排列,主要对RNN进行改进,应用于NLP任务中 。

本文的主要贡献有三个:1、设计了一个新的被作者称为ON-LSTM的模型,该模型偏向于进行树状组成问题的操作;2、模型在4个任务中表现很好:language modeling 语言建模、unsupervised constituency parsing 成分句法分析、targeted  syntactic evaluation 目标句法评估、logical inference 逻辑推断;3、在unsupervised constituency parsing中,inductive bias加上人类语言专家定义的规则的模型,比之前的模型表现都要好,作者还发现,在需要长期记忆的任务中,ON-LSTM比standard LSTM的效果要好,并且在长的序列中泛化效果很好。

理论上,RNN和LSTM对上下文有关文法和上下文无关文法的数据都可以建模,但是近期的研究结果发现在LSTM中加入结构信息会更有利(推测理论上LSTM的参数能拟合的很好,但是实际上收敛的时候没有特别好的方法快速收敛,而结构化信息会给模型参数更多限制)

自然语言处理中有上游任务和下游任务(这块读者可以自行去搜索相关内容),本文的成果可作为上游任务的基础。输入数据需要序列数据和它们对应的句法树。像这样,从一棵语法分析树转化为一个RNN:

图1:语法树转化为RNN

有了RNN之后还不行,图中深色的部分就是需要每次输入新值时需要被完全更新的,而浅色的部分是迭代时不完全被更新的部分,也就是说(c)中的S的time scale 要更长一些。至于怎么去决定这个等级的分配,文中对标准的LSTM进行了改进(没错,又是对标准架构的改进,文中也提到了2016ICLR的一篇hierarchy multi-scale RNN),作者称之为ON-LSTM。

标准的LSTM是这样的:

图2:标准LSTM单元更新规则

这里面有forget units,input units,output units,cell单元和隐状态h。作者提出在标准的LSTM中,每个神经元之间是独立工作的,这样很难对神经元进行等级划分,于是对它进行了一些改进。作者引进了一个公式:

图3:\hat{g} 函数

这里的cumsum就是cumulative sum,累和。定义一个binary gate:g=(0,...,0,1,...,1),在ON-LSTM中,cell的状态会通过二值门变成0或1,模型将会对这两种值进行不同的更新规则,从而分级。用随机变量d表示g中第一个1的索引值,那么d就代表了这两种状态的分界线。

图4:p(d)函数

作者通过评估在第k个是分裂点之前的任何值的分离概率来计算g为1的第k个值的概率,即有:

图4:p(g_k=1)

理想中,g是离散随机变量,但是计算离散变量的梯度是不容易的,所以在实际中,作者计算p(g\leq k)来进行放宽,这个p(g\leq k)由对softmax求累和来得到,因为g_k是二值变量,所以这等同于求E[g_{k}],所以\hat{g}=E[g_k]

基于cumax(),下面作者介绍了master forget gate 和master input gate:

图5:master forget gate和master input gate

cumax的值是从1到0单调递减的,也即是在一小段内,\tilde{f_t} 的值趋于0,忘掉之前的东西,而\tilde{i_t} 的值趋于1,新输入的内容越来越重要。然后就是ON-LSTM的更新规则了:

图6:ON-LSTM的单元更新规则

相关文章

网友评论

    本文标题:ICLR 2019 最佳论文《Ordered Neurons:

    本文链接:https://www.haomeiwen.com/subject/yjrzoqtx.html