seq^3 Differentiable Unsupervi

作者: VanJordan | 来源:发表于2019-06-07 14:44 被阅读0次

seq^3 Differentiable Unsupervi
写给人类的机器学习三、无监督学习
Lecture 5 | Convergence in Neura
未来的IT系统：DITS – Differentiable IT
JPEG-resistant Adversarial Image
NLP（3）——seq to seq
生物序列对象
Seurat的scATAC-seq分析流程
函数、参数和文件保存与读取
Pytorch学习记录-使用共同学习完成NMT的构建和翻译

做的任务是句子压缩。
方法也和其他无监督方法一样就是构建重建损失。
对于要压缩的长度，作者的方法是用了带个超参，然后在超参间均匀采样，使用5保底，但是压缩的长度并不是直接截断而是超过压缩的长度的话有一个length的penalty。
几个loss比较有意思，首先作者在题目中说了是可微的，但是生成句子的时候有一个可读的句子采样的时候是不可微的，因此作者的放发就是采样的时候使用正常的采样，反向传播的时候使用gamble-max tricks或者是soft-argmax，这个方法还有一个术语叫straight-through estimator，前向传播的时候不使用这两个技巧是因为，这两种方法产生的都是embedding的mixture，利用了全局的信息，而且后面的时候还需要使用language model所以必须要是可以读懂的句子。
本文最大的创新点就是两个loss用的十分精妙，LM Prior Loss和Topic Loss，前者是生成词的时候计算和lm的kl散度，不直接使用一个language model初始化而是直接计算交叉熵相当于对language model进行了知识蒸馏，这样允许我们使用更大预训练好的language model，但是还有一个问题是language model生成出来的句子一般是最大似然的句子，因此作者引入了一个基于tf-idf的 topic loss，让topic联系的更加紧密，因此和lm损失形成了一个trade-off，理想情况下就是生成既通顺又符合主题的句子。
topic loss竟然是关键，因为topic loss起到的是一个引导程序的做阴，其他的loss在前期可能都因为smaple的效果太差了，所以找不到优化的方向，但是topic loss有引导作用，引导采样到一个很小范围内的单词
此外作者发现了一个很有意思的现象是seq3总是会倾向于复制源文章中前面几个单词，作者解释可能的原因是因为重建是自回归的，所有的后面单词的生成都要银行仰仗前面单词的生成，因此前面单词生成的对错至关重要，因此compressor更加倾向于直接复制前面的几个单词，这样reconstruer，所以这也印证了生成的时候第一个单词的生成总是最为重要的，他决定了从哪一个流行的附近开始生成接下来的单词。
问题：因为有重建损失所以差不多是大段落复制原始的文本。
感觉这个文章其实最大的贡献点是提出了topic loss这么一个东西，给embedding根据topic loss 加上attention，引导在sample中单词的选择，不加直接就爆跌了，反而language model没有很大的作用。

MeanSum : A Neural Model for Unsupervised Multi-Document Abstractive Summarization

上一篇是naacl19的这一篇是icml19的，感觉方法很类似，naacl给我的实验上的启发多一点，这个做了很多的实验分析（没有理论分析也能中icml）
两个都是做摘要的，不同的一点是上一篇是做单文档摘要的，这个是做多文档摘要的，这个主要用于比如说亚马逊上有很多商品的评价有好评有差评，然后将所有的好评和差评总结成一个摘要，这个样子。放一个例子，可以看到作者生成摘要的长度差不多是一个文本的长度因此没有必要做length penalty。
作者在contribution中argue的一点是强调自己与无监督机器翻译最大的不同是只有输入的需要总结的句子，连输出的语料都没有。
最主要的模型的图。需要注意的一点是里面的encoder和encoder共享参数，decoder和decoder共享参数，从直觉上来说，autoencoderReconstructionLoss强迫训练出一个比较好的encoder和decoder，然后后面的encoder和decoder也能受益
损失函数，就是一个重建损失和一个语义相似的损失，作者说了自己尝试过更换不同loss的比例但是效果不变。所以说基本上加了loss的都拟合了，并没有trade-off的情况

本文的亮点是`ablation study`做的很好。

首先是使用language model 初始化encoder和decoder重要吗？不是很重要，只是有轻微的下降，也就是说模型可以找到优化的方向，如果仅仅只用一个language model做摘要，也就是作者文中说到的no-training的方法相关度和情感一致性都很蹦。
有两个模型是完全崩了，一个是不使用auto-encoder，因为只要两个encoder学习到不管输入是什么东西统统输出一样的东西，那么相似度是最小的，因此学不到有用的东西，个人感觉还是监督信号太弱了，只用一个similarity当监督信号无法训练好一个encoder和decoder，还有一个模型是如果decoder的参数不共享那么不能映射到同一个语言空间，因此也崩了，decoder的参数不共享summary端训练不好，用gumbel softmax采样不好，反而相当于dropout，因此可以将encoder训练的很好，重建端的decoder训练的也很好，但是真实在测试的时候summary decoder端还是训练的不充分。

reconstruction 模型虽然能够work但是效果很差，作者认为是学习的难度太大了，尽管有Gumbel softmax但是梯度还是bias很大或者方差依赖于温度（尽管可以是退火的)，因为只有一个损失函数就是gumbel softmax因此很难优化，而且作者认为从一个平均的向量中重建出来所有的文档，这个任务本身就很难。