[TOC]
text matching(or QA)
MIX: Multi-Channel Information Crossing for Text Matching
赖博在KDD2018上的文章。paper暂时无法在arxiv上找到
文本多分类
用深度学习解决大规模文本分类问题
文本分类综合性介绍,fasttext, textcnn, textrnn, textrnn+attention, textrcnn。
科大讯飞DRNN
其实就相当于把cnn的标准卷积更换成lstm。强调序列。
word embedding
Chinese Word Vectors 中文词向量
北师大的作品,ACL2018。用简单的sgns, ppmi方法在多个数据集上(百度百科)train了300维的embedding,并且每种都用了不同方法构建context feature。试了下,百科的word-word比较好用,在task上提升较大。且固定住pre-train embedding concat task相关的embedding比对pre-train finetune要好。
When and Why are Pre-trained Word Embeddings Useful
for Neural Machine Translation?
本来想看下pre-train的word embedding在其他task下如何进行迁移的,这篇主要讲在NMT域embedding的多中迁移手段效果分析。
1.pre-train和random init embedding效果比较,基本都有提示,task数据量影响提示幅度
pre-train对不同数据集大小的影响,有个临界值
3.source language与target的相似性与 pre-train带来的提升影响,貌似没有啥规律
4.source/target的embedding放在同一个向量空间的影响(alignement),没有啥效果;不过后面
5.Multilinguality的效果比单源语言效果好,用pre-train更好,alignement还会提升
《How to Generate a Good Word Embedding?》导读
作者中科院自动化所的,一个偶然机会发现pre-train的embedding对上层task影响显著,于是调研如何构建一个好的word embedding。有paper。固定一份语料,用不同的模型、不同向量维度,不同迭代次数,不同的train set大小。
贡献:
1.语料对embeding影响比模型重要得多
2.简单语言小语料就有好表现(skip-gram),复杂模型大语料更有优势。这很好理解
3.语料越大越好,但语料纯更重要
4.迭代次数上,通过验证 validation的目标task效果比预测词更好
5.dim 50以上的pre-train embedding对上层task提升不显著
glove模型
比较简单的glove模型原理
Deep contextualized word representations (ELMo)
elmo,当前最新最先进的word-embedding,通过字符编码动态构造word embedding,效果好,但,慢
interactive learning
MASTERING THE DUNGEON: GROUNDED LANGUAGE
LEARNING BY MECHANICAL TURKER DESCENT
ICLR2018的文章,通过引入游戏竞争机制,interactive learning中提高人工给出训练数据的质量来改善训练模型。这种机制用在我们对话场景中蛮好有前途的。
文本摘要
模型理论
BREAKING THE SOFTMAX BOTTLENECK:
A HIGH-RANK RNN LANGUAGE MODEL
ICLR 2018的paper,作者主要提出这个问题:语义空间很复杂,但我们的embedding向量维度不高,在进行softmax分类时会出现bottleneck。通过矩阵变换的秩进行证明。然后提出一种mixture of softmaxes能有效改善。
详解5种attention机制
attension机制,主要解决seq2seq时,decode的t时刻并不完全依赖encoder阶段的全部context信息,而是部分。通过将decode时的hidden state vector作为位置信息,与context向量做计算,获得context_i的权重,再对context向量加权求和,再作为下一时刻decode的context输入。
不同加权求和方式可以派生出多种模式:
hard:权重向量one holt
soft:权重向量为real number vector,经常画出source to target权重矩阵
global:对全体context做计算
local:只对局部做计算
self-attention:用自身做attension,Q/K/V全来自一个输入矩阵,可能中间做不同linear变换
网友评论