learning

作者: 88e1030232aa | 来源:发表于2018-06-08 10:39 被阅读2次

    [TOC]

    text matching(or QA)

    MIX: Multi-Channel Information Crossing for Text Matching
    赖博在KDD2018上的文章。paper暂时无法在arxiv上找到

    ACL 2018最佳论文,让机器问好问题

    文本多分类

    用深度学习解决大规模文本分类问题
    文本分类综合性介绍,fasttext, textcnn, textrnn, textrnn+attention, textrcnn。
    科大讯飞DRNN
    其实就相当于把cnn的标准卷积更换成lstm。强调序列。

    word embedding

    Chinese Word Vectors 中文词向量
    北师大的作品,ACL2018。用简单的sgns, ppmi方法在多个数据集上(百度百科)train了300维的embedding,并且每种都用了不同方法构建context feature。试了下,百科的word-word比较好用,在task上提升较大。且固定住pre-train embedding concat task相关的embedding比对pre-train finetune要好。

    When and Why are Pre-trained Word Embeddings Useful
    for Neural Machine Translation?

    本来想看下pre-train的word embedding在其他task下如何进行迁移的,这篇主要讲在NMT域embedding的多中迁移手段效果分析。
    1.pre-train和random init embedding效果比较,基本都有提示,task数据量影响提示幅度
    pre-train对不同数据集大小的影响,有个临界值
    3.source language与target的相似性与 pre-train带来的提升影响,貌似没有啥规律
    4.source/target的embedding放在同一个向量空间的影响(alignement),没有啥效果;不过后面
    5.Multilinguality的效果比单源语言效果好,用pre-train更好,alignement还会提升

    《How to Generate a Good Word Embedding?》导读
    作者中科院自动化所的,一个偶然机会发现pre-train的embedding对上层task影响显著,于是调研如何构建一个好的word embedding。有paper。固定一份语料,用不同的模型、不同向量维度,不同迭代次数,不同的train set大小。
    贡献:
    1.语料对embeding影响比模型重要得多
    2.简单语言小语料就有好表现(skip-gram),复杂模型大语料更有优势。这很好理解
    3.语料越大越好,但语料纯更重要
    4.迭代次数上,通过验证 validation的目标task效果比预测词更好
    5.dim 50以上的pre-train embedding对上层task提升不显著

    glove模型
    比较简单的glove模型原理

    Deep contextualized word representations (ELMo)
    elmo,当前最新最先进的word-embedding,通过字符编码动态构造word embedding,效果好,但,慢

    interactive learning

    MASTERING THE DUNGEON: GROUNDED LANGUAGE
    LEARNING BY MECHANICAL TURKER DESCENT

    ICLR2018的文章,通过引入游戏竞争机制,interactive learning中提高人工给出训练数据的质量来改善训练模型。这种机制用在我们对话场景中蛮好有前途的。

    文本摘要

    使用Word Embedding构造简洁有效的文本摘要系统

    模型理论

    BREAKING THE SOFTMAX BOTTLENECK:
    A HIGH-RANK RNN LANGUAGE MODEL

    ICLR 2018的paper,作者主要提出这个问题:语义空间很复杂,但我们的embedding向量维度不高,在进行softmax分类时会出现bottleneck。通过矩阵变换的秩进行证明。然后提出一种mixture of softmaxes能有效改善。
    详解5种attention机制
    attension机制,主要解决seq2seq时,decode的t时刻并不完全依赖encoder阶段的全部context信息,而是部分。通过将decode时的hidden state vector作为位置信息,与context向量做计算,获得context_i的权重,再对context向量加权求和,再作为下一时刻decode的context输入。
    不同加权求和方式可以派生出多种模式:
    hard:权重向量one holt
    soft:权重向量为real number vector,经常画出source to target权重矩阵
    global:对全体context做计算
    local:只对局部做计算
    self-attention:用自身做attension,Q/K/V全来自一个输入矩阵,可能中间做不同linear变换

    相关文章

      网友评论

        本文标题:learning

        本文链接:https://www.haomeiwen.com/subject/nqmosftx.html