论文48

作者: Milkmilkmilk | 来源:发表于2018-11-01 14:49 被阅读0次

    前言:
    Ubuntu Dialogue Corpus:a dataset containing almost 1 million multi-turn dialogues, with a total of over 7 million utterances and 100 million words。

    Dialog State Tracking Challenge : 跟踪用户行为的任务。
    benchmark:基准

    介绍:
    unstructured dialogues : there is no a priori logical representation for the information exchanged during the conversation.(对话是没有结构的,和slot类型方法区分开来。)

    神经网络在那些领域获得了好的结果的。因为:
    1)公共分布的数据很丰富
    2)足够的计算能力
    3)有不同的变种神经网络。

    而Dialogue systems 并没有那么好。假设可能是因为缺少足够的数据集。
    这个数据集是从Ubuntu chat logs上面提取下来的。所以才叫做Ubuntu Dialogue Corpus。
    这个数据集平均8轮。最小3轮。
    本文介绍了TF-IDF(frequency-inverse document frequency)、neural models(RNN)和(LSTM)。

    相比其他的Datasets。
    Switchboard dataset、Dialogue State Tracking Challenge datasets。往往是将问题视为slot filling task。(structural)where agents attempt to predict the goal of a user during the conversation.
    (尽管他们对于训练神经网络而言,数据量很小,但是对于结构化的对话工作还是很有用的)。(应该是这些数据集往往是很有结构的问答。)

    学习结构的发展。

    数据集是如何产生的以及有什么特点。

    三种学习方法:
    TF-IDF : Term frequency 和 inverse document frequency。
    计算一个word对于一个document的重要性。(在这个例子里面,document就是上下文)。
    这个经常被用来文档分类以及信息检索。
    term-frequency 就是word在该document里面出现的次数。
    inverse document frequency 就是一个惩罚用来估量这个单词是否在很多的文档上都出现。

    tfidf(w,d,D) = f(w,d) * log \frac{N}{| \{ d\epsilon D: w\epsilon d \}|}
    其中f(w,d)就是值 word在上下文 d 中出现的次数。
    N是所有的dialogues的数目。
    惩罚就是w出现在了多少个dialogues中。
    分母越大,log越小,最后值越小。

    RNN:NN的变种,加入了上下文的机制。
    引入了时间的概念。前一个时间(上一个词语或者是句子)对当前时间的输入数据也会有影响。

    LSTM:改变hidden units to long-short term memory units。

    相关文章

      网友评论

          本文标题:论文48

          本文链接:https://www.haomeiwen.com/subject/neqxxqtx.html