美文网首页
Read, Attend and Comment: A Deep

Read, Attend and Comment: A Deep

作者: 加油11dd23 | 来源:发表于2020-02-13 05:14 被阅读0次

    四、实验

    (一)实验建立

    1、数据集1

    第一个数据集是根据《腾讯新闻》(news.qq.com)构建的中国数据集,最近在(Qin et al。,2018)发表。每个数据点都包含由标题和正文组成的新闻文章,一组评论以及包括补充投票和类别的其他信息每个测试评论都由两个注释者按照5级标记标准进行标记表3中显示了数据中的所有文本,均由中文分词器Jieba(https://github.com/fxsjy/jieba)标记。

    新闻标题,新闻正文和评论的平均长度分别为15个单词,554个单词和17个单词。

    2、数据集2 

    除了中文数据外,我们还通过抓取新闻栏和Yahoo!News的相关评论来构建另一个数据集。除了投票和类别外,Yahoo数据中的附带信息还包括Yahoo!标记的段落标记,WIKI实体,投票,滥用投票和情感。数据中的文本由Stanford CoreNLP pipline标记(Manninget等,2014)。

    作为预处理,我们过滤掉正文中少于30个单词的新文章,并过滤少于10个单词或超过100个单词的评论。然后,我们删除评论少于5条的新闻报道。如果一篇文章的评论数量超过30条,我们只会保留投票次数最多的前30条评论

    平均而言,新闻标题,新闻正文和评论分别包含12个单词,578个单词和32个单词。有关Yahoo数据的更多信息可以在附录A中找到。经过预处理,我们随机抽取了训练集,验证集和测试集。从剩余的数据中,并确保三组之间没有重叠。表2总结了这两个数据集的统计信息,请注意,在此工作中我们仅利用新闻标题,新闻正文和评论来学习生成模型,但两个数据集均允许使用附带信息对新闻评论的生成进行建模,这可能是我们未来的工作。

    3、评价

    跟着(Qin et al。,2018),我们评估了具有自动指标和人工判断的不同模型的性能。

    在自动评估方面,我们采用BLEU(Pap-ineni等,2002),METEOR(Banerjee和Lavie,2005),ROUGE(Lin,2004)和CIDEr(Vedan-tam等,2015)作为衡量指标。这两个数据。除了这些指标,秦等人。 (2018)提出了人类得分加权指标,包括W-BLEU,W-METEOR,W-ROUGE和W-CIDEr。但是,这些方法需要人工判断测试集中的每个注释。因此,我们只涉及w.r.t.腾讯数据中的这些指标。作为Qinet al。 (2018)并未发布其度量计算代码,我们采用了一个受欢迎的NLG评估项目,网址为https://github.com/Maluuba/nlg-eval,并根据(Qin等人。,2018)来计算所有指标。

    在人类评估中,对于每个数据集,我们从测试数据中随机抽取500篇文章,并招募三名以母语为母语的人来判断不同模型给出的评论的质量。对于每篇文章,来自所有模型的评论都将被合并,随机打乱并呈现给注释者。每个注释均由三位注释者根据表3中的标准进行判断。

    (二)、基准

    选择以下模型作为基准:

    基本模型:(Qin等人,2018)中使用的检索模型和生成模型,其中包括

    (1)IR-T和IR-TC:这两个模型都检索一组候选带有TF-IDF载体的评论余弦的相关文章。然后,通过卷积神经网络(CNN)对评论进行排名,并返回最高位置。不同之处在于IR-T仅使用标题,而IR-TC则同时使用标题和新闻正文。 

    (2)Seq2seq:从标题生成注释的基本序列到序列模型(Sutskeveret等,2014); 

    (3)Att和Att-TC:注意序列间(Bahdanau等人,2015),其中输入是标题(Att)或标题与正文的串联(Att-TC)。在Seq2seq,Att和Att-TC中,返回了波束搜索的前1条评论(beamsize = 5).

    GANN:提出的门控注意力神经网络(Zheng等人,2018)。该模型由生成对抗网络进一步改进。我们将模型表示为“ DeepCom”,代表“深度评论者”,因为它具有深度阅读评论架构。所有基线均根据相关论文中的细节实施,并在验证集上进行了调整。

    (三)、实现细节

    对于每个数据集,我们形成一个词汇,在整个数据中包含top30k个常见单词。 Wepad或截断新闻标题,

    新闻正文和注释,使其长度分别为30,600和50。

    所有模块中单词嵌入的维数和GRU的隐藏状态的大小均设置为256。在我们的模型中,我们将d1as256和d2(即在阅读网络中嵌入位置的维度)设置为128。

    所有MLP中隐藏层的大小为512。

    蒙特卡洛采样中的样本数为1。

    在预训练中,我们使用高斯分布N(0,0.01)初始化模型,并使用AdaGrad(Duchi et al。,2011)以初始学习率0.15和初始累加器值0.1优化目标(12)。

    然后,我们优化具有学习率0.01的随机梯度消散度。在解码中,选择波束搜索的大小为5的top1注释进行评估。在IR-T和IR-TC中,我们在基于CNN的匹配模型中使用窗口大小分别为1,3和5的三种类型的过滤器。每种类型的过滤器数为128。

    (四)、实验结果

    表4报告了自动度量和人工注释方面的评估结果。在大多数自动指标上,DeepCom的性能均优于基准线方法,并且改进具有统计学意义(t检验,p值<0.01)。 BLEU-1和W-BLEU-1的改进要比其他指标大得多。这是因为BLEU-1仅测量所生成注释中的字母组合总数中所匹配的字母组合的比例。在人类评估中,尽管由于人类判断之间的差异,绝对数字与(Qin等人,2018)中报道的数字有所不同,但总体趋势是一致的。在人类评估中,Fleiss卡伯在所有模型中的价值都更高

    (五)、讨论

    1、消融研究:

    我们将DeepCom的完整模型与以下变体进行了比较:

    (1)NoReading:将整个阅读网络替换为基于TF-IDF的关键字提取器,并将top40关键字(在验证集上调整)馈送到生成网络; 

    (2)无预测:读取网络的预测层被删除,从而整个生成网络使用了Vis; 

    (3)不抽样:我们直接使用通过最大化目标(12)进行预训练的模型。表5报告了自动指标的结果。我们可以看到,所有变体均遭受性能下降的影响,并且“无读数”是这三个模型中最差的变体。

    因此,我们可以得出以下结论:(1)基于TF-IDF的关键字提取不能简单地替换跨度预测,因为前者基于对新闻报道的深刻理解并在端到端的学习过程中进行了校准;(2)即使复杂的表示形式,因为注释生成可能会损害文章中的噪音,因此无法直接将整个文章馈入到生成网络。 (3)预训练是有用的,但是优化真实目标的下限仍然是有益的。

    为了进一步了解DeepCom为何优于其变体,我们使用两个数据的测试集中的预测跨度和地面真相注释来计算BLEU-1(表示为BLEUspan),并将其与基线BLEU-1(de-记为BLEUbase),它是根据整篇新闻报道和地面事实评论计算得出的。在腾讯数据上,BLEUspan和BLEUbase分别为0.31和0.17,而Yahoo数据上的两个数字分别为0.29和0.16。喜欢发表评论,这解释了DeepCom为什么胜于No Prediction。比较无抽样的Deep-Come时,我们发现DeepCom的跨度比无抽样的跨度长。在腾讯数据的测试集中,有抽样和无抽样的显着跨度的平均长度分别为11.6和2.6,而Yahoo中的两个数字数据分别为14.7和2.3。因此,DeepCom可以利用话语级别的信息

    2、人工注释的分析:

    我们检查DeepCom,Att-TC和IR-TC的人工标签的分布,以深入了解这些模型所遇到的问题。表6显示了结果。 IR-TC的大多数不良评论都标记为“ 2”,这意味着,尽管IR-TC可以通过内容丰富而深刻的内容来消除有吸引力的评论,但其评论很容易与新闻文章区分开,因此被判断为“无关紧要”。就Att-TC而言,被判定为“ 1”的评论要多于其他两种模型,这表明Att-TC经常会产生错误的句子。这是因为新闻文章和注释在语法和语义上都是高度不对称的,因此生成过程不能简单地用编码器-解码器结构建模。 DeepCom的不良案例集中在“ 3”上,提醒我们将来我们需要进一步丰富评论的内容并提高其相关性。

    3、案例研究:

    最后,为了进一步理解我们的模型,我们使用表7中的腾讯数据集的测试示例对预测的显着跨度和生成的注释进行可视化。由于空间限制,我们截断了主体,并且在截断的主体中仅显示了选定跨度的三个。全文,包括全套跨度和Yahoo!的另一个测试示例新闻数据集显示在附录B中。尽管如此,我们仍可以看到该模型在“阅读”文章并沿着一个跨度(即“ Chinese Pal-adin 3”)合成注释后发现了一些有趣的观点。更有趣的是,该模型与Tiffany Tang的合伙人“ LuoJin”在评论中扩展了文章的内容,但本文中并未提及。另一方面,通过基线方法给出的评论要么太笼统(Att-TC,最佳生成基线),要么与文章完全无关(IR-TC,最佳重新标题):唐嫣为什么不演清宫剧?(为什么蒂芙尼·坦能(Tiffany Tangnever)在清朝大戏中扮演角色?)天后的形象。...如果说唐是最美的造型是《仙剑奇侠传三》中的紫萱,那最丑的造型应该就是这个了吧!...(...蒂芙尼·唐(TiffanyTang)的表演广受欢迎,她在许多活动中的多样造型使她在公众心中树立了“重塑女王”的形象。...她最美丽的角色是《中国圣骑士3》中的紫萱。 ,那么最丑陋的应该是这个!...)DeepCom:唐嫣罗晋的演技真的很好,特别喜欢她演《仙剑奇侠传》​​。 (TiffanyTang和Luo Jin确实是好演员。我特别喜欢她在《中国圣骑士3》中的角色。我认为电视剧值得一看。)Att-TC:我也是醉了(我什么都没有IR-TC:星爷和谁开撕过嘛,都是别人去撕星爷!(周星驰从不和别人打架。表7:来自腾讯新闻数据集的案例红色框中的内容表示阅读网络预测的显着跨度。蓝色框中的内容是生成的实体,包含在显着spans.trieval基线中。这个例子表明,我们的模型可以通过分析和理解新闻来产生相关的和有益的评论。

    五、结论

    我们建议使用阅读网络和生成网络来自动生成新闻评论。在两个数据集上的实验结果表明,该模型在自动评估和人工评估方面都可以大大优于基线方法。在应用程序上,weare致力于扩展流行的聊天机器人的功能。通过使用这些方法来生成被视为人类的新闻评论,我们意识到了潜在的道德问题。希望围绕负责任的技术激发关于最佳做法和这些方法的控制的讨论

    相关文章

      网友评论

          本文标题:Read, Attend and Comment: A Deep

          本文链接:https://www.haomeiwen.com/subject/xhxkfhtx.html