美文网首页
BERT文本摘要

BERT文本摘要

作者: 外汇分析师_程序员 | 来源:发表于2019-10-14 16:53 被阅读0次

简介

BERT是经过预先训练的Transformer模型,已在多个NLP任务上取得了突破性的性能。最近,我遇到了BERTSUM,这是爱丁堡的Liu的论文。本文扩展了BERT模型,以在文本摘要上达到最新的分数。在此博客中,我将解释本文以及如何使用此模型进行工作。

单文档文本摘要是自动生成文档的较短版本,同时保留其最重要信息的任务。该任务在自然语言处理社区中受到了很多关注。由于它对于各种信息访问应用程序具有巨大的潜力。示例包括提取文本内容(例如,新闻,社交媒体,评论),回答问题或提供建议的工具。汇总模型可以有两种类型:

提取摘要-类似于使用荧光笔。我们从原始文本中选择文本的子段,以创建一个很好的摘要
抽象性摘要-类似于用笔书写。创建摘要以提取要点,并且可以使用原始文本中未包含的词。这对于机器来说更难

文本摘要系统的性能通过其ROUGE得分来衡量。 ROUGE得分用​​于衡量预测的摘要与基本事实摘要之间的重叠。

BERT的主要技术创新是将流行的注意力模型Transformer的双向培训应用于语言建模。它的成功表明,经过双向训练的语言模型比单向语言模型可以更深刻地理解语言环境和流程。这是学习BERT的绝佳链接。

BERT也可用于下一句预测。该模型接收成对的句子作为输入,并学习预测成对的第二句话是否是原始文档中的后续句子。在训练期间,输入的50%是一对,其中第二句话是原始文档中的后续句子。而在其他50%中,从语料库中随机选择一个句子作为第二个句子。

使用BERT提取文本摘要— BERTSUM Model

修改了BERT模型,以生成多个句子的句子嵌入。这是通过在每个句子的开头之前插入[CLS]令牌来完成的。然后,输出是每个句子的句子向量。然后,将句子向量传递到多层,从而轻松捕获文档级功能。将最终的汇总预测与基本事实进行比较,并将损失用于训练汇总层和BERT模型。


Architecture of BERTSUM Model.png

BERTSUM模型架构
该模型在CNN /每日邮件和NYT注释的语料库上进行了训练。由于来自两个语料库的基本事实是抽象摘要,因此创建了新的基本事实。贪心算法用于为每个文档生成预言摘要。该算法贪婪地选择可以使ROUGE得分最大化的句子作为预言句。我们将标签1分配给oracle摘要中选择的句子,否则分配0。

本文显示了文本摘要非常精确的结果,优于最新的抽象和提取摘要模型。见下表。这里的第一行是指针生成器模型,在我的博客中有更详细的解释。


BERTSUM Result.png

相关文章

  • BERT文本摘要

    简介 BERT是经过预先训练的Transformer模型,已在多个NLP任务上取得了突破性的性能。最近,我遇到了B...

  • BERT生成文本摘要

    作者|Daulet Nurmanbetov编译|VK来源|Towards Data Science 你有没有曾经需...

  • NLP讲座4:上下文表示法和预训练

    最想学习哪些内容,汇总如下: 变压器 (Transformers) BERT 问题解答 (QA) 文本生成和摘要 ...

  • BERT

    1.BERT介绍 2.基于Bert的多标签文本分类 3.基于Bert的命名实体识别

  • Bert如何使用预留的[unused*]

    背景 在使用Bert进行文本分析的过程中,我们需要用BERT自带的分词器(Tokenizer)来对文本序列进行分词...

  • Bert预训练模型

    NLP预训练模型简介 旺达 一、BERT简单文本分类实例 1、bert详细运行介绍--tensorflow htt...

  • 命名实体识别中的CRF层

    Bert+CRF 层 Bert把中文文本进行了embedding,得到每个字的表征向量 dense操作得到了每个文...

  • 非监督文本摘要

    本文将介绍如何利用sentence embedding来做文本摘要。 什么是文本摘要? 文本摘要是从一些文本资源中...

  • 文本摘要

    基于 Python 的自动文本提取:抽象法和生成法的比较 gensim生成长本文中文摘要

  • The Basic Concepts of Summarizat

    文本摘要技术是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。 文本自动摘要的基本分类 文本自动摘要的分...

网友评论

      本文标题:BERT文本摘要

      本文链接:https://www.haomeiwen.com/subject/kmwrmctx.html