美文网首页
【NLP】文本自动摘要

【NLP】文本自动摘要

作者: 盐果儿 | 来源:发表于2022-10-17 00:20 被阅读0次

谷歌发布的天马(PEGASUS)模型,专为机器生成摘要而生。

1. 背景:随着数据空间中数据的爆炸式增长,大量非结构化的文本数据无法有效利用。

2. 应用场景:迅速归纳出文章大意。

3. 处理方法:

文本自动摘要 - Text Summarization

(1) 抽取式文本摘要(Extraction-based Summarization):荧光笔(画要点),从源文本中抽取主要信息。

(2) 抽像式文本摘要(Abstraction-based Summarization):钢笔(能画能写),生成不属于源文档的新句子,有助于克服抽取式摘要中语法不准确的问题。

4. 执行文本摘要抽取步骤:

(1) 将一段话转换成句子。在句号(period)出现时,提取为一个句子。

(2) 文本处理。移除停止词(e.g. 'and' 和 'the'),数字,标点符号以及句子中其他特殊字符。

(3) 切分各个句子,列出句子中所有单词。

(4) 评估单词的加权出现频率

(5) 用相应的加权频率替代原句中的各个单词,然后计算总和。

5. 天马模型(Pre-training with Extracted Gap-sentences for Abstractive Summarization):利用间隙句进行摘要概括的预训练模型。

    - 间隙句(Gap-sentences):在“天马”模型预训练中,研究者从一段文档中删掉一些句子,让模型进行恢复任务。这些隔空删掉的句子即为间隙句。

Reference:

https://new.qq.com/omn/20190708/20190708A0ANP300.html

https://medium.com/nlplanet/two-minutes-nlp-four-different-approaches-to-text-summarization-5a0ce9c06c74

https://baijiahao.baidu.com/s?id=1669455833498519469&wfr=spider&for=pc

相关文章

  • 【NLP】文本自动摘要

    1. 背景:随着数据空间中数据的爆炸式增长,大量非结构化的文本数据无法有效利用。 2. 应用场景:迅速归纳出文章大...

  • The Basic Concepts of Summarizat

    文本摘要技术是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。 文本自动摘要的基本分类 文本自动摘要的分...

  • 文本自动摘要

    转载自http://www.cnblogs.com/Determined22/ 两周以前读了些文档自动摘要的论文,...

  • Pytorch-nlp开源工具(一)

    摘要:本分主要分享Pytorch NLP开源工具, PyTorch-NLP或torchnlp简称为神经网络层,文本...

  • 摘要抽取算法——最大边界相关算法MMR(Maximal Marg

    NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要...

  • NLP-Tools

    摘要 本文提供并介绍一个NLP模型工具箱,能够完成“分类”,“序列标注”,“文本匹配”和“文本生成”这四种常见的N...

  • 01. NLP定义及歧义性

    1. NLP是什么? NLP = NLU+NLG NLU:语音/文本->意思 NLG:意思->语音/文本 NLU:...

  • 如何自动生成文本摘要

    学习资料:https://www.youtube.com/watch?v=ogrJaOIuBx4&list=PL2...

  • pyrouge和rouge,文本摘要评测方法库

    rouge是自动文本摘要算法的评估指标:https://blog.csdn.net/qq_25222361/art...

  • Event Extraction via Dynamic Mul

    摘要: 传统需要费力的特征设计,复杂的NLP工具,耗费人力,倒是错误传播,数据稀疏。本文用CNN自动抽取lexic...

网友评论

      本文标题:【NLP】文本自动摘要

      本文链接:https://www.haomeiwen.com/subject/kryrzrtx.html