谷歌发布的天马(PEGASUS)模型,专为机器生成摘要而生。
1. 背景:随着数据空间中数据的爆炸式增长,大量非结构化的文本数据无法有效利用。
2. 应用场景:迅速归纳出文章大意。
3. 处理方法:
文本自动摘要 - Text Summarization
(1) 抽取式文本摘要(Extraction-based Summarization):荧光笔(画要点),从源文本中抽取主要信息。
(2) 抽像式文本摘要(Abstraction-based Summarization):钢笔(能画能写),生成不属于源文档的新句子,有助于克服抽取式摘要中语法不准确的问题。
4. 执行文本摘要抽取步骤:
(1) 将一段话转换成句子。在句号(period)出现时,提取为一个句子。
(2) 文本处理。移除停止词(e.g. 'and' 和 'the'),数字,标点符号以及句子中其他特殊字符。
(3) 切分各个句子,列出句子中所有单词。
(4) 评估单词的加权出现频率
(5) 用相应的加权频率替代原句中的各个单词,然后计算总和。
5. 天马模型(Pre-training with Extracted Gap-sentences for Abstractive Summarization):利用间隙句进行摘要概括的预训练模型。
- 间隙句(Gap-sentences):在“天马”模型预训练中,研究者从一段文档中删掉一些句子,让模型进行恢复任务。这些隔空删掉的句子即为间隙句。
Reference:
https://new.qq.com/omn/20190708/20190708A0ANP300.html
https://medium.com/nlplanet/two-minutes-nlp-four-different-approaches-to-text-summarization-5a0ce9c06c74
https://baijiahao.baidu.com/s?id=1669455833498519469&wfr=spider&for=pc
网友评论