文本自动生成模型

作者: 天禧68 | 来源:发表于2018-11-07 16:03 被阅读0次

在自然语言处理中，另外一个重要的应用领域，就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。不过这些应用，都是由多到少的生成。这里我们介绍另外一种应用，由少到多的生成，包括句子的复写，由关键词、主题生成文章或者段落等。

基于关键词的文本自动生成模型

主要应用关键词提取、同义词识别等技术来实现。

IMG_4091(20181107-143059).jpg

本节处理的场景是：由文本到文本的生成。这个场景一般主要涉及：文本摘要，句子压缩，文本复写，句子融合等文本处理技术。其中本节涉及文本摘要和句子复写两个主要技术。文本摘要如前所述主要涉及：关键词提取、短语提取、句子提取等。句子复写则根据实现手段的不同、大致分为如下几种：
1.基于同义词的改写方法。这也是本节使用的方法，这种方法是词汇级别的，能够在很大程度上保证替换后的文本与原文语义一致。缺点就时会造成句子的通顺度有所降低，当然可以结合隐马尔可夫模型对句子搭配进行校正提升整体效果。
2.基于模板的改写方法。这也是本节使用的方式。该方法的基本思想是，从大量收集的语料中统计归纳出固定的模板，系统根据输入句子与模板的匹配情况，决定如何生成不同的表达形式
3.基于统计模型和语义分析生成模型的改写方法。这类方法就是根据语料库中的数据进行统计，获得大量的转换概率分布，然后对于输入的语料根据已知的先验知识进行替换。这类方法的句子是在分析结果的基础上进行生成的，从某种意义上说，生成实在分析的指导下实现的，因此，改写生成的句子有可能具有良好的句子结构，但是其所依赖的语料库是非常强大的，这样就需要人工标注很多数据。对于这些问题，新的深度学习技术可以解决部分问题。同时结合知识图谱的深度学习，能够更好地利用人的知识，最大限度地减少对训练样本的数据需求。

RNN模型实现文本自动生成

有拼音生成汉字和文本自动生成场景模式是相同的，都是由给定的文本信息，生成另外一些文本信息。区别在于前者是生成当前元素对应的汉字，而这里是生成当前元素对应的下一个汉字。
原理

2E3550569993E2FC3808AD981572EFF8.png
文本的生成，按照输入方式的不同，可以分为如下几种：
1.文本到文本的生成。即输入的是文本，输出的也是文本。
2.图像到文本。即输入的是图像，输出的是文本。
3.数据到文本。即输入的是数据，输出的是文本。
4.其他。即输入的形式为非上面三者，但是输出的也是文本。因为这类的输入比较难归纳，所以就归为其他了。
其中第二、第三种最后发展得非常快。特别是随着深度学习，知识图谱等前沿技术的发展。基于图像生成文本描述的实验成果在不不断被刷新。基于GAN（对抗生神经网络）的图像文本生成技术已经实现了非常大的图谱，不仅能够根据图片生成非常好的描述，还能根据文本输出生成对应的图片。
由数据生成文本，目前主要用于新闻撰写领域。中文和英文都有很大的进展，英文的以美联社为代表，中文的则以腾讯公司为代表。
从技术上来看，目前的主流实现方式有两种：一种是基于符号的，以知识图谱为代表，这类方法更多的使用人的先验知识，对于文本的处理更多包含语义的成分。另一种是基于统计（联结）的，即根据大量文本学习出不同文本之间的组合规律，进而根据输入推测出可能的组合方式作为输出，随着深度学习和知识图谱的结合，这两者有明显的融合现象，这应该是实现未来技术突破的一个重要结点。

网友评论

本文标题：文本自动生成模型

本文链接：https://www.haomeiwen.com/subject/nrvmxqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

文本自动生成模型

基于关键词的文本自动生成模型

RNN模型实现文本自动生成

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读