美文网首页
文本自动生成模型

文本自动生成模型

作者: 天禧68 | 来源:发表于2018-11-07 16:03 被阅读0次

    在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。不过这些应用,都是由多到少的生成。这里我们介绍另外一种应用,由少到多的生成,包括句子的复写,由关键词、主题生成文章或者段落等。

    基于关键词的文本自动生成模型

    主要应用关键词提取、同义词识别等技术来实现。


    IMG_4091(20181107-143059).jpg

    本节处理的场景是:由文本到文本的生成。这个场景一般主要涉及:文本摘要,句子压缩,文本复写,句子融合等文本处理技术。其中本节涉及文本摘要和句子复写两个主要技术。文本摘要如前所述主要涉及:关键词提取、短语提取、句子提取等。句子复写则根据实现手段的不同、大致分为如下几种:
    1.基于同义词的改写方法。这也是本节使用的方法,这种方法是词汇级别的,能够在很大程度上保证替换后的文本与原文语义一致。缺点就时会造成句子的通顺度有所降低,当然可以结合隐马尔可夫模型对句子搭配进行校正提升整体效果。
    2.基于模板的改写方法。这也是本节使用的方式。该方法的基本思想是,从大量收集的语料中统计归纳出固定的模板,系统根据输入句子与模板的匹配情况,决定如何生成不同的表达形式
    3.基于统计模型和语义分析生成模型的改写方法。这类方法就是根据语料库中的数据进行统计,获得大量的转换概率分布,然后对于输入的语料根据已知的先验知识进行替换。这类方法的句子是在分析结果的基础上进行生成的,从某种意义上说,生成实在分析的指导下实现的,因此,改写生成的句子有可能具有良好的句子结构,但是其所依赖的语料库是非常强大的,这样就需要人工标注很多数据。对于这些问题,新的深度学习技术可以解决部分问题。同时结合知识图谱的深度学习,能够更好地利用人的知识,最大限度地减少对训练样本的数据需求。

    RNN模型实现文本自动生成

    有拼音生成汉字和文本自动生成场景模式是相同的,都是由给定的文本信息,生成另外一些文本信息。区别在于前者是生成当前元素对应的汉字,而这里是生成当前元素对应的下一个汉字。
    原理

    2E3550569993E2FC3808AD981572EFF8.png
    文本的生成,按照输入方式的不同,可以分为如下几种:
    1.文本到文本的生成。即输入的是文本,输出的也是文本。
    2.图像到文本。即输入的是图像,输出的是文本。
    3.数据到文本。即输入的是数据,输出的是文本。
    4.其他。即输入的形式为非上面三者,但是输出的也是文本。因为这类的输入比较难归纳,所以就归为其他了。
    其中第二、第三种最后发展得非常快。特别是随着深度学习,知识图谱等前沿技术的发展。基于图像生成文本描述的实验成果在不不断被刷新。基于GAN(对抗生神经网络)的图像文本生成技术已经实现了非常大的图谱,不仅能够根据图片生成非常好的描述,还能根据文本输出生成对应的图片。
    由数据生成文本,目前主要用于新闻撰写领域。中文和英文都有很大的进展,英文的以美联社为代表,中文的则以腾讯公司为代表。
    从技术上来看,目前的主流实现方式有两种:一种是基于符号的,以知识图谱为代表,这类方法更多的使用人的先验知识,对于文本的处理更多包含语义的成分。另一种是基于统计(联结)的,即根据大量文本学习出不同文本之间的组合规律,进而根据输入推测出可能的组合方式作为输出,随着深度学习和知识图谱的结合,这两者有明显的融合现象,这应该是实现未来技术突破的一个重要结点。

    相关文章

      网友评论

          本文标题:文本自动生成模型

          本文链接:https://www.haomeiwen.com/subject/nrvmxqtx.html