美文网首页
NLP Introduction

NLP Introduction

作者: myxz | 来源:发表于2020-02-29 15:01 被阅读0次

先做个摘要,慢慢学习
参考链接
改变世界的七大NLP技术,你了解多少?(上) - 简书
改变世界的七大NLP技术,你了解多少?(下) - 个人文章 - SegmentFault 思否
什么是文本的词嵌入?网络夏目的博客-CSDN博客

Text Embeddings

词嵌入是将文本数值化以方便拟合算法。这种将单词或者文档数字化表示的方式被认为是深度学习在自然语言处理任务中最具有挑战性的问题之一

  • Embedding Layer
    Embedding Layer是特定的自然语言处理任务(例如语言建模或者文档分类)上的与神经网络模型共同学习更新的词嵌入方法
  • word2vec
    Word2Vec是一种能有效从文本语料库中学习到独立词嵌入的统计方法
  • GloVe
    GloVe是一种将矩阵分解技术(如LSA)的全局统计与word2vec中的基于上下文的学习相结合的方法。GloVe不是使用窗口来定义局部上下文,而是使用整个文本语料库中的统计信息构造显式的单词上下文或单词共现矩阵。这样的词嵌入方法可能会决定学习模型的好坏。

拓展

  • Skip-Gram
    我们考虑一个包含k个连续项的上下文窗口。然后,我们跳过其中一个单词,尝试学习一个神经网络,该网络可以获得除跳过的所有术语外的所有术语,并预测跳过的术语。因此,如果两个单词在大语料库中反复共享相似的上下文,那么这些术语的嵌入向量将具有相似的向量。
  • Continuous Bag of Words
    我们在一个大的语料库中获取大量的句子,每当我们看到一个词,我们就会联想到周围的词。然后,我们将上下文单词输入到神经网络,并预测该上下文中心的单词。当我们有数千个这样的上下文单词和中心单词时,我们就有了一个神经网络数据集的实例。我们训练神经网络,最后编码的隐藏层输出表示一个特定的词嵌入。当我们通过大量的句子进行训练时,类似上下文中的单词会得到相似的向量。
  • FastText
  • Poincare嵌入
  • sense2vec
  • Skip-Thought
  • Adaptive Skip-Gram

machine translation

  • RNN
    RNN是一个有状态的神经网络,它通过时间连接过去。神经元的信息不仅来自前一层,而且来自更前一层的信息。
    RNN的一个大问题是梯度消失(或爆炸)问题,其中取决于所使用的激活函数,随着时间的推移信息会迅速丢失。
  • LSTM
    试图通过引入门和明确定义的存储器单元来对抗梯度消失/爆炸问题。每个神经元都有一个存储单元和三个门:输入、输出和忘记。这些门的功能是通过停止或允许信息流来保护信息。
  • GRU
    是在LSTM的基础上变形得来的,也是神经机器翻译的扩展。它拥有更少的门,并且连接方式略有不同:它不是输入、输出和忘记门组成的,而是具有更新门。这个更新门决定了从最后一个状态开始保留多少信息以及从上一个层开始输入多少信息。

拓展

  • 用神经网络进行序列学习的序列
    证明了LSTM在神经机器翻译中的有效性。它提出了序列学习的一种通用的端到端方法,对序列结构进行了最少的假设。该方法使用多层Long Short Term Memory(LSTM)将输入序列映射为固定维度的向量,然后使用另一个深度LSTM从向量解码目标序列。
  • 通过联合学习对齐和翻译的神经机器翻译
    引入了NLP中的注意机制(将在下一篇文章中介绍)。认识到使用固定长度矢量是提高NMT性能的瓶颈,作者建议通过允许模型自动(软)搜索与预测目标相关的源句子部分来扩展,而不必将这些部分明确地形成为一个固定的长度。
  • 用于神经机器翻译的循环编码器上的卷积
    利用附加的卷积层增强NMT中的标准RNN编码器,以在编码器输出中捕捉更广泛的上下文。
  • 谷歌的神经机器翻译
    它解决了准确性和部署方便性的问题。该模型由一个深度LSTM网络组成,该网络包含8个编码器和8个解码器层,使用残余连接以及从解码器网络到编码器的注意力连接。
  • 卷积神经网络序列
    对NMT中的学习任务进行排序。

Dialogue/Conversations

  • Google神经会话模型
    一种简单的会话建模方法,它使用序列到序列框架。该模型通过预测对话中前一个句子的下一个句子进行对话。该模型的优势在于它可以进行端对端训练,因此需要的手动规则更少。
  • 香港开发的神经反应机器
    (NRM)是一种基于神经网络的短文对话生成器。它采用通用的编码器-解码器框架。首先,它将响应的生成的形式化为基于输入文本的潜在表示的解码过程,而编码和解码都是用递归神经网络实现的。NRM通过从微博服务收集的大量谈话数据进行训练。实验表明,NRM可以对超过75%的输入文本产生语法正确当反应,在同样的环境中表现优于现有技术。
    能够产生上下文敏感的会话响应神经的网络
    这种新颖的响应生成系统是在大量的非结构化Twitter对话上进行端对端训练。循环神经网络架构用于解决将上下文信息集成到经典统计模型时出现的稀疏性问题,使系统能够考虑以前的对话话语。该模型显示了对上下文敏感和非上下文敏感的机器翻译和信息检索的所有优势。

情绪分析

你可以阅读产品在天猫平台的评论,并了解评论者是否喜欢或不喜欢它,即使他们从未直接说过。

  • 递归神经网络
    非常适合具有嵌套层次结构和内部递归结构的设置。语法的句法规则是高度递归的,因此,我们利用递归神经网络!使用RNN对句子进行建模的另一个好处是,我们现在可以输入任意长度的句子,这对于在NLP中使用神经网络来说是一个巨大的难题,使用非常聪明的技巧使句子的输入向量具有相同的大小,尽管句子的长度不相等。
  • Matrix-Vector RNN
    它能够捕获更长短语的组成含义。该模型为解析树中的每个节点分配一个向量和一个矩阵:向量用于捕获成分的固有含义,而矩阵捕获它如何改变相邻单词或短语的含义。而且该矩阵向量RNN可以在命题逻辑和自然语言中学习运算符的含义。
  • 递归神经张量网络
    迄今为止用于情感分析的最强大的RNN模型,其在每个节点处具有神经网络的树结构。该模型可用于边界分割,以确定哪些词组是积极的,哪些是消极的。在Sentiment Treebank上接受训练时,该模型在几个指标上的表现优于所有以前的方法。

问答系统

问答(QA)系统的想法是直接从文档、对话、在线搜索和其他地方提取信息,以满足用户的信息需求。QA系统不是让用户阅读整个文档,而是更喜欢简短而简洁的答案。如今,QA系统可以非常容易地与其他NLP系统结合使用,并且一些QA系统甚至超越了对文本文档的搜索,并且可以从图片集合中提取信息。

  • 强大的深度学习架构(称为动态内存网络(DMN))
    已针对QA问题进行了专门开发和优化。给定输入序列(知识)和问题的训练集,它可以形成情节记忆,并使用它们来产生相关答案。该体系结构具有以下组件:
    语义内存模块(类似于知识库)、输入模块处理(GRU)、情景记忆模块(海马体)、答案生成模块(GRU)

文本摘要

人类很难手动汇总大型文本文档。文本摘要是NLP为源文档创建简短、准确和流畅的摘要问题。随着推送通知和文章摘要获得越来越多的注意力,为长文本生成智能且准确摘要的任务每天都在增长。

通过首先计算整个文本文档的单词频率来自动汇总文本。然后,存储和排序100个最常用的单词。然后根据它包含的高频词数对每个句子进行评分,更高频率的词,价值更大。最后,根据它们在原始文本中的位置来获取和排序前X个句子。
提取摘要的方法是通过选择子集来工作。这是通过从实际文章中提取短语或句子以形成摘要来完成的,LexRank和TextRank是众所周知的摘要总结,它们都使用了Google PageRank算法的变体。

  • LexRank是一种无监督的基于图形的算法,它使用IDF修改的余弦作为两个句子之间的相似性度量。该相似度用作两个句子之间的图形边缘的权重。LexRank还采用了智能后处理步骤,确保为摘要选择的顶级句子彼此不太相似。
  • TextRank是一种类似于LexRank的算法,具有一些增强功能,例如使用词形化而不是词干,结合词性标注和命名实体分辨率,从文章中提取关键短语,以及根据这些短语提取摘要句子。除了文章摘要外,TextRank还从文章中提取了有意义的关键短语。

注意力机制

想象一下,你正在阅读一篇完整的文章:不是按顺序浏览每个单词或字符,而是潜意识地关注一些信息密度最高的句子并过滤掉其余部分。你的注意力有效地以分层方式捕获上下文信息,这样就可以在减少开销的同时做出决策。
那为什么这很重要?诸如LSTM和GRU之类的模型依赖于读取完整的句子并将所有信息压缩为固定长度的矢量。这需要基于文本统计属性的复杂特征工程,用几个单词表示的数百个单词的句子肯定会导致信息丢失,翻译不足等。
通过注意力机制,我们不再尝试将全文编码为固定长度的矢量。相反,我们允许解码器在输出生成的每个步骤处理源语句的不同部分。我们让模型根据输入句子以及它到目前为止产生的内容来学习要注意的内容。

相关文章

网友评论

      本文标题:NLP Introduction

      本文链接:https://www.haomeiwen.com/subject/mmsphhtx.html