NLP系列二:词表示

作者: 只为此心无垠 | 来源:发表于2018-07-23 18:00 被阅读10次

一、绪论

1、词无语义

图像和语言领域:基本数据是信号数据,可以通过距离度量判断信号是否相似。文本是符号数据,字面不一样,就难以刻画它们之间的联系, 也就是语义鸿沟现象。在判断两幅图片是否相似时,只需通过观察图片本身就能给出回答;而判断两个词是否相似时,还需要更多的背景知识才能做出回答。

2、词有语义

1954 年,Harris 提出分布假说(distributional hypothesis),即“上下文相似的词,其语义也相似”,为词的分布表示提供了理论基础。在分布假说中,需要关注的对象有两个:词和上下文,其中最关键的是上下文的表示。神经网络模型生成的词表示通常被称为词向量(word embedding),是一个低维的实数向量表示,通过这种表示,可以直接对词之间的相似度进行刻画。

3、句子语义、文档语义

对于文本分类、信息检索等实际需求而言,仅使用词级别的语义表示不足以有效地完成这些任务,因此还需要通过模型,得到句子和文档级别的语义表示。
但是,由于文档的多样性,直接使用分布假说构建文档的语义向量表示时,会遇到严重的数据稀疏问题;同时由于分布假说是针对词义的假说,这种通过上下文获取语义的方式对句子和文档是否有效,还有待讨论。
为了获得句子和文档的语义表示,研究人员一般采用语义组合的方式。现有的句子或者文档表示也通常以该思路为基础,通过语义组合的方式获得。主流的神经网络语义组合方法包括递归神经网络、循环神经网络和卷积神经网络,这些方法采用了不同的组合方式从词级别的语义组合到句子和文档级别。

二、历史发展

词是承载语义的最基本的单元 。

1、最传统(独热表示)

而传统的独热表示(one-hot represen- tation)仅仅将词符号化,不包含任何语义信息。
如何将语义融入到词表示中?

2、1954 - 1957(基于矩阵的分布表示)

Harris 在 1954 年提出的分布假说(distributional hypothesis)为这一设想提供了 理论基础:上下文相似的词,其语义也相似 。
Firth 在 1957 年对分布假说进 行了进一步阐述和明确:词的语义由其上下文决定(a word is characterized by the company it keeps)。二十世纪 90 年代初期,统计方法在自然语言处理中逐渐 成为主流,分布假说也再次被人关注。Dagan 和 Schütze 等人总结完善了利用上 下文分布表示词义的方法,并将这种表示用于词义消歧等任务, 这类方法在当时被成为词空间模型(word space model)。在此后的发展中,这 类方法逐渐演化成为基于矩阵的分布表示方法,期间的十多年时间里,这类方法得到的词表示都被直接称为分布表示(distributional representation)。

3、1992(基于聚类的分布表示)

1992 年, Brown 等人同样基于分布假说,构造了一个上下文聚类模型,开创了基于聚类的分布表示方法 。

4、2006(基于神经网络的分布表示)

2006 年之后,随着硬件性能的提升以及优化算法的突破, 神经网络模型逐渐在各个领域中发挥出自己的优势,使用神经网络构造词表示的方法可以更灵活地对上下文进行建模,这类方法开始逐渐成为词分布表示的主流方法。

三、总结

到目前为止,基于分布假说的词表示方法,根据建模的不同,主要可以分为三类:基于矩阵的分布表示、基于聚类的分布表示 和基于神经网络的分布表示。从广义上看,所有基于分布假说得 到的表示均可称为分布表示(distributional representation),如上述的三种。
尽管这些不同的分布表示方法使用了不同的技术手段获取词表示,但由于这些方法均基于分布假说,它们的核心思想也都由两部分组成:

  • 一、选择一种 方式描述上下文;
  • 二、选择一种模型刻画某个词(下文称“目标词”)与其上下 文之间的关系。
    上文介绍的矩阵、聚类和神经网络三种方法,采用了不同的方 式对上下文和目标词之间的关系进行建模。


参考
1、基于神经网络的词和文档语义向量表示方法研究这是关于词表述的综述论文,而且是中文,写的很不错

相关文章

  • NLP系列二:词表示

    一、绪论 1、词无语义 图像和语言领域:基本数据是信号数据,可以通过距离度量判断信号是否相似。文本是符号数据,字面...

  • NLP—博客推荐

    NLP词法、句法、语义、语篇综合系列:NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较NLP+词...

  • NLP入门(一)词袋模型及句子相似度

      本文作为笔者NLP入门系列文章第一篇,以后我们就要步入NLP时代。  本文将会介绍NLP中常见的词袋模型(Ba...

  • NLP初学之--词向量表示

  • word2vec(1)

    词向量表示方法: 离散表示:One-hot Representation NLP 相关任务中最常见的第一步是创建一...

  • 【干货】词向量之DNN模型

    1 词向量 在NLP里,最细的粒度是词语,由词语再组成句子,段落,文章。所以处理NLP问题时,怎么合理的表示词语就...

  • NLP - 特征表示

    # 前言 前馈神经网络中,全连接层可以看做是从四维到六维的线性变换。实现了一个向量与矩阵的乘法. h=xW, 其中...

  • NLP笔记 - 词向量

    学习词向量的笔记 词向量 or word2vec,一种NLP中对词语的特征表示。由于one-hot会产生维度灾难,...

  • Andrew Ng深度学习课程笔记阅读记录(5.1):序列模型

    1.NLP中怎么表示一个句子中单个的词?做一个词典(遍历一遍训练集,找到前多少个常用词),one-hot表示这个词...

  • 全栈 - 18 NLP 词嵌入的概念和实现

    这是全栈数据工程师养成攻略系列教程的第十八期:18 NLP 词嵌入的概念和实现。 词嵌入(Word Embeddi...

网友评论

    本文标题:NLP系列二:词表示

    本文链接:https://www.haomeiwen.com/subject/dqejmftx.html