NLP系列二:词表示

作者: 只为此心无垠 | 来源:发表于2018-07-23 18:00 被阅读10次

    一、绪论

    1、词无语义

    图像和语言领域:基本数据是信号数据,可以通过距离度量判断信号是否相似。文本是符号数据,字面不一样,就难以刻画它们之间的联系, 也就是语义鸿沟现象。在判断两幅图片是否相似时,只需通过观察图片本身就能给出回答;而判断两个词是否相似时,还需要更多的背景知识才能做出回答。

    2、词有语义

    1954 年,Harris 提出分布假说(distributional hypothesis),即“上下文相似的词,其语义也相似”,为词的分布表示提供了理论基础。在分布假说中,需要关注的对象有两个:词和上下文,其中最关键的是上下文的表示。神经网络模型生成的词表示通常被称为词向量(word embedding),是一个低维的实数向量表示,通过这种表示,可以直接对词之间的相似度进行刻画。

    3、句子语义、文档语义

    对于文本分类、信息检索等实际需求而言,仅使用词级别的语义表示不足以有效地完成这些任务,因此还需要通过模型,得到句子和文档级别的语义表示。
    但是,由于文档的多样性,直接使用分布假说构建文档的语义向量表示时,会遇到严重的数据稀疏问题;同时由于分布假说是针对词义的假说,这种通过上下文获取语义的方式对句子和文档是否有效,还有待讨论。
    为了获得句子和文档的语义表示,研究人员一般采用语义组合的方式。现有的句子或者文档表示也通常以该思路为基础,通过语义组合的方式获得。主流的神经网络语义组合方法包括递归神经网络、循环神经网络和卷积神经网络,这些方法采用了不同的组合方式从词级别的语义组合到句子和文档级别。

    二、历史发展

    词是承载语义的最基本的单元 。

    1、最传统(独热表示)

    而传统的独热表示(one-hot represen- tation)仅仅将词符号化,不包含任何语义信息。
    如何将语义融入到词表示中?

    2、1954 - 1957(基于矩阵的分布表示)

    Harris 在 1954 年提出的分布假说(distributional hypothesis)为这一设想提供了 理论基础:上下文相似的词,其语义也相似 。
    Firth 在 1957 年对分布假说进 行了进一步阐述和明确:词的语义由其上下文决定(a word is characterized by the company it keeps)。二十世纪 90 年代初期,统计方法在自然语言处理中逐渐 成为主流,分布假说也再次被人关注。Dagan 和 Schütze 等人总结完善了利用上 下文分布表示词义的方法,并将这种表示用于词义消歧等任务, 这类方法在当时被成为词空间模型(word space model)。在此后的发展中,这 类方法逐渐演化成为基于矩阵的分布表示方法,期间的十多年时间里,这类方法得到的词表示都被直接称为分布表示(distributional representation)。

    3、1992(基于聚类的分布表示)

    1992 年, Brown 等人同样基于分布假说,构造了一个上下文聚类模型,开创了基于聚类的分布表示方法 。

    4、2006(基于神经网络的分布表示)

    2006 年之后,随着硬件性能的提升以及优化算法的突破, 神经网络模型逐渐在各个领域中发挥出自己的优势,使用神经网络构造词表示的方法可以更灵活地对上下文进行建模,这类方法开始逐渐成为词分布表示的主流方法。

    三、总结

    到目前为止,基于分布假说的词表示方法,根据建模的不同,主要可以分为三类:基于矩阵的分布表示、基于聚类的分布表示 和基于神经网络的分布表示。从广义上看,所有基于分布假说得 到的表示均可称为分布表示(distributional representation),如上述的三种。
    尽管这些不同的分布表示方法使用了不同的技术手段获取词表示,但由于这些方法均基于分布假说,它们的核心思想也都由两部分组成:

    • 一、选择一种 方式描述上下文;
    • 二、选择一种模型刻画某个词(下文称“目标词”)与其上下 文之间的关系。
      上文介绍的矩阵、聚类和神经网络三种方法,采用了不同的方 式对上下文和目标词之间的关系进行建模。


    参考
    1、基于神经网络的词和文档语义向量表示方法研究这是关于词表述的综述论文,而且是中文,写的很不错

    相关文章

      网友评论

        本文标题:NLP系列二:词表示

        本文链接:https://www.haomeiwen.com/subject/dqejmftx.html