美文网首页自然语言处理(NLP)
自然语言处理:词嵌入简介

自然语言处理:词嵌入简介

作者: 数据科学工厂 | 来源:发表于2023-04-17 22:24 被阅读0次

动动发财的小手,点个赞吧!

Word Embeddings

机器学习模型“查看”数据的方式与我们(人类)的方式不同。例如,我们可以轻松理解“我看到一只猫”这一文本,但我们的模型却不能——它们需要特征向量。此类向量或词嵌入是可以输入模型的词的表示。

工作原理:查找表(词汇)

在实践中,你有一个允许单词的词汇表;你提前选择这个词汇。对于每个词汇单词,查找表包含它的嵌入。可以使用词汇表中的单词索引找到该嵌入(即,您可以使用单词索引在表中查找嵌入)。

为了解释未知词(那些不在词汇表中的词),通常一个词汇表包含一个特殊的标记 UNK。或者,未知标记可以被忽略或分配一个零向量。

本讲的主要问题是:我们如何得到这些词向量?

表示为离散符号:One-hot 向量

最简单的方法是将单词表示为One-hot向量:对于词汇表中的第 i 个单词,向量在第 i 个维度上为 1,在其余维度上为 0。在机器学习中,这是表示分类特征的最简单方法。

您可能会猜到为什么One-hot向量不是表示单词的最佳方式。问题之一是对于大词汇表,这些向量会很长:向量维数等于词汇表大小。这在实践中是不可取的,但这不是最关键的问题。

真正重要的是,这些向量对它们所代表的词一无所知。例如,One-hot向量“认为”猫和狗的距离和桌子的距离一样近!我们可以说 one-hot 向量不捕获意义

但是我们怎么知道什么是意义呢?

分布语义

为了在向量中捕捉单词的含义,我们首先需要定义可以在实践中使用的含义概念。为此,让我们尝试了解我们人类如何知道哪些词具有相似的含义。

一旦您看到了未知词在不同上下文中的使用方式,您就能够理解它的含义。你是怎么做到的?

假设是你的大脑搜索了可以在相同上下文中使用的其他词,找到了一些(例如,葡萄酒),并得出了 tezgüino 与其他词具有相似含义的结论。这是分布假设:

经常出现在相似上下文中的词具有相似的含义。

这是一个非常有价值的想法:它可以在实践中使用,让词向量捕捉到它们的含义。根据分布假设,“捕捉意义”和“捕捉上下文”在本质上是相同的。因此,我们需要做的就是将有关单词上下文的信息放入单词表示中。

主要思想:我们需要将有关单词上下文的信息放入单词表示中。

基于计数的方法

基于计数的方法从字面上理解了这个想法:

如何:根据全球语料库统计信息手动放置此信息。

一般过程如上图所示,包括两个步骤:(1) 构建词上下文矩阵,(2) 降低其维数。降维有两个原因。首先,原始矩阵非常大。其次,由于很多单词只出现在少数几种可能的上下文中,因此该矩阵可能包含很多无信息的元素(例如,零)。

要估计词/上下文之间的相似性,通常需要评估归一化词/上下文向量的点积(即余弦相似性)。

要定义基于计数的方法,我们需要定义两件事:

  1. 可能的上下文(包括一个词出现在上下文中意味着什么)
  2. 关联的概念,即计算矩阵元素的公式

Co-Occurence Counts

最简单的方法是将上下文定义为 L 大小窗口中的每个单词。词-上下文对 (w, c) 的矩阵元素是 w 在上下文 c 中出现的次数。这是获取嵌入的非常基本(而且非常非常古老)的方法。

Positive Pointwise Mutual Information (PPMI)

这里上下文的定义和之前一样,但是单词和上下文之间关联的度量更加巧妙:positive PMI(或简称 PPMI)。 PPMI 度量被广泛认为是前神经分布相似性模型的最新技术。

潜在语义分析 (LSA):理解文档

潜在语义分析 (LSA) 分析一组文档。虽然在之前的方法中上下文仅用于获取词向量并随后被丢弃,但在这里我们也对上下文感兴趣,或者在本例中是文档向量。 LSA是最简单的主题模型之一:文档向量之间的余弦相似度可以用来衡量文档之间的相似度。

术语“LSA”有时指的是将 SVD 应用于术语文档矩阵的更通用方法,其中术语文档元素可以用不同的方式计算(例如,简单的共现、tf-idf 或其他一些权重)

本文由mdnice多平台发布

相关文章

  • word2vec[1] word representation词

    词嵌入 word representation 词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念...

  • 几种词嵌入方法

    在自然语言处理中常常使用词嵌入。先来看看词嵌入是什么,以及为什么使用词嵌入。 为什么要使用词嵌入 以中文为例,词库...

  • 通用词向量、句向量研究现状

    摘要:目前,词和语句的嵌入已经成为任何基于深度训练的自然语言处理系统的重要组成部分。自然语言处理系统在固定长度的密...

  • Embeding

    一、“嵌入”(Embeding) 自然语言处理少不了这个过程,尤其是神经网络模型,需要进行嵌入,那么什么是嵌入?我...

  • 吴恩达深度学习-神经网络基础(第11课:自然语言处理与词嵌入 )

    一、学习安排(12月1日-12月3日)1.主要学习视频:第十一课:自然语言处理与词嵌入([图片上传失败...(im...

  • 机器学习数据集

    自然语言处理 腾讯800万中文词嵌入数据集Tencent AI Lab Embedding Corpus for ...

  • 序列模型—自然语言处理与词嵌入

    词汇表征 利用one-hot向量来表示词,会使得词语词之间孤立,对相关词的泛化能力差,如下图所示 当你学习到了一个...

  • 一文概览NLP算法(Python)

    一、自然语言处理(NLP)简介 自然语言处理就是用计算机来分析和生成自然语言(文本、语音),目的是让人类可以用自然...

  • 书籍:python自然语言处理(PyTorch) Natura

    简介 使用PyTorch 进行自然语言处理 自然语言处理(NLP)为解决人工智能问题提供了无限机会,使亚马逊Ale...

  • 自然语言处理简明教程

    自然语言处理简介 现在,让我们先从介绍自然语言处理(NLP)开始吧。众所周知,语言是人们日常生 活的核心部分,任何...

网友评论

    本文标题:自然语言处理:词嵌入简介

    本文链接:https://www.haomeiwen.com/subject/uythjdtx.html