自然语言处理之词向量模型介绍

作者: 出题老头 | 来源:发表于2020-12-30 00:10 被阅读0次

自然语言处理之词向量模型介绍
第四章相似度分析算法——向量空间模型
Character Embedding论文笔记
【技术综述】深度学习在自然语言处理中的应用发展史
深度学习（9）-word embedding
[Gensim] 1 Word Embedding之bag of
循环卷积网络
2020-05-22 第十三章支持向量机模型(python)
10分钟快速入门PyTorch (8)
<<数学之美>> part1

nlp

我们在平日的生活中所说的话语，如何使用计算机自动构造出来呢？

一.探究我们在说一句话时，无形中做了什么

1.人类语言通俗剖析

我想吃晚饭

通过以上内容，我们可以把句的意思拆分为：我·想·吃·晚饭。
我们通常在说“我”的时候，大脑其实是在思考下一个词，即“想”，然后说了“想”了同时，开始思考下一个词“吃”，以此类推。
也就是说，我们每一次说出下一个词的时候，是基于上一个词说的是什么而定的，这样才能在表达出自己意思的同时能顺利组织成一句话。
这种思想很像条件概率？没有错，这种思想确实可以用条件概率表达出来：
$P(S) = P(w_1,w_2,w_3,\cdots,w_n)=P(w_1)P(w_2|w_1)\cdots P(w_n|w_1,w_2,\cdots w_{n-1})$
此处的P(S)被称为语言模型，也用来计算一个句子的概率。
通过以上式子可看出，每次新出现的词汇，都和之前已经出现的词汇有很强的关联（条件概率嘛），所以越到后面的词汇，所需要的条件概率越稀疏，并且参数巨大（每个词都是一个参数哟！）

数据过于稀疏

参数空间太大

2.-N-gram模型的出现

而事实上,当一个句子非常非常长的时候(特别是中文),后面出现的词汇很有可能和前面说的东西，产生的因果关系不大了。那么我们就可以进行如下假设：

我们每个词汇出现的概率，只和前面一个词汇相关：
$P(S)=P(w_1)P(w_2|w_1)P(w_3|w_2)\cdots P(w_n|w_{n-1})$

我们每个词出现概率，只和前面两个词相关：
$P(S)=P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)\cdots P(w_n|w_{n-1},w_{n-2})$

以此类推，还可以每个词和前面3个相关，4个等等....(对于处女座，这种玩法太难受了，但确实把问题化简了很多！)
这种玩法就是传说中的-N-gram模型，其中N代表的就是和前面N个词条件相关。
假设语料库的规模是N，相关词汇量是n，模型的参数量级为 $N^n$ 。由此我们可以看到，随着相关n的增长，参数规模增长是十分迅速的。所以在进行模型设计时，要考虑到小伙伴电脑的牛逼程度才行，目前主流计算机能支持到n=10的程度。一般让n=4，5都是ok的。

二.词向量

1.Hierarchical softmax

①CBOW(Continuous Bag-of-Words）

根据上下文预测出某个空的词是的内容
$\zeta = \sum_{w\in c}^{}\log P(w|Context(w))$

根据词频，对语句进行哈夫曼树的构造(由底至上济宁构建)，词频即为哈夫曼权值。

构造过程

2.开始进行计算啦！
在计算之前，首先解释一下各个参数含义：

$p^w$ ：从根节点出发到达w对应叶子节点的路径。

$l^w$ ：路径中包含的叶子节点个数。

$p_1^w,p_2^w....p_n^w$ ： $p^w$ 中的各个节点。

$d_2^w,d_3^w....d_n^w \in \{0,1\}$ ： $p^w$ 上的第n个节点上对应的编码

$\theta_1^w,\theta_2^w,....\theta_n^w$ ： $p^w$ 非叶子节点对应的参数

哈夫曼树是一种二叉树结构，也就是说，利用二分类可以一步一步找到叶子节点，我们这里使用sigmod进行二分类。所以：

正例： $\sigma (x_w^T\theta)=\frac {1}{1+e^{-x_w^T\theta}}$
负例： $1-\sigma (x_w^T\theta)$

通过以上两个公式，我们找到目标的过程，无非可总结为以下两种情况：

走向正例时： $p(d_n^w|x_w\theta_{n-1}^w)=\sigma (x_w^T\theta_{n-1}^w)$
走向负例时： $p(d_n^w|x_w\theta_{n-1}^w)=1-\sigma (x_w^T\theta_{n-1}^w)$

程序每次下寻找一次，都会经历上述两个公式其中之一，最终会找到目标词汇，同时会留下一条路径，把路径的每一部都连乘起来就是：
$p(text|Context(text))=\prod_{2}^{n}p(d_n^w|x_w\theta_{n-1}^w)$
在累乘计算时，计算可能会比较困难，我们把上述等式两边同时取对数：
$\zeta = \sum_{w\in c}^{}\log P(w|Context(w))$
从公式可知，这里的概率值越大越好！所以此题目为求解梯度上升。
对 $\zeta$ 求导，得：
$\frac{\partial \zeta(w,n)}{\partial \theta_{n-1}^w}=[1-d_n^w-\sigma(x_w^T\theta_{n-1}^w)]x_w$
由梯度上升可知，更新形式为：
$\theta_{j-1}^w:=\theta_{j-1}^w+\eta[1-d_n^w-\sigma(x_w^T\theta_{n-1}^w)]x_w$
同样，对投影层的 $x_w$ 进行求导：
$\frac{\partial \zeta(w,n)}{\partial x_w}=[1-d_n^w-\sigma(x_w^T\theta_{n-1}^w)]\theta_{n-1}^w$
投影中的 $x_w$ 并不是单独的词向量，而是由词向量拼接而成的一个大向量，然而，2013年google粗暴的将这个导数更新到各个词向量中：
$v(\widetilde{w}):= v(\widetilde{w})+\eta \sum_{n=2}^{l^w}\frac{\partial \zeta(w,n)}{\partial x_w} ,w \in Context(\widetilde w)$

②Skip-Gram模型

其实就是把CBOW的流程倒过来，回推出各个词向量。

2. 负采样

当语料库非常庞大的时候，将会构造出非常庞大的哈夫曼树，这样仍然会增加计算机的压力，影响计算速度。如何解决呢？那么我们下回分解！

自然语言处理之词向量模型介绍
我们在平日的生活中所说的话语，如何使用计算机自动构造出来呢？一.探究我们在说一句话时，无形中做了什么 1.人类语...
第四章相似度分析算法——向量空间模型
4.4 向量空间模型向量空间模型是将文本转换为向量的代数模型，主要用于自然语言处理、文本分析等领域。目前，空间向...
Character Embedding论文笔记
学习目标 C2W模型背景介绍词向量的学习对于自然语言处理的应用非常重要，词向量可以在空间上捕获词之间的...
【技术综述】深度学习在自然语言处理中的应用发展史
本篇介绍深度学习在自然语言处理(NLP)中的应用，从词向量开始，到最新最强大的BERT等预训练模型，梗概性的介绍了...
深度学习（9）-word embedding
Word Embedding 在自然语言处理中词向量是很重要的，首先介绍一下词向量。之前做分类问题的时候大家应该都...
[Gensim] 1 Word Embedding之bag of
Gensim是一个Python的自然语言处理库，能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模...
循环卷积网络
6.1 语言模型语言模型（language model）是自然语言处理的重要技术。自然语言处理中最常见的数据是文...
2020-05-22 第十三章支持向量机模型(python)
第十三章支持向量机模型 01 支持向量机模型的介绍模型介绍 SVM是Support Vector Machin...
10分钟快速入门PyTorch (8)
前面一篇文章中，我们简单的介绍了自然语言处理中最简单的词向量 word embedding，这一篇文章我们将介绍如...
<<数学之美>> part1
摘要 : [自然语言处理] [基于规则] [基于统计] [统计语言模型] [马尔科夫] [分词] 自然语言处理--...