美文网首页
Python数据分析与机器学习40-自然语言处理词向量模型-Wo

Python数据分析与机器学习40-自然语言处理词向量模型-Wo

作者: 只是甲 | 来源:发表于2022-08-01 10:55 被阅读0次

一. 自然语言概述

1.1 自然语言可以做什么

  1. 拼写检查、关键词搜索
  2. 文本挖掘(产品价格、日期、时间、地点、人名、公司名)
  3. 文本分类
  4. 机器翻译
  5. 客服系统
  6. 复杂对话系统
image.png

1.2 为什么需要深度学习

image.png

二.语言模型

2.1 语言模型简介

机器翻译:

image.png

拼写纠错:

image.png

智能问答:

image.png

机器翻译:
P(highprice) > P(largeprice)

image.png

拼写纠错:
P(about fifteenminutesfrom) > P(about fifteenminuetsfrom)

image.png

2.2 语言模型实例

我今天下午打篮球

p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

p(S)被称为语言模型,即用来计算一个句子概率的模型

语言模型存在哪些问题呢?

p(wi|w1,w2,...,wi-1) = p(w1,w2,...,wi-1,wi) /p(w1,w2,...,wi-1)
  1. 数据过于稀疏
  2. 参数空间太大

假设下一个词的出现依赖它前面的一个词:

p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)

假设下一个词的出现依赖它前面的两个词:

p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2)
image.png image.png
I want english food

p(I want chinesefood)=P(want|I)
×P(chinese|want)
×P(food|chinese)

2.3 语言模型参数数量

假设词典的大小是N则模型参数的量级是 O(N^n)

image.png

三. 词向量

下面是一些词语:


image.png

expect代表的是我们常见的向量,例如取值范围[-1,1]
右边图我们可以看到 是单词在向量空间中的分布情况,例如 had has have语义比较接近,所以在向量空间中也距离也是比较接近的。


image.png

词意相近的词:

image.png

词向量与语言的关系:
左边是英语,后面是西班牙语
我们可以看到即便语言不同,词向量空间所处的位置不变

image.png

四. 神经网络模型

image.png image.png image.png image.png

五. Hierarchical Softmax

image.png

5.1 哈夫曼树

image.png
image.png
image.png

5.2 Sigmoid函数

image.png

5.3 CBOW

image.png

输入层:
是上下文的词语的词向量,在训练CBOW模型,词向量只是个副产品,确切来说,是CBOW模型的一个参数。训练开始的时候,词向量是个随机值,随着训练的进行不断被更新)。

投影层:
对其求和,所谓求和,就是简单的向量加法。

输出层
输出最可能的w。由于语料库中词汇量是固定的|C|个,所以上述过程其实可以看做一个多分类问题。给定特征,从|C|个分类中挑一个。

image.png image.png image.png image.png image.png image.png

5.4 Skip-gram

image.png image.png

5.5 Negative Sampling

image.png image.png image.png image.png image.png

参考:

  1. https://study.163.com/course/introduction.htm?courseId=1003590004#/courseDetail?tab=1

相关文章

网友评论

      本文标题:Python数据分析与机器学习40-自然语言处理词向量模型-Wo

      本文链接:https://www.haomeiwen.com/subject/ewiuirtx.html