2020自然语言处理(2)

作者: zidea | 来源:发表于2020-07-09 20:55 被阅读0次

2020自然语言处理(2)
NLP科普文1——应用场景
自然语言处理之路：方法——深度学习基础
自然语言处理之路：方法——机器学习基础
自然语言处理之路：工具——七种兵器
外行也能看懂的科普：这就叫自然语言处理
BERT
自然语言学习路线图
jieba分词（R vs. python）
你对自然语言处理了解多少呢？

nlp_cover.jpg

图

我们根据下面几个维度对模型进行分类

是否属于欧式空间
全局方法还是局部方法
是否基于 ML 进行训练
是否考虑上下文

全局(Global)方法l VS 局部(Local)方法

全局方法: 所谓全局方法我们就是将全部数据一并输入到模型然后输出向量，这些向量表示文档出现词两两之间的关系的向量，会有非常大的矩阵，也就是一个 $V \times V$ 维度矩阵，这里 V 是词典的数量。优点是从全局考虑词的关系所以比较全面，缺点是计算量很大。典型的做法是矩阵分解(MF)
局部方法: 我们熟悉的跳字模型(skip-gram)就是局部模型，只考虑某个词作为中心词周围一定范围词（前后的词）

图

基于语言模型和非语言模型

这里我们只是解释一下什么是基于语言模型的训练。
$w_1,w_2,w_3,w_3,w_4,w_5$
我们通过计算
$p(w_1,w_2,w_3,w_3,w_4,w_5) = P(w_1)P(w_2|w_1)P(w_3|w_1,w_2) \dots P(w_5|w_1,w_2,w_3,w_4)$
求这个极大似然值来训练模型方式为基于语言模型