

我们根据下面几个维度对模型进行分类
- 是否属于欧式空间
- 全局方法还是局部方法
- 是否基于 ML 进行训练
- 是否考虑上下文
全局(Global)方法l VS 局部(Local)方法
- 全局方法: 所谓全局方法我们就是将全部数据一并输入到模型然后输出向量,这些向量表示文档出现词两两之间的关系的向量,会有非常大的矩阵,也就是一个
维度矩阵,这里 V 是词典的数量。优点是从全局考虑词的关系所以比较全面,缺点是计算量很大。典型的做法是矩阵分解(MF)
- 局部方法: 我们熟悉的跳字模型(skip-gram)就是局部模型,只考虑某个词作为中心词周围一定范围词(前后的词)

基于语言模型和非语言模型
这里我们只是解释一下什么是基于语言模型的训练。
我们通过计算
求这个极大似然值来训练模型方式为基于语言模型
我们介绍词向量同样也存在问题,可以训练词向量但是训练出每一个单词的固定的词向量。
Yesterday when he backed the car,he hurt his back
在不同语境下这两 back 是不一样的。其实
网友评论