美文网首页深度学习
2020自然语言处理(2)

2020自然语言处理(2)

作者: zidea | 来源:发表于2020-07-09 20:55 被阅读0次
    nlp_cover.jpg

    我们根据下面几个维度对模型进行分类

    • 是否属于欧式空间
    • 全局方法还是局部方法
    • 是否基于 ML 进行训练
    • 是否考虑上下文

    全局(Global)方法l VS 局部(Local)方法

    • 全局方法: 所谓全局方法我们就是将全部数据一并输入到模型然后输出向量,这些向量表示文档出现词两两之间的关系的向量,会有非常大的矩阵,也就是一个V \times V 维度矩阵,这里 V 是词典的数量。优点是从全局考虑词的关系所以比较全面,缺点是计算量很大。典型的做法是矩阵分解(MF)
    • 局部方法: 我们熟悉的跳字模型(skip-gram)就是局部模型,只考虑某个词作为中心词周围一定范围词(前后的词)

    基于语言模型和非语言模型

    这里我们只是解释一下什么是基于语言模型的训练。
    w_1,w_2,w_3,w_3,w_4,w_5
    我们通过计算
    p(w_1,w_2,w_3,w_3,w_4,w_5) = P(w_1)P(w_2|w_1)P(w_3|w_1,w_2) \dots P(w_5|w_1,w_2,w_3,w_4)
    求这个极大似然值来训练模型方式为基于语言模型

    我们介绍词向量同样也存在问题,可以训练词向量但是训练出每一个单词的固定的词向量。
    Yesterday when he backed the car,he hurt his back
    在不同语境下这两 back 是不一样的。其实

    相关文章

      网友评论

        本文标题:2020自然语言处理(2)

        本文链接:https://www.haomeiwen.com/subject/nwehpctx.html