美文网首页算法小白菜
几个传统NLP模型演进

几个传统NLP模型演进

作者: 林桉 | 来源:发表于2018-10-23 00:25 被阅读14次

词袋模型(BOW)

  • 属于词频模型
    在推荐系统中,如果将一个物品看作一个词袋,我们可以根据袋中的词来召回相关物品,例如用户浏览了一个包含“羽绒服”关键词的商品,我们可以召回包含“羽绒服”的其他商品作为该次推荐的候选商品,并且可以根据这个词在词袋中出现的次数(词频)对召回商品进行排序。

改进N-gram

image.png

TF-IDF的权重计算方法

计算物品和关键词的相关性
在TF-IDF方法中,一个词t在文档d中权重的计算方法为:


image.png

其中tft,d代表t在d中出现的频次,而dft指的是包含t的文档数目,N代表全部文档的数目。

VSM向量空间模型

度量关键词和文档,以及文档和文档之间的相关性
VSM的核心思想是将一篇文档表达为一个向量,向量的每一维可以代表一个词,在此基础上,可以使用向量运算的方法对文档间相似度进行统一计算,而这其中最为核心的计算,就是向量的余弦相似度计算:


image.png

LSA隐语义模型

深层次信息


image.png

LSA的做法是将这个原始矩阵C进行如下形式的SVD分解:


image.png
其中U是矩阵CCT的正交特征向量矩阵,V是矩阵CTC的正交特征向量矩阵,∑k是包含前k个奇异值的对角矩阵,k是事先选定的一个降维参数。
CCT中每个元素CCTi,j代表同时包含词i和词j的文档数量,而CTC中每个元素CTCi,j代表文档i和文档j共享的词的数量。所以这两个矩阵中包含了不同词的共同出现情况,以及文档对词的共享情况,通过分解这些信息得到了类似主题一样比关键词信息量更高的低维度数据。
image.png

pLSA概率隐语义模型

LSA训练复杂度高、检索复杂度高、词值无概率含义、负值(可以通过NMF解决)
基本假设:

  • 以 P(d) 的概率选择文档d
  • 以 P(z|d) 的概率选择隐类z
  • 以 P(w|z) 的概率从z生成w
  • P(z|d)和P(w|z) 均为多项式分布


    image.png

LDA生成式概率模型

参数量上升导致过拟合、生成式概率模型
LDA的中心思想就是在pLSA外面又包了一层先验,使得文档中的主题分布和主题下的词分布都有了生成概率,从而解决了上面pLSA存在的“非生成式”的问题,顺便也减少了模型中的参数,从而解决了pLSA的另外一个问题。


image.png

神经概率语言模型

上下文信息、词语之间相互影响、词序

  • 周围的词=>当前词
  • 当前词=>周围的词


    image.png

行业应用现状

image.png

相关文章

  • 几个传统NLP模型演进

    词袋模型(BOW) 属于词频模型在推荐系统中,如果将一个物品看作一个词袋,我们可以根据袋中的词来召回相关物品,例如...

  • NLP-神经语言模型:文本生成

    一、引言 在NLP-统计语言模型中已经简要介绍过语言模型的相关知识,该文中已阐述语言模型的应用场景和一些传统的实现...

  • Transformer-XL 语言模型

    Transformer 是 Google 提出的一种先进的 NLP 模型,在很多任务上都取得比传统 RNN 更好的...

  • NLP预训练模型

    NLP预训练模型 一、按照时间线主要有: ELMO (2018.3 华盛顿大学 )传统word2vec无法解决一词...

  • 推荐系统 - FM模型

    1. 模型演进 LR -> POLY2 -> FM -> FFM 1.1 LR模型 - 融合多种特征的推荐模型 线...

  • nlp中的传统语言模型与神经语言模型

    总有一些专有名词听上去“很屌”,了解了其概念后,便觉得:“哦,原来是这么简单的小知识点”。语言模型就是这样一个名词...

  • NLP模型

    2020-01-11 word2vec 词袋 每个词有一个对应的onehot编码可以得到文本的向量化结果,向量长度...

  • 彻底理解 Google BERT 模型

    BERT 模型是 Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的...

  • 极简父母

    九型分三类 性格决定命运 性格里包含 情感模型~NLP 思维模型 行为模型

  • 分类学习器的构建

    目录 变量选择 变量筛选 模型选择 变量预处理 模型设计和训练 模型优化 模型检验 1、特征选择 在NLP模型、机...

网友评论

    本文标题:几个传统NLP模型演进

    本文链接:https://www.haomeiwen.com/subject/vnznzftx.html