词袋模型(BOW)
- 属于词频模型
在推荐系统中,如果将一个物品看作一个词袋,我们可以根据袋中的词来召回相关物品,例如用户浏览了一个包含“羽绒服”关键词的商品,我们可以召回包含“羽绒服”的其他商品作为该次推荐的候选商品,并且可以根据这个词在词袋中出现的次数(词频)对召回商品进行排序。
改进N-gram
image.pngTF-IDF的权重计算方法
计算物品和关键词的相关性
在TF-IDF方法中,一个词t在文档d中权重的计算方法为:
image.png
其中tft,d代表t在d中出现的频次,而dft指的是包含t的文档数目,N代表全部文档的数目。
VSM向量空间模型
度量关键词和文档,以及文档和文档之间的相关性
VSM的核心思想是将一篇文档表达为一个向量,向量的每一维可以代表一个词,在此基础上,可以使用向量运算的方法对文档间相似度进行统一计算,而这其中最为核心的计算,就是向量的余弦相似度计算:
image.png
LSA隐语义模型
深层次信息
image.png
LSA的做法是将这个原始矩阵C进行如下形式的SVD分解:
image.png
其中U是矩阵CCT的正交特征向量矩阵,V是矩阵CTC的正交特征向量矩阵,∑k是包含前k个奇异值的对角矩阵,k是事先选定的一个降维参数。
CCT中每个元素CCTi,j代表同时包含词i和词j的文档数量,而CTC中每个元素CTCi,j代表文档i和文档j共享的词的数量。所以这两个矩阵中包含了不同词的共同出现情况,以及文档对词的共享情况,通过分解这些信息得到了类似主题一样比关键词信息量更高的低维度数据。
image.png
pLSA概率隐语义模型
LSA训练复杂度高、检索复杂度高、词值无概率含义、负值(可以通过NMF解决)
基本假设:
- 以 P(d) 的概率选择文档d
- 以 P(z|d) 的概率选择隐类z
- 以 P(w|z) 的概率从z生成w
-
P(z|d)和P(w|z) 均为多项式分布
image.png
LDA生成式概率模型
参数量上升导致过拟合、生成式概率模型
LDA的中心思想就是在pLSA外面又包了一层先验,使得文档中的主题分布和主题下的词分布都有了生成概率,从而解决了上面pLSA存在的“非生成式”的问题,顺便也减少了模型中的参数,从而解决了pLSA的另外一个问题。
image.png
神经概率语言模型
上下文信息、词语之间相互影响、词序
- 周围的词=>当前词
-
当前词=>周围的词
image.png
网友评论