美文网首页
基于向量空间模型的余弦相似度算法

基于向量空间模型的余弦相似度算法

作者: wxhzt | 来源:发表于2015-12-19 11:14 被阅读0次

基于向量空间模型的余弦相似度算法###

向 量 空 间 模 型 VSM ( vector space model ) 是 由 Salton 在 1975 年 的Communications of the ACM 上提出的。

它的基本思想是:

在自然界中任何事物都可以用一些最基本的元素加以表示,这些最基本的元素作为基础单元,类似于坐标系中坐标轴,通过这种假设与推理,每一个构成事物的基本元素都对应着n维空间中某个坐标系,则事物可通过各个基本元素表示为坐标系向量的形式.

那么,两个向量之间的夹角越小,则两个向量所代表的事物就越相似。

基本概念和定义

文本(document):通常是文本中具有一定规模的片断,如句子、句群、段落段落组直至整篇文本。


项/特征项(term/feature term):特征项是文本表示中最基本的元素,正是由于特征项之间的不同组合构成了文本,同时特征项作为基本元素构成了表示文本的向量形式。 文本被看作为项的集合 Document = (t1,t2,t3...tn).


项的权重(term weight): Document = (t1,t2,t3...tn)表示文档中包含 n 个关键词(特征项),在文本向量中每一个维度上的特征项tk都依据一定的原则被赋予一个特征项权重wk表示它们在文档中的重要程度.权值的计算方法有几种:基于词频(TF)的关键词权值,基于文档频率(DF)的关键词权值,基于文档频率的关键词权值,基于信息增益的关键词权值,基于卡方分布的关键词权值,基于互信息的关键词权值

我们可以(t1,t2,t3..tn)看成是一个n维坐标系。坐标系的每一个维度对应一个特征项,权重对应在坐标轴上的值。 一个文本就是坐标系中的一个向量。

D = (w1,w2,w3..wn)就是文本的向量表示

如何计算相似度

设文档 D1和D2表示向量空间模型中的两个向量
D1 = (w11,w12,w13..w1n)
D2 = (w21,w22,w23..w2n)
那么两个文本的相似度计算公式如下:

捕获.PNG

相关文章

  • 第四章 相似度分析算法——基于余弦相似性算法的相似度分析

    4.5 基于余弦相似性算法的相似度分析 余弦相似性算法是基于向量空间模型的算法,其关键词的向量依赖于IF-IDF算...

  • 基于向量空间模型的余弦相似度算法

    基于向量空间模型的余弦相似度算法### 向 量 空 间 模 型 VSM ( vector space mode...

  • 余弦相似度

    简介:余弦相似度,即两物体之间的cos$值,值越大,表示两物体的相似度越大。 1、向量空间余弦相似度:即向量空间中...

  • NLP详解

    (一)余弦相似度、向量空间模型 1、相似度 • 相似度度量:计算个体间相似程度• 相似度值越小,距离越大,相似度值...

  • 余弦相似度算法与kotlin实现

    余弦相似度计算 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角...

  • 余弦距离

    余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间...

  • COSG细胞标记基因鉴定

    基于余弦相似度的COSG算法,其核心思想是通过比较基因在n维细胞空间的向量夹角大小来描述基因在所有细胞中表达模式的...

  • 余弦相似度计算

    1. 余弦相似度: 余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向...

  • Numpy计算余弦相似度:向量之间,向量与矩阵,矩阵与矩阵

    摘要:Numpy,Python 余弦相似度公式 余弦相似度是衡量向量夹角的余弦值作为相似度度量指标,夹角越小相似度...

  • 20-余弦相似度及其R实现

    1 余弦相似度 余弦相似度 (Cosine Similarity) 通过计算两个向量的夹角余弦值来评估他们的相似度...

网友评论

      本文标题:基于向量空间模型的余弦相似度算法

      本文链接:https://www.haomeiwen.com/subject/wanphttx.html