美文网首页
常见相似度衡量方法

常见相似度衡量方法

作者: 咸鱼426 | 来源:发表于2019-01-03 13:26 被阅读0次

参考邹博的PPT对5种常见的相似度的衡量方法进行一下汇总。
1、 Minkowski distance:

Minkowski distance
Minkowski距离是对欧氏距离和曼哈顿距离的一般化,当p = 1时为曼哈顿距离,当p = 2时为欧氏距离。

2、 Jaccard distance:

Jaccard index
Jaccard距离描述的是两个样本集合的差异性, 与Jaccard index正好互补。Jaccard distance与simple matching coefficient非常相似,但也存在着很重要的区别,如在两个都是0、1的集合A、B中,Jaccard distance不考虑A、B中都是0的情况,而simple matching coefficient则会考虑,这也导致了两者在应用上的一些差异。具体案例见wikipedia

3、 cosine similarity:

Cosine similarity
余弦相似性主要是通过计算空间中两个向量的夹角来衡量其相似性。夹角越小,其相似性越大,反之越小。

4、 pearson correlation coefficient:

Pearson correlation coefficient

关于欧式距离、余弦相似度和pearson系数的关系可以查看知乎上的讨论。总结的说:
a、 在数据标准化后,Pearson相关性系数、余弦相似度、欧式距离的平方可认为是等价的。
b、 pearson相关系数是余弦相似度在维度值缺失情况下的一种改进。

5、 Kullback-Leibler divergence(相对熵、KL散度)

Kullback–Leibler divergence
P、 Q是两个不同的分布,假设P是数据真实的分布,Q是用模型拟合的分布。
D(P||Q)表示Q到P的散度。在机器学习语意下,其表示用分布Q代替P时所得到的信息增量,为了让Q更接近P,在模型训练时我们应该取KL散度的极小值。

a、 KL散度是不对称的,即P到Q的距离不等于Q到P的距离;
b、 KL散度不满足三角距离公式,两边之和大于第三边,两边之差小于第三边。

参考文献:
1、 https://en.wikipedia.org/wiki/Minkowski_distance
2、 https://en.wikipedia.org/wiki/Simple_matching_coefficient
3、 https://en.wikipedia.org/wiki/Jaccard_index
4、 https://en.wikipedia.org/wiki/Cosine_similarity
5、 https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
6、 https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
7、 https://blog.csdn.net/u012885320/article/details/81059915
8、 https://blog.csdn.net/zb1165048017/article/details/48937135
9、 https://www.zhihu.com/question/19734616
10、 https://www.zhihu.com/question/41252833

相关文章

  • 常见相似度衡量方法

    参考邹博的PPT对5种常见的相似度的衡量方法进行一下汇总。1、 Minkowski distance: 2、 Ja...

  • Chapter 6:Similarity-Based Metho

    ①Similarity Measure 相似度的衡量方法:Euclidean Distance(欧几里得距离):M...

  • 文本相似度计算与展示

    文本相似度计算方法归类 基于字符串。该方法从字符串匹配度出发,以字符串共现和重复程序为相似度的衡量标准。如编辑距离...

  • Numpy计算余弦相似度:向量之间,向量与矩阵,矩阵与矩阵

    摘要:Numpy,Python 余弦相似度公式 余弦相似度是衡量向量夹角的余弦值作为相似度度量指标,夹角越小相似度...

  • 相似度测量

    在分类聚类算法,推荐系统中常常需要计算物品之间的相似度,而如何衡量物品之间的相似度,下文将介绍几种常用的计算方法。...

  • FromWord Embeddings To Document

    文本相似度是自然语言处理研究热点之一,论文提出了一种新的衡量文本相似度的方法,Word Mover’s Dista...

  • 推荐系统相关名词说明

    物品流行度 标识多少用户同物品发生关系 相似度 衡量用户或者物品的距离或者相似度i) 余弦相似度,其实就是归一化后...

  • 常用向量相似度衡量指标

    1、欧氏距离(Euclidean Distance ) 欧氏距离是最容易直观理解的距离度量方法: (1)二维平面上...

  • 计算句子相似度

    计算句子相似度,①常用方法有基于语义和词序相似度计算方法,②基于关系向量模型基于语义和词序的句子相似度计算方法简介...

  • 余弦相似度理解及shengxin中应用

    cosin similarity(余弦相似度) 1,它最常见的应用是计算文本相似度。将文本转换为向量 2,余弦相似...

网友评论

      本文标题:常见相似度衡量方法

      本文链接:https://www.haomeiwen.com/subject/jmaxrqtx.html