美文网首页
常用度量方法

常用度量方法

作者: xingzai | 来源:发表于2019-07-22 14:32 被阅读0次

度量两个文本的相似度,或者距离,可以有很多方法,余弦夹角只是一种。本文简单列了一下常用的距离。

需要注意的是,本文中列的方法,有的是距离,也就是指越小越相似,有的是相似度,值越大越相似。

在 Python 的距离包 pairwise_distances 中,统一处理成了距离,即都是值越小,则距离越小、越相似。
本文中统一用下面两个文本作为例子:
text1 = '上海市市级科技重大专项’
text2 = '上海市国家级科研重大项目'

将2个进行分词,选取词维度有:
(上海市, 市级, 国家级, 科技, 科研, 重大, 专项, 项目)
x = (1, 1, 0, 1, 0, 1, 1, 0)
y = (1, 0, 1, 0, 1, 1, 0, 1)

OK,下面结合这个例子,具体介绍下各种距离:

1. 闵氏距离(Minkowski distance)

设 n 维空间中有两点坐标 x, y,p 为常数,闵式距离定义为:
D(x, y) = \lgroup\sum_{u=1}^{n}|x_u - y_u|^p\rgroup^\frac{1}{p}
注意:

  • 闵氏距离与特征参数的量纲有关,有不同量纲的特征参数的闵氏距离常常是无意义的。
  • 闵氏距离没有考虑特征参数间的相关性。


2. 曼哈顿距离(Manhattan distance)

  作为闵可夫斯基距离的一种特例,当p=1时,得到绝对值距离,也叫曼哈顿距离、出租汽车距离或街区距离。在二维空间中可以看出,这种距离是计算两点之间的直角边距离。



图中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。


3. 欧氏距离(Euclidean distance)

  当p=2时,得到欧几里德距离,就是两点之间的直线距离。欧氏距离中各特征参数是等权的。


4. 切比雪夫距离(Chebyshev Distance)

p\to \infty,得到切比雪夫距离。
数学上,切比雪夫距离或是L_{\infty}度量是向量空间中的一种度量,二个点之间的距离定义为其各座标数值差的最大值。以(x1,y1)和(x2,y2)二点为例,其切比雪夫距离为max(|x_2 - x_1|, |y_2 - y_1|)切比雪夫距离得名自俄罗斯数学家切比雪夫。

5. 马氏距离(Mahalanobis Distance)

  马氏距离(Mahalanobis Distance)表示数据的 协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。
  马氏距离有很多优点,马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。

6. 海明距离(Hamming Distance)

海明距离为两串向量中,对应元素不一样的个数,比如101010与101011的最后一位不一样,那么hamming distance即为1,,同理000与111的hamming为3。

但这没有考虑到向量的长度,如111111000与111111111的距离也是3,尤其是比较文本的相似时,这样的结果肯定不合理,因此我们可以用向量长度作为分母。Python 中的 hamming distance 即这么计算的。

海明距离也是值越小越相似。但除以长度之后的海明距离,最大值为1(完全不相似),最小值为0(完全一致)。


7. 杰卡德距离(Jaccard Distance)


比如本例中的两个文本:

text1 = '上海市市级科技重大专项’ → {上海市, 市级, 科技, 重大, 专项 }
text2 = '上海市国家级科研重大项目' → {上海市, 国家级, 科研, 重大, 项目}

交集有2个(上海市,重大),并集有8个。
因此Jaccard系数为:1/4。

转化成向量计算,其实跟 hamming 距离是一样的,都是对应元素相同的个数,除以向量的个数。


8. 相关距离

9. 余弦距离

10. 信息熵

相关文章

  • 常用度量方法

    度量两个文本的相似度,或者距离,可以有很多方法,余弦夹角只是一种。本文简单列了一下常用的距离。 需要注意的是,本文...

  • paint高级应用渲染

    paint常用API 获取字体度量对象mPaint.getFontMetrics()方法,返回一个FontMetr...

  • 刘嘉《概率论》4

    1.4概率度量:降水概率40%的真正含义是什么 简单来说,常用的度量概率的方法有三种——定义法、频率法和迭代法。 ...

  • 初中物理基础知识一览表,收藏抓紧了!

    常用物理研究方法及其内容 重要的物理公式 几个定义量的物理意义 常用物理量及其度量 重要的推导公式及其适用条件 常...

  • 相似性方法调研

    目录 时空轨迹相似性度量方法综述 基于轨迹点的相似性度量方法 全局匹配度量法局部匹配度量法 基于轨迹段的相似性度量...

  • Power BI快速度量值-值连接列表

    有些复杂并且常用的度量值,并不是都要自己动手写,PowerBI把常用的做成了快速度量值,实际上就封装好的DAX代码...

  • 模型度量方法

    本文总结一下分类算法中常用的性能度量指标。 错误率和精度 查准率、查全率与F1 查准率:算法预测出的正样本中,真实...

  • 决策树

    基本流程:   略 划分选择:   “信息熵”是度量样本集合纯度最常用的一项指标    “信息增益”是度量某个属性...

  • Day 2039:学习

    学习 常用的度量概率的方法有三种——定义法、频率法和迭代法。这三种方法是伴随着概率论的发展而逐步出现的。现在,定义...

  • 机器学习模型1 K-Nearest Neighbor(KNN)

    1、模型原理 (一)原理1、原理:是一种常用的监督学习方法,给定测试样本,基于某种距离度量找出训练集中与其最靠近的...

网友评论

      本文标题:常用度量方法

      本文链接:https://www.haomeiwen.com/subject/dwvilctx.html