1.4 距离计算
数值距离的计算是机器学习算法中对分析结果非常重要的衡量标准。数字计算主要集中的两个方面:一方面是距离计算;另一方面是概率计算。距离和概率是机器学习算法中最为核心的数值,是表达信息异同相似的数值体现。
1.4.1 欧氏距离
欧氏距离(也称欧几里得度量)是一个通常采用的距离定义,指在m维空间中两点之间的真实距离,或者向量的自然长度(即该店到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
二维,两点P()和P()间的欧氏距离公式:
三维,两点P()和P()间的欧氏距离公式:
优点:欧氏距离是距离算法中最常用的方式,日常生活中的大部分距离都可以通过欧式距离进行计算。
缺点:将数据的特征进行独立的计算,且差别是等同的。
1.4.2 马氏距离
马氏距离是由印度统计学家马哈拉诺比斯提出的一种表示数值协方差距离的概念。这种协方差距离体现的是数据样本分布的距离。与欧氏距离不同的是,它考虑到各种特性之间的联系,并且是尺度无关的,即独立于测量尺度。马氏距离可以用于计算两个未知样本信息集合的相似度分析。
1.4.3 曼哈顿距离
曼哈顿距离是由19世纪的赫尔曼·闵可夫斯基所创词汇,是一种使用在几何度量空间的几何学用语,用以表明两个点在标准坐标系上的绝对轴距离总和。它表示的不是两点的直线距离,而是实际从A点到达B点的距离。
二维平面的两点a()和b()间的曼哈顿距离:
1.4.4 切比雪夫距离
切比雪夫距离是向量空间中的一种度量,两个点之间的距离定义为其各坐标数值差的最大值。切比雪夫距离得名自俄罗斯数学家切比雪夫。
二维两点间的切比雪夫距离:
n维两点间的切比雪夫距离:
1.4.5 闵氏距离
闵氏距离又称作闵可夫斯基距离。
n维的两个变量间的闵可夫斯基距离的定义如下:
其中p是一个变参,当p=1时,实质就是曼哈顿距离;当p=2时,则它时欧氏空间中的一种测度,被看作欧氏距离的一种推广,欧氏距离是闵氏距离中p等于2的一种特征情况。而当p趋近于无穷大时,则可以视为切比雪夫距离。
1.4.6 海明距离
在信息论中,两个等长字符串之间的海明距离时两个字符串对应位置的不同字符的个数。海明重量时字符串相对于同样长度的零字符串的海明距离,也就是说,它时字符串中非零的元素个数。
对于固定的长度n,海明距离时该长度字符向量空间上的度量,很显然它满足非负性、唯一性及对称性,并且可以很容易地通过完全归纳法证明它满足三角不等式。两个字a与b之间的海明距离也可看作特定运算a-b的海明重量。
网友评论