“人类的知识祭奠都是来源于探究事物的相似和不同之处。” —— 诺贝尔
图1显示了橘子和苹果的酸甜度分布图,如果出现了一个新的水果(披着苹果皮橘子芯),按照口味分类的话,那我们就可以划分其为橘子的亚种。
图1: 水果酸甜度分布相似度计算是很多数据挖掘和机器学习算法中不可或缺的一部分,而核函数(kernel function)的最终目的也是计算任意两个数据点的相似度。核函数在机器学习领域获得了广泛运用,尤其是在SVM分类器中,将低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分。通俗来讲,核函数就是一种相似度度量函数,其本质在于通过把数据映射到一个新的空间(无论高低维),再在新的空间中计算数据之间的点积作为新相似度(核函数是可以跳过映射步骤直接计算出该相似度)。当前网上有很多深入浅出的讨论核函数博客,如果大家感兴趣可以浏览这篇知乎文章。再比如kernel k-means是把欧式距离公式替换成了核函数相似度公式,以找到非球状的簇,详细内容可以查看这个PPT。因此,如何设计相似度度量是设计核函数的核心,也就是设计衡量2个物体是否相似的评判标准。
* 相似度和相异度是可以互相转换的,例如我们常用的欧式距离是一种相异度计量方法,就是看两个点在数据空间中相隔的距离。如果用一个常数减去这段距离就可以得到这两点的相似度,即距离越近,相似度越高。
首先,我们先探讨一下将两个苹果放置在梨子堆里和放置再苹果堆,这两个苹果之间相似度会不会发生转变?
如果我们还是用口味坐标轴表示这俩苹果的关系,我们发现用常用欧式距离算相似度的话,他们并没有任何改变,即与背景数据分布无关。
然而,心理学家很久以前(1970’)就发现人类认知事物是需要考虑环境影响的,也就是说这俩苹果如果放在梨子堆,他们应该更加的相似啦,也更容易被找到啦!(传说中说少数群体惺惺相惜)
因此,我们需要设计更符合人类心理学特征的相似度计量方法 —— 基于数据分布特性的核函数(data-dependent kernel)!从数学上来讲,就是说我们需要增加低密度区域里物体之间的相似度,降低高密度区域里物体之间的相似度。为了达到这个目的,我们可以设计很多不同的方法来重新衡量相似度,本文接下来就是讲解如何利用数据孤立机制来设计相似度计量方法 —— 孤立核函数(Isolation Kernel)。
我之前的博文已经介绍过2种基于孤立机制来查找数据异常的方法,iForest和iNNE。他们都是利用数据的抽样来划分数据空间的方法,数据越密集的地方由于抽到的样本越多,越容易被划分到更细小的子空间,这种特性就非常符合我们要设计的核函数啦!我们可以同样用树(类似iForest)或者用最近邻(类似iNNE)来划分空间,本文仅讲解用最近邻来画格子,因为目前实验效果更好。原文发表在2019 AAAI,其包含2个核心步骤:
1. 从训练数据中随机选择Ψ个点样本点作为subsample,然后以这Ψ个点样本划分整个数据空间,形成维诺图(voronoi diagram),即一个样本点为一个细胞(cell)的中心。反复训练 t 次得到 t 个维诺图。
2. 将测试的俩个数据点放进每个维诺图中,如果这俩个点落在同一个细胞中,则他们的相似度为1,否则相似度为0。然后计算得出他们落在同一个细胞中的概率即最终的相似度。
* 具体实现这个计算的时候,并不需要画维诺图,只需要判断俩个数据点是否在训练数据中享有同样的最近邻就行,因为维诺图就是按最近邻来划分细胞的。
图2展示了一个维诺图划分的区间分布,可以看到数据分布越密集的地方会被划分得越多,那么测试数据点如果在这些地方,则他们更容易掉进不同的细胞里面而得到更小的相似度。因此,这个孤立机制计算出来的相似度非常符合之前提到的人类心理学的特性!
图2: Ψ=20 形成的维诺图实践证明,采用这种相似度计算方法,可以显著提现有基于欧式距离的分类器和聚类器的性能,使用起来也非常简单粗暴,直接替换他们算法中的欧式距离计算模块就好。详细的实验结果可以参考论文(部分论文使用了其他的孤立划分空间的方法):
1. Qin, X., Ting, K.M., Zhu, Y. and Lee, V.C., 2019, July. Nearest-neighbour-induced isolation similarity and its impact on density-based clustering. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, No. 01, pp. 4755-4762).
2. Xu, B.C., Ting, K.M. and Zhou, Z.H., 2019, July. Isolation set-kernel and its application to multi-instance learning. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining (pp. 941-949).
3. Ting, K.M., Xu, B.C., Washio, T. and Zhou, Z.H., 2020, August. Isolation Distributional Kernel: A New Tool for Kernel based Anomaly Detection. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 198-206).
4. Ting, K.M., Zhu, Y., Carman, M., Zhu, Y. and Zhou, Z.H., 2016, August. Overcoming key weaknesses of distance-based neighbourhood methods using a data dependent dissimilarity measure. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (pp. 1205-1214).
最新孤立核函数源码下载:https://github.com/zhuye88/anne-dbscan-demo
全文完,转载必须注明出处: © Ye Zhu 2021
网友评论