聚类问题可以分为两种思路:
- Compactness,这类有 K-means,GMM 等,但是这类算法只能处理凸集,为了处理非凸的样本集,必须引入核技巧。
- Connectivity,这类以谱聚类为代表。
如图1所示,上图为Compactness,下图为Connectivity
data:image/s3,"s3://crabby-images/71bd9/71bd95020bbce6822ce891a1fca229a6d581657d" alt=""
谱聚类是一种基于带权重无向图的聚类方法。这个图用 表示,其中
,
,这里
就是边的权重,这里权重取为相似度,
是相似度矩阵,定义相似度(径向核):
data:image/s3,"s3://crabby-images/a5662/a566203e11690d94bacd7ddfe5be5ff37a3eebdc" alt=""
下面定义图的分割,这种分割就相当于聚类的结果。定义:
data:image/s3,"s3://crabby-images/bdcca/bdcca1934ab2799c6af87b7c95412bd7a6d1654e" alt=""
data:image/s3,"s3://crabby-images/995c8/995c815be3460d728b2557c553619ed9f1f4951d" alt=""
假设一共有个类别,对这个图进行分割:
data:image/s3,"s3://crabby-images/6db84/6db84d4fc6681b76b7e42506da0877053dc994e2" alt=""
于是,我们的目标就是 。
为了平衡每一类内部的权重不同,做归一化的操作,定义每一个集合的度,首先,对单个节点的度定义:
data:image/s3,"s3://crabby-images/eb16d/eb16d3d56f169a5f7a9531a735aa67cf3ac0f507" alt=""
其次,每个集合:
data:image/s3,"s3://crabby-images/b2a6a/b2a6a78c5daaa413f62e2ea7be79b371e4ef5b1f" alt=""
于是:
data:image/s3,"s3://crabby-images/0a8bc/0a8bceeaf98f6b73584efaf81dc764dce070c6e1" alt=""
谱聚类的模型就是:
data:image/s3,"s3://crabby-images/c24aa/c24aab9718b3d1de6f012218c5cb9d5805877a52" alt=""
引入指示向量:
data:image/s3,"s3://crabby-images/718eb/718ebe8deeb4f723daa6f6275442da72f94bfe7e" alt=""
其中,表示第
个样本属于第
个类别,记:
。
data:image/s3,"s3://crabby-images/80fe7/80fe70691ef6965b5617321a04048c07c2b0bc10" alt=""
将N(CUT)写成对角矩阵的形式, 得到:
data:image/s3,"s3://crabby-images/b2d26/b2d26f1c96f2e97102d6d28bbbda98e2a3478bd0" alt=""
已知,求
,由于
,对于
,只在对角线上的
处为1,所以:
data:image/s3,"s3://crabby-images/597c5/597c5c07446706b2cccc229680294b0d2225e306" alt=""
其中,表示有
个样本属于第
类,即
。
引入对角矩阵,根据 的定义
data:image/s3,"s3://crabby-images/e7e5e/e7e5ee18962b6fd38bcb2eda2097a2c1501ea830" alt=""
得到
data:image/s3,"s3://crabby-images/244bd/244bde529840146f7b035d559d5ed5b4d66a092a" alt=""
对另一项
data:image/s3,"s3://crabby-images/c7577/c75775787c9cb4878f8d793dbe48a7cb1dd708ab" alt=""
data:image/s3,"s3://crabby-images/ba0f3/ba0f34a14aa12e58d3936892c8307d100087d971" alt=""
另外:
data:image/s3,"s3://crabby-images/1149f/1149f652280c3e24d9ef3bc404420602db657e46" alt=""
于是这个矩阵的第 项可以写为:
data:image/s3,"s3://crabby-images/6c7ba/6c7baf918cf1a236dc5e1b7327a587970818df0d" alt=""
这个矩阵的对角线上的项和 相同,所以取迹后的取值不会变化。
所以:
data:image/s3,"s3://crabby-images/8a45d/8a45df8f44a1483cf67448bd7d47d78708612aa7" alt=""
其中, 叫做拉普拉斯矩阵。
网友评论