距离度量以及性能评估方法

作者: 晓柒NLP与药物设计 | 来源:发表于2022-08-02 20:03 被阅读0次

    一.距离度量

    对于聚类,其实之前已经有算法涉及了,比如GMM,这一章开始再次做系统介绍。聚类的核心思想套用一句俗语:“物以类聚,人与群分”,这里面首先有一个“距离”的概念,“聚”是因为“距离近”,“分”是因为“距离远”,下面将常用的“距离”罗列一下,首先定义,样本x_i=(x_{i1},x_{i2},...,x_{in})与样本点x_j=(x_{j1},x_{j2},...,x_{jn})

    明科夫斯基距离

    d_{ij}=(\sum_{k=1}^n \left|x_{ik}-x_{jk}\right|^p)^{\frac{1}{p}}

    这里,p\geq 1,当p=2时称为欧氏距离,p=1称为曼哈顿距离,p=\infty称为切比雪夫距离,这时:

    d_{ij}=\max_{k}\left|x_{ik}-x_{jk}\right|

    马氏距离

    d_{ij}=\left[(x_i-x_j)^TS^{-1}(x_i-x_j)\right]^{\frac{1}{2}}

    这里,S为整个样本集X=(x_{ij})_{m\times n}的协方差矩阵

    相关系数

    r_{ij}=\frac{(x_i-\bar{x_i})^T(x_j-\bar{x_j})}{[(x_i-\bar{x_i})^T(x_i-\bar{x_i})\cdot (x_j-\bar{x_j})^T(x_j-\bar{x_j})]^{\frac{1}{2}}},\bar{x_i}=\frac{1}{n}\sum_{k=1}^nx_{ik},\bar{x_j}=\frac{1}{n}\sum_{k=1}^nx_{jk}\\ d_{ij}=1-r_{ij}

    夹角余弦

    s_{ij}=\frac{x_i^Tx_j}{[x_i^Tx_i\cdot x_j^Tx_j]^{\frac{1}{2}}}\\ d_{ij}=1-s_{ij}

    二.类的定义

    有了“距离”的定义,我们就可以进一步定义类了,设T为给定的正数,若样本集合G中任意两个样本x_i,x_j,有:

    d_{ij}\leq T

    三.性能评估

    接下来,我们继续考虑聚类效果的好坏评估标准,显然需要符合我们期望的“物以类聚,人以群分”,有了“距离”的定义之后,我们可以换一个表述:类内距离尽可能小,类间距离尽可能大,所以我们进一步需要对类内距离和类间距离做一个定义

    类内距离

    类内最大距离

    类中任意两个样本之间的最大距离
    diam(G)=\max_{x_i,x_j\in G}d_{ij}

    类内平均距离

    类内任意两样本之间距离的均值

    avg(G)=\frac{1}{n_G(n_G-1)}\sum_{x_i\in G}\sum_{x_j\in G}d_{ij}

    散布矩阵

    A_G=\sum_{i=1}^{n_G}(x_i-\bar{x_G})(x_i-\bar{x_G})^T,\bar{x_G}=\sum_{i=1}^{n_G}x_i

    协方差矩阵

    S_G=\frac{1}{n-1}A_G

    这里,n为样本的维数

    类间距离

    设两类分别为G_qG_p

    最短距离

    d_{min}(G_p,G_q)=\min\{d_{ij}\mid x_i\in G_p,x_j\in G_q\}

    最长距离

    d_{max}(G_p,G_q)\max\{d_{ij}\mid x_i\in G_p,x_j\in G_q\}

    中心距离

    d_{cen}(G_p,G_q)=d_{\bar{x}_p\bar{x}_q}
    这里,\bar{x}_p\bar{x}_q分别为类G_pG_q的中心点

    平均距离

    d_{avg}(G_p,G_q)=\frac{1}{n_{G_p}n_{G_q}}\sum_{x_i\in G_p}\sum_{x_j\in G_q}d_{ij}

    性能评估

    所以,我们在此基础上可以构造既能反映类内距离,又能反映类间距离的指标

    DB 指数

    DBI=\frac{1}{k}\sum_{i=1}^k\max_{j\neq i}(\frac{avg(G_i)+avg(G_j)}{d_{cen}(G_i,G_j)})

    显然,DBI越小越好

    Dunn指数

    DI=\min_{1\leq i\leq k}\left\{\min_{j\neq i}(\frac{d_{min}(G_i,G_j)}{\max_{1\leq l\leq k}diam(G_l)})\right \}

    显然,DI越大越好

    轮廓系数

    SCI=\frac{1}{m}\sum_{i=1}^m\frac{b(x_i)-a(x_i)}{max(b(x_i),a(x_i))}

    其中,a(\cdot)表示当前样本与簇内其他样本的平均距离,所以a(\cdot)越小,反映了该簇越聚集,b(\cdot)表示当前样本与其他簇的平均距离的最小值,所以b(\cdot)越大,表示与其他簇越分离,而轮廓系数SCI便是所有样本轮廓系数的均值,可以看出SCI越大越好

    则称G为一个类(簇)

    相关文章

      网友评论

        本文标题:距离度量以及性能评估方法

        本文链接:https://www.haomeiwen.com/subject/tumjwrtx.html