美文网首页
聚类算法小结

聚类算法小结

作者: 五秋木 | 来源:发表于2018-01-04 22:14 被阅读0次
    1. 无监督学习
    2. 性能度量-有效性指标--簇内相似度大于簇间相似度
    • 外部指标--给出具体的模型参考C*={C1*,C2*,C3*...}

      • a:两个样本xi,xj在聚类后隶属于相同的簇,在参考模型中也隶属于相同的簇的样本对个数
      • b:两个样本xi,xj在聚类后隶属于相同的簇,在参考模型中不隶属于相同的簇的样本对个数
      • c:两个样本xi,xj在聚类后不隶属于相同的簇,在参考模型中隶属于相同的簇的样本对个数
      • d:两个样本xi,xj在聚类后不隶属于相同的簇,在参考模型中也不隶属于相同的簇的样本对个数

      a+b+c+d=m(m-1)/2 (m样本总个数)

      • Jaccard系数:JC=a/(a+b+c)
      • FM指数:FMI=sqrt(a/(a+b)*a/(a+c))
      • Rand指数:RI=2(a+d)/m(m-1)
    • 内部指标

      • avg(C)=2/(|C|(|C|-1))sum(dist(x1,xj)):计算簇C内样本间平均距离
      • diam(C)=max(dist(xi,xj)):簇C键样本间最大距离
      • dmin(Ci,Cj)=min(dist(xi,xj)):簇Ci与簇Cj最近样本间的距离
      • dcen(Ci,Cj)=dist(ui,uj):簇Ci与Cj中心质点的距离
      • DB指数:参考周志华老师的机器学习
      • Dunn指数
    1. 距离计算
      • 曼哈顿距离
      • 欧氏距离
      • 闵科夫斯基距离
    2. 无序属性距离的计算:VDM距离
    3. 聚类方法
      1. 原型聚类:K-Means及其变形二分k-Means--实例:google地图将地址转化为经纬度并进行聚类分析,实现举起学习实战上的例子,使用python 3.6
      2. 学习向量量化:带有类别标记,目的学到一组原型向量,向量维度和样本一致,向量个数为k:聚类个数,学到之后在将任意样本进行簇划分,划分到与原型向量距离最近的簇中
      3. 高斯混合聚类:没看懂
      4. 密度聚类:核心点、边界点、噪音点--DBSCAN算法,不规定簇的个数,输入参数为MinPts和半径Eps,将密度极低的样本作为异常点、噪音点删除。
      5. 层次聚类:
        • AGNES:自底向上--构成树状图
        • 二分KMeans好像就是自顶向下的层次聚类

    相关文章

      网友评论

          本文标题:聚类算法小结

          本文链接:https://www.haomeiwen.com/subject/ghudnxtx.html