美文网首页
算法笔记(16)K-Means++算法及Python代码实现

算法笔记(16)K-Means++算法及Python代码实现

作者: 编程研究坊 | 来源:发表于2022-05-23 16:04 被阅读0次

    K-Means算法局限性:

    (1)K-Means算法中聚类中心的个数K需要事先指定,这一点对于一些未知数据存在很大的局限性。
    (2)在利用K-Means算法进行聚类之前,需要初始化K个聚类中心,聚类中心选择不好,对于K-Means算法有很大的影响。
    为了解决因为初始化的问题带来K-Means算法的问题,改进的K-Means算法即K-Means++算法被提出。
    K-Means++算法主要是为了能够在聚类中心的选择过程中选择较优的聚类中心。

    K-Means++算法基本思路:

    ●在数据集中随机选择一个样本点作为第一个初始化的聚类中心;
    ●选择出其余的聚类中心:
       计算样本中的每一个样本点与已经初始化的聚类中心之间的距离,并选择其中最短的距离,记为di;
      以概率选择距离最大的样本作为新的聚类中心,重复上述过程,直到K个聚类中心都被确定。
    ●对K个初始化的聚类中心,利用K-Means算法计算最终的聚类中心。
    K-Means++算法Python代码实现:

    def get_centroids(points, k):
        '''KMeans++的初始化聚类中心的方法
        input:  points(mat):样本
                k(int):聚类中心的个数
        output: cluster_centers(mat):初始化后的聚类中心
        '''
        m, n = np.shape(points)
        cluster_centers = np.mat(np.zeros((k , n)))
        # 1、随机选择一个样本点为第一个聚类中心
        index = np.random.randint(0, m)
        cluster_centers[0, ] = np.copy(points[index, ])
        # 2、初始化一个距离的序列
        d = [0.0 for _ in range(m)]
     
        for i in range(1, k):
            sum_all = 0
            for j in range(m):
                # 3、对每一个样本找到最近的聚类中心点
                d[j] = nearest(points[j, ], cluster_centers[0:i, ])
                # 4、将所有的最短距离相加
                sum_all += d[j]
            # 5、取得sum_all之间的随机值
            sum_all *= random()
            # 6、获得距离最远的样本点作为聚类中心点
            for j, di in enumerate(d):
                sum_all -= di
                if sum_all > 0:
                    continue
                cluster_centers[i] = np.copy(points[j, ])
                break
        return cluster_centers
    

    输出最终的聚类中心结果:
    4.251983540560974 -4.984077082890314
    -3.50576728936817 4.447931702030049
    -4.545279350193974 -4.630037099534128
    4.539765541289269 4.54315573908832
    K-Means++算法聚类效果图:


    K-means++

    想要完整代码的朋友,可toutiao号搜索“编程研究坊”关注后s信我,回复“算法笔记16“获取

    相关文章

      网友评论

          本文标题:算法笔记(16)K-Means++算法及Python代码实现

          本文链接:https://www.haomeiwen.com/subject/lxmzurtx.html