美文网首页K-Means
K-Means 算法总结和 Python 实现

K-Means 算法总结和 Python 实现

作者: 榴莲酥君 | 来源:发表于2017-04-13 11:35 被阅读0次

在聚类算法中,我们给定训练集 ${x{(1)},...,x{(m)}}$ (醉了,简书的 Markdown 平台不支持数学公式的解析 o(≧口≦)o,可参考我另外的博客),希望这些输入数据聚类到若干个类簇当中。其中$x{(1)}\in{Rn}$,但是每个样本数据没有$y^{(i)}$,即没有类标信息,因而这时一个无监督学习问题。

K-Means 主要想法是找到 k 个质心,将离某个质心最近的样本聚类到这个类簇档当中,将所有样本聚类成 k 个类簇(对K-Means 详细的介绍可参考 Wikipedia)。基本算法那如下:

Pseudocode of K-Means

第一步,首先随机初始化 k 个质心的位置。

第二步是一个迭代循环的操作:

  1. 首先对于每一个样本 $x^{(i)}$,找到离该样本最近的质心,将其归类到该质心对应的类簇中,即这里的第 $j$ 个类簇中。
  2. 将所有样本都归类到对应的类簇后,需要利用每一个类簇中的样本,重新计算该类簇中所有样本的均值得到新的质心。

循环执行步骤1和步骤2,直至收敛,即迭代过程中质心不再更新。

Python 实现简单的 K-Means 算法如下:

__author__ = 'bin'
# reference: https://datasciencelab.wordpress.com/2013/12/12/clustering-with-k-means-in-python/

import numpy as np
import random
import matplotlib.pyplot as plt


# Lloyd's algorithm
# inner loop step 1
def cluster_points(X, mu):
    clusters = {}  # store k centers, type: dict

    for x in X:
        # bestmukey is "int" type
        # for i in enumerate(mu):
        #     print ((i[0], np.linalg.norm(x-mu[i[0]])))
        bestmukey = min([(i[0], np.linalg.norm(x - mu[i[0]])) \
                         for i in enumerate(mu)], key=lambda t: t[1])[0]
        # A new built-in function, enumerate(), will make certain loops a bit clearer.
        # enumerate(thing), where thing is either an iterator or a sequence,
        # returns a iterator that will return (0, thing[0]), (1, thing[1]), (2, thing[2]), and so forth.
        # key=lambda t:t[1] is used for sort this dict by t:t[1] (the second element in this element)

        try:
            clusters[bestmukey].append(x)
        except KeyError:
            clusters[bestmukey] = [x]
    return clusters


# inner loop step 2, (update the mu)
def reevaluate_centers(mu, clusters):
    newmu = []
    keys = sorted(clusters.keys())
    for k in keys:
        print len(clusters[k])
        newmu.append(np.mean(clusters[k], axis=0))

    return newmu


def has_converged(mu, oldmu):
    # A tuple is a sequence of immutable Python objects.
    # tuple is using (), list is using [], dict is using {}
    return (set([tuple(a) for a in mu]) == set([tuple(a) for a in oldmu]))


def find_centers(X, K):
    # Initialize to K random centers
    oldmu = random.sample(X, K)
    mu = random.sample(X, K)

    while not has_converged(mu, oldmu):
        oldmu = mu
        # Assign all points in X to clusters
        clusters = cluster_points(X, mu)
        # Reevaluate centers (update the centers)
        mu = reevaluate_centers(oldmu, clusters)
    return (mu, clusters)


# The initial configuration of points for the algorithm is created as follows:
def init_board(N):
    # random.uniform:
    # Draw samples from a uniform distribution
    X = np.array([(random.uniform(-1, 1), random.uniform(-1, 1)) for i in range(N)])

    return X


# The following routine constructs a specified number of Gaussian distributed clusters with random variances:
def init_board_gauss(N, k):
    n = float(N) / k
    X = []
    for i in range(k):
        c = (random.uniform(-1, 1), random.uniform(-1, 1))
        s = random.uniform(0.05, 0.5)
        x = []
        while len(x) < n:
            a, b = np.array([np.random.normal(c[0], s), np.random.normal(c[1], s)])
            # Continue drawing points from the distribution in the range [-1,1]
            if abs(a) < 1 and abs(b) < 1:
                x.append([a, b])
        X.extend(x)
    X = np.array(X)[:N]
    return X


if __name__ == "__main__":
    X = init_board(100)
    K = 4
    mu, clusters = find_centers(X, K)

    x = []
    y = []
    for i in range(K):
        lx = []
        ly = []
        for l0 in clusters[i]:
            lx.append(l0[0])
            ly.append(l0[1])
        x.append(lx)
        y.append(ly)

    for i in range(K):
        plt.plot(x[i], y[i], 'o')
        plt.plot(mu[i][0], mu[i][1], 's', markersize=10)

    plt.show()

程序中假设 $k=4$,可以看到用均匀分布随机生成的样本,在算法收敛后,成功被聚成了四类。

运行结果图

很明显地可出看到 K-Means 有两个较大的问题:

  1. $k$ 值的选择问题,如何确定这个 $k$ 值的大小
  2. 如何初始化 $k$ 个质心

这两个方面的内容将在后续的总结中补上,这两个部分一般在面试中只要问到了 K-Means 算法肯定是绕不开的。

另外,K-Means 的优缺点简单总结如下:

优点:

  1. 收敛速度快

缺点:

  1. 需要调到合适的 $k$ 值
  2. 对异常值敏感,不够 robust
  3. 需要样本存在均值
  4. 只能保证局部最优

吐槽:简书的 Markdown 不支持 LaTeX,数学公式要怎么打出来 o(≧口≦)o

Reference

Clustering With K-Means in Python

k-means clustering

相关文章

  • 2018.12.8

    本周总结: 学习情况: 1、学习K-means算法,并通过在Python上运行k-means算法,绘制对应的分类图...

  • K-Means 算法总结和 Python 实现

    在聚类算法中,我们给定训练集 ${x{(1)},...,x{(m)}}$ (醉了,简书的 Markdown 平台不...

  • k-means算法总结

    目录 一、k-means算法原理 二、k-means算法目标函数是什么 三、总结 一、k-means算法原理 k-...

  • 2018-12-19

    文本聚类算法之K-means算法的python实现 一、文本聚类定义 文本聚类主要是依据著名的聚类假设:同类...

  • 排序算法最强总结及其代码实现(Python/Java)

    前言 本文总结了常用的全部排序算法,内容包括: 排序算法的定义和思路 排序算法的代码实现:Python和Java,...

  • K均值算法(K-Means)

    博客CSDN:深入浅出K-Means算法博客:机器学习算法-K-means聚类分布式:MapReduce实现并行化...

  • 基于K-means聚类算法的图像分割

    1 K-means算法 实际上,无论是从算法思想,还是具体实现上,K-means算法是一种很简单的算法。它属于无监...

  • 聚类

    K-means算法(理论+opencv实现) OpenCV3.3中K-Means聚类接口简介及使用

  • 08 聚类算法 - 聚类算法的衡量指标

    07 聚类算法 - 代码案例三 - K-Means算法和Mini Batch K-Means算法效果评估 四、聚类...

  • K-means原理、优化、应用

    一、了解 K-means。 K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广...

网友评论

    本文标题:K-Means 算法总结和 Python 实现

    本文链接:https://www.haomeiwen.com/subject/ppkbattx.html