美文网首页
python实现K-Means聚类算法

python实现K-Means聚类算法

作者: afansdie | 来源:发表于2019-07-09 21:30 被阅读0次

    常用的聚类分析算法有:

    K-Means:

    K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。

    K-中心点:

    K-均值算法对于孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选中簇中离平均值最近的对象作为簇中心。

    系统聚类:

    系统聚类也称为多层次聚类,分类的单位由高到低呈树形结构,所处的位置越低,其所包含的对象就越少,但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用,数据量大的时候速度会特别慢。

    本文主要介绍一下K-Means聚类算法:

    1,从N个样本数据中随机选取K个对象作为初始的聚类中心;

    2,分别计算每个样本到各个聚类中心的距离,将数据分配到距离最近的聚类中;

    3,所有数据分配完毕后,重新计算K个聚类的中心;

    4,与前一次计算得到的K个聚类中心做比较,如果聚类中心发生变化,重复过程2

    5,当聚类中心不发生变化时停止并输出聚类结果

    由上可以看出,出事聚类中心的随机选择,可能使结果严重偏离全局最优分类,所以为了得到较好的结果,通常选择不同的初始聚类中心,多次运行K-Mearns算法。在所有对象都分配完成后,重新计算K个聚类的中心时,对于连续数据,聚类中心取该簇的均值,但是当样本的某些属性是分类变量时,均值可能无定义,可以使用K-众数方法。

    在K-Means聚类算法中,一般需要度量样本之间的距离,样本与簇之间的距离以及簇与簇之间的距离,计算距离一般有欧几里得距离,曼哈顿距离、闵可夫斯基距离,距离公式和定义百度一下就可以,本文就不一一讲解了。

    代码粘贴:

    #-*- coding: utf-8 -*-

    #使用K-Means算法聚类消费行为特征数据

    import pandasas pd

    #参数初始化

    inputfile ='path' #销量及其他属性数据

    outputfile ='path' #保存结果的文件名

    k =3 #聚类的类别

    iteration =500 #聚类最大循环次数

    data = pd.read_excel(inputfile, index_col ='Id')#读取数据

    data_zs =1.0*(data - data.mean())/data.std()#数据标准化

    from sklearn.clusterimport KMeans

    model = KMeans(n_clusters = k, n_jobs =4, max_iter = iteration)#分为k类,并发数4

    model.fit(data_zs)#开始聚类

    #简单打印结果

    r1 = pd.Series(model.labels_).value_counts()#统计各个类别的数目

    r2 = pd.DataFrame(model.cluster_centers_)#找出聚类中心

    r = pd.concat([r2, r1], axis =1)#横向连接(0是纵向),得到聚类中心对应的类别下的数目

    r.columns =list(data.columns) + [u'类别数目']#重命名表头

    print(r)

    #详细输出原始数据及其类别

    r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis =1)#详细输出每个样本对应的类别

    r.columns =list(data.columns) + [u'聚类类别']#重命名表头

    r.to_excel(outputfile)#保存结果

    def density_plot(data):#自定义作图函数

      import matplotlib.pyplotas plt

    plt.rcParams['font.sans-serif'] = ['SimHei']#用来正常显示中文标签

      plt.rcParams['axes.unicode_minus'] =False #用来正常显示负号

      p = data.plot(kind='kde', linewidth =2, subplots =True, sharex =False)

    [p[i].set_ylabel(u'密度')for iin range(k)]

    plt.legend()

    return plt

    pic_output ='../tmp/pd_' #概率密度图文件名前缀

    for iin range(k):

    density_plot(data[r[u'聚类类别']==i]).savefig(u'%s%s.png' %(pic_output, i))

    相关文章

      网友评论

          本文标题:python实现K-Means聚类算法

          本文链接:https://www.haomeiwen.com/subject/euafkctx.html