10 聚类算法 - 代码案例四 - 层次聚类(BIRCH)算法参

作者: 白尔摩斯 | 来源:发表于2018-12-09 23:58 被阅读93次

11 聚类算法 - 密度聚类 - DBSCAN、MDCA
10 聚类算法 - 代码案例四 - 层次聚类(BIRCH)算法参
简单聚类算法
07 聚类算法 - 代码案例三 - K-Means算法和Mini
06 聚类算法 - 代码案例二 - K-Means算法和Mini
13 聚类算法 - 谱聚类
08 聚类算法 - 聚类算法的衡量指标
05 聚类算法 - 二分K-Means、K-Means++、K-
第六章数据聚类算法——基于BIRCH算法
09 聚类算法 - 层次聚类 - CF-Tree、BIRCH、C

需求: 基于scikit的API创建模拟数据，使用BIRCH算法对数据进行聚类操作，并比较n_clusters参数的作用。

参数threshold: 代表了FC-Tree中的参数T。叶子节点中每个CF的最大半径阈值T。决定了每个聚类特征所有样本形成的超球体的半径值域。一般来说如果threshold越小，说明CF树在建立的时候规模会比较大。具体选择多大，还是要通过调参来决定。默认值0.5的效果其实还可以，但如果数据方差比较大的时候，一般需要增大threshold的值。因为样本大意味着数据比较离散，如果设置threshold特别小的话，每个聚类特征中将只有很少的元素，CF树会没完没了得生产新的聚类特征CF。

参数branching_factor: 代表了CF-Tree中的参数B=L，即允许最大叶子聚类特征CF数量，和允许每个树节点的最大聚类特征CF数量一致，都等于branching_factor。默认值是50，但如果样本量特别大的时候，比如10万条数据，那么要相对增多branching_factor的值。具体要增大多少？请调参后再慢慢分析。

参数n_clusters: 聚类类别数，在BIRCH中是可选的。如果类别数特别多，我们又没有先验知识的情况下，n_clusters用None即可。http://www.cnblogs.com/lc1217/p/6963687.html

参数compute_labels: 是否输出聚类结果; 默认可以。

常规操作：

from itertools import cycle
from time import time
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.colors as colors

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import Birch
from sklearn.datasets.samples_generator import make_blobs

## 设置属性防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False


## 产生模拟数据
xx = np.linspace(-22, 22, 10)
yy = np.linspace(-22, 22, 10)
xx, yy = np.meshgrid(xx, yy)
n_centres = np.hstack((np.ravel(xx)[:, np.newaxis],
                       np.ravel(yy)[:, np.newaxis]))


#产生10万条特征属性是2，类别是100,符合高斯分布的数据集
X, y = make_blobs(n_samples=100000,n_features=2, centers=n_centres, random_state=28)

1、创建不同的参数（簇直径）Birch层次聚类

threshold：簇直径的阈值， branching_factor：大叶子个数
我们也可以加参数来试一下效果，比如加入分支因子branching_factor，给定不同的参数值，看聚类的结果。

birch_models = [
    Birch(threshold=2, n_clusters=None),
    Birch(threshold=0.5, n_clusters=None),
    Birch(threshold=1.7, n_clusters=100)
]

2、画图

final_step = [u'直径=1.7;n_lusters=None',u'直径=0.5;
    n_clusters=None',u'直径=1.7;n_lusters=100']


plt.figure(figsize=(12,8),facecolor='w')
plt.subplots_adjust(left = 0.02, right = 0.98, bottom = 0.1,top = 0.9)
colors_ = cycle(colors.cnames.keys())
cm = mpl.colors.ListedColormap(colors.cnames.keys())

for ind, (birch_model, info) in enumerate(zip(birch_models, final_step)):
    t = time()
    birch_model.fit(X)
    time_ = time() - t
    #获取模型结果（label和中心点）    
    # 所属类别
    labels = birch_model.labels_
    # 中心点坐标
    centroids = birch_model.subcluster_centers_
    n_clusters = len(np.unique(centroids))
    print ("Birch算法，参数信息为：%s；模型构建消耗时间为:%.3f秒；
        聚类中心数目:%d" % (info, time_, len(np.unique(labels))))

    ## 画图
    subinx = 221 + ind
    plt.subplot(subinx)
    for this_centroid, k, col in zip(centroids, range(n_clusters), colors_):
        mask = labels == k
        plt.plot(X[mask, 0], X[mask, 1], 'w', markerfacecolor=col, marker='.')
        if birch_model.n_clusters is None:
            plt.plot(this_centroid[0], this_centroid[1], '*', 
              markerfacecolor=col, markeredgecolor='k', markersize=2)
    plt.ylim([-25, 25])
    plt.xlim([-25, 25])
    plt.title(u'Birch算法%s，耗时%.3fs' % (info, time_))
    plt.grid(False)

## 原始数据集显示
plt.subplot(224)
plt.scatter(X[:, 0], X[:, 1], c=y, s=1, cmap=cm, edgecolors='none')
plt.ylim([-25, 25])
plt.xlim([-25, 25])
plt.title(u'原始数据')
plt.grid(False)
    
plt.show()