美文网首页
用DBSCAN和层次聚类分析各个省份人口出生率与死亡率关系

用DBSCAN和层次聚类分析各个省份人口出生率与死亡率关系

作者: apricoter | 来源:发表于2019-02-23 13:53 被阅读46次

    Kmeans聚类两个缺陷:
    1.对异常值敏感,容易受到异常样本点的影响,因为中心点是通过样本均值确定的
    2.不适合发现非球形的簇,即无法准确将非球形样本进行合理聚类,因为是基于距离确定样本之间的相似度

    此处介绍另一种聚类算法,基于密度的聚类(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)。
    这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。
    参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。其中,半径ϵ描述了某一样本的邻域距离阈值,对应领域内最少的样本数量MinPts描述了某一样本的距离为ϵϵ的邻域中样本个数的阈值。
    可以非常方便发现样本中的异常点。
    综上,可以发现任何形状的样本簇,而且该算法具有很强的抗噪声能力。
    具体过程类似“贪吃蛇”,从某个点出发,不停向外扩张,直到获得一个最大的密度相连,进而得到一个样本簇,样本簇以外的即为异常值。
    当为球形样本时,效果同Kmeans聚类。

    还有一种聚类方法:层次聚类,比较适合小样本的聚类,通过计算各个簇内样本点之间的相似度,进而构建一棵有层次的嵌套聚类树,与kmeans一样,不适合非球形样本的聚类。
    聚类树又分为按照凝聚过程和分裂过程,这里只介绍基于凝聚树,点与点的相似性仍通过欧氏或者曼哈顿距离,而簇与簇之间距离通过最小距离法(所有簇间样本点距离的最小值)、最大距离法(最大值)、平均距离法(平均值)。

    一、密度聚类与kmeans的比较

    1.对于球形样本

    # 导入第三方模块
    import pandas as pd
    import numpy as np
    from sklearn.datasets.samples_generator import make_blobs
    import matplotlib.pyplot as plt
    import seaborn as sns
    from sklearn import cluster
    
    # 模拟数据集
    X,y = make_blobs(n_samples = 2000, centers = [[-1,-2],[1,3]], cluster_std = [0.5,0.5], random_state = 1234)
    # 将模拟得到的数组转换为数据框,用于绘图
    plot_data = pd.DataFrame(np.column_stack((X,y)), columns = ['x1','x2','y'])
    # 设置绘图风格
    plt.style.use('ggplot')
    # 绘制散点图(用不同的形状代表不同的簇)
    sns.lmplot('x1', 'x2', data = plot_data, hue = 'y',markers = ['^','o'],
               fit_reg = False, legend = False)
    # 显示图形
    plt.show()
    
    # 导入第三方模块
    from sklearn import cluster
    # 构建Kmeans聚类和密度聚类
    kmeans = cluster.KMeans(n_clusters=2, random_state=1234)
    kmeans.fit(X)
    dbscan = cluster.DBSCAN(eps = 0.5, min_samples = 10)
    dbscan.fit(X)
    # 将Kmeans聚类和密度聚类的簇标签添加到数据框中
    plot_data['kmeans_label'] = kmeans.labels_
    plot_data['dbscan_label'] = dbscan.labels_
    
    # 绘制聚类效果图
    # 设置大图框的长和高
    plt.figure(figsize = (12,6))
    # 设置第一个子图的布局
    ax1 = plt.subplot2grid(shape = (1,2), loc = (0,0))
    # 绘制散点图
    ax1.scatter(plot_data.x1, plot_data.x2, c = plot_data.kmeans_label)
    # 设置第二个子图的布局
    ax2 = plt.subplot2grid(shape = (1,2), loc = (0,1))
    # 绘制散点图(为了使Kmeans聚类和密度聚类的效果图颜色一致,通过序列的map“方法”对颜色作重映射)
    ax2.scatter(plot_data.x1, plot_data.x2, c=plot_data.dbscan_label.map({-1:1,0:2,1:0}))
    # 显示图形
    plt.show()
    

    eps为半径,min_samples为最小样本量


    image.png

    左边为Kmeans聚类,右边为密度聚类,而且密度聚类发现了一个异常点

    2.对于非球形样本

    样本仍然采用随机抽样

    # 导入第三方模块
    from sklearn.datasets.samples_generator import make_moons
    # 构造非球形样本点
    X1,y1 = make_moons(n_samples=2000, noise = 0.05, random_state = 1234)
    # 构造球形样本点
    X2,y2 = make_blobs(n_samples=1000, centers = [[3,3]], cluster_std = 0.5, random_state = 1234)
    # 将y2的值替换为2(为了避免与y1的值冲突,因为原始y1和y2中都有0这个值)
    y2 = np.where(y2 == 0,2,0)
    # 将模拟得到的数组转换为数据框,用于绘图
    plot_data = pd.DataFrame(np.row_stack([np.column_stack((X1,y1)),np.column_stack((X2,y2))]), columns = ['x1','x2','y'])
    
    # 绘制散点图(用不同的形状代表不同的簇)
    sns.lmplot('x1', 'x2', data = plot_data, hue = 'y',markers = ['^','o','>'],
               fit_reg = False, legend = False)
    # 显示图形
    plt.show()
    

    构造了3个簇的样本点

    # 构建Kmeans聚类和密度聚类
    kmeans = cluster.KMeans(n_clusters=3, random_state=1234)
    kmeans.fit(plot_data[['x1','x2']])
    dbscan = cluster.DBSCAN(eps = 0.3, min_samples = 5)
    dbscan.fit(plot_data[['x1','x2']])
    # 将Kmeans聚类和密度聚类的簇标签添加到数据框中
    plot_data['kmeans_label'] = kmeans.labels_
    plot_data['dbscan_label'] = dbscan.labels_
    
    # 绘制聚类效果图
    # 设置大图框的长和高
    plt.figure(figsize = (12,6))
    # 设置第一个子图的布局
    ax1 = plt.subplot2grid(shape = (1,2), loc = (0,0))
    # 绘制散点图
    ax1.scatter(plot_data.x1, plot_data.x2, c = plot_data.kmeans_label)
    # 设置第二个子图的布局
    ax2 = plt.subplot2grid(shape = (1,2), loc = (0,1))
    # 绘制散点图(为了使Kmeans聚类和密度聚类的效果图颜色一致,通过序列的map“方法”对颜色作重映射)
    ax2.scatter(plot_data.x1, plot_data.x2, c=plot_data.dbscan_label.map({-1:1,0:0,1:3,2:2}))
    # 显示图形
    plt.show()
    

    左边为Kmeans聚类,右边为密度聚类,而Kmeans聚类对于非球形簇聚类效果不理想,并且密度聚类再次标记出了4个异常点

    二、三种层次聚类的比较

    # 构造两个球形簇的数据样本点
    X,y = make_blobs(n_samples = 2000, centers = [[-1,0],[1,0.5]], cluster_std = [0.2,0.45], random_state = 1234)
    # 将模拟得到的数组转换为数据框,用于绘图
    plot_data = pd.DataFrame(np.column_stack((X,y)), columns = ['x1','x2','y'])
    # 绘制散点图(用不同的形状代表不同的簇)
    sns.lmplot('x1', 'x2', data = plot_data, hue = 'y',markers = ['^','o'],
               fit_reg = False, legend = False)
    # 显示图形
    plt.show()
    
    # 设置大图框的长和高
    plt.figure(figsize = (16,5))
    # 设置第一个子图的布局
    ax1 = plt.subplot2grid(shape = (1,3), loc = (0,0))
    # 层次聚类--最小距离法
    agnes_min = cluster.AgglomerativeClustering(n_clusters = 2, linkage='ward')
    agnes_min.fit(X)
    # 绘制聚类效果图
    ax1.scatter(X[:,0], X[:,1], c=agnes_min.labels_)
    
    # 设置第二个子图的布局
    ax2 = plt.subplot2grid(shape = (1,3), loc = (0,1))
    # 层次聚类--最大距离法
    agnes_max = cluster.AgglomerativeClustering(n_clusters = 2, linkage='complete')
    agnes_max.fit(X)
    ax2.scatter(X[:,0], X[:,1], c=agnes_max.labels_)
    
    # 设置第三个子图的布局
    ax2 = plt.subplot2grid(shape = (1,3), loc = (0,2))
    # 层次聚类--平均距离法
    agnes_avg = cluster.AgglomerativeClustering(n_clusters = 2, linkage='average')
    agnes_avg.fit(X)
    plt.scatter(X[:,0], X[:,1], c=agnes_avg.labels_)
    plt.show()
    

    中间用最大距离法时效果不好,左边为最小,右边为平均,效果均较好

    三、密度聚类和层次聚类的比较

    # 读取外部数据
    Province = pd.read_excel(r'F:\Province.xlsx')
    Province.head()
    
    # 绘制出生率与死亡率散点图
    plt.scatter(Province.Birth_Rate, Province.Death_Rate, c = 'steelblue')
    # 添加轴标签
    plt.xlabel('Birth_Rate')
    plt.ylabel('Death_Rate')
    # 显示图形
    plt.show()
    

    通过肉眼可发现3个簇,用密度聚类进行验证

    对于聚类,无论是哪种,都要先对原始数据做标准化处理

    # 读入第三方包
    from sklearn import preprocessing
    # 选取建模的变量
    predictors = ['Birth_Rate','Death_Rate']
    # 变量的标准化处理
    X = preprocessing.scale(Province[predictors])
    X = pd.DataFrame(X)
    X.head()
    

    对于密度聚类,要不停地调试参数,因为聚类效果在不同参数组合下有较大差异

    # 构建空列表,用于保存不同参数组合下的结果
    res = []
    # 迭代不同的eps值
    for eps in np.arange(0.001,1,0.05):
        # 迭代不同的min_samples值
        for min_samples in range(2,10):
            dbscan = cluster.DBSCAN(eps = eps, min_samples = min_samples)
            # 模型拟合
            dbscan.fit(X)
            # 统计各参数组合下的聚类个数(-1表示异常点)
            n_clusters = len([i for i in set(dbscan.labels_) if i != -1])
            # 异常点的个数
            outliners = np.sum(np.where(dbscan.labels_ == -1, 1,0))
            # 统计每个簇的样本个数
            stats = str(pd.Series([i for i in dbscan.labels_ if i != -1]).value_counts().values)
            res.append({'eps':eps,'min_samples':min_samples,'n_clusters':n_clusters,'outliners':outliners,'stats':stats})
    # 将迭代后的结果存储到数据框中        
    df = pd.DataFrame(res)
    df.head()
    

    如果需要将数据聚类为3类,则

    # 根据条件筛选合理的参数组合
    df.loc[df.n_clusters == 3, :]
    

    对比之前散点图,当异常值个数为4时比较合理,即129一行

    但将数据聚为几类比较合理,需要通过轮廓系数法等或者主成分分析

    此时先根据129行参数组合,构造密度聚类模型,实现原始数据集的聚类

    # 中文和负号的正常显示
    plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
    plt.rcParams['axes.unicode_minus'] = False
    import matplotlib.pyplot as plt
    # 设置绘图风格
    plt.style.use('ggplot')
    # 利用上述的参数组合值,重建密度聚类算法
    dbscan = cluster.DBSCAN(eps = 0.801, min_samples = 3)
    # 模型拟合
    dbscan.fit(X)
    Province['dbscan_label'] = dbscan.labels_
    # 绘制聚类聚类的效果散点图
    sns.lmplot(x = 'Birth_Rate', y = 'Death_Rate', hue = 'dbscan_label', data = Province,
               markers = ['*','d','^','o'], fit_reg = False, legend = False)
    # 添加省份标签
    for x,y,text in zip(Province.Birth_Rate,Province.Death_Rate, Province.Province):
        plt.text(x+0.1,y-0.1,text, size = 8)
    # 添加参考线
    plt.hlines(y = 5.8, xmin = Province.Birth_Rate.min(), xmax = Province.Birth_Rate.max(), 
               linestyles = '--', colors = 'red')
    plt.vlines(x = 10, ymin = Province.Death_Rate.min(), ymax = Province.Death_Rate.max(), 
               linestyles = '--', colors = 'red')
    # 添加轴标签
    plt.xlabel('Birth_Rate')
    plt.ylabel('Death_Rate')
    # 显示图形
    plt.show()
    

    五角星为异常点,聚类效果不错,例如,以北京、天津、上海为代表的省份,属于低出生率和低死亡率类型。。

    再次利用层次聚类,进行聚类

    # 利用最小距离法构建层次聚类
    agnes_min = cluster.AgglomerativeClustering(n_clusters = 3, linkage='ward')
    # 模型拟合
    agnes_min.fit(X)
    Province['agnes_label'] = agnes_min.labels_
    # 绘制层次聚类的效果散点图
    sns.lmplot(x = 'Birth_Rate', y = 'Death_Rate', hue = 'agnes_label', data = Province,
               markers = ['d','^','o'], fit_reg = False, legend = False)
    # 添加轴标签
    plt.xlabel('Birth_Rate')
    plt.ylabel('Death_Rate')
    # 显示图形
    plt.show()
    

    所有散点聚为3类,与密度聚类相比,除了将异常点划分到簇中,其他分类正确

    再使用Kmeans聚类进行分析,用轮廓系数法确定最佳K值

    # 导入第三方模块
    from sklearn import metrics
    # 构造自定义函数,用于绘制不同k值和对应轮廓系数的折线图
    def k_silhouette(X, clusters):
        K = range(2,clusters+1)
        # 构建空列表,用于存储个中簇数下的轮廓系数
        S = []
        for k in K:
            kmeans = cluster.KMeans(n_clusters=k)
            kmeans.fit(X)
            labels = kmeans.labels_
            # 调用字模块metrics中的silhouette_score函数,计算轮廓系数
            S.append(metrics.silhouette_score(X, labels, metric='euclidean'))
    
        # 中文和负号的正常显示
        plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
        plt.rcParams['axes.unicode_minus'] = False
        # 设置绘图风格
        plt.style.use('ggplot')    
        # 绘制K的个数与轮廓系数的关系
        plt.plot(K, S, 'b*-')
        plt.xlabel('簇的个数')
        plt.ylabel('轮廓系数')
        # 显示图形
        plt.show()
        
    # 聚类个数的探索
    k_silhouette(X, clusters = 10)
    

    当簇的个数为3时,轮廓系数最大,说明为3 类比较合理,也验证了之前肉眼所观察到的结论。

    # 利用Kmeans聚类
    kmeans = cluster.KMeans(n_clusters = 3)
    # 模型拟合
    kmeans.fit(X)
    Province['kmeans_label'] = kmeans.labels_
    # 绘制Kmeans聚类的效果散点图
    sns.lmplot(x = 'Birth_Rate', y = 'Death_Rate', hue = 'kmeans_label', data = Province,
               markers = ['d','^','o'], fit_reg = False, legend = False)
    # 添加轴标签
    plt.xlabel('Birth_Rate')
    plt.ylabel('Death_Rate')
    plt.show()
    

    当为球形数据时,层次、Kmeans、密度的效果几乎一致,所不同的是密度聚类可以很方便的发现异常点。

    相关文章

      网友评论

          本文标题:用DBSCAN和层次聚类分析各个省份人口出生率与死亡率关系

          本文链接:https://www.haomeiwen.com/subject/dqouyqtx.html