pyspark 实现bisecting k-means算法

作者: 米斯特芳 | 来源:发表于2021-07-27 17:34 被阅读0次

pyspark 实现bisecting k-means算法
K-Means聚类算法衍生
K均值算法（K-Means）
基于K-means聚类算法的图像分割
聚类
K-means原理、优化、应用
k-means算法总结
机器学习之深入理解K-means、与KNN算法区别及其代码实现
Pyspark实现KMeans机器学习聚类算法（一）
05 聚类算法 - 二分K-Means、K-Means++、K-

bisecting k-means

KMeans的一种，基于二分法实现：开始只有一个簇，然后分裂成2个簇（最小化误差平方和），再对所有可分的簇分成2类，如果某次迭代导致大于K个类，则样本量大的类具有优先权（保证只有K个类）

与KMeans区别

KMeans对初始中心点的选择非常敏感，可能收敛到局部最优值，而二分法KMeans无此影响。两者都不适用非球形簇。当K值较大时，Bisecting KMeans不太适合，它可能导致分裂在各自的子群进行

其他聚类

Gaussian mixture/Power iteration clustering (PIC)/Latent Dirichlet allocation (LDA)/Streaming k-means

from pyspark.ml.clustering import BisectingKMeans
from pyspark.ml.evaluation import ClusteringEvaluator
from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("BisectingKMeansExample")\
    .getOrCreate()
# libsvm格式数据：每一行中，第一个是标签，后面是序号：特征值，以空格分隔，例如 label 1:first_feature 2:second_feature ...
dataset = spark.read.format("libsvm").load("sample_kmeans_data.txt")# 格式化读取

# Trains a bisecting k-means model.
bkm = BisectingKMeans().setK(2).setSeed(1)
model = bkm.fit(dataset)

# Make predictions
predictions = model.transform(dataset)

# Evaluate clustering by computing Silhouette score
evaluator = ClusteringEvaluator()

silhouette = evaluator.evaluate(predictions)
print("Silhouette with squared euclidean distance = " + str(silhouette))

# Shows the result.
print("Cluster Centers: ")
centers = model.clusterCenters()
for center in centers:
    print(center)