1、算法描述:
1)、任意选择K个点作为聚类中心
2)、对每个聚类中心,计算每个对象与这些聚类中心的距离,并根据最小距离重新对相应对象进行划分
3)、重新计算每个聚类的中心
4)、当满足一定条件,如类别划分不再发生变化,或者达到迭代次数,算法终止,否则继续步骤2和3
计算每个对象与这些聚类中心的距离:——欧氏距离
重新计算每个聚类的中心对象:——中心对象:均值
当满足一定条件,则算法终止:
—损失函数:wcss

对象到聚类中心的距离的绝对值最小
—步骤3:最小化簇内对象到质心的距离
—重新计算质心,从而最小化wcss
2、kmeans 总结
缺点:
1)、K的选择
2)、中心点的选择,具有随机性
3)、处理非球面(凸型)聚类
4)、密度,大小不同的聚类(受K的限制,难发现自然的聚类)
针对3,部分解决方法:增加聚类个数
优点:
1)、算法简单
2)、时间复杂度:O(nkt)
n个聚类对象,k个类,T个迭代次数
网友评论