对于这类算法,两个关键点是如何找类型数,以及如何找确定初始点。
找类型数我们是通过类型数对于组件距离加和的曲线变化率,来确定的。初始点为了避免初始陷阱,我们是通过一种算法。
K均值的步骤如下:
1、确定类型数
2、随机抽取K个点(可以不是数据点)
3、依据欧式距离判断所属类别(中心点连线画出中位线)
4、找出没类的中心点,重新定义类别,如果有数据点重定了类型,就继续第四步,如果所有数据对于新的中心点都划分正确就结束。
最后,我们可以通过画出类型数与组间距离的二维图来确定合适的类型数。
其实,K均值说白了就是将数据的特征分布可视化,通过欧式距离解决人眼无法区分的类别分类,将特征相近的分为一类。
1、K平均聚类法原理
用数字语言代替直觉.PNG
结束.PNG
刷新类别.PNG
继续划分.PNG
重新划分.PNG
找到新的中心点.PNG
垂直平分线确定分类.PNG
选择随机初始点.PNG
确定K.PNG
K-Means步骤.PNG
K-Means是什么.PNG
2、K-Means随机初始化陷阱
updatedforsolving.PNG
imeffectatclassify.PNG
wrongrandompoint.PNG
problempoint.PNG
correctrandompoint.PNG
3、K-Means选择类的个数
theelbowmethod(速率).PNG
functionWCSSwithnumberofcluster.PNG
WCSSattwo.PNG
WCSSatone.PNG
WCSSatthree.PNG
withinclustersquaredsum.PNG
bestatintuitive.PNG
网友评论