- 无监督学习
- 性能度量-有效性指标--簇内相似度大于簇间相似度
-
外部指标--给出具体的模型参考C*={C1*,C2*,C3*...}
- a:两个样本xi,xj在聚类后隶属于相同的簇,在参考模型中也隶属于相同的簇的样本对个数
- b:两个样本xi,xj在聚类后隶属于相同的簇,在参考模型中不隶属于相同的簇的样本对个数
- c:两个样本xi,xj在聚类后不隶属于相同的簇,在参考模型中隶属于相同的簇的样本对个数
- d:两个样本xi,xj在聚类后不隶属于相同的簇,在参考模型中也不隶属于相同的簇的样本对个数
a+b+c+d=m(m-1)/2 (m样本总个数)
- Jaccard系数:JC=a/(a+b+c)
- FM指数:FMI=sqrt(a/(a+b)*a/(a+c))
- Rand指数:RI=2(a+d)/m(m-1)
-
内部指标
- avg(C)=2/(|C|(|C|-1))sum(dist(x1,xj)):计算簇C内样本间平均距离
- diam(C)=max(dist(xi,xj)):簇C键样本间最大距离
- dmin(Ci,Cj)=min(dist(xi,xj)):簇Ci与簇Cj最近样本间的距离
- dcen(Ci,Cj)=dist(ui,uj):簇Ci与Cj中心质点的距离
- DB指数:参考周志华老师的机器学习
- Dunn指数
- 距离计算
- 曼哈顿距离
- 欧氏距离
- 闵科夫斯基距离
- 无序属性距离的计算:VDM距离
- 聚类方法
- 原型聚类:K-Means及其变形二分k-Means--实例:google地图将地址转化为经纬度并进行聚类分析,实现举起学习实战上的例子,使用python 3.6
- 学习向量量化:带有类别标记,目的学到一组原型向量,向量维度和样本一致,向量个数为k:聚类个数,学到之后在将任意样本进行簇划分,划分到与原型向量距离最近的簇中
- 高斯混合聚类:没看懂
- 密度聚类:核心点、边界点、噪音点--DBSCAN算法,不规定簇的个数,输入参数为MinPts和半径Eps,将密度极低的样本作为异常点、噪音点删除。
- 层次聚类:
- AGNES:自底向上--构成树状图
- 二分KMeans好像就是自顶向下的层次聚类
网友评论