介绍
聚类模型是一个概念,用于表示我们试图识别的聚类类型。四种最常见的聚类方法模型是层次聚类,k均值聚类,基于模型的聚类和基于密度的聚类
可以基于两个主要目标评估良好的聚类算法:
高级内相似性
低级间相似性
基于模型的聚类是迭代方法,通过优化聚类中数据集的分布,将一组数据集拟合到聚类中。高斯分布只不过是正态分布。此方法分三步进行:
首先随机选择高斯参数并将其拟合到数据点集。
迭代地优化分布参数以适应尽可能多的点。
一旦收敛到局部最小值,您就可以将数据点分配到更接近该群集的分布。
有关高斯混合模型的详细信息
基于概率模型的聚类技术已被广泛使用,并且已经在许多应用中显示出有希望的结果,从图像分割,手写识别,文档聚类,主题建模到信息检索。基于模型的聚类方法尝试使用概率方法优化观察数据与某些数学模型之间的拟合。
生成模型通常使用EM方法求解,EM方法是用于估计有限混合概率密度的参数的最广泛使用的方法。基于模型的聚类框架提供了处理此方法中的几个问题的主要方法,例如组件密度(或聚类)的数量,参数的初始值(EM算法需要初始参数值才能开始),以及分量密度的分布(例如,高斯分布)。EM以随机或启发式初始化开始,然后迭代地使用两个步骤来解决计算中的循环:
E-Step。使用当前模型参数确定将数据点分配给群集的预期概率。
M-Step。通过使用分配概率作为权重来确定每种混合物的最佳模型参数。
R中的建模
分享:
网友评论