群组：数据聚类

作者: vickeex | 来源:发表于2020-02-17 12:56 被阅读0次

群组：数据聚类
unit3 文本聚类
分层聚类和K-means聚类
14 聚类算法 - 代码案例六- 谱聚类(SC)算法案例
04 聚类算法 - 代码案例一 - K-means聚类
10 聚类算法 - 代码案例四 - 层次聚类(BIRCH)算法参
数据挖掘复习笔记（二）
聚类算法之k－means的实现
111-文本分析之基于文本相似度的聚类
数据挖掘

<数据聚类(data clustering): 用以寻找紧密相关的事、人或观点，并将其可视化的方法。>

监督学习(supervised learning): 利用样本输入和期望输出来学习如何预测的技术。包括：神经网络，决策树，向量支持机，贝叶斯过滤等。利用带有正确答案的样本数据进行训练。
无监督学习(unsupervised learning): 在一组数据中找寻某种结构，而这些数据本身不是所要找的答案。如聚类。

聚类算法的数据，通常应以一组公共的数值型属性，利用属性对数据项进行比较。

分级聚类 Hierarchical Clustering

分级聚类通过连续不断地将最为相似的群组两两合并，构造出一个群组的层级结构。其中每个群组都是从单一元素开始的。每次迭代中，算法都会计算每两个群组间的距离，并将距离最近(相似度)的两个群组合并成一个新的群组(数据为两个旧群组的数据求均值)，重复迭代直至只剩一个群组。
该过程可视化表示为树状图。

列聚类 Column Clustering

将数据集转置后，再执行聚类操作。
当数据项的数量比变量多时，更大概率出现无意义聚类，可转置后聚类。

K-均值聚类 K-Means Clustering

分级聚类的算法计算量很大很大（每两个匹配项的距离都需计算），且返回的树形视图不会真正将数据拆分成不同组。故采用K-均值聚类：预先告诉算法希望生成的聚类数量，算法根据数据的结构状况确定聚类的大小。
算法过程：先确定k个中心位置（位于空间中代表聚类中心的点），然后将各个数据项分配给最临近的中心店，待分配完成后，聚类中心移到分配给该聚类的所有节点的平均位置处，然后重新开始整个分配过程。重复此过程，直至分配过程不再产生变化。