CDA Level 1建模分析-聚类分析

作者: 嬛嬛非甄嬛 | 来源:发表于2019-01-30 17:54 被阅读0次

CDA Level 1建模分析-聚类分析
CDA Level 1建模分析-因子分析
CDA level 1 建模分析-主成分分析
手把手教你用SPSSAU做聚类分析
数据挖掘任务
CDA LEVEL 1备考
CDA level 1 抽样估计&假设检验
CDA level I 数据分析概念与统计学基础
CDA Level 1 方差分析和一元线性回归分析
【挖掘篇】：模型的评估

CDA Level1 最后一部分，是整个cda Level 1中占比重最高的一个部分，整体占比为40%；主要分为五个部分：

1，主成分分析 4%，因子分析2%

2，系统聚类法 2%，K-means聚类法 3%

3，对应分析 2% 多维尺度分析2%

4，多元回归分析法20% （多元线性回归10%，逻辑回归10%）

5，时间序列 5%；

level 1的阶段其实只要求对以上建模分析方法进行理解，并知晓各种分析方法的应用方向。

聚类分析

大纲要求：聚类方法的基本逻辑；系统聚类和K-Means聚类的基本算法和优缺点；系统聚类的计算步骤，包括两点距离，两类合并的计算方法；系统聚类法中选择最优聚类数量的方法；K-Means聚类的基本算法；聚类分析变量标准化的原因和计算方法；变量需要进行主成分分析的原因；变量进行函数转化的原因和计算方法。

一、聚类的逻辑：将样本按相似性的大小分成多个类的过程被称为聚类。

二、聚类分析的类型：系统聚类（层次聚类）、K-Means聚类（快速聚类）

三、两种聚类的基本算法：

1，层次聚类法：

通常分为自底向上和自顶向下。原理相同，只是计算方向相反。

自底向上：又称合并法。先将样本分别作为一个独立的类，然后通过距离计算，将距离想尽的两个样本合并为一类，其他样本仍然各自为一类。不断重复这个过程，知道达到聚类数或者设定目标。

自顶向下：又称分解法。先把所有样本看成一类，通过距离计算，选出距离最远的两个样本，各自为一个类别，其余样本根据距离远近分配到两个类别中，从而行程新的类别划分。不断重复过程，直到达到聚类数或者设定的目标。

不管哪个方法，都需要对距离进行定义。

距离定义方法：

绝对值距离，欧氏距离，闵可夫距离，切比雪夫距离，一般最常用的是欧氏距离。

如何确定两个类的距离：

最短距离法，最长距离法，中间距离法，类平均距离法重心法和离差平方和法

聚类的变量可以是连续变量，也可以是分类变量。衡量距离的方法也非常反复。

层次聚类缺点：

由于需要反复计算距离，限制了层次聚类的速度。因此不适合于数据量非常大或者变量非常多的项目；且如果计算机硬件有制约，回影响层次聚类的可行性。

2，K-Means聚类

K-Means聚类是一种快速聚类，适用于大样本量的数据

K-Means聚类方法：

首先选择K个点作为中心点，这些中心点可以是分析者自己指定，也可以根据数据结构行程，也可以随机产生。

所有样本与K个中心点计算距离，按照距离最近的原则归入这些中心点。然后重新计算每个类的中心，再次计算每个样本与类中心的距离，并按照最短距离原则重新划分类。更迭直至类不再变化。

和层次聚类的区别：

快速聚类方法计算量非常小，可以快速得出结果，不会耗费太多的空间和时间，对硬件的依赖性也较低。在分析时，用户也可以根据过往经验或者计算结果，指定初始中心位置，可以进一步增加聚类的效率。

缺点：

需要事先指定聚类数，需要分析师有一定的经验积累。或者可能需要多次反复尝试。对初始点敏感，容易导致聚类结果与数据真实分类出现差异，对异常值比较敏感。变量必须是连续变量，对变量的标准度要求比较高，否则可能产生无意义的结果。不能对分类变量进行聚类，也是它使用的一个较大缺点。

3，两步聚类法：

结合了K-Means和系统聚类的方法，先选择较大的类数量对样本进行快速聚类，然后对每个聚类的中心点进行系统聚类，选择合适的分类数量，然后将聚类结果合并为较理想的数量

在进行聚类时要结合业务理解对数据进行适当的变换，并且需要对变量进行维度分析，聚类结果可以使用类中心之间的比较，结合业务进行解读。

四、聚类的应用：

一般用于客户画像，离群点检验，营销套餐设计等领域。

数据量较大或者变量多的样本，优先考虑K-Means聚类法；

样本数据量适中或者变量类型比较复杂的，可以考虑层次聚类法。

特别综合的项目，也可以采用两步聚类法。

聚类是一种无监督学习的算法。

网友评论

本文标题：CDA Level 1建模分析-聚类分析

本文链接：https://www.haomeiwen.com/subject/zuycsqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

CDA Level 1建模分析-聚类分析

相关文章