聚类中遇到的问题解决

作者: enhengz | 来源:发表于2017-12-16 22:23 被阅读13次

聚类中遇到的问题解决
数据挖掘
K-Means聚类算法
数据挖掘复习笔记（二）
数据分析方法，寻找规律的第一步，聚类分析法！第1辑
K均值聚类及代码实现
如何选取聚类算法
04 聚类算法 - 代码案例一 - K-means聚类
SPSSAU数据分析-分层聚类
聚类：原型聚类、层次聚类、密度聚类

一般我们用的聚类算法为kmeans聚类，偶尔也用谱聚类，层次聚类效率比较低，几乎不用

本文除了实际中遇到的，也参照了各种公众号资料

1.聚类的中心选择对聚类的影响较大，所以可以选择多次聚类，查看聚类效果

2.聚类需要人工设定聚类个数，一般使用轮廓系数和肘部法则来确定最佳类别数

3.共线性对聚类的影响较大，容易增大该特征权重，所以聚类前要使用相关性等对特征进行检验，另外，还可利用熵对特征进行提取（不过这个应该是需要前期人工进行一部分分类工作）

4.很多数据就和现实一样存在二八原则，所以聚类时会把百分之80的聚在一类，但是我们又希望看到百分之80客户类别的微小差别聚类特征，这时候我们可以对特征log处理，不过log之后的数据理解起来不是很直观

5.聚类使用的是距离度量，所以一般不用虚拟变量12等类别聚类，同时，一般不使用离散数据聚类

6.特征方差大小对聚类影响不大，方差大只能说明观测数据的波动性较大，但与聚类得影响较小，聚类是对样本聚类，使类别内方差小，类别间方差大

聚类中遇到的问题解决
一般我们用的聚类算法为kmeans聚类，偶尔也用谱聚类，层次聚类效率比较低，几乎不用本文除了实际中遇到的，也参照...
数据挖掘
数据立方体，最小内存计算层次聚类首先介绍聚类中的层次聚类算法。层次法又分为凝聚的层次聚类和分裂的层次聚类。凝...
K-Means聚类算法
聚类聚类是一种无监督学习，它将相似对象归到一个簇中。簇中的对象越相似，聚类的效果越好。聚类跟分类的区别,分类事...
数据挖掘复习笔记（二）
聚类模型什么是聚类聚类，即把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析...
数据分析方法，寻找规律的第一步，聚类分析法！第1辑
聚类——寻找规律的第一步聚类的基本逻辑聚类的因子和主成分聚类的步骤有序聚类与时间序列聚类什么是聚类？聚类...
K均值聚类及代码实现
KMeans聚类在聚类算法中，最出名的应该就是k均值聚类(KMeans)了，几乎所有的数据挖掘/机器学习书籍都会...
如何选取聚类算法
“聚类算法的选取原则****” 01 — 问题背景当遇到聚类分析问题的时候，机器学习领域中有很多聚类算法可供选择...
04 聚类算法 - 代码案例一 - K-means聚类
03 聚类算法 - K-means聚类本案例数据来源：基于scikit包中的创建模拟数据的API创建聚类数据。 ...
SPSSAU数据分析-分层聚类
分层聚类，又称层次聚类、系统聚类，顾名思义是指聚类过程是按照一定层次进行的。数据分析过程中如果需要按变量（标题）...
聚类：原型聚类、层次聚类、密度聚类
首先介绍三种类型的聚类方法：原型聚类：假设聚类结构能够通过一组原型求解。通常算法先对原型进行初始化，然后进行迭代...