美文网首页
聚类中遇到的问题解决

聚类中遇到的问题解决

作者: enhengz | 来源:发表于2017-12-16 22:23 被阅读13次

一般我们用的聚类算法为kmeans聚类,偶尔也用谱聚类,层次聚类效率比较低,几乎不用

本文除了实际中遇到的,也参照了各种公众号资料

1.聚类的中心选择对聚类的影响较大,所以可以选择多次聚类,查看聚类效果

2.聚类需要人工设定聚类个数,一般使用轮廓系数和肘部法则来确定最佳类别数

3.共线性对聚类的影响较大,容易增大该特征权重,所以聚类前要使用相关性等对特征进行检验,另外,还可利用熵对特征进行提取(不过这个应该是需要前期人工进行一部分分类工作)

4.很多数据就和现实一样存在二八原则,所以聚类时会把百分之80的聚在一类,但是我们又希望看到百分之80客户类别的微小差别聚类特征,这时候我们可以对特征log处理,不过log之后的数据理解起来不是很直观

5.聚类使用的是距离度量,所以一般不用虚拟变量12等类别聚类,同时,一般不使用离散数据聚类

6.特征方差大小对聚类影响不大,方差大只能说明观测数据的波动性较大,但与聚类得影响较小,聚类是对样本聚类,使类别内方差小,类别间方差大

相关文章

  • 聚类中遇到的问题解决

    一般我们用的聚类算法为kmeans聚类,偶尔也用谱聚类,层次聚类效率比较低,几乎不用 本文除了实际中遇到的,也参照...

  • 数据挖掘

    数据立方体,最小内存计算 层次聚类 首先介绍聚类中的层次聚类算法。层次法又分为凝聚的层次聚类和分裂的层次聚类。 凝...

  • K-Means聚类算法

    聚类 聚类 是一种无监督学习,它将相似对象归到一个簇中。簇中的对象越相似,聚类的效果越好。聚类跟分类的区别,分类事...

  • 数据挖掘复习笔记(二)

    聚类模型 什么是聚类 聚类,即把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析...

  • 数据分析方法,寻找规律的第一步,聚类分析法!第1辑

    聚类——寻找规律的第一步 聚类的基本逻辑 聚类的因子和主成分 聚类的步骤 有序聚类与时间序列聚类 什么是聚类?聚类...

  • K均值聚类及代码实现

    KMeans聚类 在聚类算法中,最出名的应该就是k均值聚类(KMeans)了,几乎所有的数据挖掘/机器学习书籍都会...

  • 如何选取聚类算法

    “聚类算法的选取原则****” 01 — 问题背景 当遇到聚类分析问题的时候,机器学习领域中有很多聚类算法可供选择...

  • 04 聚类算法 - 代码案例一 - K-means聚类

    03 聚类算法 - K-means聚类 本案例数据来源:基于scikit包中的创建模拟数据的API创建聚类数据。 ...

  • SPSSAU数据分析-分层聚类

    分层聚类,又称层次聚类、系统聚类,顾名思义是指聚类过程是按照一定层次进行的。 数据分析过程中如果需要按变量(标题)...

  • 聚类:原型聚类、层次聚类、密度聚类

    首先介绍三种类型的聚类方法: 原型聚类:假设聚类结构能够通过一组原型求解。通常算法先对原型进行初始化,然后进行迭代...

网友评论

      本文标题:聚类中遇到的问题解决

      本文链接:https://www.haomeiwen.com/subject/tfvewxtx.html