聚类

作者: dingtom | 来源:发表于2020-05-02 22:57 被阅读0次

    定义

    按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大

    聚类与分类的区别

    Clustering (聚类),unsupervised learning (无监督学习)。
    Classification (分类),supervised learning (监督学习)。

    聚类过程

    • 数据准备:包括特征标准化和降维;
    • 特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中;
    • 特征提取:通过对所选择的特征进行转换形成新的突出特征;
    • 聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量,而后执行聚类或分组;
    • 聚类结果评估:是指对聚类结果进行评估,评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。

    衡量聚类算法优劣的标准

    • 处理大的数据集的能力;
    • 处理任意形状,包括有间隙的嵌套的数据的能力;
    • 算法处理的结果与数据输入的顺序是否相关,也就是说算法是否独立于数据输入顺序;
    • 处理数据噪声的能力;
    • 是否需要预先知道聚类个数,是否需要用户给出领域知识;
    • 算法处理有很多属性数据的能力,也就是对数据维数是否敏感。

    1.层次化聚类方法

    CURE算法

    2.划分式聚类方法

    K-means

    3.基于密度的方法

    DBSCAN

    4.基于网格的方法

    STING算法

    5.神经网络

    SOM算法

    6.基于图的聚类方法

    谱聚类

    相关文章

      网友评论

          本文标题:聚类

          本文链接:https://www.haomeiwen.com/subject/ooalghtx.html