美文网首页
网络数据挖掘-L7 聚类的应用

网络数据挖掘-L7 聚类的应用

作者: gb_QA_log | 来源:发表于2018-07-12 15:23 被阅读0次

title: 网络数据挖掘-L7 聚类的应用
date: 2017-07-26 11:43:29
categories: DataMining
mathjax: true
tags: [WebDataMining]


L7 Applications of Clustering

聚类:类间分离,类内集中

聚类的类型,根据不同的类型应用不同的算法:

  • well-separated clusters
Paste_Image.png
  • center-based clusters
Paste_Image.png
  • contiguous clusters
Paste_Image.png
  • density-based clusters
Paste_Image.png
  • Property or Conceptual clusters
Paste_Image.png

Described by an Objective Function 目标函数

  • 聚类的过程就是maximize或者minimize目标函数的过程
  • 通过枚举所有可能的聚类并用目标函数去计算goodness
  • 通用与否:
    • Hierarchical clustering algorithms针对local object
    • Partitional algorithms通用
  • 从数据中学到参数

数据挖掘中 聚类的要求

  • 大规模
  • 不同类型的属性
  • 聚类的形状
  • 初始化的参数尽量少
  • 噪声和极端值
  • 对输入数据的顺序不敏感
  • 高维数据
  • 用户规定的约束
  • 可解释性和可用性

相似性

相似性的判断比聚类算法更重要,它表明了对数据的侧重点的不同。

  • (Dis)similarity measures 相异性度量
    Jagota defines a dissimilarity measure as a function f(x,y) such that f(x,y) > f(w,z) if and only if x is less similar to y than w is to z
  • data item的折线图 欧式距离


    Paste_Image.png
    Paste_Image.png
  • 折线图的趋势
    皮尔逊线性相关Pearson Linear Correlation PLC
    • 相似性的计算
Paste_Image.png
* 相异性度量
> ![Paste_Image.png](https://img.haomeiwen.com/i2812342/d520671244a70e30.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

当其他非线性相关时,用PLC则无法来衡量相似性。

Hierarchical Clustering

参考层次化的聚类

算法:自底向上,一开始,每个数据点各自为一个类别,然后每一次迭代选取距离最近(Average Linkage\Single Linkage两个最近的点\Complete Linkage两个最远的点)的两个类别,把他们合并,直到最后只剩下一个类别为止,至此一棵树构造完成。

作用

  • 确定类别数K
  • 利用树,自底向上人工判断类别。直接用k-means等方法无法直接判断出准确的有意义的类别。

缺点

  • 可能无法分出不同的类,或者需要有特定的cutoff values

k-means clustering 和 聚类的质量评估Cluster Quality

之前学习过k-means知道,k-means需要给出k以及一开始的random值。不同的k和随机值会导致结果的不同,而且当数据形状不好时该算法分类并不好。

  • K的问题
    因此选择k并且利用Cluster Quality Measures评估CQ就有必要了


    Paste_Image.png

    如图,计算Q即每个类别的相异性程度的和要尽量小,即越紧凑。该评估强调了分类后的数据的一致性homogeneity


    Paste_Image.png
  • 初始random的问题


    Paste_Image.png
  • 对密度分布的处理


    Paste_Image.png
    Paste_Image.png

density-based clusters

该算法需要数据的形状、处理噪音、一次扫描、需要设置密度的阈值
Several interesting studies:

  • DBSCAN: Ester, et al. (KDD’96)
  • OPTICS: Ankerst, et al (SIGMOD’99).
  • DENCLUE: Hinneburg & D. Keim (KDD’98)
  • CLIQUE: Agrawal, et al. (SIGMOD’98)

DBSCAN

核心对象、e邻域、直接密度可达、密度可达、密度相连
算法:

扫描整个数据集,找到任意一个核心点,对该核心点进行扩充。扩充的方法是寻找从该核心点出发的所有密度相连的数据点(注意是密度相连)。遍历该核心点的e邻域内的所有核心点(因为边界点是无法扩充的),寻找与这些数据点密度相连的点,直到没有可以扩充的数据点为止。最后聚类成的簇的边界节点都是非核心数据点。之后就是重新扫描数据集(不包括之前寻找到的簇中的任何数据点),寻找没有被聚类的核心点,再重复上面的步骤,对该核心点进行扩充直到数据集中没有新的核心点为止。数据集中没有包含在任何簇中的数据点就构成异常点。

伪代码:所有点都找密度相连,再选出最大的集合,挖掉该集合。重复算法。

算法描述:
算法: DBSCAN
输入: E——半径
MinPts——给定点在E邻域内成为核心对象的最小邻域点数。
D——集合。
输出: 目标类簇集合
方法: Repeat
1) 判断输入点是否为核心对象
2) 找出核心对象的E邻域中的所有直接密度可达点。
Until 所有输入点都判断完毕
Repeat
针对所有核心对象的E邻域内所有直接密度可达点找到最大密度相连对象集合,中间涉及到一些密度可达对象的合并。
Until 所有核心对象的E领域都遍历完毕

弱点:
密度的差异
数据维度高


Paste_Image.png

对密度和核心对象的确定:


Paste_Image.png

聚类的应用

市场调研:用户基数大的时候,选出每个类的典型用户去调研。
土地使用:开店铺的选址。根据每个地的属性(人流量、人流种类、消费习惯)聚类,然后去找卖的好的奶茶店在哪种类型的地里,然后去其他相同类型的地里开店。可以用百度API

相关文章

  • 网络数据挖掘-L7 聚类的应用

    title: 网络数据挖掘-L7 聚类的应用date: 2017-07-26 11:43:29categories...

  • 电商数据挖掘常用到的方法

    大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等,这些方法从不同的角度对数...

  • 聚类算法在 D2C 布局中的应用

    1.摘要 聚类是统计数据分析的一门技术,在许多领域受到广泛的应用,包括机器学习、数据挖掘、图像分析等等。聚类就是把...

  • 网络数据挖掘 L6 聚类

    title: 网络数据挖掘 L6 聚类date: 2017-04-12 18:35:28categories: D...

  • 111-文本分析之基于文本相似度的聚类

    参考:《文本数据挖掘》 1、相似度计算 2、 聚类方法 划分聚类法:k-means聚类法、k-medoids聚类法...

  • 数据挖掘

    挖掘数据的典型应用场景有搜索排序、关联分析以及聚类,下面我们一个一个来看,希望通过今天的学习,你能够了解数据挖掘典...

  • 神一样的产品经理-数据挖掘模型

    常见挖掘模型有以下几类: 1 聚类 聚类(Clustering)是根据特定的标准将数据划分为不同的组。 聚类和分类...

  • K均值聚类及代码实现

    KMeans聚类 在聚类算法中,最出名的应该就是k均值聚类(KMeans)了,几乎所有的数据挖掘/机器学习书籍都会...

  • Mean-Shift和K-Means结合的实践

    我们谈及数据挖掘,无非是“分类”,“关联”,“聚类”,“异常值检验”等。今天我想聊聊对聚类的认识,以及基于密度聚类...

  • 数据挖掘之聚类

    文章大纲:聚类概念聚类应用聚类目标相似性计算方法聚类方法分类划分方法 1. 概念 按照数据之间的相似性,对数据集进...

网友评论

      本文标题:网络数据挖掘-L7 聚类的应用

      本文链接:https://www.haomeiwen.com/subject/kocrpftx.html