title: 网络数据挖掘 L6 聚类
date: 2017-04-12 18:35:28
categories: DataMining
mathjax: true
tags: [WebDataMining]
L6 Clustering
特征:
- 特征提取 feature Extraction
- 特征向量
- 特征空间
Metric 距离:
在使用欧氏距离的时候,二维是圆,三维是球..如此,用它来聚类的标准会倾向于圆/球等。

聚类的结果并不好。
- Euclidean space欧氏空间
- Position: x,y
- Similarity: =\sum_ix_iy_i
- 内乘
- distance: d(x,y)=|x-y|=\sqrt()=
- Induced norm导出范数|x-y|
- Similarity-Distance:d(x,y)^2==+-2
cluster 聚类
聚类是在无监督的情况下得到自然特征的方法。
本课介绍k-means 和 k-medians
k-means
算法:
- 假设要分为3类,随机在样本中选择3个点
- 每个样本计算到3个点的距离,把样本归类到最近的点所在的类
- 更新中心点:每个类的各个维度x_i,y_i,z_i...的平均值
- 重复2步骤、3步骤,直到中心点的变化小于某个阈值,结束算法
优点:
-
简单好理解
-
样本自动归类
缺点: -
手动选择类别数
-
所有的样本都会被强制分类
-
个别异常点太远了会导致平均值偏离,中心点偏离
k-medians
因为k-means异常点的敏感性,提出该改进算法
算法:
- 假设要分为3类,随机在样本中选择3个点
- 每个样本计算到3个点的距离,把样本归类到最近的点所在的类
- 更新中心点:每个类的每个维度如x_i排序后的中位值,作为中心点该维度的坐标
- 重复2步骤、3步骤,直到中心点的变化小于某个阈值,结束算法
优点: 解决异常点问题
缺点:大数据时候排序耗时(解决:sampling 从样本中随机选择小数量的sample)
Appendix
推荐一篇把聚类用于图像颜色更换的论文:Palette-based Photo Recoloring
网友评论