网络数据挖掘 L6 聚类

作者: gb_QA_log | 来源:发表于2018-07-12 15:23 被阅读0次

网络数据挖掘 L6 聚类
电商数据挖掘常用到的方法
网络数据挖掘-L7 聚类的应用
111-文本分析之基于文本相似度的聚类
K均值聚类及代码实现
神一样的产品经理-数据挖掘模型
数据挖掘之聚类
Mean-Shift和K-Means结合的实践
金融业信贷风控算法9-聚类场景之K均值聚类与K邻近聚类
Python建模复习：描述性数据挖掘

title: 网络数据挖掘 L6 聚类
date: 2017-04-12 18:35:28
categories: DataMining
mathjax: true
tags: [WebDataMining]

L6 Clustering

特征：

特征提取 feature Extraction
特征向量
特征空间

Metric 距离：

在使用欧氏距离的时候，二维是圆，三维是球..如此，用它来聚类的标准会倾向于圆/球等。

Paste_Image.png 因此当数据是

Paste_Image.png

聚类的结果并不好。

Euclidean space欧氏空间
- Position: x,y
- Similarity: =\sum_ix_iy_i
  - 内乘
- distance: d(x,y)=|x-y|=\sqrt()=
  - Induced norm导出范数|x-y|
- Similarity-Distance: $d(x,y)^2==+-2$

cluster 聚类

聚类是在无监督的情况下得到自然特征的方法。
本课介绍k-means 和 k-medians

k-means

算法：

假设要分为3类，随机在样本中选择3个点
每个样本计算到3个点的距离，把样本归类到最近的点所在的类
更新中心点：每个类的各个维度 $x_i,y_i,z_i...$ 的平均值
重复2步骤、3步骤，直到中心点的变化小于某个阈值，结束算法

优点：

简单好理解
样本自动归类
缺点：
手动选择类别数
所有的样本都会被强制分类
个别异常点太远了会导致平均值偏离，中心点偏离

k-medians

因为k-means异常点的敏感性，提出该改进算法
算法：

假设要分为3类，随机在样本中选择3个点
每个样本计算到3个点的距离，把样本归类到最近的点所在的类
更新中心点：每个类的每个维度如 $x_i$ 排序后的中位值，作为中心点该维度的坐标
重复2步骤、3步骤，直到中心点的变化小于某个阈值，结束算法

优点：解决异常点问题
缺点：大数据时候排序耗时（解决：sampling 从样本中随机选择小数量的sample）

Appendix

推荐一篇把聚类用于图像颜色更换的论文：Palette-based Photo Recoloring

网友评论

本文标题：网络数据挖掘 L6 聚类

本文链接：https://www.haomeiwen.com/subject/bncrpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

网络数据挖掘 L6 聚类

L6 Clustering

特征：

Metric 距离：

cluster 聚类

k-means

k-medians

Appendix

相关文章

网络数据挖掘 L6 聚类

电商数据挖掘常用到的方法

网络数据挖掘-L7 聚类的应用

111-文本分析之基于文本相似度的聚类

K均值聚类及代码实现

神一样的产品经理-数据挖掘模型

数据挖掘之聚类

Mean-Shift和K-Means结合的实践

金融业信贷风控算法9-聚类场景之K均值聚类与K邻近聚类

Python建模复习：描述性数据挖掘

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读