最近更新:2019-01-20
1.案例1
2.案例2
3.聚类和分类的区别
4.聚类分析的目的
1.案例1:
我们知道敬酒是人与人之间表情达意的一门艺术,那它和聚类又有什么关系呢?
假设我们正在参加一个国际学术会议的招待会,它是以鸡尾酒会的方式进行,人们端着酒杯,不断流动,通过敬酒和干杯来结识朋友
常见的敬酒词汇与短语还有:
我们说善敬酒者都是聚类专家,具体如下:
- 善于劝人饮酒的人
- 总是能够抓住自己与被敬酒者的相同点
- 说对方和自己聚在同一个“簇”,让对方无法推托
- 这里用的就是聚类技术其中,“簇”一cluster,指的是一类事物或者一群事物
总结:
-
能干的聚类专家善于在细微处见功夫,善于找出找某些子集的特色,把大集含中的对象凝聚成若干个特色小簇,小集使得簇内相似度大,簇间相似度小.
-
聚类技术的应用非常广泛,中文中有很多类似“同某”的词汇,如同学,同乡,同志,同事,同袍.还有数学上的同态,同构,拓扑学中的同坯等等.都是聚类技术的具体应用.
-
上述案例中的“同学”、“同乡”等名词对应英文单词 Attribute(属性),在敬酒技巧中可泛称为同A技巧,它是用来表明:我们之间是有共同属性的,目的是借此来拉近彼此的距离.
一句话:敬酒就是通过套近乎,使自己进入到某个簇中
上面的案例我们做成图表,就是类似这样的结构图,具体分析如下:
- 在图中,横轴代表籍贯,纵轴代表班级,图中的任意一点代表一个学生.
- 像绿线圈起来的点,他们在横轴投影相近,说明是同一籍贯,也就是同乡
- 而对于紫色线圈起来的点,在纵轴上投影相近,说明他们处在同一班级,所以称为同学
- 红中的点组成的3组数据,在横轴和纵轴上的投影都很接近,所以他们既是“同学也是同乡”
这是对于二维数据的分析,多维的情形可能稍微会复杂一些,但是基本的思路是同样的.
2.案例2:
假设我们想要把中国的县分成若干类,俗语说,物以类聚、人以群分.但什么是分类的根据呢?
分类依据:
- 我们可以接照自然条件把中国的县分成若干类,比如考虑降水、土地、日照、湿度等方面.
- 也可以考虑人文条件把中国的县划分成若干类,比如考虑收入、教育水准、医疗彖件、基础设施等指标.
需要说明的是:
对于聚类,我们既可以用某一项指标来分类,也可以同时考虑多项指标来分类.
3.聚类和分类的区别
-
区别1:
-
分类:就是照某种标准,给对象贴标签再根据标签来区分归类.
-
聚类:是指事先没有“标签”,而是通过某种成因分析找出事物之间聚集的原因
-
分类:是按照事先定义好的分类体系进行分类,例如按照行业的标准分类,服装分为T恤,连衣裙,牛仔裤,羽绒服等
-
聚类:不存在分类体系,类别在聚类过程中自动生成,例如接索引结果后聚类(元搜索)
-
-
区别2:
-
聚类是主动的,分类是被动的主动与被动之差别,是聚类和分类的最大区别.
-
比如在上画学术鸡尾酒会的例子,常看到一群学子围住一个学术带头人也常看到几位研究老坐在角落,一边品酒,一边在草稿上写写画画,讨论问题,偶尔也有不善交际的离群点,远离人群.
-
在这里,影响聚群的不是万有引力或电磁力,也不是强、弱相互作用而是学术思想的凝聚力,是人格魅力.鸡尾酒会上没有人指挥谁谁应该到哪里,它所遵循的是“物以类聚,人以群分”的道理,所以聚类对象是主动的,自发的.
-
而分类代表了人们主观意志对分类过程的盖督,它是被动的划分类别.
网友评论