统计学之相关与系统聚类案例分析

作者: 努力奋斗的durian | 来源:发表于2019-01-21 09:01 被阅读12次

最近更新:2019-01-20

1.案例1
2.案例2
3.聚类和分类的区别
4.聚类分析的目的

1.案例1:

我们知道敬酒是人与人之间表情达意的一门艺术,那它和聚类又有什么关系呢?

假设我们正在参加一个国际学术会议的招待会,它是以鸡尾酒会的方式进行,人们端着酒杯,不断流动,通过敬酒和干杯来结识朋友

常见的敬酒词汇与短语还有:



我们说善敬酒者都是聚类专家,具体如下:

  • 善于劝人饮酒的人
  • 总是能够抓住自己与被敬酒者的相同点
  • 说对方和自己聚在同一个“簇”,让对方无法推托
  • 这里用的就是聚类技术其中,“簇”一cluster,指的是一类事物或者一群事物

总结:

  • 能干的聚类专家善于在细微处见功夫,善于找出找某些子集的特色,把大集含中的对象凝聚成若干个特色小簇,小集使得簇内相似度大,簇间相似度小.

  • 聚类技术的应用非常广泛,中文中有很多类似“同某”的词汇,如同学,同乡,同志,同事,同袍.还有数学上的同态,同构,拓扑学中的同坯等等.都是聚类技术的具体应用.

  • 上述案例中的“同学”、“同乡”等名词对应英文单词 Attribute(属性),在敬酒技巧中可泛称为同A技巧,它是用来表明:我们之间是有共同属性的,目的是借此来拉近彼此的距离.

一句话:敬酒就是通过套近乎,使自己进入到某个簇中

上面的案例我们做成图表,就是类似这样的结构图,具体分析如下:

  • 在图中,横轴代表籍贯,纵轴代表班级,图中的任意一点代表一个学生.
  • 像绿线圈起来的点,他们在横轴投影相近,说明是同一籍贯,也就是同乡
  • 而对于紫色线圈起来的点,在纵轴上投影相近,说明他们处在同一班级,所以称为同学
  • 红中的点组成的3组数据,在横轴和纵轴上的投影都很接近,所以他们既是“同学也是同乡”

这是对于二维数据的分析,多维的情形可能稍微会复杂一些,但是基本的思路是同样的.

2.案例2:

假设我们想要把中国的县分成若干类,俗语说,物以类聚、人以群分.但什么是分类的根据呢?

分类依据:

  • 我们可以接照自然条件把中国的县分成若干类,比如考虑降水、土地、日照、湿度等方面.
  • 也可以考虑人文条件把中国的县划分成若干类,比如考虑收入、教育水准、医疗彖件、基础设施等指标.

需要说明的是:
对于聚类,我们既可以用某一项指标来分类,也可以同时考虑多项指标来分类.

3.聚类和分类的区别

  • 区别1:

    • 分类:就是照某种标准,给对象贴标签再根据标签来区分归类.

    • 聚类:是指事先没有“标签”,而是通过某种成因分析找出事物之间聚集的原因

    • 分类:是按照事先定义好的分类体系进行分类,例如按照行业的标准分类,服装分为T恤,连衣裙,牛仔裤,羽绒服等

    • 聚类:不存在分类体系,类别在聚类过程中自动生成,例如接索引结果后聚类(元搜索)

  • 区别2:

    • 聚类是主动的,分类是被动的主动与被动之差别,是聚类和分类的最大区别.

    • 比如在上画学术鸡尾酒会的例子,常看到一群学子围住一个学术带头人也常看到几位研究老坐在角落,一边品酒,一边在草稿上写写画画,讨论问题,偶尔也有不善交际的离群点,远离人群.

    • 在这里,影响聚群的不是万有引力或电磁力,也不是强、弱相互作用而是学术思想的凝聚力,是人格魅力.鸡尾酒会上没有人指挥谁谁应该到哪里,它所遵循的是“物以类聚,人以群分”的道理,所以聚类对象是主动的,自发的.

而分类代表了人们主观意志对分类过程的盖督,它是被动的划分类别.

4.聚类分析的目的

相关文章

网友评论

    本文标题:统计学之相关与系统聚类案例分析

    本文链接:https://www.haomeiwen.com/subject/hfyqjqtx.html