监督学习和非监督学习的区别
监督学习是有一个有标签的训练集,我们的目标是能找到区分正负样本的决策边界,需要使用已有数据拟合一个假设函数;而非监督学习的数据不带有任何标签,需要通过一系列规则(距离、相似度等)来分辨出相同数据,最终仅仅输出属于同一类别的数据而不输出所属标签。
常见的非监督学习算法
系统聚类、层次聚类、基于密度聚类
相似性度量方法
- 样本点指甲的相似性度量
基于距离
欧式距离、编辑距离
闵可夫斯基距离:与各指标的量纲有关,没有考虑各个变量之间的相关性和重要性
马氏距离:不仅考虑了观测变量之间的相关性,也考虑了各个观测指标取值的差异程度
相似系数:皮尔逊相关系数、余弦夹脚
实际应用中有明确的意义,比如经济变量,则使用相似系数;进行聚类之前已经对变量的相关性做了处理,采用欧式距离;聚类方法选用力差平方和,采用欧式距离;
- 类与类之间的相似性度量
最短距离、最长距离、组间平均连接、重心法、离差平方和法、
算法详情
- 简介
系统聚类:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相似性测度,直到所有对象都归为一类为止。
层次聚类:先计算样本点之间的距离,距离最近的合并成一类,可以分成自底向上和自顶向下两种
网友评论