美文网首页
StatQuest学习笔记18——K邻近算法

StatQuest学习笔记18——K邻近算法

作者: backup备份 | 来源:发表于2019-07-14 17:23 被阅读0次

前言

这篇笔记是StatQuest系列视频教程的第50节,主要内容是讲K邻近算法(K-Nearest neighbors algorithm,缩写为KNN)。K邻近算法是一种对数据进行分类的,非常简单的算法。例如我们已经有了很多对细胞进行分类的数据,那么我们要研究某个细胞属于这些分类中的哪个类别,就需要使用这种算法,如下所示:

image

K邻近算法基本思想

先看一个简单的案例。

第一步,我们拥有一批数据,这批数据已经进行了分类,在下图中,来源于小肠肿瘤中的这些细胞拥有不同的分类,我们使用PCA对这些细胞进行聚类,如下图所示:

image

第二步,当我们再往这批数据中添加一个新的细胞时,我们此时并不清楚这个新细胞的分类,因为这个细胞是从另外的一个肿瘤中取出来的,不好归类,如下所示:

image

第三步:我们计算这个新的细胞离它最近的那个分类(也就是最近的领居“nearest neighbors”),这个细胞就属于这个分类。如果“K最近的邻居(K-nearest neighbors)”中的这个K等于1(这个K表示的是邻居的数目),那么我们就能把这个新的细胞归于这个离它最近的分类中,在这个案例中,这个最近的分类是绿色的。如果K等于11,那我们就需要使用11个最近的邻居,如下所示:

image

假如这个新的细胞在其它的地方,如下所示:

image

如果K=11(这个意思表示,最这个点最近的邻居有11个),那么这个新的细胞就位于两类或更多的类中间,我们就把它归于得到“票数”最多的那个类别,那么在这个案例中,有7个最近的邻居是红色,3个最近的邻居是橘黄色,有1个最近的邻居是绿色,由于红色得到的票数最多,那么这个新的细胞就属于红色这一类,如下所示:

image

热图案例

K邻近算法同样适用于热图,下面的这个热图是用采用层次聚类算法得到的,如下所示:

image

此时如果我们有一个新的细胞,它的基因表达模式位于热图中浅蓝色区域的中央,如果K=1,那么我们仅仅需要看一下离它最近的细胞,我们就知道这个新的细胞是属于哪个类型的,这种情况下,它属于浅蓝色区域的分类,如果K=5,我们看一下离个细胞最近的邻居,它还是属于这个浅蓝色区域(仔细数一下,浅蓝色区域中有17列),如下所示:

image

假如这个新的细胞的基因表达模式位于浅蓝色区域的偏左侧的话,如果此时K=11,我们就需要进行一个投票,如下所示:

image

经过投票发现,在这11个最近的邻居中,有7个位于浅蓝色区域,有4个位于浅绿色区域,因此,我们把这个新细胞类型归于浅蓝色区域,如下所示:

image

如果这个新的细胞分类正好位于两个区域中央,这个细胞的归类就有两种解决方法:

第一,如果K值是奇数,那么我们就很容易进行计算;

第二,(如果K值是偶数),那么我们就会得到一个比较很麻烦的投票,此时就要靠投硬币来决定这个细胞属于哪个分类了,或者就是不归类,如下所示:

image

训练数据

在这里我们讲一些简单的机器学习方面的内容,我们把那些用于最初始聚类的数据(这些数据我们已经知道它们是什么分类了)称为“训练数据”(training data),如下所示:

image

如何选择K值

K值只是算法意义上的数字,它无关生理学或生物学方面的意义,因此在设置K值之前,你或许会尝试设置多设几个K值。在多设几个K值时,此时假定你不清楚一部分训练数据(实际上是知道的)的分类,那么通过K邻近算法(KNN),你对这些未知的训练数据进行分类,进而查看你的数据(此处是非训练数据)的分类情况。

上面的这一段是完全翻译视频中的文字,我是不太理解,但就我自己的理解而言,就先找一批训练数据,这些数据的分类已经很明确了,把这些数据分成2份,分别定义为A和B,其中A用于聚类(这部分数据通常比较大),另外一份B用KNN进行分类(也就是A中分好的类),此时能找出最佳的K值,然后再使用一批新的数据C进行KNN分类。

如果K值比较低(例如K=1或K=2),那么噪音就会比较大,会受到异常值的影响。如果K值过大,虽然会解决K值过小的问题,但是,你也不会想让K值太大,因为如果你只有几个样本,那么运算时间会过长,如下所示:

image

相关文章

  • StatQuest学习笔记18——K邻近算法

    前言 这篇笔记是StatQuest系列视频教程的第50节,主要内容是讲K邻近算法(K-Nearest neighb...

  • 无标题文章

    机器学习实践-K邻近算法 本章内容 - K- 邻近算法概述 -

  • 《算法图解》note 10 K近邻算法

    这是《算法图解》第十篇读书笔记,内容主要是K邻近算法的介绍。 1.K近邻算法简介 K近邻算法(K-nearest ...

  • 机器学习笔记:K-近邻算法(KNN)

    一、介绍 KNN算法称为邻近算法,或者说K邻近算法(kNN,k-NearestNeighbor),分类算法。 KN...

  • 邻近算法KNN

    邻近算法 邻近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘[https:/...

  • 第二章 k-邻近算法

    2.1 k-邻近算法概述 2.1.1 原理 k-邻近算法(k-Nearest Neighbor,KNN),存在一个...

  • k邻近算法

    k邻近算法定义

  • 2019-03-30派森学习第131天

    上午看了一下k邻近算法(k-Nearest Neighbor,KNN)。 该算法主要思想是通过计算周围k个最邻近的...

  • K邻近算法

    简称kNN,工作原理是:存在一个训练样本集并且对应的每个数据都有标签。输入新数据后,将新数据的每个特征与样本集中数...

  • knn算法

    knn算法 knn算法简介 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法。所谓K...

网友评论

      本文标题:StatQuest学习笔记18——K邻近算法

      本文链接:https://www.haomeiwen.com/subject/bakikctx.html