美文网首页
机器学习算法-KNN算法

机器学习算法-KNN算法

作者: 皮皮大 | 来源:发表于2021-02-08 23:31 被阅读0次

机器学习算法-K近邻算法

本文中介绍的机器学习中最基础的一个算法:k-近邻算法,将从如下方面展开:

image

算法概述

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。简单地说,k-近邻算法就是采用不同特征值之间的距离来进行分类,算法主要特点为:

  • 优点:精度高,对异常值不敏感,没有数据输入假定
  • 缺点:计算复杂度高,空间复杂度高
  • 适用数据范围:数值型和标称型(男女)

有人曾经统计过很多电影的打斗镜头和接吻镜头,如下图显示的电影打斗镜头和接吻镜头:

image

假设有一部未看过的电影,如何确定它是爱情片还是动作片呢?我们看看下表的数据:

image

当我们不知道未知电影史属于何种类型,我们可以通过计算未知电影和其他电影的距离,按照电影的递增排序,可以找到k个距离最近的电影。在距离最近的电影中,选择类别最多的那部电影,即可判断为未知电影的类型。

比如k=5,这5部电影中3部是爱情片,2部是动作片,那么我们将未知电影归属为爱情片。

工作原理

  1. 存在一个样本数据集和数据标签,知道样本和标签的对应关系
  2. 输入没有标签的数据,将新数据的每个特征与样本集中数据对应的特征进行比较
  3. 提取样本集中特征最相似数据的分类标签,只选取前k个最相似的数据,一般k是小于20

算法步骤

  • 计算已知类别数据集中的点与当前点之间的距离;
  • 按照距离递增次序排序
  • 选取与当前点距离最小k个点;
  • 确定前k个点所在类别的出现频率;
  • 返回前k个点所出现频率最高的类别作为当前点的预测分类。

机器学习中向量距离度量准则

下面👇列举了机器学习中常用的向量距离度量准则:

  • 欧式距离
  • 曼哈顿距离
  • 切比雪夫距离
  • 马氏距离
  • 巴氏距离
  • 汉明距离
  • 皮尔逊系数
  • 信息熵

图解过程

image

Python3版本代码

伪代码

首先给出KNN算法的伪代码(对未知类别属性的数据集中的每个点依次执行以下操作):

  1. 计算已知类别数据集中的点和当前点之间的距离
  2. 按照距离递增次序排序
  3. 选取与当前距离最小的k个点
  4. 确定k个点所在类别的出现频率
  5. 返回前k个点出现频率最高的类别作为当前点的预测分类

Python3实现

下面给出实际的Python3代码。使用内置的collections模块来解决:

image

运行上面的代码,显示的结果为:

  • dist:待预测的电影和已知电影欧式距离
  • k_labels:取出排序后前(k=3)3个最小距离的电影对应的类别标签,结果是["动作片","动作片","爱情片"]
  • label:判断的结果是动作片,因为动作片有2票
image

代码解释

1、函数首先需要生成数据集:关于给出的前4部电影,已知打斗次数和接吻次数,同时还有电影的分类情况;

2、现在新出现了一部电影:打斗次数是98,接吻次数是17,如何确定其属于哪种类型的电影?

打斗次数 接吻次数 电影分类
1 1 101 爱情片
2 5 89 爱情片
3 108 5 动作片
4 115 8 动作片
待预测 98 17

不使用collections模块如何解决?


image

classfiy函数有4个输入参数:

  1. 用于分类的输入向量inX
  2. 输入的训练样本集合为dataSet
  3. 标签向量为labels
  4. 用于选择最近邻居的数目k

其中标签向量的元素数目和矩阵dataSet的行数相同

看看具体的解释:

1、原始数据是什么样子?

image

打印出来的效果:

image

2、为什么使用np.tile方法?

为了和dataSet的shape保持一致,方便后续的求距离

image

3、每个距离和相对的索引关系

image

Jupyter notebook中使用KNN算法

步骤

下面也是通过一个模拟的电影数据来讲解如何在jupyter notebook中使用KNN算法,大致步骤分为:

  1. 构建数据集

构建一个包含接吻镜头、打斗镜头和电影类型的数据集

2、求距离

求出待预测分类的数据和原数据的欧式距离

3、距离排序

将求出的距离进行升序排列,并取出对应的电影分类

4、指定取出前k个数据

取出指定的前k个数据,统计这些数据中电影类型的频数,找出频数最多的类型,即可判断为未知待预测电影的类型

代码

1、模拟数据:

image

2、求解距离

image image image

3、对距离升序排列

image

4、取出前k个数并统计频数

image image

封装成函数

将上面的整个过程封装成函数:

image
import pandas as pd

"""
函数功能:KNN分类器

参数说明:
    inX:待预测分类的数据
    dataSet:原数据集,训练集
    k:k-近邻算法中的超参数k
    
返回值:分类结果

"""

def classify0(inX, dataSet,k):
    result = []
    
    # 1、求新数据和每个原数据的距离
    dist = list(((data.iloc[:6,1:3] - new_data) ** 2).sum(1) ** 0.5)
    # 2、将求出的距离和电影标签放在一起
    dist_labels = pd.DataFrame({"dist":dist,"labels":data["电影类型"].tolist()})
    # 3、根据距离升序排列,取出前k个
    dist_sorted = dist_labels.sort_values(by="dist")[:k]
    # 4、排序之后取出标签,并统计频数
    res = dist_sorted.loc[:,"labels"].value_counts()
    result.append(res.index[0])
    
    return result

利用上面模拟的数据测试一下我们封装的代码,结果是相同的

image

参考资料

1、《机器学习实战》一书

2、机器学习实战教程(一):K-近邻算法(史诗级干货长文)

3、《统计学习方法》-李航老师

相关文章

  • kNN算法

    一. kNN算法 kNN(k-NearestNeighbor),即k最近邻算法,是机器学习算法中最基础的入门算法。...

  • 01 KNN算法 - 概述

    KNN算法全称是K近邻算法 (K-nearst neighbors,KNN) KNN是一种基本的机器学习算法,所谓...

  • 机器学习系列(六)——knn算法原理与scikit-learn底

    KNN算法 本篇将介绍knn算法,knn算法因为思想非常简单,运用的数学知识比较浅显,是非常适合机器学习入门的算法...

  • KNN算法初识

    一、算法介绍 KNN算法中文名称叫做K近邻算法,全称是k-NearestNeighbor。KNN是众多机器学习算法...

  • 2020-08-10--KNN01

    KNN算法的原理介绍KNN算法的一个简单实现(肿瘤分类)将KNN算法封装成函数机器学习套路使用scikit-lea...

  • KNN算法以及欧式距离

    1.KNN算法介绍 KNN 是什么? KNN(K-Nearest Neighbor)是最简单的机器学习算法之一,可...

  • KNN算法(东拼西凑版本)

    0.KNN是什么 KNN算法中文名称叫做K近邻算法,是众多机器学习算法里面最基础入门的算法。它是一个有监督的机器学...

  • 超参数

    超参数:在我们运行机器学习算法之前,需要指定的参数。模型参数:算法过程中学习的参数。 kNN算法没有模型参数kNN...

  • java实现Knn算法,用iris数据集进行验证

    Knn算法 Knn算法是基础的机器学习算法之一,典型的惰性学习。但是其效果很好,其原理不再赘述,比较简单。笔者利用...

  • 机器学习之初识KNN算法——针对泰坦尼克号生存记录建模的两种方法

    KNN算法原理 本篇博客基于《机器学习实战》实现算法原理简要概括,重在代码实现 k-近邻算法(kNN)的工作原理是...

网友评论

      本文标题:机器学习算法-KNN算法

      本文链接:https://www.haomeiwen.com/subject/qxcqxltx.html