机器学习之KNN算法

作者: 今晨er | 来源:发表于2019-11-10 22:53 被阅读0次

01 KNN算法 - 概述
kNN算法
机器学习之深入理解K-means、与KNN算法区别及其代码实现
KNN算法以及欧式距离
机器学习系列（六）——knn算法原理与scikit-learn底
2020-08-10--KNN01
KNN算法初识
机器学习实战-knn
超参数
java实现Knn算法,用iris数据集进行验证

一、机器学习基本分类(原文链接)：

①监督学习（Supervised learning）

数据集中的每个样本有相应的“正确答案”，根据这些样本做出

预测，分有两类：回归问题和分类问题。

步骤1：数据集的创建和分类

步骤2：训练

步骤3：验证

步骤4：使用

（ 1）回归问题举例

例如：预测房价，根据样本集拟合出一条连续曲线。

（ 2）分类问题举例

例如：根据肿瘤特征判断良性还是恶性，得到的是结果是“良性”或者“恶性”，是离散的。

监督学习：从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。

PCA和很多deep learning算法都属于无监督学习

②无监督学习

无监督学习：输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类， clustering）试图使类内差距最小化，类间差距最大化。

实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分器设计

有监督学习无监督学习

样本必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。

目标方法是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。

③半监督学习

半监督学习：即训练集同时包含有标记样本数据和未标记样本数据。

④强化学习

实质是： make decisions问题，即自动进行决策，并且可以做连续决策。

主要包含四个元素： agent，环境状态，行动，奖励；

强化学习的目标就是获得最多的累计奖励。

小结：

监督学习：

In：有标签

Out：有反馈

目的：预测结果

案例：学认字

算法：分类（类别），回归（数字）

无监督学习：

In：无标签

Out：无反馈

目的：发现潜在结构

案例：自动聚类

算法：聚类，降维

半监督学习:

已知：训练样本Data和待分类的类别

未知：训练样本有无标签均可

应用：训练数据量过时，

监督学习效果不能满足需求，因此用来增强效果。

强化学习：

In：决策流程及激励系统

Out：一系列行动

目的：长期利益最大化，回报函数（只会提示你是否在朝着目标方向前进的延迟反映）

案例：学下棋

算法：马尔科夫决策，动态规划

二、KNN算法概述（原文链接）

　　邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classification)算法，它输入基于实例的学习（instance-based learning），属于懒惰学习（lazy learning）即KNN没有显式的学习过程，也就是说没有训练阶段，数据集事先已有了分类和特征值，待收到新样本后直接进行处理。与急切学习（eager learning）相对应。

　　KNN是通过测量不同特征值之间的距离进行分类。

　　思路是：如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别，则该样本也划分为这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

　　提到KNN，网上最常见的就是下面这个图，可以帮助大家理解。

　　我们要确定绿点属于哪个颜色（红色或者蓝色），要做的就是选出距离目标点距离最近的k个点，看这k个点的大多数颜色是什么颜色。当k取3的时候，我们可以看出距离最近的三个，分别是红色、红色、蓝色，因此得到目标点为红色。