KNN库简介

作者: 子鹿学生信 | 来源:发表于2020-07-13 22:14 被阅读0次

KNN库简介
Spark --基于DataFrame API实现KNN算法
用人话讲明白近邻算法KNN
knn 简介
knn算法
KNN算法-1-KNN简介
机器学习算法之：KNN
KNN算法实现及其交叉验证
KNN算法实现及其交叉验证
KNN学习笔记

1.scikit-learn 中KNN相关的类库

机器学习经典库scikit-learn中的sklearn.neighbors包集成了近邻法相关的算法，KNN分类树算法使用KNeighborsClassifier，回归树使用KNeighborsRegressor。除此之外，还有KNN的扩展，即限定半径最近邻分类树RadiusNeighborsClassifier和限定半径最近邻回归树RadiusNeighborsRegressor，以及最近质心分类算法NearestCentroid。

在这些算法中，KNN分类和回归的类参数完全一样。限定半径最近邻法分类和回归的类的主要参数也和KNN基本一样。比较特别是的最近质心分类算法，由于它是直接选择最近质心来分类，所以仅有两个参数，距离度量和特征选择距离阈值。

限定半径最近邻算法，即样本中某系类别的样本非常的少，甚至少于K，这导致稀有类别样本在找K个最近邻的时候，会把距离其实较远的其他样本考虑进来，而导致预测不准确。为了解决这个问题，我们限定最近邻的一个最大距离，也就是说，我们只在一个距离范围内搜索所有的最近邻，这避免了上述问题。这个距离我们一般称为限定半径。

最近质心算法首先把样本按输出类别归类。对于第 L类的Cl个样本。它会对这Cl个样本的n维特征中每一维特征求平均值，最终该类别所有维度的n个平均值形成所谓的质心点。对于样本中的所有出现的类别，每个类别会最终得到一个质心点。当我们做预测时，仅仅需要比较预测样本和这些质心的距离，最小的距离对于的质心类别即为预测的类别。这个算法通常用在文本分类处理上。