美文网首页
knn k临近算法

knn k临近算法

作者: 子无不语 | 来源:发表于2017-08-29 18:40 被阅读0次

## 一、knn简介

k临近算法采用测量不同特征值之间的距离来分类,在样本数据及中找出k个待分类数据最相似的样本,这k个样本中出现最多的类别作为待分类样本的类别

### 算法流程

```

遍历所有样本

对输入数据计算和每一个样本数据的误差

找出k个误差最小的样本

统计k个最相似的样本中出现最多的类别作为待分类样本类别

```

## 二、代码实现

### 样本数据

这是一份约会网站数据,

**数据有三种分类:**

1. largeDoses 极具魅力的人

2. smallDoses 魅力一般的人

3. didntlike      不喜欢的人

**每条数据共有三种特征:**

1. 每年乘飞机飞行里程数

2. 玩游戏时间百分比

3. 每周消耗冰欺凌公升数

```

40920    8.326976    0.953952    largeDoses

14488    7.153469    1.673904    smallDoses

26052    1.441871    0.805124    didntLike

75136    13.147394    0.428964    didntLike

38344    1.669788    0.134296    didntLike

72993    10.141740    1.032955    didntLike

35948    6.830792    1.213192    largeDoses

42666    13.276369    0.543880    largeDoses

67497    8.631577    0.749278    didntLike

35483    12.273169    1.508053    largeDoses

... ...

```

这些数据保存在datingTestData.txt中。

### 读取数据

将数据文件中特征值读取为numpy 3*n数组ret_mat

标签去读取为1*n数组labels

```

for line in lines:

line = line.strip()

l = line.split('\t')

ret_mat[index] = l[0:3]

labels.append(l[-1])

index += 1

```

----------

### 数据归一化

不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价.

#### 常用的归一化方法有:

* min-max标准化法

* Z-score标准化方法

这里我们使用min-max标准化法。

$\frac{x-minval}{maxval-minval}$

### 分类

knn与其他机器学习方法不同的是,没有训练过程,直接对数据集上所有数据计算。分类时需要计算待分类样本与每一个样本数据的相似度,这里相似度我们用L2距离(就是我们常见的欧氏距离)表示

$L_2 = \sqrt{\sum_{k=1}^n x_{ik} - x_{jk}}$

简单的说就是向量每个元素平方和再开根,距离越小误差越小,即相似度越大

```

def classify0(in_x,dataset,labels,k):

dataset_size = dataset.shape[0]

diff_mat = in_x - dataset # numpy Broadcasting

sq_mat = diff_mat**2

sq_distance = sq_mat.sum(axis=1)

distances = sq_distance**0.5

sort_distance_index = distances.argsort()

class_count = {}

for i in range(k):

cur_label = labels[sort_distance_index[i]]

class_count[cur_label] = class_count.get(cur_label,0) + 1

sort_class_cout = sorted(class_count.iteritems(),key = operator.itemgetter(1),reverse=True)

return sort_class_cout[0][0]

```

###测试我们的分类器

文本中有1000条数据,我们将其中一部分用来做测试数据,一部分用来做样本库,每隔1/10 取一条数据作为测试数据

```

test_data = dataset[0:data_size/10:1,0:]

test_labels = labels[0:data_size/10:1]

```

剩下的作为样本库

```

dataset = dataset[data_size/10:data_size:1,0:]

labels = labels[data_size/10:data_size:1]

```

[完整代码][1]

[1]: https://github.com/SolemnJoker/ml-learn/tree/master/01_knn

相关文章

  • knn k临近算法

    ## 一、knn简介 k临近算法采用测量不同特征值之间的距离来分类,在样本数据及中找出k个待分类数据最相似的样本,...

  • knn算法

    knn算法 knn算法简介 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法。所谓K...

  • 机器学习笔记汇总

    kNN算法:K最近邻(kNN,k-NearestNeighbor)分类算法

  • ML-k近邻最近邻

    1.KNN介绍 k临近算法 也叫Knn 是一种基于样本的模型,当K取值为1时算法原理是 对于新的实例, 在训练集中...

  • 利用Python进行数字识别

    思路 通过Python实现KNN算法。而KNN算法就是K最近邻(k-Nearest Neighbor,KNN)分类...

  • 01 KNN算法 - 概述

    KNN算法全称是K近邻算法 (K-nearst neighbors,KNN) KNN是一种基本的机器学习算法,所谓...

  • K近邻(KNN)

    KNN概念 kNN算法又称为k最近邻(k-nearest neighbor classification)分类算法...

  • 用knn算法实现手写字符识别

    概述 kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。kNN...

  • kNN算法

    一. kNN算法 kNN(k-NearestNeighbor),即k最近邻算法,是机器学习算法中最基础的入门算法。...

  • 机器学习笔记:K-近邻算法(KNN)

    一、介绍 KNN算法称为邻近算法,或者说K邻近算法(kNN,k-NearestNeighbor),分类算法。 KN...

网友评论

      本文标题:knn k临近算法

      本文链接:https://www.haomeiwen.com/subject/jsladxtx.html