美文网首页
机器学习2-k近邻算法

机器学习2-k近邻算法

作者: Re0 | 来源:发表于2018-08-10 10:20 被阅读0次

    近朱者赤近墨者黑

    概述

    • 输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测,不具有显式的学习过程。
    • k 近邻算法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。 k值的选择、距离度量以及分类决策规则是k近邻算法的三个基本要素。

    工作原理

    knn算法步骤

    1. 假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。
    2. 输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。
      • 计算新数据与样本数据集中每条数据的距离。
      • 对求得的所有距离进行排序(从小到大,越小表示越相似)。
      • 取前 k (k 一般小于等于 20 )个样本数据对应的分类标签。
    3. 求 k 个数据中出现次数最多的分类标签作为新数据的分类。
    class KNN():
        """ K Nearest Neighbors classifier.
    
        Parameters:
        -----------
        k: int
            The number of closest neighbors that will determine the class of the
            sample that we wish to predict.
        """
        def __init__(self, k=5):
            self.k = k
    
        def _vote(self, neighbor_labels):
            """ Return the most common class among the neighbor samples """
            counts = np.bincount(neighbor_labels.astype('int'))
            return counts.argmax()
    
        def predict(self, X_test, X_train, y_train):
            y_pred = np.empty(X_test.shape[0])
            # Determine the class of each sample
            for i, test_sample in enumerate(X_test):
                # Sort the training samples by their distance to the test sample and get the K nearest
                idx = np.argsort([euclidean_distance(test_sample, x) for x in X_train])[:self.k]
                # Extract the labels of the K nearest neighboring training samples
                k_nearest_neighbors = np.array([y_train[i] for i in idx])
                # Label sample as the most common class label
                y_pred[i] = self._vote(k_nearest_neighbors)
    
            return y_pred
    

    knn算法特点

    优点:精度高、对异常值不敏感、无数据输入假定
    缺点:计算复杂度高、空间复杂度高
    适用数据范围:数值型和标称型

    sklearn实现

    import numpy as np
    import matplotlib.pyplot as plt
    from matplotlib.colors import ListedColormap
    from sklearn import neighbors, datasets
    
    n_neighbors = 3
    
    # 导入一些要玩的数据
    iris = datasets.load_iris()
    X = iris.data[:, :2]  # 我们只采用前两个feature. 我们可以使用二维数据集避免这个丑陋的切片
    y = iris.target
    
    h = .02  # 网格中的步长
    
    # 创建彩色的图
    cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
    cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])
    
    for weights in ['uniform', 'distance']:
        # 我们创建了一个knn分类器的实例,并拟合数据。
        clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights)
        clf.fit(X, y)
    
        # 绘制决策边界。为此,我们将为每个分配一个颜色
        # 来绘制网格中的点 [x_min, x_max]x[y_min, y_max].
        x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
        y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
        xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                             np.arange(y_min, y_max, h))
        # flatten, 按列拼接
        Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    
        # 将结果放入一个彩色图中
        Z = Z.reshape(xx.shape)
        plt.figure()
        # 预测meshgrid的类别(颜色)
        plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
    
        # 绘制训练点
        plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold)
        plt.xlim(xx.min(), xx.max())
        plt.ylim(yy.min(), yy.max())
        plt.title("3-Class classification (k = %i, weights = '%s')"
                  % (n_neighbors, weights))
    plt.show()
    

    相关文章

      网友评论

          本文标题:机器学习2-k近邻算法

          本文链接:https://www.haomeiwen.com/subject/kwckbftx.html