美文网首页
机器学习实战笔记-k近邻算法

机器学习实战笔记-k近邻算法

作者: RJzz | 来源:发表于2017-10-29 10:00 被阅读22次

    优点

    精度高、对异常值不敏感、无数据输入假定

    缺点

    计算复杂度高、空间复杂度高

    适用数据范围

    数值型和标称型
    标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(主要用来分类)
    数值型:数值型目标变量可以从无限的数值集合中取值,如0.2300,1111.1111等(主要用来回归)

    工作原理

    存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常是k不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

    《统计学习方法》中的解释

    给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分到这个类。

    k-近邻算法的一般流程

    1.收集数据:anyway
    2.准备数据:距离计算所需要的数值,最好是结构化的数据格式。
    3.分析数据:anyway
    4.训练算法:此步骤不适用于k-近邻算法
    5.测试算法:计算错误率
    6.使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k-邻近算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。

    对未知类别属性的数据集中的每个点依次执行以下操作:

    1.计算一直类别数据集中的点与当前点之间的距离
    2.按照距离递增次序排序
    3.选取与当前距离最小的k个点
    4.确定前k个点所在类别出现的频率
    5.返回前k个点出现频率最高的类别作为当前点的预测分类

    具体代码

    import numpy as np
    import operator
    import matplotlib
    import matplotlib.pyplot as plt
    import os
    
    
    def create_date_set():
        group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
        labels = ['A', 'A', 'B', 'B']
        return group, labels
    
    
    '''
    :parameter
    输入向量:in_x, 输入的训练样本:data_set, 标签向量:labels, 
    表示用于选择最近邻居的数目
    '''
    
    
    def classify0(in_x, data_set, labels, k):
        data_set_size = data_set.shape[0]
        # tile(original, (a, b)) 将原来的矩阵行复制倍,列复制a倍
        # 计算欧氏距离
        diff_mat = np.tile(in_x, (data_set_size, 1)) - data_set
        sq_diff_mat = diff_mat ** 2
        # 相加为一个列向量
        sq_distances = sq_diff_mat.sum(axis=1)
        # 开方
        distances = sq_distances ** 0.5
        # 从小到大排列,返回该值在原来值中的索引
        sorted_dist_indices = distances.argsort()
        class_count = {}
        # 计算在邻居中哪一类最多
        for i in range(k):
            votel_label = labels[sorted_dist_indices[i]]
            class_count[votel_label] = class_count.get(votel_label, 0) + 1
        sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)  #
        return sorted_class_count[0][0]
    
    
    # 读取文件,形成数据集和标签
    def file2matrix(filename):
        with open(filename, 'r', encoding='UTF-8') as fr:
            lines = fr.readlines()
            number_of_lines = len(lines)
            mat = np.zeros((number_of_lines, 3))
            class_label_vector = []
            index = 0
            for line in lines:
                line = line.strip()
                content = line.split('\t')
                mat[index, :] = content[0:3]
                class_label_vector.append(int(content[-1]))
                index += 1
            return mat, class_label_vector
    
    
    # 归一化特征值
    def auto_norm(data_set):
        min_value = data_set.min(0)
        max_value = data_set.max(0)
        ranges = max_value - min_value
        norm_data_set = np.zeros(np.shape(data_set))
        m = data_set.shape[0]
        norm_data_set = data_set - np.tile(min_value, (m, 1))
        norm_data_set = norm_data_set / np.tile(ranges, (m, 1))
        return norm_data_set, ranges, min_value
    
    
    # 测试
    def dating_class_test():
        ho_ratio = 0.2
        dating_data_mat, dating_labels = file2matrix("./MLiA_SourceCode/machinelearninginaction/Ch02"
                                                     "/datingTestSet2.txt")
        nor_mat, ranges, min_vals = auto_norm(dating_data_mat)
        m = nor_mat.shape[0]
        num_test_vecs = int(m * ho_ratio)
        error_count = 0.0
        for i in range(num_test_vecs):
            classifier_result = classify0(nor_mat[i, :], nor_mat[num_test_vecs:m, :],
                                          dating_labels[num_test_vecs:m], 3)
            print("the classifier came back with: %d, the real answer is: %d"
                  % (classifier_result, dating_labels[i]))
            if classifier_result != dating_labels[i]:
                error_count += 1
        print("the total error rate is: %f" % (error_count / float(num_test_vecs)))
    
    
    # 约会网站预测函数
    def classify_person():
        result_list = ['not at all', 'in small doses', 'in large doses']
        percent_tats = float(input("percentage of time spent playing video games?"))
        ice_cream = float(input("liters of ice cream consumed per year?"))
        ff_miles = float(input("frequent flier miles earned per year?"))
    
        dating_data_mat, dating_labels = file2matrix("./MLiA_SourceCode/machinelearninginaction/Ch02"
                                                     "/datingTestSet2.txt")
        nor_mat, ranges, min_vals = auto_norm(dating_data_mat)
        in_arr = np.array([ff_miles, percent_tats, ice_cream])
        classifier_result = classify0((in_arr - min_vals) / ranges, nor_mat, dating_labels, 3)
    
        print("You will probably like this person: ", result_list[classifier_result - 1])
    
    
    # 将图片转换为vector
    def img2vector(filename):
        vector = np.zeros((1, 1024))
        with open(filename, 'r', ecoding='utf-8') as fp:
            for i in range(32):
                line_str  = fp.readline()
                for j in range(32):
                    vector[0, 32 * i * j] = int(line_str[j])
    
        return vector
    

    项目地址:https://github.com/RJzz/Machine.git

    关于k值的选择

    1.k值的减小就意味着模型整体变复杂,相当于用较大领域中的训练实例进行预测,容易发生过拟合。
    2.k值过大,意味着整体的模型变简单。
    3.在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。

    后续

    这样的kNN实际上代码非常的高,优化的方法可以是构造kd树,kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。

    相关文章

      网友评论

          本文标题:机器学习实战笔记-k近邻算法

          本文链接:https://www.haomeiwen.com/subject/mquwuxtx.html