美文网首页
(12)监督学习-分类问题-K近邻

(12)监督学习-分类问题-K近邻

作者: 顽皮的石头7788121 | 来源:发表于2018-11-29 12:18 被阅读0次

    KNN模型通过测量不同特征之间的距离进行分类。

    如图:

KNN示意图

    其中距离d(x,y) = \sqrt[p]{\sum_{k=1}^n (x_{k} -y_{k}  )^p  } 基于闵可夫斯基距离;当p= 1时,曼哈顿距离,p=2时,欧式距离;p=无穷时,切比雪夫距离。

    K 值一般通过交叉验证的方式选择。或者2分法等方式选择。

    具体步骤为:

K值选取

     (1) 为了判断未知实例的类别,以所有已知类别的实例作为参照

     (2) 选择参数K

     (3) 计算未知实例与所有已知实例的距离(这个距离可以是高斯距离,余弦值,曼哈顿距离以及相关度)

     (4) 选择最近K个已知实例,其多数表决实际时经验风险最小化。

     (5) 根据少数服从多数的投票法则(majority-voting),让未知实例归类为K个最邻近样本中最多数的类别

    其具体应用有:电影分类——(爱情片,动作片,---打斗次数,接吻次数);约会网站优化;手写字识别。

    优缺点:

        优点:简单,易于理解,容易实现,通过对K的选择可具备丢噪音数据的健壮性

        缺点:(1)需要大量空间储存所有已知实例(2)算法复杂度高(需要比较所有已知实例与要分类的实例)(3)当其样本分布不平衡时,比如其中一类样本过大(实例数量过多)占主导的时候,新的未知实例容易被归类为这个主导样本,因为这类样本实例的数量过大,但这个新的未知实例实际并木接近目标样本(4)无法给出特征的结构信息,即按什么特征进行分类的。

    改进

           (1)考虑距离加上权重

            (2)需要做数值的归一化,将数据归一化到0-1之间,(num-min)/(max-min),一来可以统一量纲,使得不会因为部分特征决定结果。再者可以加快运算。

            (3)通过KD 树简化搜索。KD树是一棵二叉树,表示对K维空间的划分,其搜索时从某一个结点开始回溯其父节点,寻找离它最近的点。其划分时某坐标的中位数(一组数据的中位数)来划分的。寻找超球面与超矩形的范围。

相关文章

  • (12)监督学习-分类问题-K近邻

    KNN模型通过测量不同特征之间的距离进行分类。 如图: 其中距离基于闵可夫斯基距离;当p= 1时,曼哈顿距...

  • 统计学习方法之kNN算法

    k 近邻是什么 k 近邻法是机器学习中最基本的分类和回归方法,也称为kNN算法。通常k近邻法用于分类问题。k近邻法...

  • 【机器学习快速入门教程3】分类-KNN

    章节3:分类 本章节将介绍分类问题,我们将使用最简单的最近邻分类法(k-Nearest)完成。分类是监督学习中最基...

  • 十大经典算法(五)

    六、KNN(K Nearest Neighbor) K近邻(有监督) KNN算法,即K近邻算法是一种监督学习算法,...

  • Machine Learning: 十大机器学习算法

    机器学习算法分类:监督学习、无监督学习、强化学习 基本的机器学习算法:线性回归、支持向量机(SVM)、最近邻居(K...

  • Machine Learning: 十大机器学习算法

    机器学习算法分类:监督学习、无监督学习、强化学习 基本的机器学习算法:线性回归、支持向量机(SVM)、最近邻居(K...

  • 机器学习算法分类

    机器学习算法分类 监督学习(预测)分类:K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络回归:线性回...

  • 机器学习笔记(7):K近邻

    本文来自之前在Udacity上自学机器学习的系列笔记。这是第7篇,介绍了监督学习中的K近邻模型。 K近邻 K近邻模...

  • 机器学习开始了

    监督学习开始 线性回归理论,k近邻算法

  • KNN-K近邻学习

    K近邻算法概述 K近邻(k-Nearest Neighbor,简称KNN)学习是一种常用的监督学习方法,其工作机制...

网友评论

      本文标题:(12)监督学习-分类问题-K近邻

      本文链接:https://www.haomeiwen.com/subject/tmbxcqtx.html