美文网首页
网络数据挖掘-L8 分类

网络数据挖掘-L8 分类

作者: gb_QA_log | 来源:发表于2018-07-12 15:23 被阅读0次

title: 网络数据挖掘-L8 分类
date: 2017-07-26 11:47:07
categories: DataMining
mathjax: true
tags: [WebDataMining]


L8 Classification

KNN分类

算法步骤:

step.1---初始化距离为最大值
step.2---计算未知样本和每个训练样本的距离dist
step.3---得到目前K个最临近样本中的最大距离maxdist
step.4---如果dist小于maxdist,则将该训练样本作为K-最近邻样本
step.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完
step.6---统计K-最近邻样本中每个类标号出现的次数
step.7---选择出现频率最大的类标号作为未知样本的类标号

由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成正比(组合函数)。

KNN的不足

  • 该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。
    • 对于这个问题,可以采用权值的方法(和该样本距离小的邻居权值大)来改进。
  • 该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。
    • 目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

贝叶斯分类

见《模式识别》课程

相关文章

  • 网络数据挖掘-L8 分类

    title: 网络数据挖掘-L8 分类date: 2017-07-26 11:47:07categories: D...

  • 电商数据挖掘常用到的方法

    大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等,这些方法从不同的角度对数...

  • 数据挖掘-分类

    分类--逻辑回归,朴素贝叶斯,决策树,随机森林,GDBT,XGBoost 分类评估--正确率,精度,召回率,F1值...

  • 分类算法与数据挖掘

    ################分类算法与数据挖掘---也就是回归于分类算法--对应于Y的0/1算法 ####分类...

  • 数据挖掘的分类

    数据挖掘可以分为两大类一类为描述性的数据挖掘,另一类为预测性的数据挖掘。其中描述性的数据又分为关联规则,聚类分析,...

  • 第一章 数据挖掘基础

    数据挖掘的基本任务:分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐数据挖掘建模过程:1)定义挖掘目标...

  • 无标题文章

    # 算法学习 标签(空格分隔): 未分类 数据结构 数据挖掘 Tags : 为分类 --- >在此输入正文 #py...

  • 获取社交网络数据的方式汇总|网络挖掘必备技能

    网络型数据挖掘是一项主流的、重要的数据挖掘技术,常见的如社交网络、购物网络、金融网络等网络类型在生活中无处不在,做...

  • 文本挖掘

    文本挖掘,指从大量文本集合中发现隐含的模式 。网络文本挖掘是对网上那个大量文本进行表示、特征提取、网络总结、分类、...

  • 机器学习系列之分类

    随着计算能力、存储空间、网络的高速发展,人类所积累的数据量正在快速增长,而分类在数据挖掘中是一项非常重要的任务,目...

网友评论

      本文标题:网络数据挖掘-L8 分类

      本文链接:https://www.haomeiwen.com/subject/oocrpftx.html