美文网首页
数据挖掘之离群点检测的方法

数据挖掘之离群点检测的方法

作者: afansdie | 来源:发表于2019-07-31 20:38 被阅读0次

离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。

离群点的检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。

(1)离群点的成因

离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和手机误差。

(2)离群点的类型

从数据范围来看,分为全局离群点和局部离群点,整体来看,某些对象没有离群特征,但是从局部来看,却显示了一定的离群性。

从数据类型来看,分为数值型离群点和分类型离群点,这是以数据集的属性类型进行划分的。

从属性的个数来看,分为一维离群点和多维离群点,一个对象可能有一个或多个属性。

(3)离群点的检测方法

基于统计:

大部分的基于统计的离群点检测方法是构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为离群点。基于统计模型的离群点检测方法的前提是必须知道数据集服从什么分布;对于高维数据,检验效果可能很差。

基于邻近度:

通常可以在数据对象之间定义邻近性度量,把原理大部分点的对象视为离群点。二位或三维的数据可以做散点图观察;大数据集不适用;对参数选择敏感;具有全局阈值,不能处理具有不同密度区域的数据集

基于密度:

考虑数据集可能存在不同密度区域这一事实,从基于密度的观点分析,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;大数据集不适用;参数选择是困难的。

基于聚类:

一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇;另一种更系统的方法,首先聚类所有帝乡,然后评估对象属于簇的程度。基于聚类技术来发现离群点可能是高度有效的;聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。

基于统计模型的离群点检测方法需要满足统计学原理,如果分布一直,则检验可能非常有效。基于邻近度的离群点检测方法比统计学方法更一般、更容易使用,因为确定数据集有意义的邻近度量比确定他的统计分布更容易。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度常用邻近度定义:一种是定义密度为到K个最邻近的平均距离的倒数,如果该距离小,则密度高;另一种是使用DBSCAN聚类算法,一个对象周围的密度等于该对象指定距离d内对象的个数。

相关文章

  • 异常检测算法速览(Python代码)

    一、异常检测简介 异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点、异常值检测等等。 1...

  • 数据挖掘之离群点检测的方法

    离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信...

  • 异常点检测方法

    一、基本概念 异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。 常见的异常成因:数据来源于不同的类(异常对象...

  • 孤立森林(Isolation Forest)从原理到实践

    异常检测 离群点是在给定数据集中,与其他数据点显著不同的数据点。异常检测是找出数据中离群点(和大多数数据点显著不同...

  • Python数据挖掘014-离群点检测

    离群点检测是数据挖掘中的第五个经典应用领域。它的任务是发现于大部分其他对象显著不同的对象。 离群点的属性值明显偏离...

  • 【2018-10-07】离群点检测

    异常检测 全局离群点(显著的偏离数据集中的其余对象) 情境离群点(在特定情境,显著的偏离数据集中的其余对象) --...

  • 异常检测之LOF算法

    简介 LOF算法(Local Outlier Factor,局部离群因子检测方法),是一种无监督的离群检测方法,是...

  • 数据挖掘(异常检测)——线性方法

    DataWhale 组队学习 2021.05 组队学习系列笔记三 补充内容:一、PCA实现流程,设有 m 条 n ...

  • TOCC数据异常检测一

    一、什么是异常检测 数据中的异常数据通常被认为是异常点、离群点或孤立点,这些数据的特征与大多数数据不一致,呈现出“...

  • 数据挖掘算法(一)

    数据挖掘,根据我的学习,包括数据预处理、数据模式分析、数据分类、数据聚类分析、离群值分析等。 前言 其实我们在中学...

网友评论

      本文标题:数据挖掘之离群点检测的方法

      本文链接:https://www.haomeiwen.com/subject/durxdctx.html