美文网首页
一个奇异值的江湖 -- 机器学习观

一个奇异值的江湖 -- 机器学习观

作者: 史春奇 | 来源:发表于2017-11-01 11:10 被阅读77次

​前面我们熟悉了经典统计处理outlier的方法。 这里会说明常见的机器学习的方法。

在展示算法之前, 有几类特殊的数据类型可能需要强调一下, 因为这些数据特性会影响到具体算法的选择的:

1.基于距离的数据 (Distance based)

2.相关性维度的数据 (Correlated dimensions)

3.类别数据 (Categorical data)

4.高维度数据 (High dimensional)

机器学习方法

机器学习根据是否有监督一般可以分为三类:supervised, unsupervised, semi-supervised。

为什么要探讨这三种模式,其实主要看你是否有经验数据的积累。

1)  一般来说, 如果你之前人工收集了大量的outlier数据的积累, 你想把这些信息有效的用起来, 那么监督学习是最好的。

2) 但是如果你没有outlier的积累, 或者这种手工积累太麻烦, 你就希望自动找出一些outlier来。

3) 如果你通过无监督找到一部分oulier,然后交互式的标记一些, 然后希望找到更为精确, 那么半监督就是一个很好的方式。

有监督 (Supervised)

1. GaussianMixture Model (GMM, 高斯混合模型) :

2. Bayesian Networks (贝叶斯网络)

3.Support Vector Machine (SVM, 支持向量机):

4.Multi-Layer Perceptron (MLP, 多层神经网络):

5.KNearest Neighbor  (KNN, K 近邻)

Rule-based Systems (基于规则的系统):

无监督(Unsupervised)

6.DBScan(Density based, 基于密度的聚类)

7. Spectral Clustering (谱聚类)

8. Principal component analysis (PCA, 主成分分析, Dimension Reduction, 维度压缩)  高维数据

半监督(Semi-supervised)

Collective anomaly anlaysis (聚集的奇点分析)

优缺点说明

有监督

优点:

能进一步区分outlier的更细的类别。

对于新增数据不需要重新计算

缺点:

要求有大量的标记数据集

不能捕捉未知outlier

部分分类算法不能给定是outlier的可能性

无监督

优点:

不需要已标记数据

能够给定outlier额外的距离,或者概率信息

缺点:

对样本的采集有很高要求, 要求样本分布和真是分布一直。

对于分布复杂的数据有一定局限性。

对聚类算法本身过于敏感。

新数据来的计算量会比较大。

半监督

优点:

能够兼顾有监督和无监督的优点

缺点:

没有固定的算法

需要领域背景知识

机器学习  VS  经典统计

经典统计:

优点:

统计正确,容易解释

可以看成无监督过程

缺点:

对样本和假设检验的设定要求高

对于复杂结构的数据难以处理

机器学习:

优点:

可用的方法选择多, 大量现有工具

适用的数据范围广

缺点:

1. 存在可解释性的问题

参考:

https://en.wikipedia.org/wiki/Local_outlier_factor

相关文章

  • Outlier 预处理流程图

    ​我们在“一个奇异值的江湖 -- 经典统计观” 和 “一个奇异值的江湖 -- 机器学习观” 里面我们介绍了Outl...

  • 一个奇异值的江湖 -- 机器学习观

    ​前面我们熟悉了经典统计处理outlier的方法。 这里会说明常见的机器学习的方法。 在展示算法之前, 有几类特殊...

  • 矩阵

    一、奇异值与特征值基础知识: 特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我...

  • 奇异值分解(SVD)原理与在降维中的应用

    奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算...

  • 利用 SVD 实现协同过滤推荐算法

    奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算...

  • SVD奇异值分解

    奇异值分解(Singular Value Decomposition,简称为SVD)是机器学习中非常基础的算法,主...

  • 机器学习 (七)奇异值分解-SVD

    降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程...

  • 机器学习基础:奇异值分解(SVD)

    SVD 原理 奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解...

  • 特征值和奇异值

    特征值和奇异值经常弄混~ 首先理解特征值分解和奇异值分解:矩阵的特征值分解考虑的是一个到自身的映射矩阵,奇异值分解...

  • 矩阵论相关概念理解

    奇异值 奇异值的物理意义:奇异值中往往对应着矩阵隐含的重要信息,且重要性与奇异值的大小呈正相关。每个矩阵A都可以表...

网友评论

      本文标题:一个奇异值的江湖 -- 机器学习观

      本文链接:https://www.haomeiwen.com/subject/cevwpxtx.html