美文网首页
机器学习--数据预处理

机器学习--数据预处理

作者: YCzhao | 来源:发表于2018-11-28 14:45 被阅读0次

    一. 数据预处理:
    将未加工数据转换成适合分析的形式,包括多数据源的数据融合、
    数据清洗、维规约等等。

    二、为什么要进行预处理:
    原始数据普遍存在问题,必须加以处理才能用于分析,一方面要提高数据质量,另一方面为了更好的使数据适应特定的数据挖掘技术及工具。


    三.数据预处理的功能
    ① 数据集成(Data Integration)
    统一原始数据的矛盾之处(如命名、结构、单位、含义):
    如字段的同名异义、异名同义、单位不统一、字长不一致等,并非简单的复制过程。
    ② 数据变换( Bata Trartsformstian )
    通常用多维数据立方(Data Cube)组织数据,采用数据仓库中的切换、旋转和投影技
    术,把数据空间按照不同的层次、粒度和维度进行抽象和聚集(即数据泛化),从而生
    成在不同抽象级别上的数据集。



    ③ 数据清洗(Data Cleaning )
    Sklearn自带的数据,譬如iris数据集,波士顿房价数据集,质量都很高,没有缺失值,没有异常点,也没有噪音。
    真实数据中,我们拿到的数据可能包含了大量的缺失值,噪音,也可能因为人工录入错误导致有异常点存在,所以我们需要通过一些方法,尽量提高数据的质量。


    数据清洗常见问题
    观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise)
    噪声:被测量的变量的随机误差或者方差(一般指错误的数据)
    离群点:数据集中包含一些数据对象,他们与数据的一般行为或模型不一致。
    (正常值,但偏离大多数数据)

    四. 数据降维
    (1)概念:将数据从高维特征空间向低纬特征空间映射的过程。
    (2)目的:直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。

    五. 为什么要数据降维


    数据降维原因汇总

    六. 数据降维的好处
    有时候也存在特征矩阵过大, 导致计算量比较大,训练时间长的问题。
    降维可以方便数据可视化+数据分析+数据压缩+数据提取等。

    七. 常见的降维方法



    (1)LDA(线性判别式分析)法:
    LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。


    LDA
    (2)PCA(主成分分析)法:
    主成分分析(Principal components analysis,以下简称PCA)是重要的降维方法之一。

    PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。


    PCA
    PCA在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用,是不考虑样本类别输出的无监督降维技术。

    八 . PCA与LDA方法的区别:
    不同:
    1)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
    2)LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。
    3)LDA不适合对非高斯分布样本进行降维,PCA也有这个问题。
    4)LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
    5)LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。
    6)LDA可能过度拟合数据
    7)LDA是有监督的降维方法,而PCA是无监督的降维方法
    8)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
    9)LDA除了可以用于降维,还可以用于分类。
    10)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

    相同:
    1)两者均可以对数据进行降维。
    2)两者在降维时均使用了矩阵特征分解的思想。
    3)两者都假设数据符合高斯分布。

    相关文章

      网友评论

          本文标题:机器学习--数据预处理

          本文链接:https://www.haomeiwen.com/subject/vpwaqqtx.html