美文网首页
03-特征预处理

03-特征预处理

作者: jxvl假装 | 来源:发表于2019-10-01 14:48 被阅读0次

特征的预处理:对数据进行处理。通过特定的统计方法(数学方法)将数据转换成算法要求的数据

两种方式:

  1. 归一化
  2. 标准化

数值型数据:标准缩放

  1. 归一化:通过对原始数据进行变换把数据映射到0-1之间。 在这里插入图片描述
    • 作用于:每一列
    • 什么时候进行归一化:当多个特征同等重要的时候,使得一个特征不会对最后的结果造成更大的影响,只适合传统精确小数据场景
    • 数据当中如果异常点较多,会有什么影响?:异常点对最大值最小值影响太大
    • 缺点:归一化对异常点的数据处理不是很好
  2. 标准化:使用最广泛的,通过对原始数据进行变换把数据变换到均值为0,标准差(方差开方)为1的范围内。作用于每一列。 公式见ppt74页
    • ps:由于数据量(较大)的关系,异常点对平均值的影响不大(公式里面用到了平均值)
    • 特点:在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景
    • 缺失值:主要是用pandas进行处理
      • 如何处理:
        • 删除(结合数据量考虑,一般不考虑删除)
        • 填补:可以按行或按列,一般建议按列
      • sklearn中处理缺失值的类:Imputer。注意:数据必须是np.nan
        pandas中对缺失数据进行处理:pd.dropna,pd.fillna。注意:缺失值应为np.nan,float类型
  • 类别型数据:ont-hot编码

  • 时间类型:时间的切分

  • sklearn特征处理api:sklearn.preprocessing.

from sklearn.preprocessing import MinMaxScaler


def mm():
    """
    归一化处理
    :return: None
    """
    mm = MinMaxScaler(feature_range=(0, 1))  # 参数的默认范围是0-1
    data = mm.fit_transform([[90, 2, 10, 40],
                             [60, 4, 15, 45],
                             [75, 3, 13, 46]]
                            )  # 注意:数据为2维列表形式
    print(data)


from sklearn.preprocessing import StandardScaler


def stand():
    """
    标准化缩放
    :return: None
    """
    std = StandardScaler()
    data = std.fit_transform([[1., -1., 3.],
                              [2., 4., 2.],
                              [4., 6., -1.]]
                             )  # 注意,2维数组
    print(data)  # 会发现每一列(每一个特征)的平均值都是0
    return None


from sklearn.impute import SimpleImputer
import numpy as np

def im():
    """
    缺失值处理
    :return: None
    """
    im = SimpleImputer(missing_values=np.nan, strategy="mean")
    data = im.fit_transform([[1, 2],
                      [np.nan, 3],
                      [7, 6]]
                     )
    print(data) #(1,0)位置为4
    return None


if __name__ == "__main__":
    # mm()
    # stand()
    im()

相关文章

  • 03-特征预处理

    特征的预处理:对数据进行处理。通过特定的统计方法(数学方法)将数据转换成算法要求的数据 两种方式: 归一化 标准化...

  • 特征工程-特征预处理

    特征工程 -Data PreProcessing(数据预处理)-Feature Extraction(特征提取)-...

  • 0713机器学习 算法

    难点:数据预处理与特征工程

  • 特征预处理

    数据比算法重要。数据决定了机器学习的上限,而算法只是去尽可能的逼近这个上限。这里的数据不是指原始数据,而是经过特征...

  • 特征预处理

    前言 特征工程在机器学习中占有相当重要的地位,,那么特征工程是什么呢? 特征工程是利用数据领域的相关知识来创建能够...

  • 特征预处理

    梳理需要哪些数据 评估可用性 (获取难度、准确率、覆盖率) 特征清洗 清洗异常样本 采样,正负样本均衡 采样,样本...

  • 特征工程:特征预处理

    虽然现在深度学习非常盛行,它可以自动进行特征工程,但是实际工作中往往没有那么多数据量支撑你使用深度学习模型,因此对...

  • 高级特征工程和预处理的四个技巧

    可以说,开发机器学习模型的两个最重要的步骤是特征工程和预处理。特征工程包括特征的创建,而预处理涉及清理数据。 折磨...

  • 机器学习入门(猴子live)

    数据处理步骤 获得数据预处理数据特征提取特征选择和特征降维 数据预处理6个步骤 1.选择子集2.列名重命名3.缺失...

  • tflite模型推理

    模型输入的预处理 这个预处理其实就是模型训练阶段的预处理流程,和它对齐就好,特征工程常见的一些预处理包括了: 图像...

网友评论

      本文标题:03-特征预处理

      本文链接:https://www.haomeiwen.com/subject/rfluuctx.html