美文网首页
使用数据挖掘帮助决定-数据预处理

使用数据挖掘帮助决定-数据预处理

作者: 数据小新手 | 来源:发表于2018-09-09 10:23 被阅读0次

数据探索和预处理。

注意异常值

注意空值。

把绝对值替换成ratio

计算变量随时间的变化

变量之间的先行组合。

对变量进行操作,取log,取根号

离散变量数值化。

修改单位,

年龄离散化

经纬度坐标转换

创建变量

出生日期可以转化年龄。

均值,方差,最大,最小,最近的频率

使用频率,

删除变量

删除共线性变量,在线性模型中要去除共线性

删除对于结果不想关的变量

降维PCA.

变量类型

1.连续型变量

通过分桶变为离散值

2.离散型变量

变量检测

1.空值检测,异常值检测

2.年龄,人口收入的数据的量级

3.连续变量离散化

1.取1%,10%,25%,50%,75%,90% 99%分位数,通常1%和99%分位数都会被排除,由于太极端。

2.确定变量没有起相同。

3.年龄这些值有范围,需要确定树脂是否在一定范围

Table 3.2 Contingency table. (frequency in thousands)

<20 years

20–64 years

!65 years

TOTAL

TOTAL

15 150

34 250

8 858

58 258

DETECTION OF RARE OR MISSING VALUES 45

Single  Married  Widowed  Divorced 

15 144  100%  6  0%  0  0%  0  0% 

10 935  32%  20 048  59%  844  2%  2 423  7% 

696  8%  4 755  54%  3 079  35%  328  4% 

26 775  46%  24 809  43%  3 923  7%  2 751  5% 

确定缺失原因

是由于偶然缺失还是不完全的观测。如果是不完全的观测,则会导致分析的偏差。

1.不使用该变量,或着用一个相似的变量代替

2.用统计方法填充该值,均值,或中位数,回归,聚类,活用模型预测

3.把缺失值当成一列变量。

当缺失的比例超过15%的时候不应该使用2,3方法。

检测异常值

异常值不一定是极端值,极端值也不一定是异常值。要充分理解数据才能对此进行区分。

是变量的原因还是样本的原因

异常值通常出现的情况

1.固有的日期,不可能出现,

2.bussiness 出现为private

3.单位不统一。

4.性别有多种值

5.职业从业不更新,一直显示学生

6.电话号码格式不正确

检测异常值的方法

1删除这个观测,查看是分布

2把该变量删除,查看该变量是否需要放进去。

3.把这个变量的异常值换成正常值。

1.如果该异常值的范围不在正常范围,应删除

2.如果这个变量会导致结果变差,则应该删除该变量

3.如果该变量只有几个异常值,那应该想办法消除异常值的影响

4.如果变量有大量不正确的值,那么应该避免使用该变量

5.如果该变量特征很强,而且包含少量的异常值,可以把他们替换为空值,然后单独作为一个变量

相关文章

  • 使用数据挖掘帮助决定-数据预处理

    数据探索和预处理。 注意异常值 注意空值。 把绝对值替换成ratio 计算变量随时间的变化 变量之间的先行组合。 ...

  • 1分钟了解数据分析挖掘体系

    总体上来讲,数据分析挖掘体系可分为数据预处理、分析挖掘、数据探索、数据展现和分析工具。 数据预处理 数据预处理包含...

  • 数据挖掘基本任务

    定义挖掘目标 数据取样 数据探索 数据预处理 挖掘建模* 模型评价 平均水平的指标是对个体集中趋势的度量, 使用最...

  • 数据预处理

    一、引述 低质量的数据导致低质量的数据挖掘结果,因此需要对数据进行预处理,提高数据质量,提高数据挖掘结果。预处理技...

  • 数据预处理

    数据ETL: 数据挖掘一般过程: 数据探索: 数据预处理

  • Python数据分析与数据挖掘思路

    Python数据分析与数据挖掘思路分为四大模块:数据获取、数据探索、数据预处理、挖掘建模

  • 算法笔记(13)数据预处理及Python代码实现

    常用数据预处理工具:使用StandardScaler进行数据预处理、使用MinMaxScaler进行数据预处理、使...

  • 如何做好数据预处理(一)

    数据分析中,需要先挖掘数据,然后对数据进行处理。数据预处理的字面意思就是对于数据的预先处理,数据预处理的作用就是为...

  • 数据挖掘-数据预处理

    数据预处理的主要步骤包括数据清理、数据集成、数据归约和数据变换。数据清理可以用来清除数据中的噪声,纠正不一致。数据...

  • 数据预处理

    数据预处理一方面提高数据的质量,另一方面是要让数据更好的适应特定的挖掘工具。统计发现,在数据挖掘过程中,数据预处理...

网友评论

      本文标题:使用数据挖掘帮助决定-数据预处理

      本文链接:https://www.haomeiwen.com/subject/gsrnextx.html