数据预处理是指对获取到的原始数据进行合并、清洗和转换,从而让数据结构化、规范化、易于分析。
数据预处理是整个分析阶段耗时最长的部分,需要花时间将杂乱无章、格式不规范的数据处理成条理清晰、逻辑清楚、规整有序的数据表。数据预处理可以说是数据分析中十分重要的一个环节,因为Excel中的数据关系、函数逻辑缜密,一个微小的差错就能导致整个分析结果出现巨大偏差。
在做预处理之前,需要先了解下常用函数的运算逻辑。
了解Excel常用的函数
函数是用来完成计算的一种方便、快捷的工具。
Excel中的函数有很多,进行数据分析的话,只需掌握常用的函数即可。
在Excel中函数由函数名+括号+参数组成,参数可无。函数公式表示方式如下
=函数名(参数1,参数2,…)
图1 - Excel中的函数类型及函数总数图2 - DAYS函数用法及示例 图3 - DATEDIF函数用法及示例 图4 - 其它常见函数及其用法
在写函数时,需要注意以下几点:(1)函数名前必须有等号,否则不能成功运用该函数;(2)函数中的符号,如逗号、引号等都是英文状态下的半角字符,否则会报错;(3) 嵌套函数时要注意多个括号是否完整。
数据预处理的第一步就是数据清洗,数据本身是一座金矿、一种资源,沉睡的资源是很难创造价值的,它必须经过清洗、分析、建模、可视化等过程加工处理之后,才真正产生价值。
数据清洗的目的是发现并纠正数据文件
数据清洗是发现并纠正数据文件中可识别错误的一道程序,该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据,有利于后续的统计分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除、检查数据一致性。如何对数据进行有效的清理和转换使之成为符合数据挖掘要求的数据源是影响数据挖掘准确性的关键因素。
1、缺失值的判断和处理
缺失值即数据值为空的值,又称“空值”。由于人为和系统的原因,原始数据表中不可避免地会出现空值,数据清洗的第一步就是要找出空值并选择合适的方法进行处理。寻找空值有很多方法,这里提供筛选和定位空值两个思路:
(1)筛选空值
在数据量较少的情况下,筛选空值是很有效的方法。选中原始数据表的标题行,单击【数据】→【排序和筛选】→【筛选】按钮,发现每一列字段右侧都出现了下拉按钮,这时便可以对字段进行筛选了,如图所示
图5 - 通过筛选功能对空值进行数据清洗对【部门】列进行筛选,发现有空值的,勾选【空白】复选框,就可以将空值筛选出来。同理,可以找出每一列的空值。
(2)定位空值
定位空值要用到【定位条件】选项,具体操作如下。选中整张表,选择【开始】→【编辑】→【查找和选择】→【定位条件】选项,如图所示:
图6 - 通过定位条件查找空值在弹出的【定位条件】对话框中选择【空值】选项,单击【确定】按钮。可以看到,整张表中所有的空值都被选中了。
图7 - 定位空值(3)处理空值
对于空值的处理,需结合实际的数据和业务需求,一般来说有以下3种处理方式:删除、保留、使用替代值。
删除:顾名思义就是将含有空值的整条记录都删除。删除的优点是删除以后整个数据集都是有完整记录的数据,且操作简单、直接;缺点是缺少的这部分样本可能会导致整体结果出现偏差。
保留:优点是保证了样本的完整性;缺点是需要知道为什么要保留、保留的意义是什么、是什么原因导致了空值(是系统的原因还是人为的原因)。这种保留建立在只缺失单个数据且空值是有明确意义的基础上。
使用替代值:指用均值、众数、中位数等数据代替空值。使用替代值的优点是有理有据;缺点是可能会使空值失去其本身的含义。对于替代值,除了使用统计学中常用的描述数据的值,还可以人为地赋予空值一个具体的值。
2、重复值的判断与处理
获取数据的时候可能由于各种原因出现数据重复的情况。对于这样的数据,我们没必要重复统计,因此需要找出重复值并删除。这里提供一种寻找重复值的思路:COUNTIF()函数。
图8 - 常用统计函数函数:COUNTIF(Range,Criteria)
作用:计算特定区域中满足条件单元格的数量
模板:COUNTIF(统计区域,条件)
参数解释:Range为要统计的区域,Criteria为统计条件。对于重复值,一般应删除
3、异常值的判断与处理
异常值即数据中出现的个别偏离其余观测值范围较多的值。
异常值的判断标准又是什么呢?
统计学上的异常值是指一组数据中与平均值的偏差超过两倍标准差的值,而在业务层面上,如果某个类别变量出现的频率非常少,也可以判断其为异常值。对异常值的判断除了依靠统计学常识外,更多依靠的是对业务的理解。
从技巧上来说,对异常值的判断还需要多种函数相互结合。如直接删除或者在认为合理的情况下更改异常值。直接删除的情况是异常值对数据分析没有特别大的帮助且会形成误导,因此删除就好;而可更改异常值的情况是通过经验判断,我们有把握将异常值改为正常值。更改异常值的好处是不必删除数据,保存了数据的完整性;坏处是不确定更改的异常值是否正确。这两种处理方式在实际情况中可酌情使用。
4、不规范数据的处理
在实际工作中,总是不可避免地会遇到不规范的数据。下面就来讲解如何将这些不规范的数据处理成规范的数据。
(1)处理合并单元格
合并单元格不应该出现在原始数据表中,但可以出现在数据展示表中,当原始数据表中出现了合并单元格的情况时,我们需要对合并单元格的数据进行处理。常用的方法是取消合并单元格,并做相应的填充。选中某些已合并数据,单击【开始】→【对齐方式】→【合并后居中】按钮,取消该区域中已合并的单元格。并对已分开的单元格进行内容填充。
(2)删除或填充表中的空行
表中多余的空行必须删除,否则会对后续的处理和分析造成误导。对于少量的数据,我们可以直接看到空行并删掉。但对于大量的数据,如何快速删除多余的空行呢?运用最广泛的功能就是定位空值。只要能定位出空值,不管是批量填充还是删除行,就都很好处理了。
数据清洗是数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了后续研究型数据分析的结果准确性。
网友评论