一、数据处理
定义:对海量数据的收集整理、逻辑运算、分析汇总和论证验证,得出一个简洁的结果。
数据处理的步骤:
1.数据清洗:清楚重复项;填充缺失项;修改错误值。
重复数据处理:
函数法:=COUNTIF(range,criteria)
高级筛选法:选择数据区域---数据---排序和筛选---高级---筛选---选择"将筛选结果复制到其他位置"选项---选择要复制到的区域---勾选"选择不重复的记录"---确定
条件格式法:开始---条件格式---突出显示单元格---重复值
数据透视表法:插入---数据透视表---将字段名拖至行标签,再拖至数值汇总区域
删除重复数据:
通过菜单删除:数据---删除重复项
通过排序删除:使用countif函数的辅助列,降序排列,删除>1的行记录;或者筛选出>1的数据删除。
缺失数据处理:
缺失值是指数据集中某个或某些属性的值是不完全的。处理方法:
(1)用一个样本统计量的值代替缺失值,如平均值等
(2)用一个统计模型计算出来的值去替代缺失值,如回归模型、判别模型等
(3)将缺失值的记录删除,可能会导致样本量的减少
(4)将缺失值保留,仅在相应的分析中做必要的排除
填充空缺值,可用定位条件:Ctrl+G---定位条件---空值---确定,和Ctrl+Enter键实现。
检查错误值:
IF函数:=IF(logical_test, value_if_true, value_if_false)
条件格式标记错误:开始---条件格式---突出显示单元格---其他规则---使用公式确定要设置的单元格---输入公式---格式、调整字体---完成
2.数据加工:
数据抽取:是指保留原数据表中某些字段的部分信息,组成一个新的字段。可以是:
字段分列——截取某一字段的部分信息。可用函数法:LEFT()或RIGHT(),菜单法:数据---分列
字段合并——将某几个字段合并为一个新字段。可用CONCATENATE()或"&"运算符
字段匹配——将原数据表没有但其他数据表中有的字段,有效的匹配出来。可用VLOOKUP或者MATCH+INDEX函数
3.数据计算:
不能从数据源表中的字段提取出来的,需要通过计算才能得到的。
简单计算——加减乘除
函数计算——平均值average()、求和sum()、日期加减date(),DATEIF()
4.数据分组:
首先需要准备分组对应表,确定分组的范围和标准,然后用VLOOKUP函数的近似匹配
5.数据转化:
行列转换——利用选择性粘贴---转置
6.数据抽样:
普查:是指对总体中的对象进行一一观察、访问与记录,确定资料。
抽样调查:是指从调查对象总体中按照随机原则选取一部分对象作为样本进行调查分析,以次推论总体状况的一种调查方式。
抽样调查用RAND()函数:返回[0,1]的均匀分布随机数,而且每次计算工作表时都将返回一个新的数值。若想扩大区间,则用:=RAND()*(B-A)+A (A<B)
本文为《谁说菜鸟不会数据分析-入门篇》第四章读书笔记
网友评论