美文网首页
读《谁说菜鸟不会数据分析》2016-05-04

读《谁说菜鸟不会数据分析》2016-05-04

作者: 下雨天怕滑倒2 | 来源:发表于2016-05-05 09:24 被阅读49次

    第四章 数据处理

    前面说了,在进行数据分析前要对我们的数据进行处理,处理是分析前很重要的工作

    1. 数据分析人应该有的心态:“三心二意”

    信心:在没有看到任何积极反馈信息时,依然充满信心,坚持前行

    细心:在历史上无数事例告诉我们一个小数点可能引起一场大灾难,1%的错误=100%的错误,所以一定要细心,对于某些差异性较大的数据要有敏感心

    平常心:争取做到“众人皆醉我独醒,众人皆浊我独清”,宁静致远,洞悉事物本质,做事实事求是

    诚意:严谨真诚

    合意:分析的结果要满足相关需求人员的满意,达到他们的分析目的。这就说明在分析前就要清楚他们需要什么,随时向他们反映分析的细节和进度,以便随时沟通了解需求

    2.第一步:数据清洗

    数据处理中,先要对数据进行清洗,包括三步:去重/补缺/检查逻辑

    去重:找到多余重复的数据删除,这里先说如何找到重复数据

    找重法1)函数法:识别重复数据 使用Excel里的countif函数对满足耽搁条件的单元格计数

    countif(range,criteria),两个参数为要计数的单元格,计数条件

    法2)高级筛选:直接利用[数据]中的[排序和筛选]中[高级]选择[选择不重复的记录]

    法3)条件格式:Excel 里设置了标识重复值的功能,[开始]中的[条件格式]中的[突出单元格规则]中选[重复值]

    法4)数据透视表:将要查的属性放入行标签,再放入值标签就可以看到重复的数据

    删重法1)利用菜单:[数据]中的[删除重复项]

    法2)通过排序:利用函数识别出重复值后针对计数行排序后删除重复[开始]里的[编辑部分]的[排序与的筛选]

    法3)通过筛选,基本操作大致同上

    补缺:一般我们要使用定位输入,先用定位输入找出缺失值为空的单元格,则利用”定位输入”找到所有空白的单元格,[开始]中的[编辑]中单击下拉里的[定位条件]中的[空值]找到所有空值,可以通过4种方法处理缺失

    法1):用一个样本统计量的值代替缺失,一般使用样本的平均值

    法2):用一个统计模型计算出值代替缺失,常用模型为“回归模型,判别模型”,使用专业的分析软件

    法3):删除缺失值记录(会减少样本量)

    法4):将所有的缺失的记录保留,仅在相应的分析中做必要的排除,变量间逻辑关系简单,缺失值较少时可以使用

    此时定位出所有缺失值,在其中一个单元格输入平均值,然后ctrl+enter直接一次填入所有的缺失单元格

    查找ctrl+F 替换ctrl+H

    检查逻辑:错误数据分为:输入错误/录入错误

    对于错误数据,首先利用if检查,错误数据返回“false”正确数据返回“true",再利用[条件格式]检查第二类错误,如输入的数字只能为“0”,“1”,录入其他数字,将单元格突出

    if(logical_test,value_if_true,value_if_false),第一个参数表示表达式,第二个结果“真”返回值,第三个为结果“假”返回值

    检查逻辑错误,[开始]中的[条件格式]中的[突出单元格]的[其他规则]的[使用公式确定单元格]中输入“=or函数()=false”判断,意思是如果单元格的值不是不啦不拉,就突出单元格

    or(logical1,logical2,...)

    and(logical1,logical2,...)

    相关文章

      网友评论

          本文标题:读《谁说菜鸟不会数据分析》2016-05-04

          本文链接:https://www.haomeiwen.com/subject/mlqdrttx.html