美文网首页
数据处理

数据处理

作者: 水调歌头_f072 | 来源:发表于2019-02-17 14:50 被阅读0次

步骤一、数据清洗

1.重复数据处理

•函数法:countif(rang,criteria)对满足指定条件的单元格进行计数。

例:重复标记=countif(A:A,A2)

第二次重复标记=countif($A$2:A2,A2)

$A$2:绝对引用,拖拉公式时2不变,从A2开始。

•高级筛选法

选中区域-数据-排序和筛选-高级

条件格式法

选中区域-样式-条件格式-突出显示单元格规则-重复值

•数据透视表法

插入-数据透视表

删除重复数据

1)通过菜单操作删除重复项

数据-数据工具-删除重复数据

2)通过排序删除重复项

结合函数法,对第二次重复标记得出的值进行排序,前提:复制粘贴数值去除公式。

开始-编辑-排序和筛选-降序-(删除数值大于1的前面几项即可)

3)结合函数法,对第二次重复标记得出的值进行筛选。

数据-筛选-数字筛选-自定义筛选-不等于1

2.缺失数据处理

定位输入(查找空白格)

开始-编辑-查找和选择下拉-定位条件(快捷键:ctrl+G)-空值

处理缺失值的四种方法:

法1:用一个样本统计值替代缺失值,最典型的方法是,用样本平均值代替缺失值。

注:用“ctrl+G”快捷键定位到空白单元格后,可输入平均值,再按“ctrl+enter”即可更改所有被选中的空格。

法2:用统计模型计算值代替(专业软件)

法3:将缺失值删除

法4:保留(数量大,缺失值不多时)

3.错误数据处理

错误形式:

*被调查者输入的选项不符合要求

*录入错误

利用IF函数检查错误

IF(logical_test,value_if_true,value_If_false):执行真假值判断,根据逻辑计算的真假值,返回结果。

IF(表示计算结果为true或false的表达式,为true返回的值,为false返回的值)如,IF(countif(b3:h3,"<>0")>3",错误","正确")

•利用条件格式标记错误

开始-条件格式-突出显示单元格规则-其他规则-使用公式,如=OR(b3=0,b3=1)=false 即找出选项中不等于0和1的选项。

步骤二:数据加工

1.数据抽取

•字段分列

1)菜单法:数据-分列-分格符号-空格

2)函数法:left、right函数

left(text,[num_chars]):得到字符串左部指定个数的字符。

•字段合并(用&或concatenate函数)

如Mr.林迟到比例为10%

1)a3&"迟到比例为"&text(b3,0%)

文本函数:text(值域,文本格式)

2)函数concatenate(text1,text2,...)将几个文本字符串合并为一个文本字符串。

=concatenate(a3,"迟到比例为",text(b3,0%))

字段匹配

Vlookup(在数据表第一列中查找的值,查找的范围,返回的值在查找范围的第几列,近似/精准匹配)

2.数据计算

•简单计算(+ _ * /)

•函数计算

1)平均值与总和

average(number1,number2,...)

sum(number1,number2,...)

2)日期的加减法

date(year,month,day)含有三个参数,分别代表年月日

如,给2011年1月1日加3年、1个月和5天

=date(year(a2)+3,month(a2)+1,day(a2)+5)

注:插入动态日期:today()、now()

3)用函数datedif计算工龄

datedif(start_date,end_date,unit):返回两个日期之间的年/月/日间隔数。

unit有(Y/M/D/YM/MD/YD)六种形式。

YM:忽略日期中的日和年  MD:忽略日期中的年和月  YD忽略日期中的年

如,入职日期2006-10-1(b1表示)

现在日期2010-11-7(b2表示)

工龄(年):=datedif(b1,b2,y)&"年"

工龄(年月):=datedif(b1,b2,y)&"年"&datedif(b1,b2,ym)&"月"

3.数据分组

先分好组,设好阈值,用vlookup函数进行数据分组。

分组的数据接近于阈值又不能小于阈值。

4.数据转换

数据表的行列互换

选择数据复制后,选择粘贴区域,快捷键"ctrl+alt+v",运算中选择"换置"

延伸:在区域中还可以进行"加减乘除"运算,减/除是粘贴区域减/除复制区域。

若是表中数据变负号,则在任意单元格输入“-1”,复制,选择性粘贴到该区域。

多选题录入数据方式之间的转换

(即多重分类法转化为二分类法)

=if(isnumber(hlookup(1,$b3:$d3,1,0)),1,0)

若为5个选项,公式需要修改5次,才能拖拉复制公式,只需修改1-5数值。

数据抽样

rand()为返回[0,1]的均匀分布随机数,而且每次计算工作表时都将返回一个新的数值,若输入公式后按F9,则生成的随机数不再返回新的值。

随机抽样函数:=rand()*(b-a)+a

如,在1-5500中抽取1000个序号。

随机数为=int(rand()*5500),其中int()为取整函数。

相关文章

  • js实现数组对象去重并统计重复个数

    数据处理前 数据处理后

  • 大数据学习导图

    数据获取 数据获取与查看 数据处理 数据处理I:缺失值填补 数据处理II:数据转换 数据处理III:无量纲化 特征...

  • 第一章 spark-streaming的概述

    section 1 spark-streaming是什么 //数据处理的方式角度 流式数据处理 批量数据处理 //...

  • 大数据学习路线

    一、大数据处理流程 上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应...

  • swift JSON转model 使用Codable

    简单数据处理 定义模型名称 json数据定义 数据解析 复杂数据处理 定义json 定义模型 解析数据处理 列表数...

  • Spark Streaming 1.基本操作

    1. 数据分析分类: 流式数据处理:多条数据缓冲一起处理批量数据处理:一条数据一处理 实时数据处理:数据处理延迟时...

  • Python| Pandas

    01 强大的数据处理能力 Python有强大的数据处理能力。我们都使用过Excel,它的数据处理能力已经非常强大,...

  • 实战篇--有关做大数据项目的开发流程

    前言 有关做大数据项目的开发流程数据处理--->后端调用--->前端展示 一、数据处理 数据处理主要负责:看数据是...

  • 无标题文章

    DataEngine数据处理流程 DataEngine数据处理流程包含如下步骤: changevalidatepu...

  • Kaggle_01_Titanic

    1. 数据处理 简单分为三种:缺失数据处理、新特征生成和数据归一化 1.1 缺失数据处理: (1) 直接丢掉 - ...

网友评论

      本文标题:数据处理

      本文链接:https://www.haomeiwen.com/subject/scrgeqtx.html