美文网首页
4. 数据处理

4. 数据处理

作者: 柄志 | 来源:发表于2018-07-31 16:40 被阅读0次

数据清洗

数据清洗就是将重复的数据筛选清除、将缺失的数据补充完善、将错误的数据纠正或删除

处理重复数据

查找重复数据

COUNTIF函数
  • COUNTIF(range,criteria):统计满足某个条件的单元格的数量
  • range:要统计的单元格的范围
  • criteria:计算条件,可为数字、文本或表达式
高级筛选
  • 数据-排序和筛选-高级:(高级筛选)-选择不重复的记录
条件格式
  • 开始-条件格式-突出显示单元格规则-重复值
数据透视表
  • 将字段同时拖到“行”标签和“值”汇总区域
  • 值字段设置选择“计数”

删除重复数据

菜单操作
  • 数据-数据工具-删除重复项(选择包含重复值的列)
排序
筛选

处理缺失数据

缺失值最常见的表现形式是空值或错误的标识符。

处理缺失值的方法

  1. 用一个样本统计量的值代替缺失的值(例如平均值)
  2. 用一个统计模型计算出来的值去代替缺失值
  3. 将有缺失值的记录删除
  4. 将有缺失值的记录保留,仅在相应的分析中做必要的排除
定位输入
  • Ctrl+G
  • Ctrl+Enter
查找替换
  • Ctrl+H

检查逻辑错误

IF函数
  • IF(logical_test,value_if_true,value_if_false):执行真假值判断,根据逻辑计算的真假值,返回结果
  • logical_test:计算结果为TRUE或FALSE的表达式
  • value_if_true、value_if_fals:分别为TRUE、FALSE时的返回值
  • 条件表达式用比较运算符(<、=、>)建立,“<>”表示不等于
  • 值若是数字可直接书写,若是文本数据需用双引号(" ")标记

条件格式

  • 开始-条件格式-突出显示单元格规格-其他规则-使用公式确定要设置格式的单元格
  • OR(logical1[,logical2,…):至少一个参数为真,则返回TRUE
  • AND(logical1[,logical2,…):所有参数为真,才返回TRUE

数据加工

数据加工时在数据清洗的基础上对数据字段进行信息提取、计算、分组、转换等加工,得到需要的数据表

数据抽取

字段分列

分列
  • 数据-数据工具-分列-分隔符号(或固定宽度)
LEFT、RIGHT函数
  • LEFT(text,[num_chars]):得到字符串左边指定个数的字符
  • RIGHT(text,[num_chars]):得到字符串右边指定个数的字符
  • MID(text,star_num,num_chars):得到文本字符串中指定起始位置起返回的指定长度的字符

字段合并

&
  • TEXT(value,format_text):根据指定的数字格式将数字转成文本
  • value:数值、能够返回数值的公式或对数值单元格的引用
  • format_text:文字形式的数字格式
CONCATENATE函数
  • CONCATENATE(text1,text2,…):将多个文本字符串合并成一个
  • text可以是字符串、数字或对单个单元格的引用

字段匹配

VLOOKUP函数

VLOOKUP函数的作用是在表格的首列查找指定的数据,并返回指定的数据所在行中的指定列处的单元格

  • VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)
  • lookup_value:要在第一列查找的值
  • table_array:包含数据的单元格区域,第一列应当是由lookup_value搜索的值
  • col_index_num:应返回匹配值在table_array中的列序号
  • range_lookup:逻辑值,若要近似匹配使用TRUE(或0)或省略,若要精确匹配使用FALSE
  • 近似匹配识别小于等于lookup_value的值
  • 一般使用精确匹配
HLOOKUP函数

HLOOKUP函数的作用是在表格的首行查找指定的数据,并返回指定的数据所在列中的指定行处的单元格

  • HLOOKUP(lookup_value,table_array,row_index_num,range_lookup)
  • lookup_value:要在第一行查找的值
  • table_array:包含数据的单元格区域,第一列应当是由lookup_value搜索的值
  • row_index_num:应返回匹配值在table_array中的行序号
  • range_lookup:逻辑值,若要近似匹配使用TRUE(或0)或省略,若要精确匹配使用FALSE
  • 近似匹配识别小于等于lookup_value的值
  • 一般使用精确匹配
SEARCH函数
  • SEARCH(find_test,within_text,start_num):返回指定的字符串在原始字符串中首次出现的位置
  • find_test:要查找的文本字符串
  • within_text:被搜索字符串
  • start_num:数字值,指定从被搜索字符串左侧第几个字符开始查找,省略则为1
  • 可以使用问号(?)和星号(*)作为通配符,分别可代表任何一个字符和任何字符串,两个符号前加“~”表示转义

数据计算

简单计算

  • 字段通过加、减、乘、除等简单算术运算即可计算

函数计算

总和与平均值
  • SUM()
  • AVEGAGE()
日期
  • DATE(year,month,day)
  • DATEIF(start_date,end_date,unit)
  • start_date、end_date:起始与结束日期
  • unit:所需信息的返回时间单位代码,有"y"、"m"、"d"、"md"、"ym"、"yd"6种形式
  • "y"返回时间段中的整年数
  • "m”返回时间段中的整月数
  • "d"返回时间段中的天数
  • "md"返回起始日期与结束日期的同月间隔天数,忽略日期中的月份和年份
  • "yd"返回起始日期与结束日期的同年间隔天数,忽略日期中的年份
  • "ym"返回起始日期与结束日期的间隔月数。忽略日期中年份

数据分组

  • 可使用VLOOKUP函数的近似匹配

数据转换

数据表的行列转换

选择性粘贴
  • 开始-剪切板-粘贴-选择性粘贴-转置
  • Ctrl+Alt+V

数据抽样

RAND函数
  • 返回[0,1]的均匀分布随机数
  • 每次计算工作表时都将返回一个新的数值
  • 编辑状态按f9键生成的随机数将永久保存,不再返回新值

相关文章

  • 4. 数据处理

    数据清洗 数据清洗就是将重复的数据筛选清除、将缺失的数据补充完善、将错误的数据纠正或删除 处理重复数据 查找重复数...

  • 第13天日志定位

    日志定位 前端1.收集数据2.数据校验3.数据处理4.数据解析5.数据展现后端1.数据解析2.数据校验3.数据处理...

  • PythonLog171020

    本周开始确定学习方向1.科学计算2.数据处理3.机器语言4.深度学习目前第一阶段主要是科学计算,数据处理。Pyth...

  • 数据挖掘过程常用函数总结

    1. 数据处理 2. 数据可视化 3.特征工程 4. 创建模型 5. 其他

  • 4.坏数据处理(丢弃、填补)

    丢弃数据 丢弃数据即根据过滤条件丢弃掉部分无用数据。 默认情况下axis=0(对行操作)。 三种方法: 根据标签 ...

  • 4.数据处理案例——民调统计

    需求:把民调结束时间转换成yy-mm的形式,按照月份,统计特朗普和希拉里民调的和 1. 引入所需模块 2. 数据文...

  • 4. Fastjson (数据处理成JSON)

    Fastjson Github 链接有一个小坑,就是时间处理,对应Mysql的Timestamp可以使用 来处理一...

  • 基于xgboost对公共自行车投放预测总结

    目录1.XGboost模型概述2.数据处理3.调参4.提交预测结果 1.XGboost模型概述 1.1 xgbo...

  • Pytorch--模型搭建思路

    参考代码1.超参设置 main.py 2.数据处理 load_data.py 3.模型初始化4.模型的训练

  • R 数据处理(十四)—— tidyr

    R 数据处理(十四)—— tidyr 4. 分隔和合并 到目前为止,你已经学会了如何整理 table2 和 tab...

网友评论

      本文标题:4. 数据处理

      本文链接:https://www.haomeiwen.com/subject/stmhvftx.html