美文网首页
4. 数据处理

4. 数据处理

作者: 柄志 | 来源:发表于2018-07-31 16:40 被阅读0次

    数据清洗

    数据清洗就是将重复的数据筛选清除、将缺失的数据补充完善、将错误的数据纠正或删除

    处理重复数据

    查找重复数据

    COUNTIF函数
    • COUNTIF(range,criteria):统计满足某个条件的单元格的数量
    • range:要统计的单元格的范围
    • criteria:计算条件,可为数字、文本或表达式
    高级筛选
    • 数据-排序和筛选-高级:(高级筛选)-选择不重复的记录
    条件格式
    • 开始-条件格式-突出显示单元格规则-重复值
    数据透视表
    • 将字段同时拖到“行”标签和“值”汇总区域
    • 值字段设置选择“计数”

    删除重复数据

    菜单操作
    • 数据-数据工具-删除重复项(选择包含重复值的列)
    排序
    筛选

    处理缺失数据

    缺失值最常见的表现形式是空值或错误的标识符。

    处理缺失值的方法

    1. 用一个样本统计量的值代替缺失的值(例如平均值)
    2. 用一个统计模型计算出来的值去代替缺失值
    3. 将有缺失值的记录删除
    4. 将有缺失值的记录保留,仅在相应的分析中做必要的排除
    定位输入
    • Ctrl+G
    • Ctrl+Enter
    查找替换
    • Ctrl+H

    检查逻辑错误

    IF函数
    • IF(logical_test,value_if_true,value_if_false):执行真假值判断,根据逻辑计算的真假值,返回结果
    • logical_test:计算结果为TRUE或FALSE的表达式
    • value_if_true、value_if_fals:分别为TRUE、FALSE时的返回值
    • 条件表达式用比较运算符(<、=、>)建立,“<>”表示不等于
    • 值若是数字可直接书写,若是文本数据需用双引号(" ")标记

    条件格式

    • 开始-条件格式-突出显示单元格规格-其他规则-使用公式确定要设置格式的单元格
    • OR(logical1[,logical2,…):至少一个参数为真,则返回TRUE
    • AND(logical1[,logical2,…):所有参数为真,才返回TRUE

    数据加工

    数据加工时在数据清洗的基础上对数据字段进行信息提取、计算、分组、转换等加工,得到需要的数据表

    数据抽取

    字段分列

    分列
    • 数据-数据工具-分列-分隔符号(或固定宽度)
    LEFT、RIGHT函数
    • LEFT(text,[num_chars]):得到字符串左边指定个数的字符
    • RIGHT(text,[num_chars]):得到字符串右边指定个数的字符
    • MID(text,star_num,num_chars):得到文本字符串中指定起始位置起返回的指定长度的字符

    字段合并

    &
    • TEXT(value,format_text):根据指定的数字格式将数字转成文本
    • value:数值、能够返回数值的公式或对数值单元格的引用
    • format_text:文字形式的数字格式
    CONCATENATE函数
    • CONCATENATE(text1,text2,…):将多个文本字符串合并成一个
    • text可以是字符串、数字或对单个单元格的引用

    字段匹配

    VLOOKUP函数

    VLOOKUP函数的作用是在表格的首列查找指定的数据,并返回指定的数据所在行中的指定列处的单元格

    • VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)
    • lookup_value:要在第一列查找的值
    • table_array:包含数据的单元格区域,第一列应当是由lookup_value搜索的值
    • col_index_num:应返回匹配值在table_array中的列序号
    • range_lookup:逻辑值,若要近似匹配使用TRUE(或0)或省略,若要精确匹配使用FALSE
    • 近似匹配识别小于等于lookup_value的值
    • 一般使用精确匹配
    HLOOKUP函数

    HLOOKUP函数的作用是在表格的首行查找指定的数据,并返回指定的数据所在列中的指定行处的单元格

    • HLOOKUP(lookup_value,table_array,row_index_num,range_lookup)
    • lookup_value:要在第一行查找的值
    • table_array:包含数据的单元格区域,第一列应当是由lookup_value搜索的值
    • row_index_num:应返回匹配值在table_array中的行序号
    • range_lookup:逻辑值,若要近似匹配使用TRUE(或0)或省略,若要精确匹配使用FALSE
    • 近似匹配识别小于等于lookup_value的值
    • 一般使用精确匹配
    SEARCH函数
    • SEARCH(find_test,within_text,start_num):返回指定的字符串在原始字符串中首次出现的位置
    • find_test:要查找的文本字符串
    • within_text:被搜索字符串
    • start_num:数字值,指定从被搜索字符串左侧第几个字符开始查找,省略则为1
    • 可以使用问号(?)和星号(*)作为通配符,分别可代表任何一个字符和任何字符串,两个符号前加“~”表示转义

    数据计算

    简单计算

    • 字段通过加、减、乘、除等简单算术运算即可计算

    函数计算

    总和与平均值
    • SUM()
    • AVEGAGE()
    日期
    • DATE(year,month,day)
    • DATEIF(start_date,end_date,unit)
    • start_date、end_date:起始与结束日期
    • unit:所需信息的返回时间单位代码,有"y"、"m"、"d"、"md"、"ym"、"yd"6种形式
    • "y"返回时间段中的整年数
    • "m”返回时间段中的整月数
    • "d"返回时间段中的天数
    • "md"返回起始日期与结束日期的同月间隔天数,忽略日期中的月份和年份
    • "yd"返回起始日期与结束日期的同年间隔天数,忽略日期中的年份
    • "ym"返回起始日期与结束日期的间隔月数。忽略日期中年份

    数据分组

    • 可使用VLOOKUP函数的近似匹配

    数据转换

    数据表的行列转换

    选择性粘贴
    • 开始-剪切板-粘贴-选择性粘贴-转置
    • Ctrl+Alt+V

    数据抽样

    RAND函数
    • 返回[0,1]的均匀分布随机数
    • 每次计算工作表时都将返回一个新的数值
    • 编辑状态按f9键生成的随机数将永久保存,不再返回新值

    相关文章

      网友评论

          本文标题:4. 数据处理

          本文链接:https://www.haomeiwen.com/subject/stmhvftx.html