美文网首页
数据处理

数据处理

作者: A_rrow | 来源:发表于2019-01-24 10:54 被阅读0次

    一、识别重复值的方法

    1. COUNTIF函数(指定区域中按指定条件对单元格进行计数)

    countif(range,criteria)
    range 表示条件区域——对单元格进行计数的区域
    criteria 表示条件——条件的形式可以是数字、表达式或文本,甚至可以使用通配符。
    计数结果大于1说明有重复项

    2. 排序关键字段后使用IF函数

    • 排序后重复的数值会上下排列在一起

    IF(条件判断, 结果为真返回值, 结果为假返回值)

    3.使用数据透视表

    • 需判断的作为值使用,并改为计数

    二、去重方法

    1. 数据 - 排序和筛选 -高级
    2. 识别重复行后删除

    也可用 PowerQuery 进行重复行的筛选

    三、缺失值的处理

    查找缺失值

    1. 使用 Ctrl + F
    2. 使用Ctrl + G 定位条件

    处理方法

    1. 使用 0 / 均值填充
    2. 统计方法
    3. 删除该类数据或对此不处理

    四、处理异常值

    数字型无法直接转换成日期,直接强制转化会出错。需要先将其转换成文本,再转日期

    数字转文本的方法: 20180925
    LEFT(H77,4)&"-"&MID(H77,5,2)&"-"&RIGHT(H77,2)

    五、数据标准化及权重

    Min-Max标准化

    目的是让数据对应的值保持在 0-1 区间内,数量级保持统一可以进行比对

    新数据 = (原数据 - 极小值) / (极大值 - 极小值)

    使用标准分进行标准化

    从排名衡量分数好坏

    标准分 = (原始分 - 平均分) / 标准差

    加权平均

    利用交叉表设置权重

    相关文章

      网友评论

          本文标题:数据处理

          本文链接:https://www.haomeiwen.com/subject/evocoftx.html