美文网首页
数据处理

数据处理

作者: A_rrow | 来源:发表于2019-01-24 10:54 被阅读0次

一、识别重复值的方法

1. COUNTIF函数(指定区域中按指定条件对单元格进行计数)

countif(range,criteria)
range 表示条件区域——对单元格进行计数的区域
criteria 表示条件——条件的形式可以是数字、表达式或文本,甚至可以使用通配符。
计数结果大于1说明有重复项

2. 排序关键字段后使用IF函数

  • 排序后重复的数值会上下排列在一起

IF(条件判断, 结果为真返回值, 结果为假返回值)

3.使用数据透视表

  • 需判断的作为值使用,并改为计数

二、去重方法

  1. 数据 - 排序和筛选 -高级
  2. 识别重复行后删除

也可用 PowerQuery 进行重复行的筛选

三、缺失值的处理

查找缺失值

  1. 使用 Ctrl + F
  2. 使用Ctrl + G 定位条件

处理方法

  1. 使用 0 / 均值填充
  2. 统计方法
  3. 删除该类数据或对此不处理

四、处理异常值

数字型无法直接转换成日期,直接强制转化会出错。需要先将其转换成文本,再转日期

数字转文本的方法: 20180925
LEFT(H77,4)&"-"&MID(H77,5,2)&"-"&RIGHT(H77,2)

五、数据标准化及权重

Min-Max标准化

目的是让数据对应的值保持在 0-1 区间内,数量级保持统一可以进行比对

新数据 = (原数据 - 极小值) / (极大值 - 极小值)

使用标准分进行标准化

从排名衡量分数好坏

标准分 = (原始分 - 平均分) / 标准差

加权平均

利用交叉表设置权重

相关文章

  • js实现数组对象去重并统计重复个数

    数据处理前 数据处理后

  • 大数据学习导图

    数据获取 数据获取与查看 数据处理 数据处理I:缺失值填补 数据处理II:数据转换 数据处理III:无量纲化 特征...

  • 第一章 spark-streaming的概述

    section 1 spark-streaming是什么 //数据处理的方式角度 流式数据处理 批量数据处理 //...

  • 大数据学习路线

    一、大数据处理流程 上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应...

  • swift JSON转model 使用Codable

    简单数据处理 定义模型名称 json数据定义 数据解析 复杂数据处理 定义json 定义模型 解析数据处理 列表数...

  • Spark Streaming 1.基本操作

    1. 数据分析分类: 流式数据处理:多条数据缓冲一起处理批量数据处理:一条数据一处理 实时数据处理:数据处理延迟时...

  • Python| Pandas

    01 强大的数据处理能力 Python有强大的数据处理能力。我们都使用过Excel,它的数据处理能力已经非常强大,...

  • 实战篇--有关做大数据项目的开发流程

    前言 有关做大数据项目的开发流程数据处理--->后端调用--->前端展示 一、数据处理 数据处理主要负责:看数据是...

  • 无标题文章

    DataEngine数据处理流程 DataEngine数据处理流程包含如下步骤: changevalidatepu...

  • Kaggle_01_Titanic

    1. 数据处理 简单分为三种:缺失数据处理、新特征生成和数据归一化 1.1 缺失数据处理: (1) 直接丢掉 - ...

网友评论

      本文标题:数据处理

      本文链接:https://www.haomeiwen.com/subject/evocoftx.html