美文网首页
2. 数据探索

2. 数据探索

作者: 何大炮 | 来源:发表于2018-03-27 13:56 被阅读0次

数据质量分析

检查数据中是否有脏数据:

  1. 缺失值
    有3个原因造成了这个情况:暂时无法取得;被遗漏;属性值不存在(小学生的配偶)

  2. 异常值
    样本中的个别值,其数值明显偏离了其余的观测值。
    (1)简单统计分析:根据常识分析
    (2)根据该数据远离平均值的多少倍来确定它是不是异常值
    (3)箱型分析:25%的数据任意变化而不会影响四分位数。

  3. 不一致的值
    多指数据的矛盾性和不相容性。

  4. 重复数据和含有特殊符号的数据

数据特征分析

分布分析

  1. 定量数据的分布分析:
    极差,组距,组数,频率分布图,频率分布直方图。
  2. 定性数据的分布分析:
    根据数据的分类利用饼状图或者柱状图来做分布分析。

对比分析

  1. 绝对数比较:将不同数据直接比较得出差异
  2. 相对数比较:结构相对数,比例相对数,强度相对数,计划完成相对数,动态相对数(有一个数作为分母)
  3. 统计量分析:对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。
    集中趋势:均值,中位数,众位数
    离中趋势:极值,标准差,变异系数,四分位数间距
  4. 周期性分析:随时间变化而具有的周期性
  5. 贡献度分析(Pareto Principle
  6. 相关性分析:直接绘制散点图,散点矩阵,计算相关系数(pearsonx相关系数,Spearman相关系数,判定系数)

相关文章

  • 2. 数据探索

    数据质量分析 检查数据中是否有脏数据: 缺失值有3个原因造成了这个情况:暂时无法取得;被遗漏;属性值不存在(小学生...

  • sklearn初探之iris训练集

    1. 探索数据 2. 机器学习部分 3. 绘图

  • R常用代码片段——数据探索

    1.数据探索常用代码段 2.数据类型转换 3.正太分布检验

  • R的用途

    [TOC] 1.探索性数据分析 了解数据,数据分析的必要步骤,关键在于作图数据 2.统计推断 基于数据得出正确结论...

  • 英国零售商销售分析

    目录一. 项目背景二. 数据探索三. 数据清洗四. 数据分析1. 消费趋势分析2. 用户行为分析3. 用户分类 (...

  • 机器学习比赛项目通用流程

    建模比赛通用流程:快速建模,迭代优化 1. 数据探索:可视化... 2. 数据预处理 有时数据会分散在几个不同...

  • ML预测波士顿房价-Udacity nanodegree Bos

    预测波士顿房价。用以往的房价数据来训练模型预测未来的房价。1.加载csv数据;2.探索数据,察看数据的最小值、最大...

  • 数据处理基石:Pandas数据探索

    Pandas数据初探索 本文介绍的是Pandas数据初探索。当我们生成或者导入了数据之后,通过数据的探索工作能够快...

  • 数据可视化基础知识

    1. 数据可视化简介 创建图表探索数据并分享结果数据可视化:量化信息的可视化 2. 为何使用数据可视化? 安斯库姆...

  • Tatanic Survival

    目录 项目问题各变量解释一、数据描述1.总览数据2.可视化探索3.相关性分析 二、特征工程1.缺失值处理2.构造家...

网友评论

      本文标题:2. 数据探索

      本文链接:https://www.haomeiwen.com/subject/kltrcftx.html