美文网首页数据分析
数据分析学习Day9---统计学(描述统计)

数据分析学习Day9---统计学(描述统计)

作者: ghostdogss | 来源:发表于2018-11-16 15:20 被阅读0次

  数据的度量

平均数是一种数据位置的度量,平均数容易受到极值的影响,因为数据集并不能保证「干净」,各类运营数据经常受到扰动,比如薅羊毛党就会拉高营销活动的平均值。一般而言,可以用调整平均数(trimmed mean)消除异常波动,在数据集中删除一定比例的极大值和极小值,比如5%,然后重新计算平均数。

它既然不靠谱,我们便请出中位数。将所有数据按升序排列后,位于中间的数值即中位数。当数据集是奇数,中位数是中间的数值,当数据集是偶数,中位数是中间两个数的平均值。这也是小学的内容。

另外一种度量是众数,它是数据集出现频次最多的数据,当有多个众数时,称为多众数。众数使用的频率低于前两者,更多用于分类数据。

数据分析师常将数据划分为四个部分,每一部分包含25%的数据集,划分的分割点叫做四分位数。

依次将数据升序排列,位于第25%位置的叫做第一四分位数Q1,位于第50%位置的叫做第二四分位数Q2,即中位数,位于第75%的叫做第三分位数Q3。这三个点,能辅助衡量数据的分布状态。

  数据的离散和变异

方差是一种可以衡量数据「稳定性」的度量,更通俗的解释是衡量数据的变异性,从图形上说,也叫离散程度。

方差的计算公式是各个数据分别与其平均数之差的平方和的平均数。

上述公式是总体数据集的方差计算,当数据近为部分抽样样本时,n应该改为n-1。数据集足够大时,两者的误差也可以忽略不计。

现在计算上文商品的方差。Excel中的方差公式为VARP( ),如果是样本数据,则为VAR( )。不同Excel版本,函数会有微小差异。

切比雪夫定理指出,至少有75%的数据值与平均数的距离在2个标准差以内,至少有89%的数据与平均数在3个标准差之内,至少有94%的数据与平均数在4个标准差以内。这是一个非常方便的定理,能快速掌握数据包含的范围。

相关文章

  • 125、描述统计学基础

    学习数据分析最重要的基础之一是描述统计学,我推荐《深入浅出统计学》这本书,那什么是描述统计学呢? 描述统计学就是将...

  • 数据分析学习Day9---统计学(描述统计)

    数据的度量 平均数是一种数据位置的度量,平均数容易受到极值的影响,因为数据集并不能保证「干净」,各类运营数据经常受...

  • 第一篇 理解统计学中的基本概念

    统计学(stastics)是收集、分析和解释数据的科学。 描述统计(descriptive statistics)...

  • 数据分析

    数据分析,在我这里,只是一种辅助需求挖掘、业务分析的方法。 统计学上分为描述统计和推论统计。 描述统计,一句话描述...

  • Matplotlib和Seaborn之描述统计学、离群值和坐标轴

    描述统计学、离群值和坐标轴范围 在创建图形和探索数据时,确保注意基本描述统计学传达的信息之外的信息。注意数据的各个...

  • 统计学

    第1章 1.统计学是收集,处理,分析,解释数据并从数据中得出结论的科学。 2.数据分析所用的方法可分为描述统计方法...

  • 1.1 统计学的基本范围

    统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。主要分为两部分: 1. 描述统计 收集、处理、描述数据...

  • 统计与统计数据

    统计学的两个分支:描述统计和推断统计。 什么是描述统计呢?研究数据收集、整理和描述的统计学方法,包括如何取得所需数...

  • 数据分析需要掌握的技能

    一. 数据分析,需要掌握哪些必备的统计学知识 描述统计学1.平均值、中位数、众数2.方差、标准差3.统计分布:正态...

  • 数据分析基础-描述统计学与基础概率

    上一篇文章确定了自己的职业规划并采集后续我们需要用到的数据,在进行数据分析之前,我们要重点学习一下描述统计学与基础...

网友评论

    本文标题:数据分析学习Day9---统计学(描述统计)

    本文链接:https://www.haomeiwen.com/subject/vjipfqtx.html