美文网首页
数据分析(二):《深入浅出数据分析》

数据分析(二):《深入浅出数据分析》

作者: RoFF | 来源:发表于2017-01-04 23:54 被阅读90次

    第2章 《集中趋势的度量》

    求出平均数往往是掌握一大堆数字的的第一步;有了平均数就能找到最具有代表性的数值,得出重要结论。有关的概念:

    • 均值:平均数的一般度量;平均数不止一种。用μ表示。
    • 中位数
    • 众数:一批数字中最常见的数值,即频率最大的数值;它必须是一批数中的一个,而且是最频繁出现的一个。
    • 频数

    对称数据 vs 向右偏斜 vs 向左偏斜

    寻找中位数:
    当偏斜数据或异常值使均值产生误导时,就需要用其它方式表示典型值。


    第3章 《分散性与变异性的量度》

    平均数能让你知道数据集的中心所在,能帮你寻找数据集中的典型值,但是要分析数据,平均数还远不够。本章介绍各种距和差

    描述数据分散程度的几个概念:

    全距,也叫极差,最大数叫上界,最小数叫下界,上界减去下界等于全距。全局的局限性在于无法消除异常值的影响。

    迷你距

    四分位数:全距无法消除异常值的影响,那么我们就只取中间50%的数据的影响,50%数据的左端是下四分位数,右端是上四分位数。上下四分位数的差就是四分位距

    以上等于是将数字划分为四等份;还可以将数字划成100等份。第k百分位数就是k%处的数值,用Pk来表示。

    箱线图,将上界、下界、上四分位数、下四分位数、四分位距、中位数等集合在一起的示意图。

    全距和四分位距的问题是:他们仅仅告诉你最大值和最小值的差,无法告诉你最大值和最小值出现的频率。也就是说没有工具度量变异性

    方差:度量数据分散情况的方法;方差是数值和均值的距离的平方数的平均值;反应的是跟均值的距离的平方。
    标准差:取方差的平方根。它反应的是跟均值的距离。

    方差 方差速算

    标准分:对不同环境下相关数据的进行比较的一种方法;对于一个数据集来说,标准分指的是一个特定数值的标准分,计算如下:

    标准分的计算方式

    标准分的应用场景就是:对不同数据集进行比较,这些数据集的均值、标准差都不一样(不一样就不能那他们直接进行比较);通过标准分,我们可以把这些数据集视为来自同一个数据集或数据分布。为什么标准分有这个作用?为什么能视为来自同一个数据集?

    两位球员的均值和标准差都不相同,但是对于本次训练的命中率(75、55),能得出该特定数值的标准分

    为什么以上最右边的图,能把两个球员的标准分(放在同一个图中)进行比较?
    因为以上右图是一个标准化的新分布(均值=0,标准差=1)

    为什么能生成这样一个标准化的分布图?
    因为根据标准分的定义,均值=0,标准差=1,意味着数据集中每个特定值跟它的标准分相等。

    每个数据集都能转换成通用分布

    第4章 《概率计算:把握机会》

    两种图形化概率数据的方式:
    韦恩图
    概率树

    对立事件 vs 独立事件
    互斥事件 vs 相交事件
    相关事件

    交集 vs 并集

    P(A|B) vs P(A∩B)
    P(A|B):已知条件,在已知B发生的条件下发生A的概率
    P(A∩B):A和B同时发生的概率

    条件概率

    P(A | B) 在已知B已经发生的条件下发生A的概率,定义为
    P(A | B) = P(A ∩ B) / P(B),即定义为:A和B同时发生的次数和B发生的次数相除的结果。这是一个定义,并未推理结果。

    P(A ∩ B) = P(B ∩ A) 两者等价

    P(B | A) = P(B ∩ A) / P(A)

    在韦恩图中理解P(A | B)的含义

    全概率公式

    B发生的方式:跟事件A一起发生,不跟事件A一起发生,以上两种情况的总和,如下:

    P(B) = P(A ∩ B) + P(A' ∩ B)

    结合条件概率,推理出全概率公式

    P(B) = P(B | A) x P(A) + P(B | A') x P(A')

    贝叶斯定理

    条件概率

    结合全概率公式(分母)和条件概率(分子),推导出贝叶斯定理

    贝叶斯定理

    该定理提供了一种计算逆条件概率的方法,在你无法预知每种概率的情况下,它十分有用。


    第5章 《概率计算:把握机会》

    概率连续性 vs 离散性

    期望

    期望等于每个数值X乘以该数值发生的概率,然后将所有数值求和。

    期望的计算公式和例子

    期望表示一个变量的典型值或均值,但不能提供有关数值分散性的任何信息。方差的作用正在此

    方差

    方差计算方法 E(X-μ)²的计算方法

    第6章《排列与组合》

    排列和组合的概念对比

    相同点:都是从一组数中选取部分数进行排队,求排队的方法总数;
    不同点:是否对顺序有要求。

    排列和组合的概念对比

    排列和组合的计算方法

    排列和组合的计算方法

    排列组合的应用场景

    三匹公马和三匹母马进行排队:

    • 如果求所有排队方式,那就用排列
    • 如果不考虑个体特征、只考虑性别,求所有排队方式,那就用组合

    第7章《几何分布、二项分布和泊松分布》

    (等式)几何分布

    几何分布

    几何分布的条件:

    • 进行一系列相互独立的实验
    • 每一次实验既有成功的可能,也有失败的可能,且单次实验失败和成功的概率相同

    几何分布的目的:

    • 我们主要关心的是,为了第一次成功需要进行多少次实验

    注:成功和失败,还可以改成“感兴趣和不感兴趣”两个对立的目标

    几何分布的计算公式:

    几何分布的计算方法

    几何分布的图形和众数(1):

    集合分布的图形和众数

    (不等式)几何分布

    不等式的几何分布

    几何分布简明指南

    几何分布简明指南

    几何分布、二项式分布、泊松分布的对比

    几何分布、二项式分布、泊松分布的对比

    第8章 正态分布的运用:保持正态

    离散变量 vs 连续随机变量
    离散变量: 对于每个确定的值都有确定的概率值
    连续随机变量: 对于每个确定的值没有确定的概率值,只有概率区间

    概率密度函数

    描述连续随机变量的概率分布

    相关文章

      网友评论

          本文标题:数据分析(二):《深入浅出数据分析》

          本文链接:https://www.haomeiwen.com/subject/bgzgvttx.html