数据分析(二)：《深入浅出数据分析》

作者: RoFF | 来源:发表于2017-01-04 23:54 被阅读90次

深入浅出数据分析
PYTHON Booklist
2017读书计划
数据，相互比较才有意义
《深入浅出数据分析》读书笔记-第一部分
【学习】mysql学习
书单｜数据分析师
PowerBI数据分析实践02 | 结构百分比分析法
深入浅出Pandas数据分析
数据分析入门自学计划制定--20180520

第2章《集中趋势的度量》

求出平均数往往是掌握一大堆数字的的第一步；有了平均数就能找到最具有代表性的数值，得出重要结论。有关的概念：

均值：平均数的一般度量；平均数不止一种。用μ表示。
中位数
众数：一批数字中最常见的数值，即频率最大的数值；它必须是一批数中的一个，而且是最频繁出现的一个。
频数

对称数据 vs 向右偏斜 vs 向左偏斜

寻找中位数：
当偏斜数据或异常值使均值产生误导时，就需要用其它方式表示典型值。

第3章《分散性与变异性的量度》

平均数能让你知道数据集的中心所在，能帮你寻找数据集中的典型值，但是要分析数据，平均数还远不够。本章介绍各种距和差。

描述数据分散程度的几个概念：

全距，也叫极差，最大数叫上界，最小数叫下界，上界减去下界等于全距。全局的局限性在于无法消除异常值的影响。

迷你距

四分位数：全距无法消除异常值的影响，那么我们就只取中间50%的数据的影响，50%数据的左端是下四分位数，右端是上四分位数。上下四分位数的差就是四分位距。

以上等于是将数字划分为四等份；还可以将数字划成100等份。第k百分位数就是k%处的数值，用Pk来表示。

箱线图，将上界、下界、上四分位数、下四分位数、四分位距、中位数等集合在一起的示意图。

全距和四分位距的问题是：他们仅仅告诉你最大值和最小值的差，无法告诉你最大值和最小值出现的频率。也就是说没有工具度量变异性。

方差：度量数据分散情况的方法；方差是数值和均值的距离的平方数的平均值；反应的是跟均值的距离的平方。
标准差：取方差的平方根。它反应的是跟均值的距离。

方差

方差速算

标准分：对不同环境下相关数据的进行比较的一种方法；对于一个数据集来说，标准分指的是一个特定数值的标准分，计算如下：

标准分的计算方式

标准分的应用场景就是：对不同数据集进行比较，这些数据集的均值、标准差都不一样（不一样就不能那他们直接进行比较）；通过标准分，我们可以把这些数据集视为来自同一个数据集或数据分布。为什么标准分有这个作用？为什么能视为来自同一个数据集？

两位球员的均值和标准差都不相同，但是对于本次训练的命中率（75、55），能得出该特定数值的标准分

为什么以上最右边的图，能把两个球员的标准分（放在同一个图中）进行比较？
因为以上右图是一个标准化的新分布（均值=0，标准差=1）

为什么能生成这样一个标准化的分布图？
因为根据标准分的定义，均值=0，标准差=1，意味着数据集中每个特定值跟它的标准分相等。

每个数据集都能转换成通用分布

第4章《概率计算：把握机会》

两种图形化概率数据的方式：
韦恩图
概率树

对立事件 vs 独立事件
互斥事件 vs 相交事件
相关事件

交集 vs 并集

P(A|B) vs P(A∩B)
P(A|B)：已知条件，在已知B发生的条件下发生A的概率
P(A∩B)：A和B同时发生的概率

条件概率

P(A | B) 在已知B已经发生的条件下发生A的概率，定义为
P(A | B) = P(A ∩ B) / P(B)，即定义为：A和B同时发生的次数和B发生的次数相除的结果。这是一个定义，并未推理结果。

P(A ∩ B) = P(B ∩ A) 两者等价

P(B | A) = P(B ∩ A) / P(A)

在韦恩图中理解P(A | B)的含义

全概率公式

B发生的方式：跟事件A一起发生，不跟事件A一起发生，以上两种情况的总和，如下：

P(B) = P(A ∩ B) + P(A' ∩ B)

结合条件概率，推理出全概率公式：

P(B) = P(B | A) x P(A) + P(B | A') x P(A')

贝叶斯定理

条件概率

结合全概率公式（分母）和条件概率（分子），推导出贝叶斯定理

贝叶斯定理

该定理提供了一种计算逆条件概率的方法，在你无法预知每种概率的情况下，它十分有用。

第5章《概率计算：把握机会》

概率连续性 vs 离散性

期望

期望等于每个数值X乘以该数值发生的概率，然后将所有数值求和。

期望的计算公式和例子

期望表示一个变量的典型值或均值，但不能提供有关数值分散性的任何信息。方差的作用正在此。

方差

方差计算方法

E(X-μ)²的计算方法

第6章《排列与组合》

排列和组合的概念对比

相同点：都是从一组数中选取部分数进行排队，求排队的方法总数；
不同点：是否对顺序有要求。

排列和组合的概念对比

排列和组合的计算方法

排列组合的应用场景

三匹公马和三匹母马进行排队：

如果求所有排队方式，那就用排列
如果不考虑个体特征、只考虑性别，求所有排队方式，那就用组合

第7章《几何分布、二项分布和泊松分布》

(等式)几何分布

几何分布

几何分布的条件：

进行一系列相互独立的实验
每一次实验既有成功的可能，也有失败的可能，且单次实验失败和成功的概率相同

几何分布的目的：

我们主要关心的是，为了第一次成功需要进行多少次实验

注：成功和失败，还可以改成“感兴趣和不感兴趣”两个对立的目标

几何分布的计算公式：

几何分布的计算方法

几何分布的图形和众数(1)：

集合分布的图形和众数

(不等式)几何分布

不等式的几何分布

几何分布简明指南

几何分布、二项式分布、泊松分布的对比

第8章正态分布的运用：保持正态

离散变量 vs 连续随机变量
离散变量: 对于每个确定的值都有确定的概率值
连续随机变量: 对于每个确定的值没有确定的概率值，只有概率区间

概率密度函数

描述连续随机变量的概率分布

网友评论

本文标题：数据分析(二)：《深入浅出数据分析》

本文链接：https://www.haomeiwen.com/subject/bgzgvttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据分析(二)：《深入浅出数据分析》

第2章《集中趋势的度量》

第3章《分散性与变异性的量度》