美文网首页
数据分析(二):《深入浅出数据分析》

数据分析(二):《深入浅出数据分析》

作者: RoFF | 来源:发表于2017-01-04 23:54 被阅读90次

第2章 《集中趋势的度量》

求出平均数往往是掌握一大堆数字的的第一步;有了平均数就能找到最具有代表性的数值,得出重要结论。有关的概念:

  • 均值:平均数的一般度量;平均数不止一种。用μ表示。
  • 中位数
  • 众数:一批数字中最常见的数值,即频率最大的数值;它必须是一批数中的一个,而且是最频繁出现的一个。
  • 频数

对称数据 vs 向右偏斜 vs 向左偏斜

寻找中位数:
当偏斜数据或异常值使均值产生误导时,就需要用其它方式表示典型值。


第3章 《分散性与变异性的量度》

平均数能让你知道数据集的中心所在,能帮你寻找数据集中的典型值,但是要分析数据,平均数还远不够。本章介绍各种距和差

描述数据分散程度的几个概念:

全距,也叫极差,最大数叫上界,最小数叫下界,上界减去下界等于全距。全局的局限性在于无法消除异常值的影响。

迷你距

四分位数:全距无法消除异常值的影响,那么我们就只取中间50%的数据的影响,50%数据的左端是下四分位数,右端是上四分位数。上下四分位数的差就是四分位距

以上等于是将数字划分为四等份;还可以将数字划成100等份。第k百分位数就是k%处的数值,用Pk来表示。

箱线图,将上界、下界、上四分位数、下四分位数、四分位距、中位数等集合在一起的示意图。

全距和四分位距的问题是:他们仅仅告诉你最大值和最小值的差,无法告诉你最大值和最小值出现的频率。也就是说没有工具度量变异性

方差:度量数据分散情况的方法;方差是数值和均值的距离的平方数的平均值;反应的是跟均值的距离的平方。
标准差:取方差的平方根。它反应的是跟均值的距离。

方差 方差速算

标准分:对不同环境下相关数据的进行比较的一种方法;对于一个数据集来说,标准分指的是一个特定数值的标准分,计算如下:

标准分的计算方式

标准分的应用场景就是:对不同数据集进行比较,这些数据集的均值、标准差都不一样(不一样就不能那他们直接进行比较);通过标准分,我们可以把这些数据集视为来自同一个数据集或数据分布。为什么标准分有这个作用?为什么能视为来自同一个数据集?

两位球员的均值和标准差都不相同,但是对于本次训练的命中率(75、55),能得出该特定数值的标准分

为什么以上最右边的图,能把两个球员的标准分(放在同一个图中)进行比较?
因为以上右图是一个标准化的新分布(均值=0,标准差=1)

为什么能生成这样一个标准化的分布图?
因为根据标准分的定义,均值=0,标准差=1,意味着数据集中每个特定值跟它的标准分相等。

每个数据集都能转换成通用分布

第4章 《概率计算:把握机会》

两种图形化概率数据的方式:
韦恩图
概率树

对立事件 vs 独立事件
互斥事件 vs 相交事件
相关事件

交集 vs 并集

P(A|B) vs P(A∩B)
P(A|B):已知条件,在已知B发生的条件下发生A的概率
P(A∩B):A和B同时发生的概率

条件概率

P(A | B) 在已知B已经发生的条件下发生A的概率,定义为
P(A | B) = P(A ∩ B) / P(B),即定义为:A和B同时发生的次数和B发生的次数相除的结果。这是一个定义,并未推理结果。

P(A ∩ B) = P(B ∩ A) 两者等价

P(B | A) = P(B ∩ A) / P(A)

在韦恩图中理解P(A | B)的含义

全概率公式

B发生的方式:跟事件A一起发生,不跟事件A一起发生,以上两种情况的总和,如下:

P(B) = P(A ∩ B) + P(A' ∩ B)

结合条件概率,推理出全概率公式

P(B) = P(B | A) x P(A) + P(B | A') x P(A')

贝叶斯定理

条件概率

结合全概率公式(分母)和条件概率(分子),推导出贝叶斯定理

贝叶斯定理

该定理提供了一种计算逆条件概率的方法,在你无法预知每种概率的情况下,它十分有用。


第5章 《概率计算:把握机会》

概率连续性 vs 离散性

期望

期望等于每个数值X乘以该数值发生的概率,然后将所有数值求和。

期望的计算公式和例子

期望表示一个变量的典型值或均值,但不能提供有关数值分散性的任何信息。方差的作用正在此

方差

方差计算方法 E(X-μ)²的计算方法

第6章《排列与组合》

排列和组合的概念对比

相同点:都是从一组数中选取部分数进行排队,求排队的方法总数;
不同点:是否对顺序有要求。

排列和组合的概念对比

排列和组合的计算方法

排列和组合的计算方法

排列组合的应用场景

三匹公马和三匹母马进行排队:

  • 如果求所有排队方式,那就用排列
  • 如果不考虑个体特征、只考虑性别,求所有排队方式,那就用组合

第7章《几何分布、二项分布和泊松分布》

(等式)几何分布

几何分布

几何分布的条件:

  • 进行一系列相互独立的实验
  • 每一次实验既有成功的可能,也有失败的可能,且单次实验失败和成功的概率相同

几何分布的目的:

  • 我们主要关心的是,为了第一次成功需要进行多少次实验

注:成功和失败,还可以改成“感兴趣和不感兴趣”两个对立的目标

几何分布的计算公式:

几何分布的计算方法

几何分布的图形和众数(1):

集合分布的图形和众数

(不等式)几何分布

不等式的几何分布

几何分布简明指南

几何分布简明指南

几何分布、二项式分布、泊松分布的对比

几何分布、二项式分布、泊松分布的对比

第8章 正态分布的运用:保持正态

离散变量 vs 连续随机变量
离散变量: 对于每个确定的值都有确定的概率值
连续随机变量: 对于每个确定的值没有确定的概率值,只有概率区间

概率密度函数

描述连续随机变量的概率分布

相关文章

  • 深入浅出数据分析

    深入浅出数据分析(中文版) [tag]数据挖掘,数据分析,机器学习, [content]一款专注于数据分析的电子图...

  • PYTHON Booklist

    PYTHON Booklist 来源:业余时间如何学数据分析? 卡牌大师的回答 深入浅出数据分析 深入浅出SQL ...

  • 2017读书计划

    1月份书单 第一周《深入浅出-数据分析》---done #书评: 第二周《谁说菜鸟不会数据分析》---done #...

  • 数据,相互比较才有意义

    统计与分析最基本原理之一 就是比较法——《深入浅出数据分析》 1.数据分析-通过分解数据 分析过程:确定>分解>评...

  • 《深入浅出数据分析》读书笔记-第一部分

    《深入浅出数据分析》通过模拟业务案例,结合统计知识,介绍了数据分析的分析过程,是一个很有帮助的数据分析入门指导书籍...

  • 【学习】mysql学习

    20190528 一、数据分析深入浅出 二、mysql必知必会 三、leecode题库 刷leecode数据库题,...

  • 书单|数据分析师

    数据分析入门 《Head First Data Analysis》链接:深入浅出数据分析 (豆瓣) 电子工业出版社...

  • PowerBI数据分析实践02 | 结构百分比分析法

    本文为星球嘉宾"海艳"的PowerBI数据分析工作实践系列分享之二,她深入浅出的介绍了PowerBI在数据分析中的...

  • 深入浅出Pandas数据分析

    深入浅出Pandas数据分析 大家好,我是Peter~ 《深入浅出Pandas数据分析》第一版本终于可以和大家见面...

  • 数据分析入门自学计划制定--20180520

    首先说一下数据分析入门: 根据某公司数据分析岗位的招聘信息以及自身情况制定以下学习计划: 1、深入浅出数据分析:重...

网友评论

      本文标题:数据分析(二):《深入浅出数据分析》

      本文链接:https://www.haomeiwen.com/subject/bgzgvttx.html