统计学学习笔记

作者: 鬼宇书生 | 来源:发表于2017-06-01 23:53 被阅读704次

    《深入浅出统计学》

    大纲

    1.统计学的作用
    2.集中趋势的量度
    3.分散性与变异性的量度
    4.概率计算
    5.离散概率分布的运用
    6.排列与组合
    7.几何分布、二项分布和泊松分布
    8.正态分布的应用
    9.超越正态分布的应用
    10.统计抽样的应用
    11.总体和样本的估计
    12.置信区间的构建

    统计学的作用

    1.统计学可以帮助企业做出客观的决策,能够进行精准地预测
    2.统计学能够使我们个人避免遭人愚弄

    1. 信息与数据的区别:
      • “数据”是指所收集的原始事实与数字。
      • “信息”是指加入了某种意义的数据
        例如 ,数字5、6、7 只是数字,并不知道有何含义——数据
        告诉这几个数代表三个孩子的年龄,数据有意义了——信息
    集中趋势的量度
    1. 均值
      容易受异常值和偏斜数据的影响
    2. 中位数
    3. 众数
    分散性和变异性的量度

    1.极差
    区分数据集分散程度,最大值-最小值

    2.四分位数

    • 将数据一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数。
    • 四分位距:中间的四分位数即中位数。
    • 四分位的优点是:与全距相比,较少受到异常值的影响。只关注居于数据中央的50%的数据,这样才能排除异常值的干扰。

    3.十分位数,百分位数
    第K百分数数即位于数据范围K%处的数值

    4.可用箱线图绘制各种“距”

    5.方差
    方差是衡量数据分散性的一种方法,是数值与均值的距离的平方数的平均值

    计算方差常用公式

    6.标准差
    标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近。
    度量数据的分散性

    7.标准分
    对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。

    标准分求解
    概率统计
    1. 众数
    2. 概率
    概率计算公式

    3.条件概率

    条件概率

    4.全概率公式

    与A一起发生,不与A一起发生

    5.贝叶斯公式

    贝叶斯公式 树轴法
    离散概率分布的应用

    1.期望:描述的是概率分布

    期望

    2.方差和标准差——度量一些特定数值的概率的分散情况的方法

    方差越高,表示你的整体收益变化越大,整体的赢钱数额更不可预期,整体收益的可靠性越低。方差越小,每一局的平均收益就越接近期望值。

    方差

    3.线性变换
    如果成本+1,奖赏变为5倍,期望和方差成线性变化

    线性变换

    4.独立观测的期望和方差

    独立观测
    排列与组合
    1. 排位方式
    image.png

    2.按类型排序

    image.png

    3.排列
    从N个对象中取出R个对象进行排序,并得出排序方式总数目

    排列

    4.组合
    从N个对象中选取r 个对象,不必知道所选对象的确切顺序

    组合
    几何分布、二项分布、泊松分布
    1. 概率的几何分布
      几何分布的应用条件:进行多次互相独立的试验,每一次试验都存在失败或成功的可能性。
    几何分布 需要试验r次以上 需要试验r次或不到r次 期望值 方差

    2.二项分布
    二项分布使用的条件:进行一系列独立试验,每一次试验成功的概率都相同,且试验次数有限。

    二项分布 image.png 期望值 方差

    3.泊松分布
    使用条件
    在遇到独立事件时,若已知 r 且你感兴趣的是一个特定时间区间内的发生次数,使用泊松分布
    描述了事件在特定区间内的发生次数
    在特定条件下可以用来近似代替二项分布

    泊松分布 期望与方差 代替二项分布
    正态分布的应用
    1. 对于离散概率分布来说,我们关心的是取得一个特定数值的概率;而对于连续概率分布来说,我们关心的是取得一个特定范围的概率

    2.概率密度函数的总面积必须是1
    3.正态分布函数

    image.png

    4.概率密度计算的方法:

    • 确定分布和范围(计算标准差和方差)
    • 使其标准化
    标准化
    • 查找范围
    超级正态
    1. 知道x和y 的概率分布,就能算出x+y的概率分布
    x+y的概率分布 x+y的均值 x+y的方差

    2.x属于正态分布,ax+b属于整天分布,则ax+b的概率分布

    image.png

    3.如果X1, X2, ....Xn为X的独立观测结果,且X符合正态分布,则:

    独立观测的期望值

    4.正态分布代替二项分布

    image.png

    如果用正态分布近似代替二项分布,则需要进行连续性修正,这样才能得到较为准确的结果。因为二项分布是离散型而正态分布是连续型

    • 计算p(x>=a)时,离散数字x是a-0.5
    • 计算p(x<=a)时。离散数字x是a+0.5

    5.正态分布代替泊松分布

    image.png

    用正态分布近似代替泊松分布,要进行连续型修正
    6.总结

    image.png
    抽取样本

    1.样本

    • 无偏样本
    • 偏倚样本
    • 抽样空间中条目补全
    • 抽样单位不正确
    • 抽样单位未出现在实际样本中
    • 样本缺乏随机性

    2.如何选择样本

    • 简单随机抽样
    • 分成抽样
    • 整群抽样
    • 系统抽样
    • 重复抽样
    • 不重复抽样
    总体和样本的估计

    1.均值

    • 总体均值:


      总体均值
    • 样本均值
    样本均值
    • 点估计量:根据样本数据得出的对你所认为的总体均值的最佳猜测值
    点估计量

    2.总体方差:比样本方差偏大

    总体方差

    3.预测总体比例:比例算法用于解决二项分布问题

    总体成功比例的点估计量 样本成功比例

    4.抽样分布的概率

    • 例如:Z个球,红球的比例为40%, 现在取出100个球, 里面有40个红球的概率
    • 随机变量X代替样本中红球的个数,则样本中红球的比例为Ps = X/n,n为取出的球数
    • 每个样本中,红色球的数量符合B(n,p), 成功比例为Ps=X/n
    • 期望:


      期望
    image.png
    • 方差:
    image.png image.png
    • 比例标准误差:
    image.png

    n越大,比例标准误差越小

    image.png
    • 连续性修正
    image.png

    5.中心极限定理:如果从一个非正态总体X中取出一个样本,且样本很大,则抽取n个样品的分布也近似为正态分布

    image.png image.png
    • 中心极限定理的作用
      对于二项分布,总体均值为np,方差为npq, 如果带入抽样分布,则


      image.png

      对于泊松分布,均值和方差都为r,则得:


      image.png
    置信区间的构建

    1.求解置信区间步骤

    • 选择总体统计量
    • 求出其抽样分布
    • 决定置信水平
    • 求出置信上下限

    2.置信区间计算的简单算法

    image.png

    3.置信区间简明算法——t分布
    当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,着使它更适合小样本


    image.png

    《漫话统计学》
    我们调查一件事,调查总体与样本

    数据分为
    不可测量的数据——分类数据(因人而异)

    可测量的数据——数值数据 ( 有具体可衡量的数值)

    组、组中值、次数、相对次数、次数分布表、直方图、变量、组距、组中值

    算数平均数、arithmetic mean 几何平均数、 geometric mean 调和平均数harmonic mean

    中位数median

    标准差 :表示一组数据“平均离散程度”的指标 standard Deviation

    描述统计学和推断统计学
    第三章:掌握数据整体的状态

    将问卷调查转变成次数分布表
    第四章:标准计分和离差

    离差;Deviation Score

    标准差: Standard deviation

    标准化: Standardization

    标准计分:standard score (数据-平均数)/标注差
    第五章:求机率

    机率密度函数:Probability Density Function 简称:pdf
    正态分布函数
    以平均值为中心呈左右对称

    受到平均值和标准差的影响

    面积=比例=机率

    标准正态分布表记录对应横轴的可读之机率的表

    卡方分布
    卡方分布表则记录对应机率之横轴刻度的表 x^2

    t分布

    f分布

    excel 中的分布与对应的函数


    双变量的相关分析

    相关系数 :correlation coefficient

    共变异数:covariance

    变异数:variance

    相关比:correlation Ratio
    数值数据和分类数据是用“相关比” 其值 介于0和1之间

    克莱姆相关系数 (独立系数)
    分类数据和分类数据之间的相关程度,介于0和1之间
    第八章:深入理解独立性检验 (卡方检验)

    20170527154429.png

    P值和“检验”的顺序

    独立性检验和齐性检验

    相关文章

      网友评论

      本文标题:统计学学习笔记

      本文链接:https://www.haomeiwen.com/subject/znmqfxtx.html