统计学学习笔记

作者: 鬼宇书生 | 来源:发表于2017-06-01 23:53 被阅读704次

【基础不牢，地动山摇】什么是统计学习
统计机器学习基本概念
统计学习方法笔记(第四章个人笔记)
机器学习中的数学基础
R语言与医学统计学
大师兄的Python机器学习笔记:Numpy库、Scipy库和M
大师兄的Python机器学习笔记:统计学基础之底层代码实现（二）
2018-08-12
统计学习方法笔记(第一章个人笔记)
统计学习方法

《深入浅出统计学》

大纲

1.统计学的作用
2.集中趋势的量度
3.分散性与变异性的量度
4.概率计算
5.离散概率分布的运用
6.排列与组合
7.几何分布、二项分布和泊松分布
8.正态分布的应用
9.超越正态分布的应用
10.统计抽样的应用
11.总体和样本的估计
12.置信区间的构建

统计学的作用

1.统计学可以帮助企业做出客观的决策，能够进行精准地预测
2.统计学能够使我们个人避免遭人愚弄

信息与数据的区别：
- “数据”是指所收集的原始事实与数字。
- “信息”是指加入了某种意义的数据
  例如 ,数字5、6、7 只是数字，并不知道有何含义——数据
  告诉这几个数代表三个孩子的年龄，数据有意义了——信息

集中趋势的量度

均值
容易受异常值和偏斜数据的影响
中位数
众数

分散性和变异性的量度

1.极差
区分数据集分散程度，最大值-最小值

2.四分位数

将数据一分为四，最小的四分位数为下四分位数，最大的四分位数为上四分位数。
四分位距：中间的四分位数即中位数。
四分位的优点是：与全距相比，较少受到异常值的影响。只关注居于数据中央的50%的数据，这样才能排除异常值的干扰。

3.十分位数，百分位数
第K百分数数即位于数据范围K%处的数值

4.可用箱线图绘制各种“距”

5.方差
方差是衡量数据分散性的一种方法，是数值与均值的距离的平方数的平均值

计算方差常用公式

6.标准差
标准差是描述典型值与均值距离的一种方法，标准差越小，数值离均值越近。
度量数据的分散性

7.标准分
对不同数据集中的数值进行比较的一种方法，这些数据集的均值和标准差互不相同。

标准分求解

概率统计

众数
概率

概率计算公式

3.条件概率

条件概率

4.全概率公式

与A一起发生，不与A一起发生

5.贝叶斯公式

贝叶斯公式

树轴法

离散概率分布的应用

1.期望：描述的是概率分布

期望

2.方差和标准差——度量一些特定数值的概率的分散情况的方法

方差越高，表示你的整体收益变化越大，整体的赢钱数额更不可预期，整体收益的可靠性越低。方差越小，每一局的平均收益就越接近期望值。

方差

3.线性变换
如果成本+1，奖赏变为5倍，期望和方差成线性变化

线性变换

4.独立观测的期望和方差

独立观测

排列与组合

排位方式

image.png

2.按类型排序

image.png

3.排列
从N个对象中取出R个对象进行排序，并得出排序方式总数目

排列

4.组合
从N个对象中选取r 个对象，不必知道所选对象的确切顺序

组合

几何分布、二项分布、泊松分布

概率的几何分布
几何分布的应用条件：进行多次互相独立的试验，每一次试验都存在失败或成功的可能性。

几何分布

需要试验r次以上

需要试验r次或不到r次

期望值

方差

2.二项分布
二项分布使用的条件：进行一系列独立试验，每一次试验成功的概率都相同，且试验次数有限。

二项分布

image.png

期望值

方差

3.泊松分布
使用条件：
在遇到独立事件时，若已知 r 且你感兴趣的是一个特定时间区间内的发生次数，使用泊松分布
描述了事件在特定区间内的发生次数
在特定条件下可以用来近似代替二项分布

泊松分布

期望与方差

代替二项分布

正态分布的应用

对于离散概率分布来说，我们关心的是取得一个特定数值的概率；而对于连续概率分布来说，我们关心的是取得一个特定范围的概率

2.概率密度函数的总面积必须是1
3.正态分布函数

image.png

4.概率密度计算的方法：

确定分布和范围（计算标准差和方差）
使其标准化

标准化

查找范围

超级正态

知道x和y 的概率分布，就能算出x+y的概率分布

x+y的概率分布

x+y的均值

x+y的方差

2.x属于正态分布，ax+b属于整天分布，则ax+b的概率分布

image.png

3.如果X1, X2, ....Xn为X的独立观测结果，且X符合正态分布，则：

独立观测的期望值

4.正态分布代替二项分布

image.png

如果用正态分布近似代替二项分布，则需要进行连续性修正，这样才能得到较为准确的结果。因为二项分布是离散型而正态分布是连续型

计算p(x>=a)时，离散数字x是a-0.5
计算p(x<=a)时。离散数字x是a+0.5

5.正态分布代替泊松分布

image.png

用正态分布近似代替泊松分布，要进行连续型修正
6.总结

image.png

抽取样本

1.样本

无偏样本
偏倚样本
抽样空间中条目补全
抽样单位不正确
抽样单位未出现在实际样本中
样本缺乏随机性

2.如何选择样本

简单随机抽样
分成抽样
整群抽样
系统抽样
重复抽样
不重复抽样

总体和样本的估计

1.均值

总体均值：

总体均值
样本均值

样本均值

点估计量：根据样本数据得出的对你所认为的总体均值的最佳猜测值

点估计量

2.总体方差：比样本方差偏大

总体方差

3.预测总体比例：比例算法用于解决二项分布问题

总体成功比例的点估计量

样本成功比例

4.抽样分布的概率

例如：Z个球，红球的比例为40%，现在取出100个球，里面有40个红球的概率
解
随机变量X代替样本中红球的个数，则样本中红球的比例为Ps = X/n，n为取出的球数
每个样本中，红色球的数量符合B(n,p), 成功比例为Ps=X/n
期望：

期望

image.png

方差：

image.png

比例标准误差：

image.png

n越大，比例标准误差越小

image.png

连续性修正

image.png

5.中心极限定理：如果从一个非正态总体X中取出一个样本，且样本很大，则抽取n个样品的分布也近似为正态分布

image.png

中心极限定理的作用
对于二项分布，总体均值为np,方差为npq, 如果带入抽样分布，则

image.png

对于泊松分布，均值和方差都为r，则得：

image.png

置信区间的构建

1.求解置信区间步骤

选择总体统计量
求出其抽样分布
决定置信水平
求出置信上下限

2.置信区间计算的简单算法

image.png

3.置信区间简明算法——t分布
当n很小时，t分布给出的置信区间比正态分布的置信区间更宽，着使它更适合小样本

image.png

《漫话统计学》
我们调查一件事，调查总体与样本

数据分为
不可测量的数据——分类数据（因人而异）

可测量的数据——数值数据（有具体可衡量的数值）

组、组中值、次数、相对次数、次数分布表、直方图、变量、组距、组中值

算数平均数、arithmetic mean 几何平均数、 geometric mean 调和平均数harmonic mean

中位数median

标准差：表示一组数据“平均离散程度”的指标 standard Deviation

描述统计学和推断统计学
第三章：掌握数据整体的状态

将问卷调查转变成次数分布表
第四章：标准计分和离差

离差；Deviation Score

标准差： Standard deviation

标准化： Standardization

标准计分：standard score (数据-平均数)/标注差
第五章：求机率

机率密度函数：Probability Density Function 简称：pdf
正态分布函数
以平均值为中心呈左右对称

受到平均值和标准差的影响

面积=比例=机率

标准正态分布表记录对应横轴的可读之机率的表

卡方分布
卡方分布表则记录对应机率之横轴刻度的表 x^2

t分布

f分布

excel 中的分布与对应的函数

双变量的相关分析

网友评论

槽点君Ezra:谢谢总结，不过方差的公示是不是写错了？
TheTiger:👍 统计学入门的绝佳材料。ppt 也是原创？
鬼宇书生:谢谢tige鼓励，是《深入浅出统计学》这本书上的:
彭健平6点30:整理的很详细👍，
鬼宇书生:谢谢

本文标题：统计学学习笔记

本文链接：https://www.haomeiwen.com/subject/znmqfxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

统计学学习笔记

大纲

统计学的作用

集中趋势的量度

分散性和变异性的量度

概率统计

离散概率分布的应用

排列与组合

几何分布、二项分布、泊松分布

正态分布的应用

超级正态

抽取样本

总体和样本的估计

置信区间的构建

相关文章

【基础不牢，地动山摇】什么是统计学习

统计机器学习基本概念

统计学习方法笔记(第四章个人笔记)

机器学习中的数学基础

R语言与医学统计学

大师兄的Python机器学习笔记:Numpy库、Scipy库和M

大师兄的Python机器学习笔记:统计学基础之底层代码实现（二）

2018-08-12

统计学习方法笔记(第一章个人笔记)

统计学习方法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

统计分析

解密大数据