第一章 导 论
1.什么是统计学
- 统计学是收集、处理、分析、解释数据并从数据中得出结论的科学
- 数据分析所用的方法可分为描述统计方法和推断统计方法
2.参数和统计量
-
参数:总体特征,所关心的参数通常是总体平均数、总体标准差、总体比例等
由于总体数据通常是不知道的,所以参数是一个未知的常量-
-
统计量:个体特征,所关心的参数通常是样本平均数、样本标准差、样本比例等
由于样本是已经抽出来的,所以统计量总是知道的
第二章 数据的搜集
1.数据的来源
- 间接来源(二手数据)与研究内容有关的原信息已经存在,我们只是重新加工、整理,使之成为分析可用的数据,这称为间接来源的数据
- 直接来源(一手数据)通过调查方法获得的为调查数据,实验得到为实验数据,都是直接来源的数据
2.数据误差
- 抽样误差:由抽样的随机性引起的样本结果与总体真值之间的差异
- 非抽样误差:抽样框误差、回答误差、无回答误差、调查员误差、测量误差
第三章 数据的图表展示
1.数据预处理
- 原始数据:完整性、准确性
- 二手数据:适用性、时效性
2.分类数据图示
1> 组数 5≤ K ≤15
2> 组距 组距=(Max-Min)/K
3> 为解决不重的问题,统计分组习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。即a≤ x <b
第四章 数据的概括性度量
1.集中趋势的度量
- 众数不受极端值影响,具有不唯一性
- 中位数不受极端值影响,数据分布偏斜程度较大时
- 平均数易受极端值影响
2.离散程度的度量
标准分数:也称标准化值或z分数(将数据平均值变为0,标准差为1)
经验法则:对称分布
切比雪夫不等式:不是对称分布
离散系数
离散系数越大,数据离散程度越大
3.偏态与峰态
-
偏态 SK:数据对称性测度
SK = 0 分布对称
SK > 0 右偏
SK < 0 左偏
SK > 1或者SK < -1 高度偏态分布
SK在0.51或-1-0.5 之间,中等偏态分布
SK越接近0,偏斜程度越小
-
峰态 K:数据分布平峰或尖峰程度的测量
K > 0 尖峰分布,数据分布更集中
K < 0 扁平分布,数据分布越分散
第五章 概率与概率分布
正态分布
X服从正态分布,记作X~N()
标准正态分布
当时 ,X~N(0,1),即X服从标准正态分布
第六章 统计量及其抽样分布
1.由正态分布导出的几个重要分布
-
卡方分布
E(Y) = n ,D(Y) = 2n
-
t分布
小样本方法
n≥2,
n ≥ 3,
-
F分布
方差分析,回归方程的显著性检验
n>2,
n>4,
如果随机变量X服从t(n)分布,则
服从F(1,n)的F分布=>
回归分析回归系数显著性检验
2.中心极限定理
定义:设从均值为、方差为
(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时(n≥30),样本均值
的抽样分布近似服从从均值为
,方差为
的正态分布
第七章 参数估计
1.参数估计基本原理
置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间
置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(置信度或置信系数)
-
如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含,那么,用该方法构造的区间称为置信水平为95%的置信区间
-
总体参数的真值是固定的、未知的,而样本构造的区间则是不固定的。因此,置信区间是一个随机区间,因样本的不同而不同
-
实际问题中,进行估计时往往只抽取一个样本。只是一个特定区间而不再是随机区间,所以无法知道这个样本所产生的区间是否包含总体参数的真值。
比如,用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,我们不能说60-80分这个区间以95%的概率包含全班学生平均考试成绩的真值,或者说全班学生的平均考试成绩以95%的概率落在60-80分之间,这类表述是错误的,因为总体均值p是一个常数,而不是一个随机变量。p要么落在这个范围内,要么不在这个范围内,这里并不涉及概率。我们只是知道在多次抽样中有95%的样本得到的区间包含全班学生平均考试成绩的真值。它的真正意义是如果做了100次抽样,大概有95次找到的区间包含真值,有5次找到的区间不包含真值。假定全班考试成绩平均数的真值为70分,60-80分这个区间一定包含真值,如果全班考试成绩平均数的真值为50分,那么区间60~80分就绝对不包含真值,无论做多少次试验。因此,这个概率不是用来描述某个特定的区间包含总体参数真值的可能性,而是针对随机区间而言的。一个特定的区间"总是包含"或"绝对不包含"参数的真值,不存在"以多大的概率包含总体参数"的问题。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含参数的真值。
评价估计量的标准:无偏性、有效性、一致性
2.一个总体参数的区间估计
-
总体均值的区间估计
“正态总体、方差已知或非正态总体、大样本”
总体均值μ在1- α 置信水平下的置信区间为:
置信水平1- α = 95%,
=1.96
-
总体比例的区间估计
p是样本比例
α 是显著性水平
是标准正态分布右侧面积为α/2是的z值
是估计总体比例时的估计误差
第八章 假设检验
1.假设检验的基本问题
-
原假设,备择假设:原假设与备择假设互斥
-
两类错误
- 第 Ⅰ类错误是原假设
为真却被拒绝,犯这种错误的概率用α 表示,也称α 错误或弃真错误
- 第Ⅱ类错误是原假设为伪却没有拒绝,犯这种错误的概率用 β表示也称β错误或取伪错误
- 第 Ⅰ类错误是原假设
-
假设检验流程
-
σ已知,大样本
|z|<|
|,不拒绝
|z|>|
|,拒绝
-
利用P值(事先给定α=0.05)
- 双侧检验:P>0.025不拒绝原假设,P< 0.025拒绝原假设
- 单侧检验:P>0.05不拒绝原假设,P< 0.05拒绝原假设
-
-
单侧检验
一些情况下,我们关心的假设问题带有方向性
- 数值越大越好,使用寿命等,左单侧检验
- 数值越小越好,不合格率等,右单侧检验
2.一个总体参数的检验
-
总体均值的检验
-
样本量大
|z| 与 |
|
-
小样本,σ已知
|z| 与 |
| 或者 P值
-
小样本,σ未知
t 与
-
-
总体比例的检验
当α=0.05时,
=±1.96,比较|z| 与 |
|
第九章 分类数据分析
1.拟合优度检验
根据总体的分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。
在泰坦尼克号的例子中,我们关注在这次海难中幸存者的性别是否有显著差异,当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人。海难后存活比率为 718/2 208=0.325.如果是否活下来与性别没有关系,那么按照这个比率,在1738位男性中应该存活1738×0.325=565人,在470位女性中应该存活 470×0.325=153人。565和153就是期望频数,而实际存活结果就是观察频数。通过期望频数和观察频数的比较,能够从统计角度做出存活与性别是否有关的判断。
原假设:一致
2.独立性检验
独立性检验就是分析列联表中的行变量和列变量是否相互独立,是否存在依赖关系
原假设:不存在依赖关系
第十章 方差分析
1.单因素方差分析
方差分析(ANOVA):通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响
因素(因子):方差分析中所要检验的对象
水平(处理):因素的不同表现
单因素方差分析:只有一个因素的方差分析
例如,行业为因素,零售业、旅游业、家电制造业等属于水平
总平方和 SST(sum of squares for total):全部观测值与总均值的误差平方和。
组间平方和 SSA(sun of squares for factor A):各组均值与总均值的误差平方和,反映个样本均值之间的差异程度,因此又称为因素平方和。
组内平方和 SSE(sum of squares for error):每个水平或组的各样本数据与其总均值的误差平方和,反映每个样本各观测值的离散状况,因此又称误差平方和。
方差分析表
误差来源 | 平方和SS | 自由度df | 均方MS | F值 | P值 | F临界值 |
---|---|---|---|---|---|---|
组间(因素影响) | SSA | k-1 | MSA | MSA/MSE | ||
组内(误差) | SSE | n-k | MSE | |||
总 和 | SST | n-1 |
n为全部观测值个数 ;k为因素水平(总体)的个数;MS=SS / df
2.双因素方差分析
第十一章 一元线性回归
相关系数:根据样本数据计算的度量两个变量之间线性关系强度的统计量
ρ:总体相关系数,根据总体全部数据计算的
r:样本相关系数,根据样本数据计算的
[-1,0) ==> 负线性相关
(0,1] ==> 正线性相关
r = -1==>完全负线性相关关系
r=1 ==>完全正线性相关关系
相关程度:![]()
第十三章 时间序列分析和预测
1.时间序列及其分解
时间序列:同一现象在不同时间的相继观察值排列而成的序列,分为平稳序列和非平稳序列
趋势:时间序列在长期内呈现出来的某种持续上升或持续下降的变动
季节性(季节变动):时间序列在一年内重复出现的周期性波动。
2.增长率分析
-
增长率:也称增长速度,是时间序列中报告期观察值与基期观察值之比减1后的结果,用%表示
-
环比增长率:报告期观察值与前一时期观察值之比减1的结果,说明现象逐期增长变化的程度
-
环比增长率:报告期观察值与前一时期观察值之比减1的结果,说明现象逐期增长变化的程度
-
定基增长率:报告期观察值与某一固定时期观察值之比减1的结果,说明现象在整个观察期内总的增长变化程度
-
平均增长率:也称平均增长速度,时间序列中逐期环比值(也称环比发展速度)的几何平均数减1后的结果
表示平均增长率;n表示环比值的个数
第十四章 指数
1.简单指数
简单综合指数:将报告期的指数总和与基期的指标总和相对比的指数
p——质量指标
q——数量指标
——质量指标指数
——数量指标指数
下标1——报告期
下标0——基期
简单平均指数:
2.加权指数
加权综合指数
-
拉氏指数:将作为权数的同度量因素固定在基期
-
帕氏指数:将作为权数的同度量因素固定在报告期
大多数的看法是,计算数量指数(如生产量指数)时,权数(价格)应该定在基期,这样才能剔除价格变动的影响,准确反映生产量的变化,按不变价计算产量指数就是出于这个原因。计算质量指数(如价格指数)时,不同时期的权数含义不同:若权数定在基期,反映的是在基期商品(产品)结构下价格的整体变动,更能揭示价格变动的内容;若权数定在报告期,反映的是在现实商品(产品)结构下价格的整体变动,商品(产品)结构变化的影响会融入价格指数,更能揭示价格变动的实际影响。编制指数的目的不同,权数确定的时期就可以不同。
加权平均指数
。。。
指数计算
采用加权平均的方法
i为代表规格品个数指数或各层的类指数;
W为相应的消费支出比重
网友评论