1.Excel选择加载“数据分析”工具库
2.描述统计字段基本含义:
- 描述数据集中趋势
(1)平均数
(2)中位数:按大小排序,排在中间的数
(3)众数:出现次数最多的数值
- 描述数据离散程度
(1)方差:
(2)标准差:数据与平均值之间的离散程度
- 描述数据分布形状
(1)峰度系数:描述对称分布曲线峰顶尖峭程度,是相对正太分布而言的。峰度系数>0,两端极端数据较少,比正态分布更高更瘦,呈尖高峰分布;峰度系数<0,表示两端极端数据较多,比正太分布更矮更胖,呈平阔峰分布;
(2)偏度系数:数据对称性。偏度系数=0,就是对称分布;如果偏度系数>0高峰向左偏移;反之向右偏;
- 其他
(1)平均值置信度95%:指的是在95%的置信度下计算出平均值的允许误差,可以用平均值+或-这个数来计算置信区间的上限和下限。
平均值是3,置信度(95%)是2.2,置信区间就是3±2.2
3.方差分析(单因素、双因素可重复、双因素无重复):
-
试验中要考察的指标称为试验指标,影响试验指标的条件称为因素,因素所处的状态称为水平,若试验中只有一个因素改变则称为单因素试验,若有两个因素改变则称为双因素试验,若有多个因素改变则称为多因素试验。方差分析就是对试验数据进行分析,检验方差相等的多个正态总体均值是否相等,进而判断各因素对试验指标的影响是否显著,根据试验指标的个数可以区分为单因素方差分析、双因素方差分析和多因素方差分析。
-
方差分析
差异源 | 指标说明 |
---|---|
SS | 误差平方和 |
df | 自由度 |
MS | 均方差 |
F | F统计量 |
Significance F | P值 |
通常F、P值两个指标需要关注,其中主要参考P值。因为计算出F统计量后,还需要查找统计表(F分布临界值表),并与之比较才能得出结果,而P值可直接与显著性水平α比较得出结果。
(1)F:F统计量,衡量变量间线性关系是否显著;
(2)P值:是在显著性水平α(常取值0.01或0.05)下的F的临界值,如果P>0.05,结果不具有显著的统计学意义;如果0.01<P<0.05,结果具有显著的统计学意义;如果P<0.01,结果具有极其显著的统计学意义。
显著性:指两组数据之间的任何差异是由于系统因素而不是偶然因素造成的;
4.相关系数
用来衡量变量间的线性相关关系。
正比例关系相关系数在0.00--1.00之间
反比例关系相关系数在-1--0.00之间,绝对值越大相关性越强。
5.协方差
可以通俗的理解为两个变量在变化过程中是同方向变化还是反方向变化。
你变大我也变大,说明两个变量是同向变化的,此时协方差为正;
你变大我变小,说明两个变量是反向变化的,此时协方差为负;
协方差数值越大,两个变量同向程度就越大,反之亦然;
6.指数平滑
指数平滑法是生产时间序列预测法中常用的一种方法。预测值是以前观测值的加权和,且对不同的数据给予不同的权数,新数据给予较大的权数,旧数据给予较小的权数。
7.F-检验 T-检验
t检验是某一个自变量对因变量的影响。f检验是所有的自变量在一起对因变量的影响。
网友评论