初学生信,逐渐开始意识到统计学的重要性,例如p值、标准误等概念;回归建模、深度学习等方法都要很好的统计学基础。因此现在利用空闲时间系统得补下相关知识。
目前计划:打基础阶段先看冯国双老师的《白话统计》,之后进行深入学习(李航老师的《统计学习方法》蛮多推荐的,之后了解下)
此外遇到示例绘图等操作,主要基于R(3.61)
要点一:统计资料类型classification
统计离不开数据;根据不同的数据类型,会选择不同的分析方法。
1、定量资料 numeric
最简单,也是最常见的数据类型,即数字指标。
1.1 subclassification
- 连续型资料continuous:可以是任意类型的数字
最常见;例如身高体重值,价格.... - 离散型资料discrete:只能是整数
例如基因长度,硬币个数等
1.2 其它
由于之后重点学习的统计方法主要基于定量资料,就不多做叙述了。
2、分类资料(频数)categorical
2.1
- 二分类 subclassification
例如生死、正反、是否等结局的数据 - 无序多分类 nominal
例如职业类型、民族分布等统计 - 有序多分类 ordinal
例如成绩等级(A B C D)、身体评价指标(优良中差)等
2.2 统计方法
- 研究一组数据的分布
分类资料服从二项分布或多项分布,一般采用二分类或者多项Logistic回归 - 研究多组数据的比较
根据有序/无序的差异以及研究目的,有不同的思路,例如:
两组无序分类资料的比较可用卡方检验;
两组有序分类资料的比较可用秩和检验;
2.3 定量数据转换为分类资料
- 举一例子就好理解:将全班成绩按数值分为及格与不及格;把考试绩点分为A+,A,B等不同的等级。
- 转换后的资料就可以按照分类资料的统计方法进行分析;
- 如上面的例子,转换的关键就是设定合理的cut-off,比如及格与否的cut-off一般为60。
- cut-off的设置一般要与自己的研究对象密切相关,即有实际意义,不是随便设置的。
- 如果实在是没有相关参考经验,也可以按照数据特征,采用特定的方法进行划分。
3、计数资料 count
3.1 特征
- 类似分类资料,但性质有所不同,count data有单位,一般为次数(1h内咳嗽的次数,1个gene上的reads比对次数);
- 而分类资料没有单位,即为频数。
3.2 相关统计方法
- 经常是对一组count数据进行Poisson回归或者负二项回归(Negative binomial regression);
- 泊松分布一般用于个体之间独立情形;负二项可用于个体间不独立的情形
- 某些情况下,count数据也可采用定量资料统计方法,即广义线性模型(Generalizd Linear Model, GLM),之后会学习到。
要点二:常见统计指标
主要是基于定量资料的统计指标
1、描述数据集中程度
- mean均数μ(mu),适用于正态分布;
- median中位数,将一组数据按大小排序后位于中间的数,适合偏态分布的描述,相比均数更稳健(robust);
-
mode众数:出现次数最多的数值,感觉用到的情况不多;
three numbers
2、描述数据分布情况
百分位数
- 在按数值大小排序的一组数据中,某个数据的相对位置(0~100%)
- 上面的中位数即指第50百分位数
- Q3:第75百分位数,也叫上四位数;
- Q1:第25百分位数,也叫下四位数;
- Q3-Q1称为四分位距,如果数据呈偏态分布,建议用Q1至Q3进行描述。
箱图boxplot
-
直观地反映数据分布情况的作图方法
boxplot
注意有一个小细节,图注不是很清楚。median位置即为阴影矩形的那根竖线。
- 如上图所示,基本都能理解,关键是outliers的判断
如图左右两个须长最大为Q1/Q3+1.5(Q3-Q1),就有下面两种情况
(1)如果最大值与最小值分别小于上述公式,就把须长拉短即可;
(2)如果超过该最长值就以单独点的标记为离群点,同时展示公式对应的须长。
在正态分布中,Z值也是反映数据位置的方法,具体到时再学吧
3、描述数据变异程度★
3.1 离均差平方和
- SS,sum of squares of deviations from mean;
- 即为一组数据中,每个数与均值差的平方的和。
-
在后续回归建模,方差分析等差异分解中的总变异其实就是这里的离均差平方和
SS
SS
3.2 方差
- variance,σ2(sigma平方),S^2
-
离均差平方和相对于例数的平均数
variance
-
上述公式是计算总体方差的标准公式,但经统计学家证明:实际利用抽样样本估计总体参数时,样本方差的计算公式的分母为n-1,更符合总体方差的估计。
variance
n-1 其实也就涉及到自由度的概念了,在最后记录下。
3.3 标准差
- 方差虽然在很多统计方法中会用到,但是作为统计指标的解释意义不大(平方)
-
standard deviation 标准差,σ,S:即对方差求平方根
sd
sd
附1:自由度的概念 degree of fredom
- 定义:计算样本统计量能够自由取值的数值的个数
直观的例子:如x+y+z=100,自由度就是2。因为一旦确定两个值,第三个值就确定了 - 规律:每估计一个参数,就要消耗一个自由度
实际统计方法举例(注意这几个例子里的n是指所有的样本的数据数量)
(1)如上样本方差计算,因为公式已经用到均值,自由度就是n-1;
(2)单样本t检验,自由度也是n-1;
(3)两组t检验,自由度为n-2;
(4)多组(k)方差分析,自由度为n-k
附2:∑符号
- ∑读音为sigma,英文意思为Sum,Summation,就是和;
-
一般为下图写法,其中i表示下界,n表示上界;K代表计算式,表示从i开始取数,一直取到n,全部加起来。
∑符号
网友评论