统计学中的显著性检验

作者: 谢京合_数据分析人 | 来源:发表于2022-12-13 16:46 被阅读0次

宏基因组、扩增子组间差异检验，终于有人讲清楚了！！！
生信分析中的p值，q值，padj值和pvalue值
统计学中的显著性检验
数学思维4：零假设和显著性检验
一元线性回归（显著性检验）
单尾检验和双尾检验
显著性检验
六西格玛管理法——日卡（十三）
9.4 GWAS：显著性阈值确定——GEC
相关性检验函数

数据差异的显著性检验是数据分析的重要技术之一。
然而，如何正确选择检验方法是很多初学者困惑和容易出现错误的地方。
下面为大家总结一下数据差异显著性检验的方法及适用范围。

显著性检验
首先需要理解什么是数据差异的显著性检验。
在数据分析中，如果仅仅基于个案（某个数据）的采样数据是没有很强说服力的。
例如：一种新药，不能因为一个人使用后，效果良好就大面积地推广，而应该基于大规模的样本判定这种新药是否有效，这就需要验证在大规模样本中实验组数据是否优于对照组数据，二者是否存在显著性的差别。
显著性检验的理论就是在这种具体需求下提出来的。

所谓数据差异的显著性检验，是面向两组或多组数据的一种数据分析方法，其目的是对两组数据之间是否存在显著的差异进行判断。
一般来说，两组观测数据不可能完全相同，肯定存在或多或少的差异，但研究者关心的是两组数据的差异是否显著。
如果差异显著，就可以说两组数据之间存在显著性差异；否则，它们之间的差异不显著，甚至可以说是无差别。

数据差异的显著性可以运用在各类科学研究中，例如，在教学研究中，研究者可以研究某种教学法是否有效。在医学领域，可以研究某种新药是否对患者有效等等。

数据的分类
数据类型的不同，将直接影响到差异显著性检验的使用方法。数据主要可以分成三类：定距变量，定序变量和定类变量。

定类变量：根据定性的原则区分总体中个案类别的变量。定类变量的值只能把研究对象分类，只能决定研究对象是同类或不同类，例如：性别分为男性和女性两类；出生地区分为农村、城市、城镇三类；民族背景分为汉、蒙、回、苗、壮、藏、维吾尔等；婚姻状况分为未婚、已婚、分居、离婚、丧偶等类。

定序变量:区别同一类的个案中等级次序的变量。变量的值能把研究对象排列高低或大小，它是比定类变量层次更高的变量，也具有定类变量的特点，例如：文化程度可以分为大学、高中、初中、小学、文盲；工厂规模可以分为大、中、小；年龄可以分为老、中、青。这些变量的值，既可以区分异同，也可以区别高低或大小。但是，各个定序变量的值之间没有确切的间隔距离，比如大学究竟比高中高出多少，是没有确切的尺度来测量的。

定距变量：区别同一类别个案中等级次序及其距离的变量。它除了包括定序变量的特性外，还能确切测量出个案之间高低、大小次序之间的距离。

定距变量是最常见、区分度最高的变量，这类变量可以被求取均值、方差、标准差和标准误等描述性信息，在数据分析中最受欢迎，被称为高测度数据。定序变量和定类变量则因为数据的特点，通常无法求取它们的均值和方差等信息，被称为低测度数据，需要采用与定距变量不同的分析技术。

分析方法总结
基于前面的分析，笔者对差异显著性检验的技术及其适用性进行了总结。

列于下面表格：