T-test 关于差异的信心

作者: 数科每日 | 来源:发表于2021-03-08 18:24 被阅读0次

T-test 关于差异的信心
T-test 、 pvalue FDR矫正 R语言实现付代码实
python单样本t检验
方差分析（ANOVA)原理及其实现
如何理解与计算FDR？（第二版）
差异分析：fold change(差异倍数)、P-value(差
plotly--T-test检验--在线测试
差异基因检测方法
生统笔记2-统计检验
利用MATLAB实现FDR校正

t-test 是统计中非常常用的一种检验手段，它一般用来判断两组数据是否真的有差异。在现实中，我们经常要对2组数据的某个指标进行比较，比如2个种小麦的蛋白质含量，或者2个学校的学生的收入。当我们想知道那一组数据“更好” 的时候，我们往往面临如下困难。

无法获得全量数据，比如每种小麦所有的的麦子，或者2所学校所有学生的收入。这时，我们只能做抽样调查，比如从每种小麦中取 30个样本，或者调查每个学校 20名毕业生的收入。
什么叫“好” ？一般我们用均值来作为整体数据的一个代表，比如每种小麦30个样品的平均蛋白质含量，或者每个学校20名毕业生样本的平均工资。有了平均值作为单一指标，我们就可以轻松的对两个样本进行比较了。

但是，这样的比较有个问题：由于样本相较于总体，只是非常小的一部分，甚至比例小到可以忽略，那么用那么一点点样本的数据代替整体，是否科学？任何事情都有巧合，如果选择的样本恰巧比较偏，那么得出的结论就会出错。那么如何判断比较的结果是否有效呢？从直觉上，我们可以判断：

两组样本均值差距越大，我们就越有信心宣布二者不同。
每组样本方差越小（变化范围小），我们就越有信心宣布二者不同。
每组样本包含的样本数量越多，我们就越有信心宣布二者不同（1000个样本的结果要比 10个样本得出的结果有说服力）。

T-test 就是这样一个指标，它代表： 对差异的信心的量化 t-value 越大，说明对找到的差异越有信心。

常用的 T-value 有：

1. 独立t-value

在这种t-test 中，两组数据满足如下条件

两组变量相互独立
两组变量都符合正态分布
两组变量方差相等

如果两组数据样本大致相等（相差不超过一倍）可以用如下公式求 t-value

image.png

其中
$s_{p}=\sqrt{\frac{s_{X_{1}}^{2}+s_{X_{2}}^{2}}{2}}$

X bar [简书Latex bug 打不出来] ：是两个样本的均值
$s_{X_{1}}^{2}, s_{X_{2}}^{2}$ ：是两个样本的方差

n 是两个样本的的样本数量，这里假设两个相同，如果不同的话， $s_{X_{1}}^{2}$ 要对应除以 $n_{1}$ 样本2 同理。

自由度(freedom) : $n_{1} + n_{2} - 2$ 这个值在之后的查表操作中有用。

如果两组样本数量相差较大（多于一倍），那么其他的公式来计算对应 t-value 和自由度，这种情况比较少见，这里不展开讨论，可以参考这里。

2. 非独立t-value (配对T-value)

2组样本不是互相独立的，一般使用场景是同样的个体，在不同时期的表现。比如同一地块的小麦，在使用不同化肥以后的产量。之所以又叫配对 T-value ，因为这种实验往往样本是一一对应的。比如，如果比较某种化肥的效果，可以在2年， 10个地块上做实验，比较的时候，也是用地块1 在第一年的产量，对比地块1在第二年的产量，以此类推。

求 T-value: