写在前面的废话
这段时间闹肺炎,什么牛鬼蛇神都出来闹腾了。有的人是看热闹不嫌事大,有的人却是恶意造谣,凭空联想。因为一篇biorxiv上的文章,就能脑补出一部阴谋大剧,简直和唐人街探案有得一拼。
对于这些造谣者,他们干的事情不地道,但是其思考方式却是值得我们学习的。那就是联想,他们把所有糟糕的事情串到一起,略加渲染,做成了阴谋论,让人们过目不忘(我的父母就深受其害,使得我每天都要不断地为他们科普)。而我们可以将知识点串在一起,帮助我们加深印象。
太长不看系列
- 技术重复:一个样本重复多次
- 生物学重复:同一批次每个生物重复一次(多次)
- 当生物学重复之间存在相关性,需要考虑有效样本数(effective sample size)
-
effective genome size
和effective sample size
不一样,不要混为一谈
废话超多系列
首先我们区分一下生物学重复和技术重复,有的人可能不屑一顾,和我的反应一样。但是别着急,答应我先区分下面两种情况属于什么重复,答对了再嘲讽我好么?
- 现在有一只小鼠A,我们对它的肌肉组织取样,连续三次检测其基因表达水平
- 现在有一只小鼠A,我们连续三次对它的肌肉组织取样,然后分别对该样品进行测序
文字不方便理解的话,可以看下面的图示:
事实上,这两种重复都是属于技术重复,因为它们都是针对的一只小鼠做的实验(一个生物)。但是这两种技术重复的侧重点有些许不同。
- 第一种技术重复,重点是RNA-seq检测方法的准确度。比如当你发现了一个新的检测基因表达量的方法,就需要用这种重复来验证该方法的准确度
- 第二种技术重复,重点是这个小鼠本身的基因表达水平而非检测方法。
那么,什么是生物学重复呢?比如我有一群小鼠,我挑选其中三只,做相同处理,然后分别取样检测基因表达水平:
这是因为,我们的每一次测量都来自于不同的小鼠(生物)。除此之外,我们还可以知道,生物学重复研究的重点从个体转移到了这类群体。
既然有了重复(有了不同的样本),我们接下来需要考虑的就是样本数的问题:
- 如果我们对检测基因表达水平的方法感兴趣,那我们的样本数与技术重复相关:
-
下面的情况,样本数为3(三个技术重复):
-
- 假如我们对于蓝色小鼠这一族群感兴趣:
-
下面的情况,样本数为3:
-
下面的情况,样本数依然为3,这是因为技术重复不影响我们关注的重点(技术重复关注的是个体或者是方法的准确度)
-
-
假如我们对小鼠的某一族群感兴趣,我们对三种颜色的小鼠都检测一下基因表达:
但是,如果蓝色小鼠有一个双胞胎弟弟,那么此时的样本数是多少呢?是3还是4呢?
事实上,样本数介于3和4之间。这个时候,样本数不再是简单的加和,而是要考虑有效样本数(effective sample size)。计算公式如下:
此时我们需要关注这两只蓝色小鼠的相关性,若相关系数为0.7,则这俩双胞胎所代表的样本数为2/(1+(2-1)*0.7)=2/(1+0.7)=1.18
若相关系数为0.1,则这俩双胞胎所代表的样本数为2/(1+(2-1)*0.1)=2/(1+0.1)=1.82
由此可知,两个双胞胎小鼠的相关性越低,所代表的样本数越大。相关性越大,则所代表的样本数越小。甚至若二者完全相同,我们可以把他们看作是一个(把他们看作是技术重复,不影响样本数)
写在后面的话
需要注意的是,很多人使用过deeptools,里面涉及到一个effectiv genome size
的定义。该定义与effective sample size
完全不同,千万不要混淆。
effective genome size
相当于是去除了基因组中为N的那些碱基之后的长度。
参考资料
- StatQuest: Technical and Biological Replicates
- StatQuest - Sample Size and Effective Sample Size, Clearly Explained
网友评论