2019年7月24日,Nature Reviews Genetics上发表了一篇了RNA-seq的综述,文献信息如下所示:
Stark, R., et al. (2019). "RNA sequencing: the teenage years." Nature Reviews Genetics.
摘要:在过去的十年中,RNA测序(RNA-seq)已经成为在全转录组范围内分析差异基因表达和mRNAs差异剪接的重要工具。然而,随着下一代测序技术的发展,RNA-seq技术也在不断发展。现在,RNA-seq用于研究RNA生物学的许多方面,其中包括单细胞基因表达、翻译(翻译组,translatome)和RNA结构(结构体,structurome)。其它的应用也在开发中,例如 空间转录学(Spatialomics)。加上新的长片段 (long-read)和直接RNA-seq技术以及用于数据分析的更好的计算工具的整合,RNA-seq技术的创新有助于人们更全面地理解RNA生物学,例如从何时何地转录发生到控制RNA功能的折叠和分子间相互作用等问题。
这篇综述信息密度很高,先把文献旁边的名词解释给译了一下,如下所示:
1. 差异基因表达:Differential gene expression, 即DGE,一种分析方法,目标是使研究者们找出不同实验组之间的变化的基因。
2. 读长深度:Read depth,一个样本测序后所获得的所有测序读长(reads),注意与测试深度进行区分。
3. 短读长:short-read:一种测序技术,产生的读长(read)的长度为500bp,但更常见的是100-300bp,它测的是打断后的mRNA。
4. 长读长:long-read,一种测序技术,能够没到1000bp,它代表的全长或接近全长的mRNA。
5. 直接RNA测序:Direct RNA sequencing,dRNA-seq,一种测序技术,在不用打断RNA以及反转录的情况下,对RNA进行直接测序,其目标通常是为了检测全长或接近全长的RNAs。
6. 多重回贴读长:multi-mapped reads:来源于转录组的同源区(homologous region)的测序读长,这些读长无法明确地回贴到基因组上或转录组上。
7. 合成长读长:synthetic long reads:一种方法,能够通过组装来对多个短读长进行合成,生长长读长。
8. 唯一分子标签:Unique molecular identifiers,UMIs,一种短的序列或编码标签(barcodes),这些短序列通常会在RNA-seq文库制备过程中进行添加(在进行PCR之前),这种序列能够对一个特定的起始分子进行标记。此方法通用用于校正RNA-seq数据的定量偏差,在少量RNA进行测序或单细胞测序中使用尤为广泛。
9 。读长长度:read length:每个测序读长的长度,在短读长RNA测序过程中,这个长度通常是50-150bp。
10. 灵敏度:Sensitivity,一种指标,它表示在每个样本中,能够检测到转录本的比例。样本处理,文库制备,测序以及数据分析都会影响这个指标。
11. 特异性:specificity: 一种检测指标,它表示的是差异表达的转录本在检测到的转录本中的比例。样本处理,文库制备,测序和数据分析都会影响这个指标。
12. 标签读长:Tag read, 对于一个转录本来说,一个标签读长是唯一,它通常来源于mRNA的3‘末端,这种读长用于分析差异表达转录本,或者是来源于5'端,这种通常用于分析转录起始位点和启动子。
13. 重复率:duplication rates, 在一个RNA测序样本中,回贴到转录本上同一位置的测序读长的比例。在RNA-seq文库中,对于一些转录本来说,重复率是比较高的,这是因为它们在样本中的的表达水平比较高,同时低表达的转录本,重复率很低。
在RNA-seq中,重复率是一个重要问题,因为多数情况下,重复的读长或许代了真正高表达的转录本,而一些重复读长则是有可能来源于测序偏倚。所以,要加以判断!!
14:单端测序:single-end squencing,只测cDNA片段的一端的短读长测序手段,它通常用于基因表达分析实验,优势就是便宜。
15. 双端测序:paired-end sequencing,同时测cDNA片段的两端短读长测序手段,通常用于基因表达分析实验,如果是要研究剪接,则需要最大的灵敏度,因为每个cDNA的更多碱基会被检测到。
16. 生物学重复:Biological replicates:同时检测生物学意义上的不同样本,例如来源于不同的3个研究对象的组织,生物学重复可以发现生物学偏差,这要么代表了自身的一种研究駨,要么代表了噪音。相比之下,
技术重复则是:对同一个样本进行重复的要检测,例如同一个组织检测3次,检查是否是因为实验技术导致的偏差。
17. 表达矩阵:Expression matrix,RNA-seq中差异表达基因的数值矩阵。行代表RNA特征,例如基因名或转录本名,列表示测序样本。这些值通常用与每个RNA特征相关在的读长数目表示,表达矩阵可以用于估计异构体特征,在进行下游分析之前,通常要经过归一化处理(normalization)。
18. 外参控制(spike-in control),处理样本之前,spink-in ,将已知浓度的外源核酸混合物添加到一个样本中。它们通常是各种浓度的人工合成的RNA序列,会被提前混合,用于监测反应效率,并确定方法学的偏倚处理以及用于监测假阴性。
19. 空间转录组学, Spatialomics, 一种转录组分析方法,它能保留一个样本中每个转录本的空间信息,例如一个组织的不同区域。
20. 初始RNA,Nascent RNA,刚开始被转录的RNA,这些RNA与那些已经被处理后,输送到细胞质的RNA不同。
21. 4-硫尿核苷,4-Thiouridine, 4 sU,含有一个硫原子的核苷,通常不并存在于真核生物的mRNA中,它很容易整合进核酸中,用于初始RNA分析。
22. 翻译组:Translatome,一个细胞,组织或机体中,所有从mRNA翻译到蛋白质的总和。
23. 结构组:Structurome, 一个细胞,组织或机体中,所有二级和三级结构的RNA总和。
24. 相互作用组:Interactome,一个细胞,组织或机体中,所有分子之间相互作用的总和,包括RNA-RNA,RNA-蛋白质之间的相互作用。
网友评论