RNAseq 简介

RNA测序(RNA-seq)在过去十年里逐渐成为全转录组水平分析表达和研究mRNA差异剪接必不可少的工具，应用于如单细胞基因表达、RNA翻译(translatome)，RNA结构组(structurome)， RNA-RNA/RNA-Protein的相互作用、空间转录组学(spatialomics)等多种RNA层面的研究(R. Stark, Grzelak, and Hadfield 2019)。

其中表达水平的探究是转录组领域最热门和基础的方向：利用转录组数据来识别转录本和表达定量，从而对造成细胞/组织/个体间不同状态的差异的内部原因进行诊断分析，挖掘关键基因：

在不同背景下比较mRNA水平

同一物种，不同组织：研究基因在不同组织的表达情况，找到细胞组织特异性的基因；
同一物种，同一组织：研究基因在不同处理或条件下的表达变化，挖掘特异的功能基因，指导后续物种改良、疾病诊断等；
同一组织，不同物种：研究基因的进化关系；
时间序列实验：基因在不同时期的表达情况与其发育的关系，找到发育阶段特异性的基因；

基因分类

分析细胞特异，疾病相关，处理相关的基因表达模式，探究疾病状态相关的基因；

基因网络和通路

基因在细胞活动中的功能，基因间的相互作用。

基本workflow

分离所有mRNA
- poly(A) 富集：需要提取到的RNA中含有高比例的mRNA
- ribosomal depletion：rRNA在总RNA中占比高( 90 %)，保守性也高，研究意义不大，还会影响鉴定其他类型RNA。
建库

可以同时构建两种文库进行测序以获得多种RNA数据，即链特异性文库的长片段文库：将RNA打断测序，得到mRNA、lncRNA和circRNA；和Small RNA文库的短片段文库：得到miRNA、piRNA等。
- short-read：cDNA合成 >> 接头连接 >> PCR扩增
- long-read cDNA：cDNA合成 >> PCR扩增 >> SMRT文库
- long-read direct RNA-seq
测序，质控: 10–30 million reads per sample
从头拼接(无参考基因组)、比对参考基因组
计数定量(基因水平、转录组水平、外显子水平)
- 基因水平：括HTSeq-count, Rsubread(featureCounts), BEDTools, Qualimap, GenomicRange
- 转录本水平：Cufflinks, StringTie，eXpress, Glimmer, IDP
- 外显子水平：DEXSeq
- alignment-free：
过滤和标准化(FPKM/RPKM/TPM)
差异表达分析
功能注释
功能富集分析
其他
- 识别可变剪切
- 融合基因检测
- eQTL定位

整个分析流程在Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis中有比较详尽的描述。

图片

实验设计

RNA-seq实验可以运用于多种场景，例如病例与对照，野生型与突变，或疾病与正常比较。

对于不同的场景，可以使用Scotty等工具计算出测序深度和重复数之间的最佳权衡，一般来说三个重复是分析的最小样本量；此外，实验设计中存在的额外重复是一个非常强有力的保障，可以用于识别异常样本，并在具体分析时进行移除或权重减弱。

参考基因组和注释信息

测序后得到的是大量短reads，如果没有参考基因组，就需要从头组装(de novo)。如果目的物种的参考基因组已经组装好了，我们只需要把我们测得序列mapping回去就可以进行进一步分析。

常见数据库如：Ensembl, iGenomes, NCBI, and UCSC 的同版本参考基因组序列大致一样，但它们的注释和更新频率是不一样。总的来说：

UCSC 的注释比较混乱，同样ID的基因会出现在不同链或不同染色体位置上。
Ensembl 的注释通常比UCSC 更多(所以噪音更多一点)，但ID处理的比较好，不会像UCSC的那么混乱，因此，它们的 ID 通常更容易转换成别的(如，基因名称、GO和pathway)。
另外，Ensembl还经常进行注释更新，因此可以方便地告诉别人你使用的版本，增强分析的可重复性。

结论：想要可重复性和稳健 - RefGene；希望得到更多的信息进行探索性研究 -Ensembl；对于Ensembl序列，选dna或者dna_ssm都可以；最好用primary_assembly，别碰 toplevel ；然后选择primary_assembly 对应的注释.gff3或.gtf即可。

数据标准化

由于测序reads间存在差异，此时需要对count进行校正，常见的校正方式有RPKM，FPKM，TPM and RSEM。

RPKM 适用于单端测序
FPKM 是RPKM的双端模式，将reads count 换为 Fragments count。
TPM 基于上述方法，并将基因长度的分布纳入考量，可能更符合相对表达量的本质，适用于样本之间转录本分布不一致时(如，不同物种RNA-seq的比较)。
DESeq: uses the negative binomial as the reference distribution and provides its own normalization approach.
edgeR: input raw read counts and introduce possible bias sources into the statistical model to perform an integrated normalization.

批次效应

由于存在实际限制，Gnomic数据通常是分批产生的，但是技术变化和批间的差异(通常称为批效应)可能导致批间数据的显著异质性，从而导致不同技术处理批次数据的统计分布差异，并可能对下游生物分析产生不利影响。

批次间每个样本的整体表达分布的差异可以通过归一化方法进行校正，例如将原始计数转换为CPM、TPM或RPKM/FPKM的(对数)、M值的裁剪均值(TMM)或相对对数表达式(RLE)。然而，每个样本中基因的表达水平按总表达比例变化，不能通过归一化完全纠正(Zhang, Parmigiani, and Johnson 2020)，此时我们可以利用RUVseq(R包)或ComBat-Seq(R包)进行处理。从而移除文库准备时造成的差异，提高了统计能力，并产生了更多有意义的差异基因。

References

Au, Kin Fai, Vittorio Sebastiano, Pegah Tootoonchi Afshar, Jens Durruthy Durruthy, Lawrence Lee, Brian A Williams, Harm van Bakel, et al. 2013. “Characterization of the Human Esc Transcriptome by Hybrid Sequencing.” Proceedings of the National Academy of Sciences 110 (50): E4821–E4830.
Djebali, S., V. Wucher, S. Foissac, C. Hitte, E. Corre, and T. Derrien. 2017. “Bioinformatics Pipeline for Transcriptome Sequencing Analysis.” Journal Article. Methods Mol Biol 1468: 201–19. https://doi.org/10.1007/978-1-4939-4035-6_14.
Pertea, Mihaela, Daehwan Kim, Geo M Pertea, Jeffrey T Leek, and Steven L Salzberg. 2016. “Transcript-Level Expression Analysis of Rna-Seq Experiments with Hisat, Stringtie and Ballgown.” Nature Protocols 11 (9): 1650.
Pertea, Mihaela, Geo M Pertea, Corina M Antonescu, Tsung-Cheng Chang, Joshua T Mendell, and Steven L Salzberg. 2015. “StringTie Enables Improved Reconstruction of a Transcriptome from Rna-Seq Reads.” Nature Biotechnology 33 (3): 290–95.
Sahraeian, Sayed Mohammad Ebrahim, Marghoob Mohiyuddin, Robert Sebra, Hagen Tilgner, Pegah T Afshar, Kin Fai Au, Narges Bani Asadi, et al. 2017. “Gaining Comprehensive Biological Insight into the Transcriptome by Performing a Broad-Spectrum Rna-Seq Analysis.” Nature Communications 8 (1): 1–15.
Stark, R., M. Grzelak, and J. Hadfield. 2019. “RNA Sequencing: The Teenage Years.” Journal Article. Nat Rev Genet 20 (11): 631–56. https://doi.org/10.1038/s41576-019-0150-2.
Trapnell, Cole, Brian A Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan, Marijke J Van Baren, Steven L Salzberg, Barbara J Wold, and Lior Pachter. 2010. “Transcript Assembly and Quantification by Rna-Seq Reveals Unannotated Transcripts and Isoform Switching During Cell Differentiation.” Nature Biotechnology 28 (5): 511–15.
Zhang, Yuqing, Giovanni Parmigiani, and W Evan Johnson. 2020. “ComBat-Seq: Batch Effect Adjustment for Rna-Seq Count Data.” bioRxiv.
Wu, H., Wang, C. & Wu, Z. PROPER: comprehensive power evaluation for differential expression using RNA- seq. Bioinformatics 31, 233–241 (2015). Gaye, A. Extending the R Library PROPER to enable power calculations for isoform- level analysis with EBSeq. Front. Genet. 7, 225 (2017). Scotty: http://scotty.genetics.utah.edu