转录组分析入门 1 —— 背景知识

作者: chenxiaoxi | 来源:发表于2020-03-03 22:36 被阅读0次

内容简介

1. 转录组测序要测什么？

👉mRNA：最常见的转录组测序，建库一般选200-300bp的片段，PE150或125测序

👉microRNA：将microRNA分离出来直接单独测序

👉IncRNA：长链非编码RNA，有正向、反向转录，要进行链特异性建库

【关于链特异性建库：作用就是测序过程保留转录本的方向信息，让我们知道转录本是来自正义链还是反义链。方便后来区分不同的IncRNA类型以及它的定位，可以更准确获得基因结构和表达信息。】

2. mRNA的提取、纯化及质量检测？

👉提取：

大多数动植物组织样品，使用Trizol试剂即可；
多糖含量丰富的植物，可以用多糖多酚试剂盒；
脂肪组织可以用QIAGEN的RNeasy lipidmini kit ；

👉纯化：

真核生物纯化mRNA，是利用它的3‘端polyA，采用oligoT磁珠将其富集纯化。
但是原核没有polyA，并且大部分是核糖体RNA（rRNA），mRNA只占据了1-5%，因此需要先去除total RNA中的rRNA，需要使用去rRNA试剂盒（Ribo-Zero或KAPA试剂盒），*
另外对于要测物种IncRNA的实验，如果有适用的试剂盒就用，否则不适用就会影响下游数据质量。

👉检测是否合格的指标：

RNA总量、RIN值、OD260/280以及真核28S/18S、原核23S/16S。
RIN值越高，28S/18S越接近2表示提取的RNA完整性越好。
【RIN值高于6.5可以做建库准备，太低影响准确度。有一些昆虫或者水生动物没有28S条带，因此RIN值不能作为参考，但是18S的前基线平稳即可。】

3. 构建测序文库

👉分离RNA=》将RNA打断成小片段=》将小RNA片段反转录成DNA（DNA更稳定更容易扩增）=》加接头=》PCR扩增 =》质量检查QC

具体：总RNA样本检测合格后，对于真核生物，用带有Oligo（dT）的磁珠富集mRNA，对于原核生物，用试剂盒去除rRNA，向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段，再以片断后的mRNA为模板，用六碱基随机引物合成cDNA第一链，并加入缓冲液、dNTPs、RNaseH和DNA Polymerase I合成cDNA第二链，经过QIAQuick PCR试剂盒纯化并加EB缓冲液洗脱。洗脱纯化后的双链cDNA再进行末端修复、加碱基A、加测序接头处理，然后经琼脂糖凝胶电泳回收目的大小片段并进行PCR扩增，从而完成整个文库制备工作。
注：
【RNA片段化目的：RNA长达几kb，测序仪器只能测200-300bp长度的短片断。
反转录目的：DNA更稳定更容易扩增。
接头作用：1⃣️ 使测序机器识别片段 2⃣️可同时测多个样品。
PCR扩增：只有加了接头的片段才能被扩增。】

4. 测序

目前二代测序主要采用Illumina平台

5. 分析流程

一般：质控-》比对(alignment or mapping)-》估算表达量(read counting)-》表达量比较(differential expression)。

1）质控（去除接头污染、低质量、N比例较高的reads，得到clean reads）

👉原始数据：Illumina测序仪下机的数据通常为Bcl格式，然后公司使用Bcl2Fastq软件，根据Index序列分割转换成每个样品的Fastq文件，用户拿到的就是fastq格式的原始数据。

👉质控：使用fastqc，查看碱基质量、接头情况、GC含量、序列长度、重复序列等

👉过滤：一般需要去掉低质量碱基或者未识别碱基（N）太多的reads；另外如果测序文库的插入片段太短，比如insert size=50，但采用PE 150测序，read1和read2就会测到接头，所谓的“测通“就是这意思，此时需要去掉接头序列。有时会出现两个接头连在一起的情况，也需要去掉。

2）比对

不同的比对流程👇

比对模式

上图来自文章A survey of best practices for RNA-seq data analysis, 2016, GB

基于参考基因组比对（有参考基因组，想分析新转录本）：
因为基因组包含了基因间区、内含子区域，因此比对时选取的比对软件就要具有"跨越式拼接”特性，比如STAR、Hisat2；
基于参考转录组比对（有参考基因组，分析已知转录本）：Bowtie、BWA；
无参考基因情况（没有参考基因组，或者有组装质量不好的，需要自己组装转录本）：
需要拼接Trinity：利用测序reads从头组装拼接出参考unigene，再将每个样本的reads比对到参考unigene上，计算表达量。
【对于大部分没有参考基因组或者基因组注释不好的物种，无参方法是比较理想的解决途径，但是比有参要消耗更多的内存、运行时间，不适合入门。】

看似简单的比对过程，就是帮150bp的reads找到家，其中可能还要让reads付出点“被分割”的代价。但是，基因组有多大？人类的是3G，也就是30亿碱基，一个150bp对于整个基因组来说，简直不值一提，要从头一个一个比对吗？姑且这样可以，那么我们有多少reads？一般6G数据，150PE，会有20Mreads（=60亿/150/2），也就是2000万条reads。这该怎么办？怎样保证高效和低错误率？

👉HISAT2是TopHat2的升级版，该软件使用改进的BWT算法（Sirén et al. 2014）将参考基因组转换成index，实现了更快的速度和更少的资源占用。
【先将大的基因组序列打断成许多小片段，然后为了方便接下来寻找这些片段，需要对他们进行构建索引index（目的就是标注每个小片段的位置），再将测序的reads和基因组一样，也是打断成小片段，然后把它的小片段比对到基因组的小片段上，比对上的会给出位置信息。】
【注：index比对的方法也避免由于某个碱基不匹配导致整段reads比对不上的结果】

3）表达量估算

👉Counts：与转录本重叠的reads数。

👉RPKM/FPKM：Reads/Fragments per kilobase of transcript per millions of read mapped

FPKM(Trapnell, C. et al, 2010)是利用RNA-Seq技术用来定量估计基因表达值的一个非常有效的工具。
落在一个基因区域内的read counts数目取决于基因长度和测序深度，换句话说，一个基因越长，测序深度越高，落在其内部的reads数目就会相对越多。而为了比较不同样本中不同基因的表达量，就去除测序深度和基因长度的的影响。
采用了两个标准化：reads数标准化和长度标准化：
RPKM(A)=C/(N/10^6 *L/10^3) ，其中C是唯一比对到转录本A的reads数，N是唯一比对到所有转录本的reads数，L是转录本A的长度。

【建库测序是一个随机抽样的过程，而这个抽取的样品实际上是以 Fragments 为单位，而不是 Reads。因此，使用FPKM更为合理。当 single-end 测序的时候，RPKM 与 FPKM 是等价的；当 pair-end 测序的时候（一个fragment对应两条reads），应该使用 FPKM。】

👉TPM: Transcripts per million reads
【当样本差异过大，要强调准确度或者定量目标基因的表达量的时候，TPM是最有效的。TMP先处理基因长度问题，再处理测序深度。】

FPKM vs. TPM（来自生信星球）

4）plot the data（PCA分析）

目的：1⃣️ 告诉我们是否能看到对照组与处理组直接的差异；2⃣️ 为下游的分析去掉其中不可靠的数据。

5）差异基因表达分析（通常edgeR或DESeq2）

～～未完待续～～

以上内容参考：
1. 简书刘小泽：简单理解RNA-Seq
2. 简书刘小泽：转录组谜团
 3. 简书刘小泽：转录组那些事儿 Part I
4. 简书生信星球转录组培训第一期Day1--善良土豆
更多资料：
视频 StatQuest: A gentle introduction to RNA-seq
讲义 http://www.mi.fu-berlin.de/wiki/pub/ABI/GenomicsLecture12Materials/rnaseq1.pdf

网友评论

本文标题：转录组分析入门 1 —— 背景知识

本文链接：https://www.haomeiwen.com/subject/zwkqlhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！