RNA-seq
转录组
转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)
转录本测定研究
基于杂交的基因芯片技术
将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。
获取表达量的步骤:
提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据
局限性:
• 只能检测已知或;确定性的序列
• 无法检测新发现的,未放置到芯片上的基因
• 有部分探针的信号可能会收到非特异性杂交或个体序列差异的影响
基于NGS的RNA-seq
基于高通量二代测序技术的转录组学研究方法。
特点:
高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏
度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。
应用和最新进展
- 差异表达分析
- 可变剪接
- 共表达网络
- 转录调控网络
- 根据文库构建方法带来的变种
• ssRNA-seq
• small RNA-seq
• ribo-zero-ssRNA-seq
• circ-RNA-seq
RNA-seq 试验设计
- 生物学重复
生物学重复用于排除随机误差,通常3~5个,不同性质的样本可能需求重复量不同 - 样本提取
液氮或转录阻断剂瞬时猝灭,低温保存,长时间保存可能会降解 - 文库构建
非链特异性文库 RNA-seq:无法区分打碎的片段转录自正义链还是反义链;
链特异性文库 ssRNA-seq:建库时保留了转录本方向信息。基因表达定位更准确,可变剪切、双向转录等。 - 测序策略
单端测序 single-end:通常用于特殊测序,如small RNAseq;
双端测序 pair-end:有利于基因注释、转录本异构体鉴定。 - 测序深度
ENCODE推荐不进行可变剪接时,仅计算表达量最少 5M 有效 reads,如果需要鉴定新转录本、检测低表达基因、检测可变剪接等,需要适当增加测序深度。普通双端150bp测序平台有参转录组测序通常 6Gb数据,特殊文库需要数据倍增。 - 测序平台
RNA-seq 文库制备
- 总RNA提取
将 RNA 从特定组织中分离并于脱氧核糖核酸酶混合,降解样本中的DNA,然后用凝胶和毛细管电泳检测 RNA 降解量,评估 RNA 样本质量。
依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流
程保证RNA 完整性。
-
RNA分离纯化
• poly A 富集(RNA-seq 常用策略)
• rRNA 移除(rRNA占细胞中总RNA的比例超过90%)
• small RNA 富集
• circRNA 富集
• 其他等 -
样本打断
打断方法:酶切、超声波处理、喷雾器 -
cDNA合成
是否用标记保留链特异信息? -
上机测序
转录组核心数据分析
数据获取
需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
我这里用的是普通栽培稻(Oryza sativa L.)的参考基因组和、GFF文件和SRR17439319数据。
参考步骤:https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置时,需要在bin目录下执行./vdb-config --interactive
,然后弹出一大堆乱七八糟的之后,按X退出即可。再执行./fastq-dump,若没有报错,而是帮助信息的话即可以使用。
测序数据质量控制
测序数据分析前需要经过数据预处理,并检查数据GC含量、序列重复成俗、是否存在接头等。
- 质量评估:
使用 FastQC 检测原始数据质量
fastqc –o fastqc_results –f fastq test_1.fastq test_2.fastq b_1.fastq b_2.fastq
- 质量控制
使用 Trimmomatic 去除低质量reads。
Trimmomatic 详细说明参考:https://www.jianshu.com/p/a8935adebaae
FastQC和Trimmomatic的安装及使用参考:https://www.jianshu.com/p/bc3ad9379e3e?utm_campaign=hugo&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
用法:
java -jar /Path/To/trimmomatic.jar PE -threads 2 -phred33 \
test_1.fq.gz test_2.fq.gz \
test_1.trimed.fq.gz test_1.un.fq.gz test_2.trimed.fq.gz test_2.un.fq.gz \
ILLUMINACLIP:/path/to/Trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:76
在质控后,再质检一次,对比看看有什么不同。
reads比对
将 reads 匹配到参考基因组或转录组的相应位置上
• 非剪接比对:转录组
Bowtie、BWA
• 剪接比对:参考基因组
STAR、HISAT、Topha
对鉴定SNP做了优化: GSNAP、MapSplice等
HISAT2比对流程
① 建立基因组索引
extract_splice_sites.py tair10.gtf > genome.ss # 把剪切位点提取出来
extract_exons.py genome.gtf > genome.exon # 把exon提取出来
hisat2-build --ss genome.ss --exon genome.exon genome.fasta genome # 最后的genome是输出文件的前缀
②利用注释文件比对
hisat2 -p 4 --known-splicesite-infile genome.ss --dta -x tair10 -1 test_1.trimed.fq.gz -2 test_2.trimed.fq.gz -S test.sam
## -p 线程数
## --known-splicesite-infile 输入剪切位点文件
## --dat 转录本拼接
##-x index 库文件前缀CDS 和 exon 前 .
## -1 -2 双端测序 fastq的名字, 如是单端测试 –U
## -S 输出文件,是比对的 SAM 文件
没有注释文件的比对方法
hisat2 -p 18 --dta -x ~/genome/rice -1 /path/to/Rice_1.fq.gz -2 /path/to/Rice_.fq.gz -S rice.sam
③ SAM 文件处理
使用 samtools 对 SAM 文件排序并转化为 BAM 文件。samtools是一个用于操作sam和bam文件的工具合集,包含有许多命令。
samtools view -bS SRAxxx.sam > SRAxxx.bam # 查看bam文件内容
samtools sort -@ 2 -o SRAxxx.sort.bam SRAxxx.bam # 按比对位置排序+格式转换
samtools index rice.bam # 建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRRxxx1.bam SRRxxx2.bam SRRxxx3.bam # 把生成的bam文件合并为一个文件。因为每个文件的sam文件表头都一样,所以用-h指定某一个文件的表头作为总文件的表头。
## -@ 额外线程数
## -m 每个线程最大占用内存,单位 K/M/G,根据实际情况调整。
## -o 输出文件
④比对结果可视化
比对结果使用 IGV 、Genome Maps 和Sacant 等可视化查看。
例如:IGV 通过读入基因组和注释信息以及BAM 文件展示比对结果。
需要额外添加 BMA 的索引:samtools index test_sorted.bam test_sorted.bai
⑤比对结果评估
比对结果评估工具:RSeQC、Qualimap
- Reads 匹配百分比评估预测精度和DNA污染程度或参考基因组的选择是否适合;
- Reads 随机性分布 评估reads打断的随机程度;
- 匹配Reads的GC含量,与PCR偏差有关。
RSeQC的下载:pip install RSeQC
使用:bam_stat.py -i test.bam > test.bam.stat
基于NGS的转录本定量---StringTie
- reads 计算策略
① 只选唯一匹配 reads:用于估计基因水平的 reads 匹配数,常用工具如
HTSeq-count、featureCounts;
② 保留多重匹配的 reads:利用统计算法将多重比对reads定位到对于的转录本异构体上,如 Cufflinks、StringTie、RSEM等
计算FPKM
stringtie -p 10 -G test.gtf -e -A test.exp -o test.out test.sorted.bam
-p 线程数
-G 参考基因组注释
-e 只估计已给参考基因组注释的基因丰度
-A 基因丰度估计输出文件
-o 输出文件
网友评论