转录组数据分析RNA-seq

作者: 就是大饼 | 来源:发表于2022-03-25 17:38 被阅读0次

RNA-seq

转录组

转录组学（transcriptomics）的研究对象是全基因组尺度下所有转录本（transcript），即转录组（transcriptome）

转录本测定研究

基于杂交的基因芯片技术

将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为基因芯片（Gene Chip）、微阵列（Microarry）。

获取表达量的步骤：
提取RNA -> 反转录（->扩增）->标记->杂交->扫描->获得原始数据
局限性：
• 只能检测已知或；确定性的序列
• 无法检测新发现的，未放置到芯片上的基因
• 有部分探针的信号可能会收到非特异性杂交或个体序列差异的影响

基于NGS的RNA-seq

基于高通量二代测序技术的转录组学研究方法。
特点：
高通量、低成本；不依赖已知转录本探针，可以测全转录组；对于低表达丰度的转录本灵敏
度高；以reads数量腐酸表达，比芯片的荧光信号更为精确。
应用和最新进展

差异表达分析
可变剪接
共表达网络
转录调控网络
根据文库构建方法带来的变种
• ssRNA-seq
• small RNA-seq
• ribo-zero-ssRNA-seq
• circ-RNA-seq

RNA-seq 试验设计

生物学重复
生物学重复用于排除随机误差，通常3~5个，不同性质的样本可能需求重复量不同
样本提取
液氮或转录阻断剂瞬时猝灭，低温保存，长时间保存可能会降解
文库构建
非链特异性文库 RNA-seq：无法区分打碎的片段转录自正义链还是反义链；
链特异性文库 ssRNA-seq：建库时保留了转录本方向信息。基因表达定位更准确，可变剪切、双向转录等。
测序策略
单端测序 single-end：通常用于特殊测序，如small RNAseq；
双端测序 pair-end：有利于基因注释、转录本异构体鉴定。
测序深度
ENCODE推荐不进行可变剪接时，仅计算表达量最少 5M 有效 reads，如果需要鉴定新转录本、检测低表达基因、检测可变剪接等，需要适当增加测序深度。普通双端150bp测序平台有参转录组测序通常 6Gb数据，特殊文库需要数据倍增。
测序平台

RNA-seq 文库制备

总RNA提取
将 RNA 从特定组织中分离并于脱氧核糖核酸酶混合，降解样本中的DNA，然后用凝胶和毛细管电泳检测 RNA 降解量，评估 RNA 样本质量。

依据文库要求检查完整性分值，如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高，如全长转录组文库，需要特殊提取流
程保证RNA 完整性。

RNA分离纯化
• poly A 富集（RNA-seq 常用策略）
• rRNA 移除（rRNA占细胞中总RNA的比例超过90%）
• small RNA 富集
• circRNA 富集
• 其他等
样本打断
打断方法：酶切、超声波处理、喷雾器
cDNA合成
是否用标记保留链特异信息？
上机测序

转录组核心数据分析

数据获取

需要的数据：参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
我这里用的是普通栽培稻(Oryza sativa L.)的参考基因组和、GFF文件和SRR17439319数据。
参考步骤：https://blog.csdn.net/sunchengquan/article/details/79781366
注意：配置时，需要在bin目录下执行./vdb-config --interactive，然后弹出一大堆乱七八糟的之后，按X退出即可。再执行./fastq-dump，若没有报错，而是帮助信息的话即可以使用。

测序数据质量控制

测序数据分析前需要经过数据预处理，并检查数据GC含量、序列重复成俗、是否存在接头等。

质量评估：
使用 FastQC 检测原始数据质量

fastqc –o fastqc_results –f fastq test_1.fastq test_2.fastq b_1.fastq b_2.fastq

质量控制
使用 Trimmomatic 去除低质量reads。
Trimmomatic 详细说明参考：https://www.jianshu.com/p/a8935adebaae
FastQC和Trimmomatic的安装及使用参考：https://www.jianshu.com/p/bc3ad9379e3e?utm_campaign=hugo&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
用法：

java -jar /Path/To/trimmomatic.jar PE -threads 2 -phred33 \
test_1.fq.gz test_2.fq.gz \
test_1.trimed.fq.gz test_1.un.fq.gz test_2.trimed.fq.gz test_2.un.fq.gz \
ILLUMINACLIP:/path/to/Trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10 
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:76

在质控后，再质检一次，对比看看有什么不同。

reads比对

将 reads 匹配到参考基因组或转录组的相应位置上
• 非剪接比对：转录组
Bowtie、BWA
• 剪接比对：参考基因组
STAR、HISAT、Topha
对鉴定SNP做了优化： GSNAP、MapSplice等

HISAT2比对流程

① 建立基因组索引

extract_splice_sites.py tair10.gtf > genome.ss # 把剪切位点提取出来
extract_exons.py genome.gtf > genome.exon # 把exon提取出来
hisat2-build --ss genome.ss --exon genome.exon genome.fasta genome # 最后的genome是输出文件的前缀

②利用注释文件比对

hisat2 -p 4 --known-splicesite-infile genome.ss --dta -x tair10 -1 test_1.trimed.fq.gz -2 test_2.trimed.fq.gz -S test.sam 
## -p 线程数 
## --known-splicesite-infile 输入剪切位点文件
## --dat 转录本拼接
##-x index 库文件前缀CDS 和 exon 前 . 
## -1 -2 双端测序 fastq的名字， 如是单端测试 –U 
## -S 输出文件，是比对的 SAM 文件

没有注释文件的比对方法

hisat2 -p 18 --dta -x ~/genome/rice -1 /path/to/Rice_1.fq.gz -2 /path/to/Rice_.fq.gz -S rice.sam

③ SAM 文件处理
使用 samtools 对 SAM 文件排序并转化为 BAM 文件。samtools是一个用于操作sam和bam文件的工具合集，包含有许多命令。

samtools view -bS SRAxxx.sam > SRAxxx.bam  # 查看bam文件内容
samtools sort -@ 2 -o SRAxxx.sort.bam SRAxxx.bam  # 按比对位置排序+格式转换
samtools index rice.bam  # 建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRRxxx1.bam SRRxxx2.bam SRRxxx3.bam # 把生成的bam文件合并为一个文件。因为每个文件的sam文件表头都一样，所以用-h指定某一个文件的表头作为总文件的表头。

## -@ 额外线程数
## -m 每个线程最大占用内存，单位 K/M/G，根据实际情况调整。
## -o 输出文件

④比对结果可视化
比对结果使用 IGV 、Genome Maps 和Sacant 等可视化查看。
例如：IGV 通过读入基因组和注释信息以及BAM 文件展示比对结果。
需要额外添加 BMA 的索引:samtools index test_sorted.bam test_sorted.bai

⑤比对结果评估
比对结果评估工具：RSeQC、Qualimap

Reads 匹配百分比评估预测精度和DNA污染程度或参考基因组的选择是否适合；
Reads 随机性分布评估reads打断的随机程度；
匹配Reads的GC含量，与PCR偏差有关。
RSeQC的下载：pip install RSeQC
使用：bam_stat.py -i test.bam > test.bam.stat

基于NGS的转录本定量---StringTie

reads 计算策略
① 只选唯一匹配 reads：用于估计基因水平的 reads 匹配数，常用工具如
HTSeq-count、featureCounts；
② 保留多重匹配的 reads：利用统计算法将多重比对reads定位到对于的转录本异构体上，如 Cufflinks、StringTie、RSEM等

计算FPKM

stringtie -p 10 -G test.gtf -e -A test.exp -o test.out test.sorted.bam

-p 线程数
-G 参考基因组注释
-e 只估计已给参考基因组注释的基因丰度
-A 基因丰度估计输出文件
-o 输出文件

网友评论

走进转录组

本文标题：转录组数据分析RNA-seq

本文链接：https://www.haomeiwen.com/subject/nvnlhrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！