美文网首页走进转录组
转录组数据分析RNA-seq

转录组数据分析RNA-seq

作者: 就是大饼 | 来源:发表于2022-03-25 17:38 被阅读0次

    RNA-seq

    转录组

    转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)

    转录本测定研究

    基于杂交的基因芯片技术

    将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。

    获取表达量的步骤:
    提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据
    局限性:
    • 只能检测已知或;确定性的序列
    • 无法检测新发现的,未放置到芯片上的基因
    • 有部分探针的信号可能会收到非特异性杂交或个体序列差异的影响

    基于NGS的RNA-seq

    基于高通量二代测序技术的转录组学研究方法。
    特点:
    高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏
    度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。
    应用和最新进展

    • 差异表达分析
    • 可变剪接
    • 共表达网络
    • 转录调控网络
    • 根据文库构建方法带来的变种
      • ssRNA-seq
      • small RNA-seq
      • ribo-zero-ssRNA-seq
      • circ-RNA-seq

    RNA-seq 试验设计

    1. 生物学重复
      生物学重复用于排除随机误差,通常3~5个,不同性质的样本可能需求重复量不同
    2. 样本提取
      液氮或转录阻断剂瞬时猝灭,低温保存,长时间保存可能会降解
    3. 文库构建
      非链特异性文库 RNA-seq:无法区分打碎的片段转录自正义链还是反义链;
      链特异性文库 ssRNA-seq:建库时保留了转录本方向信息。基因表达定位更准确,可变剪切、双向转录等。
    4. 测序策略
      单端测序 single-end:通常用于特殊测序,如small RNAseq;
      双端测序 pair-end:有利于基因注释、转录本异构体鉴定。
    5. 测序深度
      ENCODE推荐不进行可变剪接时,仅计算表达量最少 5M 有效 reads,如果需要鉴定新转录本、检测低表达基因、检测可变剪接等,需要适当增加测序深度。普通双端150bp测序平台有参转录组测序通常 6Gb数据,特殊文库需要数据倍增。
    6. 测序平台

    RNA-seq 文库制备

    1. 总RNA提取
      将 RNA 从特定组织中分离并于脱氧核糖核酸酶混合,降解样本中的DNA,然后用凝胶和毛细管电泳检测 RNA 降解量,评估 RNA 样本质量。

    依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流
    程保证RNA 完整性。

    1. RNA分离纯化
      • poly A 富集(RNA-seq 常用策略)
      • rRNA 移除(rRNA占细胞中总RNA的比例超过90%)
      • small RNA 富集
      • circRNA 富集
      • 其他等

    2. 样本打断
      打断方法:酶切、超声波处理、喷雾器

    3. cDNA合成
      是否用标记保留链特异信息?

    4. 上机测序

    转录组核心数据分析

    数据获取

    需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
    我这里用的是普通栽培稻(Oryza sativa L.)的参考基因组和、GFF文件和SRR17439319数据。
    参考步骤:https://blog.csdn.net/sunchengquan/article/details/79781366
    注意:配置时,需要在bin目录下执行./vdb-config --interactive,然后弹出一大堆乱七八糟的之后,按X退出即可。再执行./fastq-dump,若没有报错,而是帮助信息的话即可以使用。

    测序数据质量控制

    测序数据分析前需要经过数据预处理,并检查数据GC含量、序列重复成俗、是否存在接头等。

    1. 质量评估:
      使用 FastQC 检测原始数据质量
    fastqc –o fastqc_results –f fastq test_1.fastq test_2.fastq b_1.fastq b_2.fastq
    
    1. 质量控制
      使用 Trimmomatic 去除低质量reads。
      Trimmomatic 详细说明参考:https://www.jianshu.com/p/a8935adebaae
      FastQC和Trimmomatic的安装及使用参考:https://www.jianshu.com/p/bc3ad9379e3e?utm_campaign=hugo&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
      用法:
    java -jar /Path/To/trimmomatic.jar PE -threads 2 -phred33 \
    test_1.fq.gz test_2.fq.gz \
    test_1.trimed.fq.gz test_1.un.fq.gz test_2.trimed.fq.gz test_2.un.fq.gz \
    ILLUMINACLIP:/path/to/Trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10 
    LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:76
    

    在质控后,再质检一次,对比看看有什么不同。

    reads比对

    将 reads 匹配到参考基因组或转录组的相应位置上
    • 非剪接比对:转录组
    Bowtie、BWA
    • 剪接比对:参考基因组
    STAR、HISAT、Topha
    对鉴定SNP做了优化: GSNAP、MapSplice等

    HISAT2比对流程

    ① 建立基因组索引

    extract_splice_sites.py tair10.gtf > genome.ss # 把剪切位点提取出来
    extract_exons.py genome.gtf > genome.exon # 把exon提取出来
    hisat2-build --ss genome.ss --exon genome.exon genome.fasta genome # 最后的genome是输出文件的前缀
    

    ②利用注释文件比对

    hisat2 -p 4 --known-splicesite-infile genome.ss --dta -x tair10 -1 test_1.trimed.fq.gz -2 test_2.trimed.fq.gz -S test.sam 
    ## -p 线程数 
    ## --known-splicesite-infile 输入剪切位点文件
    ## --dat 转录本拼接
    ##-x index 库文件前缀CDS 和 exon 前 . 
    ## -1 -2 双端测序 fastq的名字, 如是单端测试 –U 
    ## -S 输出文件,是比对的 SAM 文件
    

    没有注释文件的比对方法

    hisat2 -p 18 --dta -x ~/genome/rice -1 /path/to/Rice_1.fq.gz -2 /path/to/Rice_.fq.gz -S rice.sam
    

    ③ SAM 文件处理
    使用 samtools 对 SAM 文件排序并转化为 BAM 文件。samtools是一个用于操作sam和bam文件的工具合集,包含有许多命令。

    samtools view -bS SRAxxx.sam > SRAxxx.bam  # 查看bam文件内容
    samtools sort -@ 2 -o SRAxxx.sort.bam SRAxxx.bam  # 按比对位置排序+格式转换
    samtools index rice.bam  # 建立bam文件索引
    samtools merge -@ 4 -h SRR1582649.bam merged.bam SRRxxx1.bam SRRxxx2.bam SRRxxx3.bam # 把生成的bam文件合并为一个文件。因为每个文件的sam文件表头都一样,所以用-h指定某一个文件的表头作为总文件的表头。
    
    ## -@ 额外线程数
    ## -m 每个线程最大占用内存,单位 K/M/G,根据实际情况调整。
    ## -o 输出文件
    

    ④比对结果可视化
    比对结果使用 IGV 、Genome Maps 和Sacant 等可视化查看。
    例如:IGV 通过读入基因组和注释信息以及BAM 文件展示比对结果。
    需要额外添加 BMA 的索引:samtools index test_sorted.bam test_sorted.bai

    ⑤比对结果评估
    比对结果评估工具:RSeQC、Qualimap

    • Reads 匹配百分比评估预测精度和DNA污染程度或参考基因组的选择是否适合;
    • Reads 随机性分布 评估reads打断的随机程度;
    • 匹配Reads的GC含量,与PCR偏差有关。
      RSeQC的下载:pip install RSeQC
      使用:bam_stat.py -i test.bam > test.bam.stat

    基于NGS的转录本定量---StringTie

    1. reads 计算策略
      ① 只选唯一匹配 reads:用于估计基因水平的 reads 匹配数,常用工具如
      HTSeq-count、featureCounts;
      ② 保留多重匹配的 reads:利用统计算法将多重比对reads定位到对于的转录本异构体上,如 Cufflinks、StringTie、RSEM等

    计算FPKM

    stringtie -p 10 -G test.gtf -e -A test.exp -o test.out test.sorted.bam
    

    -p 线程数
    -G 参考基因组注释
    -e 只估计已给参考基因组注释的基因丰度
    -A 基因丰度估计输出文件
    -o 输出文件

    相关文章

      网友评论

        本文标题:转录组数据分析RNA-seq

        本文链接:https://www.haomeiwen.com/subject/nvnlhrtx.html