RNA-seq上游流程

作者: FANHONGZENG | 来源:发表于2021-10-07 11:37 被阅读0次

    1.数据下载

    在ncbi找到要下载的sra样本,点击Accession List下载所需要样本名,会生成SRR_Acc_List.txt的文件,将这个文件上传到linux端,再用prefetch下载

    ncbi

    prefetch

    cat SRR_Acc_List.txt | while read id ; do prefetch $id ; done
    

    fast-dump

    下载完成的数据是已.sra结尾的,使用fast-dump转换为fastq格式的文件

    cat SRR_Acc_List.txt | while read id ; do fastq-dump --split-3 --gzip $id.sra ;done 
    

    运行完成之后的文件以fastq.gz结尾

    2.数据质控和过滤

    fastp

    fastp可以一步实现数据质控与过滤,相比fastqc+trim的流程更为方便迅速。这里演示单端数据的处理方法

    cat SRR_Acc_List.txt | while read id ; do fastp -i $id.fastq.gz -o $id.fq.gz ; done
    

    处理完成后会生成.fq.gz结尾的文件和fastp.html fastp.json的报告文件

    3.数据比对

    hisat2

    hisat2比对需要使用参考基因组做索引文件,以拟南芥为例展示下载参考基因组的方法 点击refseq 下载标记的两个文件

    参考基因组

    wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/latest_assembly_versions/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz 
    

    注释文件(后面步骤会用到)

    wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/latest_assembly_versions/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.gtf.gz
    

    建立参考基因组的索引文件

    hisat2-build GCF_000001735.4_TAIR10.1_genomic.fna GCF_000001735.4_TAIR10.1_genomic
    

    hisat2比对

    hisat2比对后会生成比较大的sam文件,需要用samtools转换为比较小的bam文件(演示的单端数据,双端数据需要更改-U参数)。
    cat SRR_Acc_List.txt | while read id ; do hisat2 -q -x GCF_000001735.4_TAIR10.1_genomic -U $id.fq.gz | samtools sort -o $id.bam ; done
    

    执行后会得到bam文件

    定量

    featureCounts

    featureCounts需要用到参考基因组的注释文件,和上一步得到的bam文件

    featureCounts -T 10 -t exon -g gene_id -a GCF_000001735.4_TAIR10.1_genomic.gtf.gz -o all.id.txt *.bam
    

    featureCounts会生成txt的文件,用这个文件就可以去做下游的分析啦!

    相关文章

      网友评论

        本文标题:RNA-seq上游流程

        本文链接:https://www.haomeiwen.com/subject/rrwanltx.html