Day4_2 RNA-seq实战

作者: 陈宇乔 | 来源:发表于2018-12-11 15:22 被阅读13次

    第一步:将下载的sra格式的数据转换成fastq格式的数据输出到./project

    这一部免费的云服务器就已经扛不住了

    fastq-dump --gzip --split-3 -O ./project ./SRR6168921.sra
    ##可以用循环语句
    ls ./1.SRA/*sra | while read id; do (fastq-dump --gzip --split-3 -O ./project ./${id}); done
    

    第二步:质控

    ##step1:
    fastqc -t 2 -o ./ ./sample_1.fastq.gz ./sample_2.fastq.gz 
    ####双端测序sra数据转换成fastq文件的时候会生成两个文件:_1.fastq.gz  _2.fastq.gz
    ##step2:filter data # conda install trim-galore
    trim_galore --phred33 \
    -q 25 -e 0.1 \
    --length 36 --stringency 3 \
    --paired -o ./ \
    ./sample_1.fastq.gz \
    ./sample_2.fastq.gz
    
    multiqc ./ # 整合结果,整合qc报告需要conda install multiqc
    

    批量质控暂时还不会

    第三步:比对

    step1 创建hg38参考基因组索引(HISAT2的索引)
    参考cui老师的简书,有各种软件创建索引的方法

     hisat2-build -p 4 ./hg38.fa hg38
    ###方法一:没有具体实践过
    wget -c ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz ####方法二:非常慢
    
    构建参考基因组

    step 2 RNA-seq选择HISAT2进行比对

    hisat2 -p 10 -x
    /public/reference/index/hisat/hg38/genome -1 \
    ./${id}_1_val_1.fq.gz -2 ./${id}_2_val_2.fq.gz | \
    samtools sort -@ 5 -o ./${id}.sort.bam -
    ###10指的是10线程
    ###hisat2生成Sam文件,在用samtools 生bam文件
    
    hg38参考基因组建立完索引后进行比对,箭头必须有genome,这个不是路径,而是建立索引完成后的文件分为genome1-8

    第二个报错是samtools软件安装失败,需要下载官网的二进制版本安装。

    第四步:差异分析featureCounts

    featureCounts -T 5 -p -t exon -g gene_id \
    -a /public/reference/gtf/gencode/gencode.v25.annotation.gtf.gz \
    -o SRR1039$fn.counts.txt SRR1039$fn.hisat.sort.bam
    ###输出SRR1039$fn.counts.txt
    ###SRR1039$fn.hisat.sort.bam这个文件是hisat后的bam文件 
    
    featureCounts结果解析

    第一个报错:


    fastq-dump 报错 图中~/tmp为输出文件,./SRR6168921.sra为输入文件

    相关文章

      网友评论

        本文标题:Day4_2 RNA-seq实战

        本文链接:https://www.haomeiwen.com/subject/dqqehqtx.html