基于转录组预测基因预测

作者: 斩毛毛 | 来源:发表于2020-07-15 09:45 被阅读0次

    本文参考徐洲更hoptop

    若有转录组,可从以下方面进行分析

    1、 基于HISAT2 + StringTie

    首先,使用HISAT2将RNA-seq数据比对到参考基因组, 这一步和之前相似,但是要增加一个参数--dta,使得StingTie能更好的利用双端信息

    hisat2-build 01-augustus/genome.fa index/chi_masked
    hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/leaf_ox_r1_1.fastq.gz -2 rna-seq/leaf_ox_r1_2.fastq.gz | samtools sort -@ 10 > rna-seq/leaf_ox_r1.bam &
    hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/ox_flower9_rep1_1.fastq.gz -2 rna-seq/ox_flower9_rep1_2.fastq.gz | samtools sort -@ 10 > rna-seq/ox_flower9.bam &
    hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/ox_flower16_rep1_1.fastq.gz -2 rna-seq/ox_flower16_rep1_2.fastq.gz | samtools sort -@ 10 > rna-seq/ox_flower16.bam &
    samtools merge -@ 10 rna-seq/merged.bam rna-seq/leaf_ox_r1.bam rna-seq/ox_flower9.bam rna-seq/ox_flower16.bam
    

    然后用StringTie进行转录本预测

    stringtie -p 10 -o rna-seq/merged.gtf rna-seq/merged.bam
    

    对于后续的EvidenceModeler而言,它不需要UTR信息,只需要编码区CDS,需要用TransDecoder进行编码区预测

    util/cufflinks_gtf_genome_to_cdna_fasta.pl merged.gtf input/chi_masked.fa > transcripts.fasta
    util/cufflinks_gtf_to_alignment_gff3.pl merged.gtf > transcripts.gff3
    TransDecoder.LongOrfs -t transcripts.fasta
    TransDecoder.Predict -t transcripts.fasta
    util/cdna_alignment_orf_to_genome_orf.pl \
         transcripts.fasta.transdecoder.gff3 \
         transcripts.gff3 \
         transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
    

    最后结果transcripts.fasta.transdecoder.gff3用于提供给EvidenceModeler

    2. 基于PASA

    我之前也提及过,利用Trinity 基于比对进行组装,而后回帖到基因组中即可。


    3. maker预测

    若利用MAKER进行预测,在利用转录组时,推介使用STAR + StringTie + gffread 获取转录本
    如果是StringTie组装的GTF文件,需要做如下的转换

    gffread -E sample.gtf -o - | sed -e "s#transcript#match#g" -e "s#exon#match_part#g" > sample.gff
    

    接着使用maker -CTL新建配置文件, 设置如下选项

    genome=genome.fa
    est=组织1.fa,组织2.fa,组织3.fa
    est_gff=组织1.gff,组织2.gff,组织3.gff
    protein=protein.fa
    est2genome=1
    protein2genome=1
    

    相关文章

      网友评论

        本文标题:基于转录组预测基因预测

        本文链接:https://www.haomeiwen.com/subject/fmxdhktx.html