hisat2的index差别

作者: 苏牧传媒 | 来源:发表于2018-11-19 15:00 被阅读402次

    1.下载三个index:

    2.重命名为:

    hisat2_grcm38_genome_index/genome [1-sam]

    hisat2_grcm38_genome_snp_tran_index/genome_snp_tran [1-sam]

    hisat2_mm10_genome_index/genome [1-sam]

    3.hisat2比对命令:

    hisat2 -p 10 -x ../hisat2_grcm38_genome_index/genome -1 R1.fq -2 R2.fq -S 1.sam

    hisat2 -p 10 -x ../hisat2_grcm38_genome_snp_tran_index/genome_snp_tran -1 R1.fq -2 R2.fq -S 2.sam

    hisat2 -p 10 -x ../hisat2_mm10_genome_index/genome -1 R1.fq -2 R2.fq -S 3.sam

    4.比对率:

    1-sam 2-sam 3-sam

    嘿嘿:比对发现转录本的比对率高

    导入igv也没啥差异

    5.查看sam文件寻找差异:

    也就chr是不同的

    6.看chr有哪些?

    1和2的sam 3的sam

    结论:基因组还是有差别的,也就是说后续的gtf不能混用!


    7.下载查看gtf:

    gencode:

    axel -n 50 ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M19/gencode.vM19.chr_patch_hapl_scaff.annotation.gtf.gz

    gencode.vm19.GRCm38.all.ano.gtf

    gencode

    ensembl:

    axel -n 20 ftp://ftp.ensembl.org/pub/release-94/gtf/mus_musculus/Mus_musculus.GRCm38.94.chr_patch_hapl_scaff.gtf.gz

    ensembl.GRCm38.94.all.ano.gtf

    ensembl

    NCBI:

    wget -c ftp://ftp.ncbi.nih.gov/genomes/M_musculus/GFF/ref_GRCm38.p4_top_level.gff3.gz

    ncbi.GRCm38.p4.all.ano.gff3

    看不懂

    UCSC:

    UCSC

    结论:

    hisat2-GRCm38-index比对后:

    无--add-chrname,则肯定用enseml的gtf

    若加了--add-chrname,则用gencode的gtf改造“+chr”/或者ensembl改造也行“+chr”

    hisat2-mm10-index比对后:

    使用UCSC的gtf

    就转录本而言,其实用哪个都行...

    gencode和ensembl的gtf的确是相同的

    8.下载查看fasta:

    gencode:

    axel -n 100 ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M19/GRCm38.p6.genome.fa.gz

    GRCm38.p6.genome.fa

    gencode

    ensembl:

    axel -n 100 ftp://ftp.ensembl.org/pub/release-94/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna_sm.toplevel.fa.gz

    Mus_musculus.GRCm38.dna_sm.toplevel.fa

    ucsc:

    axel -n 30 ftp://hgdownload.soe.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz

    cat *.fa > mm10.fa

    ucsc

    查看具体序列:

    相同的!!!

    结论:三者大部分相同,也有略微不同

    gencode和ucsc有chr

    ensembl没有chr

    相比较而言,gencode和ensembl比较像,但是基本的fasta并不影响。

    总结论:

    使用哪个基因组的fasta都ok

    使用gencode和ensembl的gtf也是一样的

    差别在chr这块

    相关文章

      网友评论

        本文标题:hisat2的index差别

        本文链接:https://www.haomeiwen.com/subject/uznofqtx.html