美文网首页NAD-seq
IGV自导入参考基因组

IGV自导入参考基因组

作者: pudding815 | 来源:发表于2022-10-06 13:28 被阅读0次


    IGV里自带基因组信息,但这与我们分析数据的版本上不同。我用的都师兄给的ensmble_102版本的,所以IGV里可视化,导入相对应的基因组及注释才不会造成版本引起的误差 

      1、下载基因组和注释文件

    首先去ensmble下载fa基因组和gtf注释

    ensmble网站http://asia.ensembl.org/info/data/index.html

    点FTP

    FTP

    进来会有current 和release不同版本,选择自己要的。我是release102

    版本

    fasta是基因组文件格式.fa

    gtf是注释文件

    点进去后找到物种是小鼠mus_musculus/

    fasta----mus----dna----Mus_musculus.GRCm38.dna.primary_assembly.fa.gz

    gtf-------mus----Mus_musculus.GRCm38.102.gtf.gz(这个最全)

    2、导入预处理

    先导入基因组建立index:

    IGV 工具栏,tools-Run igvtools;选择index,导入fa的基因组,run之后,文件夹里会生成个fa.fai文件

    对GTF进行sort:

    IGV 工具栏,tools-Run igvtools;选择sort,导入gtf的注释文件,run,就会生成sorted.gtf(文件夹里瞧瞧也能看到)

    sort

    有了sorted.gtf之后

    IGV 工具栏,tools-Run igvtools;选择index,输入sorted.gtf,run之后会生成一个sorted.gtf.idx文件。

    预处理结束后,检查一下应该有以下所有文件

    3、导入IGV

    IGV工具栏Genomes → load genome from File--打开fa文件

    好,白花花一片,上面有了染色体数目也没报错

    IGV工具栏File → Load from File→找到softed.gtf

    !!!!!!!!!!!我的不知道为啥这一步一直报错,所以我猜我的gtf有问题,我就找了其他处理办法。在服务器处理一下

    root=gtf的文件夹

    gtf=${root}/gencode.v39.primary_assembly.annotation.gtf.gz

    (zgrep ^"#" $gtf; zgrep -v ^"#" $gtf | sort -k1,1 -k4,4n) | bgzip > ${root}/sorted.gtf.gz

    tabix -p gff ${root}/sorted.gtf.gz

    定义好文件名和路径后直接跑,会有两个文件生成,导入gtf的时候导入这个。gz就可以了

    4、导入后的差异

    使用IGV自带的可以直接查基因,导入的不得行,要自己搜索。

    相关文章

      网友评论

        本文标题:IGV自导入参考基因组

        本文链接:https://www.haomeiwen.com/subject/gknyartx.html