美文网首页
山羊转录组GFF文件与GTF格式转换

山羊转录组GFF文件与GTF格式转换

作者: 青青鸟_341e | 来源:发表于2020-10-17 14:05 被阅读0次
    1. GFF文件与GFF文件来源

    1.1 GFF文件来源

    GFF文件来源于 NCBI

    1.1 GTF文件来源

    GTF文件来源于 ensemble
    1. GFF文件与GTF文件格式

    2.1 GFF文件格式

    GFF 文件格式 GFF 文件格式
    1. seqid :参考序列的id
    2. annotation source:注释的来源。如果未知,则用点(.)代替。一般指明产生此gff3文件的软件或方法。
    3. feature type: 类型,此处的名词是相对自由的,建议使用符合SO惯例的名称(sequenceontology),如gene,repeat_region,exon,CDS等。
    4. start coordinate:开始位点,从1开始计数(区别于bed文件从0开始计数)。
    5. nd coordinate:结束位点。
    6. score:得分,对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。
    7. strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。
    8. phase :步进。对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过的碱基个数。
    9. attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔,这一列最后没有分号。

    2.2 GTF文件格式

    GTF 文件格式 GTF 文件格式
    1. seqname: 序列的名字。通常格式染色体ID或是contig ID。
    2. source:注释的来源。通常是预测软件名或是公共数据库。
    3. start:开始位点,从1开始计数。
    4. end:结束位点。
    5. feature :基因结构。CDS,start_codon,stop_codon是一定要含有的类型。
    6. score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
    7. strand:链的正向与负向,分别用加号+和减号-表示。
    8. rame:密码子偏移,可以是0、1或2。
    9. attributes:必须要有以下两个值:gene_id value:表示转录本在基因组上的基因座的唯一的ID。 gene_id与value值用空格分开,如果值为空,则表示没有对应的基因;transcript_id value:预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。
    1. GFF与GTF文件格式转换

    3.1 R包rtracklayer转换

    3.1.1 安装rtracklayer包

    if (!requireNamespace("BiocManager", quietly = TRUE))
        install.packages("BiocManager")
    
    BiocManager::install("rtracklayer")
    

    3.1.2 导入包完成转换

    #将gff3 文件转换为gtf格式
    library(rtracklayer)
    ##输入需要转换的文件
    test = import("GCF_001704415.1_ARS1_genomic.gff")
    ##输出转换完成的文件
    export(test,"GCF_001704415.1_ARS1_genomic.gtf","gtf")
    
    转换后的GTF文件

    3.1 cufflinks转换

    3.1.1 cufflinks安装

    pip3 install cufflinks --user -i https://pypi.tuna.tsinghua.edu.cn/simple
    ## -i 指定国内镜像源
    
    cufflinks --help
    ## 测试是否安装成功
    

    3.1.2 GTF与GFF文件之间的相互转换

    gffread GCF_001704415.1_ARS1_genomic.gff -T -o GCF_001704415.1_ARS1_genomic.gtf
    gffread GCF_001704415.1_ARS1_genomic.gtf -o- > GCF_001704415.1_ARS1_genomic.gff
    
    

    相关文章

      网友评论

          本文标题:山羊转录组GFF文件与GTF格式转换

          本文链接:https://www.haomeiwen.com/subject/rmbxmktx.html