美文网首页
gff文件格式(每一列的含义)

gff文件格式(每一列的含义)

作者: MLD_TRNA | 来源:发表于2021-06-30 17:19 被阅读0次

    GFF全称Generic Feature Format, 描述了基因组上各种特征的区间信息,包括染色体,基因,转录本等。GFF文件本质上是一个\t分隔的,共9列的纯文本文件。

    1. column1
    第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。
    2. column2
    第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自genebank数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。
    3. column3
    第三列是type, 代表区间对应的特征类型,比如gene, exon等。
    4. column4
    第四列是start, 代表区间的起始位置。
    5. column5
    第四列是end, 代表区间的终止位置。
    6. column6
    第六列是score, 软件提供了统计值,如果没有,就用.填充。
    7. column7
    第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充。
    8. column8
    第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围包括0,1,2。
    9. column9
    第九列是attributes, 表示属性,每种属性采用key=value 的形式,多个属性之间用;分号分隔。
    

    相关文章

      网友评论

          本文标题:gff文件格式(每一列的含义)

          本文链接:https://www.haomeiwen.com/subject/kooksltx.html