美文网首页生物信息数据库
2020-01-11 了解GeneBank格式

2020-01-11 了解GeneBank格式

作者: 王子威PtaYoth | 来源:发表于2020-01-11 11:14 被阅读0次

    GenBank格式是最古老的生物信息学数据格式之一,最初是为了兼顾可读性和计算机处理的有些翱翔。具有所谓的固定宽度格式,其中前10个字符构成用作标识符的列,该行其余是与该标识符相对应的信息。

    GeneBank格式

    GeneBank数据

    GeneBank格式可读性可以,但不适合做分析,通常用ReadSeq工具转换为其他更简单的格式。
    NCBI参考序列(RefSeq)项目提供许多生物体的序列记录和相关信息,并为医学、功能学和比较研究提供基线。
    RefSeq数据库是一组非冗余的参考标准,源于GenBank中存储的所有数据。包括:

    • 染色体
    • 完整的基因组分子(细胞器基因组、病毒、质粒)
    • 中间组装的gemonic contigs
    • curated基因组区域
    • mRNAs
    • RNAs
    • 蛋白质

    获取不同数据格式并转换

    # Fetch the sequence from NCBI. 这里-format gb即Genebank文件
    efetch -db nuccore -id NC_001501 -format gb > NC_001501.gb
    cat NC_001501.gb | head
    
    如果想要FASTA格式的文件
    #既可以-format fasta
    efetch -db nuccore -id NC_001501 -format fasta > NC_001501-version1.fa
    #也可以用seqret将Genebank文件转换为FASTA文件
    cat NC_001501.gb | seqret -filter -osformat fasta > NC_001501-version2.fa
    

    看看结果是否一样

    cat NC_001501-version1.fa | head -2
    cat NC_001501-version2.fa | head -2
    #事实上显示的前两行就有差别
    

    什么时候改变数据格式?

    1. 如果数据源提供了多种数据格式,最好分别获取每一种格式,而不是在格式之间相互转换,每一次转换都有可能出现问题
    2. 如果数据源只提供了一种格式,而且你不确定数据采用的基因组构建是否相同,那你只能自己做re-formatting了,这个过程一定要慎之又慎!“犯了点小错误”的数据往往是致命的
      RefSeq记录的特点是两个字母加下划线开头:NP_


    相关文章

      网友评论

        本文标题:2020-01-11 了解GeneBank格式

        本文链接:https://www.haomeiwen.com/subject/vpmvactx.html