美文网首页
基因组的坐标系统:0-based and 1-based

基因组的坐标系统:0-based and 1-based

作者: 沧浪之水v | 来源:发表于2017-03-01 09:57 被阅读0次

    这是我对 Yixf's blog 文章的一个学习总结。

    20170330 在查看UCSC上的文件格式的资料时,我看到UCSC对不同的坐标系也有介绍,可参考!

    这是一个很惨痛的教训,因为我之前想当然地认为。基因组的坐标系统是这样的:

    序列 A T G C A
    编号 1 2 3 4 5

    但是其实这里是有两套系统的。我们先看生活中的一个例子

    楼层问题

    第一层楼的高度是多少? 我们中国一般认为就是0。但是也有人把我们第二层所在的楼叫做第一层。

    基因组坐标

    在生物学的基因组坐标的表示中,有两种方法:一种是大家比较容易理解的全包含的1-based(one-based, fully-closed),如[start, end];另一种是容易引起迷惑但却常用而且易用的半包含的0-based(zero-based, half-open),如[start, end)。下面仅根据我的理解通过一个简单的例子来说明一下。至于这两种方法的详细区别以及各自的优缺点,请参考后面给出的链接。

    Sequence:ATGC
    1-Index:1234
    0-Index:0123

    其中TG的坐标位置如何表示呢?

    1-based:[2,3]
    0-based:[1,3)

    还有一种不同的(真正的?)解释方法如下:

    基因组坐标系统

    我们常用的数据格式及数据库中,那些使用的1-based,那些使用的0-based?

    UCSC的Tables使用的是0-based;
    UCSC的Genome Browser使用的是1-based;
    NCBI的dbSNP使用的是0-based;
    BED、BAM格式使用的是0-based;
    但是SAM格式是1-based;
    VCF、GFF格式使用的是1-based。

    关于 wig 、bigWig 和bedgraph 文件的格式

    生信菜鸟 中有一些相关的论述。

    这里我记载一下一些重要的结论: wig和bedgraph 还有bed文件是 0-based; Bigwig文件是 1-based

    相关文章

      网友评论

          本文标题:基因组的坐标系统:0-based and 1-based

          本文链接:https://www.haomeiwen.com/subject/obkqgttx.html