这是我对 Yixf's blog 文章的一个学习总结。
20170330 在查看UCSC上的文件格式的资料时,我看到UCSC对不同的坐标系也有介绍,可参考!
这是一个很惨痛的教训,因为我之前想当然地认为。基因组的坐标系统是这样的:
序列 | A | T | G | C | A |
---|---|---|---|---|---|
编号 | 1 | 2 | 3 | 4 | 5 |
但是其实这里是有两套系统的。我们先看生活中的一个例子
楼层问题
第一层楼的高度是多少? 我们中国一般认为就是0。但是也有人把我们第二层所在的楼叫做第一层。
基因组坐标
在生物学的基因组坐标的表示中,有两种方法:一种是大家比较容易理解的全包含的1-based(one-based, fully-closed),如[start, end];另一种是容易引起迷惑但却常用而且易用的半包含的0-based(zero-based, half-open),如[start, end)。下面仅根据我的理解通过一个简单的例子来说明一下。至于这两种方法的详细区别以及各自的优缺点,请参考后面给出的链接。
Sequence:ATGC
1-Index:1234
0-Index:0123
其中TG的坐标位置如何表示呢?
1-based:[2,3]
0-based:[1,3)
还有一种不同的(真正的?)解释方法如下:
基因组坐标系统我们常用的数据格式及数据库中,那些使用的1-based,那些使用的0-based?
UCSC的Tables使用的是0-based;
UCSC的Genome Browser使用的是1-based;
NCBI的dbSNP使用的是0-based;
BED、BAM格式使用的是0-based;
但是SAM格式是1-based;
VCF、GFF格式使用的是1-based。
关于 wig 、bigWig 和bedgraph 文件的格式
生信菜鸟 中有一些相关的论述。
这里我记载一下一些重要的结论: wig和bedgraph 还有bed文件是 0-based; Bigwig文件是 1-based
网友评论