bed文件格式

作者: F_U_N | 来源:发表于2017-12-12 23:44 被阅读0次

有snp的坐标,提取snp位点前后100bp的参考基因组

对snp位点bed文件 start 减10 ,end 加10,然后用命令

bedtools getfasta -fi work1.fa -bed work2.bed -fo work3.fa

理论上提取的碱基应该有21个,但实际上提取的只有20个,以为是算错了,算了N次,怎么算提出来都应该是有21个碱基,找了半天原因,还是由于对数据格式的不理解造成的。

BED文件中起始坐标为0,结束坐标至少是1,所以start = 10, end = 20表示碱基跨度是从第11位到第20位。

所以应该是start 减 11, end 加 10。


以上理解错误。

bed文件坐标为一半开半闭区间[start, end),所以如果是[10,20),实际上只提取了10,11,...19 这十个位点,对应ucsc上的即为染色体坐标的10-19位碱基。ucsc上染色体坐标也是从0开始。

例如有一fasta格式的文件

>chr1

TCGAGA

对应bed文件的坐标应为

#chrome start end

chr1            0     5

用bedtools提取 CGAG 中间四个碱基,所需的bed输入文件应为[1,5)

#chrome start end

chr1           1      5

相关文章

网友评论

    本文标题:bed文件格式

    本文链接:https://www.haomeiwen.com/subject/aopoixtx.html