有snp的坐标,提取snp位点前后100bp的参考基因组
对snp位点bed文件 start 减10 ,end 加10,然后用命令
bedtools getfasta -fi work1.fa -bed work2.bed -fo work3.fa
理论上提取的碱基应该有21个,但实际上提取的只有20个,以为是算错了,算了N次,怎么算提出来都应该是有21个碱基,找了半天原因,还是由于对数据格式的不理解造成的。
BED文件中起始坐标为0,结束坐标至少是1,所以start = 10, end = 20表示碱基跨度是从第11位到第20位。
所以应该是start 减 11, end 加 10。
以上理解错误。
bed文件坐标为一半开半闭区间[start, end),所以如果是[10,20),实际上只提取了10,11,...19 这十个位点,对应ucsc上的即为染色体坐标的10-19位碱基。ucsc上染色体坐标也是从0开始。
例如有一fasta格式的文件
>chr1
TCGAGA
对应bed文件的坐标应为
#chrome start end
chr1 0 5
用bedtools提取 CGAG 中间四个碱基,所需的bed输入文件应为[1,5)
#chrome start end
chr1 1 5
网友评论