BEDPE 格式类似于 BED 格式,可用于描述成对的基因组区域。
由于bed文件原则上不能表示跨染色体的信息,因此,对于结构变异,一般采用的一种基于bed文件的变种文件bedpe格式进行存储。其格式与bed最大的区别在于,对于必须列即chrom、chromStart、chromEnd三列分别记录两次。例如
chrom1 - 特征第一端所在的染色体名称。
可以使用任何字符串。
例如,“chr1”、“III”、“myChrom”、“contig1112.23”。此列是必需的。利用 ”.”为未知。
start1 - chrom1 上特征第一端的从零开始的位置。
染色体的第一个碱基编号为 0。
与 BED 格式一样,每个 BEDPE 特征中的起始位置因此被解释为比特征中列出的起始位置大 1。此列是必需的。
使用 -1 表示未知数。
end1 - chrom1 上特征的第一端的从一个开始的结束位置。
每个 BEDPE 特征中的结束位置都是从 1 开始的。
此列是必需的。
使用 -1 表示未知数。
chrom2 - 特征的第二端所在的染色体的名称。
可以使用任何字符串。例如,“chr1”、“III”、“myChrom”、“contig1112.23”。
此列是必需的。
利用 ”.”为未知。
start2 - chrom2 上特征第二端的从零开始的位置。
染色体的第一个碱基编号为 0。
与 BED 格式一样,每个 BEDPE 特征中的起始位置因此被解释为比特征中列出的起始位置大 1。此列是必需的。
使用 -1 表示未知数。
end2 - chrom2 上特征第二端的从 1 开始的结束位置。
每个 BEDPE 特征中的结束位置都是从 1 开始的。
此列是必需的。
使用 -1 表示未知数。
name - 定义 BEDPE 功能的名称。
可以使用任何字符串。例如,“LINE”、“Exon3”、“HWIEAS_0001:3:1:0:266#0/1”或“my_Feature”。
此列是可选的。
score - UCSC 定义要求 BED 分数范围从 0 到 1000,包括 0 到 1000。但是,bedtools 允许将任何字符串存储在此字段中,以便在注释功能中提供更大的灵活性。例如,字符串允许 p 值、平均富集值等的科学记数法。应该注意的是,这种灵活性可能会阻止此类注释在 UCSC 浏览器上正确显示。
可以使用任何字符串。例如,7.31E-05(p 值)、0.33456(平均富集值)、“up”、“down”等。
此列是可选的。
strand1 - 定义特征第一端的链。 “+”或“-”。
此列是可选的。
利用 ”.”为未知。
strand2 - 定义特征第二端的钢绞线。 “+”或“-”。
此列是可选的。
利用 ”.”为未知。
Any number of additional, user-defined fields - bedtools 允许您根据需要向正常的 10 列 BEDPE 格式添加尽可能多的附加字段。这些列只是“通过”pairToBed 和 pairToPair,而不是任何分析的一部分。可以使用这些附加列向每个 BEDPE 特征添加额外信息(例如,对齐每一端的编辑距离,或“删除”、“反转”等)。
这些附加列是可选的。
典型 BEDPE 文件中的条目:
chr1 100 200 chr5 5000 5100 bedpe_example1 30 + -
chr9 1000 5000 chr9 3000 3800 bedpe_example2 100 + -
BEDPE 文件中的条目,每条记录都添加了两个自定义字段:
chr1 10 20 chr5 50 60 a1 30 + - 0 1
chr9 30 40 chr9 80 90 a2 100 + - 2 1
网友评论