美文网首页ggplot集锦
生物数据格式 - bed

生物数据格式 - bed

作者: 半夜一更 | 来源:发表于2021-02-24 21:00 被阅读0次
格式
BED格式文件全称是 Browser Extensible Data,通过规定行的内容来展示注释信息。bed文件可以作为一个特征标识符, 来快速查找感兴趣的基因组区域,最经典的应用场景就是将peak calling的bed文件和对应样本的tdf文件同时导入IGV, 然后快速查看peak区域的测序深度分布情况。GFF文件格式如下: image.png

BED格式文件有3个基本列和9个可选的附加列
基本列
第一列:chrom,染色体号;
第二列:chromStart,在染色体上的起始位置,从0开始计数;
第三列:ChromEnd,在染色体上的终止位置。bed文件为左闭右开区间,当片段碱基为0-99时,记为“ChromStart=0,ChromEnd=100”。
附加列
第四列:name,行名;
第五列:score,基因组浏览器中显示的灰度设定值,介于0-1000之间,越大越黑;
第六列:正负链标记,“+”、“-”、“.”(no strand);
第七列:thickStart,编码起始位置;
第八列:thickEnd,编码终止位置;
第九列:itemRgb-R,G,B,当itemRgb设置为“On”,行会显示颜色;
第十列:blockCount,外显子数量;
第十一列:BlockSizes,外显子大小列表,逗号分隔;
第十二列:blockStarts,外显子起始列表位置,逗号分隔,是与chromStart相对的一个位置。

处理
IGV查看
bed文件中的每一行为一个染色体区域,当bed文件的name存在时,在区域的下方会显示对应的ID,可以用于检索,示意如下 image.png
长度运算__ bedtools slop

增加两端长度

bedtools slop -i input.bed -g output.bed -b 10 # -b,增加两端长度(10bp)
bedrolls slop -i input.bed -g output.bed -b 0.1 -pct #-pct,按比例(-b)增加两端长度

增加一端长度

bedtools slop -i input.bed -g output.bed -l 10 -r 20 #-l,增加开始端长度;-r,增加末端长度

链特异性影响

bedtools slop -i demo.bed -g genome.txt -l 10 -r 3 -s #-s,区分正负链,对正链运算无影响,对负链运算首位交换
与GFF关系

genomic features通常使用bed 或者gff文件表示,两者最基本的信息就是染色体或Contig的ID或编号、DNA的正负链信息以及在染色体上的起始和终止位置数值。两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1,GFF中起始坐标是1而结束坐标至少是1。把BED转成对应的GFF格式(仅保留两者相同信息)

cat demo.bed | bioawk -c bed '{print $chrom, ".", ".", $start+1, $end, $score, $strand, ".", "." }' > demo.gff

相关文章

网友评论

    本文标题:生物数据格式 - bed

    本文链接:https://www.haomeiwen.com/subject/obysfltx.html