使用UCSC的gtfToGenePre工具从gtf基因组注释文件可以获取reference gene model in bed format。这种文件除了包含常用的chromosome, start, end, name, score, strand等信息外,最后一列包含了多个extron和intron等的位置,用逗号隔开。
Example:
http://dldcc-web.brc.bcm.edu/lilab/liguow/RSeQC/dat/sample.bed
安装gtfToGenePre
conda install -c bioconda ucsc-gtftogenepred
准备好基因组gtf文件,从gtf转换为GenePred格式
gtfToGenePred -genePredExt -geneNameAsName2 genes.gtf gene.tmp
从GenePred文件提取信息就可以得到bed文件啦:)
awk '{print $2"\t"$4"\t"$5"\t"$1"\t0\t"$3"\t"$6"\t"$7"\t0\t"$8"\t"$9"\t"$10}' gene.tmp > genes_refseq.bed12
网友评论