美文网首页Bioinformatics生物信息学与算法NGS
基因组注释文件格式 --(一)BED文件格式

基因组注释文件格式 --(一)BED文件格式

作者: 我是爱哭虫小鱼 | 来源:发表于2018-09-30 12:12 被阅读123次

    参考

    UCSC数据文件格式
    基因组数据注释常用的文件-Bed文件和GFF文件

    1、简介

    注释文件就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以下三个提供参考基因组的网站中都有提供,比如Ensemble、NCBI 、UCSC。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库
    基因组注释(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser进行可视化比较。
    Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。
    两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。
    处理Bed格式和GFF格式的工具主要有 BedTools和Tophat 。

    2、文件格式介绍

    BED文件每行至少包括chrom,chromStart,chromEnd三列必选;另外还可以添加额外的9列可选,这些列的顺序是固定的。

    必选的三列:

    1. chrom - 染色体的名称(例如chr3,chrY,chr2_random)或支架(例如scaffold10671)。
    2. chromStart- 染色体或支架中特征的起始位置。染色体中的第一个碱基编号为0。
    3. chromEnd- 染色体或支架中特征的结束位置。所述 chromEnd碱没有包括在特征的显示。例如,染色体的前100个碱基定义为chromStart = 0,chromEnd = 100,并跨越编号为0-99的碱基。

    9个可选的BED字段:

    1. name - 定义BED行的名称。当轨道打开到完全显示模式时,此标签显示在Genome浏览器窗口中BED行的左侧,或者在打包模式下直接显示在项目的左侧。
    2. score - 得分在0到1000之间。如果此注释数据集的轨迹线useScore属性设置为1,则得分值将确定显示此要素的灰度级别(较高的数字=较深的灰色)。此表显示 Genome Browser将BED分数值转换为灰色阴影:
    3. strand - 定义strand。要么“。” (=无绞线)或“+”或“ - ”。
    4. thickStart- 绘制特征的起始位置(例如,基因显示中的起始密码子)。当没有厚部分时,thickStart和thickEnd通常设置为chromStart位置。
    5. thickEnd - 绘制特征的结束位置(例如基因显示中的终止密码子)。
    6. itemRgb- R,G,B形式的RGB值(例如255,0,0)。如果轨道行 itemRgb属性设置为“On”,则此RBG值将确定此BED行中包含的数据的显示颜色。注意:建议使用此属性的简单颜色方案(八种颜色或更少颜色),以避免压倒Genome浏览器和Internet浏览器的颜色资源。
    7. blockCount- BED行中的块(外显子)数。
    8. blockSizes- 块大小的逗号分隔列表。此列表中的项目数应与blockCount相对应。
    9. blockStarts - 以逗号分隔的块开始列表。应该相对于chromStart计算所有 blockStart位置。此列表中的项目数应与blockCount相对应。

    例如:

    [bio@ubuntu ~]$ less -S GRCh38.gene.bed 
    
    chr3    124792319       124792562       ENSG00000276626 RF00100 -
    chr1    92700819        92700934        ENSG00000201317 RNU4-59P        -
    chr14   100951856       100951933       ENSG00000200823 SNORD114-2      +
    chr22   45200954        45201019        ENSG00000221598 MIR1249 -
    chr1    161699506       161699607       ENSG00000199595 RF00019 +
    

    3、基因组注释文件下载

    gencode最为权威,Ensemble、NCBI 、UCSC也有提供下载。
    genecode的FTPftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
    gencode官网的统计信息

    #下载release_24所有的gtf文件
    wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/
    

    相关文章

      网友评论

        本文标题:基因组注释文件格式 --(一)BED文件格式

        本文链接:https://www.haomeiwen.com/subject/gszioftx.html