美文网首页生物信息学与算法
bedgraph, wig, bigwig 学习之bedGrap

bedgraph, wig, bigwig 学习之bedGrap

作者: liu_ll | 来源:发表于2018-12-22 02:19 被阅读87次

    一:前言
    最近师兄给我布置了一个小任务:把bedgraph文件转成bigwig形式,然后拖到IGV里去看看。
    原因:由于bedgraph 的文件比较大,可以转成比较小的文件才方便进行操作。比如说bigwig.(小问题:为什么bigwig而不是wig捏?)
    bedgraph, wig, bigwig的格式了解一下???

    1:bedgraph 主要是来源于bed文件,包含了bed文件的信息.

    UCSC bedgraph的 解释
    重点: bedgraph文件里面得包含4种信息

    举一个栗子。打开一个bedgraph的文件:能看到很多信息

    bedgraph示例

    bedgarph文件记录的信息由以下几个部分组成:

    chr    start  position    end position   value
    染色体   起始位置       终止位置         值
    

    bedgraph 文件包含了trak信息,以及value值(如果是负数的话可能是副链上的值的信息)

    UCSC bedgragh文件的例子
    2:关于bed文件
    BED文件 要求的最基本的是染色体信息,起始位置,终止位置。
    如果要记录的更加详细的话可以有后面的选项
    bed文件的说明,来自emble
    3:wig文件信息
    包括了染色体的长度,步长是多少,span是多少。(有多少个一样的位点的value是多少个,方便压缩信息)
    wig的基本信息
    4:bigwig
    bigwig是wig文件的二进制形式,为了压缩文件大小的
    但是为了建立这个二进制的形式,是必须要提供参考基因组大小的也就是chromsize的文件信息的

    5:报错信息

    报错信息
    这个报错信息说,我的bedgraph的区域有超区的现象
    代码看红框框里的:
    代码信息
    这里要求必须得有chromsize的文件信息!!!!
    思考:我们可以根绝bedgraph信息直接算出来bigwig的信息,但是为什么要chromsize的文件呢?
    感谢小伙伴的指点@UnderStorm
    , 在这个步骤中,它是先转成wig文件,再根据wig文件再转成bigwig文件进行压缩。
    回到刚才的问题:
    既然存在的超区的问题,我回去检查了一下bgh的文件信息,根据报错的那一栏,发现bedgraph那一行的信息不准确。

    Reference:
    UCSC的bedgraph说明文档 http://www.genome.ucsc.edu/goldenPath/help/bedgraph.html
    ensembl 的说明文档 http://asia.ensembl.org/info/website/upload/bed.html
    生信技能树wig、bigWig和bedgraph文件详解 http://www.bio-info-trainee.com/1815.html

    相关文章

      网友评论

        本文标题:bedgraph, wig, bigwig 学习之bedGrap

        本文链接:https://www.haomeiwen.com/subject/phahkqtx.html