使用UPORA对peak进行注释

作者: 生信修炼手册 | 来源:发表于2019-07-17 17:09 被阅读2次

    欢迎关注”生信修炼手册”!

    UROPA是一个命令行工具,可以对基因组区域进行注释,这里的基因组区域要求是BED格式,比如chip,ATAC_seq等数据产生的peak区间。同时需要提供一个GTF格式的基因组注释信息,比如从UCSC,ensemble,ncbi等数据库下载的参考基因组文件。在注释结果中不仅给出了peak在基因组中的定位,还会给出对应的正负链,与基因的距离,对应的基因类型等较为全面的注释信息。官方文档网址如下

    https://uropa-manual.readthedocs.io/introduction.html

    该软件根据peak的中心与基因的相对位置,将peak的基因组定位划分为以下几种类型,示意如下

    提供了多种安装方式,这里我采用的是直接拉取官方的docker镜像,用法如下

    docker pull loosolab/uropa

    该软件需要三个输入文件:

    1. GTF格式的注释文件

    2. BED格式的peak文件

    3. JSON格式的配置文件

    用法也比较简便, 我使用官方的是测试数据,步骤如下

    1. 下载GTF格式的基因组注释文件

    wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz
    gunzip Homo_sapiens.GRCh37.75.gtf.gz

    2.下载bed格式的peak区间文件

    wget https://www.encodeproject.org/files/ENCFF966LMJ/@@download/ENCFF966LMJ.bed.gz
    gunzip ENCFF966LMJ.bed.gz

    3.  准备JSON格式的配置文件

    配置文件内容如下

    {
    "queries": [
    {"feature":"gene", "distance":5000, "feature.anchor": "start", "show.attributes":"gene_name"},
    {"feature": "gene","distance":5000, "feature.anchor":"center"}],
    "priority" : "False",
    "gtf": "/home/soft/uropa/Homo_sapiens.GRCh37.75.gtf",
    "bed": "/home/soft/research/uropa/ENCFF966LMJ.bed"
    }

    配置文件命名为config.json, 代码如下

    docker run \
    --rm \
    -v /home:/home \
    loosolab/uropa \
    uropa \
    -i /home/soft/uropa/config.json
    \-p /home/soft/uropa/uropa

    -i参数指定配置文件的路径,-p指定输出文件的前缀。输出文件如下

    ├── uropa_allhits.txt
    ├── uropa_besthits.txt
    └── uropa_finalhits.txt

    这三个文件内容相同,只是行数不同,内容示意如下

    软件会自动给每一个peak一个id, 可以直观的看到peak与基因之间的关系,更多用法和细节请参考官方文档。

    ·end·

    —如果喜欢,快分享给你的朋友们吧—

    扫描关注微信号,更多精彩内容等着你!

    相关文章

      网友评论

        本文标题:使用UPORA对peak进行注释

        本文链接:https://www.haomeiwen.com/subject/oidclctx.html