使用homer进行peak注释

作者: 生信修炼手册 | 来源:发表于2019-07-22 17:06 被阅读21次

    欢迎关注”生信修炼手册”!

    homer软件集成了许多的功能,包括peak calling, peak注释,motif分析等等,通过这一个软件,就可以完成chip_seq的绝大部分分析内容,不可谓不强大。本文主要介绍这个软件进行peak注释的用法。

    在homer中通过annotatePeaks.pl这个脚本进行peak的注释,分为以下两步

    1. 准备参考基因组的注释信息

    homer内置了许多物种的注释信息供我们下载,通过以下命令可以查看所有内置的物种

    perl configureHomer.pl --list

    其中GENOMES部分对应的就是内置支持的物种,部分内容展示如下

    GENOMES
    v5.10 hg19 v6.0 human genome and annotation for UCSC hg19
    + mm10 v6.0 mouse genome and annotation for UCSC mm10
    - sacCer3 v6.0 yeast genome and annotation for UCSC sacCer3
    - panTro5 v6.0 human genome and annotation for UCSC panTro5

    hg19为例,下载方式如下

    perl configureHomer.pl  -install hg19

    下载的信息保存在homer安装目录的data目录下,以hg19为例,在data/genome/hg19目录下,文件列表如下

    ├── chr1.fa
    ├── chr2.fa
    ├── chr3.fa
    ├── ...fa
    ├── chrom.sizes
    ├── conservation
    ├── hg19.annotation
    ├── hg19.aug
    ├── hg19.basic.annotation
    ├── hg19.full.annotation
    ├── hg19.miRNA
    ├── hg19.repeats
    ├── hg19.rna
    ├── hg19.splice3p
    ├── hg19.splice5p
    ├── hg19.stop
    ├── hg19.tss
    ├── hg19.tts
    └── preparsed

    包含了参考基因组的fasta序列以及不同区域的区间文件。
    hg19.basic.annotation内容如下

    Intergenic      chr1    1       10873   +       N       1900000000
    promoter-TSS (NR_046018) chr1 10874 11974 + P 1
    non-coding (NR_046018, exon 1 of 3) chr1 11975 12227 + pseudo 125025
    intron (NR_046018, intron 1 of 2) chr1 12228 12612 + I 810684
    non-coding (NR_046018, exon 2 of 3) chr1 12613 12721 + pseudo 125026
    intron (NR_046018, intron 2 of 2) chr1 12722 13220 + I 810684
    non-coding (NR_046018, exon 3 of 3) chr1 13221 13361 + pseudo 125027

    同时在data/accession目录下,还有参考基因组对应的基因注释文件。
    human2gene.tsv记录了基因的ubigene id, gene symbol等信息,内容如下所示

    ADE73044        3107    Hs.656020       NM_002117       ENSG00000204525         HLA-C
    ENSG00000113163 10087 Hs.270437 NM_005713 ENSG00000113163 COL4A3BP
    DB065460 9947 Hs.132194 NM_005462 ENSG00000155495 MAGEC1
    ENSP00000282466 285313 Hs.58561 NM_178822 ENSG00000152580 IGSF10
    DB029361 22849 Hs.131683 NM_014912 ENSG00000107864 CPEB3
    XP_016877211 87 Hs.235750 NM_001102 ENSG00000072110 ACTN1
    EAW77897 56965 Hs.270244 NM_020213 ENSG00000137817 PARP6

    human.description记录表了基因的功能描述,类别等信息,示意如下

    2. 进行注释

    用法如下

    annotatePeaks.pl peak.bed hg19 > peak.annotation.xls

    第一个参数为peak的bed文件,第二个参数为参考基因组的名称。输出结果如下所示

    注释的内容包含两个部分,第一部分是距离peak区间最近的转录起始位点TSS,第二部分是对peak在基因组区域的分布,比如TSS,TTS,3’UTR,5’UTR等区域。

    ·end·

    —如果喜欢,快分享给你的朋友们吧—

    扫描关注微信号,更多精彩内容等着你!

    相关文章

      网友评论

        本文标题:使用homer进行peak注释

        本文链接:https://www.haomeiwen.com/subject/tzwwlctx.html