美文网首页Hi-C
HiCpro-HiCplotter

HiCpro-HiCplotter

作者: caokai001 | 来源:发表于2019-01-11 22:46 被阅读22次

    一、HiC-Pro 简介

    HiC-Pro是目前比较流行的HiC数据标准化处理工具之一,其流程主要分为6个步骤,比对、过滤HiC比对结果、检测有效HiC序列、结果合并、构建HiC关联图谱以及关联图谱标准化。

    HiC-Pro可以输出各个尺度的HiC标准化互作图谱,从每个窗口5Kb到1Mb,当然窗口越大,所生成的互作关系越少,计算时间就越少,反之则越多。同时HiC-Pro能与下游的可视化软件HiCPlotter等兼容,输出文件可以直接用于可视化分析。

    二、HiC-Pro 原理

    HiC-Pro的比对mapping的原理如下图所示,我们拿到了Hi-C的测序数据,HiC-Pro设置好配置文件自动进行批量化处理流程

    image

    HiC-Pro能够自动化的比对,标准化和构建相互作用矩阵,在处理多样化的测序数据时,HiC-Pro能够检测和自动过滤测序数量差的reads和无效的片段。

    三、下载安装

    (1)下载地址:

    https://github.com/nservant/HiC-Pro

    (2)安装:

    依赖软件还是比较多,分别如下。

    bowtie2、g++、sort、samtools(>1.1)Python2 (注释是2,3不支持version >=2.7)、4个Python模块(pysam (>=0.8.3), bx-python(>=0.5.0), numpy(>=1.8.2), scipy(>=0.15.1) )R、以及两个R包(RColorBrewer和ggplot2 (>2.2.1) )
    

    (3)解压安装:

    unzip HiC-Pro-master.zip && make configure && make install (安装成功如下所示)HiC-Prousage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]Use option -h|--help for more information[zhangsan@wei ~]$ HiC-Pro -husage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]Use option -h|--help for more informationOPTIONS   -i|--input INPUT : input data folder; Must contains a folder per sample with input files   -o|--output OUTPUT : output folder   -c|--conf CONFIG : configuration file for Hi-C processing   [-p|--parallel] : if specified run HiC-Pro on a cluster   [-s|--step ANALYSIS_STEP] : run only a subset of the HiC-Pro workflow; if not specified the complete workflow is run  mapping: perform reads alignment - require fast files  proc_hic: perform Hi-C filtering - require BAM files  quality_checks: run Hi-C quality control plots  merge_persample: merge multiple inputs and remove duplicates if specified - require .validPairs files  build_contact_maps: Build raw inter/intrachromosomal contact maps - require_allValidPairs files  ice_norm : run ICE normalization on contact maps - require .matrix files  [-h|--help]: help  [-v|--version]: version
    

    其实最重要的是三个参数,通过帮助文档我们可以发现HiC-Pro使用起来十分方便,但最重要的就是配置文件(configuration-file )的设置。

    (4)注释文件

    为了处理HiC-Pro的原始文件,我们需要3个注释文件

    bed文件:包含限制性酶切位点的文件,其依赖于限制性内切酶和参考基因组

    染色体大小文件:这个文件可以在UCSC基因组浏览器上下载

    bowtie2 indexes :查看bowtie2说明文档建立基因组index文件

    四、软件运行

    将'config-hicpro.txt'文件复制粘贴到当前文件夹,然后进行编辑修改,具体如何详细修改参见config文件的说明文档

    将输入文件按照如下形式放在有个rawdata文件夹中,如下所示

    • PATH_TO_MY_DATA

    • sample1
      ++ file1_R1.fastq.gz
      ++ file1_R2.fastq.gz
      ++ …

    • sample2
      ++ file1_R1.fastq.gz
      ++ file1_R2.fastq.gz

    运行HiC-Pro程序

    MY_INSTALL_PATH/bin/HiC-Pro -i FULL_PATH_TO_DATA_FOLDER -o FULL_PATH_TO_OUTPUTS -c MY_LOCAL_CONFIG_FILE
    

    Hi-C数据测试

    一个非常小的fastq 文件(2M reads)用于Hi-C测试,数据数据来源于Dixon et al 2012

    wget https://zerkalo.curie.fr/partage/HiC-Pro/HiCPro_testdata.tar.gz && tar -zxvf HiCPro_testdata.tar.gz
    

    编辑configuration 文件,设置bowtie2 indexes的路径
    运行 HiC-Pro

    HICPRO_INSTALL_DIR/bin/HiC-Pro -c config_test_latest.txt -i test_data -o hicpro_latest_test vendredi 13 juillet 2018, 14:55:21 (UTC+0200) Bowtie2 alignment step1 ... Logs: logs/dixon_2M_2/mapping_step1.log Logs: logs/dixon_2M/mapping_step1.log vendredi 13 juillet 2018, 14:56:06 (UTC+0200) Bowtie2 alignment step2 ... Logs: logs/dixon_2M_2/mapping_step2.log Logs: logs/dixon_2M/mapping_step2.log vendredi 13 juillet 2018, 14:56:15 (UTC+0200) Combine R1/R2 alignment files ... Logs: logs/dixon_2M_2/mapping_combine.log Logs: logs/dixon_2M/mapping_combine.log vendredi 13 juillet 2018, 14:56:20 (UTC+0200) Mapping statistics for R1 and R2 tags ... Logs: logs/dixon_2M_2/mapping_stats.log Logs: logs/dixon_2M/mapping_stats.log vendredi 13 juillet 2018, 14:56:21 (UTC+0200) Pairing of R1 and R2 tags ... Logs: logs/dixon_2M_2/mergeSAM.log Logs: logs/dixon_2M/mergeSAM.log vendredi 13 juillet 2018, 14:56:29 (UTC+0200) Assign alignments to restriction fragments ... Logs: logs/dixon_2M_2/mapped_2hic_fragments.log Logs: logs/dixon_2M/mapped_2hic_fragments.log vendredi 13 juillet 2018, 14:57:09 (UTC+0200) Merge chunks from the same sample ... Logs: logs/dixon_2M/merge_valid_interactions.log Logs: logs/dixon_2M_2/merge_valid_interactions.log vendredi 13 juillet 2018, 14:57:09 (UTC+0200) Merge stat files per sample ... Logs: logs/dixon_2M/merge_stats.log Logs: logs/dixon_2M_2/merge_stats.log vendredi 13 juillet 2018, 14:57:10 (UTC+0200) Run quality checks for all samples ... Logs: logs/dixon_2M/make_Rplots.log Logs: logs/dixon_2M_2/make_Rplots.log vendredi 13 juillet 2018, 14:57:22 (UTC+0200) Generate binned matrix files ... Logs: logs/dixon_2M/build_raw_maps.log Logs: logs/dixon_2M_2/build_raw_maps.log vendredi 13 juillet 2018, 14:57:23 (UTC+0200) Run ICE Normalization ... Logs: logs/dixon_2M/ice_500000.log Logs: logs/dixon_2M/ice_1000000.log Logs: logs/dixon_2M_2/ice_500000.log Logs: logs/dixon_2M_2/ice_1000000.log
    

    五、结果查看

    -o 输出文件夹中,共有bowtie_results和hic_results两个结果文件夹。

    其中bowtie_results文件夹下共有三个文件夹:bwt2、bwt2_global和bwt2_local,分别是序列比对结果、染色体间关联比对结果和染色体内部关联比对结果。其中bwt2文件夹下有一些数据统计结果的输出文件,如mpairstat文件等。

    Total_pairs_processed    23546961    100.0Unmapped_pairs    22197   0.094Low_qual_pairs    0   0.0Unique_paired_alignments    17744193    75.357Multiple_pairs_alignments    462162  1.963Pairs_with_singleton    5318409 22.586Low_qual_singleton    0   0.0Unique_singleton_alignments    0   0.0Multiple_singleton_alignments    0   0.0Reported_pairs    17744193    75.357
    

    hic_results文件夹下共有data、matrix以及pic三个文件夹。data文件夹下是比对上的有效序列对,文件末尾为_allValidPairs;pic文件夹下是各类结果数据统计下图所示;matrix文件夹下分为 iced 和 raw 两个文件夹,分别标准化后的关联矩阵和初始的关联矩阵。

    六、HiCPlotter可视化

    1. HiCPlotter的介绍:

    • python 脚本,不需要安装

    • 与HiC-Pro 兼容,设置相对应的参数即可可视化HiC结果

    • HiCPlotter基本可以做出三维基因组分析的大部分结果,应用方便快捷,唯一的就是调色比较麻烦(相对于它的简单快捷可以忽略不计啦)

    先展示一下HiCPlotter的便捷

    ##  Plot the genome-wide map at 1Mb resolutionpython HiCPlotter.py -f hic_results/matrix/sample1/iced/1000000/sample1_1000000_iced.matrix -o Examplegw -r 1000000 -tri 1 -bed hic_results/matrix/sample1/raw/1000000/sample1_1000000_ord.bed -n hES -wg 1 -chr chrX## Plot the chrX at 150Kb resolutionpython HiCPlotter.py -f hic_results/matrix/sample1/iced/150000/sample1_150000_iced.matrix -o Exemple -r 150000 -tri 1 -bed hic_results/matrix/sample1/raw/150000/sample1_150000_ord.bed -n Test -chr chrX -ptr 1
    

    直接调用Python就可以运行啦,减少了繁琐的安装步骤。

    2. HiCPlotter的可视化实战

    使用方式
    python HiCPlotter.py -f file1 file2 -n name1 name2 -chr chrX -o output
    

    2.1 整条染色体的Hi-C关系互作图

    注意:如果设置-fh为0的话,表明形成的hic-martrix是没有表头行

    Hi-C和TADs的数据来源: Dixon et, al. Nature 2012

    python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default1 -fh 0
    

    人类ESC细胞21号染色体的互作图

    image

    2.2 染色体某一区域的Hi-C互作图谱

    python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default2 -ptd 1 -pptd 1 -s 600 -e 900 -fh 0 -w 8 -tr 10 -pi 1
    
    image

    2.3 TAD 的可视化

    python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default2 -ptd 1 -pptd 1 -s 600 -e 900 -fh 0 -w 8 -tr 10 -pi 1 -pdb 1
    
    image

    2.4 多个数据集的比较相互作用

    Hi-C 数据来源:Zuin et, al. PNAS 2014

    Tips : 加 -hmc 参数可以改变heatmap的颜色

    python HiCPlotter.py -f data/HiC/Human/GSM1081526_TEV_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081528_HRV_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081530_CTRL_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081533_CTCF_r2_cis.index.chr6.txt_matrix.txt -n WT RAD21-Depleted siControl CTCF-Depleted -chr chr6 -r 40000 -fh 0 -pi 0 -sn 0.35 -o Rad21.CTCF -s 2800 -e 2950 -hmc 5
    

    wild type, RAD21-depleted, CTCF-depleted 的细胞6号染色体局部区域的互作关系

    image

    2.5 基因之间的相互作用

    Tips:相比较默认的jpeg格式的文件,pdf格式的文件则相对更好一些

    python HiCPlotter.py -f data/HiC/Human/IMR90-chr10_25kb.RAWobserved_KRnormalizedMatrix.txt -o genes -n IMR90 -chr chr17 -g genes.sorted.bed -r 25000 -s 1800 -e 1850 -hist data/HiC/Human/IMR90.Rad21.bedGraph -hl Rad21 -hm 500 -ext pdf
    
    image

    备注来源:

    染色质高级结构研究之Hi-C技术(下篇)——可视化实战

    ZZQ&DIATRE [DIATRE表观遗传](javascript:void(0);) 2018-12-20

    相关文章

      网友评论

        本文标题:HiCpro-HiCplotter

        本文链接:https://www.haomeiwen.com/subject/wsnfdqtx.html