美文网首页
hicPro+EndHiC(一)染色体挂载

hicPro+EndHiC(一)染色体挂载

作者: GenomeStudy | 来源:发表于2023-08-17 11:00 被阅读0次

    使用hicPro+EndHiC两个软件,对我们组装得到的contig数据进行染色体的挂载,得到我们所需要的scaffold水平的基因组文件。
    首先对HiC数据进行分析,得到EndHiC程序所需要的文件,再由EndHiC进行染色体的挂载。

    Hic-Pro

    HiC-Pro的安装

    HiC-Pro的安装确实是个让人头疼的问题,老实说,github上面说的并不是很清楚,中间出一点错就用不了,我也是搞了好久才能用

    1.下载

    git clone https://github.com/nservant/HiC-Pro.git
    cd HiC-Pro
    

    在软件的安装包中,有一个environment.yml的文件,是hicPro在conda中的依赖

    2.使用conda进行预安装

    #创建一个hic-pro的虚拟环境,并安装yml中的依赖软件
    conda env create -f environment.yml -p ~/miniconda3/envs/hic-pro 
    #激活环境即可
    conda activate ~/miniconda3/envs/hic-pro
    

    3.再进行手动编译

    cd ~/biosoft/HiC-Pro
    vi config-install.txt
    
    #########################################################################
    ## Paths and Settings  - Start editing here !
    #########################################################################
    #修改你需要安装的路径,否则默认的话可能会出现后期的无权限安装的情况
    PREFIX = /public1/home/biosoft/HiC-Pro
    BOWTIE2_PATH = 
    SAMTOOLS_PATH = 
    R_PATH = 
    PYTHON_PATH = 
    CLUSTER_SYS = TORQUE
    

    3.1.运行编译第一步

    make configure
    
    $ make configure
    make -f ./scripts/install/Makefile CONFIG_SYS=./config-install.txt
    make[1]: Entering directory '/public1/home/biosoft/HiC-Pro'
    ./scripts/install/install_dependencies.sh -c ./config-install.txt -p /public1/home/biosoft/HiC-Pro -o /public1/home/biosoft/HiC-Pro /HiC-Pro_3.1.0 -q
    Make sure internet connection works for your shell prompt under current user's privilege ...
    Starting HiC-Pro installation !
    Checking dependencies
    - Python libraries ...OK
    - R installation ...OK
    - Bowtie2 installation ...OK
    - Samtools installation ...OK
    
    Checking HiC-Pro configuration
    - Configuration for TORQUE/PBS system ...OK
    
    done !
    make[1]: Leaving directory '/public1/home/biosoft/HiC-Pro'
    

    出现done !即完成编译第一步

    3.2.再运行编译第二步

    $ make install
    (g++ -Wall -O2 -std=c++0x -o build_matrix /public1/home/biosoft/HiC-Pro/scripts/src/build_matrix.cpp; mv build_matrix /public1/home/biosoft/HiC-Pro/scripts)
    (g++ -Wall -O2 -std=c++0x -o cutsite_trimming /public1/home/biosoft/HiC-Pro/scripts/src/cutsite_trimming.cpp; mv cutsite_trimming /public1/home/biosoft/HiC-Pro/scripts)
    
    HiC-Pro installed in  !
    

    出现HiC-Pro installed in !即安装成功。

    3.3.对软件进行测试

    $ ./bin/HiC-Pro 
    usage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]
    Use option -h|--help for more information
    

    显示这种情况,我们的HiC-Pro就可以正常使用了!也是要激活虚拟环境的哦~

    HiC-Pro的使用

    软件成功安装了,那就开始使用这个软件吧

    #先来查看它的参数
    $ ./bin/HiC-Pro -h
    usage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]
    Use option -h|--help for more information
    
    HiC-Pro 3.1.0
    ---------------
    OPTIONS
    
       -i|--input INPUT : input data folder; Must contains a folder per sample with input files
       -o|--output OUTPUT : output folder
       -c|--conf CONFIG : configuration file for Hi-C processing
       [-p|--parallel] : if specified run HiC-Pro on a cluster
       [-s|--step ANALYSIS_STEP] : run only a subset of the HiC-Pro workflow; if not specified the complete workflow is run
          mapping: perform reads alignment - require fast files
          proc_hic: perform Hi-C filtering - require BAM files
          quality_checks: run Hi-C quality control plots
          merge_persample: merge multiple inputs and remove duplicates if specified - require .validPairs files
          build_contact_maps: Build raw inter/intrachromosomal contact maps - require .allValidPairs files
          ice_norm : run ICE normalization on contact maps - require .matrix files
       [-h|--help]: help
       [-v|--version]: version
    

    1.前期数据的准备

    #在工作目录下创建一个rawdata的文件夹
    mkdir rawdata/sre && cd rawdata/sre
    ln -s /YOU_PATH/*.hic.fastq.gz ./
    
    #通过digest_genome.py和HiC的内切酶生成bed文件
    ~/biosoft/HiC-Pro/bin/utils/digest_genome.py -r HINDIII -o HINDIII.bed contig.fa
    $ head HINDIII.bed
    ptg000031l      0       2416    HIC_ptg000031l_1        0       +
    ptg000031l      2416    2527    HIC_ptg000031l_2        0       +
    ptg000031l      2527    5947    HIC_ptg000031l_3        0       +
    ptg000031l      5947    7226    HIC_ptg000031l_4        0       +
    ptg000031l      7226    7881    HIC_ptg000031l_5        0       +
    ptg000031l      7881    8904    HIC_ptg000031l_6        0       +
    ptg000031l      8904    9160    HIC_ptg000031l_7        0       +
    ptg000031l      9160    11930   HIC_ptg000031l_8        0       +
    ptg000031l      11930   15229   HIC_ptg000031l_9        0       +
    ptg000031l      15229   23014   HIC_ptg000031l_10       0       +
    
    
    #统计contig长度
    getChrLength.py contig.fa > contig.size
    $ head contig.size
    ptg000031l      72883093
    ptg000049l      49671368
    ptg000001l      47070381
    ptg000022l      38335619
    ptg000018l      37885870
    ptg000038l      36572057
    ptg000011l      31623754
    ptg000052l      30919883
    ptg000118l      29808183
    ptg000075l      27314383
    
    #构建contig的bowtie2的索引文件
    bowtie2-build --threads 20 contig.fa contig.fa
    

    2.配置文件修改

    cp ~/biosoft/HiC-Pro/config-hicpro.txt ./
    
    # Please change the variable settings below if necessary
    
    #########################################################################
    ## Paths and Settings  - Do not edit !
    #########################################################################
    
    TMP_DIR = tmp   #默认
    LOGS_DIR = logs #默认
    BOWTIE2_OUTPUT_DIR = bowtie_results #默认
    MAPC_OUTPUT = hic_results   #默认
    RAW_DIR = rawdata   #默认
    
    #######################################################################
    ## SYSTEM AND SCHEDULER - Start Editing Here !!
    #######################################################################
    N_CPU = 20  #设置cpu使用量
    LOGFILE = hicpro.log    #设置日志文件
    
    JOB_NAME = contig #设置任务名称
    JOB_MEM = 128g  #设置需要的内存
    JOB_WALLTIME = 200000 #默认
    JOB_QUEUE = all.q   #默认
    JOB_MAIL = *******@163.com  #默认,或设置自己的邮箱
    
    #########################################################################
    ## Data
    #########################################################################
    
    PAIR1_EXT = _1
    PAIR2_EXT = _2
    
    #######################################################################
    ## Alignment options
    #######################################################################
    
    FORMAT = phred33    #默认
    MIN_MAPQ = 0    #默认
    
    BOWTIE2_IDX_PATH =/share/home/Work/Genome_assembly/Assembly_hifi_hic/09.EndHiC/01.hicPro #设置工作目录
    BOWTIE2_GLOBAL_OPTIONS = --very-sensitive -L 30 --score-min L,-0.6,-0.2 --end-to-end --reorder  #默认
    BOWTIE2_LOCAL_OPTIONS =  --very-sensitive -L 20 --score-min L,-0.6,-0.2 --end-to-end --reorder  #默认
    
    #######################################################################
    ## Annotation files
    #######################################################################
    
    REFERENCE_GENOME =contig.fa #contig文件
    GENOME_SIZE = /share/home/Work/Genome_assembly/Assembly_hifi_hic/09.EndHiC/01.hicPro/contig.size    #前期准备的统计文件
    
    #######################################################################
    ## Allele specific analysis
    #######################################################################
    
    ALLELE_SPECIFIC_SNP = #默认
    
    #######################################################################
    ## Digestion Hi-C
    #######################################################################
    
    GENOME_FRAGMENT = /share/home/Work/Genome_assembly/Assembly_hifi_hic/09.EndHiC/01.hicPro/HINDIII.bed    #前期准备的bed文件
    
    LIGATION_SITE = AAGCTT #设置酶切序列
    MIN_FRAG_SIZE = 100 #默认
    MAX_FRAG_SIZE = 100000  #默认
    MIN_INSERT_SIZE = 100   #默认
    MAX_INSERT_SIZE = 600   #默认
    
    #######################################################################
    ## Hi-C processing
    #######################################################################
    
    MIN_CIS_DIST =  #默认
    GET_ALL_INTERACTION_CLASSES = 1 #默认
    GET_PROCESS_SAM = 0 #默认
    RM_SINGLETON = 1    #默认
    RM_MULTI = 1    #默认
    RM_DUP = 1  #默认
    
    #######################################################################
    ## Contact Maps
    #######################################################################
    
    BIN_SIZE = 100000 500000    #默认
    MATRIX_FORMAT = upper   #默认
    
    #######################################################################
    ## Normalization
    #######################################################################
    MAX_ITER = 100  #默认
    FILTER_LOW_COUNT_PERC = 0.02    #默认
    FILTER_HIGH_COUNT_PERC = 0  #默认
    EPS = 0.1   #默认
    

    3.运行程序

    HiC-Pro -i rawdata -o outdir_new -c config-hicpro.txt
    -i  添加rawdata文件夹
    -o  输出文件夹名称
    -c  配置文件
    

    制作不易,如果我的文章对你有所帮助,麻烦点点赞吧~非常感谢

    参考链接

    https://github.com/nservant/HiC-Pro

    相关文章

      网友评论

          本文标题:hicPro+EndHiC(一)染色体挂载

          本文链接:https://www.haomeiwen.com/subject/kuolmdtx.html