3D-DNA 挂载染色体

作者: 斩毛毛 | 来源:发表于2020-09-20 10:36 被阅读0次

    3D-DNA是一款简单,方便的处理Hi-C软件,可将contig提升到染色体水平, githup,也可以用于对已经组装好的contig进行纠错,继而用其它软件(ALLHIC)进行挂载。

    3D-DNA流程简介

    • 将Hi-C数据比对到draft.genome.fa。(利用Juicer分析Hi-C数据)
    • 利用自动化流程进行纠错(misjoin),排序(order),确定正确方向(orient),最后scaffolding,得到染色体水平的组装结果(3D-DNA分析)
    • Juicebox 进行人工纠错

    所需软件及安装

    • LastZ (version 1.03.73 released 20150708)` – for diploid mode only
    • Java version >=1.8
    • Bash >=4
    • GNU Awk >=4.0.2
    • GNU coreutils sort >=8.11
    • Python >=2.7 - for chromosome number-aware splitter module only
    • scipy numpy matplotlib - for chromosome number-aware splitter module only
    • GUN Parallel >=20150322 (可选,建议装)
    • bwa
    • 两个核心软件 juicer 和3D-DNA

    安装软件

    ## 安装juice
    git clone https://github.com/theaidenlab/juicer.git
    cd juicer
    ln -s CPU scripts
    cd scripts/common
    wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
    ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar
    
    ## 安装3D-DNA
    git clone https://github.com/theaidenlab/3d-dna.git
    

    大概流程

    数据准备

    • ref 文件夹: 存放draft.genome.fa
    • fastq 文件夹:存放HI-C测序双端reads, 注意reads文件名的格式 保证*.R1.fastq, *.R2.fastq

    1. 利用Juicer 分析HI-C数据

    • 基因组建立索引
    bwa index draft.genome.fa
    
    • 创建可能的酶切位点文件
    python ~/software/juicer/misc/generate_site_positions.py  HindIII  draft.genome  draft.genome.fa
    # 本次使用的是 HindIII 进行酶切;选择自己所有的酶
    
    • 获取每条contig的长度
    awk 'BEGIN{OFS="\t"}{print $1, $NF}' draft.genome_HindIII.txt > draft.genome.chrom.sizes
    
    • 运行juicer
    ~/software/juicer/scripts/juicer.sh \
                                  -g draft_genome \
                                   -s HindIII \
                                   -z ./ref/draft.genome.fa \
                                    -y ./ref/draft.genome_HindIII.txt \
                                     -p ./ref/draft.genome.chrom.sizes \
                                     -t 8
    
    ## 参数
    -g: 定义一个物种名
    -s:酶切类型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG)
    -z : 参考基因组文件
    -y: 限制性酶切位点可能出现位置文件
    -p: 染色体大小文件
    -C: 将原来的文件进行拆分,必须是4的倍数,默认是90000000, 即22.5M reads
    -S: 和任务重运行有关,从中途的某一步开始,"merge", "dedup", "final", "postproc" 或 "early"
    -d: juicer的目录
    -D: juicer scripts的目录
    -t: 线程数
    

    结果:结果文件在aligned目录下,其中\color{red}{merged_nodups.txt}就是下一步3D-DNA的输入文件之一。

    2. 运行3D-DNA

    使用默认参数进行3D-DNA

    ~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt
    

    最后输出文件中,包含FINAL.fasta就是我们需要的结果。

    3. juicerbox进行手动纠错

    点击该处进行下载

    一般组装错误为:

    • misjoin
    • translocations
    • inversions
    • chromosome boundaries

    纠错完以后,会得到genome.review.assembly用于下一步的分析

    4. 再次运行3D-DNA

    ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt
    
    参考

    利用3D-DNA挂载基因组
    githup
    juicer
    利用3D-DNA流程组装基因组

    相关文章

      网友评论

        本文标题:3D-DNA 挂载染色体

        本文链接:https://www.haomeiwen.com/subject/vkdyyktx.html