美文网首页基因组
【HiC挂载】3D-DNA挂载

【HiC挂载】3D-DNA挂载

作者: jjjscuedu | 来源:发表于2021-11-29 07:31 被阅读0次

    目前,用于Hi-C辅助基因组组装的软件有LACHESIS、SALSA2、3D-DNA、ALLHiC等,包括这2年发的hic_hiker等, 这些软件在基因组组装方面各有优劣。SALSA2和3D-DNA虽不需预先提供染色体数目即可进行互作分析,但在可操作性和实用性上都有一定的局限性。LACHESIS作为分析Hi-C数据的经典工具,文章认可度较高,但其在多倍体基因组组装方面表现欠佳。前面也试过AllHiC来挂载多倍体,但是有些简单的物种挂载过程中好像有点不如意的区域,所以再尝试一下去其它工具的结果。

    使用3D-DNA做基因组组装的整体流程如下图,分别为组装,Juicer分析Hi-C数据,3D-DNA进行scaffolding,使用JBAT对组装结果进行手工纠正,最终得到准染色体水平的基因组。

    =====安装=====

    在安装之前,确保服务器上有了下面这些依赖软件工具

     LastZ(仅在杂合基因组的二倍体模式下使用)

     Java >= 1.7

     GNU Awk >= 4.02

     GNU coreutils sort > 8.11

     Python >= 2.7

     scipy, numpy, matplotlib

     GNU Parallel >=20150322 (不必要,但是强力推荐)

     bwa

     我们需要安装两个软件,一个是3D-DNA,另一个是juicer。

    CPU版本的juicer:

    git clone https://github.com/theaidenlab/juicer.git

    cd juicer

    ln -s CPU scripts

    cd scripts/common

    wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar

    ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

    3D-DNA安装:

    git clone https://github.com/theaidenlab/3d-dna.git

    ========分析测试=========

    两个输入数据:

    reference:存放一个genome.fa, 为组装的contigs。

    fastq: 存放HiC二代双端测序结果,read_R1.fastq.gz, read_R2.fastq.gz

        有了这两个数据就可以开始了。*_R*.fastq*

    第一步:为基因组建立索引

    bwa index genome.fa

    第二步: 根据基因组构建创建可能的酶切位点文件

    python juicer-master/misc/generate_site_positions.py DpnII genome genome.fa 

    第三步: 获取每条contig的长度

    awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes

    第四步:运行juicer

    /gpfs03/home/jingjing/software/juicer-master/scripts/juicer.sh -t 30 -g RT -z reference/genome.fa -y restriction_sites/genome_DpnII.txt -p restriction_sites/genome.chrom.sizes -D /gpfs03/home/jingjing/software/juicer-master/CPU/ -s DpnII

    输出的结果文件都在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。

    第五步:运行3d-dna

    注:3d-dna的运行也没有多少参数可以调整,如果对组装基因组质量的信心高,就用-r 0, 否则用默认的-r 2就行了。

    /gpfs03/home/jingjing/software/3d-dna-master/./run-asm-pipeline.sh reference/assembly_scaffolds_tjn.fasta aligned/merged_nodups.txt

    第六步:使用juicerbox进行手工纠错

    然后在Juicer-Tools中对结果进行可视化,对可能的错误进行纠正。

    https://github.com/aidenlab/Juicebox/releases

    最常见的几种组装错误:

     

       misjoin: 切割

       translocations: 移动

       inversions: 翻转

       chromosome boundaries: 确定染色体的边界

     

    这些错误的判断依赖于经验,所以只能靠自己多试试了。

    最后输出genome.review.assembly用于下一步的分析。

    第七步:再次运行3d-DNA

    run-asm-pipeline-post-review.sh -r genome.review.assembly genome.fa aligned/merged_nodups.txt

    本文使用 文章同步助手 同步

    相关文章

      网友评论

        本文标题:【HiC挂载】3D-DNA挂载

        本文链接:https://www.haomeiwen.com/subject/zzukxrtx.html