目前,用于Hi-C辅助基因组组装的软件有LACHESIS、SALSA2、3D-DNA、ALLHiC等,包括这2年发的hic_hiker等, 这些软件在基因组组装方面各有优劣。SALSA2和3D-DNA虽不需预先提供染色体数目即可进行互作分析,但在可操作性和实用性上都有一定的局限性。LACHESIS作为分析Hi-C数据的经典工具,文章认可度较高,但其在多倍体基因组组装方面表现欠佳。前面也试过AllHiC来挂载多倍体,但是有些简单的物种挂载过程中好像有点不如意的区域,所以再尝试一下去其它工具的结果。
使用3D-DNA做基因组组装的整体流程如下图,分别为组装,Juicer分析Hi-C数据,3D-DNA进行scaffolding,使用JBAT对组装结果进行手工纠正,最终得到准染色体水平的基因组。
=====安装=====
在安装之前,确保服务器上有了下面这些依赖软件工具
LastZ(仅在杂合基因组的二倍体模式下使用)
Java >= 1.7
GNU Awk >= 4.02
GNU coreutils sort > 8.11
Python >= 2.7
scipy, numpy, matplotlib
GNU Parallel >=20150322 (不必要,但是强力推荐)
bwa
我们需要安装两个软件,一个是3D-DNA,另一个是juicer。
CPU版本的juicer:
git clone https://github.com/theaidenlab/juicer.git
cd juicer
ln -s CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
3D-DNA安装:
git clone https://github.com/theaidenlab/3d-dna.git
========分析测试=========
两个输入数据:
reference:存放一个genome.fa, 为组装的contigs。
fastq: 存放HiC二代双端测序结果,read_R1.fastq.gz, read_R2.fastq.gz
有了这两个数据就可以开始了。*_R*.fastq*
第一步:为基因组建立索引
bwa index genome.fa
第二步: 根据基因组构建创建可能的酶切位点文件
python juicer-master/misc/generate_site_positions.py DpnII genome genome.fa
第三步: 获取每条contig的长度
awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes
第四步:运行juicer
/gpfs03/home/jingjing/software/juicer-master/scripts/juicer.sh -t 30 -g RT -z reference/genome.fa -y restriction_sites/genome_DpnII.txt -p restriction_sites/genome.chrom.sizes -D /gpfs03/home/jingjing/software/juicer-master/CPU/ -s DpnII
输出的结果文件都在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。
第五步:运行3d-dna
注:3d-dna的运行也没有多少参数可以调整,如果对组装基因组质量的信心高,就用-r 0, 否则用默认的-r 2就行了。
/gpfs03/home/jingjing/software/3d-dna-master/./run-asm-pipeline.sh reference/assembly_scaffolds_tjn.fasta aligned/merged_nodups.txt
第六步:使用juicerbox进行手工纠错
然后在Juicer-Tools中对结果进行可视化,对可能的错误进行纠正。
https://github.com/aidenlab/Juicebox/releases
最常见的几种组装错误:
misjoin: 切割
translocations: 移动
inversions: 翻转
chromosome boundaries: 确定染色体的边界
这些错误的判断依赖于经验,所以只能靠自己多试试了。
最后输出genome.review.assembly用于下一步的分析。
第七步:再次运行3d-DNA
run-asm-pipeline-post-review.sh -r genome.review.assembly genome.fa aligned/merged_nodups.txt
本文使用 文章同步助手 同步
网友评论