Juicer: 辅助基因组组装
Juicer导读
本文主要对处理HiC
数据的Juicer
程序进行一个简短的介绍,并展示如何利用Juicer
进行基因组组装中染色体挂载的第一步。
1. 介绍
算法介绍Juicer 是一款能够提供一键式分析Loop-Resolution
的程序。
- 特点
- 只需一次单击,用户就能够处理
terabase
规模的Hi-C数据集 - 自动注释
Loops
和Domains
-
Juicer
是一款开源的程序 - 与多个集群操作系统和Amazon Web Services兼容
2. 安装
2.1. 环境要求
-
运行
Juicer
的最低软件要求是在Windows
、Linux
和Mac OSX
上安装有效的Java
(版本 >= 1.8)。建议使用可用的最新 Java 版本,但请不要使用 Java Beta 版本。可以在sysreq找到运行 Java 的最低系统要求。 -
要下载和安装最新的 Java 运行时环境 (JRE),请访问java。
-
GNU CoreUtils;最新版本的 GNU coreutils 可以从coreutils下载。
-
Burrows-Wheeler Aligner (BWA),可以从BWA下载安装。
上面的环境要求,基本在Linux服务器上都是已经配置完毕的,使用之前只需要检查下Java和bwa的版本即可。
2.2. 安装
下面的安装环境是在Ubuntu
系统上进行,bwa
将采用conda
安装。
- 目录建立
# 新建Juice目录
mkdir juicer && cd juicer
# 新建参考基因组相关文件目录
mkdir references
# 新建样本的序列文件和分析结果目录
mkdir work
# 新建参考基因组酶切图谱目录
mkdir restriction_sites
目录结构
-
Juicer
下载
这里需要注意,小伙伴们在Github上仓库下载时,不要采用git clone
的方式,因为这样会拉取最新的版本,还处于开发中,存在许多错误,建议去Releases
中下载1.6
的版本
安装jucier不会下载的小伙伴,可以私信小编获取。
-
bwa
安装
# 新建conda 环境安装
conda create -n juicer -c bioconda bwa -y
# 激活环境
conda activate jucier
- 配置
jucier
# 构建scripts链接
ln -s juicer/CPU scripts
# scripts 应该在juicer目录下
# 切换目录
cd scripts/common
# 下载 juicer_tools.1.9.9_jcuda.0.8.jar
wget -c https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
# 创建符号链接
ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
3. 实战
下面将详细介绍如何运行Juicer
生成merged_nodups.txt
文件,用于3D-DNA
进行染色体挂载
- 构建基因组索引
# 基因组放在jucier/reference 目录下
bwa index genome.fa
- 生成酶切图谱文件
# 需要将 DpnII 换为 测序过程使用的酶
# genome 替换为 基因组的名字
python /home/juicer/misc/generate_site_positions.py DpnII genome /home/juicer/references/genome.fa
- 生成染色体长度文件
# genome_DpnII.txt 文件由上一步生成
awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes
-
fastq
文件
# juicer/work 文件夹下创建fastq文件夹存放fastq文件
mkdir fastq
# 文件名称需要整理如下格式
work
└── fastq
├── Sample1_R1.fastq.gz
├── Sample1_R2.fastq.gz
├── Sample2_R1.fastq.gz
├── Sample2_R2.fastq.gz
├── Sample3_R1.fastq.gz
└── Sample3_R2.fastq.gz
- 运行
# nohup 命令会将程序挂在后台运行
nohup /home/juicer/scripts/juicer.sh \
-z /home/juicer/references/genome.fa \
-p /home/juicer/restriction_sites/genome.chrom.sizes \
-y /home/juicer/restriction_sites/genome_DpnII.txt \
-s DpnII \
-d /home/juicer/work/ \
-D /home/juicer \
-t 40 > log.txt
# -z参数指定参考基因组fasta所在路径,在该路径下必须同时存在对应的bwa索引
# -p参数指定染色体长度文件;
# -y指定基因组酶切图谱的路径;
# -d指定样本原始文件存放的路径;
# -D指定软件的安装路径,
# -t指定bwa比对使用的线程数,默认是使用全部线程。
结果
Juicer
运行完成后主要有以下两个目录:
- splits
splits
目录下存放的是中间结果,由于hi-C数据量很大,所以会将原始序列拆分成很多份,并行运算,加快速度。默认每份包含22.5M的reads, 当然这个可以通过-C
参数调整,该参数指定拆分文件的行数,默认是90000000, 注意fastq文件4行代表一条序列,所以这个参数的值必须是4的倍数。拆分后序列的R1和R2端分别通过bwa比对基因组,然后合并,筛选嵌合体序列,去重复,生成预处理后的结果文件。
- aligned
aligned
目录下存放的是最终结果,包含了可以导入juicebox
的后缀为hic
的图谱文件, inter.hic
和inter_30.hic
, 30表示通过MAPQ > 30
进行过滤之后的结果。
其中"merged_nodups.txt
"就是下一步3D-DNA的输入文件之一。
本文由mdnice多平台发布
网友评论