在系统发育中,我们往往只需要目标基因来进行系统发育重建,一些数据量大的基因组组装起来非常耗时耗资源,可以使用定向组装的方法来组装我们需要基因。
一种更快、可能更准确的选择(Kucuk et al. 2017)是只对感兴趣的基因组区域进行局部组装。针对这种方法,已经开发了一些工具,包括 aTRAM (Allen et al. 2018)和Kollector(Kucuk et al. 2017),它们都使用一组查询序列来初始识别对应于目标区域的reads。重要的是,查询序列集可以来自另一个物种的基因组,特别是在aTRAM的情况下,它允许氨基酸序列作为输入,这个其他物种甚至不需要与目标物种密切相关。
aTRAM比Kolllector需要跟多的资源,但是依赖的软件包更容易安装。
aTRAM("automated target restricted assembly method"),它使用各种可用的方法执行参考引导的局部从头装配。适用于需要查询下一代序列(NGS)数据进行基因序列查询的各种任务,如系统基因组学。设计理念是模块化和可扩展的,支持四个从头组装的软件:Velvet、Abyss、Trinity和Spades。aTRAM 2是从(NGS)数据中组装位点的aTRAM方法的重大革新。新的代码已经在Python中重新实现,短读库的构造方法也得到了彻底的改进,从而极大地提高了性能和汇编性能。
软件安装
下载地址 [aTRAM]
aTRAM本身很容易安装,因为它是用Python3编写的。在aTRAM github存储库中描述了安装过程,但是您可以跳过关于虚拟环境的说明中的部分,只需使用下面的两个命令下载最新版本的aTRAM并安装所需的Python库
git clone https://github.com/juliema/aTRAM.git
python3 -m pip install --user -r aTRAM/requirements.txt
也可以使用conda安装
conda env create -f environment.yml
conda activate aTRAM
1.2安装配套软件
使用aTRAM必须安装的一些配套软件,
1.2.1 BLAST version 2.7.1
1.2.2 Velvet、Trinity、Abyss、SPAdes四个组装软件选一,用来组装目标序列,下载地址如下。
2 使用
2.1文库构建
使用aTRAM要先使用atram_preprocessor.py构建目标原始序列的文库。如果是压缩文件一定要先解压再使用,不然就会报错。
使用——blast-db选项定义新的库名。它由路径和库前缀本身组成。这个程序将添加后缀来区分不同的数据库文件。然后给它你的fastq文件。您可以列出正向和反向读取文件,或者将它们放在一个文件中,并使用——mixed-ends选项。
atram_preprocessor.py
--blast-db=path_to_atram_library/LIBRARY_PREFIX
--end-1=path_to_reads/read_1.fastq
--end-2=path_to_reads/read_2.fastq
下面是我用的数据
python3 /aTRAM/atram_preprocessor.py -b SRS7102751 --end-1 SRS7102751_1.clean.fastq --end-2 SRS7102751_2.clean.fastq
#-b 后为输出文件的名字 --end-1 和 --end-2后为输入的正反向的原始序列文件
2.2 组装目标loci
需要参数
*1、 从预处理器中给它相同的——blast-db选项。
- 2、需要组装的参考序列
- 3、从velvet, trinity, abyss, or spades 四个软件中选择一个作为组装软件。
- 4、输出文件名--output-prefix与目录部分和库前缀本身的--blast-db-prefix作用类似。
输入示例
atram.py \
--blast-db=path_to_atram_library/LIBRARY_PREFIX \
--query=path_to_reference_loci/Locus.fasta \
--assembler=ASSEMBLER_CHOICE \
--output-prefix=path_to_output/OUTPUT_PREFIX
网友评论