利用aTRAM定向组装目标序列

作者: 惊鸿影 | 来源:发表于2021-12-04 21:44 被阅读0次

利用aTRAM定向组装目标序列
序列组装
序列组装
BUSCO 安装备忘
常用转录组组装软件集合
nanopore组装序列纠错
「Bionano系列」光学图谱混合组装应该怎么做？
基因组结构注释
序列组装策略：核心是比对
Abyss:基于布隆过滤器的基因组组装软件

在系统发育中，我们往往只需要目标基因来进行系统发育重建，一些数据量大的基因组组装起来非常耗时耗资源，可以使用定向组装的方法来组装我们需要基因。
一种更快、可能更准确的选择(Kucuk et al. 2017)是只对感兴趣的基因组区域进行局部组装。针对这种方法，已经开发了一些工具，包括 aTRAM (Allen et al. 2018)和Kollector(Kucuk et al. 2017)，它们都使用一组查询序列来初始识别对应于目标区域的reads。重要的是，查询序列集可以来自另一个物种的基因组，特别是在aTRAM的情况下，它允许氨基酸序列作为输入，这个其他物种甚至不需要与目标物种密切相关。
aTRAM比Kolllector需要跟多的资源，但是依赖的软件包更容易安装。
aTRAM("automated target restricted assembly method")，它使用各种可用的方法执行参考引导的局部从头装配。适用于需要查询下一代序列(NGS)数据进行基因序列查询的各种任务，如系统基因组学。设计理念是模块化和可扩展的，支持四个从头组装的软件:Velvet、Abyss、Trinity和Spades。aTRAM 2是从(NGS)数据中组装位点的aTRAM方法的重大革新。新的代码已经在Python中重新实现，短读库的构造方法也得到了彻底的改进，从而极大地提高了性能和汇编性能。

软件安装

下载地址 [aTRAM]
aTRAM本身很容易安装，因为它是用Python3编写的。在aTRAM github存储库中描述了安装过程，但是您可以跳过关于虚拟环境的说明中的部分，只需使用下面的两个命令下载最新版本的aTRAM并安装所需的Python库

  git clone https://github.com/juliema/aTRAM.git
  python3 -m pip install --user -r aTRAM/requirements.txt

也可以使用conda安装

conda env create -f environment.yml
conda activate aTRAM

1.2安装配套软件

使用aTRAM必须安装的一些配套软件，

1.2.1 BLAST version 2.7.1

1.2.2 Velvet、Trinity、Abyss、SPAdes四个组装软件选一，用来组装目标序列，下载地址如下。

Velvet
Trinity, version 2.5.1
Abyss, version 2.0.2
SPAdes, version 3.11.1

2 使用

2.1文库构建

使用aTRAM要先使用atram_preprocessor.py构建目标原始序列的文库。如果是压缩文件一定要先解压再使用，不然就会报错。

使用——blast-db选项定义新的库名。它由路径和库前缀本身组成。这个程序将添加后缀来区分不同的数据库文件。然后给它你的fastq文件。您可以列出正向和反向读取文件，或者将它们放在一个文件中，并使用——mixed-ends选项。

atram_preprocessor.py
--blast-db=path_to_atram_library/LIBRARY_PREFIX
--end-1=path_to_reads/read_1.fastq
--end-2=path_to_reads/read_2.fastq
下面是我用的数据

python3 /aTRAM/atram_preprocessor.py -b SRS7102751 --end-1 SRS7102751_1.clean.fastq --end-2 SRS7102751_2.clean.fastq
#-b 后为输出文件的名字 --end-1 和 --end-2后为输入的正反向的原始序列文件

2.2 组装目标loci

需要参数
*1、从预处理器中给它相同的——blast-db选项。

2、需要组装的参考序列
3、从velvet, trinity, abyss, or spades 四个软件中选择一个作为组装软件。
4、输出文件名--output-prefix与目录部分和库前缀本身的--blast-db-prefix作用类似。
输入示例

atram.py \
  --blast-db=path_to_atram_library/LIBRARY_PREFIX \
  --query=path_to_reference_loci/Locus.fasta \
  --assembler=ASSEMBLER_CHOICE \
  --output-prefix=path_to_output/OUTPUT_PREFIX