美文网首页生信相关
基因组的重头组装

基因组的重头组装

作者: lizg | 来源:发表于2018-11-26 22:14 被阅读45次

1. de novo assembly

De Bruijn 图是目前二代测序序列最常用的拼接算法,该算法将已经非常短的reads再分割成更多个kmer短序列(k 小于reads 序列的长度),相邻的kmers序列通过(k-1)个碱基连接到一起(即每次只移动一个位置),进而降低算法计算重叠区域的复杂度,降低内存消耗。
常用的短序列拼接软件有:SPAdes、Velvet、SOAPdenovo、Abyss、MasuRCA

SPAdes的安装

python环境的安装,推荐安装Anoconda,可以根据需要,配置切换不同的python环境。

wget https://repo.anaconda.com/archive/Anaconda3-5.3.1-Linux-x86_64.sh 
bash Anaconda3-5.3.1-Linux-x86_64.sh 

创建python2的环境

conda create --name python27 python=2.7 -y

创建python3的环境

conda create --name python34 python=3.4 -y

激活python3 or python2

conda activate python=3.4/2.7
激活python环境.png

安装SPAdes软件

wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
mkdir ~/BioSofts/spades
tar -zvxf ~/SPAdes-3.12.0-Linux.tar.gz -C ~/BioSofts/spades/
~/BioSofts/spades/SPAdes-3.12.0-Linux/bin/spades.py -h
echo 'export PATH=~/BioSofts/spades/SPAdes-3.12.0-Linux/bin:$PATH'>> ~/.bashrc
source ~/.bashrc
spades.py -h
SPAdes

拼接基因组数据的情况

– 仅有一个 library 数据 (SE、PE、ME)
– 有多个 paired-end library 数据
– 有多个 mate-paired library 数据
– 有PACBIO 数据
– 有已拼接的Contig数据

仅有一个 library 数据 (SE、PE、ME)

--12 file_name:12 表示后面接的文件是交叉融合的 paired 数据。
-1 file_name:1 表示 forward 数据
-2 file_name:2 表示 reverse数据
-s file_name:s 表示 single 数据, 也用于输入 PacBio CCS reads

有多个 paired-end library 数据的情况

--pe{int}-12 编号为 int 的 library 的交叉融合后的paired 数据。int 取值只能是 1,2,3,4,5 ,下同。
--pe{int}-1 编号为 int 的 library 的 forward 数据
--pe{int}-2 编号为 int 的 library 的 reverse 数据
--pe{int}-s 编号为 int 的 PE 的 unpaired数据
--pe{int}-{fr|rf|ff} 编号为 int 的 PE数据的方向,默认为 --pe{int}-fr

有多个 mate-paired library 数据

--mp{int}-12 编号为 int 的 library 的交叉融合后的paired 数据
--mp{int}-1 编号为 int 的 library 的 forward 数据
--mp{int}-2 编号为 int 的 library 的 reverse 数据
--mp{int}-{fr|rf|ff} 编号为 int 的 library 的数据的方向,默认为 --mp{int}-rf

有PacBio 数据

选用--pacbio 参数

有已拼接contig的情况

--trusted-contigs:– 输入可信度高的 contigs,用于 graph construction,
gap closure 和 repeat resolution
--untrusted-contigs:– 输入可信度较低的 contigs, 用于gap closure 和
repeat resolution

运行测试代码

spades.py --careful --pe1-1 ~/Seqs/test_7942raw_1.fq.gz --pe1-2 ~/Seqs/test_7942raw_2.fq.gz -o ./SPAdesout_7942_new
2018-11-26 20-24-58屏幕截图.png

2.序列拼接评价软件QUAST

安装quast

tar -zvxf quast-5.0.0.tar.gz -C ~/BioSofts/
echo 'export PATH=$PATH:~/BioSofts/quast-5.0.0/'>>~/.bashrc
source ~/.bashrc

使用quast

quast.py ~/Seqs/SPAdesout_7942_new/contigs.fasta -o ~/Seqs/SPAdesout_7942/quast_out

quast报告

2018-11-26 22-11-04屏幕截图.png
report.png

相关文章

  • 基因组的重头组装

    1. de novo assembly De Bruijn 图是目前二代测序序列最常用的拼接算法,该算法将已经非常...

  • Bacteria genome denovo assembly

    细菌基因组组装金标准:GAGE-B 组装软件的选择 细菌基因组组装的目标不同于大型生物基因组的组装,大型基因组组装...

  • 常用转录组组装软件集合

    转录组组装软件 基因组组装 基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列...

  • 基因组结构注释

    1. 组装基因组质控 得到组装好的基因组序列之后,首先要使用多种方法评估组装质量。这里用到2款可用于基因组组装质量...

  • 基因组 组装教程 (T2T)

    导读 本文将介绍T2T基因组,并提供一份基因组组装的资料,其中包含:基因组组装数据和组装策略介绍;染色体水平基因组...

  • 「干活」基因组组装 学习笔记 - 入门知识点和Genome Su

    基因组组装学习笔记(一) 基因组组装的前期工作:需要掌握什么知识点? 1)基因组大小 / genome size:...

  • 02-Hi-C辅助基因组安装

    基因组组装 基因组是怎么组装的,目前的方法有什么局限性?为什么要进行基因组组装?是因为目前的测序方法,无论是一代、...

  • 基于参考基因组的基因组组装和注释

    将基因组组装到染色体水平无非就是两种方式: 独立组装(de novo); 基于参考基因组的组装(reference...

  • 纯二代测序从头组装基因组

    基因组组装 基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表...

  • 基因组组装----SOAPdenovo2

    1.基因组组装的流程 基因组组装的大概流程如下: (1) 测序得到raw reads序列。 (2) Reads质量...

网友评论

    本文标题:基因组的重头组装

    本文链接:https://www.haomeiwen.com/subject/pskiqqtx.html