美文网首页
getorganelle

getorganelle

作者: 路人里的路人 | 来源:发表于2024-09-03 17:28 被阅读0次

1.安装getorganelle

conda create -n getorganelle python=3.6.8
#创建getoganelle的环境,可通过python3 -V查看当前的python版本,使用系统中存在的python版本
conda install -n getorganelle -c bioconda getorganelle=1.7.7
#在miniconda3上安装指定版本的getorganelle

2.安装叶绿体基因组等数据库

get_organelle_config.py --add embplant_pt
#安装叶绿体基因组等数据库(植物叶绿体基因组:embplant_pt,植物线粒体基因   组:embplant_mt,植物核核糖体DNA片段:embplant_nr)

小插曲:在安装参考基因组时发现报错:ERROR: Blast is not available!
当时以为是blast没有安装,安装了blast依然报错,尝试在打开getorganelle的情况下查看blast版本blastn -V,发现进一步显示为blastn: error while loading shared libraries: libnsl.so.1: cannot open shared object file: No such file or directory
这说明是libnsl.so.1这个库没有存在于getorganelle这个软件的环境的,进入目录/home/monkeyflower/miniconda3/envs/getorganelle/lib查找这个库,发现里面有个libnsl.so.3的库,直接改掉这个库的名称,发现可以运行了。

3.运行getorganelle

先将需要拼接的序列文件传输到/home/monkeyflower/bioworkplace目录下(最好每次建一个单独的文件夹以保存运行结果)

cd /home/monkeyflower/bioworkplace
conda activate getorganelle
#激活软件

4.拼接代码

get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 21,45,65,85,105,127 
#文件名不得有任何空格
-1和-2     正向和反向测序原始数据文件(如果是单向测序,-u)
-F         设定要组装的基因组类型
-o         结果输出保存的目录(文件夹)名称
-R         提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)
-t         并行使用 CPU 的数量(多核可提速),默认值是1
-k         调用SPAdes进行 denovo组装的k-mer,数值必须是奇数,最大值是127
也可使用以下代码可缩短运行时间
get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68 

5.拼接不成环解决办法

由于getorganelle在使用SPAdes拼接得到的assembly_graph.fastg时会对其进行精简结果会导致拼接结果无法成环,如下图所示:该序列有多个片段组成,却没有成环 图一

发现可以先使用SPAdes对测序数据进行组装以获得assembly_graph.fastg文件,对该文件再使用Getorganelle进行拼接即可。具体流程如下:

5.1 SPAdes辅助拼接

5.1.1 SPAdes安装

软件安装

conda create -n spades
conda activate spades
conda install -c bioconda spades=3.15.5
#创建环境并安装指定版本的的spades

基本使用命令

spades.py -1 left.fq.gz -2 right.clean.fq.gz -o outputname -t 16

-1/2:双端测序文件
-o:输出文件目录
-t:最大允许使用线程数,默认为1

5.1.2 Getorganelle运行命令

get_organelle_from_assembly.py -g assembly_graph.fastg -F embplant_pt -o output-plastome -t 16

-g:SPAdes组装得到的FASTG的assembly graph
-F:设定要组装的基因组类型
-o:输出文件目录
-t:最大允许使用线程数
拼接结果基本都能成环,如下图所示:

图二

5.2 修改有关参数

5.2.1调整-w参数

如果服务器的内存足够,那么减少word(- w)参数。如果在命令中没有特意指出-w参数,则程序会自动估计,在get_org.log.txt中会有记录,如果估计的-w大小是105,可以尝试减小为95。-w的取值范围一般在65 ~ 105之间。

5.2.2增加--max-reads参数

--max-reads MAX_READS
                        Maximum number of reads to be used per file. Default:
                        1.5E7 (-F embplant_pt/embplant_nr/fungus_mt/fungus_nr); 7.5E7
                        (-F embplant_mt/other_pt/anonym); 3E8 (-F animal_mt)

陆生植物默认参数为1.5E7,应该提升一下读数。

5.2.3添加参考物种

如果目标基因组是动物有丝分裂组或者reads质量较差,或者目标覆盖度极不均匀,则使用与之紧密相关的细胞器基因组作为seed( -s )。对于动物基因组组装或没有紧密相关seed的情况,使用前一次运行的输出作为第二次运行的seed。

相关文章

网友评论

      本文标题:getorganelle

      本文链接:https://www.haomeiwen.com/subject/elakljtx.html