美文网首页
getorganelle

getorganelle

作者: 路人里的路人 | 来源:发表于2024-09-03 17:28 被阅读0次

    1.安装getorganelle

    conda create -n getorganelle python=3.6.8
    #创建getoganelle的环境,可通过python3 -V查看当前的python版本,使用系统中存在的python版本
    conda install -n getorganelle -c bioconda getorganelle=1.7.7
    #在miniconda3上安装指定版本的getorganelle
    

    2.安装叶绿体基因组等数据库

    get_organelle_config.py --add embplant_pt
    #安装叶绿体基因组等数据库(植物叶绿体基因组:embplant_pt,植物线粒体基因   组:embplant_mt,植物核核糖体DNA片段:embplant_nr)
    

    小插曲:在安装参考基因组时发现报错:ERROR: Blast is not available!
    当时以为是blast没有安装,安装了blast依然报错,尝试在打开getorganelle的情况下查看blast版本blastn -V,发现进一步显示为blastn: error while loading shared libraries: libnsl.so.1: cannot open shared object file: No such file or directory
    这说明是libnsl.so.1这个库没有存在于getorganelle这个软件的环境的,进入目录/home/monkeyflower/miniconda3/envs/getorganelle/lib查找这个库,发现里面有个libnsl.so.3的库,直接改掉这个库的名称,发现可以运行了。

    3.运行getorganelle

    先将需要拼接的序列文件传输到/home/monkeyflower/bioworkplace目录下(最好每次建一个单独的文件夹以保存运行结果)

    cd /home/monkeyflower/bioworkplace
    conda activate getorganelle
    #激活软件
    

    4.拼接代码

    get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 21,45,65,85,105,127 
    #文件名不得有任何空格
    -1和-2     正向和反向测序原始数据文件(如果是单向测序,-u)
    -F         设定要组装的基因组类型
    -o         结果输出保存的目录(文件夹)名称
    -R         提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)
    -t         并行使用 CPU 的数量(多核可提速),默认值是1
    -k         调用SPAdes进行 denovo组装的k-mer,数值必须是奇数,最大值是127
    也可使用以下代码可缩短运行时间
    get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68 
    

    5.拼接不成环解决办法

    由于getorganelle在使用SPAdes拼接得到的assembly_graph.fastg时会对其进行精简结果会导致拼接结果无法成环,如下图所示:该序列有多个片段组成,却没有成环 图一

    发现可以先使用SPAdes对测序数据进行组装以获得assembly_graph.fastg文件,对该文件再使用Getorganelle进行拼接即可。具体流程如下:

    5.1 SPAdes辅助拼接

    5.1.1 SPAdes安装

    软件安装

    conda create -n spades
    conda activate spades
    conda install -c bioconda spades=3.15.5
    #创建环境并安装指定版本的的spades
    

    基本使用命令

    spades.py -1 left.fq.gz -2 right.clean.fq.gz -o outputname -t 16
    

    -1/2:双端测序文件
    -o:输出文件目录
    -t:最大允许使用线程数,默认为1

    5.1.2 Getorganelle运行命令

    get_organelle_from_assembly.py -g assembly_graph.fastg -F embplant_pt -o output-plastome -t 16
    

    -g:SPAdes组装得到的FASTG的assembly graph
    -F:设定要组装的基因组类型
    -o:输出文件目录
    -t:最大允许使用线程数
    拼接结果基本都能成环,如下图所示:

    图二

    5.2 修改有关参数

    5.2.1调整-w参数

    如果服务器的内存足够,那么减少word(- w)参数。如果在命令中没有特意指出-w参数,则程序会自动估计,在get_org.log.txt中会有记录,如果估计的-w大小是105,可以尝试减小为95。-w的取值范围一般在65 ~ 105之间。

    5.2.2增加--max-reads参数

    --max-reads MAX_READS
                            Maximum number of reads to be used per file. Default:
                            1.5E7 (-F embplant_pt/embplant_nr/fungus_mt/fungus_nr); 7.5E7
                            (-F embplant_mt/other_pt/anonym); 3E8 (-F animal_mt)
    

    陆生植物默认参数为1.5E7,应该提升一下读数。

    5.2.3添加参考物种

    如果目标基因组是动物有丝分裂组或者reads质量较差,或者目标覆盖度极不均匀,则使用与之紧密相关的细胞器基因组作为seed( -s )。对于动物基因组组装或没有紧密相关seed的情况,使用前一次运行的输出作为第二次运行的seed。

    相关文章

      网友评论

          本文标题:getorganelle

          本文链接:https://www.haomeiwen.com/subject/elakljtx.html