美文网首页线粒体基因组叶绿体DNA『三代测序』
使用GetOrganelle软件组装叶绿体基因组

使用GetOrganelle软件组装叶绿体基因组

作者: 小明的数据分析笔记本 | 来源:发表于2021-02-09 20:29 被阅读0次

    今天的推文简单介绍一下使用GeOrganelle这款软件利用全基因组重测序数据组装叶绿体基因组的过程

    现在做植物的叶绿体基因组基本上都是直接以新鲜叶片做材料,提取总DNA测序,构建二代测序文库,然后利用现成的软件组装叶绿体基因组,省去了提取叶绿体的步骤

    利用总DNA测序的数据组装叶绿体基因组的软件很多,有一篇综述介绍这些工具

    https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02153-6

    image.png

    今天这篇推文我使用 GetOrganelle 这个软件,软件的Github链接 https://github.com/Kinggerm/GetOrganelle

    对应的论文

    https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02154-5

    image.png

    软件的github主页对软件的使用方法介绍的很详细,这款软件是昆明植物所的老师开发的,还开设了qq群进行答疑,qq群号在gitbub的主页末尾可以看到

    安装直接使用conda,非常容易

    conda install -c bioconda getorganelle
    

    想要在linux系统下使用conda命令需要安装miniconda或者Anaconda3,我之前录制过一期视频介绍linux系统安装 Anaconda3,不熟悉的可以找来看看
    https://www.bilibili.com/video/BV1Ft4y1e7w2

    软件安装好以后还得下载参考基因组,运行如下命令


    image.png

    用到的命令是get_organelle_from_reads.py,使用到的参数有

    • -1 -2 分别制定双端测序数据的路径

    • -o 制定输出文件的文件名

    • -R -k 具体是什么意思我还不知道,-R按照帮助文档直接设置15应该就可以,-k后面接的数字也可以按照他帮助文档的来设置,现在双端测序通常是150bp,这个-k参数直接设置105和121就可以,这个数字少一点,速度应该会快一点。

    • -F 指定参考,如果是叶绿体基因组后面直接跟 embplant_pt 就可以

    因为叶绿体基因组的拷贝数高,基本上2G的数据量就够组装得到完整基因组用的了。所以直接用head命令取全基因组测序数据的前2千万行就够了

    head -n 20000000 data_R1.fastq > R1.fastq
    head -n 20000000 data_R2.fastq > R2.fastq
    

    最后是组装

    get_organelle_from_reads.py -1 R1.fastq -2 R2.fq -o plastome_output -R 15 -k 105,121 -F embplant_pt
    

    如果组装成功最后会得到两条序列,这两条序列差别在小单拷贝区方向不同,我自己的处理方式是选一些近缘的参考叶绿体基因组来构建进化树,去掉枝长明显过长的那一个。

    欢迎大家关注我的公众号
    小明的数据分析笔记本

    公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记!

    相关文章

      网友评论

        本文标题:使用GetOrganelle软件组装叶绿体基因组

        本文链接:https://www.haomeiwen.com/subject/qypcxltx.html