(1) 组装:GetOrganelle
Manual提供了三种参数配置模式:均衡、草图、内存经济型(慢速)模式。
Manual: https://github.com/Kinggerm/GetOrganelle/wiki
Toturial: https://github.com/Kinggerm/GetOrganelle
GetOrganelle组装结果包含两个*path_sequence.fasta文件,是因为SSC正向/逆向在任意被子植物中均可能存在[1],使用哪一个用于后续分析的选择依据可以是参考基因组或NCBI中较多上传的那一种SSC方向的组装。
具体而言,利用Gepard软件实现[2],安装后,需在java环境下运行(windows下运行很方便)。该软件用于两条序列的共线性分析,输出二维点图。命令行的使用参考:Gepard Linux Command line mode
Fig. 2 REF of Cas_hy vs. cas004-1
先前听说GetOrganelle所得标注为graph1.1的即为SSC正确方向,目前看来并不一定,一般选用图一的序列,然而我得到的graph1.1与参考比较如图2所示。分析操作参考B站。
组装准确性检验:①多软件多次组装,互相比较;②CSDN博主提供了一种基于测序质量的逆向组装检验思路[2]。
(2) 软件注释:PGA
Toturial: https://github.com/quxiaojian/PGA
中文教程(开发者):https://www.jianshu.com/p/6ac8a9fad9c9?native.theme=1
(3) 完善注释:Geneious
之所以需要完善注释结果,首先是因为不同物种拥有的基因本身可能不同,其次是一些序列区域可能存在模棱两可的启动子或终止子,软件无法断定哪一个位置是基因的起点或终点,另有一些属于程序算法误差,因此需对此核对。即——
① PGA的.log文件可能显示有个别基因没有注释出来:用Geneious将参考中的该基因筛选出来,然后以组装序列为参考,blastn该基因,如果存在高一致性区域,则查看碱基位,利用Geneious手动添加注释[5]。
② PGA的.log文件可能显示某基因启动子或终止子不是常用密码子之类:我的做法是利用Geneious查看参考基因组该基因的起始与终止区序列,手动修改。
③ 其他错误:具体问题具体分析。
(4) ……(待续)
参考文献:
[1] Sources of inversion variation in the small single copy (SSC) region of chloroplast genomes: https://bsapubs.onlinelibrary.wiley.com/doi/epdf/10.3732/ajb.1500299
[2] GENOME PAIR RAPID DOTTER (GEPARD): https://cube.univie.ac.at/gepard
[3] 如何检查叶绿体基因组组装结果的准确性v1:https://blog.csdn.net/weixin_43362619/article/details/120707968
[4] 叶绿体基因组的GetOrganelle组装、批量任务和结果合并–3. GetOrganelle多个组装结果的合并:https://www.jianshu.com/p/b31304beebe0
[5] 叶绿体基因组注释PGA篇:https://blog.csdn.net/salty_fish_xu/article/details/127469339
网友评论