![](https://img.haomeiwen.com/i29082198/8317fa8ea1bf9229.png)
前一篇推送解读了今年发在NG上的鉴定玉米抗旱基因的文章。文章中一个比较关键的分析是从泛基因组水平鉴定结构变异。作者应用并评估了四款常用的软件:SyRi、Smartie-sv、CuteSV、Sniffle, 四款软件的应用场景和分析原理各不相同。这篇推送选择了SyRi和CuteSV介绍相关的分析流程。
![](https://img.haomeiwen.com/i29082198/5fabc59d5969aec0.png)
SyRi
图1
SyRI (Synteny and Rearrangement Identifier)于2019年发表在GB上(图1),是一款基于组装好的基因组检测两个基因组之间简单变异(如SNP,SV等)及复杂变异(如倒位、易位等)的软件。
图2
输入文件:两个组装好的基因组a.fa和b.fa(图2)
为了符合syri软件的要求,需要确保两个基因组中的同源染色体具有完全相同的染色体ID。因此,建议用户在使用syri软件之前对fasta文件进行预处理,以确保对应于两个基因组的两个fasta文件中的同源染色体具有完全相同的ID。
图3
第一步 通过minimap2软件进行全基因组比对(图3)。
输入文件为两个基因组序列a.fa和b.fa,输出文件为标准的比对后bam文件。
-a指定输出为比对后的sam文件,通过管道转为bam文件。
-x 指定具体的比对设置。
-t 指定线程数。
图4
第二步 运行syri (图4)
输入为第一步比对后的bam文件。
如果不指定-k 保留中间文件,则输出三个文件,分别是.vcf、.summary、.out (TSV格式)
图5
.out文件格式 (图5):
1-ref 基因组(a.fa)的染色体id
2-ref 基因组(a.fa)的起始位置
3-ref 基因组(a.fa)的终止位置
4-ref 基因组(a.fa)的序列
5-query 基因组(b.fa)的序列
6-query 基因组(b.fa)的染色体id
7-query 基因组(b.fa)的起始位置
8-query 基因组(b.fa)的终止位置
9-Unique ID (注释类型+数字)
10-Parent ID (注释类型+数字)
11-注释类型
12-拷贝状态
图6
注释类型包括以下内容(图6),参考自https://www.jianshu.com/p/3571d7019fb7
图7
图8
第三步 通过plotsr软件可视化(图7-8)
--genomes 即指定画图的配置文件,可参考https://github.com/schneebergerlab/plotsr有更丰富的参数设置。
Smartie-sv
Smartie-sv软件也是基于组装好的基因组检测结构变异的软件,该软件的配置过程相对复杂,普及性远不如SyRi,不再赘述。
CuteSV
图9
CuteSV软件(图9)使用三代长读长测序与参考基因组比对以获取结构变异,三代长读长测序相对二代测序,在检测结构变异方面有着无与伦比的优势,且随着测序价格的降低,越来越普及。相对于SyRi可以在不用组装某物种整个基因组的情况下只通过三代测序获得结构变异信息,而且根据这篇玉米NG文章的描述该软件在识别InDel时效果更好。Github参考链接https://github.com/tjiangHIT/cuteSV 可直接通过conda安装。
图10
输入文件包括比对好的bam文件和参考基因组的fa文件,再指定输出文件和目录即可运行(图10)。
图11
对于不同的三代数据,作者也给出了建议的参数设置(图11)。最终输出各种类型变异的位置。
本文使用 文章同步助手 同步
网友评论