有很多伙伴,都在进行基因组的组装,但是具体需要干什么,从什么地方开始,下一步又应该做什么?并不是很了解。
我用下面一份流程图来简单的说一下,整个基因组组装应该做些什么。也是我组装多个基因组之后,梳理的流程,或许也有一些欠缺,欢迎大家指出!
最基本的流程就是:
1.明确自己的物种信息,包括物种倍性、染色体条数、大概的基因组大小;
2.得到自己的测序数据,明确自己的数据是PacBio HiFi还是Nanopore数据;
3.选择对应的软件开始进行组装,不过现在的组装软件基本上都支持多种数据类型,只是使用过程中的一些参数不同而已;
4.如果你得到的是最原始的测序下机数据,也就是我们得到的是bam文件的数据类型,那么做的第一步就是将bam文件转为fastq/fasta文件;因为软件不支持输入文件为bam文件;
5.通过各种软件进行组装,最终得到contig文件,进行各项评估,查看各项指标是否满足需求或者说质量是否高。例如contigN50的统计、BUSCO完整性的评估、GC含量的统计等等。(如果你的contig冗余太高,还要进行去冗余处理)
6.在通过软件,例如AllHiC、RagTag等;加上辅助数据,例如Hic数据,参考基因组等,对你的contig序列进行整合,到达scaffold水平,也就是我们说的染色体水平;并绘制一个染色体的共线热图
7.得到scaffold水平的基因组之后就可以开始进行,基因的结构注释,得到一个完整的一套基因组文件(genome/gtf/gff3/cds/pep)文件;
8.进行基因组的TE注释,用EDTA软件进行,得到基因组的LTR信息;
9.对组装出来的基因组,进行评估,大抵上和评估contig的时候差不多;但是BUSCO这时候评估的就是蛋白序列(pep);
10.统计各项指标:基因数目、外显子数目、内含子数目、miRNA数目、tRNA数目等。
若有遗漏,欢迎大家指出和纠正!
网友评论