MH63RS3和MH63KL1基因组的组装和注释区别:
MH63RS3 MH63KL1
Genome size 395.77Mb 397.71Mb
Number of contigs (close gaps) 12 12
Contig N50 / 31.93Mb
Number of coding genes 39406 文章中说36315个,但是下载的文件中只有35760个
结论:MH63RS3基因组的完整度更高,注释到的基因比MH63RS3少3000多个。MH63KL1的注释主要是用tblastn将MH63KL1基因组与近缘物种的蛋白序列进行比对;MH63RS3的注释主要使用MASKER-P软件完成的。
MH63KL1这篇文章并没有说为什么要重新组装,大致意思是重复序列阻碍着植物高质量基因组的完成,本项工作开发了一个实现MH63gapless genome组装可行的方法。所以,通过我的阅读,我认为MH63KL1这篇文章的关键点是开创了一个新的无gap的组装方法。
MH63KL1的组装:
使用40.7Gb的MH63PacBio HiFi reads对其进行重新组装;使用hifiasm对这些长序列进行重新组装。
Gapless组装-3个步骤:
(1) anchor contigs onto chromosomes:依据indica rice参考基因组R498 ,使用NUCmer或MCScan将contigs 锚定到R498的染色体上;遗传图谱、Hi-C等方法也可以用于锚定Contigs。
(2) linking contig paths to chromosome paths:首先获取每个contig在每条染色体上的位置和方向;如果一个contig和另一个contig位置上是相连的,那么将两个contig连接起来,中间没有gap;最终每条染色体是由一系列的contigs和gaps组成。Map完后,就只剩下3个gap区域,这说明R498是一个非常好的参考基因组,促进了组装。
(3) Finding a unitig for each gap in the string graph:利用Hifiasm生成的读段重叠信息进一步重构了关系图,识别出每个gap之间所有可能的路径,然后为每个gap选择重叠最多的路径,得到了每条染色体从起点到终点的路径。
通过以上三步,获得gapless MH63KL1 genome。
MH63KL1组装结果:
关于组装 MH63KL1
Genome size 397.71Mb
Largest Contig 45.03Mb
Contig N50 31.93Mb
Contig L50 6
评估:
作者使用BWA、samtools、GATK等方法,将MH63KL1与其他15个高质量的水稻基因组(包括MH63RS3、ZS97RS3和R498)进行比较,结论是MH63KL1的作图效率更高,覆盖度更低;MH63KL1包含更少的SNPs,代表重复序列更高的完整度与更少的组装错误。之后,作者使用Benchmarking Universal SingleCopy Orthologs (BUSCO)评估基因区域的完整性,而MH63KL1是16个基因组中完整度最高的。
MH63KL1的注释:
关于注释 方法 结果
TE and other repetitive sequences LTR-finder、RepeatScout、RepeatModeler
Tandem repeats Finder
Gene Anotation A combination of ab initio and homology-based prediction
Tblastn:将七个近缘物种的蛋白序列和MH63基因组进行tblasn比对;然后,the blast hits were analyzed with solar software;GeneWise预测基因结构 ;Full-length cDNAs and ESTs of O. sativa L. indica and full-length cDNAs of O. sativa L. japonica were directly mapped to our MH63KL1 genome and assembled by PASA;Gene models were created by PASA-ab initio gene prediction;
蛋白质功能预测 SwissProt和NR database
蛋白质的结构域预测 InterPro、Pfam database
MH63KL1注释结果:
关于注释 MH63KL1
Number of predicted protein-coding
genes 文章中说36315个,但是下载的文件中只有35760个
Percentage of repeat sequences (%) 41.40
Masked repeat sequence length (Mb) 164.65
MH63RS3 组装方法:
采用七种组装策略如下:
组装工具 特点
Canu v1.8 利用overlap-Layout-Consensus,序列与序列之间的交叠程度,三个步骤:纠错-修剪-组装
FALCON v0.30 二倍体基因组从头组装工具,de novo 三代测序组装工具
MECAT2 是一个很快很快的PacBio组装工具
Flye De novo组装工具,速度也很快
Wtdbg 速度比Flye还要快
NextDenovo
Miniasm
基于以上七种软件的组装结果,使用GPM(Genome Puzzle Master)来整合和优化组装好的contigs。基于HiFi和CLR测序数据,使用GenomicConsensus Arrow算法,对组装好的基因组进行两次polish。基于Illumina测序数据,使用Polish对组装好的基因组进行polish。使用Bionano IrysSolve组装分子to create optical map。
基因组完整性的评估:BUSCO,除此之外,还使用了以下方法进行评估:
Minimap2 Map PacBio HiFi reads and PacBio CLR reads to genome assembly
BWA-0.7.17 Map Illumina reads to genome assembly
BLASTN v2.7.1 Map BES/BAC reads to genome assembly
HiC-Pro v.2.11.1 Hi-C reads to genome assembly
Hisat2 v.2.1.0 Map RNA-sequencing reads to genome assembly
组装结果:
关于组装 MH63RS3
Genome size 395.77Mb
Compared with RS1
(including 36-45Mb additional sequence) 通过填补RS1版本的167个genome gaps,比MH63RS1版本的基因组的大小多了36Mb
纠正了一些之前因基于Nipponbare-IRSGP1.0基因组导致Misoriented和misassembled regions
BUSCO完整性评估 99.88%
MH63RS3 gap-gree基因组组装成功的关键:使用来自多个平台、尖端技术和汇编器的深度覆盖序列数据集的组合。
MH63RS3的注释:
关于注释 方法 结果
TE and other repetitive sequences 使用RepeatMasker with the latest Repbase and TIGR Oryza Repeat Database as libraries,LTR_Finder MH63RS3注释到468675TEs(~182.26 Mb),占基因组的~45.99%
Gene Anotation MASKER-P 59903genes/39406 noTE_loci;在所有注释的基因模型中,92%以上的基因与水稻和其他稻属物种的已知蛋白或功能域具有同源性
Gene encoding TE Annotation 使用TBLASTN在MIPSREdat Poaceae version 9.3数据库中搜索
tRNAs annotation 使用tRNAscan-SE
rRNAs 使用BLASTN对Nipponbare的rRNA序列进行搜索,从而鉴定MH63RS3的rRNA序列
microRNAs and small nuclear RNAs 使用 Rfam数据库进行预测
网友评论