基因组组装项目的十二步建议

作者: 生物信息与育种 | 来源:发表于2021-02-01 22:34 被阅读0次

1. 建立项目团体

多机构合作，数据和利益共享。

2. 收集目标基因组信息

考虑的因素：
基因组大小、倍性、杂合性、GC含量和重复。

数据库查询：
fungi (http://www.zbi.ee/fungalgenomesize)
animals (http://www.genomesize.com)
plants (http://data.kew.org/cvalues)

估计：
流式细胞仪和kmer频率分布（建议两种都用）。

3. 设计最佳实验流程

高质量染色体水平的参考基因组是关键。
质控：reads长度、错误率、深度、覆盖度、文库等。

有钱：PacBio/ONT + Hi-C
没钱：Illumina/10X GC(genomics chrominum) + Hi-C

从头组装：一般是完全denovo。
参考基因组辅助：利用近缘物种作为参考和指导进行组装，该方法对数据和计算量较小，但是现有参考基因组可能有错误和重排。

目的：构建一致的单倍型或定相单倍型的染色体水平组装。一般的组装是将2条序列整合为1个单倍型，因此不能得到二倍体信息。

选择合适的工具和流程：考虑组装的质量和连续性，包括速度和敏感性。

三代组装工具网站：
LRS-DB https://long-read-tools.org/

常用的组装工具软件：

image.png

4. 选择最佳测序平台和准备文库

文库制备的两个考虑：目标基因组大小、测序样本数。

reads：短(Illumina, 454, SOLiD, MGI, Ion Torrent)，长(ONT and PacBio)或混合(hybrid) read

5. 选择最佳DNA来源和提取方法

不含杂质。
最低量要求：
Illumina 和 10xGC > 3 ng, PacBio > 20 μg, ONT > 1 μg, BioNano > 200 ng, Dovetail > 5 μg 。
三代平均DNA长度>25 kb。
使用核与细胞器DNA比率更高的组织。
纯化DNA的测量/定量可使用分光光度法和基于荧光的方法。

6. 检查计算资源与要求

数据量、基因组大小、杂合率和倍性等对内存
需求、CPU数量和计算成本成几何增加。
可选择云计算合理分配。

7. 选择最佳计算设计和流程

三种选择：
（1）最大化内部员工或协作
（2）从服务外包提供者
（3）模拟具有不同设置的数据

8. 基因组组装

推荐的基因组组装和注释流程图：

image.png

强烈建议使用BioNano和Hi-C数据来达到染色体级组装，因为这两种方法可通过验证初始组装的完整性，纠正方向错误，排序scaffolds来完善结果。

9. 在注释前检查组装质量

在鸟枪法时代，denovo依赖于于算法和试验设计。reads长度、文库大小、reads准确性和基因组复杂性等决定了组装的准确性和连续性。

质量评估：

组装大小
组装连续性（N50，NG50，NA50，NGA50）
重叠群contig数目和（平均）长度
组装可能性得分（通过reads比对每一个候选组装来计算）
组装完整度（BUSCO得分或RNAseq mapping）
其他：QTL、ESTs、荧光原位杂交、BAC克隆、染色体水平遗传图谱。

三个最重要的指标：连续性、准确性、完整性。

方法：三代/10XGC，BioNano，Hi-C数据；软件LR_Gapcloser。

10. 基因组注释

注释内容：

识别非编码区：重复序列、转座子。
识别编码区（称为基因预测）：内含子、外显子、CDS、5/3 UTR。
附加这些元素的生物学信息。

注释的方法：

手动注释：耗时昂贵，需要获得准确的基因模型和基因集。
自动注释：置信度和可靠性低（通常基于直系同源物种，不同数据库数据不同）。
半自动注释：集成不同的结果获得一致的注释，平衡了手动和自动方法。

结合比对EST、RNAseq、蛋白序列作为外部基因组组装证据。

结合方法和结果（尤其是MAKER，BRAKER和String-Tie）可以有效地提高注释预测的数量和准确性（尤其是对孤儿基因和其他年轻基因）。

功能注释GO等。

在线基因组注释工具：

image.png

命令行注释工具：

image.png

非编码RNA注释：

image.png

重复序列注释：

image.png

11. 建立一种可查询和可共享的输出格式

公共数据库 or 自建数据库？

12. 分发社区来优化组装和注释

不同版本软件结果不同，为确保稳定，数据可重复，需持续维护和更新。

植物社区示例：
https://nbenth.com/annotator/index,
https://solgenomics.net
https://www.helmholtz-muenchen.de/pgsb

动物社区示例：
http://www.slimsuite.unsw.edu.au/servers/apollo.php
https://bovinegenome.elsiklab.missouri.edu
http://www.gmgi.org/genomics-fish-shellfish
https://www.sanger.ac.uk/science/data/vertebrate-genomes-sequencing

对于初学者的基因组组装和注释流程的建议

不建议纯二代组装。
纯三代或混合组装方法：

image.png

此文太多废话，慎读~~~

文献来源： Hyungtaek JungID et al. Twelve quick steps for genome assembly and annotation in the classroom. PLoS Comput Biol. 2020 Nov 12;16(11):e1008325.

基因组组装项目的十二步建议

1. 建立项目团体

2. 收集目标基因组信息

3. 设计最佳实验流程

4. 选择最佳测序平台和准备文库

5. 选择最佳DNA来源和提取方法

6. 检查计算资源与要求

7. 选择最佳计算设计和流程

8. 基因组组装

9. 在注释前检查组装质量

10. 基因组注释

11. 建立一种可查询和可共享的输出格式

12. 分发社区来优化组装和注释

对于初学者的基因组组装和注释流程的建议

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

NGS

基因组组装

基因组组装

基因组

组装

基因组组装