美文网首页NGS基因组组装基因组组装
基因组组装项目的十二步建议

基因组组装项目的十二步建议

作者: 生物信息与育种 | 来源:发表于2021-02-01 22:34 被阅读0次

    1. 建立项目团体

    多机构合作,数据和利益共享。

    2. 收集目标基因组信息

    考虑的因素:
    基因组大小、倍性、杂合性、GC含量和重复。

    数据库查询:
    fungi (http://www.zbi.ee/fungalgenomesize)
    animals (http://www.genomesize.com)
    plants (http://data.kew.org/cvalues)

    估计:
    流式细胞仪和kmer频率分布(建议两种都用)。

    3. 设计最佳实验流程

    高质量染色体水平的参考基因组是关键。
    质控:reads长度、错误率、深度、覆盖度、文库等。

    有钱:PacBio/ONT + Hi-C
    没钱:Illumina/10X GC(genomics chrominum) + Hi-C

    从头组装:一般是完全denovo。
    参考基因组辅助:利用近缘物种作为参考和指导进行组装,该方法对数据和计算量较小,但是现有参考基因组可能有错误和重排。

    目的:构建一致的单倍型或定相单倍型的染色体水平组装。一般的组装是将2条序列整合为1个单倍型,因此不能得到二倍体信息。

    选择合适的工具和流程:考虑组装的质量和连续性,包括速度和敏感性。

    三代组装工具网站:
    LRS-DB https://long-read-tools.org/

    常用的组装工具软件:


    image.png

    4. 选择最佳测序平台和准备文库

    文库制备的两个考虑:目标基因组大小、测序样本数。

    reads: 短(Illumina, 454, SOLiD, MGI, Ion Torrent),长(ONT and PacBio)或混合(hybrid) read

    5. 选择最佳DNA来源和提取方法

    不含杂质。
    最低量要求:
    Illumina 和 10xGC > 3 ng, PacBio > 20 μg, ONT > 1 μg, BioNano > 200 ng, Dovetail > 5 μg 。
    三代平均DNA长度>25 kb。
    使用核与细胞器DNA比率更高的组织。
    纯化DNA的测量/定量可使用分光光度法和基于荧光的方法。

    6. 检查计算资源与要求

    数据量、基因组大小、杂合率和倍性等对内存
    需求、CPU数量和计算成本成几何增加。
    可选择云计算合理分配。

    7. 选择最佳计算设计和流程

    三种选择:
    (1)最大化内部员工或协作
    (2)从服务外包提供者
    (3)模拟具有不同设置的数据

    8. 基因组组装

    推荐的基因组组装和注释流程图:


    image.png

    强烈建议使用BioNano和Hi-C数据来达到染色体级组装,因为这两种方法可通过验证初始组装的完整性,纠正方向错误,排序scaffolds来完善结果。

    9. 在注释前检查组装质量

    在鸟枪法时代,denovo依赖于于算法和试验设计。reads长度、文库大小、reads准确性和基因组复杂性等决定了组装的准确性和连续性。

    质量评估:

    • 组装大小
    • 组装连续性(N50,NG50,NA50,NGA50)
    • 重叠群contig数目和(平均)长度
    • 组装可能性得分(通过reads比对每一个候选组装来计算)
    • 组装完整度(BUSCO得分或RNAseq mapping)
    • 其他:QTL、ESTs、荧光原位杂交、BAC克隆、染色体水平遗传图谱。

    三个最重要的指标:连续性、准确性、完整性

    方法:三代/10XGC,BioNano,Hi-C数据;软件LR_Gapcloser。

    10. 基因组注释

    注释内容:

    • 识别非编码区:重复序列、转座子。
    • 识别编码区(称为基因预测):内含子、外显子、CDS、5/3 UTR。
    • 附加这些元素的生物学信息。

    注释的方法:

    • 手动注释:耗时昂贵,需要获得准确的基因模型和基因集。
    • 自动注释:置信度和可靠性低(通常基于直系同源物种,不同数据库数据不同)。
    • 半自动注释:集成不同的结果获得一致的注释,平衡了手动和自动方法。

    结合比对EST、RNAseq、蛋白序列作为外部基因组组装证据。

    结合方法和结果(尤其是MAKER,BRAKER和String-Tie)可以有效地提高注释预测的数量和准确性(尤其是对孤儿基因和其他年轻基因)。

    功能注释GO等。

    在线基因组注释工具:

    image.png

    命令行注释工具:

    image.png
    image.png

    非编码RNA注释:

    image.png

    重复序列注释:

    image.png

    11. 建立一种可查询和可共享的输出格式

    公共数据库 or 自建数据库?

    12. 分发社区来优化组装和注释

    不同版本软件结果不同,为确保稳定,数据可重复,需持续维护和更新。

    植物社区示例:
    https://nbenth.com/annotator/index,
    https://solgenomics.net
    https://www.helmholtz-muenchen.de/pgsb

    动物社区示例:
    http://www.slimsuite.unsw.edu.au/servers/apollo.php
    https://bovinegenome.elsiklab.missouri.edu
    http://www.gmgi.org/genomics-fish-shellfish
    https://www.sanger.ac.uk/science/data/vertebrate-genomes-sequencing

    对于初学者的基因组组装和注释流程的建议

    不建议纯二代组装。
    纯三代或混合组装方法:


    image.png

    此文太多废话,慎读~~~

    文献来源: Hyungtaek JungID et al. Twelve quick steps for genome assembly and annotation in the classroom. PLoS Comput Biol. 2020 Nov 12;16(11):e1008325.

    相关文章

      网友评论

        本文标题:基因组组装项目的十二步建议

        本文链接:https://www.haomeiwen.com/subject/emljtltx.html