美文网首页
【文献阅读】26个不同的玉米基因组组装、注释及比较分析

【文献阅读】26个不同的玉米基因组组装、注释及比较分析

作者: 花生学生信 | 来源:发表于2023-12-18 09:30 被阅读0次

    文献分享:De novo assembly, annotation, and comparative analysis of 26 diverse maize genomes - PMC (nih.gov)

    该研究的目标是生成高质量的玉米基因组序列,并对其进行注释,以了解玉米基因的功能和结构。研究人员报告了26个玉米近交系的新基因组组装、转录组、注释和甲基化组的情况。在这些不同的基因组中,泛基因的数量超过了103,000个,其中大约三分之一在所有的基因型中发现。结果表明,玉米的古老四倍体特征到今天仍在通过分化而继续退化。在重复阵列上出色的相邻性和中心粒的完整注释揭示了主要细胞学标志的额外变异。
    研究人员表明,将结构变异与单核苷酸多态性相结合可以提高定量绘制研究的能力。研究人员还记录了DNA甲基化水平上的变异,并证明非甲基化区域富含有助于表型变异的顺式调控元件。
    随后,研究人员将测序数据进行了去新组装,以生成每个玉米基因组的全长序列。然后,他们利用生物信息学方法对这些全长序列进行了注释,确定了每个基因的位置、功能和结构。
    最后,研究人员进行了玉米基因组的比较分析。他们比较了这26个基因组之间的相似性和差异,并确定了其中的共有基因和特定基因。此外,研究人员还研究了这些基因组中的遗传多样性,以及与玉米农艺性状相关的基因。
    通过该研究,研究人员得到了关于这26个玉米基因组的详细信息,包括基因组的结构、功能和遗传多样性。这些结果对于进一步的玉米基因组学研究和玉米育种具有重要意义。

    值得借鉴的地方

    SFS频谱

    SFS是Unfolded Site Frequency Spectrum的缩写。位点频谱(Site Frequency Spectrum)是一种用于描述群体遗传变异的统计工具。位点频谱分析可用于研究不同等位基因在群体中的频率分布情况。
    具体而言,位点频谱展示了在一个群体中不同等位基因的数量和频率。它通常以频率为横轴,以等位基因的数量或频率密度为纵轴。位点频谱可以帮助研究者了解不同等位基因的出现频率及其在群体中的分布情况。
    展开的位点频谱(Unfolded SFS)是指将位点频谱在不同等位基因频率下展开的结果。通过展开位点频谱,可以获得更详细的等位基因频率分布信息,有助于揭示不同等位基因的进化历程和群体遗传结构。
    对于研究外显子缺失和非编码SNPs的SFS,研究者使用高粱作为参考基因组,并分析这些变异在群体中的频率分布情况,以了解它们在遗传变异和进化中的作用。
    Inferring demography - Evolution and Genomics (evomics.org)

    Unfolded site frequency spectrum (SFS) of segregating exon loss and non-coding SNPs (genic and non-genic) using sorghum to define the ancestral state.
    外显子数量相关性图
    Heatmap of the number of co-retained exons between any two NAM lines.Lines with mixed ancestry (M37W, Mo18W, Tx303) are excluded. Colors indicate the Z-score (the difference measured in standard deviations between a single pairwise comparison and all others in the row).

    Z得分(Z-score)是用于度量一个数据点与平均值之间的差异性的统计量。它表示一个数据点相对于平均值的偏离程度,通过计算数据点与平均值的差异除以标准差得到。
    Z得分的计算公式为:
    Z = (X - μ) / σ
    其中,X是数据点的值,μ是数据集的平均值,σ是数据集的标准差
    Z得分可以告诉我们一个数据点相对于整个数据集的分布情况。如果一个数据点的Z得分为正,表示该数据点高于平均值;如果Z得分为负,表示该数据点低于平均值;如果Z得分为0,表示该数据点与平均值相等。
    在热图中,Z得分用于表示某个特定数据点与整行或整列中的其他数据点之间的差异。它可以帮助我们识别与其他数据点相比较具有显著差异的数据点,从而揭示数据集中的模式或异常情况。在这种情况下,颜色编码用于表示Z得分的大小,不同的颜色代表不同的差异程度。

    着丝粒注释

    共线性区域的鉴定

    共线性区域定义

    Inferring synteny between genome assemblies: a systematic evaluation | BMC Bioinformatics | Full Text (biomedcentral.com)

    对串联重复基因的处理

    作者认为由于串联重复序列的最近起源和高度相似的序列,很难确定其存在与否。


    基因有无的处理

    GMAP全长转录组之参考基因组比对丨全长转录组之参考基因组比对_gmap 比对-CSDN博客

    GMAP是一种用于将转录组序列与参考基因组进行比对的工具。它可以将转录组序列与参考基因组进行比对,以确定转录组序列在参考基因组上的位置和对应的基因。通过这种比对,可以分析转录组中的基因结构、寻找SNP和插入/缺失等变异等。
    使用GMAP工具将转录组序列与参考基因组进行比对。比对结果将包括每个转录本的位置、外显子和内含子的边界以及可能的剪接变异等信息。用于将转录组序列与参考基因组进行比对,从而揭示转录组的基因结构和功能。它在基因组学和转录组学研究中具有重要的应用价值。

    相关文章

      网友评论

          本文标题:【文献阅读】26个不同的玉米基因组组装、注释及比较分析

          本文链接:https://www.haomeiwen.com/subject/dmjogdtx.html