文献
2022
Genome Biology
Genomic insights into the evolutionary history and diversification of bulb traits in garlic
研究背景
大蒜
大蒜是一种很重要的蔬菜、中药甚至香料,营养价值和经济价值很高,食用部分是鳞茎。它的起源、驯化和育种改良历史还不是很清楚。目前,比较广泛认可的说法是大蒜起源于地中海地区、中亚以及西亚,是从野生的长葱驯化而来。
大蒜是二倍体,2n=16,虽然染色体不多,但是很长,单套基因组有16.9G,是拟南芥的160多倍,重复序列多,杂合度大,很难组装。2020年,也是本文的通讯作者刘头明老师,第一次组装了大蒜基因组,发表在MP上。
基因组重测序技术
(1)全基因组重测序:将特定组织或者细胞中的DNA进行随机打碎,构建片段为350bp或者500bp的文库,通过Illumina Hiseq对文库进行高通量测序,从而获得某一个个体所有DNA序列的信息。
(2)简化基因组测序:简化基因组测序简单来说就是用限制性核酸内切酶去切割基因组,最后把我们的目标区域拿来测序,这样能极大地降低测序成本。
常用的简化基因组测序手段有这两种,RAD和GBS,当然除了这两种基本的方法,还有好多延申出来的新方法。
这个表格对几种简化基因组测序做了对比,感兴趣的可以看下这个链接(https://blog.csdn.net/u012110870/article/details/102804240),有更详细的介绍。
结论1 群体结构
Fig 1a
作者从17个国家收集了233份材料(Fig 1a),包括230份大蒜和3份长葱,做了简化基因组测序。都比对到同一版本的大蒜参考基因组上,有意思的是84.3%的大葱的reads也能比对上,说明两者的亲缘关系很近,基因组序列很相似。
Fig 1b
Fig 1c
通过PCA和进化树(Fig 1b-c),可以看到这230份大蒜分成了四个分支,这个橘黄色的10份大蒜和3份大葱距离最近,并且这10份大蒜主要来自大蒜的起源中心中亚地区,表明这10份种质资源在系统发育上比其他种质资源更接近野生种,该类群被指定为起源类群(OG)。另外三个分支按来源分成了中国组1和中国组2和组3,组3就是从中国之外的其他地方收集的材料。
结论2 群体多样性与分化
Fig 1d
作者利用这些简化基因组测序计算了四个亚群的核苷酸多样性和群体分化指数。Fig 1d中每个椭圆里面的黑色数字就是每个亚群的核苷酸多样性pi值,数量级是10的-5次方,都很低很低,黄瓜、蓝莓、水稻一般都在10的-3或者-4次方。四个亚群之间的群体分化指数都比较高,能达到0.3或者0.4以上。
因为现在的分析是基于简化基因组测序,它测的并不是全基因组,所以作者进一步选了10份起源类型,35份CG1和39份CG2做了全基因组重测序。前面提到大蒜的基因组非常大,所以他们虽然只测了84份材料,却产生了14Tb的数据。利用全基因组重测序数据又计算了pi和Fst值,群体分化指数还是比较高,基本和籼稻和粳稻之间的分化差不多。
作者用全基因组重测和简化基因组测序都计算了核苷酸多样性,d图中红色的是全基因组重测序计算的,黑色的是然后发现用GBS计算的,然后发现GBS得到的结果始终小于全基因组重测序结果。
我看了这篇文章的审稿意见和作者回复,作者在第一版manuscript中写道可能是因为限制性核酸内切酶附近的核苷酸更保守导致了这种偏差,但是审稿人不信,审稿人认为是因为GBS得到的位点数过少导致的。然后作者对全基因组重测序数据选取了GBS同样的位点数计算核苷酸多样性,发现确实是因为位点过少导致的这种偏差。
Fig S3
大蒜的食用部分是鳞茎,鳞茎就是一群蒜瓣围绕中间这个柱子构成了一个组合,我们平时所谓的蒜瓣就是一个个一个的鳞芽。不同亚群的鳞茎和鳞芽有明显差异(Fig S3)。中国组1,CG1大多是我们常见的四六瓣蒜,也就是一个鳞茎有4个或者6个鳞芽。CG2是多瓣蒜,一个鳞茎有更多的鳞芽。
Fig 1e
作者统计了三个亚群的鳞茎重量、鳞茎直径、鳞芽数量和鳞芽重量,发现了比较明显的群体分化(Fig 1e),所以文章后面主要从群体的角度研究影响鳞茎和鳞芽性状的因素。
结论3 CG1和CG3的独立驯化
Fig 2a
Fig 2b
作者计算了三个亚群的有效群体大小Ne,Fig 2a展示了Ne的历史动态变化,横坐标代表距离现在过去了多少年,也就说这个值越大代表越久远,纵坐标是有效群体大小。
可以看到三个亚群在距今大概50万年前发生了分化,在距今1万到1.5万年前分别发生了瓶颈事件导致群体锐减,一般来说瓶颈事件的发生与那个时期的独特地质事件相关,这个时间点正好和新仙女木期重合,新仙女木期是晚冰期的气候极冷时期,可能是极低的气温导致了有效群体大小的锐减。
人类作物驯化的历史大概有1万年,现在最早的大蒜记录可以追溯到公元前2600年,距今大概5000年,也就是说CG1和CG2的分化早于他们的驯化历史。大蒜是严格不育的,只能通过播种鳞芽或者气生鳞茎进行严格的无性繁殖,这导致了不同大蒜个体之间的生殖隔离。因此作者认为CG1和CG2分化成两个不同的群体之后,它们从两个不同的途径进行独立驯化。进一步通过ABBA BABA test也证实了两个群体间没有基因交流,独立驯化(Fig 2b)。
Fig 2c
Fig 2d
CG1和CG2两个亚群间的群体分化指数普遍很大,有超过30%的区域Fst大于0.5(Fig 2c)。
和OG原始类群相比,CG1和CG2分别鉴定到842和943个受选择区域(Fig 2d),只有0.18%的区域在CG1和CG2中共同受选择,这也证明了CG1和CG2两个亚群独立受选择,独立驯化。
结论4 CG1和CG2转录水平的显著差异
Fig 3a
转录组比基因组通常更能直接反映表型变异,因此作者测了这81份材料鳞茎的转录组。这个圈图棕色的三个track从内到外依次是OG-CG1-CG2的FPKM(Fig 3a),能看到一些差异但不是很直观,然后作者用到了一个指标香农指数来表征转录本丰度的多样性,圈图外圈四个绿色的track依次是OG-CG1-CG2和所有81份材料的。OG的香农指数大体在1.7-2.2;CG1 2.8-3.4;CG2 3.0-3.7。
香农指数计算可参考
Martínez, Octavio, and M Humberto Reyes-Valdés. PNAS. (2008). doi:10.1073/pnas.0803479105
Fig 3b
Fig 3c
Fig 3b展示了这三个亚群中两两比较存在的差异表达基因,根据表达情况分成了三种,一种是在某亚群中表达,在另一个亚群中不表达;一种是在某亚群中不表达,在另一个亚群中表达;还有在两个亚群均表达但是存在差异,可以看到还是有好多基因在CG1和CG2驯化过程是存在明显的差异表达的。
前面提到,大蒜的鳞茎表型变异在这三个亚群中变化还是很显著的,所以作者看了CG1和CG2相对于OG各自的和整体的差异基因与鳞茎、鳞芽性状的富集关系,发现这些差异基因真的富集到好多与鳞芽、鳞茎相关的基因(Fig 3c)。
需要注意的是,90%以上的差异基因不在受选择区域,这说明大多数基因的差异表达是由选择性基因调控引起的,而不是基因组区域受选择引起的。
Fig 3d
Fig 3e
这两个基因在拟南芥中的同源基因已被证实在花蕾发育和分化中起重要作用,它们的表达量在三个亚群中存在显著的差异(Fig 3d)。
Fig 3e展示了这两个基因表达量和鳞芽数量之间的相关性。斜线上是三个分布直方图,左上角的是81份大蒜大蒜瓣数量频数分布,中心和右下角的是这两个基因在81份材料中的表达量。散点拟合图是大蒜瓣数量和这个基因表达量的拟合关系,0.53是两者之间的相关系数,星号代表显著性。通过这个图强调了这两个基因与大蒜瓣数量的密切关系。
结论5 CG1和CG2中有害突变存在独立的积累和清除
Fig 4a
Fig 4b
对于无性繁殖的生物,很容易导致有害突变的积累,所以在这一部分作者鉴定了三个亚群中的有害突变。Fig 4a 密度图展示了这些材料中,两两之间的有害突变的重叠比例,在84份材料中这个比例是有三个明显的峰,分别是6.51%、19.78%和31.42%,而且两两亚群之间的有害突变重叠比例也都形成了独立的峰,说明这三组大蒜分别经历了有害突变的积累。
CG1和CG2的有害突变明显少于原始群体(Fig 4b),说明在各自驯化的过程中CG1和2都在降低有害突变,作者想进一步研究这些有害突变是如何独立清除的。
Fig 4c
Fig 4d
因为在驯化过程中CG1和CG2独立受到选择,所以很容易想到的一个点就是有害突变在独立选择中受到清除。Fig 4c统计的是在受选择区域和基因组其他区域的有害突变去除率,无论是CG1还是CG2都表现出受选择区域有更多的有害突变被清除。相应的Fig 4d 统计了这些区域的有害突变密度,在受选择区域有害突变明显更少。通过这两个分析作者想说明选择导致大蒜有害突变的下降。
结论6 CG1和CG2鳞茎性状的差异
平时我们吃大蒜,吃的是蒜瓣,也就是鳞芽,鳞芽的数量和重量是影响大蒜产量的最关键因素,而且鳞芽的数量和重量在三个亚群种存在明显的分化。所以文章的最后作者葱受选择区域鉴定了影响鳞芽数量和重量的基因。
Fig 5b
首先是鳞芽数量。鳞芽从本质是讲就是一个过于膨大的花蕾,在水稻和拟南芥种最经典的影响花蕾发育的基因是TB1,所以作者先是在大蒜种鉴定了TB1的同源基因,一共找到了12个,其中一个在CG1亚群的受选择区(Fig 5b)。
Fig 5c-d
Fig 5e
Fig 5c展示了这个基因邻近区域的OG和CG1两个亚群的核苷酸多样性比值和群体分化只是,红色箭头指示的是这个基因,Fig 5d展示了这个基因的基因结构和存在明显分化的单倍型,Fig 5e把各个位置的单倍型和鳞芽数量做了关联,能看到有些单倍型和鳞芽数量是存在显著关联的。
Fig 5f
Fig S8
对于鳞芽数量,CG2亚群最多,CG1亚群最少,OG介于两者之间(Fig 5f),作者看了这个TB1基因在三个亚群的表达量,也发现了显著的差异,并且和表型趋势一致(Fig S8)。
Fig S13
Fig 5g
前面讲到的TB1是已知的一个与花蕾发育相关基因,因为有这230份材料的表型数据,作者还做了GWAS,找到了22个潜在相关位点(Fig S13),这些位点邻近200kb的范围内找到了11个转录水平与鳞芽数量存在显著关联的基因。其中有一个基因位于受选择区域(Fig 5g)。
Fig S14
Fig 5h-i
这个基因参与了拟南芥生长素信号转导途径,是芽生长的抑制因子,在三个亚群种表达量存在显著差异(Fig S14),单倍型与鳞芽数量存在显著关联,表明它可能是抑制鳞芽数量的基因(Fig 5h-i)。
Fig S15d
Fig 6b
除了鳞芽数量,鳞芽的重量也是很重要的一个性状,作者测定了鳞芽膨大前-中-后的转录组,两两call DEG,然后对共同的DEG去找与鳞芽重量相关的候选基因(Fig S15d)。在洋葱和土豆中的研究发现,开花基因FT与块茎的膨大密切相关,作者在这些DEG里也是鉴定到了FT,并且位于受选择区域(Fig 6b)。
Fig S18
Fig 6c
作者把大蒜中的这个FT基因在拟南芥中做了过表,发现确实可以像FT那样显著的影响开花(Fig S18),这也是这篇文章中唯一一个实验验证的点,抛开那些花里胡哨的修饰,它的本质就是在大蒜中鉴定到一个拟南芥FT的同源基因,然后用大蒜中这个FT序列在拟南芥中做了验证,实际上就是验证了两个同源基因。这个FT基因在三个亚群中存在明显的表达差异(Fig 6c),推测它可能是影响鳞芽重量的候选基因。
正文部分的最后,作者还强调了尽管在受选择区找到了这么多与鳞芽性状相关的候选基因,但是没有一个基因是在CG1和CG2中同时受到选择的,这又支持了CG1和CG2独立驯化的观点。
总结
核心观点:我国的四六瓣蒜和多瓣蒜独立驯化
具体体现
1-强烈的群体分化
2-独立的瓶颈效应
3-基因表达的普遍差异
4-有害突变的独立清除
5-独立的受选择
6-鳞芽/鳞茎性状的独立分化
本文使用 文章同步助手 同步
网友评论