导读
主要作物都是驯化瓶颈的幸存者。研究主要集中在与驯化综合征相关的基因位点,而古代单倍型的贡献在很大程度上仍不清楚。此研究开发了一种祖先基因组单倍型分离方法,并将其应用于386份四倍体/六倍体小麦种质资源的重测序数据集,生成了泛祖先单倍型图谱。结合细胞学证据,此研究揭示了驯化多倍体小麦产生于6个原始野生二粒小麦支系的混合,这为祖先嵌合体的形成奠定了基础。关键的驯化相关位点起源于广泛的地理范围,经过一个漫长的积累过程。在染色体中心区发现了多种稳定遗传的祖先单倍型群,揭示了小麦的扩散路径和现代小麦育种的趋势。最后,提出了一个多倍体小麦的进化模型,强调了野生到作物和跨倍性渐渗的关键作用,即在驯化和多倍体化引入瓶颈后,增加了基因组多样性。
论文ID
原名:Dispersed emergence and protracted domestication of polyploid wheat uncovered by mosaic ancestral haploblock inference
译名:利用镶嵌祖先单倍型区块推断揭示多倍体小麦的散布式起源和长期驯化过程
期刊:Nature Communications
IF:17.694
发表时间:2022年6月
通讯作者:孙其信和郭伟龙
通讯作者单位:中国农业大学农学院
DOI号:10.1038/s41467-022-31581-0
实验设计
结果
1 高变异密度的基因组片段归因于野生作物渐渗
为了全面了解小麦基因组的祖先渐渗事件,此研究收集了来自世界各地的小麦样本,包括158份四倍体小麦样本和228份六倍体小麦样本,具体包括野生二倍体小麦样本(WE)、驯化四倍体小麦样本(DT)、六倍体地方品种小麦样本(LR)和六倍体栽培品种样本(CV)(补充表1,补充数据1)。此外,还收集了5份节节麦(*****Aegilops tauschii*****)以研究其D亚基因组。基于这些全基因组重测序数据,总共发现了约271百万个单核苷酸多态性(SNPs)和小插入/缺失(InDels)。
在小麦的A、B和D亚基因组中,A&B亚基因组普遍存在渐渗,且渐渗与遗传多样性呈正相关。此研究使用滑动窗口方法量化了几个样本对的遗传距离。结果显示,在A&B亚基因组中,带有高密度变异的基因组块沿染色体分布(图1a),与先前研究基于基因组比对得出的模式一致。然而,在D亚基因组的染色体上很少观察到高密度块(补充图1)。据报道,跨倍性基因组渐渗可以增加小麦A&B亚基因组的遗传多样性。因此,此研究假设高密度块的镶嵌分布代表了野生种群多样性中A和B亚基因组的古老性,它们通过世系之间的早期混合和随后的跨倍性渐渗被纳入驯化种群。此研究通过bin分析了得到的成对遗传距离分布,并观察了六倍体小麦和驯化四倍体小麦A&B亚基因组的双峰分布(图1b,补充图2,补充表2)。在驯化的小麦中,三个亚基因组都有较低密度的亚分布,这意味着相对较近的分化,估计在距今3000 ~ 13000年前(yr B.P.)(图1b),期间涵盖了小麦驯化的假定时间。六倍体小麦的峰值时间(~ 6300 yr B.P.)略晚于DT (~ 7100 yr B.P.),这为六倍体小麦出现在DT驯化之后提供了支持。A&B亚基因组特有的高密度亚分布大约发生在70000年B.P.(图1b),可能与WE不同谱系间的渐渗相对应(图1c)。在WE和节节麦类群中观察到单一的高密度分布(补充图2),揭示了野生世系中罕见的渐渗事件。六倍体小麦D亚基因组的单峰分布(图1b,补充图2)表明,尽管有报道称其他节节麦谱系发生了低频率的渐渗,但六倍体起源中D亚基因组在六倍化起源过程中具有罕见的多样性(图1c)。综上所述,在驯化小麦基因组中,A&B亚基因组的高多样性主要归因于特定的WE谱系渐渗块的镶嵌分布**(图1c)。
2 ****通过IntroBlocker剖析镶嵌祖先渐渗块
大多数窗口在成对遗传距离上呈现双峰分布(补充图3),表明A&B亚基因组中染色体普遍存在渐渗。为了分析渐渗区段的祖先基因组,此研究提出了一种半监督算法IntroBlocker,该算法结合了从双峰分布估计的遗传距离阈值,并以binwise化的方式将样本分配到祖先单倍型组(****ancestral haplotype groups****,AHGs)(图1d)。根据染色体室中估计的高LD衰减距离,本研究使用了5Mbp的bin大小(补充图4)。步骤1,基于每个窗口的成对遗传距离独立构建层次聚类,并根据双峰分布的硬阈值分配初始AHGs。步骤2,在相邻基因组区域的祖先趋同的前提下,基于样本优先级的AHG参考策略,对AHGs进行全局重新分配,以最小化相邻bins之间的转换数。对于每个样本以及优先级顺序,如果它的窗口具有和高优先级样本相同的初始AHG类型,则将高优先级样本的AHG类型分配给当前样本。否则,将一个新的AHG类型被分配给当前样本(参见方法的详细信息)。采用一种由两部分组成的类似冒泡排序的方法,确定了条目的优先级排序。步骤2.1的目的是选择一个涵盖大部分AHG多样性(默认95%)的种质子集。在此基础上,步骤2.2的目标是通过迭代交换样本数,找到最小转换次数的顺序。在每次迭代中,交换相邻样本的顺序,使用当前顺序重新分配AHGs,并统计转换次数。如果转换数减少,则保留交换顺序,并继续交换,直到顺序恒定。该排序算法可以全局应用(无监督模式),也可以在基于先验知识分配的每个样本组内应用(半监督模式,补充图5)。第三步,根据相邻窗口的AHG类型,利用贝叶斯方法平滑硬阈值下可能分配错误的块(补充图6)。在模拟数据集和真实数据集上验证了IntroBlocker的可靠性。在各种模拟的混合场景中,IntroBlocker平均准确率达到97.0%(补充图7、补充图8)。此研究进一步将IntroBlocker与通过fd统计检测到的单倍型进行比较。两种方法得到的结果基本一致(附图9)。此外,IntroBlocker可以以一种灵活的方式利用生物和进化的先验知识。以10个组合的小麦样本为例,在无监督模式下推断出了链式的AHG,结果表明,渐渗导致了普遍的异质性祖先块,此外,在近着丝粒区周围存在大的AHG块 (补充图10)。对于同一组潜在AHGs,根据优先级的顺序,排列可能是不同的。一组跨倍性样本在2A染色体上的排列顺序为WE >DT>六倍体小麦,具有嵌合祖先模式的块来源于两个野生二粒小麦,然后转移到硬粒小麦Svevo(图1e)。以相反顺序“六倍体小麦>DT>WE”进行分析,可以将六倍体样本共有的嵌合基因组块追溯到DT和WE,这揭示了形成现代六倍体小麦样本的重组模式(图1f)。推断出的AHGs的一致性和灵活性使IntroBlocker能够在四倍体和六倍体小麦中揭示祖先的渐渗块。
[图片上传失败...(image-de9e5e-1679382655419)]
图****1|****祖先块推断算法IntroBlocker的原理和示意图。a3对样本沿3A染色体的成对遗传差异的binwise密度。3个样本对如下:(1)六倍体小麦品种Norin61与ArinaLrFor,(2)Norin61与四倍体硬粒小麦Svevo,(3)Svevo与四倍体野生二粒小麦Zavitan。每个点代表一个5Mbp的基因组窗口。b 六倍体小麦D亚基因组(上)和六倍体小麦A&B亚基因组(中)和驯化四倍体小麦(下)的成对遗传距离成对遗传距离分布。阴影快,均值±sd。实线表示EM算法在每组上随机选取1000对样本对所拟合的高斯分布。拟合高斯分布的均值±sd用虚线和阴影框表示,并标记相应的分化时间。红线,每bp 10-3个变异的阈值。c A&B亚基因组分层变异密度模型。高多样性四倍体小麦(BBAA)的跨倍性渐渗将高多样性块引入杂交六倍体小麦(BBAADD),导致A&B亚基因组的双峰分布和D亚基因组的单峰分布。d IntroBlocker算法的示意图概述。步骤1,对于每个5Mbp的窗口,根据遗传距离分层聚类的样本,在双峰分布估算的阈值(每bp 10-3个变异)处进行分组。步骤2,采用基于样本优先级的引用策略对AHGs进行全局重新分配,以最小化转换数,其中优先级顺序由类似冒泡排序的方法确定。步骤3,引入贝叶斯方法,根据相邻窗口的AHG类型对错误分配块进行校正,平滑噪声信号。e,f 选取11个样本,在不同优先级的半监督模式下,两幅染色体2 A 的AHGs彩色镶嵌图,WE>DT>HW (e)和HW>DT>WE(f)。对于每个窗口,相同的颜色表示相同的AHG,黑色表示CNV块。在样本ID下标记样本的颜色。WE,野生二粒小麦。DT,驯化四倍体小麦。HW,六倍体小麦。
3 ****AHG揭示了野生二粒小麦到六倍体小麦的基因流动
为了系统地描述小麦的祖先渐渗,此研究将IntroBlocker应用于386份小麦品种,并推断出所有5 Mbp非重叠窗口的AHGs,构建了一个泛祖先单倍型图谱(pan-ancestral haploblock map)(补充数据2,补充图11)。基于AHGs距离的群体结构与基于SNPs的四倍体和六倍体小麦的系统发育关系相似,表明祖先块之间的差异是样品间遗传分化的主要来源(图2a,补充图12)。此研究通过对WE、DT、LR和CV群体的泛祖先图谱中的AHGs进行分析,探讨了多倍体小麦之间的基因流动和基因库转变。染色体分析显示,AHGs在小麦染色体的着丝粒区多样性较低(图2b),这与小麦染色体的着丝粒区重组率较低相吻合。在D亚基因组中,除了少数热点外,很少发现渐渗块,主要的AHG占D亚基因组的95.4% (Supplementary Fig. 13, Supplementary Data 3)。总体而言,WE组保留了最多样化的AHGs,平均每个窗口约20个(图2c),但饱和度曲线表明,由于收集的WE品种数量有限,这个数字被低估了(图2d)。其他组的多样性显著减少,在六倍体小麦中只剩下约5个AHGs(图2c)。累积频率分布显示,2-6个常见的AHGs(检测频率5%)占A&B亚基因组每条染色体的近一半(48.1%)(图2e)。此研究发现,4个组共享全部AHGs中的50.6%,另外还有21.7%被连续的3个组共有(图2f,补充表3),这表明基因库在整个驯化和六倍化过程中不断转变。在六倍体小麦中,共有19.6%的AHGs由DT、LR、CV共享,而由WE、LR和CV共享的比例为1.1%,证明六倍体小麦中DT是直接由AHG渐渗组成的基因库。综上所述,基于AHGs的证据表明,六倍体小麦的基因库可以往前追溯到DT,最终追溯到WE,表明基因从四倍体小麦到六倍体小麦的流动是连续的。
[图片上传失败...(image-71fb1e-1679382655419)]
图2|****AHG揭示了多倍体小麦基因库的转变。a基于AHGs的距离构建了A&B基因组中所有5Mb窗口的主成分分析图。b A&B亚基因组染色体模型AHG类型的计数。实线和彩色面积,均值±sd。WE,野生二粒小麦。DT,驯化四倍体小麦。LR,六倍体地方小麦。CV,六倍体小麦品种。染色体带R1、R2a、C、R2b和R3与文献一致。c 小提琴图显示AHG类型在每个组的A&B亚基因组中的计数分布。d 饱和曲线显示AHG类型的累积数量与包含的品种数量之间的关系。实线和阴影区域,14条A&B染色体的平均置信区间和90%置信区间。e 堆叠条形图显示常见AHGs的频率和对应的顺序(频率>5%)的染色体。“D”为D亚基因组7条染色体的平均值。f 冲积图显示4个分类类群中共有AHGs的比例同时显示了沿WE-DT-LR-CV路径的基因流。在六倍体组中,追溯到DT组的AHGs比例明显高于WE组,表明DT是离六倍体小麦最近的基因库。
4 ****追溯有助于驯化多倍体小麦的野生二粒小麦品系始祖
野生二粒小麦被认为是驯化四倍体小麦的祖先,已有证据表明六倍体小麦中渐渗普遍来自于野生二粒小麦,这意味着一个复杂的系统发育过程。此研究基于AHG计算了每个加入驯化多倍体小麦基因库的WE样本贡献,确定了共有12份来自新月沃地的WE样本产生了贡献,这些样本属于6个谱系(补充数据1),它们是DT的基础(图3a)。这些始祖世系共同解释了驯化多倍体小麦中53.5%的AHGs,但不同染色体的贡献率不同(图3b)。一般来说,DT样本沿染色体呈现出高度的AHG镶嵌模式,而WE谱系中很少出现AHG渐渗现象(图3c),这表明在新月沃地早期栽培的二粒小麦的初始驯化过程中,广泛存在wild-to-DT的渐渗现象。同时,此研究结果表明,此研究涉及的样本对DT和六倍体小麦的基因库贡献几乎相等(补充图14),这表明六倍体小麦没有发生大量的wild-to-crop渐渗。总之,此研究结果表明,驯化多倍体小麦起源于有限的WE谱系,****wild-to-crop****的渐渗作用导致了小麦A&B亚基因组中AHG镶嵌模式的最初形态。
5 ****追溯六倍体小麦的起源
六倍体小麦被认为是由驯化的四倍体小麦T. turgidum (AABB)与二倍体物种节节麦Aegilops tauschii (DD)杂交产生的,但目前缺乏确凿的四倍体亚种的遗传证据。为了进一步追溯六倍体小麦的起源,此研究对在不同DT亚种中共享的六倍体地方小麦的AHGs进行了检测,结果表明:铆钉小麦****(*****T. turgidum L. ssp. turgidum*****)****与LR共享较高比例的基因库(补充图15),这与它们更大的耐受范围一致。为了获得细胞质变异的证据,此研究从306份小麦样本中鉴定了165个高可信的叶绿体基因组序列(补充数据4),其中大部分变异只在WE样本中存在,而在六倍体小麦中只有27个变异存在。在基于细胞质变异的系统发育树中(图3d), WE样本是最多样化的,除了4个DT样本聚集在其他分支,大多数DT样本形成了一个分支,这反映了先前报道的潜在的野生到驯化二粒小麦渐渗。LR六倍体样本与多个DT品系嵌套,证实了六倍体小麦从DT群体中产生,并进一步与四倍体或六倍体小麦作为互交母系进行杂交。有趣的是,广泛种植的硬粒小麦(T. turgidum ssp. durum)分布于DT的大部分分支,表明硬粒小麦与DT的其他亚种之间存在广泛的杂交。值得注意的是,此研究在六倍体亚群的五个主要支系中都发现了硬粒小麦(图3d),这意味着硬粒小麦可能在驯化四倍体小麦亚种——六倍体小麦的起源和进一步传播过程中发挥着更重要的作用。此外,波兰小麦 (T.polonicum,BBAA)和新疆稻麦 (T. petropavlovskyi,BBAADD)的细胞质亲缘关系密切,表明这两个亚群之间存在潜在的母性遗传,这与它们之间已知的跨倍性渐渗事件一致。核和细胞质的综合证据表明,六倍体小麦的起源是嵌套在DT内的,其次是普遍的跨倍性渐渗。
[图片上传失败...(image-f9959f-1679382655419)]
图3|****小麦驯化的基础谱系溯源。****a 基于AHG距离构建的WE和DT样本A&B亚基因组NJ树。6个基础世系以彩色区域标示,DT系分支未成功构建。显示了在每个WE样本在驯化小麦基因库中发现的AHGs的百分比(贡献),以及每个WE样本对驯化小麦基因库贡献AHGs的基因组比例(覆盖)。高亮显示了12个世系中的6个基础世系。b结果表明,6个WE始祖系和其他WE样本对驯化小麦遗传库的累积贡献均为单个染色体。c 1A染色体上5份WE和5份DT样本的AHGs镶嵌图。d 基于NJ属的叶绿体SNP为小麦起源提供了细胞质证据。通过指定拟斯卑尔脱山羊草(Ae. speltoides)样本作为外类群对该进化树进行了定根。主要进化枝用灰色虚线分隔。标记了含有波兰小麦 (T. polonicum,四倍体)和新疆稻麦 (T. petropavlovskyi,六倍体)的进化支,与报道的基因组渐渗一致。
6 ****关键驯化位点通过一个漫长的过程从异质供体积累并固定
为了研究小麦驯化过程中binwise AHGs的动态变化,此研究在三个阶段(WE-DT, DT-LR, LR-CV;补充图16)的A&B亚基因组分类群之间检测了全部5Mb窗口中AHGs的香农多样性指数(H)。在至少两个阶段的连续选择中共检测到176个窗口(补充图17,补充数据5),大部分同源基因位点存在异步选择信号(补充图18)。总共有256个窗口(三个阶段分别为50、123和83)显示存在固定的AHGs (H <0.05),并被认为是潜在的驯化相关位点(补充数据6);这些位点包含一些已知与驯化综合征相关的基因,如TaPpd-2A、TaGI-3A(光周期)和TaGS5-3A(籽粒大小)(图4a)。
在小麦的驯化育种过程中,不同选择压力下的驯化位点是逐步固定的。控制穗轴脆性的基因TaBtr1-3A/-3B均在WE向DT转变早期时固定。在二粒小麦驯化后向硬粒小麦转变的后续多样化中,软颖片和无脱壳种子的性状出现了,TaTg-2B和TaQ-5A周围的位点在此阶段基本全部固定(图4b,补充图19-22)。尽管在TaBtr1-3B基因周围的窗口中总共发现了24种AHG类型,但只有一种类型在DT中几乎是固定的;这一类型可以追溯到2个WE样本GT004和GT005,它们被认为是TaBtr1-3B驯化形式的序列模板供体。此外,搭便车效应在DT中固定的侧翼区域明显大于LR和CV(补充图23)。TaBtr1-3A附近的1Mbp区域的进化图与TaBtr1-3B附近的进化图一致,只是WE中广布型的比例较高。虽然没有正式克隆,但此研究推断,TaTg-2B周围的区域受到了持续选择,即随着现代AHG类型的百分比从WE的1.6%增加到驯化二倍体小麦的35.3%,并在所有硬粒小麦种质资源中被固定下来。同样,TaQ-5A区域的42个AHGs中有1个受到了连续选择,在硬粒小麦中频率达到91.0%,最终在所有普通小麦品种中固定了下来。然而,该AHG的来源:样本GT028,不是始祖品系,而且采集于巴林岛,位于新月沃地的核心之外。有趣的是,两种脱壳型地方品种小麦:斯卑尔脱小麦和云南铁壳麦只有2个较小的AHG类型存在于TaQ-5A区域。
此研究还研究了与CS参考基因组相关的拷贝数变异富集块(copy number variation enriched blocks,CEBs);这些区段组成了小麦基因组的很大一部分,在基于AHG的研究中可能会被忽略。共有46个窗口在至少一个阶段被分类为受选择CEB,它们的组间频率变化≥0.4(图4c,补充数据7)。两个排名靠前的共线性区域,即1A和1B染色体的前5Mbp窗口(记为1A-1 CEB和1B-1 CEB),已知含有烘焙品质相关基因,如Glu-A3和ω麦胶蛋白基因簇,在WE中频率较低,而在驯化类群中频率显著增加(图4d,补充图24)。只有11.5%的WE品种中发现至少具有两种共线性CEBs中的一种,而在三个驯化类群中,这一比例为84.1%至95.7%(图4e),这表明这些CEB的存在可能在小麦的最终应用质量中发挥重要作用。另一个排名靠前的CEB是6A-615,含有茎秆锈病抗性基因TaSr1347,在进化过程中呈现出不断增加的趋势(图4d)。这些受选择的AHGs揭示了基因组块的存在缺失动态,为小麦驯化相关位点的存在提供了证据。
值得注意的是,受选择的驯化相关位点可以追溯到分散分布在新月沃地核心区(如土耳其、叙利亚和以色列)的不同世系的分布区间不重叠的WE样本(图4f),这就提出了一个问题,即六倍体小麦是如何组合所有驯化相关位点的。在整个进化过程中,关键驯化相关位点的存在都被记录在了样本中,结果表明,这些位点通过一个漫长的过程逐渐积累并在种群中固定(图4g,补充数据8)。TaBtr1-3A/-3B首先固定在驯化二粒小麦中,然后TaTg-2B和TaGS5-3A在自由脱粒四倍体小麦中迅速积累并基本固定。1A-1CEB和TaQ-5A在硬粒小麦中基本固定。六倍体小麦从四倍体来源那里继承了这些预适应块,驯化基因TaPpd-2A正是如此在其中被固定。* TaSr13连锁6A-615 CEB在CV中基本被固定。综上所述,地理和系统发育证据表明驯化近缘位点的起源异质性,表明驯化是一个漫长的过程,六倍体小麦的起源嵌套在四倍体小麦的驯化中。*
[图片上传失败...(image-e40735-1679382655419)]
图****4|****关键驯化相关位点的异质起源与逐步积累。a热图展示了256个窗口中AHGs的逐步固定。根据固定的相对顺序对窗进行排序,出现了3个主要组,与第一次固定的组一致。代表性窗口采用与a相同的方法标记已知的适应性基因。b 关键驯化相关位点AHG频率动态分析。受选择的AHGs通过带有色带的分类群进行连接。携带选定AHG型的WE样本用ID标记。由于篇幅限制,TaBtr1-3A的完整样本列表见补充数据8。默认情况下,窗口大小为5Mbp。TaBtr1-3A的窗口大小设置为1Mbp,以匹配其相对有限的选择性扫描。c 在至少一个样本中检测到CNV的5Mbp窗口(点)的MaxΔ(CNV)分布。MaxΔ(CNV):各分类组间最大CNV块比值差。橙色,Max Δ(CNV)>0.4的CNV富集块(CEB)。受选择排名靠前的CEBs采用与a相同的方法标记。d 四个分类组中1B-1 CEB(左)和6A-615 CEB(右)的出现频率。e 在四个分类群中单独存在1A-1 CEB(绿色)、单独存在1B-1 CEB(橙色)或同时存在(蓝色)的频率。f 驯化位点和CEB中具有显著AHG等位基因的WE种质的地理位置。g 驯化和适应基因中主要AHG类型的存在和缺失图显示了整个进化过程中的积累过程。f中的地图由Stamen地图的地理信息生成。
7 ****在进化过程中,稳定的centAHG起着染色体主干的作用
在近着丝粒区有几个大的渐渗块已经被报道过,染色体规模的泛祖先单倍性块图谱也显示了在染色体中心区域的大的稳定的AHG块(一种超长祖源单倍群结构,centromeric ancestral haplotype groups,着丝粒祖先单倍型群,centAHG)(补充图10)。为了研究centAHG的模式,此研究提出了一种策略来确定染色体上的centAHG块,其范围为80-250Mbp(补充表4)。结果显示,在已鉴定的centAHG区块中,AHG转换较少,与centAHG间遗传多样性相比,centAHG内遗传多样性大幅降低(图5a,补充图25)。此研究推断了A&B亚基因组中所有14条染色体的centAHGs(补充数据9)。有趣的是,centAHG的划分与之前研究推断的小麦基因组A/B区大致一致(图5b, 补充图26),提示centAHG的形成可能与基因组在细胞核内的3D结构有关。不同染色体的centAHG类型不同,3B的多样性最高(23种),6A的多样性最低(10种);驯化组的多样性大大降低,平均每条染色体约3.9个(补充图27)。在进化过程中,即使是在四倍体和六倍体小麦的基因库中, centAHGs也是稳定的,CV中98.6%的centAHGs可以追溯到LR(图5c)。通过检查所有样本中centAHG的频率和分布(图5d),此研究发现有几条染色体的centAHG在进化过程中是逐渐固定的,如3A固定在DT中,2B固定在LR中,5A和4B固定在CV中(频率>98%)。WE样本中含有较多的稀有centAHGs,这表明野生二粒小麦遗传资源的开发还不够充分。与DT相比,现代小麦品种ArinaLrFor和CDC Landmark在所有A&B亚基因组染色体上显著积累了最普遍的centAHG型(Wilcoxon秩和检验,P=4.6×10-9)。虽然在某些染色体上仍存在着不同的centAHGs,但在现代小麦育种中,各染色体的主要利用centAHGs趋势是一致的。进一步分析表明,以centAHG为基础的系统发育树反映了分类群之间的遗传结构(补充图28),表明centAHG可以为进化过程中的基因库转换提供证据。染色体3B着丝粒区的两种单倍型块已经被报道介导了中国地方品种的分化。在此研究的数据集中,此研究在全球普通小麦地方品种的3B染色体上发现了3种主要的centAHGs,而一种类型(3B-Cen-H2)只在中国地方品种中发现,占38.0%(补充图29)。为了进一步研究这3个centAHGs的来源,此研究纳入了另外的全基因组重测序和全外显子组捕获数据集,并在412个六倍体小麦地方种的芯片数据中对3B-centAHGs进行了鉴定(补充数据10)。通过最小生成树推断出三个主要的centAHGs可能的传播路径,并对其地理分布进行了分析(图5f),它们的起源时间也通过centAHGs内的遗传距离估计(图5e)。有趣的是,研究结果表明,最古老的单倍型****3B-Cen-H1****在世界上分布最广泛,其起源最早可追溯到土耳其和黎巴嫩的WE种质(补充图30),最早的起源时间约为9200年前,与六倍体小麦驯化早期阶段相符合(图1b)。3B-Cen-H1****在中国地方品种中的低频率表明它可能是最新传入中国的centAHG,可能是经过南亚和东南亚,然后经过中国的西藏和云南传入。最年轻的单倍型****3B-Cen-H3**** (约4000年前)主要分布在高纬度地区,经土库曼斯坦和新疆传入中国,与丝绸之路相吻合。中国地方品种特有的****3B-Cen-H2****型在中国北方冬小麦区占优势。这三条centAHG可能的扩散路径与考古学证据基本一致,表明centAHGs是公认的染色体主干,可能在小麦的驯化和品种多样化中发挥重要作用。
[图片上传失败...(image-b8b7e8-1679382655419)]
图****5|****着丝粒祖先单倍型群(centAHG)在进化中起着染色体主干的作用。a1A染色体上centAHGs的定位,根据386个样本的AHG类型在相邻窗口之间的转换时间(上),同一类型AHG的连续窗口长度(中) 和AHG类型间和类型内遗传多样性比率(下) 。b 先前发表的关于chr6A的研究中,centAHG的划分和A/B隔室之间的一致性。c堆叠条形图显示通过14条A&B染色体的WE-DT-LR-CV路径可以追溯到4个分类群中centAHGs的比例。颜色指数对应于每条染色体上centAHGs频率的顺序。样本是根据它们包含的centAHGs的总频率排序的。d 386例样品中A&B染色体中centAHGs的分布。以染色体多样性为基础的顺序揭示了centAHGs的阶梯式固定。列出了所选样本的分类组和名称。e3个主要3B centAHGs样本的成对遗传距离分布并标记了其相应的估计分化时间。f 六倍体小麦最初传入东亚的潜在扩散路线。根据地方品种3个主要3B centAHGs的系统发育关系(饼状图)推断了扩散路线(曲线) ,通过手工整理文献确定了扩散方向(箭头)。另外添加了以前研究发表的带有地理信息的281个地方品种样本。对携带3B-Cent-H1的WE品系和携带3B-Cent-H2和3B-Cent-H3的DT品系进行地理位置标记。f中的地图是根据Natural Earth项目数据库中的地理信息生成的。
8 ****基于基因组足迹的多倍体小麦起源和驯化过程模型
通过重点研究多倍体小麦的分散出现和长期驯化,此研究提出了一个具有多级遗传证据的小麦起源的精细化模型(图6)。在该模型下,二粒小麦(T. turgidum, BBAA)自起源以来经过很长时间的多倍体分化形成多个WE世系,而低频率的基因流动使得遗传多样性在新月沃地农业产生前就在WE世系之间积累了。新石器时代(1万年前),新月沃地野生二粒小麦世系混合形成了驯化二粒小麦,此时出现了第一次基因组多样性减少,但在不同地区的多个WE世系之间无意识混合而成的wild-to-crop渐渗,创造了镶嵌的祖先基因组,显著增加了遗传多样性。驯化二粒小麦恢复的多样性支持其进一步传播和持续驯化,从而产生了硬粒小麦、铆钉小麦和波兰小麦等多个四倍体亚种。后来,在硬粒小麦田中可能发生了自由脱粒四倍体小麦(BBAA)与野生节节麦(DD)的自然杂交,从而产生了第一个六倍体小麦(BBAADD)。六倍体小麦在农户不知道其倍性的情况下,成功地被选择并取得了优势。虽然六倍体化导致了第二次基因组多样性降低,但与已经扩散的四倍体小麦杂交所带来的跨倍性渐渗将祖先的基因组镶嵌模式引入了六倍体小麦。得到恢复的六倍体小麦遗传多样性支持其扩散和进一步驯化。随后,六倍体小麦取代了四倍体小麦,在世界范围内广泛种植。现代育种活动导致了第三次基因组多样性减少,而通过选择增加遗传组合的杂交抵消了这种减少。综上所述,此研究提出多倍体小麦起源于分散的地理范围,驯化相关的位点在漫长的过程中逐渐积累,而驯化的四倍体小麦和六倍体小麦在历史上共存,它们的驯化过程相互纠缠,形成了共享的基因库(补充图31)。
[图片上传失败...(image-8f96e5-1679382655419)]
图****6|****多倍体小麦的扩散和长期驯化示意图。现代驯化小麦从最初的四倍体小麦进化的情景(右),以及相应的时间尺度(中)。紫色、绿色和黄色扇区分别表示A、B和D亚基因组,AHGs的类型根据其亮度进行区分。用序号简洁地描述了五个主要步骤。箭头颜色表示类群间的系统发育关系。黑色,直系谱系。蓝色,基因渐渗。红色,主要遗传多样性减少。标记了各组固定的基因组特征(左)。该示意图是基于此研究的结果和先前文献中的假设。
讨论
驯化多倍体小麦的起源是一个长期存在的问题。此研究的结果表明,与野生二倍体小麦样本相比,驯化的多倍体小麦样本呈现出镶嵌的祖先模式,这与之前在其他作物和动物中发现的结果一致。据报道,来自黎凡特北部和南部的群体在驯化四倍体小麦的形成中发挥了重要作用。野生二倍体始祖系的地理分布、重要驯化相关位点的异质供体以及同源基因centAHG的分布均表明,四倍体小麦的驯化起源涉及一个广泛分布的区域。网状过程在早期驯化中起着关键作用,如水稻和玉米。驯化多倍体小麦驯化相关位点的积累重建过程,人类介导的杂交,以及在进一步驯化过程中基因库的逐渐富集,支持了多倍体小麦的驯化是一个持续而漫长的过程,这与基于基因组学和考古学的研究相一致,与古基因组学研究揭示的玉米半驯化模型相吻合。与水稻和玉米不同,六倍体小麦出现在驯化的四倍体小麦种植区中,并在农耕早期出现了跨倍性杂交群体。早期驯化过程的复杂情况暗示了跨倍性和种间基因流动对小麦物种进化的贡献,这在以前可能被低估。最新的小麦存在普遍的渐渗证据也表明,面包小麦在扩散过程中通过跨倍性基因渐渗利用了现有的四倍体小麦的基因库。然而,正如来自各种作物的越来越多的古基因组和古植物学证据所表明的那样,参与驯化过程的种群可能很大。此外,基于节节麦和面包小麦D亚基因组的特定基因组特征,提出了六倍体小麦的多重杂交解说。综上所述,六倍体小麦的起源可能是混合祖先通过驯化过程的直接遗传和跨倍性渐渗共同促成的。向日葵和棉花的研究表明,带有适应等位基因的单倍型块共同促进了生态适应,其重组率往往被倒位所抑制。此研究鉴定的着丝粒祖先单倍型群(centAHG)可能在没有大结构变异的小麦中发挥类似的作用。它们延伸了数十或数百个百万碱基对的长度,包含数千个基因。它们可在处于选择下的四倍体小麦中稳定遗传,并在驯化后作为染色体主干。不同着丝粒单倍型的样本之间存在显著的表型差异,有报道称3B染色体的着丝粒区在中国地方种中起主导作用。这些证据表明,在小麦的扩散过程中,centAHG可能是小麦快速适应当地环境的重要因素。此外,对小麦族的研究表明同源着丝粒功能序列可能与同源配对和重组有关。由于在centAHGs间检测到罕见的交叉,现代育种倾向于通过选择收敛型来减少centAHGs的多样性。由此可见,一致的centAHGs对提高育种效率具有重要意义。随着气候变化的加速,利用主要作物的适应机制,培育优良品种已成为必要和迫切的问题。对驯化的深入了解将为人类实现这一目标提供理论基础,就像通过从头驯化创造新的作物,特别是健壮和稳定的多倍体。除了在过去十年中获得的关于小麦驯化的知识外,还有许多问题没有解决。例如,利用祖先镶嵌分布可以进一步阐明小麦- 山羊草复合体亚种的形成机制和遗传关系。鉴于目前关于面包小麦的网状进化和频繁的跨倍性渐渗的报道,四倍体硬粒小麦和六倍体硬粒小麦都可以通过在两个遗传库之间转移有益的等位基因来加速它们的协同改良。此外,在驯化和改良过程中,在有利基因组片段内的大部分驯化基因还没有得到充分的探索,它们的详细进化轨迹仍不清楚。此外,节节麦基因库与小麦D亚基因组的关系可能被过分简化。随着小麦-山羊草物种的综合基因组数据和计算算法的创新,这些问题将会被揭示,并最终被用作小麦改良的新来源。
网友评论