一、背景知识
非洲是一个文化、语言、表型、基因多样性都非常丰富的大陆。现代人类于30万年前起源于此,并在8万年前开始走出非洲。目前在非洲已经发现了2000多种语言,主要分为四大类:
1. 亚非语系
使用者:阿姆哈拉人(Amhara)和迪兹人(Dizi)。亚非语系包含约300种语言,主要分布在北非、东非和西亚地区。亚非语系包括阿拉伯语、希伯来语、阿姆哈拉语、索马里语等多种语言。
2. 尼罗河·撒哈拉语系
使用者:查布人(Chabu)和穆尔西人(Mursi)。尼罗-萨哈拉语系包括约100-200种语言,主要分布在非洲中部地区,包括苏丹、乍得、乌干达等国家。这个语系的语言多样性较高,包括马赛语、卢巴语等。
3. 尼日尔·刚果语系
使用者:热带雨林小矮人(RHG)、富拉尼人(Funali)、班图人(Tikari)和赫雷罗人(Herero)。这是非洲最大的语系,拥有超过1500种语言。尼日尔-刚果语系分布在撒哈拉沙漠以南的广大地区,包括西非、中非和南非地区。其中,班图语族(Bantu)是尼日尔-刚果语系中最著名的语族,包括约500种语言。
4. 科伊桑(库斯基特)语系
使用者:布须曼人(San),坦桑尼亚的哈扎人(Hadza)和桑达维人(Sandawe)(图1A)。科伊桑语系(Khoesan phylum),又称库斯基特语系(Khoisan),是非洲大陆上的一个独特语言家族,主要分布在南部非洲地区,尤其是纳米比亚、博茨瓦纳和南非。
非洲大陆因其悠久的人类历史和丰富的遗传多样性,被认为是人类起源的摇篮。然而,非洲人口的基因组研究相对较少,导致对该地区群体历史和适应机制的认识有限。
渐渗(introgression)和基因流(gene flow)都是描述不同种群间基因交换的过程,但它们的机制和背景有所不同。
渐渗 和 基因流
1. 渐渗
渐渗是指来自一个物种或种群的基因通过杂交和回交等过程逐渐进入到另一个物种或种群中。
2. 基因流
基因流是指由于个体的迁移导致基因在不同种群之间的交换。这个过程通常发生在同一物种的不同地理种群之间。
前沿创新
虽然非洲在现代人类起源和进化中占据极其重要的地位,但以非洲人群为研究对象的人类基因组学研究仍然不足。2023年3月3日,国际顶尖期刊《Cell》以封面文章““Whole-genome sequencing reveals a complex African population demographic history and signatures of local adaptation”,展现了复旦大学樊少华科研团队的最新研究成果。
https://doi.org/10.1016/j.cell.2023.01.042二、主要成果
由于先前的研究收集的群体样本数有限,研究团队扩大了此次研究的样本数量,对来自极具代表性的12个非洲土著人群的180个个体(每个人群15个个体)进行了高覆盖率全基因组测序分析(Whole-genome sequencing, WGS),共识别了32,044,896个单核苷酸多态性位点(Single Nucleotide Polymorphisms, SNPs)(图1D),对其进一步分析,发现SNPs的平均数量在不同人群中差异很大(图1B),其中布须曼人和热带雨林小矮人的平均SNP数最多(图1B),遗传多样性水平最高(图1C),而经历了大量的外源基因渗入(如阿姆哈拉人)或是种群规模较小的种群(如哈扎人、查布人)SNP数量最少(图1B),遗传多样性水平最低(图1C)。
Figure 1 | 样本的地理位置和本研究中识别的变异的总和A 样本的地理位置分布,不同颜色表示不同语系;
B 与人类参考基因组序列比对,种群中SNP的数量;
C 种群的遗传多样性;
D 未报告和已知snp的数量及其潜在的功能影响
世界范围内非洲人群的系统发育关系
将WGS数据和来自“西蒙斯基因组多态性研究计划(SGDP)”中的巴布亚人群(Papuan),以及来自“千人基因组计划”的CEU、CHB、TSI的WGS数据整合,忽略迁移和重组,通过MEGA邻接法(Neighbor-Joining Algorithm,NJ法)构建系统发育树,结果显示布须曼人的祖先最早与其他现代人类分化开来,随后是热带雨林小矮人的祖先(图2)。其他种群在系统发育树中基本依地理位置聚集在一起,例如,来自喀麦隆的富拉尼人与亚非语系人群聚集在一起,这表明他们曾有共同的祖先,但在迁移过程中发生了语言替换。哈扎人和桑达维人聚在一起,但他们并不是一个单系群,可能是大量的外源基因渗入桑达维种群从而导致了他们之间的分歧。此外,查布人与穆尔西人的聚类模式与尼罗河·撒哈拉语系的划分一致。综上表明地理环境是制约不同种族间基因交流的重要因素。
Figure 2 | 基于非洲和全球代表性个体的WGS数据的邻接系统发育树非洲人群的复杂演化历程
研究团队通过主成分分析(PCA)和ADMIXTURE分析重现了非洲大陆上人类的早期遗传结构(图3)。结果显示布须曼人是最早发生分化的一支(图3A),紧接着哈扎人、查布人、迪兹人、穆尔西人也分化出来形成单系群(图3B),最后RHG内部也开始发生分化(图3C)。这些结果反映了非洲南部和东部的人群拥有共同的祖先,并在分化早期发生过基因流。
Figure 3 | Population structural analyses based on PCA and ADMIXTURE Figure S2 | ADMIXTURE analyses of global populations, related to Figure 3使用TreeMix和qpgraph对更复杂的种群动态历史进行建模(图4A),当不允许基因交流时,结果与邻接树结果一致(图2),布须曼人的祖先仍然是最早分化出的一支,同时检测到非洲人群中存在着广泛的基因流(图4B)。
Figure 4 | Demographic history of African populations modeled by qpgraph and momi而当模型允许基因交流时,得到的遗传结构发生了较大的改变,结果显示尼日尔·刚果语系人群携带着现代人类最原始的祖先基因。富拉尼人与亚非语系人群有着共同祖先,并在穿越萨赫勒地区时与尼日尔·刚果语系人群发生了基因流,这与前面的Admixture结果一致(图3E)。使用DATES计算富拉尼人与其他种群产生基因流的时间大约为1400~3800年前,这与全新世晚期牧民群体扩张事件相对应。
使用MSMC和momi两种方法对测定了现代人类种群之间的分化时间(MSMC无法模拟基因流,对于高度杂合的种群估算的分化时间偏低),结果也表明San和RHG最早从其他现代人类种族中分出来,分化大概发生在15~28万年前。
分享
Figure S6. MSMC results, related to Figure 4非洲人的种群动态历史
利用PSMC和SMC++,研究人员观察到各种群间的有效种群大小(Ne )差异早在约20万年前就已出现(图5)。从5万至20万年前, RHG和San与其他种群相比具有更大的 Ne(图5A)。
与其他非洲群体相比,Amhara和Dizi的 Ne 最低(图5A)。在1000至1万年前, Hadza、Chabu、Herero和Fulani四个种群的大小急剧下降(图5B)。特别是,Hadza和Chabu的 Ne 从1万下降到200左右(图5B),与当代实际群体大小(1000)相对一致。
非洲人群的适应性进化
为了确定可能在非洲人群在适应不同环境和饮食中发挥作用的候选基因座,研究人员使用了Di统计数据,找到了不同种群在不同性状上的适应进化证据(图6)。
Figure 6 | Representative phenotypic and physiological traits shaped by positive selection due to local adaptation in African populations研究团队发现布须曼人的肤色相比其他非洲人更浅,观察发现在浅肤色布须曼人中,Di-SNPs在肤色相关基因(OCA2, TYRP1, SLC24A5, MITF等)和角蛋白位点(如KRT25, KRT27, KRT71)附近富集。
Figure 7. *rs77665059 *affects the enhancer activity of *PDPK1 *and may contribute to light skin color of the San在布须曼人的PDPK1中观察到22个Di-SNPs(图7A)。PDPK1是黑色素细胞增殖的重要调节因子,PDPK1的缺失会减少小鼠皮肤色素沉积。通过与全球种群的频率对比(图7B),结合染色体免疫沉淀测序和对两种黑素瘤细胞的荧光素酶基因检测结果(图7),可以推断rs77665059属于黑色素细胞的增强子,该增强子影响体外色素沉积,并可能通过调节PDPK1的增强子活性和基因表达来影响San人的肤色。
总结
这篇文章通过全基因组测序揭示了非洲人口复杂的演化历史和局部适应特征。研究结果表明,非洲人群经历了多次迁移和基因流事件,形成了丰富的遗传多样性。此外,文章还发现了与环境适应和疾病抵抗相关的基因,为深入了解非洲人群的适应机制和疾病易感性提供了宝贵信息。这些发现对于提高非洲地区的医疗和公共卫生水平具有重要意义。
但在对非洲群体演化历史的推断中仍然有一些不明确的地方,因为只能模拟简单的演化历史,而真实的可能要复杂得多。此外,假设每个群体有15个样本,可能无法检测到所有受到正选择的基因。
此外,可能遗漏了一些罕见但功能重要的SNP。为了加深对非洲人复杂进化史的理解,开发更有效的算法,在广泛的地理和时间尺度上涵盖更多的土著人群样本,并将基因组数据与古生物学、考古学和语言学数据整合起来,将是有效的研究途径。
尽管语言是通过后天学习习得的,但在一个种群中,通常是由前一代向新一代传授。因此,我们可以将语言视为具有“遗传性”。本研究创新性地将语言作为一种“可遗传且可变异”的表型纳入了种群分化的分析中。
缩略语与种群名称表
缩略语 | 种群名称 |
---|---|
CEU | 欧洲人群 |
CHB | 北方汉族人群 |
TSI | 托斯卡纳人群 |
RHG | 热带雨林小矮人 |
Amhara | 阿姆哈拉人 |
Chabu | 查布人 |
Dizi | 迪兹人 |
Funali | 富拉尼人 |
Mursi | 穆尔西人 |
Hadza | 哈扎人 |
Herero | 赫雷罗人 |
Sandawe | 桑达维人 |
San | 布须曼人 |
Tikari | 班图人 |
MEPGT
Daily updates of population genetic and evolutionary biology and bioinformatics literature and useful software tools
网友评论