泛基因组测序

作者: 因地制宜的生信达人 | 来源:发表于2018-07-01 16:29 被阅读162次

泛基因组测序
测序基础介绍-NGS方法小结
全基因组测序从头测序(de novo sequencing)
群体遗传学习笔记-测序技术学习
认识泛基因组测序
泛基因组测序简介
GenomeSyn基因组共线性及结构变异可视化工具
5.6 基因检测：在森林里找到一片黄色的树叶
基因组重测序与转录组联合分析简介
2021上半年又有哪些物种发表了泛基因组？

分成3部分：

首先认识泛基因组测序
然后看看植物领域的泛基因组研究现状
最后解读一个大豆的泛基因组测序项目

认识泛基因组测序

什么是泛基因组？

2005年，Tettelin等人提出了微生物泛基因组概念（pangenome，pan源自希腊语‘παν’，全部的意思），泛基因组即某一物种全部基因的总称。

2009 年，Li等人首次采用新全基因组组装方法对多个人类个体基因组进行拼接，发现了个体独有的DNA序列和功能基因，并首次提出了“人类泛基因组”的概念，即人类群体基因序列的总和。

2013 年泛基因组测序应用于动植物研究领域。

此处输入图片的描述

如图，泛基因组进而可以分为，核心基因组（core genome）和可变基因组 (variable genome)。

核心基因指的是，在所有动植物品系或者菌株中都存在的基。
可变基因组是指，在1个以及1个以上的动植物品系或者菌株中存在的基因。

如果某个基因，仅存在某一个动植物品系或者菌株中，该基因还可以细分为品系或者菌株特有基因。一般来说，核心基因组控制着生命体基本生成代谢的功能。

另外，结构变异中的存在/缺失变化(presnece/absence variation)是泛基因组的重点研究对象，因为可变基因组可能就是使个体产生不同性状（抗病性，抗寒性等）的原因。

为什么我们要开展泛基因组测序？

在漫长的进化过程中，由于地域因素，环境因素等的影响，每个个体都形成了极其特别的遗传性状，单一个体的基因组已经不能涵盖这个物种的所有遗传信息，另外一个原因，由于基因测序变得更加廉价，为近年来火爆的泛基因组的研究提供了可能性。

泛基因组是近年来比较流行的一种研究方向，通过对不同品种基因组进行测序，组装，然后将组装好的基因序列进行整合注释，进而获取这个物种全部的遗传信息并且对每一个个体间遗传变异信息进行解析。

技术路线

此处输入图片的描述

组装技术对比

目前比较流行的研究方法与三种：K-mer based assembly，De novo assembly和 iterative assembly）

此处输入图片的描述

下面主要给大家讲解讲：De novo assembly method 和 iterative assembly。

De novo assembly method

此处输入图片的描述

分别对多个个体进行，De novo assembly，然后将所得的每个个体的assembly与reference基因组mapping，找出不同unmapped的区域，再进行进一步的assembly，然后注释。此方法需要更多的电脑资源，因为需要对每一个个体进行de novo assembly，然后还需要全基因组比对。

Iterative （迭代）assembly

此处输入图片的描述

相当于一种迭代的方式，将每一个种系map to reference，然后找出unmapped的部分进行assembly，得到新的基因序列进而扩展原有的reference。一步一步这样迭代，直到所有的种系都处理完。最后建立起的泛基因组，再进行注释。这种方法，相对需要更少电脑资源，但是可能会产生更多的小片段。

应用

此处输入图片的描述

泛基因组测序是运用高通量测序及生物信息分析手段，针对不同亚种/个体材料进行测序及泛组装，构建泛基因组图谱，丰富该物种的遗传信息。

泛基因组测序不仅可以获得多个基因组，完善该物种的基因集，还可以获得种群甚至个体特有的DNA序列和功能基因信息，为系统进化分析及功能生物学研究奠定基础。

此处输入图片的描述

选择不同亚种材料进行泛基因组测序，可以研究物种的起源及演化等重要生物学问题；
选择野生种和栽培种等不同特性的种质资源进行泛基因组测序，可以发掘重要性状相关的基因资源，为科学育种提供指导；
选择不同生态地理类型的种质资源进行泛基因组测序，可以开展物种的适应性进化，外来物种入侵性等热门科学问题的研究，为分子生态学等学科提供新的研究手段。

还有小编认为，泛基因组还可以应用到寻找snps。

此处输入图片的描述

对比单一的reference基因，可以有效提高可发现的snps数量
用泛基因组去calling snps 意味着你可以节省很多电脑资源和分析时间。（正常snap calling需要比对到不同的个体上，但如果通过泛基因组去calling snps，就可以一步到位，因为这个pangenome 相当于所有个体的集合。另外，这也意味着，你得出的snps 组不需要整合（传统的snp calling需要整合，因为需要比对到不同个体上）
还有一个好处就是，因为pangenome 包括了一步presence/absence variations 的分析，我们可以区别出这种snp是属于核心基因的，还是属于可变基因的。然后，再结合你表现型的数据，这对利用snp提高农作物产量是很有意义的。

探索植物泛基因组的研究趋势

泛基因组近年来的研究

物种	泛基因组建立方法	来源	期刊
Cultivated and wild rice	De novo assembly	Zhao, Feng et al. 2018	Nature genetics
Brachypodim distachyon	De novo assembly	Gordon, Contreras-Moreira et al. 2017	Nature communication
Hexaploid bread wheat	Itrearitve mapping and assembly	Montenegro, Golicz et al. 2017	PBJ
Brassica oleracea	Itrearitve mapping and assembly	Golicz, Bayer et al. 2016	Nature Communication
Brassica napus	Itrearitve mapping and assembly	Hurgobin, Golicz et al. 2017	PBJ
Wild type soybean (Glycine soja)	De novo assembly	Li, Zhou et al. 2014	Nature Biotechonology
Maize	Novel Transcript Assembly	Hirsch, Foerster et al. 2014	The plant cwell

心得分享

由于一般泛基因组的数据分析都没有表观的数据，往往找到了一些novel的基因之后，就缺少一些实质表观的验证，所以火爆程度相对CRISPR，single cell 其他热点来说还是比较温火。

但总体来说，泛基因组都基本可以发到至少6分以上甚至像最近接近40分的期刊。在通读了最近两篇Nature的文章，我根据个人经验，总结这两篇文章的一些亮点（Gordon, Contreras-Moreira et al. 2017， Zhao, Feng et al. 2018）。

1.验证！ 再说一次验证！

我发现这两篇nature文章都有一个共同的特点，处处都在验证。从一开始的de novo assembly结果，作者就将自己使用的assembly泛基因组的方法，用于assembly ref raw data。通过对比，自己assembly出来的 ref 和已经发表的 ref genome 的assembly，rice的那篇文章更加有用到BAC对其中一个有代表性的line进行验证，从而证明所用的assembly的结果是精准的。然后到annotation，通过对比自己做出来的gene annotation 和已经发表的gene annotation。再加上比对不同lines之前annotation的结果，验证所用annotation方法的准确率。然后同样到PAV 和 SNP calling的结果，都是环环相接，结果和认证都不漏。

2.寻找独特的切入点

这点我相信是每一篇文章最重要的一部分。rice 那篇泛基因组，通过独特的视角，对rice 的domestication 和 introgression 进行研究。然后对某些特别的SNPs进行深入的挖掘，这都是为什么这篇文章可以脱颖而出的原因。然后就是Brachypodim distachyon这文章。其亮点就是它不单对non-TE genes进行了研究，也从TE 的角度解析了为啥Brachypodim distachyon 会有独特的PAV pattern。我觉得这点可以值得所有同行学习。repeat sequences 中TE等片段确实值得再深入发掘。然后这篇文章也试图将core gene 和variable gene 进行更加深层的分组。确实可以提供更加深层的视角研究variable gene，但个人感觉也有点将问题复杂化了一些。

core gene clusters contained all lines, including the softcore gene clusters contained 53–55 lines (95–98%); shell gene clusters contained 3–52 lines (5–94%); and cloud gene clusters contained 1 or 2 lines (2–5%)

总结

有效的对每一个小步骤反复认证是一篇好的泛基因组文章的前提，要不然其他人会质问你的结果的可信度，究竟你的结果是真的还是因为使用工具的异同造成的。另外，在泛基因组pipeline比较成熟的情况下，寻找有意义感兴趣的生物学问题，对你的结果进行解析也是发好文章成功的关键。

本次分享就到这，由于文章比较多，这次是对这些文章概述的一个总结。后面我将会重点比较不同文章中所使用的研究方法，然后再比较一下不同作物PAV和SNPS之间的异同

回顾14年大豆泛基因组图谱构建

Background

大豆是世界食用油和植物蛋白质的重要来源，也是生物燃料潜在的原材料，在世界农业经济贸易中占有重要地位。近年来，我国乃至世界大豆育种难以取得突破性的进展、单产停滞不前，主要原因是目前大豆品种的遗传基础狭窄，匮乏的基因源成为制约栽培大豆育种研究的关键。野生大豆具有较强的抗逆性和繁殖能力，是栽培大豆重要的基因资源。相比于重测序研究，多个个体的泛基因组测序可以更加全面的检测物种内部的遗传变异，且可获得各样本的共有和特有基因集，结合各样本的表型差异可为进一步挖掘重要的农艺性状基因提供基础，对改良大豆品质，提高对病虫害的抗性及对不良环境与气候变化的适应性具有重要意义。

Results

都是比较常规的操作，可以直接模仿。

基因组大小：7株野生大豆基因组最小为889.33Mb，最大为1118.34Mb，分别为栽培大豆基因组的93.6%和117.7%，这种区别一定程度上为重复序列含量不同导致；
基因组组装和注释：7株野生大豆基因组组装结果contig N50约7.7～26.6 kb，scaffold N50约16.3～62.7kb，平均每个基因组注释出55,570个基因，其中85~90%的基因为全长基因。
泛基因组构建：对7个从头组装的野生大豆基因组进行比较，发现7个野生大豆中共有59080个基因家族（pan-genome）；48.6%的基因家族为7个野生大豆共享(core-genome)，剩余51.4%的基因家族则仅存在于个别样本中。
变异检测及注释：以栽培大豆基因组为参考，通过全基因组比对的方法，7株野生大豆分别鉴定出SNP 3.6~4.7M，其中0.12～0.15M位于编码区；InDel 0.50-0.77M，2989～4181个导致了移码；大量的变异位点（44~53%）为重测序手段未能识别出的新位点。
进化分析：分歧时间分析表明野生大豆与栽培大豆的祖先约在80万年前即发生了分化；对栽培大豆、野生大豆分别进行正选择分析，发现栽培大豆受选择的基因多与抗旱有关，可能由人工选择导致；而野生大豆中受选择基因则非常多样化，每个不同地理区域来源的野生大豆都有不同类型的基因受到正选择。
农艺性状基因定位：鉴定出大量与抗逆、抗病、花期、产油量和高度等重要农艺性状相关基因和变异，例如14号染色体上一段8kb的片段与野生大豆抗逆和植物发育相关，野生大豆和栽培大豆开花时间的差异与开花时间调控基因SNP和InDel变异有关；

Methods

重点需要关注的地方，能否进行类似study的关键

实验材料：

7株亚洲地区代表性野生大豆品种。对每株大豆构建180bp、500bp和2kb插入片段文库，采用Iluumina Hiseq2000平台PE100测序，平均测序深度为112X.。

De novo assembly

首先使用 Meryl 和applied GCE 生成一系列的长度为 17 kmer的片段用以估算每个de novo assembly的大小。ALLPATHS-LG 和SOAPdenovo，用于修正 calling errors进一步增长对应的reads。GapCloser 用于gap filling 进而进行assembly。生成的contings中，用BLAST比对到相应的数据库，如果有哪个contigs中的hints显示identity ≥95% and e-value ≤1e-5 比对到细菌的genome上，对其进行过滤。

Genomic alignment and short read mapping

将每一个de novol assembly 比对到ref上，使用 ( NUCmer maxmatch -c 90 -l 40)。比对结果进一步的帅选，使用delta-filter。每一个line 的short reads 比对到ref上，使用BWA，然后去重复片段，使用SAMtools。

Gene prediction and annotation 最重要的一步

使用Augustus 进行putative gene coding regions的扫描。Glycine max, Lotus japonicas, Medicago truncatula and Arabidopsis thaliana的蛋白质序列比对到de novo assemblies上使用BLASTN (1e-5)，然后进一步使用GENEwise进行验证。RNA-seq的evidences 使用经典的TOPHat + Cufflinks进行处理。最后使用EVM对所有的evidences 进行整合。GeneWise和BLASTN (1e-5)对所生成的gene model再验证。Gene models中少于50%的比对率的片段进行过滤。TE-related 的片段用HMMPfam进行过滤。生成的置信contigs用BLAST hits in the Arabidopsis thaliana proteome进行功能验证，还有一系列的搜索公众数据库Pfam, PRINTS, PROSITE, ProDom and SMART with InterProScan。InterPro 用来研究相应的GO enrichment，还有相应KEGG的研究。

Gene clustering

使用OrthoMCL 对core genes 和 dispensable genes进行归类。

SNP and indel identification

homozygous的SNP使用MUMer去找。heterozyous 的使用SMAtools。EMBOSS 用来处理比对中含有多个发现的多个indels。SNPs的功能验证使用ANNOVAR package。FUNC package用来做SNPs的功能验证。所发现的snps，从中随机选取一些，在wet lab那边再次通过实验验证。

CNV detection

每个基因的CDS被提取，计算其对应的mean sequencing depth (d0) and s.d. (s0) 。任何基因要高于1.8倍的d0 还有低于0.2的d0
都可以归类为CNV。

PAV detection

Based on the short reads alignment results, blocks with no mapped reads by G. soja were defined as GmaxW82-specific sequences.Genes that overlapped these blocks with 50% length were considered as GmaxW82-specific sequences.

Phylogentic analysis

Protein sequences for genes were compared by using all-by-all BLASTP (1e-5), and then OrthoMCL was used to cluster genes into orthologous gene families 670 orthologous gene families, with exactly one copy from each genome, were classified and defined as conserved single-copy gene families. Protein sequences from the 670 gene families were aligned by MUSCLE。 Phylogenetic trees were built by the Neighbor-joining method incorporated in MEGA package。 The divergence time between legume genomes were estimated using the 'mcmctree' program incorporated in the PAML。

大概的内容就这样，看了一下最近发的那篇rice的文章，有好几个方法都很类似，有异曲同工之妙，也证明了，经典的方法流程也不会过时，尽管不同的工具不断在升级。我自己估计在整理好数据后，自己操作起来还需要一大段时间，好好研究每一个tools是怎样使用的。

参考文献：

Golicz, Agnieszka A., Jacqueline Batley, and David Edwards. "Towards plant pangenomics." Plant biotechnology journal 14.4 (2016): 1099-1105.
Golicz, Agnieszka A., et al. "The pangenome of an agronomically important crop plant Brassica oleracea." Nature communications 7 (2016): 13390.
Hurgobin, Bhavna, and David Edwards. "SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete?." Biology 6.1 (2017): 21.

代表文献

Li, Ying-hui, et al. "De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits." Nature Biotechnology32.10 (2014): 1045-1052.
Maretty, Lasse, et al. "Sequencing and de novo assembly of 150 genomes from Denmark as a population reference." Nature (2017).

泛基因组测序
分成3部分：首先认识泛基因组测序然后看看植物领域的泛基因组研究现状最后解读一个大豆的泛基因组测序项目认识泛...
测序基础介绍-NGS方法小结
1 测序方法分类 2 基因组测序 2.1 全基因组测序大型全基因组测序对人类、植物或动物基因组等大型基因组（＞5...
全基因组测序从头测序(de novo sequencing)
全基因组测序全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing...
群体遗传学习笔记-测序技术学习
重测序技术简介全基因组重测序(Resequencing)是对已知参考基因组序列的物种进行不同个体间的基因组测序，...
认识泛基因组测序
什么是泛基因组？ 2005年，Tettelin等人提出了微生物泛基因组概念（pangenome，pan源自希腊语‘...
泛基因组测序简介
泛基因组包括核心基因组（Core genome）和非必须基因组（Dispensable genome）。其中，核心...
GenomeSyn基因组共线性及结构变异可视化工具
三代Pacbio和Nanopore测序技术的快速发展推动了比较基因组学领域的进步，泛基因组构建和结构变异识别成为该...
5.6 基因检测：在森林里找到一片黄色的树叶
基因检测分类方法很多，最常见的是按检测范围分为：全基因组测序、靶向重测序。全基因组测序是分析基因组的最全面的方...
基因组重测序与转录组联合分析简介
基因组重测序是挖掘候选基因的重要手段，转录组测序则是研究基因表达量差异的主要方法。通过基因组重测序中的全基因组关联...
2021上半年又有哪些物种发表了泛基因组？
由于单一或者少数参考基因组不能代表整个物种内全部的遗传信息，给群体研究带来了许多限制。近年来，泛基因组测序在动植物...