Structure图的构建与理解

作者: lakeseafly | 来源:发表于2018-10-22 14:31 被阅读25次

Structure图的构建与理解
2020-06-24 学习WES数据分析流程3
structure图绘制(三)----structure图的绘制
应用化学韦秋月No.4意义协调
Android Studio 调试native代码
外刊精度day1
UML基础知识
Structure图的生成实战
Data Structure_图
Swift词法结构参考！

介绍

什么是structure图？ 如果你有看过群体遗传相关的文章，你对它肯定不会陌生。对那些还没有接触过的同学，那就直接上图吧：

上图是选取于一个大麦群体遗传的研究。不同的颜色种类分别代表了种群的数目，橙色代表了驯化的大麦，绿色是野生的大麦。上下有两个图是，因为这个例子中选取了两种structure分析的方法：本别是（使用全部的SNPs还有随机抽取10组样本为1000的SNPs），两个结果几乎完全一致。下图黑色的“胡须”是分析结构产生的标准差。

Structure图,其实就是一款群体遗传分析软件——STRUCTURE生成的图。这个软件是由斯坦福大学Pritchard实验室开发，最早在2000年nature genetics上的文章被使用。

其目的也很简单，分析整个群体的结构。Structure图可以展示具体群体的亚群分类，告知该群体间是否有杂交，进而产生基因交流，已经每个个体混血的程度有多少？这些信息都是PCA图还有进化树无法提供的。

Structure图构建原理

获取样本基因型；即snp calling的结果，vcf file。
一般来说我们是不知道群体中十几包含了多少个亚群，我们一般把它设置为K。然后Structure软件就会使用贝叶斯算法，推算并模拟K分别在1~x的情况下，是如何分群，及每个个体血统分布情况。

如下图你可以了解k=2,3,9的情况下，该物种是如何分群的，及每个个体的血统构成。例如K=3，有三种颜色，代表三个亚群。有一些个体，会掺杂两种颜色，证明这个个体具有杂合的血统，并且颜色的多少代表掺杂了对应祖先的比例。

但是问题来了如何决定那个K值所对应的图是对的？因为structure使用的是贝叶斯算法，每个K值模拟的结果都会产生一个最大似然值。软件中会以最大似然值对数的形式出现，该值越大，说明对应K模拟的结果越接近真实群体的情况。当K值不断增加，会出现一个饱和的最大似然值的点。该点对应的K值所生成的图就是最合适的模拟图。般随着K值升高，ln likelihood值也会不断升高，但会慢慢进入平台期。选择最优K值的目标是要找到那个拐点。

简单说来，就是要找的一个likelihood最大（越大越可靠）而且K值最小（亚群数最少）的模拟结果，往往这样的模拟对应的K值是最接近于群体的真实情况的。

Structure软件计算原理

Structure是与PCA、进化树相似的方法，就是利用分子标记的基因型信息对一组样本进行分类，分子标记可以是SNP、indel、SSR… …当然，对于重测序应用的最多的还是SNP。当然，structure本质上使用了与PCA、进化树完全不同的思路。进化树和PCA本质上都是计算样本序列间的差异程度，然后利用两两差异度聚类（进化树）或降维（PCA）来实现对样本的分类。

这个过程的逻辑如下：
1.亚群内符合哈温structure软件摒弃的以上的方法，先预设群体由若干亚群（k=x）构成，通过模拟算法找出在k=x的情况下，最合理的样本分类方法。最后再根据每次模拟的最大似然值，找出最适用这群体的K值。

这个过程的逻辑如下：
1.亚群内符合哈温平衡

那么，软件在如何确定样本的最优分类方法呢？其实基于一个假设：在各个亚群内部个体应该符合哈代-温伯格平衡,那么这个亚群内的基因频率分布应该可通过哈温平衡检验。例如，现在有40个个体的1个SNP位点的基因型，我预设亚群数k=2。我先随机将40个个体分成两份，然后检验是否符合哈温平衡。如果不符合，我继续调整分类策略，直到找到一种最优的分类方法：40个个体被分为了两份，每个亚群都由若干个体构成，每个亚群内部都最大程度地符合哈温平衡。

合哈代-温伯格平衡:(在理想状态下，各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的，即保持着基因平衡。该理想状态要满足5个条件：①种群足够大；②种群中个体间可以随机交配；③没有突变发生；④没有新基因加入；⑤没有自然选择。此时各基因频率和各基因型频率存在如下等式关系并且保持不变)

2.每个位点是独立的

同一个体基因组上的不同SNP可能来源不同亚群体，这是由于杂交混血过程带来的效应。如下图的D06个体，就各有部分DNA来自红色和黄色的亚群体。从另一个维度理解，为了达到哈温平衡，对不同的位点的分类方法是不同的。例如下图中，位点1的分类和位点2的分类策略就不同。位点1将D06个体划为红色亚群，而位点2将D06个体划分为黄色亚群。也就是说，软件是对每个位点单独进行分群的。

3.每个样本的血统构成
既然对每个位点都完成分群了，自然最终就可以计算每个个体的血统构成了。

参考文章：

群体结构图形——structure堆叠图： http://www.genedenovo.com/news/364.html

Structure图的构建与理解
介绍什么是structure图？如果你有看过群体遗传相关的文章，你对它肯定不会陌生。对那些还没有接触过的同学，...
2020-06-24 学习WES数据分析流程3
群体遗传专题-重测序技术介绍群体遗传专题：系统发育基础知识介绍群体遗传专题-structure图的构建与理解 ...
structure图绘制(三)----structure图的绘制
如何用经过格式转换形成的bed,bim,fam格式的文件绘制简单的structure图呢？下面将开始介绍admix...
应用化学韦秋月No.4意义协调
按照标题以及自己对内容的理解构建思维导图
Android Studio 调试native代码
File->Project Structure(选择要调试的Module)->Build Types(选择构建ty...
外刊精度day1
# 原文 # Vocabulary # Sentence structure # 思维导图 #Summary
UML基础知识
UML分类 1.结构型的图(Structure Diagram) 类图(Class Diagram)对象图(Obj...
Structure图的生成实战
Structure分析当然最经典的软件就是STRUCTURE。但Structure分析还有其他软件可以选择: AD...
Data Structure_图
图论无权图交通运输，社交网络，互联网，工作的安排，闹区活动等等都可以用到图论处理。图可以分成两大类，一类是无向...
Swift词法结构参考！
Swift 的“词法结构（lexical structure）”描述了如何在该语言中用字符序列构建合法标记，组成该...