手把手学习TCGA数据库：SNP突变分析第一期

作者: 765f2ea50d22 | 来源:发表于2019-07-25 14:36 被阅读39次

本文首发于 ”百味科研芝士“ 微信公众号，转载请注明：百味科研芝士，Focus科研人的百味需求

点击蓝字关注我们

SNP（single nucleotide polymorphism），单核苷酸多态性，在基因组上由单个核苷酸变异形成的遗传标记，一般指变异频率大于1％的单核苷酸变异。

用英文的描述方法是这样的“If more than 1% of a population does not carry the same nucleotide at a specific position in the DNA sequence, then this variation can be classified as a SNP.”

值得注意的一个词是“population”同英文文章中对样本表述的“array”，指的是在一大群个体中出现大于1%个体中基因组DNA上某个特定位点碱基较参考基因组发生变化，则认为是一个SNP。在人类基因组中大概每1000个碱基就有一个SNP, 人类基因组上的SNP 总量大概是3 ×10^6 个。因此，SNP成为第三代遗传标志，人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。

SNP发生的类型

SNP发生包括转换、颠换、插入和缺失，理论上每个位点都可以有4种形式的变异，但是实际上发生的只有转换和颠换两种，据说发生转换和颠换频率是2:1。如果你注意到了，你会发现在发生的转换中总是A突变成G，C突变成T，而且即使是转换，C>T的概率也要大于A>G的概率，这就是为什么研究的SNP为啥会经常是C>T或者A>G了。

补充一下：AT结合与CG结合中结合键是不同的：CG之间是三键结合，AT之间是双键结合，因此CG的结合力要比AT强，也就是说需要更高的温度，才能使得CG解链，这个温度相对应的关键参数就是Tm值，也就是解链一半时候的温度。

转换

［一种能量形式变成另外一种能量形式］，即嘌呤变嘌呤或者嘧啶变嘧啶，主要发生在CG序列，由于CG（可以联想一下研究DNA甲基化常谈到的CpG岛）中的C碱基常发生甲基化（mC），可自发脱氨形成胸腺嘧啶（T），即常常发生的转化是C to T。

颠换

异型碱基的置换，一个嘌呤被另外一个嘧啶替换或一个嘧啶被另外一个嘌呤置换，即嘌呤变嘧啶，或者嘧啶变嘌呤。（主要为A变T/C，G变T或C）

SNP发生的位置

SNP可以发生基因组的任何位置，基因编码区/基因非编码区/基因间区等，具体机制其实说也说不清，因为大多数SNP不是在外显子上的。基本上都是进化过程中的一些基因的突变，所以一般都不会是特别关键的位置。当然也不能说完全没有功能，有的会导致可变剪接，或者有的会导致表观上的变化。所以SNP的研究面会比较广，所以会有GWAS这样的项目。关系如下：

发生在编码区

先补充一个概念：密码子简并性（氨基酸对应三联密码子），所以发生SNP不一定会引起编码氨基酸的改变，这就引入了Synonymous SNP（同义突变，不引起任何变化）和Non-Synonymous SNP（非同义突变，大家关注的焦点）概念。对于不引起编码氨基酸变化的即为同义突变，引起氨基酸变化的则为非同义突变。

非同义突变又可分为错义突变和无义突变

错义突变

编码的某种氨基酸的密码子变成另一种氨基酸密码子，从而多肽链的氨基酸种类和序列发生改变，错义突变通常会使多肽链丧失原有功能。

无义突变

编码某一氨基酸的密码子变成UAA、UGA或UAG（终止密码子），导致多肽链翻译的中止，从而形成一条不完整的多肽链。

发生在基因非编码区或基因间区

可能会影响转录因子与DNA结合、影响非编码RNA序列、影响基因的剪接、mRNA的降解等。

SNP的命名

SNP的命名是很混乱的，你会看到RS1800947或者NG_000004.3以及CYP3A5*3，看到这大家是不是慌了？这都是什么鬼？

其实不同的组织机构命名不一样，并且坚持自己的命名方法。关于snp位点的命名其实并不统一，大家在文献中一般用的都是习惯或者说惯用名称。具体表现在以下几种形式：

RS命名法

RS命名法也被称为GenBank官方的refSNP ID单核苷酸多态性命名法，其是相对比较完善的命名体系，命名方法是rs+6/7位阿拉伯数字，包括前后序列，位置信息，分布频率等。如果已知一个SNP的refSNP ID，那么就可以在GenBank的SNP数据库中搜索到相关的信息和在基因组中的位置了。

网址：http://www.ncbi.nlm.nih.gov/snp/

譬如我搜索rs776746，你会发现CYP3A5 、ZSCAN25和RS776746是一个东西。

突变信息之间加上位置信息

主要有三种方式

突变信息之间+cDNA的位置，如C188T；
突变信息之间加上DNA的位置，如A2546G；
突变氨基酸信息之间加上氨基酸位置，如Glu145Lys.

按发现顺序或频率顺序拟定的惯用名称：

用*表示的，如CYP2D6*10,CYP2C9*3等。

前面加个m，表示突变的，如cyp2c19m2等，

还有一些也可以在文献中见到，如 CYP2E1的c1>c2的突变等等。其实这就是一种非常不正规的用HGVS Names标注SNP位置的方法，很明显，由于缺少引用核酸序列的接受号，因此读者无法从这样的表示在GenBank中查到对应的信息。

HGVS命名法

HGVS是Human Genome Variation Society (人类基因组变异协会) 的简称，是一个非政府的民间学术组织，其官方网站的网址：http://www.hgvs.org/。

HGVS命名SNP法的规则是标出引用的核酸序列号（Reference Sequence，RefSeq）和SNP在该核酸序列中的位置，例如：NG_000004.3:g.247167G>A，其中红色的部分是核酸序列接受号，绿色的部分是该单核苷酸多态性位点在该核酸序列中的位置，G>A表示原始碱基是G，突变碱基是A。这样的命名方法有利于找出所在基因序列中的位置。

OK，今天就先和大家分享到这，下期我们继续分享两个数据库的使用。

手把手学习TCGA数据库：SNP突变分析第一期

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

肿瘤

生信小白

GEO&TCGA数据库挖掘

BioStat

生信分析流程