基因突变的规范命名是基因变异解读中不可或缺的一部分。1998年由人类基因组变异协会(HGVS)、人类变异项目组(HVP)和人类基因组组织(HUGO)联合成立序列变异描述工作组(SVD-WG),旨在建立一个稳定、有意义、且明确的命名系统,并不断更新和修正。HGVS的宗旨是明确定义,避免出现易混淆的概念或定义。在实际应用环境中有些学科将不能引起疾病的变异定义为多态性,有些则将人群发生频率大于1%的变异统称为多态性;同时,突变有时仅单纯表示序列改变,也还被特指为能够引起疾病的变异,并逐渐被认为具有负面含义。为此2016年更新版本中建议取消这两个专业术语,使用“变异”作为替代词。
变异类型
为了提高准确度、促进序列变异的计算机分析和描述,必须严格定义变异的基本类型。更新版将变异类型分为以下7类:
名称 | 释义 |
---|---|
插入(ins) | 序列中插入一个或多个核苷酸,并且插入序列并非上游序列拷贝 |
缺失(del) | 一个或多个核苷酸被移除 |
置换(>) | 一个核苷酸被另一个核苷酸替代 |
重复(dup) | 一个或多个核苷酸拷贝直接插入原始序列的下游 |
倒置 (inv) | 与原始序列反向互补的新的核苷酸序列(大于1个核苷酸)替换原始序列,例如由CTCGA变为TCGAG |
转换(con) | 一种特殊类型的缺失-插入,其中替代原始序列的核苷酸序列是来自基因组中另一个位点的序列拷贝 |
缺失-插入(delins/indel) | 一个或多个核苷酸被其他核苷酸替代,但并不是发生替代、倒置和转换 |
参考序列类型
由于基因组序列信息更为完善,包含多个启动子、可变剪接位点、不同的poly-A 信号,不同的翻译起始位点及长度变化等,通常将基因组作为首选参考序列。变异描述需包含DNA、RNA和蛋白质水平,并明确标注变异是通过实验确定还是仅为理论推断。为避免序列变异描述中出现混淆,通常使用一个字母表示参考序列的类型:
单字母 | 参考序列类型 | 单字母 | 参考序列类型 |
---|---|---|---|
g. | 基因组序列 | c. | cDNA序列 |
m. | 线粒体序列 | n. | 非编码DNA序列 |
r. | RNA序列 | p. | 蛋白序列 |
变异位置
g代表基因组,m代表线粒体, p代表蛋白质,这三种参考序列在定位时,都是从1开始计数,写法为g.1, m.1, p.1。
c代表编码蛋白的DNA序列,从起始密码子的第一个碱基开始计数,写法为c.1, 只对exon区间进行计数,终点为终止密码子的最后一个碱基。对于起始密码子上游的碱基,采用负号表示,比如c.-1;对于终止密码子下游的碱基, 采用表示,比如c.1。在内含子区的变异位点要根据距离来决定,靠近内含子5’末端的变异位点,要根据上游最近的外显子的最后一个碱基来定位;靠近内含子3’末端的变异位点,要根据下游最近的外显子的第一个碱基来定位。内含子碱基个数为偶数时,中间碱基平分后按上下游外显子碱基来定位命名;内含子碱基个数为奇数时,中间碱基相对于上游外显子最后一个碱基来定位命名。位于5’UTR和3’UTR区的变异位点,也当做内含子区来处理,5’UTR区添加c.-前缀;3’UTR区添加c.*前缀。
特殊字符
字符 | 释义 |
---|---|
fs | 蛋白质水平的移码突变 |
gom | 获得甲基化 |
Iom | 去甲基化 |
met | 甲基化 |
ext | 起始密码子和终止密码子变异导致的蛋白水平的改变,变异类型为延长 |
() | 预测的结果 |
? | 变异位置未知 |
/ | 嵌合体 |
// | 异源嵌合体 |
| | 不是序列的直接改变,而是一种修饰或一种状态的改变 |
:: | 描述RNA融合转录本和断点连接形成的环状染色体 |
^ | 或 |
[] | 等位基因,“;”用来分隔变异和等位基因 |
描述原则
一般原则
- 所有变异需先从DNA水平进行描述,还可从RNA水平和蛋白质水平上进行描述;
- 用变异的描述是否加 () 来说明变异是由实验确定的还是从理论上推导出来的;
- 所有的变异都应该根据公认的参考序列来描述;
- 在进行变异描述时,基因的描述要采用HGNC的官方基因名;
- 当变异可描述为几种变异类型时,优先级为:(1)替换,(2)删除,(3)倒位,(4)重复,(5)转换,(6)插入。
3’ 端法则
变异的描述需遵循最靠近3’ 端法则如“-ATGCCCCA-”变异成“-ATGC_CCA-”,根据3’ 端法则应描述为c.7delC,而不是c.5delC。
例外:当缺失/重复发生在外显子与外显子衔接处,且衔接处碱基相同,不遵循3’ 端法则。
如“..GAT gta..//..cag TCA..”缺失后变为“..GA_ gta..//..cag TCA..”,应描述为NM_004006.2:c.3921del,而不是NM_004006.2:c.3922del;“..GAT gta..//..cag TCA..”重复后变为“..GATT gta..//..cag TCA..”,应描述为NM_004006.2:c.3921dup,而不是NM_004006.2:c.3922dup。
重复序列变异描述原则
对于编码区DNA序列而言,重复序列的描述仅用于重复单元长度为3的倍数的重复序列,即不会影响阅读框的重复单元长度;若重复序列长度不是3的倍数,则不能用该形式描述。
delins原则
若两个变异被一个或多个核苷酸分隔,优先单独描述两个变异,而不采用delins合并描述;若被一个核苷酸分隔的两个变异,共同影响一个氨基酸,则合并描述为delins;若两个变异中的任何一个为已知的高频变异位点,则需要单独描述两个变异。
起始密码子变异描述
- 变异后不产生蛋白质以基因名:p.0形式描述;
- 变异对蛋白产物的影响不清楚且无法预测以基因名:p.?形式描述;
- 变异后产生新的起始氨基酸:当原始密码子上游5’ UTR区产生了新的起始氨基酸,可以基因名:p.Met1ext-碱基数形式或p.Met1extMet-碱基数形式描述,如p.Met1ext-8或p.Met1extMet-8;当原起始氨基酸丢失且下游产生新的起始氨基酸,导致蛋白前段部分氨基酸丢失,可以基因名:p.第二位氨基酸名2_Met新的起始密码子位置del形式描述,如p.Leu2_Met124del。
终止密码子变异描述
描述模式:基因名:p.*+原氨基酸数量+终止密码子突变后的氨基酸名+ext+*+X。当蛋白产物延长少于等于5个氨基酸时,X为延长部分的氨基酸名;当蛋白产物延长多于5个氨基酸时,X为延长部分的氨基酸数量;当延长的长度未知时,X用“?”表示。例如:p.*315TyrextAsnLysGlyThr*;p.*110Glnext*17;p.*327Argext*?
———以上纯属个人理解与记录
网友评论