摘要
单核苷酸多态性(SNP)研究和随机突变项目确定蛋白质编码区域的氨基酸替换。每一种替代都有可能影响蛋白质的功能。SIFT (Sorting Intolerant From Tolerant)是一个可以预测氨基酸替代是否会影响蛋白质功能的程序,这样用户就可以优先选择替代物进行进一步研究。我们已经证明,SIFT可以在突变研究和人类多态性中区分功能性中性和有害氨基酸变化。SIFT可在http://blocks.fhcrc.org/sift/SIFT.html上查询。
介绍
单核苷酸多态性(SNPs)在连锁和关联研究中被用作标记,以检测人类基因组中的哪些区域可能与疾病有关。SNP编码区和调控区可能与疾病本身有关。导致蛋白质产品中氨基酸变化的非同义单核苷酸多态性是我们的主要兴趣,因为氨基酸替换目前约占人类遗传疾病已知基因损伤的一半。SIFT使用序列同源性来预测氨基酸替换是否会影响蛋白质功能,从而可能改变表型。
SIFT已应用于人类变异数据库,能够区分与疾病有关的突变和中性多态性。假设致病氨基酸替换破坏蛋白质功能,我们将SIFT应用于与疾病相关或涉及疾病的误义替换数据库,SIFT预测69%(的突变)具有破坏性。当SIFT应用于dbSNP中非同义SNPs时(dbSNP是一个假定SNPs的数据库),25%的变异被预测是有害的。这与SIFT的20%假阳性错误相似,这表明大多数非同义SNPs在功能上是中性的。此外,预测影响功能的dbSNP变异子集与疾病有关,这证实了SIFT的敏感性。
备注:dbSNP为单核苷酸多态性数据库,由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。
SIFT算法仅依靠序列进行预测,但其表现与使用结构的工具类似。不需要结构的一个优点是可以预测更多的替换。SNP联盟鉴定的非同义SNPs中,74%与SIFT预测的蛋白序列数据库中的同源物足够相似。随着更多的基因组测序和更多的蛋白质序列可用,预计SIFT可以预测的替换数量将会增加。
SNP联盟(TSC)成立于1999年,由几家公司和机构合作,以生产人类基因组中的单核苷酸多态性(SNPs)公共资源。
筛选预测方法
SIFT假设重要的氨基酸在蛋白质家族中是保守的,因此在保守良好的位置上的变化往往被预测为有害的。例如,如果一个蛋白质家族的某一序列中只含有异亮氨酸,则可以假定该序列对任何其他氨基酸都进行了选择,而异亮氨酸是蛋白质功能所必需的。因此,任何其他氨基酸的变化都将被预测对蛋白质功能有害。如果一条直线上的一个位置含有疏水氨基酸异亮氨酸、缬氨酸和亮氨酸,那么实际上SIFT就假定这个位置只能含有疏水特性的氨基酸。在这个位置,其他疏水氨基酸的变化通常被预测是可以耐受的,但其他残基(如带电的或极性的)的变化将被预测影响蛋白质功能。
为了预测蛋白质中的氨基酸替换是否会影响蛋白质功能,SIFT考虑了发生变化的位置和氨基酸变化的类型。给定一个蛋白质序列,SIFT选择相关蛋白质,并获得这些蛋白质与查询的对齐。根据排列中每个位置出现的氨基酸,SIFT计算在最常见氨基酸被容忍的条件下某个位置上的氨基酸被容忍的概率。如果这个归一化值小于一个截断值,则预测替换是有害的。SIFT算法和软件之前已经描述过(Predicting deleterious amino acid
substitutions,Accounting for human polymorphisms predicted to affect protein function)。
筛选的网站
输入
用户可以在https://sift.bii.a-star.edu.sg/www/SIFT4G_vcf_submit.html上获取感兴趣的氨基酸变化预测。
网站页面如下:
由于原始文献中的链接失效,上图是个人找的一个页面,可以尝试使用,如果想了解算法原理可以看上面括号中的两篇引用文章。
网友评论