美文网首页蛋白质组学
2019-11-12 蛋白鉴定攻略之—去噪是宇宙中永恒的课题!

2019-11-12 蛋白鉴定攻略之—去噪是宇宙中永恒的课题!

作者: iColors | 来源:发表于2019-11-12 20:26 被阅读0次

    转发自http://crickcollege.com/news/99.html

    关于蛋白鉴定,之前我们聊到了数据库搜索问题,还没有get到技能的童鞋,可别错过以下链接。

    除了数据库设置对搜索结果的影响以外,蛋白鉴定过程中还有很多的门门道道,对于初学者来说,不小心的话很容易被带沟里去!比如,在谱图比对这件事上,看起来似乎很简单,可是大伙儿知道吗,对同一个样品的质谱数据,任何两个鉴定软件的结果报告都不会完全一样呢!如果我们对那些造成偏差的因素一无所知,那就只能对着结果发呆……

    显然,我们谁也不想在科学面前只做个呆萌的小白!虽然导致蛋白鉴定出现偏差的原因错综复杂,但也不需要被吓倒,今儿就请跟着小编进入质谱谱图的世界里小逛一遭吧!如果你能陪小编到最后,或许就能解答那个经常困扰大伙儿的问题:为啥有些看上去很靠谱的谱峰,却没有被鉴定软件报告出来呢?

    先上一张千年老图,唤醒一下大伙儿的记忆:

    image

    注意看最后一步,碎片离子的峰图输出给鉴定软件,与预测的谱图进行比对。理想的谱图应该是所有谱峰高度相同,因为每一个谱峰代表一个对应的氨基酸残基的信号。可是真实的谱图呢?地球人都知道,是参差不齐,高高低低的。就不能长点心,弄得整齐一点么?没办法,质谱做不到啊!

    这些参差不齐的谱峰里,包含了有效信号,也包含很多噪音。人类监听宇宙辐射时,很容易过滤3K背景辐射,因为它很稳定,而谱图中如何过滤掉高低起伏的背景噪音呢?

    要聊这个问题,我们得先来看看在一个常用的软件中,谱峰匹配是怎么标识的。以目前业内最常用的蛋白鉴定软件之一Mascot为例,在鉴定结果的肽段匹配信息中,当我们查看谱峰匹配情况就会发现,整个谱图中可能就只有一小部分的谱峰会被标记上肽段碎片信息,即b、y离子信息,例如下图:

    image

    谱图中红色标记的b、y离子信息对应的谱峰被软件判断为有信号的谱峰,即使用Label matches used for scoring选项(红色椭圆框住的位置)。左上角的示意图表示与谱峰对应的肽段碎裂方式。图片来源:Mascot

    如果你眼睛睁得足够大,就一定会发现,这张谱图左侧还有一些看上去分子量正确的谱峰,信号强度也很好,却被直接无视了……这不是个看脸的世界吗?

    还好,在Mascot 中,有一个标记打分离子和所有可能匹配离子的开关(谱图下方),可以帮助我们弄清楚这里面的机关。如果我们选“Label all possible matches”(该选项位于图的左下方),就能看到所有可能的b、y离子匹配,如下图:

    image

    图片来源:Mascot

    大家发现了没有?谱峰左侧多出了几个b、y离子标记。原来,这些谱峰也是可以被标记的呀!那么,问题就来了,为什么不直接对所有可能的碎片匹配进行标记呢?

    在继续聊这个话题之前,先插播一段b、y离子生平(认识的小伙伴请直接跳过这一段):话说,肽段碎裂时可能会从氨基酸链的三个位置断开,形成的三类不同的离子,即a-x离子、b-y离子和c-z离子(如下图)。不同的质谱仪器类型,形成的碎裂方式就会不同,目前普遍使用的这些质谱仪器中,最常见的CID/HCD碎裂方式就是从形成b-y离子的这个位置断开的,所以搜库软件对谱峰主要进行b、y离子标记,当然,在必要时,你也可以通过修改参数来标记其它类型的离子。

    image

    肽段断裂有三种可能的位置,形成对应的三种不同的离子类型。

    回到刚才的问题,为啥不把所有可能的谱峰都标记上呢?来,我们观察一下原始质谱的谱峰到底是个什么情况,如果你打开一张质谱原始谱图,尽可能的放大其m/z区域,比如下图,你会发现几乎每个分子量坐标处都会出现或高强度或非常微弱的谱峰,我们把这种情况叫做 “peak at every mass”,这是质谱产生的化学噪音信息,事实上,就算是当前最新最高端的质谱也是很难避免的。如果搜库软件把这些噪音都进行打分计算,那么该谱图几乎能够匹配上任何序列。打个不恰当的比方,就像你如果把3K背景辐射当作是三体人在跟你喊话,你可以想像对方说的是“不要回答”,也可以想像对方说的是“We are family”,都是yy而已!

    image

    此图中,几乎每个正确的分子量坐标处都出现了谱峰,但事实上这些谱峰中大部分都是由于仪器本身的问题引入的化学噪音,如果将这些噪音都拿来打分计算,则可以与几乎任何肽段匹配上。

    显然,机智如我们,肯定会在信号和噪音之间做出判断和取舍。不过,取舍的时候,小编要再强调一下,你一定不能只考虑谱图中的最强信号!因为在整个质量范围内总会出现很强的系统噪音,这是仪器平台本身造成的。比如,中等质量端(比如m/z 200~800)的碎片信号一般总是比高质量端的信号强一些(以第一组谱图为例,低质量端谱峰的密度和强度都明显比高质量端的大),显然我们不会把那些都当作是有效信号来处理的。

    所以呢,谱图的世界,只看脸是行不通的。由于质谱本身的局限,加上仪器的不稳定,要直接从谱峰的面相上去判断确实是很困难的。于是,一些聪明的搜库软件,比如Mascot,会使用更加简单而聪明的方法。比如,将整个谱图分隔成110Da一段进行分段匹配,在每一段质量范围内选择最强谱峰,将所有选出的谱峰进行打分计算,然后将每一个区域次强的谱峰加入数据集再次打分。这样不断循环,最后得到一个最佳得分组合,再进行结果报告。

    这样的方法,因为进行了全局的考虑,所以比报告所有可能的谱峰匹配更加靠谱。而事实也证明了,这种处理方法能够将最真实的肽段碎片谱峰挑选出来,并有效的去除噪音。看到这里,你是不是觉得可以安心了?

    且慢,难道你不好奇,为什么要选择110Da来进行分隔吗?其实呢,氨基酸残基的平均加权分子量在SwissProt数据库中大约为110Da。显然,我们没法先验性的预估谱图中应该是怎样的离子分布,所以只能假定每隔110Da应该至少会出现一个有效的肽段碎片谱峰。还好,这种假定通常都work得不错~

    But,真实的谱图情况是很复杂的,比如我们再深入一步来看:当一个谱图中有很密集的谱峰用于打分时,肽段碎片匹配率将持续上升。这个应该很好理解吧,谱峰越密,能匹配上肽段碎片的机率也越高。但是,匹配率高了,却不一定会使得分也会变高,也就是说,E-value不一定高!(搞不清楚E-value是啥的,请自动脑补我们另一篇人气推文>>p值、E值、FDR、q值…你晕菜了吗?

    甚至,在某些情况下,谱峰密集,得分反而会下降!比如下面的第一张谱图,可以看到用来打分的谱峰很密集,而第二张谱图,明显要稀疏很多。而在 Mascot软件中,这两张谱图的打分居然是一样一样的!

    image image

    细想想,也不难理解。Mascot是基于概率计算的,也就是说,候选打分谱图的数量和实际匹配的数量都会影响得分。比如,使用20个候选离子可以得到12个匹配时,其得分一定会大于30个离子中14个可以匹配的情形。所以,谱峰多是没有用的,关键是有效的信号峰占的比例。

    常用的搜库软件都会向我们展示碎片的匹配情形及其得分,当你看到一张峰谱很密却得分不高的谱峰时,你自然就会意识到,这是一张比较“烂”的谱图。如果你的实验结果中有很多这种“烂”谱图,你就应该反省一下实验过程是不是有什么问题了。

    看出来吧,查看谱图是多么必要的事情,这事儿可别偷懒,如果以为搜库软件把一切都弄好了,瞄一眼结果就完事儿,那很多问题你是发现不了的。这就是为啥同样的软件工具,在小白和大牛的手里,玩法会有很大差别了!

    最后,跟大家卖个关子:说实话,搞算法开发的技术咖们,在进行谱图处理算法优化时,常常也是各种纠结!他们会很犹豫,是否要进行更多的谱峰预过滤,处理过头了,容易漏掉有效的信号,处理不到位,又会有噪音浑水摸鱼…唉,世界总是充满矛盾!而且,很难找到一个普适的方法,对于所有实验都很有效。有时我们就会发现,同一种方法,在某些谱图上得到比较好的结果,在其他实验的谱图中又显得发挥失常。所以,这就需要一些更精细的处理算法,比如正确的谱峰去卷积和去同位素处理等。若大家感兴趣的话,小编可以在后续文章中专门讨论如何有效去除母离子同位素峰。

    相关文章

      网友评论

        本文标题:2019-11-12 蛋白鉴定攻略之—去噪是宇宙中永恒的课题!

        本文链接:https://www.haomeiwen.com/subject/fazqictx.html