美文网首页蛋白质组学蛋白组数据处理
数据分析:质谱数据初认识

数据分析:质谱数据初认识

作者: 生信学习者2 | 来源:发表于2021-02-26 08:59 被阅读0次

介绍

最近处理一批基于Thermo Fisher Scientific (Orbitrap) Mass Spectrometry Systems的raw data质谱数据,记录一下该过程,特别感谢室友张乐提供的信息。更多知识分享请到 https://zouhua.top/

背景知识

细胞内蛋白质组丰度的动态变化对不同生命过程有重要影响。例如在许多疾病的发生和发展进程中,常常伴随着某些蛋白质的表达异常。目前定量蛋白质组学技术主要分为标记(label)策略和非标记的(label free)定量策略,其中标记策略又分为体内标记(如 SILAC、15N 标记),以及体外标记(如 iTRAQ、TMT 标记) 。

非标记定量(label-free)蛋白质组学技术是通过液质联用技术对蛋白质酶解肽段进行质谱分析,该技术不需要使用昂贵的稳定同位素标签做内部标准,只需分析大规模鉴定蛋白质时所产生的质谱数据,比较不同样品中相应肽段的信号强度,从而对肽段对应的蛋白质进行相对定量。

软件

转换

赛默飞的raw数据格式需要转换,可以使用MSconvert或ThermoRawFileParser等软件。

在获取图谱过程中,常会用到2018年才推出的FAIMS(High-Field Asymmetric Waveform Ion Mobility Spectrometry)技术以用于加载不同电压(肽段在ESI离子化后,进入质谱之前实现快速气相分离,提高分离的峰容量),直接使用多电压下的raw data做MaxQuant定量分析是错误的,MaxQuant软件只能识别单电压的raw data,因此需要使用FAIMS MzXML Generator 软件将raw data转换成各自电压下的MzXML文件。

质控

IQuant 原华大质谱组员工闻博撰写,其输入MGF文件基于Mascot(收费软件)。

搜库

MaxQuant,MSGFplus,Comet。前一个最好用win版本,后两个用linux版本,然后后两个是最好用主流的质控软件。

收费软件:Proteome Discoverer, Mascot。

后期处理

Percolator
Perseus

评估质谱数据

第一种是实验手段,用MALDI-TOF预先评估样本的蛋白含量水平。

第二种就是直接做完鉴定之后看谱图识别率或者蛋白CV。

proteoQC

该软件结合参考蛋白质数据库,对MGF(Mascot Generic Format files)格式的文件进行质控处理,最后得到多个质控信息。

搜索数据库选择

不关注变异蛋白质可以使用Human data was queried against the UniProt’s Complete HUMAN proteome;否则需要根据特定组织类型选择对应的背景数据库找到变异蛋白。

  • uniprot/swissprot只包含非变异序列 ;
  • 患者的测序数据组装之后翻译成蛋白做ref;

下游分析

分析蛋白质表达谱,建议使用LFQ或iBAQ intensity,不建议直接使用intensity。

  • Protein intensity. For protein groups, this is the sum of all identified peptide intensities for the group. Peptide-feature intensities are taken at the peak maximum over the elution profile and include all isotopic peaks.
  • LFQ intensity. This is the relative protein quantification across all samples, and is represented by a normalized intensity profile that is generated according to the algorithms described in Cox et al. The LFQ intensities will form a matrix with the number of samples and number of protein groups as dimensions.
  • iBAQ protein intensity. Intensity-based absolute quantification is an approximation of protein copy numbers based on the sum of peptide-feature intensities of all peptides matching to a protein divided by the number of theoretically observable peptides.

相关R包

R for proteomics

参考

  1. 质谱测序简介
  2. 蛋白质组学定量软件
  3. 蛋白质组学数据分析基础
  4. ThermoRawFileParser质谱raw格式转换mgf
  5. MaxQuant参数设置
  6. 蛋白组学下游分析
  7. Bioconductor的质谱蛋白组学数据分析
  8. MaxQuant结果解析

参考文章如引起任何侵权问题,可以与我联系,谢谢。

相关文章

网友评论

    本文标题:数据分析:质谱数据初认识

    本文链接:https://www.haomeiwen.com/subject/kkxmfltx.html