用来上传质谱数据的
教程:wayenbio.com/jishu-212389-18447-item-162890.html
很多完成质谱检测后,到了文章发表的阶段都会咨询如何上传原始数据到公共数据库这个问题。对于组学研究来说,文章发表时杂志社一般会要求将原始数据上传到公共数据库,并在正文中提供相应数据库编号供同行下载,以重新进行数据分析和核对。随着蛋白组学的发展,专门供质谱原始数据储存和分享的数据库也出现了,功能也日趋完善。今天,将为大家介绍一款目前应用体验度排名靠前的数据库——ProteomeXchange。
ProteomeXchange(简称PX),是应用较为广泛的蛋白质组学质谱数据存储平台(http://www.proteomexchange.org),其旗下包括了PRIDE Archive, MassIVE, PeptideAtlas, jPOST等质谱数据存储平台,接下来我们将一起体验如何一步步上传我们的质谱原始数据到PX上。
二、 上传数据内容说明
上传的数据集(dataset)往往包含质谱仪下机的原始文件(Raw data)、搜库完成后的结果文件以及实验信息等。其中质谱原始数据,我们称之为“RAW”,常见为质谱仪直接输出的raw格式文件,或者经过加工后的XML形式文件(mzXML或者mzML);搜库结果文件为ProteinGroups和Peptides蛋白肽段鉴定结果,称之为“RESULTS”。对于微生物等特殊物种,可以选择上传搜库时所比对的DNA测序转换成的氨基酸序列数据文件(一般为.fasta后缀的格式文件)等等。华盈生物目前报告中常用的质谱搜库软件包括Maxquant软件和Proteome Discoverer软件(PD)等。上传数据库时,一般针对Maxquant软件搜库结果,选择上传原始下机Raw文件+搜库结果文件search(可以将table文件夹中所有文件压缩得到压缩包直接上传)。
针对PD软件搜库结果,选择上传原始下机Raw文件+蛋白鉴定列表+搜库searchsummary结果。
教程2
https://www.sohu.com/a/399973800_769248
1 如何向PRIDE提交数据
PRIDE可以直接提交蛋白质和多肽鉴定/定量数据以及随附的质谱证据和任何其他相关数据类型。PRIDE支持任何实验方法得到的蛋白质组学数据集的存储。当前,向PRIDE提交数据的方式是使用“PX Submission tool”(详细操作步骤与附于文末)。
2 注册成为PRIDE注册用户
在提交到PRIDE数据库之前,用户需要确保它具有使用PRIDE资源的帐户。如果您还没有PRIDE帐户,请点击https://www.ebi.ac.uk/pride/archive/register进行创建。成功注册后不会发送自动电子邮件。如果注册24小时后登录信息无效,请联系 pride-support@ebi.ac.uk进行处理。
3 什么是PRIDE数据集?
一般规则是,一个数据集中的数据应当与同一手稿相关,而且所有数据都来自同一工作流程(例如:DDA)。如果手稿包含来自不同蛋白质组学工作流程(DDA和SRM)的数据,则需要将数据拆分为不同的数据集,以便第三方轻松理解。但是,应该强调的是,数据集如何组成由提交者,这可能还取决于其它某些因素(例如出版刊物)。
4 全部和部分提交
PRIDE支持两种类型数据集提交方式:
1)完整提交:完整提交可确保处理结果相关质谱数据可以通过PRIDE解析、整合和可视化,并将鉴定结果与质谱数据进行关联。为此,鉴定结果需要以PSI开放标准格式(mzIdentML或mzTab)提供。
2)部分提交:在这种情况下,处理后的识别结果将以不同于上述完整提交的数据格式提供。对于PRIDE,则无法将鉴定结果进行解析、整合和可视化以及将处理后的结果与质谱图相对应。但是,所有提交的文件都可以下载,这种机制允许从无法导出为支持格式的软件生成的数据,或从不太成熟的蛋白质组学实验方法中生成的数据都能存储在PRIDE中。
5 提交准备
首先,需要了解哪些文件是强制性的,哪些是推荐的,哪些是可选的,以及提供每种文件类型的好处。每个提交给PRIDE的数据集都必须包含以下信息(遵循ProteomeXchange指南):
1)质谱仪输出文件(RAW文件)(强制提交):RAW文件是本机数据文件(Thermo .RAW,ABSCIEX .wiff/.scan,Agilent .d,Waters .raw,Bruker .yep,Bruker .baf )。每个RAW文件需要与至少一个SEARCH文件相关联。
2)mzTab或mzIdentML结果文件(结果文件)(完整提交必须):mzTab和mzIdentML是大多数分析软件工具提供的标准文件格式。mzIdentML文件仅包含标识信息,而mzTab文件可以包含标识和定量结果。这些文件至少需要与一个“ PEAK”(peak list)文件相关联。
3)肽/蛋白质鉴定文件(SEARCH文件)(部分提交必须,完整提交可选):这些是用于执行数据分析的软件输出文件(Mascot .dat,ProteomeDiscover .msf)。每个SEARCH文件至少与一个RAW文件相关联。
4)PEAK列表文件(PEAK文件)(完整提交必须):如果提供了mzTab或mzIdentML,则必须提供相应的PEAK列表文件,以便能够检查MS / MS证据以支持肽段/蛋白质鉴定。
也可以选择将其它相关文件包含在数据集提交中,以利于审核过程、重现原始结果或对数据集的理解:
以下文件有特定标签:实验中生成的凝胶图像('GEL'),搜索序列数据库文件(FASTA),质谱库('SPECTRUM_LIBRARY')以及任何其它相关文件('OTHER')。
6 数据集提交
文件上传需要通过 PX Submission Tool。PX提交工具指导用户完成提交过程,最后生成submitting.px文件。Submit.px文件包含两种关键信息:
1)元数据:必需的实验元数据,例如实验说明,样品分类信息,使用的仪器和蛋白质修饰类型。
2)上传文件之间的映射关系:例如RAW文件与相应的“RESULT”或搜索引擎输出文件(“SEARCH”)之间的映射。
最终,用户可以使用Aspera(默认)或PX提交工具提供的FTP文件传输协议提交数据集。
7 提交后步骤
1)修改原始数据集:如果您需要添加少量补充“其它文件”(例如csv,纯文本文件,扩展表格,脚本等),可以通过FTP协议上传并将其添加到原始数据集,而无需重新提交整个数据集。如果您使用了PX Submission Tool ,并且需要添加其他RAW文件以及随附的RESULT或SEARCH文件,则需要再次重新提交整个数据集。
2)引用论文中的数据集。
3)公开发布数据集
默认情况下,在稿件被接受或得到作者通知后,数据集将被公开。通知方式:
-
通过PRIDE存档网站(http://www.ebi.ac.uk/pride/archive)。帐户登录http://www.ebi.ac.uk/pride/archive/login,单击未发布的数据集旁边的绿色“发布”按钮。您可以在此处提供数据集的详细信息并提交Web表单。
-
如果您不是原始提交者,但是发现该数据集已包含在出版物中,则可以直接转到https://www.ebi.ac.uk/pride/archive/projects/PXDxxxxxx/publish,其中“xxxxxx'是包含PXD数据集标识符的整数。
将项目公开后,将在PRIDE中发布项目页面,也可以在ProteomeCentral(http://proteomecentral.proteomexchange.org)上找到该页面。
数据集公开发布政策的例外
仅在有案可查的特殊情况下才可授予本政策的例外情况,具体情况将逐案考虑。如果原始提交者已在其他正在进行的研究中使用或计划使用相同的数据集(应发布),则他们可以请求一次扩展未发布状态。延长期限最长为6个月。数据所有者必须向PRIDE提出正式请求,并适当证明该请求的合理性。应当注意的是,这个为期6个月的延期并未考虑发表该文章的科学期刊的要求,这可能会要求无论如何都要立即发布数据。
附录1.支持文件归类:
image附录2.支持上传原始数据性:
image附录3.SEARCH文件类型:
image附录4.PEAK文件类型:
image附件5.RESULT文件类型:
image提交SOP:
https://www.ebi.ac.uk/pride/static/markdown/submitdatapage/files/Submission_Tutorial.pdf
指导文献:
https://onlinelibrary.wiley.com/doi/full/10.1002/pmic.201400120
参考文献
网友评论