美文网首页生信蛋白质组学学习蛋白组数据处理
蛋白质组学数据分析实践(一)

蛋白质组学数据分析实践(一)

作者: 克里克的钟 | 来源:发表于2021-04-22 15:57 被阅读0次

    蛋白质组学分析实践(一)

    文章标题:The Primary Effect on the Proteome of ARID1A-mutated Ovarian Clear Cell Carcinoma is Downregulation of the Mevalonate Pathway at the Post-transcriptional Level
    期刊:Molecular & cellular proteomics
    年份 : 2016
    DOI: 10.1074/mcp.M116.062539.
    数据来源:http://proteomecentral.proteomexchange.org, ID: PXD004570.

    说明:本文是学习了生信技能树公众号蛋白质组学相关推文学习整理的。

    MaxQuant搜库

    MaxQuant搜库的部分主要是电脑在跑程序,设置几个参数,注意experiment中的设置,应该为每一个重复试验文件为一个名字,相互之间各不相同,才能得到6个LFQ值进行统计分析。(第一次搜库就是没有设置这个,导致只有一个LFQ的值)。

    顺便说一下,MaxQuant搜库,OVCA429细胞敲除ARID1A和对照的这六个样本数据,电脑配置很菜:锐龙2600+8G DDR5 3000,跑了一天的时间才结束(设置的使用核心数是6个,电脑卡的几乎不能做其他事情)。

    后面的分析直接使用了搜库结果的txt数据。

    Perseus部分

    导入数据

    导入combined文件夹 --> txt文件夹 --> ProteinGroups.txt,选择LFQ intensity [分组]的6列数据为Main数据,其他的基本自动填充的。

    数据筛选质控

    数据筛选质控

    Filter rows --> Filter rows based ong category column,里面有3项,分3次除去之后,得到5681个蛋白质;然后剔除只匹配到一个肽段的蛋白(single peptide hits),这里使用的是Filter rows --> Filter rows based ong numeric/main column,选择Razer + unique peptides,Relation 1 写入x>1, OK。

    Filter rows

    得到4973行,也就是4973个蛋白质,与文章中的描述一致。


    4973个蛋白质 4973个蛋白质

    聚类分析

    文章结果的第二节(Label-free Comparisons Between ARID1A Knockout and Control Proteomes),就讲到使用的是LFQ来计算ARID1A敲除蛋白组和对照蛋白组中蛋白质组的相对丰度。

    归一化和缺失值的处理

    首先,点击Annot.Row,将样本分为两组,然后再进行数据转化操作。

    Annot.Row

    然后点击Basci --> transform,转换为log2的数据。这里会引入一些空值(NaN),因为数据本身有很多0,也就是没有匹配到蛋白信息。这些可能跟转录组有些差异,不能直接log(2+1),因为这样会导致数据偏差太大。文中的描述是:缺失值被假定为偏向于低于质谱检测限的低丰度蛋白质,称为:“missing not at random";(这是蛋白质组学研究中经常作出的假定); 缺失值被替换为中位数下移高斯分布中的随机值,以模拟低丰度LFQ值;每个样本分别从宽度为0.3,downshift为1.8的分布中进行估算。第二步,进行缺失值的处理,在imputation --> Replace missing values from normal distribution,默认参数,确定。


    imputation

    第三步,normalization,选择normalization --> Z-score,确定。2.3 聚类分析选择归一化后的数据,点击clustering图标,稍经调整,就可以得到文章中类似的图了


    HeatMap 原文的聚类图

    可以看到,趋势基本上是一致的。

    差异分析-火山图

    火山图选择log2后填充缺失值的数据,然后点击火山图的图标。使用的是双侧t检验,FDR在这里为T检验的p值,而S0是方差,当S0设置为0时表示仅p值起作用。number of randomization不知道是什么意思。结果如图:

    ScatterPlot

    目前只能达到这个效果,不知道设置。t检验显著的蛋白有2896个(奇怪的是每次计算都有所差异,是随机化的问题吗?)【用R做t.test的差异蛋白是2613,这其中的差别在哪里?】,然后计算|log2FC| > 1的有422个。文献讲到的是430和2606个,有些差别。在图的调整上,自由度也是非常有限。所以,如果要画火山图,还是将数据导出来,在R中绘制比较好。

    通过R来绘制火山图:

    火山图jpeg

    原文的图:

    原文的火山图

    是相差不多的。火山图的代码:

    draw_volcano_plot <- function(need_DEG,logFC_cutoff){
      if(! logFC_cutoff){
        logFC_cutoff <- with(need_DEG,mean(abs(log2FoldChange)) + 2*sd(abs( log2FoldChange)) )
      }
      #logFC_cutoff=1
      
      need_DEG$change = as.factor(ifelse(need_DEG$Pvalue < 0.05 & abs(need_DEG$log2FoldChange) > logFC_cutoff,
                                         ifelse(need_DEG$log2FoldChange > logFC_cutoff ,'UP','DOWN'),'NOT')
      )
      
      library(ggplot2)
      g = ggplot(data=need_DEG,
                 aes(x=log2FoldChange, y=-log10(Pvalue))) +
        geom_point(aes(color=change)) +
        xlab("log2 fold-change") + ylab("-log(p-value)") +
        scale_x_continuous(limits = c(-10, 10))+
        scale_y_continuous(limits = c(0, 8))+
        scale_colour_manual(values = c("#00AAAA",'darkgray','#00AAAA')) + ## corresponding to the levels(res$change)
        geom_hline(yintercept = -log10(0.05), linetype =2,size = 1, color = 'red')+
        geom_vline(xintercept = logFC_cutoff, linetype =2,size = 1, color = 'red')+
        geom_vline(xintercept = -logFC_cutoff, linetype =2, size =1,color = 'red')+
        geom_text(aes(x = -6,y = 7),label = "179 Proteins\n downregulated", color = "black", size = 4)+
        geom_text(aes(x = 6,y = 7),label = "91 Proteins\n upregulated",color = "black", size = 4)+
        theme_prism(border = TRUE) +
        coord_cartesian(clip = "off")
      print(g)
    }
    draw_volcano_plot(dat, 1)
    

    原文的上调蛋白是95,下调169。本次分析上调91,下调179。【可能有存在差异的地方】但是,后面的倍数变化的表格,也是对得上的。


    倍数变化的表格

    如果数据分析仅仅是这样的话,完全可以通过R来操作,归一化,缺失值的处理,剔除不符合条件的列,这些都可以通过R来分析。热图也没有问题。可能Perseus还有一些其他重要的内容吧,有时间把B站的视频学一遍。


    相关文章

      网友评论

        本文标题:蛋白质组学数据分析实践(一)

        本文链接:https://www.haomeiwen.com/subject/aqcfrltx.html