美文网首页数据-R语言-图表-决策-Linux-Python数据科学与R语言生物信息学与算法
重磅:GEO数据库挖掘教程(4)一体化分析代码(带视频+R代码分

重磅:GEO数据库挖掘教程(4)一体化分析代码(带视频+R代码分

作者: fc7587d03c83 | 来源:发表于2019-03-14 16:03 被阅读15次

    前面三期的课程中,我们从GEO基础知识快速锁定目标数据以及R语言基础这三个方面讲解了GEO数据挖掘的背景知识,课后大家也都很积极地找到折耳猫小姐姐和小猎豹,提了很多的问题,最频繁的提问就是:“何时出下一期”、“什么时候教数据分析”,可见大家的学习热情都非常高涨,对GEO数据挖掘非常感兴趣。今天,我们就来讲GEO数据挖掘的终极教程。

    众所周知,GEO里面大部分是表达谱数据,而表达谱的数据挖掘涉及众多的分析方法和繁琐的分析步骤,这里给大家做了一个大致的流程图,以便大家有一个整体而全面的认知。简而言之,GEO的数据分析就分为两大步骤:(1)从原始数据基因表达值,这里要经过繁琐的数据前处理过程;(2)从表达值功能分析(差异基因/聚类/功能富集等)。下面我们就按部就班地进行讲解。

    GEO数据分析步骤

    Step1:从原始数据到表达值

    这一步骤是相对比较简单、比较固定的流程,但是其在数据分析过程中的地位至~关~重~要!因为后续所有的高级分析都是建立在表达值的基础上,如果这里出了问题,那么后续所有分析都会产生极大的偏差。在GEO中,所有的data series除了上传原始数据外,还会有一个已经处理好的表达值矩阵,这个是GEO强制要求submitter在上传过程中必须上传的,就存储在series matrix file中。我们在分析数据的时候,可以直接使用这个series matrix file作为表达值进行后续的分析。

    Step2:从表达值到功能分析

    有了表达值以后,我们就可以“畅所欲为”了。常见的后续分析有:差异表达分析、层次聚类,主成分分析等,主要根据我们的分析目的来定。现在,我们来对他们进行逐个讲解。

    a. 差异表达分析

    这个分析相对较好理解,其实就是两个不同分组之间基因表达值有差异的基因。一般通过两个指标去进行筛选:Fold change(变化倍数,简称FC),以及P value(P值)。常用的FC阈值为2,P value的阈值为0.05或者0.01。

    b. 层次聚类分析

    这个也是表达谱分析中的常用套路,其理论基础是:基因之间存在共表达,在表达谱上具有相似性的基因或样本可能具有潜在的相关性。在聚类分析中,基因被看作是一个向量,通过元素与元素之间的距离,将不同的元素归类。通过层次聚类,我们把表达谱相近似的基因或者样本富集在一起,然后再对特定的基因进行功能分析,或者对临床样本进行表型的挖掘。

    c. 主成分分析

    Principle Component Analysis, PCA。属于降维分析的一种,将样本从输入空间通过线性或非线性映射到一个低维空间,减少了后续步骤处理的计算量,当降至三维以下时还可用于可视化技术,从而发挥人在低维空间感知上的优点,发现数据集的空间分布、聚类性质等结构特征。PCA对于分析样本的相关性具有自己独到的优势。

    好了,讲了这么多原理,是不是觉得有点头晕脑胀呢,大家可能会想:讲了这么多,还没有教我们怎么做,有什么用?

    嗯~~那我就要放干货了,各位请接招吧。为了方便大家对GEO数据进行深入的分析挖掘,我们开发了一款高效、集成的数据分析流程,整合在一个R代码中,大家只需输入数据集的几个相关编号即可。

    我给这个代码起了一个非常炫酷的名字:GEO Terminator。可能有点夸张,但是绝对实用。我们要做的就是到GEO找到你要分析的数据,不知道怎么找的,请参见我们的上一篇(GEO数据库挖掘(2)--快速锁定目标数据),输入GSExxx,以及检测平台GPLxxx,自定义一下要分析的样本表型,然后全选(Ctrl+A),运行(Ctrl+Enter)即可。整个代码运行可能需要几分钟到十几分钟的时间,根据你的数据大小和网速快慢而定,最终结果是这样的:

    猎豹一出手,便知有没有~。只需输入几个编号,所有分析全自动运行,包括:(1)质控箱线图,(2)差异表达基因,(3)层次聚类热图,(4)差异表达火山图,(5)主成分分析散点图,囊括表达谱数据挖掘的所有基本分析。

    相信大家都参加在线上或者线下的诸多收费型培训,这种技术含量超高的“黑科”的价格不菲,现在睁大双眼,握紧水杯,科研猫正式宣布,免费分享此代码,惠及更多被科研折磨的脱毛的猫猫们~~

    代码免费分享,

    代码免费分享,

    代码免费分享!


    只要扫描下方二维码

    联系“折耳猫”小姐姐

    免费获取!

    为了避免个别同学运行中遇到问题,强迫癌晚期的小猎豹又给大家录视频喽,教大家该如何运行这个代码,完成GEO的数据挖掘。

    视频操作

    腾讯视频地址:

    https://v.qq.com/x/page/i08494wgw5o.html


    GEO数据库挖掘教程(R语言)--公众号:科研猫_腾讯视频

    如果你在操作过程中还是需要问题

    点击下方留言

    可直接联系到小猎豹师兄哦~

    往期热文:

    挖掘GEO速成SCI文章系列教程

    GEO数据库挖掘(1)--SCI文章速成

    GEO数据库挖掘(2)--快速锁定目标数据

    挖掘GEO速成SCI文章系列教程(3)-R语言基础

    GO/KEGG功能富集分析系列

    3分钟了解GO/KEGG功能富集分析

    干货预警:3分钟搞定GO/KEGG功能富集分析(2)

    终极篇:3分钟搞定GO/KEGG功能富集分析-柱状图

    终极篇:3分钟搞定GO/KEGG功能富集分析-气泡图

    TCGA数据挖掘系列

    隔壁实验室的“秃鹫”师兄又发SCI啦--TCGA数据挖掘实战

    TCGA数据挖掘终结者:cBioPortal

    生物信息入门系列

    大咖聊“生信”—生物信息系列(1)

    生物信息系列课程-R语言入门

    更多科研新鲜资讯、文献精度和生物信息技能,请关注科研猫公众号

    下方点好看,更多好看。

    若喜欢,为小猎豹点个喜欢

    相关文章

      网友评论

        本文标题:重磅:GEO数据库挖掘教程(4)一体化分析代码(带视频+R代码分

        本文链接:https://www.haomeiwen.com/subject/soccmqtx.html