美文网首页收入即学习
GEO数据挖掘之第一步:数据预处理与差异分析

GEO数据挖掘之第一步:数据预处理与差异分析

作者: 七禾叶瓣 | 来源:发表于2020-05-12 11:21 被阅读0次

作为一个刚接触生物信息这个专业小白,我正在努力学习着最基础的东西,最先是了解GEO数据库,自己利用数据进行分析,还好之前有R语言基础,这第一步就花了很长时间,但是完成后是很有成就感的,希望我在自己摸索的道路上越走越顺,接下来就是记录我学习心路。(可能有很多错误,欢迎各位老师指正)

首先是浏览GEO数据库,这个庞大的数据库看的我是真的晕,学好英文真的是很重要啊,不过不能急,慢慢来,一点一点去看,先下载几个数据看看,我一般是以白血病(leukemia)为例

GDS GSE GPL GSM

这四个东西我之前是分不清的,后来在强大的网络帮助下,我成功弄明白了,GSM是单个样本的实验数据,GDS是人工整理好的关于某个话题的GSM的集合,一个GDS中的GSM的平台是一样的,GSE是一个实验项目中的多个芯片实验,可能使用多个平台,GPL是芯片的平台,如Affymetrix, Aglent等。

好啦,接下来是下载数据了,以GSE13822为例,下载它的数据系列文件GSE_series_matrix,文件里面!号开头的是一些实验描述内容,一般包括标题,样本信息,实验平台,研究者,发布时间等等信息,处理数据前之前需要认真看这些内容。弄清楚样本数量,以及实验组和对照组的样本编号。

GSE_series_matrix头文件 数据从这里开始

ID_REF行为探针名,列为样本,整个矩阵就是对应的表达值

接下来是平台文件,这个实验的平台是在GPL570,所以一下是平台文件信息,#号开头的是对平台的描述

数据从ID那一行开始

这个文件我们在探针注释要用到,到时候具体要用的就是用绿色标出来的三列

接下来就是核心的内容了,就是数据预处理,这一步主要就是把数据进行一定的处理,然后筛选出差异基因,为后面的研究做准备,这里我用的工具是R语言

第一步,先提取数据,把我们需要的矩阵读入,从ID_REF开始

第二步,对数化,把数据从偏态分布转化成正态分布

第三步,探针过滤,去除表达值为负或者很小的数据(噪声数据)

第四步,补缺失值

第五步,数据标准化(核心)

第六步,探针注释

第七步,基因筛选

最后筛选出差异基因后,做了热图和火山图(具体代码和分析在后面那篇文章)

这个过程挺曲折的,我一直奔走在各大生物信息贴吧和学习视频里,最后终于完成了,我知道这仅仅是个开始,对我来说这个开始还挺好的。最后希望所有生信人都能大有作为吧,加油吧!

相关文章

网友评论

    本文标题:GEO数据挖掘之第一步:数据预处理与差异分析

    本文链接:https://www.haomeiwen.com/subject/auvvnhtx.html