项目总览
第一个视频主要是项目总览,介绍了整个课程的结构,每一讲主要要讲得东西,介绍了jimmy的github形式的教学,学员可以在clone or download里download整个项目文件夹,按照github上的提示完成整个流程。jimmy提醒大家学习R语言的时候要养成用文件夹+Project的形式来组织内容,即,在项目文件夹下面具有一个 XXX.Rproj的文件以及所有输入的数据以及所有产出的结果。这样做的好处有三点:
- 可以直接定位到所有数据以及代码
- 不用考虑环境变量
- 不需要修改路径。
理解这3个好处还是得先有环境变量、路径这些的概念。下载好github的文件夹之后,需要总览一下代码,需要理解一下每行代码的意思。在下载的时候需要考虑网络的问题,下载失败很可能是因为网络不好。
最后本课程是有偿学习,自愿付费,付费可以扫描最后的二维码,给jimmy的邮箱jmzeng1314@163.com发邮件,也会有意外的惊喜。也可以选择在腾讯课堂进行购买学习。
P1-通用文献阅读及规律
本个视频主要介绍了阅读做GEO数据分析的文献阅读技巧。首先,要知道数据来源,看文献,可以找到GSE号,不是GEO数据库的在此不做讨论;找到GSE号,可以采用URL拼接的方式,来到数据的主要,可以了解到实验室在哪个平台做的,实验的样本数以及分组情况。文献中还可以知道该分析用什么R包做了差异基因分析,知道筛选的阈值,即P值,logFoldchange等。知道了这些之后,我们接下来就要对数据进行下载以及处理。
P2-了解GEO数据库
这个视频主要介绍了GEO数据库,可以通过jimmy的微信推文,https://mp.weixin.qq.com/s/4tKmmxXrGoTfH3-sYLnRcg详细地了解,主要要知道的是四个简称:
- GEO platform,即GPL,是指该实验是在什么芯片或者测序仪上做的,单独定制的芯片也会有一个GPL号,GPL会记录探针以及基因的对应关系;
- GEO series,即GSE,一个实验或者一篇文章会给一个GSE号,当然有些文章会有多个GSE号;
- GEO sample, 即GSM,指一个实验中每一个独立样本的编号;
- GEO dataset,即GDS,用到的比较少,指根据研究目的将多个样本整合成一个数据集。
本视频还介绍了RefSeq数据库,http://www.biotrainee.com/thread-213-1-1.html这篇文章有详细的介绍,主要知道NG、NM、NP、XM,XR、XP分别代表什么。
本视频还介绍了关于芯片的基础知识,http://www.biotrainee.com/thread-899-1-1.html,此处有详细得介绍,当然还是要自己结合其它的资料进行总结的。
另外关于GEOquery包的介绍,应该是在下一讲中有具体的介绍。
P3- 数据下载的3种方式
这一讲介绍了三种下载GEO数据的方式,分别为:
- 下载raw data,存在问题:不同芯片的原始数据处理方式不一样;
- 下载series matrix,存在问题:网速问题;
- 在R里面读取GSE号,即使用GEOquery包,getGEO函数,存在问题:国内网络问题,无解;
getGEO的演示:
- 安装GEOquery包;
- library这个包,出现红字没有问题;
- 对照说明书操作。操作中出现问题的话,可以参考这两篇文章(后面更新的):
- http://www.bio-info-trainee.com/3713.html;
-
http://www.bio-info-trainee.com/3719.html;
注:下载卡住的话(原因:下载这些数据要耗费海外节点,有些网吧有海外节点,因为游戏是海外的,jimmy推测),可以修改参数来减少下载量:分别是AnnotGPL=F,getGPL=F,另一个参数是destdir='.',是保存的路径。
- 读取压缩包,a=read.table('文件名');参数:(sep='\t',quote="",fill=T,comment.char="!",head=T)
思路:
1.先看一眼表达矩阵,前面的!不需要,看一眼字符间是使用什么分割的。
2.使用步骤4的代码来操作。
P4- ID转换技巧大全
此视频介绍了将下载过来的数据进行转换的预处理,要解决的问题就是:一个基因可能会设置多个探针去测它,所以就会有多个探针对应一个基因名,我们想要知道的是一个基因对应的表达量,所以要把探针与基因进行对应,修改这个下载过来的表达矩阵。
所以要做的事情包括:
- 获取探针信息
- 获取探针信息与基因的对应关系(有两种方式,可以下载Bioconductor的包或者用getGEO来获得GPL的平台信息)
- 将探针与基因的顺序对应好
- 把一个基因对应对个探针的探针给过滤掉,选择均值最大的探针对应的表达量
- 把探针替换成相对应的基因
思路大概是这样的,通过这样的方式,我们就可以获得第一列是基因名,第一行是样品名,中间都是表达量的一个矩阵,可以进行下一步的操作了。
具体的代码还要自己照着再运行一遍。
P5 了解你的表达矩阵
下载好数据,处理好基因ID之后的表达矩阵,我们得知道这个表达矩阵是不是对的,所以要根据分组信息等对表达矩阵进行处理(20题中有范例)。
检验常见管家基因的表达量,做PCA分析以及Hclass图,判断所分析的矩阵的质量情况
1.可以检测一下表达矩阵中的内参基因的表达量,看是否与实际情况相符合,如GAPDH,ACTB等
- 看表达矩阵的分布图:各个样本表达量的boxplot,可以学习使用ggplot画图的方法,有一些原理的介绍,可以自己再延伸学习。
- 若分组之间的样本的表达水平差异较大,则需要进行校正。
- PCA图以及Hclass图:hclass的图可以出聚类以及进化图。PCA图:ggfortyify包,关键成分的分析。
对于课程的数据:下载好的数据需要将它保存为对象,下次只需要再load它就好。
P6 差异分析
这一文介绍了使用limma包来做差异分析,对于所有的函数或者是包,我们得先明白它要求的Input是什么以及它可以给我们的Output是什么。而Limma包需要的是表达矩阵以及分组矩阵以及差异比较矩阵;接下来视频介绍了一下流程,还是需要根据代码自己运行一遍;这一讲更加加强了包以及函数的概念,也介绍了一些代码的使用原因。最重要的还是自己运行以后自己梳理一遍。代码网址为:http://www.bio-info-trainee.com/bioconductor_China/software/limma.html
P7 火山图及热图制作及美化
本视频介绍了火山图的绘制以及使用clusterprofiler来进行富集分析,火山图就是一个横坐标为logFC,纵坐标为-log10(p value)的点状图;而富集分析就是对差异基因的结果进行的注释,它是通过数据库以及得到的差异分析做而做的一个超几何分布检验,原理的话视频中有讲,也需要自己结合统计来学习。通过已经有的包clusterprofilter可以进行富集分析,需要自己操作一下。
P8 KEGG,GO等数据库的注释及GSEA分析
通过KEGG,GO等数据库等进行的注释进行的分析,是假定每个基因的地位都是相等的,而在现实中,我们常常是有自己关心的基因,所以说基因是有重要不重要的区别的,这个时候就需要用到GSEA分析,本视频主要是通过clusterprofilter这个包进行GSEA分析,中间涉及到数据格式的转换,主要要熟悉R语言,原理的东西可以看之前的培训视频。
P9 收尾
最后介绍了GEO project这个项目的使用方法。需要对这个文件进行每一步的运行,如果需要进阶的话则需要看paper进行学习。
P10 批量生存分析代码大放送
本视频是一个福利,jimmy对一个数据集进行了一系列的操作演示,并加入了生存分析的操作。可以根据视频以及代码进行运行。其中的根据感兴趣的基因做差异分析很适合结合到自己的课题中。最后,R语言是生信编程里很重要的一部分,R语言得花时间去学习。
网友评论