Nathan写于20200807。
OSCA(OmicS-data-based Complex trait Analysis)是杨老师2019年发表的用于分析多组学数据复杂性状的软件。
OSCA发表文献
OSCA主要可以做以下几个事情:
- 计算表观标记(或者基因表达)数据个体之间的表观组(转录组)的亲缘关系
- 基于混合线性模型的方法检测DNA甲基化(或者基因表达)标记与复杂性状之间的关联(使用MOA和MOMENT方法)
- 在混合线性模型(类似于BLUP)中,估算所有甲基化(转录本)标记对表型联合的“效应”
- 基于具有相关协变量的线性回归模型的eQTL / mQTL分析
OSCA软件的下载和说明是在一个独立的网站,并没有发表在GitHub,而且这个网站有多个杨老师开发的软件,比如GCTA等,有兴趣的话可以浏览一下https://cnsgenomics.com/software/osca/#Overview
00准备工作
eQTL不是一个新奇的分析了,早在12年就有专门针对eQTL的R发表了——MatrixEQTL。虽然MatrixEQTL仍然是现在很多文章是用的软件,但是由于它是R写的,并且输入文件也比较繁琐和复杂,所以我们这次是使用OSCA去做eQTL。
这里先讲明eQTL的几个概念,cis-eQTL和trans-eQTL。cis-eQTL就是某个基因的 eQTL 定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的 mRNA 水平变化;后者是指某个基因的 eQTL 定位到其他基因组区域,表明其他基因的差别控制该基因 mRNA 水平的差异。
用OSCA做eQTL的流程很简单,主要麻烦的地方在输入数据的准备上。准备好数据直接跑osca --eqtl就可以了。
01 Input数据准备
OSCA做eQTL需要两个输入数据,一个是表型数据,这个数据的格式是OSCA独特的BOD格式,另一个就是marker了,这个数据格式官网只说了PLINK二进制格式,其他的格式不知道可不可以。
首先来看一下BOD格式,这个数据格式和PLINK比较相似,也是一个文件名后的三个不同后缀的文件为一个整文件。BOD格式由三个不同内容的格式文件组成,首先是oii格式,这个格式类似于PINK的fam文件,其需要五列信息,family ID,individual ID,paternal ID,maternal ID和性别,其中1为男性,2为女性,0则是代表未知,Missing用"NA"代替。
其次是opi格式文件,这个文件记录的是转录组的信息,这个文件是一个特殊的文件,这个数据的目的是将loci和基因位置相结合。这个文件包含了五列数据,分别是染色体,probe ID(官网讲这个ID可以使一个外显子或者转录本的ID),物理位置(这个就很费解,不管是转录本还是外显子他的位置都是区域,这怎么定义呢),然后是基因的ID和基因的方向。看一个实例就明白了。
myeed.opi
现在我越来越怀疑,这个位置信息怎么填写,只有一个position的话,怎么知道是cis还是trans呢。发个邮件问一下好啦。
最后一个文件是bod格式的二进制文件。像plink一样,二进制文件我们一般是不可以直接编辑的,osca也同样给出了如何做bod file的命令。
# compile data in binary format from text format
osca --efile myprofile.txt --methylation-beta --make-bod --out myprofile
- --efile reads a DNA methylation (or gene expression) data file in plain text format.
- --methylation-beta indicates methylation beta values in the file.
- --make-bod saves DNA methylation (or gene expression) data in binary format.
- --out saves data ( or results) in a file.
-
--gene-expression indicates gene expression profiles in the file.
这样的话就需要我们给出一个表观数据或者转录组的数据,我们来看一下官网给出的实例数据。
myprofile.txt
网友评论