今天更完就休息几天啦。GWAS数据在作为孟德尔随机化暴露或者结局数据时,偶尔也会遇到一些坑,比如说有些数据只有染色体以及位置信息,并没有SNP号,这个时候就比较尴尬,所以我们需要把染色体以及位置信息转换为SNP号,就比如说:1:10039,前面是染色体号,后面是位置,转换为:rs978760828。
方法也很简单,就像基因注释一样,我们需要下载参考数据,基因注释有.gtf参考文件,SNP同样是有的,多个数据库都能下载,比如:http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/,找到snp150_hg19.txt和snp151_hg38.txt这两个文件下载就好了,命名方式可能有所出入。或者也可以在浏览器自行搜索寻找。
这两个参考文件比较大,5G起步的样子,snp150_hg19是GRCh37的参考文件,snp151_hg38.txt是GRCh38的参考文件,你需要知道你的GWAS数据使用的测序参考基因组。
参考文件打开长这样:
第一列是染色体:位置,第二列就是SNP号,这样很容易使用R语言就处理了,和基因的注释方式是一样的,细节就不展示啦。如果你的GWAS数据的染色体和位置是分列展示的,直接用paste函数粘贴在一起就好了。
同样的,如果你需要知道SNP的位置信息,也是直接去这两个文件里面找就行啦。
最后提一句,参考基因组这么大的文件,read.table函数就不要用了,天荒地老都读不出来,等读完数据别人文章都发了,还是用data.table包的fread函数吧,速度快,而且也不用解压就能读取。
网友评论