美文网首页孟德尔随机化
孟德尔随机化数据处理——染色体位置信息怎么转换为SNP

孟德尔随机化数据处理——染色体位置信息怎么转换为SNP

作者: 旅行的白山茶 | 来源:发表于2023-04-05 17:22 被阅读0次

    今天更完就休息几天啦。GWAS数据在作为孟德尔随机化暴露或者结局数据时,偶尔也会遇到一些坑,比如说有些数据只有染色体以及位置信息,并没有SNP号,这个时候就比较尴尬,所以我们需要把染色体以及位置信息转换为SNP号,就比如说:1:10039,前面是染色体号,后面是位置,转换为:rs978760828。

    方法也很简单,就像基因注释一样,我们需要下载参考数据,基因注释有.gtf参考文件,SNP同样是有的,多个数据库都能下载,比如:http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/,找到snp150_hg19.txt和snp151_hg38.txt这两个文件下载就好了,命名方式可能有所出入。或者也可以在浏览器自行搜索寻找。

    这两个参考文件比较大,5G起步的样子,snp150_hg19是GRCh37的参考文件,snp151_hg38.txt是GRCh38的参考文件,你需要知道你的GWAS数据使用的测序参考基因组。

    参考文件打开长这样:

    第一列是染色体:位置,第二列就是SNP号,这样很容易使用R语言就处理了,和基因的注释方式是一样的,细节就不展示啦。如果你的GWAS数据的染色体和位置是分列展示的,直接用paste函数粘贴在一起就好了。

    同样的,如果你需要知道SNP的位置信息,也是直接去这两个文件里面找就行啦。

    最后提一句,参考基因组这么大的文件,read.table函数就不要用了,天荒地老都读不出来,等读完数据别人文章都发了,还是用data.table包的fread函数吧,速度快,而且也不用解压就能读取。

    相关文章

      网友评论

        本文标题:孟德尔随机化数据处理——染色体位置信息怎么转换为SNP

        本文链接:https://www.haomeiwen.com/subject/zcxyddtx.html