美文网首页孟德尔随机化
孟德尔随机化数据处理——染色体位置信息怎么转换为SNP

孟德尔随机化数据处理——染色体位置信息怎么转换为SNP

作者: 旅行的白山茶 | 来源:发表于2023-04-05 17:22 被阅读0次

今天更完就休息几天啦。GWAS数据在作为孟德尔随机化暴露或者结局数据时,偶尔也会遇到一些坑,比如说有些数据只有染色体以及位置信息,并没有SNP号,这个时候就比较尴尬,所以我们需要把染色体以及位置信息转换为SNP号,就比如说:1:10039,前面是染色体号,后面是位置,转换为:rs978760828。

方法也很简单,就像基因注释一样,我们需要下载参考数据,基因注释有.gtf参考文件,SNP同样是有的,多个数据库都能下载,比如:http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/,找到snp150_hg19.txt和snp151_hg38.txt这两个文件下载就好了,命名方式可能有所出入。或者也可以在浏览器自行搜索寻找。

这两个参考文件比较大,5G起步的样子,snp150_hg19是GRCh37的参考文件,snp151_hg38.txt是GRCh38的参考文件,你需要知道你的GWAS数据使用的测序参考基因组。

参考文件打开长这样:

第一列是染色体:位置,第二列就是SNP号,这样很容易使用R语言就处理了,和基因的注释方式是一样的,细节就不展示啦。如果你的GWAS数据的染色体和位置是分列展示的,直接用paste函数粘贴在一起就好了。

同样的,如果你需要知道SNP的位置信息,也是直接去这两个文件里面找就行啦。

最后提一句,参考基因组这么大的文件,read.table函数就不要用了,天荒地老都读不出来,等读完数据别人文章都发了,还是用data.table包的fread函数吧,速度快,而且也不用解压就能读取。

相关文章

  • R数据分析:工具变量回归的做法和解释,实例解析

    什么是工具变量,以及什么是孟德尔随机化,以及孟德尔随机化怎么实现都给大家写了(大家去翻翻之前的文章呀),因为孟德尔...

  • 生物数据格式 - pileup

    格式 pileup格式描述了染色体上每个位置的碱基信息, 可以用来 SNP/indel calling, 也可以直...

  • 使用qqman包绘制曼哈顿图和QQ图

    安装并加载所需R包 基本数据格式:SNP名称,所在染色体,SNP位置,Pvalue值 绘制曼哈顿图 基本使用 常用...

  • 孟德尔随机化之基础概念与研究框架

    在本期中,我将说明孟德尔随机化的基础概念与研究框架,并解释如何使用孟德尔随机化去解决常规流行病学问题。 2.1什么...

  • VCF文件添加ID

    问题: 修改VCF文件中ID列以“.”标识为“染色体号-SNP的位置” 1.0 python 脚本 运行 2.0 ...

  • bedtools 批量提取snp前后1000bp片段

    准备条件1 知晓snp位置,位于第 x 条染色体上 12345678 bp2 生成 .txt 文件,文件格式如下...

  • MendelianRandomization

    也是一个计算孟德尔随机化的常用包CRAN - Package MendelianRandomization (r-...

  • TwoSampleMR

    孟德尔随机化系列之一:基础概念 Mendelian randomization I – GWAS实验室 – GWA...

  • 孟德尔随机化课程发表

    中山医博士孟德尔随机化全流程 感兴趣的话和我私聊吧~ 平均半年接受一篇,质量有保障 现在是孟德尔的黄金时期,再等两...

  • 孟德尔随机化

    MR的研究策略随着统计学方法的深入而被不断地推陈出新,从最早的一阶段MR到单一样本MR、两样本MR、两阶段MR、双...

网友评论

    本文标题:孟德尔随机化数据处理——染色体位置信息怎么转换为SNP

    本文链接:https://www.haomeiwen.com/subject/zcxyddtx.html