美文网首页数量遗传或生统群体遗传学NGS
GWAS分析-说人话(15)- 如何查看SNP所在的基因

GWAS分析-说人话(15)- 如何查看SNP所在的基因

作者: 医学小蛋散 | 来源:发表于2020-02-24 16:03 被阅读0次

    前言

    当我们获得一堆“感兴趣”/“有意义”的SNPs之后,

    怎样知道这些SNPs所在的基因呢?

    不要告诉我一个一个在pubmed查就好~


    我们需要知道Plink哪个参数可以帮我们做这个事情(这个肯定不只是我们遇到的问题,大神们早就遇到了~)——“--annotate”

    代码格式如下:

    plink --annotate myfile.assoc attrib=snp129.attrib.gz ranges=glist.txt

    好呢,秒懂的大神们请直接飘过~

    这个“说明书”是什么意思?

    是说plink这个软件调动后啊,如果调动--annotate这个功能去命名你想匹配的SNPs列表(myfile.assoc),还需要告诉plink匹配SNPs使用的SNPs列表(attrib=snp129.attrib.gz),以及一个基因列表(ranges=glist.txt)。

    尽管官网上已经很“友善”地列出了1-2-3步,但是嘛,如果那是人话,都不用写这个玩意了~

    Step 1准备一个txt文件,必须包括4列,格式如下

    CHR,SNP,BP和P4列

    好的,Excel打开是张这样的(我这个系列就是不打算用什么高端操作整理数据的)

    把你分析出来的SNPs所在染色体,SNP号码,BP,P值复制黏贴到一个表格上~

    注意:记得,表头是要有的!!!

    电脑是很蠢的,说了是怎样的格式,就是怎样的格式,否则根本识别不了!~

    Step 2:准备一个SNPs的信息表

    当中包括这些内容~

    不要慌,这个官网上就有下载的~

    正正就在红色的NOTE(截图最后一行的链接处)~

    下载地方

    人话风格,就在这里:http://zzz.bwh.harvard.edu/plink/res.shtml#attrib

    邮件另存为:SNP attributes: snp129.attrib.gz (这个文件)~

    Step 3 准备一个glist文件

    glist文件其实就是“基因的坐标系”,第一列是基因所在的染色体号码,第二到第三列是基因所在的范围,打比方说,两个人买了电影票,也要在屏幕下的那么多个位置中对号入座入座吧?最后一列就是基因名字。

    这是官网的第三步

    经典套路,这个文件也是在NOTE后面的链接里下载的。

    点进去后,这里就有两个文件可以下载了:hg18和hg17

    hg18和hg17

    根据自己的需要,邮件另存为其中一个文件就可以了(本操作使用hg17)

    好了!!!官网就到这里了,你们说是人话吗?

    来吧,我接着补充:

    Step 4 把刚刚下载的和准备的文件,放在一个文件夹中~

    文件夹中的文件 

    (当然,你不放在同一个文件夹也是可以的,plink的时候告知路径就可以了)

    Step 5 发动plink魔法阵~

    /XXX/plink_mac_20190617/plink --noweb --annotate /XXX/Desktop/20200224/genes/allsnpprevious.txt attrib=/XXX/Desktop/20200224/genes/snp129.attrib ranges=/XXX/Desktop/20200224/genes/glist-hg17.txt

    没错,就是套用一开始说明书的命令(这就是为什么打算一开始就知道咋弄的原因~)

    我还是解释一下:

    /XXX/plink_mac_20190617/plink --noweb --annotate 

    这里是告诉电脑plink位置,需要使用--annotate 命令

    (注意--annotate和后面的/XXX/Desktop/20200224/genes/allsnpprevious.txt要有一个空格的间隔)

    (这个是基本的命令行操作的要求了~否则傻傻的电脑不知道这个是命令行,要他做什么,然后就只会报错了~)

    /XXX/Desktop/20200224/genes/allsnpprevious.txt 

    这里是告诉plink你SNPs列表的位置

    attrib=/XXX/Desktop/20200224/genes/snp129.attrib 

    这里是告诉plink你的这 是告诉plink你的snp129.attrib文件的位置

    ranges=/XXX/Desktop/20200224/genes/glist-hg17.txt

    这里是告诉plink你的这 是告诉plink你的glist-hg17.txt文件的位置

    Step 6 最后的数据长这样:

    由于文章未发表,就不截图了,直接上官网的结果(一模一样的)

    官网其实还是尽力了的,告诉你(0)这样就是完全匹配,(+5kb)就是在该基因5kb以外的地方

    当然,对于新手,连打开哪个文件都是不知道的(蓝色这个):

    右键,选择Excel打开~

    后记:

    1.其实本质上,就是要告诉这个软件1.你的SNPs是什么? 2.记录了SNP的一个全表,3.记录了基因的一个全表,然后“非诚勿扰”那样相亲,匹配~

    2.中间有一个设计基本功的地方了:hg17和hg18.

    首先,这个是人类的基因组版本,

    其实人类基因组计划启动20年了,不断更新,因此出了很多基因组版本

    摘抄如下,出处见参考文献:

    2013年的GRCh38/hg38 (最新)

    2009年的GRCh37/hg19 (常用,Feb. 2009 (hg19, GRCh37)这个是重点

    2006年的GRCh36/hg18 (最新?Mar 2006 assembly = hg18 = NCBI36.)

    2004年的GRCh35/hg17 (常用,May 2004 assembly = hg17 = NCBI35.)

    2003年的(July 2003 assembly = hg16 = NCBI34)

    以前的老版本就不用看啦,现在其实都已经有hg38出来啦,GRCh38 (NCBI) and hg38(UCSC)

    参考文献:

    1.Plink官网:http://zzz.bwh.harvard.edu/plink/index.shtml 。

    2.liftOver进行不同版本染色体位置转换

    3.生信菜鸟团的:Hg19基因组的分析

    相关文章

      网友评论

        本文标题:GWAS分析-说人话(15)- 如何查看SNP所在的基因

        本文链接:https://www.haomeiwen.com/subject/vqlcqhtx.html