前言
当我们获得一堆“感兴趣”/“有意义”的SNPs之后,
怎样知道这些SNPs所在的基因呢?
不要告诉我一个一个在pubmed查就好~
我们需要知道Plink哪个参数可以帮我们做这个事情(这个肯定不只是我们遇到的问题,大神们早就遇到了~)——“--annotate”
代码格式如下:
plink --annotate myfile.assoc attrib=snp129.attrib.gz ranges=glist.txt
好呢,秒懂的大神们请直接飘过~
这个“说明书”是什么意思?
是说plink这个软件调动后啊,如果调动--annotate这个功能去命名你想匹配的SNPs列表(myfile.assoc),还需要告诉plink匹配SNPs使用的SNPs列表(attrib=snp129.attrib.gz),以及一个基因列表(ranges=glist.txt)。
尽管官网上已经很“友善”地列出了1-2-3步,但是嘛,如果那是人话,都不用写这个玩意了~
Step 1准备一个txt文件,必须包括4列,格式如下
CHR,SNP,BP和P4列好的,Excel打开是张这样的(我这个系列就是不打算用什么高端操作整理数据的)
把你分析出来的SNPs所在染色体,SNP号码,BP,P值复制黏贴到一个表格上~注意:记得,表头是要有的!!!
电脑是很蠢的,说了是怎样的格式,就是怎样的格式,否则根本识别不了!~
Step 2:准备一个SNPs的信息表
当中包括这些内容~不要慌,这个官网上就有下载的~
正正就在红色的NOTE(截图最后一行的链接处)~
下载地方人话风格,就在这里:http://zzz.bwh.harvard.edu/plink/res.shtml#attrib
邮件另存为:SNP attributes: snp129.attrib.gz (这个文件)~
Step 3 准备一个glist文件
glist文件其实就是“基因的坐标系”,第一列是基因所在的染色体号码,第二到第三列是基因所在的范围,打比方说,两个人买了电影票,也要在屏幕下的那么多个位置中对号入座入座吧?最后一列就是基因名字。
这是官网的第三步经典套路,这个文件也是在NOTE后面的链接里下载的。
点进去后,这里就有两个文件可以下载了:hg18和hg17
hg18和hg17根据自己的需要,邮件另存为其中一个文件就可以了(本操作使用hg17)
好了!!!官网就到这里了,你们说是人话吗?
来吧,我接着补充:
Step 4 把刚刚下载的和准备的文件,放在一个文件夹中~
文件夹中的文件(当然,你不放在同一个文件夹也是可以的,plink的时候告知路径就可以了)
Step 5 发动plink魔法阵~
/XXX/plink_mac_20190617/plink --noweb --annotate /XXX/Desktop/20200224/genes/allsnpprevious.txt attrib=/XXX/Desktop/20200224/genes/snp129.attrib ranges=/XXX/Desktop/20200224/genes/glist-hg17.txt
没错,就是套用一开始说明书的命令(这就是为什么打算一开始就知道咋弄的原因~)
我还是解释一下:
/XXX/plink_mac_20190617/plink --noweb --annotate
这里是告诉电脑plink位置,需要使用--annotate 命令
(注意--annotate和后面的/XXX/Desktop/20200224/genes/allsnpprevious.txt要有一个空格的间隔)
(这个是基本的命令行操作的要求了~否则傻傻的电脑不知道这个是命令行,要他做什么,然后就只会报错了~)
/XXX/Desktop/20200224/genes/allsnpprevious.txt
这里是告诉plink你SNPs列表的位置
attrib=/XXX/Desktop/20200224/genes/snp129.attrib
这里是告诉plink你的这 是告诉plink你的snp129.attrib文件的位置
ranges=/XXX/Desktop/20200224/genes/glist-hg17.txt
这里是告诉plink你的这 是告诉plink你的glist-hg17.txt文件的位置
Step 6 最后的数据长这样:
由于文章未发表,就不截图了,直接上官网的结果(一模一样的)
官网其实还是尽力了的,告诉你(0)这样就是完全匹配,(+5kb)就是在该基因5kb以外的地方当然,对于新手,连打开哪个文件都是不知道的(蓝色这个):
右键,选择Excel打开~后记:
1.其实本质上,就是要告诉这个软件1.你的SNPs是什么? 2.记录了SNP的一个全表,3.记录了基因的一个全表,然后“非诚勿扰”那样相亲,匹配~
2.中间有一个设计基本功的地方了:hg17和hg18.
首先,这个是人类的基因组版本,
其实人类基因组计划启动20年了,不断更新,因此出了很多基因组版本
摘抄如下,出处见参考文献:
2013年的GRCh38/hg38 (最新)
2009年的GRCh37/hg19 (常用,Feb. 2009 (hg19, GRCh37)这个是重点)
2006年的GRCh36/hg18 (最新?Mar 2006 assembly = hg18 = NCBI36.)
2004年的GRCh35/hg17 (常用,May 2004 assembly = hg17 = NCBI35.)
2003年的(July 2003 assembly = hg16 = NCBI34)
以前的老版本就不用看啦,现在其实都已经有hg38出来啦,GRCh38 (NCBI) and hg38(UCSC)
参考文献:
1.Plink官网:http://zzz.bwh.harvard.edu/plink/index.shtml 。
3.生信菜鸟团的:Hg19基因组的分析。
网友评论