美文网首页生物信息学
GWAS - plink提取染色体位置范围内的SNP位点

GWAS - plink提取染色体位置范围内的SNP位点

作者: SnowPye | 来源:发表于2020-05-30 14:22 被阅读0次

    一、首先学会打开文件

    写给像我一样的小白,如果你手头有bim、fam等文件,怎么查看呢?
    双击是不行的!!!!首先打开terminal,cd到文件所在的目录,然后使用vim命令:

    cd /User/Downloads/sge_genedata 
    vi xxxxx.bim 
    

    其中,文件位路径只需要直接选中文件夹,并且拖到terminal中就可以了!!

    二、plink命令与文件格式:–bfile 、 --file 和 --tfile

    使用–bfile 、 --file 和 --tfile读取文件类型不一样:
    –bfile 读取二进制文件,bed、bim和fam格式
    –file 读取文本文件,ped和map格式
    使用以上两个命令时,文件命名要一致,如test.bed、test.bim、test.fam
    二进制文件比较小,处理速度比较快

    三、下载一定染色体位置范围内的所有SNP


    根据注释可以知道,这条命令包括两个文件夹

    • file data即你要下载的源数据,比如千人基因组计划的数据啦
    • myrange.txt即你要提供的染色体位置范围的数据,下面注释写的很清楚啦,要有四列,分别是CHR ,BP1,BP2和LABEL
      把命令输进去就可以了,如果错误了会报错,plink的错误提示还是很清楚的
    plink--bfile /Users/Downloads/sge_genedata/sge_qc_clean 
    --extract range /Users/Downloads/sge_genedata/myrange.txt 
    --make-bed --out rangsnp
    

    *如果没有把plink设入全局变量,则需要在plink前面加入plink的路径

    • --bfile 表示我的文件是sge_qc_clean.bed 、sge_qc_clean.fam 和sge_qc_clean.bim。
      --bfile expects a filename prefix; '.bed', '.bim', and '.fam' are automatically appended.意思是bfile后面只需要加文件名就好了,后缀会自己生成
    • --extract range是我需要提取的范围,按照上述的文件格式自己整理的txt
    • --make-bed 是在它之前的操作之后,创建一个新的PLINK 1二进制文件集
    • --out rangsnp就是想输出的文件名字
      一开始我还不知道最后输出得到的文件放在哪里了,大家搜索一下文件的位置就找到了(应该可以改变输出文件的路径,等我学会了再补充)
      最后我生成的文件:


    使用一中介绍的vi命令 ,便可以查看提取的snp信息啦!!!
    其中.log文件也可以双击打开,可以看到结果显示4416744 variants loaded from .bim file,即源文件中有这么多位点。--extract range: 24339 variants remaining.使用这行命令提取出的snp有24339个。

    相关文章

      网友评论

        本文标题:GWAS - plink提取染色体位置范围内的SNP位点

        本文链接:https://www.haomeiwen.com/subject/mxxbahtx.html