美文网首页GWASGWASGWAS分析-说人话
GWAS分析-说人话(3)网络数据下载后的处理

GWAS分析-说人话(3)网络数据下载后的处理

作者: 医学小蛋散 | 来源:发表于2019-11-22 17:33 被阅读0次

    前言

    上天会告诉你那个文件才是需要用的吗?

    不会!

    但我会!(点个赞,大个赏呗~)


    数据下载后,相信我,小白连看哪个数据都会不知道的!

    当然,数据分析的第0章,数据下载,也不是普通人可以handle的,

    我可以说一天!~

    首先我们需要申请dbGAP的权限,通过特殊的工具下载数据到硬盘中(或者服务器中)。

    数据长这个样子:

    我们要的数据在Genotype文件夹里面

    一直切换到“.CADM”,然后你就会看到“map”和“ped”文件。(GWAS分析-说人话(2)认识文件名

    首先,这里有一个经验性的注意地方:

    硬盘可能不能读写数据,意味着输入指令后,不能够输出任何结果到硬盘上(小白就会一直报错,一直不知道为什么“我又错了”!)

    所以要在自己的电脑,想要的地方,创建一个文件夹

    (当然,你可以右建新建,不过这个做法是会被鄙视的!)

    没错,这就是老屁股对新人的态度~

    让我来告诉小白如何辗压“老屎忽”:

    1.首先,cd到想要的路径

    2.然后,midir XXX

    (大神请忽略下面复习内容:

    #复习:

    #(删除文件夹实例:

    #rm -rf/User/Dhyana/desktop (当然也可以cd到该文件夹,rm -rf 文件夹名称,删除)

    #将会删除 /User/Dhyana/desktop目录以及其下所有文件、文件夹

    #删除文件使用实例:

    #rm -f /User/Dhyana/desktop/test.py

    #将会强制删除/User/Dhyana/desktop/test.py这个文件)

    #使用这个rm -rf的时候一定要格外小心,linux没有回收站的,删除之后再想找回就很难了)

    说人话:

    可能不能直接在硬盘上写数据,换个自己的工作目录!~

    接着,开始下面的plink操作:

    把map和ped文件转换成2进制文件(当然是为了后续分析用啊,不然才难得搞呢!)

    (为什么要有这个转换?天下武功唯快不破,二进制文件电脑看得高兴啊!~)

    (大神请忽略下面复习内容:

    #复习一下plink的基本格式:

    #plink --filechr2--make-bed --outchr2

    调动Plink --处理得文件 --执行的操作 --给个名字

    #把map和ped文件转换成2进制文件的代码:

    #plink --filechr2--make-bed --outchr2

    #这个基本的操作,就是要转化chr2(想要的系列文件,plink都是一组组数据一起处理的)成一个bed文件

    #即:PED/MAP转为二进制格式)

    好吧,反正有事网上“不华不实”的参考代码!!!!!

    说人话:

    现实是这样子的:

    /Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr2 --make-bed --out chr2

    我会给大家说人话的:

    #调动Plink(查找你的plink在哪里了:

    /Users/seedson/Downloads/plink_mac_20190617/)

    #输入文件( 查找你的文件在哪里,拖进terminal:

    /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr2 

    #产生2进制文件

    --make-bed 

    #命名一个名字

    --out chr2 

    这是在个人的mac上运算的,考虑计算能力,只能一个一个做了

    (大神可以在服务器上直接全跑了,求不要鄙视~)

    运行时的样子:

    会显示运行进度

    运行后,在指定位置(刚刚cd到的地方)产生的数据:

    产生的数据

    #本例处理的是染色体3,后面提取的染色体,走的一样的程序,因为我要提取不同的染色体,所以其实就是不断改名字的反复操作了(如2,改3,3改5,根据染色体而定)如:

    染色体3:

    /Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr3 --make-bed --out chr3 

    染色体4:

    /Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr4 --make-bed --out chr4 

    等等.......(我已经粗体需要修改的部分了,不用我把23个染色体都写出来吧?)

    以上

    相关文章

      网友评论

        本文标题:GWAS分析-说人话(3)网络数据下载后的处理

        本文链接:https://www.haomeiwen.com/subject/vlifwctx.html