Plink文件格式介绍(一)

作者: 银色麦穗 | 来源:发表于2016-08-19 16:06 被阅读3254次

    introduction

    Plink算是生物信息最常用的软件之一了,而且很多软件的输入也会使用Plink的文件格式。这次我们来一起认识一下Plink中最常用的两种格式,.ped和.map。

    PED文件介绍:

    PED文件主要是储存每个样本的基因型的,每行代表一个样本,每列的具体含义如下:

      Family ID
      Individual ID
      Paternal ID
      Maternal ID
      Sex (1=male; 2=female; other=unknown)
      Phenotype
    

    如果是自然群体,那就把family ID和individual ID都填一样的就行了。父母的ID就填0,代表缺失。
    第6列是Phenotype(表型),每个PED文件第六列必需时表型值,也只能有这一列表型值。质量性状必须转换为0、1、2。Plink会自己判断表现类型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有几个保留值注意一下:

       -9 missing
        0 unaffected
        1 affected
    

    从第7列开始是Phenotype(基因型,A,C,G,T),可以有很多列,一直往后写,TAB键隔开就好了。
    最后做出来就是这个样子了:

      FAM001  1  0 0  1  2  A A  G G  A C 
      FAM001  2  0 0  1  2  A A  A G  0 0 
    

    详见这里

    MAP文件介绍

    MAP文件主要是用来记录每个maker(一般为SNP)的位置信息。
    每行一个maker,每列的含义如下:

     chromosome (1-22, X, Y or 0 if unplaced)
     rs# or snp identifier
     Genetic distance (morgans)
     Base-pair position (bp units)
    

    第一列自不用说,第二列是SNP的名字,起个便于管理的名字就好。第三列是摩尔根距离,不知道的话写0就行了。第四列是在染色体上的坐标位置。

    详见这里

    结语

    关于这些文件还有很多细节和特殊情况的处理没有讲,后面有时间了再补充吧,着急用的话就点祥见这里,超链接到了plink官网的对于说明上了。

    相关文章

      网友评论

      • 紫竹林_b67e:你好 我想请问你下第四列是在染色体上的坐标位置具体是什么 是NCBI上查到起始位置吗
        紫竹林_b67e:@银色麦穗 嗯 我查到了 我用plink做 它老说我map格式错误
        银色麦穗:物理坐标位置,单位bp,也就是NCBI上查到的。

      本文标题:Plink文件格式介绍(一)

      本文链接:https://www.haomeiwen.com/subject/zgpbsttx.html