Plink_2.文件格式

作者: oddxix | 来源:发表于2018-10-16 14:36 被阅读22次

    欢迎关注公众号:oddxix
    plink的主要功能:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等等。
    plink常见格式

    • ped
    • map
    • bed
    • fam
    • bim
      plink需要的格式一般可以从vcf文件转化而来
      由以下命令生成ped和map格式
    #vcf转ped和map
    vcftools --vcf my.vcf --plink --out plink
    

    或者

    # vcf转ped和map
    plink --vcf file.vcf --recode --out file
    

    ped文件格式

    PED文件主要是储存每个样本的基因型的,每行代表一个样本,每列的具体含义如下:

    • Family ID表示家族,同一个家族用同一个family ID表示
    • Individual ID用来表示个体,family ID和Individual ID连起来唯一表示一个样本
    • Paternal ID表示父本ID, Maternal ID表示母本ID, 通过以上4个属性,可以完全表征样本的家系结构信息。
    • Sex表示性别, 1代表male,2代表female, 其他数字表示unknown。
    • phenotype代表表型,其中表型可以是离散型的(比如质量性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。

    通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。

    如果是自然群体,那就把family ID和individual ID都填一样的就行了。父母的ID就填0,代表缺失。
    第6列是Phenotype(表型),每个PED文件第六列必须表示表型值,且也只能有这一列表型值。质量性状必须转换为0、1、2。Plink会自己判断表现类型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有几个保留值注意一下:

    从第7列开始是Phenotype(基因型,A,C,G,T),可以有很多列,一直往后写,TAB键隔开就好了。
    最后做出来就是这个样子了:


    第一列表示家族,属于同一家族,于是第二列Individual ID要不一样才能保证family ID和Individual ID连起来唯一表示一个样本。由于没有亲缘关系Paternal 和Maternal 都为0 ,性别都为男性


    第一列表示家族,属于不同家族,于是第二列Individual ID都用1表示。没有亲缘关系,1和2为男性,3和4为女性。

    有时,数据以多种不同的格式:例如,基因型信息只有一个ID列后跟所有SNP数据,其他家族和表型信息驻留在单独的文件中。有时可以直接读取这些文件,而不必重新创建新文件。
    --no-fid 表示没有Family ID列
    --no-parents 表示没有父母的ID
    --no-sex 表示没有性别
    --no-pheno表示没有表型

    map文件格式

    MAP文件主要是用来记录每个maker(一般为SNP)的位置信息。
    每行一个maker,每列的含义如下:


    • 第一列染色体
    • 第二列是SNP的名字
    • 第三列是摩尔根距离,不知道就写0
    • 第四列是在染色体上的坐标位置

    常染色体应编码为1至22.以下其他染色体用于指定其他染色体类型。右边的数字代表PLINK对这些染色体的内部数字编码:这些将出现在所有输出而不是原始染色体编码中。



    map文件示例:


    为了节省空间和时间,可以制作二进制文件(* .bed)。将谱系/表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)
    使用命令:

    plink --file mydata --make-bed
    

    产生的结果文件:


    .fam和.bim文件仍然是纯文本文件:可以使用标准文本编辑器查看这些文件,.bed文件是二进制文件无法查看。

    bed文件格式

    这里的bed和我们genome里的区域文件bed完全不同
    .bed:Primary representation of genotype calls at biallelic variants. Must be accompanied by .bim and .fam files. Loaded with --bfile; generated in many situations, most notably when the --make-bed command is used. Do not confuse this with the UCSC Genome Browser's BED format, which is totally different.基因型信息。所以转换后就是一个matrix,每一行是一个个体,每一列就是一个变异。其中0、1、2分别对应了aa、Aa或aA和AA。不考虑碱基型,因为我们不关注ATGC的变化。

    fam文件格式

    Sample information file accompanying a .bed binary genotype table. 样本信息。每一行就是一个样本。

    bim文件格式

    Extended variant information file accompanying a .bed binary genotype table. 每一行是一个变异,及其注释信息。
    这将将谱系/表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)

    参考:
    http://zzz.bwh.harvard.edu/plink/data.shtml#map
    https://www.cnblogs.com/zkkaka/p/8931318.html
    https://www.cnblogs.com/leezx/p/9013615.html

    转载请注明出处:
    简书作者:oddxix
    微信公众号:oddxix

    相关文章

      网友评论

        本文标题:Plink_2.文件格式

        本文链接:https://www.haomeiwen.com/subject/mlyfzftx.html