美文网首页GWAS群体基因组学习
GWAS分析-常用文件格式 (三)

GWAS分析-常用文件格式 (三)

作者: 杨博士聊生信 | 来源:发表于2021-05-14 00:18 被阅读0次

    我们进行GWAS分析,必须得有数据,那么什么样的数据,什么样的数据格式才能保证GWAS正常分析呢。今天主要给大家分享一下进行GWAS分析常用到的几种数据格式。

    (一).bim/.fam/*.bed格式为一组
    *.bim文件, 总共6列

    bim.png
    第一列:Chr 染色体编号
    第二列:SNP 标记名称
    第三列:GD 遗传距离(摩尔根),一般情况写0即可
    第四列:BPP 物理距离(单位:bp)
    第五列:Allele 1 一般情况下为次要等位基因
    第六列:Allele 2 一般情况下为主要等位基因

    *.fam文件,总共6列


    fam.png

    第一列:FID Family ID
    第二列:IID Within-family ID (不能是 '0')
    第三列:PID Within-family ID of father ('0' if father isn't in dataset)
    第四列:MID Within-family ID of mother ('0' if mother isn't in dataset)
    第五列:性别 ('1' = male, '2' = female, '0' = unknown)
    第六列:表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

    *.bed文件
    BED文件结构主要是二进制文件(not readable for humans),存储了群体的基因型数据。

    (二).ped/.map格式为一组
    ped文件, 总计6+2n列(n:总SNP数目)

    ped.png
    第一列:FID Family ID
    第二列:IID Within-family ID (不能是 '0')
    第三列:PID Within-family ID of father ('0' if father isn't in dataset)
    第四列:MID Within-family ID of mother ('0' if mother isn't in dataset)
    第五列:性别
    第六列:表型
    第七列-最后一列:每个样本对应所有标记的基因型

    *.map文件,总计四列


    map.png

    第一列:Chr 染色体编号
    第二列:SNP 标记名称
    第三列:GD 遗传距离(摩尔根),一般情况写0即可
    第四列:BPP 物理距离(单位:bp)

    另外,GWAS分析中常见到的数据格式还包括.tfam/.tped, vcf,hapmap, gen/.sample格式,对于大部分格式,我们使用plink软件都可以将其互相转换,同时针对不同的模型和不同软件,基因型文件,表型文件,协变量文件可能会有些许差别,在今后分析过程中遇到具体情况会给大家再具体介绍。

    往期回顾:
    GWAS分析 (一)
    https://www.jianshu.com/p/67e1878845e3
    GWAS分析-曼哈顿图 (二)
    https://www.jianshu.com/p/fa261b6045c2

    参考

    1. https://www.cog-genomics.org/plink/1.9/formats#bed
    2. Marees AT, et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int. J. Methods Psychiatr. Res. 27, e1608 (2018).

    相关文章

      网友评论

        本文标题:GWAS分析-常用文件格式 (三)

        本文链接:https://www.haomeiwen.com/subject/xlyfjltx.html