用Beagle做基因型填充（Imputation）

作者: TOP生物信息 | 来源:发表于2019-07-28 18:49 被阅读42次

用Beagle做基因型填充（Imputation）
群体遗传学习笔记-基因型缺失数据的填充
GWAS:网页版的基因型填充（genotype imputati
基因型数据填充（imputation）流程知多少
基因型填充(Genotype-Imputation)：从原理到操
缺失基因型填充
11.2 GWAS流程学习
基因型填充之后如何过滤
GWAS imputation
自体脂肪填充有风险吗、关于自体脂肪填充风险问题的汇总？

在学习基因型填充之前需要了解一下什么是Phasing（基因定相、单倍体分型），主要是参考公众号碱基矿工中的一篇文章：人类基因组的Phasing原理是什么。建议多读几遍

Phasing和Imputation
1.Phasing后形成的单倍型参考序列集(Reference panel)是基因型推断（Imputation）必须的数据材料
2.除了Reference Panel的制造需要使用Phasing技术之外，对被研究的对象进行预先Phasing(Pre-phasing)也可以极大地提高基因型推断（Imputation）的准确性

为什么要做这一步

分析过程中不允许有缺失值；可以增加标记密度

怎么做的

基于单倍型，就是上面说的。

图片来源于这篇文献，Marchini, J., & Howie, B. (2010). Genotype imputation for genome-wide association studies. Nature Reviews Genetics, 11(7), 499–511. doi:10.1038/nrg2796
a: 0、2纯合，1杂合，一行表示一个二倍体个体的基因型
d, c: 分别对应前面说的Phasing和Imputation关系的1, 2点
b, f: 说明进行填充之后，增加了标记密度，有助于将显著的SNP挑出来

实战一下，用Beagle做基因型填充

官网：http://faculty.washington.edu/browning/beagle/beagle.html

Beagle包含了利用家系（Related individual Phasing）和LD Phasing的模块, 如果输入的vcf文件是没有phasing的，会先进行定相，然后填充。

下载
链接: http://faculty.washington.edu/browning/beagle/beagle.12Jul19.0df.jar
使用
Windows和Linux下的使用类似，前面已经装好了Java了，这里直接在Windows下面运行。

E:\imputation>java -Xmx894m -jar beagle.03Jul19.b33.jar gt=test.vcf out=test_out ne=281

运行完之后，同时生成结果文件和日志文件, 从日志中可以看出phasing用时比填充用时长

Cumulative Statistics:

Study markers:           3,092

Haplotype phasing time:        38 seconds
Total time:                    48 seconds

参数列表如下，详细解释见：http://faculty.washington.edu/browning/beagle/beagle_5.0_03Jul19.pdf

data parameters ...
  gt=<VCF file: use GT field>                        (optional)
  ref=<bref3 or VCF file with phased genotypes>      (optional)
  out=<output file prefix>                           (required)
  map=<PLINK map file with cM units>                 (optional)
  chrom=<[chrom] or [chrom]:[start]-[end]>           (optional)
  excludesamples=<file with 1 sample ID per line>    (optional)
  excludemarkers=<file with 1 marker ID per line>    (optional)

phasing parameters ...
  burnin=<number of burnin iterations>               (default=6)
  iterations=<number of phasing iterations>          (default=12)
  phase-states=<model states for phasing>            (default=280)
  phase-segment=<min haplotype segment length (cM)>  (default=4.0)

imputation parameters ...
  impute=<impute ungenotyped markers (true/false)>   (default=true)
  imp-states=<model states for imputation>           (default=1600)
  imp-segment=<min haplotype segment length (cM)>    (default=6.0)
  imp-cluster=<max cM in a marker cluster>           (default=0.005)
  imp-ap=<print posterior allele probabilities>      (default=false)
  imp-gp=<print posterior genotype probabilities>    (default=false)

general parameters ...
  ne=<effective population size>                     (default=1000000)
  err=<allele mismatch rate>                         (default=1.0E-4)
  window=<window length in cM>                       (default=40.0)
  overlap=<window overlap in cM>                     (default=4.0)
  seed=<random seed>                                 (default=-99999)
  nthreads=<number of threads>                       (default: machine-dependent)
  step=<IBS step length (cM)>                        (default=0.1)
  nsteps=<number of IBS steps>                       (default=7)

对比一下填充前后的vcf文件

除了缺失的位点被填充以外，基因型的分隔符也变了，变成了竖线|，这是定相之后的一个标志。

联想到以前做重测序的时候，试过几个样本联合call SNP，也在得到的vcf文件中看到过极少数位点基因型用|分隔，这应该就是利用群体内部样本之间的LD关系得到的部分phasing结果。

用Beagle做基因型填充（Imputation）
在学习基因型填充之前需要了解一下什么是Phasing（基因定相、单倍体分型），主要是参考公众号碱基矿工中的一篇文章...
群体遗传学习笔记-基因型缺失数据的填充
Genotype Imputation是在高通量测序中常出现的定义，按照义译就是基因型填充。要真正理解imputa...
GWAS:网页版的基因型填充（genotype imputati
在全基因组关联分析中，处理芯片数据时，必须走的一个流程就是基因型数据填充（imputation）。当然，如果你拿...
基因型数据填充（imputation）流程知多少
最近又搜索了下基因型填充的相关内容，之前一直没找到一个超级详细的一步步做的教程，于是就使用impute + pip...
基因型填充(Genotype-Imputation)：从原理到操
移步 github 实现目录跳转，获得更好的阅读体验目录基因型填充1.1. 问题描述1.2. 技术来源的基因型...
缺失基因型填充
作者：陈美佳一、问题描述基因型数据的缺失分为遗传性缺失和检测性缺失： 1、遗传性缺失：个体遗传信息的变异（例如...
11.2 GWAS流程学习
主要使用plink和structure： 1、在snp-calling后得到vcf文件 2、基因型填充： http...
基因型填充之后如何过滤
比如个体分型率 < 90% 某一个样本测出来的标记小于全部标记的90% 标记分型率 < 90% 某一个标记只在小...
GWAS imputation
GWAS imputation是什么？ Genotype imputation 是运用连锁不平衡的原理依据一个高密...
自体脂肪填充有风险吗、关于自体脂肪填充风险问题的汇总？
自体脂肪填充有风险吗、关于自体脂肪填充风险问题的汇总？有的宝宝说自体脂肪填充用的从自身体内提取皮脂颗粒做填充，不是...