R/qtl 定位分析（三）Single-QTL analysis

作者: 风知秋 | 来源:发表于2023-03-07 20:27 被阅读0次

1.QTL定位：Rqtl—— Single-QTL analys
2020-09-28
使用R/qtl进行QTL分析
Matrix eQTL分析
2.QTL定位：Rqtl —— Two-QTL scans
使用tassel和haploview进行GWAS
R语言聚类分析最佳实践：书籍
QTL定位
方差分析ANOVA及多重比较
安装使用QTL-seqr

上一部分介绍了数据导入部分，有需要的可以移步：

SNPbinner 构建定位群体的基因组 bin 图谱

R/qtl 定位分析（一）读取数据

R/qtl 定位分析（二）Data Check

接下来就进入 QTL 分析的部分了。

在 QTL 分析中，最常使用的是 interval mapping 的方法。不过在介绍 interval mapping 之前，先介绍一种简单的方法，以更好地了解 QTL 分析的原理。

1. Marker regression

简单来说，就是单独地考虑每个标记，根据标记处的基因型将个体分组，并比较各组之间表型的差异。虽然这种方法不常用，但提供了一个思考并描述 QTL mapping 中基本问题的框架。

具体来说，回交群体内通过 t 检验来判断标记和 QTL 的关联，而杂交群体内则是则是通过 ANOVA 给出的 F 值。

衡量 QTL 存在可能性的值为 LOD，该指标的含义为该位点存在 QTL 的可能性比上不存在 QTL 的常用对数。举例来说：如果 LOD 值为 2 则表示该位点含 QLT 的概率是不含 QTL 概率的 100 倍。

该方法最大的优势就是简单，只需要对每个标记执行 t 检验或者 ANOVA。但是，一个关键的缺点就是必须忽略标记缺失的个体；此外不能检查标记之间的位置，而且关于 QTL 位置的信息很少；而且 QTL 的效应会由于其于标记的不完全连锁而减弱。

另外，标记回归最重要的缺点是仅考虑单个 QTL 的存在，会造成分离连锁 QTL 的能力有限，也无法评估 QTL 之间可能的相互作用。不过在单个 QTL 分析中的其它方法（包括区间作图）也都有这个缺点，这个后面再说。

2. Interval mapping

Interval mapping 可以细分为几种方法，区别在于对于缺失标记的处理上有所不同。

Standard interval mapping 是在混合模型下进行最大似然估计；Haley–Knott regression methods 是对混合模型使用近似；The multiple imputation method 同样使用混合模型，但使用了 multiple imputation 代替最大似然。

接下来就是计算了。

# R/qtl 分析要求标记位置不能完全一样，所以需要使用 jittermap 将标记进行轻微移动。

hyper <- jittermap(hyper)

# calc.genoprob 会计算基因型概率，填充到标记之间， step 设置步长，单位是 cM，步长确定了后期 QTL 定位的密度。

hyper <- calc.genoprob(hyper, step=1, error.prob=0.001)

# 通过 scanone 进行 QTL 扫描，默认方法为 EM algorithm；可以通过 method 选项修改为 Haley–Knott regression (hk) 或 Extended Haley–Knott regression (ehk)。

out.em <- scanone(hyper)

out.hk <- scanone(hyper, method="hk")

out.ehk <- scanone(hyper, method="ehk")

# 进行绘图展示

plot(out.em, ylab="LOD score")

可以将不同方法的结果绘制到一张图上进行比较：

plot(out.em, out.hk, out.ehk, chr=c(1,4,15), ylab="LOD score", lty=c(1,1,2))

如果使用 multiple imputation 方法，需要先使用 sim.geno 执行 imputations：

hyper <- sim.geno(hyper, step=1, n.draws=64, error.prob=0.001)

out.imp <- scanone(hyper, method="imp")

plot(out.em, out.imp, chr=c(1,4,15), col=c("blue", "red"), ylab="LOD score")

不同方法有着各自的优缺点，从对基因型数据的要求，到计算速度，如下表所示：

3. Significance thresholds

什么样的 LOD 值是合适的？R/qtl 提供了一种 permutation test，可以得到 LOD 值大小的显著性阈值

data(hyper)

hyper <- calc.genoprob(hyper, step=1, error.prob=0.001)

operm <- scanone(hyper, n.perm=1000, verbose=FALSE)

summary(operm, alpha=c(0.20, 0.05))