TASSEL利用固定效应线性模型来测试分离位点和表型之间的关联。该分析可以选择使用指示基础总体成员程度的协变量来考虑总群结构。仅主效应模型是使用输入数据中的所有变量自动构建的。为每个特征和标记组合构建并求解一个单独的模型。任何因子、协变量、代表或位置都作为主效应包含在每个模型中。数据的使用方式必须在输入数据文件中定义,或者在导入数据后但在数据与基因型连接之前使用性状过滤器定义。
这里,SNP作为固定因子,可以考虑其它协变量(比如性别,PCA,群体结构等等)
image.pngGLM模型中,将每个SNP作为固定因子进行回归分析,进行显著性检验,P值就是GWAS分析的p-value,effect就是SNP的effect值。如果有其它因素需要考虑,就放到协变量里面,比如性别,PCA,Q矩阵等。
重点是对每个SNP做回归分析,提取effect和p-value。
数据准备
表型数据:sample.table
Q矩阵:snp.3.Q
vcf文件:all_snp.vcf
参考脚本
#软件安装
conda install tassel
#gwas_glm
run_pipeline.pl -Xms512m -Xmx50g \ #设置内存大小
-fork1 -vcf ./all_snp.vcf \ #vcf文件
-fork2 -t sample.table \#表型数据
-fork3 -q snp.3.Q -excludeLastTrait \ #Q矩阵
-combine4 -input1 -input2 -input3 -intersect \ #数据取交集
-FixedEffectLMPlugin -endPlugin \ #进行glm分析
-export glm_output
输出结果
glm_output1.txt
glm_output2.txt
glm_output1.txt
glm_output2.txt
结果绘图
#提取绘图文件
awk '{print $2"\t"$3"\t"$4"\t"$6}' glm_output1.txt > glm_output.manht_input
Rscript ./manhattan_cmplot.R glm_output.manht_input glm_output.manht_figure
网友评论