美文网首页数量遗传或生统科研信息学
Phenotype : 大规模表型数据处理工具

Phenotype : 大规模表型数据处理工具

作者: 生信小王子 | 来源:发表于2020-08-08 17:25 被阅读0次

表型数据的处理,一直是困扰许多同学的问题。面对大规模的表型数据,如果不会编程,纯用Excel的话,往往会消耗大量精力。
为了解决大规模表型数据难以处理的问题,小编开发了R包"Phenotype",用于剔除表型中的异常值、计算统计指标和遗传力、绘制直方图和进行BLUP分析。

安装R包

该包已在CRAN发布,可以直接安装。

install.packages("Phenotype")

"Phenotype"一共包含4个函数,分别为"outlier"、"stat"、"histplot"和"blup"。

outlier:利用boxplot剔除数据中的异常值

在之前的推送中,小编教过大家使用boxplot剔除异常值。
基于上述原理,开发了outlier函数,使用方法如下:

## 加载R包
library("Phenotype")
## 加载数据
df <- read.table("brix.txt", header = T,sep = "\t")
image.pngimage.png

outlier包含8个参数。sample/year/loc/rep/phe这5个参数用来设置输入文件的列名,fold指IQR前的倍数,mode设置异常值剔除模式,"normal"表示按照样本剔除异常值,"blup"表示根据环境型和样本剔除异常值。

## 按照样本剔除异常值
inlier <- outlier(df, sample = "Line", loc = "Loc", rep = "Rep", year = "Year", phe = "Brix", fold = 1.5, mode = "normal")
image.pngimage.png
## 按照环境型和样本剔除异常值
inlier <- outlier(df, sample = "Line", loc = "Loc", rep = "Rep", year = "Year", phe = "Brix", fold = 1.5, mode = "blup")
image.pngimage.png

stat:计算表型数值的统计指标

该函数可以用来计算每个材料的平均值、中位数、标准差、标准偏差和样本数量。

## 计算统计指标
stat_out <- stat(x = inlier, sample = "Sample", phe = "inlier")
image.pngimage.png

histplot:绘制正态分布直方图并进行正态分布检验

wheatph <- read.table("wheatph.txt", header = T,sep = "\t")
inlier <- outlier(wheatph, sample = "Line", loc = "Env", rep = "Rep", phe = "DS", mode = "blup")
stat_out <- stat(x = inlier, sample = "Sample", phe = "inlier")
histplot(x = stat_out$mean,xlab = "Plant height",ylab = "Number")
image.pngimage.png

图中右上角的P值是Shapiro-Wilk normality test结果,P值小于0.05代表数据不符合正态分布。

blup:计算多年多点表型数据的BLUP值

最佳线性无偏预测(Best Linear Unbiased Prediction,简称BLUP)可以对多环境数据进行整合,去除环境效应,得到个体稳定遗传的表型。
该函数可以自动完成异常值剔除、遗传力计算和BLUP分析,共包含7个参数。sample/year/loc/rep/phe这5个参数用来设置输入文件的列名,fold指IQR前的倍数。

## 进行BLUP分析
blup_out <- blup(df, sample = "Line", loc = "Loc", rep = "Rep", year = "Year", phe = "Brix", fold = 1.5)
Heritability = 0.82019463339184
image.pngimage.png

执行完毕后,我们可以得到遗传力0.82及每个样本的平均值、BLUP值及校正后的平均值(平均值-BLUP值),用于GWAS分析。

写在最后

包中所有函数的具体参数,均可通过在R语言中输入?函数名来查看。

## 查看outlier函数的参数
?outlier
image.pngimage.png

这是我第一个发布在CRAN上的R包,也是"Phenotype"的第一个公开版本,由于本人水平有限,难免有些Bug存在。如大家在使用过程中遇到问题,请随时与我联系。

相关文章

  • Phenotype : 大规模表型数据处理工具

    表型数据的处理,一直是困扰许多同学的问题。面对大规模的表型数据,如果不会编程,纯用Excel的话,往往会消耗大量精...

  • [NAR|2019] Doc2Hpo 提取人类表型

    人类表型本体(Human Phenotype Ontology, HPO)提供了人类疾病中遇到的表型异常的标准化词...

  • GWAS学习之路-名词辨析

    总结 主要是介绍基因型genotype,基因型分型genotyping;表型 Phenotype,表型分型 Phe...

  • [python相关]

    Anaconda Python 是完全免费的企业级的Python发行大规模数据处理、预测分析和科学计算工具。 An...

  • 大规模数据处理实战

    大规模数据处理实战 模块一:直通硅谷大规模数据处理技术 1.为什么MapReduce会被硅谷一线公司淘汰? 2. ...

  • 最新版本配置Python图形化开发调试环境Anaconda(Py

    Anaconda是完全免费的企业级的Python发行大规模数据处理、预测分析和科学计算工具。Anacoda是Pyt...

  • GeoMesa介绍

    GeoMesa 是由locationtech开源的一套地理大数据处理工具套件。其可在分布式计算系统上进行大规模的地...

  • GeoMesa介绍

    GeoMesa 是由locationtech开源的一套地理大数据处理工具套件。其可在分布式计算系统上进行大规模的地...

  • 大规模数据处理技术的演进

    大规模数据处理技术如果从MapReduce论文算起,已经前后跨越了十六年。我们先沿着时间线看一下大规模数据处理的重...

  • Psychology Glossary 121

    Phenotype: The observable characteristics of an organism,...

网友评论

    本文标题:Phenotype : 大规模表型数据处理工具

    本文链接:https://www.haomeiwen.com/subject/pfbhdktx.html