一、α多样性分析的概念
α多样性分析是反映生态系统内物种的多样性,包括丰富度和均匀度的综合指标。
丰富度:物种类别的多少,越丰富多样性越高。
均匀度:不同物种的数目均匀程度,越均匀多样性越高。
二、展示α多样性常用的指数
【群落丰富度指数】Community richness
1、Chao指数:是用chao1 算法估计群落中含OTU 数目的指数,chao1 在生态学中常用来估计物种总数,由Chao (1984) 最早提出。
2、Ace指数:用来估计群落中含有OTU 数目的指数,是生态学中估计物种总数的常用指数之一,与Chao1的算法不同。
Chao和Ace越大,说明群落中含有的OTU数目越多,群落的丰富度越大。
【群落多样性指数】Community diversity
1、Simpson指数:是生态学中常用的一个指数,它反映的是优势种在群落中的地位和作用,若一个群落中优势种占的多,其他非优势物种所占的比例则会减少,那么Simpson 指数值较大,这说明群落多样性较低,该指数与其他多样性指数均呈负相关。
2、Shannon指数:用来估算样品中微生物的多样性指数之一。它与Simpson 多样性指数均为常用的α多样性的指数。Shannon值越大,说明群落多样性越高(包括丰富度和均匀度)。
3、Coverage:是指各样品文库的覆盖率,其数值越高,样本中序列没有被测出的概率越低。该指数反映了测序结果是否代表样本的真实情况。
三、用R绘制箱线图
1、一些设置和R包的安装
如果已经安装了就可以跳过这部分。
#设置镜像站点
options()$repos ## 查看使用install.packages安装时的默认镜像
options()$BioC_mirror ##查看使用bioconductor的默认镜像
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") ##指定镜像,这个是中国科技大学镜像
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) ##指定install.packages安装镜像,这个是清华镜像
#在Rstudio里面,Tool--Global Options--Packages选择China (Beijing) [https] - TUNA Team, Tsinghua University
#直接在R安装目录下
setwd("D:/R-4.0.3/etc/")
shell.exec(file = "Rprofile.site") ##打开文件夹修改文件内容
#修改文件内容如下
# set a CRAN mirror
local({r <- getOption(“repos”)
r[“CRAN”] <- “http://mirrors.tuna.tsinghua.edu.cn/CRAN/”
options(repos=r)}
# Install phyloseq from Bioconductor
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install()
BiocManager::install("phyloseq")
# Install the rest of the packages from CRAN
install.packages(c("vegan", "metacoder", "taxa", "ggplot2", "dplyr", "readr", "stringr", "agricolae", "ape"),
repos = "http://cran.rstudio.com",
dependencies = TRUE)
library(phyloseq)
library(taxa)
library(ggplot2)
library(dplyr)
library(readr)
library(stringr)
library(agricolae)
library(ape)
2、根据faith-pd值绘图
(faith-pd也是一个反映种群丰富度的指数)
PD score(phylogenetic diversity):PD score是结合OTUtable和OTU tree一同计算的。考虑到了样本在进化树上的分布。一个OTU的来源越复杂,其PD score越高。来自进化树上不同的地方越多,其PD score越高。
#箱线图-faith-pd-group-significance-metadata
data_faith <- read.table("D:/ilovestudy/faith-pd-group-significance-metadata.tsv",sep = "\t",header = TRUE)
## “header = TRUE”,指所读取的excel数据,第一行是否用作列名称。true则excel第一行用于列名称,具体数据从第二行开始;false则第一行即为具体数据。
head(data_faith,10) ## 查看 data_shannon 文件的前十行
p <- ggplot(data_faith,aes(SampleGroup,faith_pd)) + geom_boxplot(aes(fill=SampleGroup)) + theme_set(theme_bw())
## 将 SampleGroup 映射给x值,faith_pd 映射给y值
p
# 展示 p 的内容,也可写作 print(p)
geom_boxplot(outlier.size = 0.7,outlier.alpha = 1,outlier.shape = 2,outlier.color = "red",outlier.fill = "pink")
## 设置离群点:outlier.size=大小;outlier.alpha=透明度;outlier.shape=形状;color=颜色
3、根据shannon指数绘图
箱线图-shannon-sig-metadata#箱线图-shannon-sig-metadata
data_shannon <- read.table("D:/ilovestudy/shannon-sig-metadata .tsv",sep = "\t",header = TRUE)
# “header = TRUE”,指所读取的excel数据,第一行是否用作列名称。true则excel第一行用于列名称,具体数据从第二行开始;false则第一行即为具体数据。
head(data_shannon,10)
# 查看 data_shannon 文件的前十行
p <- ggplot(data_shannon,aes(SampleGroup,shannon_entropy)) + geom_boxplot(aes(fill=SampleGroup)) + theme_set(theme_bw())
# 将 SampleGroup 映射给x值,shannon_entropy 映射给y值
p
# 打印 p 的内容,也可写作 print(p)
geom_boxplot(outlier.size = 0.7,outlier.alpha = 1,outlier.shape = 2,outlier.color = "red",outlier.fill = "pink")
# 设置离群点:outlier.size=大小;outlier.alpha=透明度;outlier.shape=形状;color=颜色
参考:
网友评论