NOTE : PAC可用来优化聚类模型选择最优的K值

代码如下：


# 这里不建议使用模拟数据，结果会很差
# 1.获取示例数据
library(ALL)
data(ALL)
df <- exprs(ALL) 

# 2.筛选基因(通过中位数绝对偏差度量，MAD)
mads <- apply(df,1,mad) # MAD测度
df <- df[rev(order(mads))[1:5000],] #提取前5000个基因

# 3.标准化
df <-  sweep(df,1, apply(df,1,median,na.rm=T)) # 在行的方向上减去最小值，默认是减法

# 4.运行ConsensusClusterPlus
library(ConsensusClusterPlus)
maxK <-  6 # 选一个K值进行尝试
results <-  ConsensusClusterPlus(df,
                               maxK = maxK,
                               reps = 1000,              # 抽样次数(一般1000或更多)
                               pItem = 0.8,              # 抽样比例
                               pFeature = 1,
                               clusterAlg = "pam",       # 聚类方法
                               distance="pearson",       # 距离计算方法
                               title="~/test_ty/Rtest/", # 结果保存路径
                               innerLinkage="complete",  # 这里不建议使用默认的方法"average"
                               plot="png")               # 结果保存形式

主要结果图如下：

结果.png

可以看出，K值为4的时候，聚类结果最好。

当然，PAC方法可以计算出最佳的K值，代码如下：

# 5.用PAC的方法确定最佳聚类数
#   面积最小值对应K为最佳K
Kvec = 2:maxK
x1 = 0.1; x2 = 0.9        # threshold defining the intermediate sub-interval
PAC = rep(NA,length(Kvec)) 
names(PAC) = paste("K=",Kvec,sep="")  # from 2 to maxK
for(i in Kvec){
M = results[[i]]$consensusMatrix
Fn = ecdf(M[lower.tri(M)])          # M 为计算出共识矩阵
PAC[i-1] = Fn(x2) - Fn(x1)
} 

optK = Kvec[which.min(PAC)]  # 理想的K值


icl = calcICL(results,
            title="~/test_ty/Rtest/",
            plot="pdf")