PCA绘图模仿笔记
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。在生物信息分析中,PCA常用于分析不同样本之间的相互关系,可以基于表达量或者SNP突变类型进行分析。R语言中内置了PCA分析函数procomp,直接调用该函数可快速对一组数据进行PCA分析,结果可配合ggplot2等包可视化。
1、数据读取格式可为csv文件(逗号分隔符),第一列基因名,第二列····n列为样品名:
a、rawdata = read.csv('E:/桌面/caiyeB.csv',header = T) #读取存储数据
b、选择性运输下列代码(数据进一步整理):
row.names(rawdata) <- rawdata$test_id #将第一列数据设置为行名保存
tmp <- t(rawdata[,c(-1)]) #删除第一列位置信息,并进行行列转置
cleandata <- tmp[,colSums(tmp !=0) >0] #删除样本中表达量均为0的基因
c、直接调用prcomp函数进行PCA分析,代码如下:
data.pca <- prcomp(cleandata, center = T, scale. = F)
prcomp 函数的返回值是一个特殊的对像,可以利用summary函数来查看分析的结果。
d、library('ggplot2'), 运行ggplot(as.data.frame(data.pca$x),aes(x=PC1,y=PC2)) + geom_point()
网友评论