美文网首页数据科学与R语言
R语言-13数据标准化与初步统计

R语言-13数据标准化与初步统计

作者: 周一ing | 来源:发表于2019-10-04 17:38 被阅读0次

将数据标准化或中心化

#标准化,减去均值再除以均方根,scale设为FALSE的时候是中心化,也就不除均方根
scmean <- scale(allmean[,2:17], center = TRUE, scale = TRUE)

求第2列的方差、平均值

sd(data[,2])
mean(data[,2])

简单分类统计

引入plyr包
library(plyr)

按pic列和audios列分类统计
count(data1, c(data1$pic,data1$audios))
按pic列分类,对reposts_count列求和,计算带有不同图片数的转发次数和
a <- aggregate(data$reposts_count, data[13], sum) #data[13]为pic_num列
求带1、2、3等不同图片数的微博的平均reposts_count数
ave_count <- (a$x)/(count(data$pic_num)$freq)
将得到的新列添加至原有表中,并绘图

a <- cbind(a$pic_num,round(ave_count,0)) #round保留0个小数
a <- data.frame(a) #如果要plot,则要先转换成数据框
plot(a$pic_num,a$ave_reposts_count)

利用aggregate函数根据某列值分组,对多列求平均
根据第5列值分组,对5至11列应用foo函数,foo函数的作用是求平均值并保留小数点后2位

foo <- function(x){a<- mean(x);a<-round(a,2);return(a)}
part2 <-aggregate(c[5:11], by=list(sample=c[,5]), foo)

利用apply函数进行数据初步分类统计并绘制频数分布直方图

i = c(4,5,6,9,12,13,14,15,16,17,18,19) #i存储需要处理的列数
apply(data[,i],2,mean)   #对第i列以列的方式求平均数
apply(data[,i],2,summary)
par(mfrow=c(2,3))  #把画布分为两行三列,mfrow表示以行优先填充
a <- i[1:6];b <- i[7:15]
names(data[2])  #获取第二列的索引名
for(i in a) {hist(sort(data[,i]), col='lightblue',main=paste('The distribution of ',names(data[i])),ylab="count",xlab=names(data[i]),labels=TRUE,xlim=c(0,200000),ylim=c(0,3000));+
plot(density(data[,i]),main='',xlab='',ylab='',xaxt='n',yaxt='n')} #循环绘制hist密度分布图

apply和lapply常遇错误

#apply常发生dim(X)的值必需是正数,
dimnames(x)[[1]] <- letters[1:8]
#lapply常用于数组
foo <- function(x){if(x!=0){round(log(x),0)}else{x=x}} #不加else的内容,对数组lapply时,x=0时经过此函数x将转换成null
topic <- unlist(lapply(data$topic,foo))

相关文章

  • R语言-13数据标准化与初步统计

    将数据标准化或中心化 求第2列的方差、平均值 简单分类统计 引入plyr包library(plyr) 按pic列和...

  • 2018-01-08

    "R语言学习笔记之数据标准化" 数据标准化/归一化 数据标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些...

  • 深入浅出数据分析|数据清洗

    @(R语言)深入浅出数据分析|数据清洗 数据 hfda_ch13_data_for_R.csv 加载数据 正则表达...

  • PCA分析

    1.数据标准化 为了统一数据的量纲并对数据进行中心化,在主成分分析之前往往需要对原始数据进行标准化。下面以R语言自...

  • R语言基础--数据类型-总结

    R语言基础--数据类型-总结 1、R语言基础--数据类型之向量 2、R语言基础--数据类型之因子 3、R语言基础-...

  • R语言统计系列第13篇-K-M生存曲线与logrank检验

    今天是各类统计方法R语言实现的第13期,我们主要介绍R语言统计系列第13篇-K-M生存曲线与logrank检验。 ...

  • day5 阿来

    继续学习R语言 R语言数据学习 数据R语言学习.png 数据输入 数据输出 总结 R语言学习的第二天,熟悉了很多操...

  • Python 数据分析之NumPy与pandas 的功用

    谈到数据分析,则离不开谈及R语言及R语言与Python在数据分析领域孰优孰劣之争。 首先R语言作为正统统计学软件,...

  • 生信学习小组Day5笔记-lamyusam_

    R语言学习 今天,了解了R中的数据类型,初步学习R语言的数据结构。 R的数据类型 向量(vector) R语言中的...

  • 学习小组day3笔记——肖舒

    认识R语言和Rstudio R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言软件界...

网友评论

    本文标题:R语言-13数据标准化与初步统计

    本文链接:https://www.haomeiwen.com/subject/qhojpctx.html