1. R语言运行效率分析_小结（6）

作者: 灭绝老衲 | 来源:发表于2020-02-24 00:37 被阅读0次

1. R语言运行效率分析_小结（6）
1. R语言运行效率分析(6)
1. R语言运行效率分析_小结（5）
1. R语言运行效率分析_小结（4）
1. R语言运行效率分析_小结（2）
1. R语言运行效率分析_小结（3）
1. R语言运行效率分析_小结（1）
1. R语言运行效率分析 (4)
1. R语言运行效率分析 (2)
1. R语言运行效率分析(5)

小结（6）

本节把前面所有数据综合起来进行分析。1000<n<1000000。

数据格式与前面的一样。以下是作图代码。在本图中，由于数据的数量级差有些大，所以用对数坐标画图。

library(tidyverse)
library(scales)
ggplot(data[which(data$fun!="ddply_parallel"),],aes(n,mean,color=fun))+
  geom_point()+
  facet_wrap(~type,ncol=1)+
  theme(axis.text.x   = element_text(angle=90))+
  scale_x_continuous(name="length of vector", 
                     trans = log10_trans(),
                     breaks = trans_breaks("log10", function(x) 10^x),
                     labels = trans_format("log10", math_format(10^.x)))+
  scale_y_continuous(name="time (microsecond)",
                     trans = log10_trans(),
                     breaks = trans_breaks("log10", function(x) 10^x),
                     labels = trans_format("log10", math_format(10^.x)))+
  coord_flip()

在这里插入图片描述

从上图可以看出，对于All,Month或Season来说，这8个函数中，随着数据量的增加，ddply,join,str_replace和which处理单个数据所需时间急速下降，随着数据量的继续增加，ddply 在n=10000时有一个明显的拐点。对于for_if,for_if_else,for_ifelse和for_switch来说，随数据量的增加，处理每个数据所需时间变化相对较小，并且没有明显的拐点。因此，在处理数据量小于10000的时候，选择哪个函数区别不是很明显，但当数据量大于100000,最好选择which和join函数。另外，对于for系列函数，随数据量的增加，每个数据处理平均时间变化比较平稳。

截止目前，除了并行运算，其它函数的运行效率已基本总结完毕。

这个专题暂告一段落。有空再续……

网友评论

本文标题：1. R语言运行效率分析_小结（6）

本文链接：https://www.haomeiwen.com/subject/tmdyqhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

1. R语言运行效率分析_小结（6）

小结（6）

相关文章