这里面提到的很多R包都是Rstudio公司旗下的,其中又有好几个R包是由Hadley Wickham大神所写的。
数据加载
- R可以不需要任何工具,直接用read.csv, read.table, read.fwf等函数读取加载纯文本格式文件
- RODBC, RMySQL, RPostgresSQL, RSQLite :从数据库中读取加载数据
- readxl : 从Excel中读取加载数据
- haven : 从SAS/SPSS格式的数据集中读取加载数据
- readr: 读取csv等文本格式的数据,效率比R自带读取函数要高5~10倍;
数据处理
数据处理里面提到的R包都是Rstudio公司旗下的。
- dplyr - 必备的数据处理工具,可以对数据集做subset, summarize, rearrange, join等处理
- tidyr - 利用gather和spread函数将数据集转化成格式更工整的数据集
- stringr - 一个简单易上手的对字符串类型的数据进行正则表达式处理的工具
- lubridate - 处理日期和时间类型数据的工具
数据可视化
- ggplot2 - R中最著名的可视化工具包
- ggvis - 一个可以做基于web的交互可视化工具包
- rgl - 在R中做3D交互可视化
- htmlwidgets - 一个在R中快速建立基于JavaScript内核的交互可视化工具包
- googleVis - 利用Google Chart工具在R中做数据可视化
数据建模
- car - 做方差分析
- mgcv - 调用广义相加模型
- lme4 / nlme - 调用线性/非线性混合效应模型
- rendomForest - 调用机器学习中的随机森林模型
- multcomp - 做多重比较分析
- vcd - 实现分类数据做可视化及测试
- glmnet - 调用Laso and elastic-net回归模型及交叉检验
- survival - 做生存分析
- caret - 训练回归/分类模型的工具包
处理和分析大数据集
- sparklyr: Rstudio公司开发的在R中使用spark的接口程序库;
- sparkR: spark社区提供的访问spark的R语言程序库。spark官方还提供Java,Scala,Python语言接口。
可视化报告
- shiny - 一个用R做交互可视化的应用
- R Makdown - 用R做数据分析报告的必备工具
- jupyter notebook:数据科学家最喜欢的编程环境。
- xtable - 将R中的数据对象(如data frame)转换成HTML/LaTeX代码的工具
处理时间序列及金融数据
- zoo - 提供最流行的格式在R中存储时间序列对象
- xts - 灵活处理时间序列数据集的工具
- quantmod - 下载金融数据并做可视化、技术性分析的工具
处理web数据
- XML - 用R读写XML文件
- jsonlite - 用R读写JSON文件
- httr - 处理http链接的工具集合
网友评论