R的介绍
R的简介
R是一种编程语言,是可以用来进行统计计算和绘图的免费软件。
R的优势
有一些文章介绍了R的优势,如:Why I use R for Data Science - An Ode to
R;6 REASONS
TO LEARN R FOR
BUSINESS。不过对我来说,主要的优势还是以下几个:
-
免费;
-
无需太多的编程知识(在
tidyverse
等包的帮助下,即便没有正式的计算机科学或软件工程训练也能比较容易地上手); -
RStudio这个IDE(Integrated Development
Environment,集成开发环境)非常好用;
R的学习方法
- 直接学习
tidyverse
,参考:
Don't teach built-in plotting to beginners (teach
ggplot2):
Teach the tidyverse to
beginners;
Don't teach students the hard way
first;
研究生阶段,同学曾给我一份代码,包括以下部分:
mean.matrix = tapply(datafile$depvar0, list(datafile$pp, datafile$condition), mean, na.rm = T)
sd.matrix = tapply(datafile$depvar0, list(datafile$pp, datafile$condition), sd, na.rm = T)
for(i in 1: nrow(datafile)){
datafile$zscore[i] = (datafile$depvar0[i] - mean.matrix[datafile$pp[i],datafile$condition[i]]) / sd.matrix[datafile$pp[i],datafile$condition[i]]
}
datafile <- datafile[abs(datafile$zscore) < 3,]
datafile <- na.omit(datafile)
datafile[order(-datafile$zscore),]
我问清楚她要干什么之后,改成了tidyverse
化的代码:
group_by(pp, condition) %>%
filter(near(depvar0, mean(depvar0), sd(depvar0) * 3)) %>%
ungroup()
如果没有tidyverse
,我可能就不会学R了;
-
尝试写与R有关的博客,参考:
Blog about something you just
learned; -
研究专家的代码,参考:
HOW TO LEARN R, PART 1: LEARN FROM A MASTER DATA SCIENTIST'S
CODE; -
听取大牛的建议,参考:
Advice to Young (and Old) Programmers: A Conversation with Hadley
Wickham; -
学习路径,参考:
LeaRning Path on R – Step by Step Guide to Learn Data Science on
R
R及RStudio的安装
R的安装
进入CRAN,点击左上角图标下的镜像,也就是Mirrors:
image下拉寻找离自己较近的镜像,我一般就用China下的第一个,清华的:
image根据自己的电脑系统点击不同的Download R for xxxxxx:
image点击install R for the first time,然后就会开始下载了:
image把下载好的安装包装上,所有选项都默认吧。装好R后,还需要把RStudio装上,才能用得更舒服。
RStudio的安装
点击该链接,选择适合自己电脑系统的安装包进行下载;
image把安装包装上,同样,还是都选默认选项吧。最好把安装路径记下来,因为RStudio似乎不会自动生成桌面的快捷方式,需要你自己去把快捷方式弄到桌面上;双击图标进入RStudio,然后就可以愉快地使用R了。
RStudio的界面
首次进入RStudio,一般会是下面这样的界面:
image点击左上角的file,然后选择New File -> R
Script,可以创建脚本编辑器,大部分工作都将在这里进行:
左下方包括Console窗口和Terminal窗口,如果使用了R Markdown
,还会有一个R
Markdown窗口。Console中可以输入简单的代码,及显示代码运行的记录,左侧那个大于号叫prompt(提示符)。Terminal应该就是一个cmd,如果在这里输入notepad,就能打开记事本。
右上方包括Environment、History和Connections,如果使用了Version
Control(版本控制),还会有一个Git窗口。Environment中列出了当前程序生成的Objects(对象),History中可以查看代码的运行历史,而Connections可以用来跟数据库或Spark进行连接:
右下方包括Files、Plots、Packages、Help和Viewer五个窗口。Files窗口中列出了当前文件夹下的文件,Plots窗口用来呈现通过程序所绘制的图,Packages窗口中列出了当前电脑中已安装的R包,Help窗口中可以查看帮助文档,而Viewer窗口中可以查看程序生成的网页:
image
网友评论