网址:http://www.imooc.com/learn/446
第一章 R语言介绍
1.R是数据分析和可视化的平台
2.1993年首次出现
3.2011年开始在国内被大家熟知
4.R的工具包非常强大
5.R语言可以完成数据分析的所有步骤
数据获取 ——》 数据清理 ——》 数据分析 ——》数据可视化
6.大数据分析 【薪资高】 Kaggle竞赛
7.数据分析 结果报告 发布报告
8.发布平台:GitHub RPubs
9.探索性数据分析 作图 柱状体 散点图
10.统计推断
- 基于数据得出正式结论的过程
- 不确定性【通常我们采集到的数据是不确定的,即数据是有噪音的,这些噪音的存在会影响我们结论的有效性。统计推断是从统计的角度来帮我们确定我们的统计是否具有意义。】
-
抽样调查 会存在 样本偏差
-
统计推断要给出 结论 以及 结论是错误的概率【一般要求小于5%,就认为是正确可行的】
11.回归分析 预测变量 结果变量 用于预测
12.机器学习:训练模型+预测
13.R开发数据产品
-
GoogleVis API R制作交互式html图标,调用Google charts
-
Manipulate R的包 用于实现人机交互 如:手动调整参数【这样就有助于我们理解统计的概念、和统计背后的意义】
-
rCharts 使用R制作交互式javascript可视化产品
-
Shiny 制作嵌入网页的交互式R程序的平台
开发平台 [www.shinyapps.io](http://www.shinyapps.io) 用于产品开发 学习成本低,易上手。
-
Slidify 制作和发布基于R的报告(PPT)
制作生产报告
第二章 R的安装与帮助
1.R与Rstudio的获取
网址:cran.r-project.org
2.Rstudio R的集成环境(IDE),R的用户接口
网址:rstudio.com
3.包(Package)
-
扩展R基本功能的机制/集成了众多函数
-
找包的地方:CRAN/Bioconducter/GitHub
-
CRAN安装包:install.packages(“包名")
-
GitHub安装包:install_github(“包名")
-
如何找包:
网址:[https://cran.r-project.org/](https://cran.r-project.org/) [Table of available packages, sorted by date of publication](https://cran.r-project.org/web/packages/available_packages_by_date.html) 可供下载的包按发布日期排列
Table of available packages, sorted by name 可供下载的包按名称排列
-
安装机器学习的caret包:
> install.packages(“caret”)
-
红色图标表示 Rstudio很忙碌 , 如果点击会暂停Rstudio。

-
通常下载一个包,需要其他包支撑的话,Rstudio也会讲其他包下载下来。【很人性化】
-
在使用包的时候,要先加载这个包
-
如加载机器学习包caret:
> library(caret)
-
R中自带的数据集
-
data() 上方会打开一个文件,这个文件里面有对数据集的描述。 第一行会显示,是哪个包的数据集。
-
查看数据集的详细内容:
> ?Insectsprays 在右下侧会出现关于数据集的描述
4.获取帮助
-
?函数名(获取帮助文档)
-
调出线形回归的文档:
> ?lm lm[stats] 这个函数位于states这个包里面。
-
常见查找错误网站: Google / Stackoverflow
-
如何问问题:
需要说明操作系统、版本、哪一步产生的错误、预期是什么、得到的结果是什么、其他有用的信息 例如: Win7 R 3.2.0 lm() ‘’seg fault on large data frame''
网友评论