重点摘要:数据分析的原则,步骤;
常用数据分析的工具,数据挖掘的工具;
R语言的优缺点;
R,RStudio的安装;
Rcmdr(R command数据(统计)分析可视化工具),rattle(数据挖掘工具)的调用;
1.简单的叙述下数据分析:
三个原则:
1)数据分析是为了验证假设的问题,需要提供必要的数据验证;(数据分析的方式);2)数据分析是为了发现更多的问题,并找到更深层次的原因;(数据分析的目标);3)不能为了数据分析而数据分析(数据分析的误区)
2.数据分析的一般步骤(大致):
说明:粗糙的描述的话就是“数据预处理->假设一个数学模型->用数据去测试评估模型拟合的效果->用新数据进行新的模型评估(不行就重新拟合新的模型)”

3.常用的数据分析工具:
excel:办公室应用软件(收费)
spss:专业的数据分析工具(收费)
matlab:商业数学软件(收费)
R:开源的数据分析软件(免费)
4.常用的数据挖掘工具
商业: SAS:模块固定不可变,提供菜单操作和编程
SPSS clementine:流操作的图形界面模式,模块固化
开源:R语言,开源,丰富的算法包和图形化能力,用户可以通过修改源代码来适合自己业务的模型;
R data miner:通过rattle包来调出工具,如下图所示:

Weka:通过Rweka包来调出工具:
5.R语言的起源

6.R语言的优点

7.R语言的缺点

8.R软件的安装:效果图如下

下载说明文档:
9.RStudio(R语言环境的IDE)
下载网址:http://www.rstudio.com/,安装效果如下

10.其他常用的辅助工具
原因是R的缺点是没有好的操作菜单,R提供的是命令行的工作方式;
其一:使用Rcmdr包,可以使用R中几乎所有的统计分析工具
调出方式:在控制台键入library(Rcmdr),执行会出现R commander,效果如下:

其二:使用rattle包,可视化数据挖掘工具
调出方式:在控制台键入library(rattle)后,再键入rattle()执行,效果如下:

11.补充:更新R版本之后,包的转移到新版本中
#--run in the old version
setwd("C:/Temp/") #注意要在C盘中新建Temp文件夹
a <- installed.packages()
class(a)
packages <- installed.packages()[,"Package"]
class(packages)
save(packages, file="Rpackages")
#--run in the new version
setwd("C:/Temp/")
load("Rpackages")
for (p in setdiff(packages, installed.packages()[,"Package"]))
install.packages(p)
---毕!
网友评论