一、将输入导入软件
R语言获取数据的三种途径:
1、利用键盘来输入数据;
2、通过读取存储在外部文件上的数据;
3、通过访问数据库系统来获取数据。
二、纸质数据转换R语言中数据
像这个例子中,每一行都是一个观测,每一列都是一个变量。
纸质病历数据
纸质病历数据可以通过将每一列的变量生成向量,再将向量合并做成一个数据框即可。
patientID<-c(1,2,3,4)
admdate<-c("10/15/2009","11/01/2009","10/21/2009","10/28/2009")
age<-c(25,34,28,52)
diabetes<-c("Type1","Type2","Type1","Type1")
status<-c("Poor","Improved","Excellent","Poor")
data<-data.frame(patientID,admdate,age,diabetes,status)
图1 数据生成结果
三、生成表格录入数据
- 生成一个空表格用来填入数据
edit函数:先用data.frame命令定义各个变量数据类型和字符长度,再运用edit命令,R便会弹出一个自动生成的类似excel数据表,双击单元格即可编辑数据。如果没有提前定义变量,数据是无法保存的,退出之后数据就会消失。
data2<-data.frame(patientID=character(0),admdate=character(0),age=numeric(),diabetes=character(),status=character())
##用数据库语言定义变量
data2<-edit(data2)
图2 弹出的可编辑的数据表格
- 对已经录入的信息进行生成表格可视化
也可以修改表格中的数据
紧接着图一的代码输入
data1<-data #将原始数据赋值到一个新的变量,以免破环原始数据
data1<-edit(data2)
图3 弹出已经赋值好的表格数据
- fix函数生成表格录入数据
fix(data1)
图4 fix也可以起到edit效果
四、读取存储在外部文件上的数据
可以看出,用手动输入数据的方式很麻烦。我们一般采用通过读取存储在外部文件上的数据;一般用python先处理统计结果,再用R语言进行运算处理。
五、通过访问数据库系统来获取数据
- 通过ODBC访问数据库
ODBC是开放数据库连接Open Database Connectivity的简称。是通过R语言处理大数据的有效手段。R中可以通过安装RODBC包来连接和访问数据库。
install.packages("RODBC")
这个包允许R和ODBC数据库建立双向通信,这不仅有利于R读取数据库中的内容,也可以将R处理的结果写入数据库内。
还有一个为不同数据库提供通用语法的包,要使用某个特定的数据库时需要下载其与包相连的包才能使用,这些包为特定的数据库程序和原始驱动程序提供了API接口。例如想访问mySQL数据库,就下载RmySQL包
网友评论