数据结构

1. 知识点

（1）R的赋值符号<-

(2) 在Console控制台输入命令，相当于Linux的命令行

（3）R的代码都带括号，而且必须是英文格式下的括号

（4）getwd () 显示工作的路径

（5）向量（Vector）是由元素组成的，元素可以是字符串或者数字

（6）R语言中的数据框(Data frame)就是表格

（7）函数或者命令不会用时，除了百度和谷歌，？read.table

重点：向量（vector）

a. 向量可以是数值，字符，逻辑等。

常见的向量类型

b. 向量元素的添加及合并

常用函数为c()，append()

c. 向量批量序列的生成

seq(length=, from=, to=).

length:指定生成个数；from:是指开始生成的点；to:截止点。如果不指定，则默认条件下：seq(N1,N2,BY=)，其中，n1：开始位置；n2：截止位置；by=指定间隔，

rep() rep(P，N) 重复生成P值N次；2.rep(a1:a2,a1:a2) #重复a1到a2，按a1产生a1 次，按a2产生a2 次

d. 向量排序 sort(); 输出排序后的结果；order()；输出排序后的各个向量位置，

学习了一丢丢，感觉信息量很大。

重点之-数据框

数据框（Data Frames）是一种特殊的列表，其中所用元素长度都相等，列表中的每个元素都可以看作一列，每个元素的长度可以看作行数。

创建显式数据框的方法是data.frame()

额，上面的内容是自己搜索扩展

part1：向量

1. 标量和向量的区别

元素指的是数字或者字符串（用chr表示）等

标量：一个元素组成的变量

向量：多个元素组成的变量

x<- c(1,2,3) #常用的向量写法，意为将x定义为由元素1，2，3组成的向量。

x<- 1:10 #从1-10之间所有的整数

x<- seq(1,10,by = 0.5) #1-10之间每隔0.5取一个数（注意是逗号不是分号）

x<- rep(1:3,times=2) #1-3 重复2次

注：最后一次赋值是最后的结果.

2. 从向量中提取元素

（1）根据元素位置

x[4] #x第4个元素

x[-4]。#排除法，除了第4个元素之外剩余的元素

x[2:4] #第2到4个元素

x[-(2:4)] #除了第2-4个元素

x[c(1,5)] #第1个和第5个元素

（2）根据值

x[x==10]#等于10的元素

x[x %in% c(1,2,5)]。 #存在于向量c（1，2，5）中的元素

part: 数据框

卡在了第一步。额。汗！！

终于等到你，还好我没放弃

（1）读取本地数据

read.table(file = "doudou.txt",sep ="\t",header = T)

（2）设置行名和列名

X<-read.csv('doudou.txt') #在示例数据里有doudou.txt 注意这里的变量X是一个数据框

colnames(X) #查看列名

rownames(X) #查看行名,默认值的行名就是行号

colnames(X)[1]<-"bioplanet" #有的公司返回数据，左上角第一格为空，R会自动补为x,用这个命令来修改

X<-read.csv(file = "huahua.txt",sep = " ",header =T,row.names=1) #最后row.names的意思是修改第一列为行名

（3）数据框的导出

write.table(X,file = "yu.txt",sep = ",",quote=F)

#分隔符改为逗号，字符串不加双引号（默认格式带由双引号）

（4）变量的保存与重新加载

#这次没有处理完的数据下次想接着用怎么办?--学会保存和重新加载。保存的格式是RData。

save.image(file="bioinfoplanet.RData") #保存当前所有变量

save(X,file="test.RData") #保存其中一个变量load("test.RData")#再次使用RData时的加载命令

（5）提取元素