学习小组Day6笔记--李蛤

作者: 噗嗤大魔王 | 来源:发表于2019-06-22 22:58 被阅读0次

学习小组Day6笔记--李蛤
学习小组Day4笔记--李蛤
学习小组Day3笔记--李蛤
学习小组Day5笔记--李蛤
学习小组Day7笔记--李蛤
学习小组Day1笔记--李蛤
学习小组Day2笔记--李蛤
2020-06-20
学习小组Day7笔记--Robin
学习小组Day6笔记--李文静

准备工作

R包的使用

方法1：去百度/谷歌XX小抄
方法2：Rstudio的cheatsheet网站或公众号回复R包名字获取

初步了解R包（以tidyr为例）

总体而言，这个包的作用是把目标数据处理成标准而统一的数据框
其具体功能主要有：

数据框的变形
处理数据框中的空值
根据一个表格衍生出其他表格
实现行或列的分割和合并

学习极简安装R包

准备好Rstudio，输入setwd(dir="/Users/limohan/Desktop/R_data")设置好工作目录，在控制台输入library(tidyr)若未安装则会报错
下载和安装tydir，输入install.packages("tidyr")
（这里会安装到默认工作目录里，下载很慢，只要控制台不出现＞，就一直等着，若报错，则通过tools→global options→packages选择一个国内的镜像）
加载tydir，输入library(tidyr) （无报错即证明安装成功）

数据框的小常识

1. 新建数据框(直接把新建的数据框赋值给了a)

a<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))

得到的数据框如下：

新建数据框
新建一个数据框并赋值给bioplanet这个变量（赋值符号<-还记得嘛）括号里是“列名”=列值，这里列名要加双引号。这里涉及的几个给列填充数值的函数有：
rep，重复，括号中填要重复的字符和重复次数。

paste，连接两个字符串，括号要填两个代连接字符并指定分隔符（sep），没有分隔符就填sep=“”。

1：3表示从1到三。如需一列中需要填入三个无规律的数字，可以用向量c(1，3，4)，同样如果填的是字符串也需要加双引号，例如c("doudou","huahua","xiaoyu")

2. 了解概念

key-value--“键值对” ，表示一种对应关系。“键”和“值”都是列名，如SampleName和Expression的对应

3. 函数后面一般都要加括号，括号里第一个参数是都数据框名

4. 字符串要加双引号（行名和列名也是字符串，但是可以不用加），其他单元格里出现的字符串要加。

行 raw
列 column，简化写法为col

认识Tidy Data

是一种组织表格数据的方式，提供了一种能够跨包使用的“统一”的数据格式。什么叫“统一”？每个变量（variable）占一列，每个情况（case）和观测值（observation）占一行。

举例

不要让sample1，2，3当列名，让他们多重复几遍，合并到一列。数据由九宫格变成了一列，就可以用来跨包处理，这就是实现了数据框的变形。

正式开始

1. Reshape Data

gather和spread

在这里如何复制上图中的数据？（比较特殊的一点是列名是数字，这个还没碰见过，因此对它这个列名动了一点手脚，不管给他们加双引号、单引号还是反引号（英文模式下的1前面那个键），都没有报错。但是不加引号是不行滴。
但是我发现这个显示表格的时候，会自动在数字列名前面加上个x(大写的)，就像这样

640.png

由于它自动加了X，写列名的时候就不能按照小抄上面写，而是:

gather(a,X1999,X2000,key = "year",value = "cases")

gather括号里的分别是：
数据框名，需合并的列名（两个），合并后的key列名，value列名
其中，需合并的列名也可以列在最后(其实个顺序才是默认的)，key=和value=也可以省略，如果按照上面小抄的命令括号里那个顺序，省略了就会报错

gather(a,"year","cases",X1999,X2000) #推荐的偷懒做法

结果如图

其中，合并前的列名如果比较多，可以用排除法来偷懒，在上图例子中可用

gather(a,year,cases,-country)  #-country的意思就是合并除country外剩下的列

2. Handle Missing Values

处理丢失的数据。就是某些单元格有空值的情况。
三种处理方式：

删除整行
根据上下文（瞎）蒙一个
同一列的空值填上同一个数

对应的3个R包

示例数据放在R_Data文件夹下（！！！重要）
NA表示空值，所以新建的时候像我一样空着就好。
用以下命令即可获得图示数据框X

X<-read.csv('doudou.txt')

可能别人不会这么教，但我在这里之所以选择了csv，是因为这个神奇的支持R和Excel，默认参数好的很（默认分隔符是“，”，导出时也不会默认加引号。如果你用read.table试试就知道默认参数多笨了），并且转换txt也不会变乱码！（我自己发现的，想夸我千万别忍着）
在这里补充下csv的导入和导出方式。(默认参数好，学R没烦恼)
导入：X<-read.csv('doudou.csv')
导出：write.csv(X,'doudou.csv')
drop_na()：有空值的，整行删除掉
括号里填数据框名，依据的列名（有空值那一列的列名）

drop_na(X,X2)

fill()，根据上一行的数值填充上

fill(X,X2)

replace_na()，空值填进去特定的一个数值，括号里填数据框名，要填的列名=要填的值

replace_na(X,list(X2=2))

3. Expand Tables

对应的R包

complete（把空值的位置补全）

可以直接用刚才的数据框X填充一下试试。比如填5

结果

用的数据是com.csv：
读取的命令是com <- read.csv("com.csv")

结果
其中有三个空值，因此要填充上ddd relate

结果

（列出每列值所有可能的组合--根据下面的示例来理解这句话）

expand

来看示例:
示例数据（就是刚才新建出来的数据框a）：

pin2<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))

结果

就是选中的列中的值各种组合，成为一个新表

4. split cells(选修)

separate：按列分割
separate_rows：按行分割
unite：分割完了再合并回去

网友评论

生信星球培训第十八期

本文标题：学习小组Day6笔记--李蛤

本文链接：https://www.haomeiwen.com/subject/lmhbqctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

学习小组Day6笔记--李蛤

准备工作

R包的使用

初步了解R包（以tidyr为例）

学习极简安装R包

数据框的小常识

1. 新建数据框(直接把新建的数据框赋值给了a)

2. 了解概念

3. 函数后面一般都要加括号，括号里第一个参数是都数据框名

4. 字符串要加双引号（行名和列名也是字符串，但是可以不用加），其他单元格里出现的字符串要加。

认识Tidy Data

正式开始

1. Reshape Data

2. Handle Missing Values

3. Expand Tables

complete（把空值的位置补全）

expand

4. split cells(选修)

相关文章

学习小组Day6笔记--李蛤

学习小组Day4笔记--李蛤

学习小组Day3笔记--李蛤

学习小组Day5笔记--李蛤

学习小组Day7笔记--李蛤

学习小组Day1笔记--李蛤

学习小组Day2笔记--李蛤

2020-06-20

学习小组Day7笔记--Robin

学习小组Day6笔记--李文静

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信星球培训第十八期