美文网首页生信星球培训第十九期
学习小组Day5笔记--尹露茜

学习小组Day5笔记--尹露茜

作者: 尹露茜 | 来源:发表于2019-07-06 10:33 被阅读0次

新手教程撸着撸着
感觉来了一点

(以下知识点均来源于生信星球)
注:#%>%是管道操作符,将第一个函数的结果输出为第二个结果的操作文件,可以少些重复。

今日主题两个包

tidyr

dplyr

tidyr的功能

(1)数据框的变形
(2)处理数据框中的空值
(3)根据一个表格衍生出其他表格
(4)实现行或列的分割和合并

建个表格

data.frame

a <- data.frame(country=c("A","B","C"),"1999"=paste(c (0.7,37,212),"K"),"2000"=paste(c(2,80,213),"K"))
重塑数据

reshape data ---gather/spread

gather(data,key,value,…,na.rm=FALSE, convert=FALSE, factor_key = FALSE)
spread(data,key, value, fill = NA, convert = FALSE, drop = TRUE, sep = NULL)
处理丢失的数据
drop_na(data,...) #有空值的删除整行
fill(data,..., direction = c("down", "up")) #根据上下文蒙一个
replace_na(data, replace = list(),...) #同一列的空值填上同一个数
分割合并

separate #按列分割
separate_rows #按行分割
unite #分割完了再合并回去

separate(data,col,into,sep = "", remove = TRUE, convert = FALSE, ...)
separate_rows(data,...,sep = "", convert = FALSE)
unite(data,col, ..., sep = "_", remove = TRUE)

dplyr的功能

对表格进行操作,操作格式必须是tidy data

arrange #排序

arrange(frame1,geneid) #这是刚才准备测试数据时写下的
arrange(frame1,geneid,expression)#在按col1排序的基础上,按col2排序
arrange(frame1,geneid,desc(expression))

filter #筛选

filter(frame1,expression>3)
filter(frame1,expression>3|geneid=="gene2")   #注意表示or或者。
filter(frame1,expression>3) %>% arrange(expression)  #筛选后排序

distinct #去除重复行

distinct(frame1,geneid)
distinct(frame1,geneid,Sampleid)

select #按列筛选

select(frame3,geneid,expression)  #选择特定两列
select(frame3,-Sampleid) #反选
select(frame3,contains("n"))  #列名包含n的列
select(frame3,starts_with("a"))  #以a开头的列

mutate #根据原有的列生成新的列

mutate(frame3,E=expression *10)  #生成新列E是expression列值的10倍
mutate(frame3,E=expression*10) %>% select(-expression)  #生成新列后去掉把原有的expression列
mutate(frame3,id=paste("ath",geneid,sep = "_")) %>% select(-geneid) #在列添加前缀ath
mutate(frame3,id=paste("ath",geneid,sep = "_")) %>% select(id,Sampleid,expression)  #和上一行本质上是一样的

summarise #对数据进行简单统计

frame3 %>% group_by(geneid)%>%summarise(avg=mean(expression))#按照geneid分组并求平均值(更有意义)

bind_rows #表格拼接(按行拼接)

rbind(frame1,frame4)
frame1 %>%bind_rows(frame4)

交集、并集、全集

intersect(frame1,frame4)
union(frame1,frame4)
union_all(frame1,frame4)

关联

right_join(frame1,frame2) #右连接--把表1添加到表2
inner_join(frame1,frame2) #内连接--只保留两个表格共有的行
by=c("col1"="col2") #当在两个表格中列名不一样时需要在括号内加-col1和2分别是在两个表格中的需合并的列名
semi_join #只保留第二个表格中包含的id
anti_join #只保留第二个表格中不包含的id
屏幕快照 2019-07-06 上午10.29.14.png 屏幕快照 2019-07-06 上午10.28.09.png

相关文章

  • 学习小组Day5笔记--尹露茜

    新手教程撸着撸着感觉来了一点 (以下知识点均来源于生信星球)注:#%>%是管道操作符,将第一个函数的结果输出为第二...

  • 学习小组Day7笔记--尹露茜

    最后一天在豆豆花花的引导下成长教程的知识总结特别好是我一直接触又疑惑的部分喜欢这样的系统归纳真诚致谢 学习内容 怎...

  • 学习小组Day3笔记--尹露茜

    学习到第三天,不得不说,这样的学习方式真的很棒教程非常详尽,知识又让人尝到甜头唯一焦虑的是,突然觉得生信这条路,走...

  • 学习小组Day2笔记--尹露茜

    学习内容 LINUX系统初学习 linux概念与价值 一个基于 POSIX 和 UNIX 的多用户、多任务、多线程...

  • 学习小组Day4笔记--尹露茜

    前三天学习的对于我都是新知识然鹅R我是有基础的所以昨天的学习没那么上心。。改正但我学生信真的。。可能不是那么有天赋...

  • 学习小组Day6笔记--尹露茜

    把豆豆花花的写的ggplot相关教程整理了一下并没有完全消化列了份整体大纲存储了代码备用 变量 离散型变量连续型变...

  • 学习小组Day1笔记--尹露茜

    学习内容 熟悉Markdown语法利用搜索解决使用思维导图下载常用APP Markdown Markdown学习链...

  • 学习小组Day5笔记-柏金bbj

    [学习小组Day5笔记-柏金bbj] 鼓捣了一晚上的成就,就用这个来补上d4的作业把~

  • 2019四月行动日志 - 草稿

    2019/04/05 DAY5 1.学习成长 把昨天落下的补上 听上官文露的读书音频课并笔记。 学习阿佳老师关于个...

  • 学习小组Day5笔记--kan

    笔记来自生信星球学习小组资料 Day5 学习内容-R语言数据类型 1.思维导图镇楼 2.R语言数据类型 向量 ve...

网友评论

    本文标题:学习小组Day5笔记--尹露茜

    本文链接:https://www.haomeiwen.com/subject/vunuhctx.html