美文网首页
191201 R语言学习笔记2

191201 R语言学习笔记2

作者: dicklim | 来源:发表于2019-12-01 15:14 被阅读0次

day1已经获得了一个数据框,先学习对这个数据框进行操作

切片操作,取第1,3行, 然后取第4,6列

上一次练了一下paste0,所以NO格子显示no.1 man

R自带很多数据包,这次加载了rivers数据包

更多的数据包去链接里学习
探索R自带数据包:https://mp.weixin.qq.com/s/dZPbCXccTzuj0KkOL7R31g

rivers包包括了北美141条河流的长度

下面这题有点复杂,多截点图

下载 https://www.ncbi.nlm.nih.gov/sra?term=SRP133642 里面的 RunInfo Table 文件读入到R里面,了解这个数据框,多少列,每一列都是什么属性的元素。(参考B站生信小技巧获取runinfo table) 这是一个单细胞转录组项目的数据,共768个细胞,如果你找不到RunInfo Table 文件,可以点击下载,然后读入你的R里面也可以。

链接点进去显示如下,是一个搜索页面

显示每个细胞条目

随便点一个进去,study里可以找到他属于SRP13362,点进去

某一条细胞RNA条目

这样可以进入该RNAseq的页面

SRP133642的信息页面

从run可以看到这个SPR总数据量有5.2G,超大x
点run可以进入下载页面,里面可以选择是下全部数据还是只下一个runinfo table。

下载信息页面

下下来大概是这样一个txt

SraRunTable.txt内容

read.table报错:

Error

debug,需要把行列的名字都给出来

要求数据对齐并补全

同时没有指定分隔符,需要加一句sep=' , ' 。即在读取的时候用逗号分隔。

可以看到导入了768个细胞的条目,一共31行

留个坑,回头来写一下每一列的内容什么的

关于GEO下载的题目

下载 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE111229 里面的样本信息sample.csv读入到R里面,了解这个数据框,多少列,每一列都是什么属性的元素。(参考 https://mp.weixin.qq.com/s/fbHMNXOdwiQX5BAlci8brA 获取样本信息sample.csv)如果你实在是找不到样本信息文件sample.csv,也可以点击下载

点开链接可以进入GEO界面

GSE111229

然后回到主界面有个browser content - samples,搜索GSE111229 ,然后export

导出samples.csv

导出来是一个表格,长这样

samples.csv

可以发现上下两个数据框的GSM_accession是一样的

元素了解继续挖坑

最后还是贴一下代码

source('day1.R')
print("student is a 数据框")
student
#对数据框进行操作,去特定的行或者列
#去第一和第三行
student[c(1,3),]
#取第四和第六列
student[,c(4,6)]
#综合上面两条
student[c(1,3),c(4,6)]

#加载rivers数据包,里面录入了北美141条河流长度
river = rivers

#将runinfo table导入,注意第一行是标题,然后分隔符是逗号
SRP <- read.table('SraRunTable.txt',head=T,sep=',')

#导入samples.csv,可以发现这两个的GSM_accession是一样的
sample <- read.csv('sample.csv')

相关文章

网友评论

      本文标题:191201 R语言学习笔记2

      本文链接:https://www.haomeiwen.com/subject/gpyzwctx.html