day1已经获得了一个数据框,先学习对这个数据框进行操作
切片操作,取第1,3行, 然后取第4,6列
![](https://img.haomeiwen.com/i20238375/0328a667842ef984.png)
R自带很多数据包,这次加载了rivers数据包
更多的数据包去链接里学习
探索R自带数据包:https://mp.weixin.qq.com/s/dZPbCXccTzuj0KkOL7R31g
![](https://img.haomeiwen.com/i20238375/a3b45fe6c723f8d1.png)
下面这题有点复杂,多截点图
下载 https://www.ncbi.nlm.nih.gov/sra?term=SRP133642 里面的
RunInfo Table
文件读入到R里面,了解这个数据框,多少列,每一列都是什么属性的元素。(参考B站生信小技巧获取runinfo table) 这是一个单细胞转录组项目的数据,共768个细胞,如果你找不到RunInfo Table
文件,可以点击下载,然后读入你的R里面也可以。
链接点进去显示如下,是一个搜索页面
![](https://img.haomeiwen.com/i20238375/f981797cabd2546e.png)
随便点一个进去,study里可以找到他属于SRP13362,点进去
![](https://img.haomeiwen.com/i20238375/0b9f0a3a93cbc425.png)
这样可以进入该RNAseq的页面
![](https://img.haomeiwen.com/i20238375/d8267bcdc4e53379.png)
从run可以看到这个SPR总数据量有5.2G,超大x
点run可以进入下载页面,里面可以选择是下全部数据还是只下一个runinfo table。
![](https://img.haomeiwen.com/i20238375/e2783dda11aeb838.png)
下下来大概是这样一个txt
![](https://img.haomeiwen.com/i20238375/d7eb2a3d7929352d.png)
read.table报错:
![](https://img.haomeiwen.com/i20238375/b9d36cc5460b9392.png)
debug,需要把行列的名字都给出来
![](https://img.haomeiwen.com/i20238375/ac3c09ec291fae1e.png)
同时没有指定分隔符,需要加一句sep=' , ' 。即在读取的时候用逗号分隔。
![](https://img.haomeiwen.com/i20238375/488e7427238db44d.png)
留个坑,回头来写一下每一列的内容什么的
关于GEO下载的题目
下载 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE111229 里面的
样本信息sample.csv
读入到R里面,了解这个数据框,多少列,每一列都是什么属性的元素。(参考 https://mp.weixin.qq.com/s/fbHMNXOdwiQX5BAlci8brA 获取样本信息sample.csv)如果你实在是找不到样本信息文件sample.csv,也可以点击下载。
点开链接可以进入GEO界面
![](https://img.haomeiwen.com/i20238375/cb7d47ed10cb6de3.png)
然后回到主界面有个browser content - samples,搜索GSE111229 ,然后export
![](https://img.haomeiwen.com/i20238375/4f5664a8c5b923d0.png)
导出来是一个表格,长这样
![](https://img.haomeiwen.com/i20238375/ddbee079e6feef61.png)
可以发现上下两个数据框的GSM_accession是一样的
元素了解继续挖坑
最后还是贴一下代码
source('day1.R')
print("student is a 数据框")
student
#对数据框进行操作,去特定的行或者列
#去第一和第三行
student[c(1,3),]
#取第四和第六列
student[,c(4,6)]
#综合上面两条
student[c(1,3),c(4,6)]
#加载rivers数据包,里面录入了北美141条河流长度
river = rivers
#将runinfo table导入,注意第一行是标题,然后分隔符是逗号
SRP <- read.table('SraRunTable.txt',head=T,sep=',')
#导入samples.csv,可以发现这两个的GSM_accession是一样的
sample <- read.csv('sample.csv')
网友评论