一篇文章清晰解释了如何将PDF文档中复制的基因集导入到R中,并完成一些列处理,保存为字符型向量。涉及到各种常用函数的组合,以及完成工作的步骤,在此做个小结。

主要步骤
- 粘贴到R窗口界面,保存到字符串变量。
- 替换换行符为空格,
gsub("\n", " ", tmp)
, 然后将字符串分割为字符型向量as.character(str_split(tmp,' ', simplify = T))
。str_split默认返回字符列表,simplify参数为真时返回矩阵 - 检查替换后基因数量是否一致
length()
,否则作相应替换str_replace(x,"from","to")
,setdiff(x,y)
或赋值更改,最后统一去重unique()
,并作数量上验证。
paper_marker_1 <- str_replace(paper_marker,c('Ndu','fa4l2'),"Ndufa4l2")
#比较替换前后区别,setdiff(x,y), 只在x中存在而不在y中
setdiff(paper_marker_1,paper_marker)
paper_marker_2[paper_marker_2=='CPdgfrabp1'] <- 'Crabp1'
paper_marker <- unique(paper_marker_2)
length(paper_marker)
小结
主要是stringr包中相应函数的应用,及gsub()和其他命令的组合。去重应该是所有其他步骤完成后统一处理。
网友评论