美文网首页
3.GEO的ID转换已经通关了

3.GEO的ID转换已经通关了

作者: 生命数据科学 | 来源:发表于2022-12-04 17:56 被阅读0次

如果不太清楚如何挖掘GEO数据库的,可以先看
1. 四文搞定GEO数据库转录组差异分析之简介

2. 四文搞定GEO数据库转录组差异分析之操作

1. 本文能解决的问题

在我们分析GEO数据的时候,总会遇到下面这样的GPL,没有gene symbol,也不太好转换。参考GEO芯片中的NM_,NR_开头的识别号如何转换成基因名称?等其他ID转换的文章,我们确实是可以完成任务,但是特别费时费力,而且总是得一种ID对应一种转换流程,很麻烦。

图片

当需要分析10个平台的时候,我们可能一个一个做,3天能做完,而如果当我们需要分析6000个平台的时候。。。

图片

本文主要针对没有symbol列人/小鼠芯片数据GPL文件进行自动、批量ID转换,对着电脑发会儿呆,GPL文件就处理好了。

2. 主要利用俩技术

正则表达式负责识别ID类型以及具体的每个ID

bioma****Rt包负责各种ID转换

3. 怎么用

  1. 后台回复GEO芯片分析,获取相关代码和文件

  2. 打开GPL_auto_ann.Rproj

    图片
  3. Rstudio的右下窗口File栏中双击GPL_auto_ann.R

    图片
  4. 修改第三行root_dir的目录名为GPL_auto_ann文件夹所在目录,以“/”斜杠分割,如此处为****D:/GPL_auto_ann

    图片
  5. 将需要ID转换的GPL文件放入GPL_file文件夹

    图片
  6. Rstudio左上区域ctrl+A全选代码,然后 图片

一些声明:

  • 本文并未针对大鼠ID转换写相应代码,请运行之前检查!

  • 由于GPL文件现在挺大的,因此输出文件将覆盖源文件,并仅保留两列(ID 列和symbol列)

  • 针对原来就已经有symbol列的GPL文件,代码并未做任何修改

感谢观看到最后,敬请批评指正!

相关文章

网友评论

      本文标题:3.GEO的ID转换已经通关了

      本文链接:https://www.haomeiwen.com/subject/xkivfdtx.html