下载NCBI的数据
下载网址如下:ftp://ftp.ncbi.nih.gov/pub/HomoloGene/
下载最新的homologene.data数据
读取数据,我放到excel转换为csv格式后进行读取
rt<-read.csv("/Volumes/lab-cao/CFJiang/Annotation/homologene.csv",header = F)
观察数据
rt[1:20,1:6]
V1 V2 V3 V4 V5 V6
1 3 9606 34 ACADM 4557231 NP_000007.1
2 3 9598 469356 ACADM 160961497 NP_001104286.1
3 3 9544 705168 ACADM 109008502 XP_001101274.1
4 3 9615 490207 ACADM 545503811 XP_005622188.1
5 3 9913 505968 ACADM 115497690 NP_001068703.1
6 3 10090 11364 Acadm 6680618 NP_031408.1
7 3 10116 24158 Acadm 292494885 NP_058682.2
8 3 7955 406283 acadm 390190229 NP_998175.2
9 3 7227 38864 CG12262 24660351 NP_648149.1
10 3 7165 1276346 AgaP_AGAP005662 58387602 XP_315683.2
11 3 6239 173979 acdh-8 17534899 NP_495142.1
12 3 6239 181758 acdh-7 17570075 NP_510789.1
13 3 8364 100494748 acadm 512837304 XP_002936129.2
14 5 9606 37 ACADVL 4557235 NP_000009.1
15 5 9598 455237 ACADVL 332847152 XP_003315394.1
16 5 9615 489463 ACADVL 345800108 XP_546581.3
17 5 9913 282130 ACADVL 27806205 NP_776919.1
18 5 10090 11370 Acadvl 23956084 NP_059062.1
19 5 10116 25363 Acadvl 6978435 NP_037023.1
20 5 7955 573723 acadvl 47086807 NP_997776.1
可以看到第一列(V1)可以归纳为一个簇,即不同物种的该基因理论是同源的。V2为种属的编号,如human为9906,鼠为10090。V3 为基因的NCBI ID,V4为NCBI的基因名,V5为GI编号,GI编号具体参考这个网址。V6为refseq编号,编号含义可参考这个网址。
分别提取鼠与人的信息
human<-rt[rt[,2]==9606,]
mouse<-rt[rt[,2]==10090,]
write.csv(human,"human_id.csv")
write.csv(mouse,"mouse_id.csv")
所以说根据上述信息可以分别查看mouse和human对应的ID信息。
网友评论