3. 芯片注释及GO注释
该笔记参考MD Anderson Cancer Center的课程Analysis of Microarray Data,课程网址:http://bioinformatics.mdanderson.org/main/Education:MicroarrayCourse
感谢生信技能树【生信课程-国外部分 】板块的推荐:http://www.biotrainee.com/thread-62-1-2.html
3.1 芯片注释-联结基因信息与芯片
芯片的注释信息随着对基因认识及序列的改变而更新,Affymetrix公司维护的芯片注释信息每三个月更新一次
假设通过基因芯片,筛选出600个表达有差异的基因,我们想要知道:
(a)这些基因的变化体现了生物的何种功能的改变
(b)它们是否通过网络调控关系或在某些生物调控通路中发挥作用
3.2 下载Affymetrix芯片注释信息
首先进入官网http://www.affymetrix.com,免费注册一个账号,登录后,进入网站http://www.affymetrix.com/support/technical/byproduct.affx,在3‘Gene Expression Analysis Arrays
这个条目下选择物种,再选择某种类型的芯片,如Human Genome U95 Set
,其中library
目录下的Human Genome U95 Av2 Array
文件解压后含有U95 Av2
即U95A第二版芯片的cdf文件;在Current NetAffx Annotation Files
目录下含有最新版的注释文件。
Data Sheets中的说明文件(Human Genome U95 Set (pdf, 164 KB))注:U95 系列芯片不仅有A还有B,C,D,E这几种其他芯片,Affymetrix公司生产的芯片名称不同后缀有不同意义,如U95A代表U95这款芯片中的探针对应所有的已知基因(根据UniGene数据库的第95版设计的6000多个功能基因),而U95B~D代表这些芯片的探针还包括未知基因的EST序列设计的探针(根据dbEST/10-02-99数据库设计),后者用于发现新的功能基因,v2代表更新的第2版芯片
解压下载的zip文件后,发现文件大小可能大了10倍,该注释文件为csv格式,有41列,常用数据库ID信息可以点这里
列名 | 内容 |
---|---|
Probe Set ID | Affymerix探针的ID,CEL文件和CDF文件也使用该ID描述探针,其对应着某个基序列探针对,probe Set ID的详细介绍,每个Probe Set ID包括pm(完全匹配)和mm(错配),各自的10多个(16个)重复探针,所以每个芯片中一个Probe Set ID对应的探针序列种类为$2\bullet16=32$类,geneNames(data_ALL1)[1:2] 结果为[1] "100_g_at" "1000_at" ,probeNames(data_ALL1)[1:32] 结果为这两种探针的重复 |
GeneChip array | 芯片的型号,所有探针都为同一型号芯片,该列为多余列 |
Species Scientific Name | 芯片对应基因的物种名称,所有探针对应的基因为同一物种 |
Annotaton Date | 注释信息最后更新的时间,同一注释文件的所有探针更新为同一时间 |
Sequence Type | 探针的序列类型,包括Consensus(保守)和Exemplar squences, A Consensus sequence is usually the result of a aligned cluster of EST sequences. An Exemplar sequence is a cluster that includes a representative sequence from each gene group, indicating a transcript was available at the time of design. An Exemplar is a single nucleotide sequence taken directly from a public database. This sequence could be an mRNA or EST. A Consensus sequence, is a nucleotide sequence assembled by Affymetrix, based on one or more sequence taken from a public database. |
Sequence Source | 通常是GenBank,也有少数是来自The Institute for Genomic Research |
Transcript ID(Array Design) | 为某个公共数据库序列ID号加上设计探针依据的序列类型,如X60957cds |
Target Description. | 序列的详细描述,包括类型 |
Representative Public ID | Genebank 或 Refseq数据库的ID |
Archival UniGene Cluster. | 在芯片设计时的Unigene ID号 |
UniGene ID | 更新后(最新版本)的Unigene ID号 |
Genome Version. | 序列比对时所用的基因组版本号 |
Alignments. | 靶基因在基因组上的位置,用碱基位置和带法表示如chr16:30125426-30134539 (-) // 93.03 // p11.2 |
Gene Title. | 基因标题(来自Unigene或Entrez Gene 数据库)mitogen-activated protein kinase 3 |
Gene Symbol | 基因名(来自Unigene或Entrez Gene数据库)如MAPK3 |
Chromosomal Location. | 基因的位置,用细胞遗传学中的带法表示如:chr16p11.2 |
Unigene Cluster Type | 表示Unigene序列的类型,包括full length,est或未知(---) |
Ensembl | Ensembl数据库的编号 |
Entrez Gene | Entrz Gene数据库的编号,有Entrez ID的基因比没有的更具有可信,它们的信息更全,并且与其他多种数据库都建立了很好的连接 |
SwissProt. | 对应的蛋白质在SwissProt数据库的ID |
EC | EC数据库ID(很少看到,不太懂) |
OMIM | Online Mendelian Inheritance in Man (OMIM) 数据库ID,基因相关的遗传病数据库 |
RefSeq Protein ID. | Genebank的蛋白相关保守序列ID |
RefSeq Transcript ID | Genebank的mRNA类型的保守序列ID,通常与前面的Representative Public ID 重复 |
FlyBase | 果蝇drosophila数据库对应的ID |
AGI. | 拟南芥Arabidopsis数据库ID |
WormBase. | 线虫C. elegans数据库对应的ID |
MGI Name | 小鼠mouse数据库对应的ID |
RGD Name | 大鼠rat数据库对应的ID |
SGD accession number. | 酵母saccharomyces数据库对应的ID |
Gene Ontology Biological Process. | 相关GO BP的ID和名称 |
Gene Ontology Cellular Component. | 相关GO CC的ID和名称 |
Gene Ontology Molecular Function | 相关GO MF的ID和名称 |
Pathway. | 相关通路的名称 |
InterPro | 一个蛋白质结构与数据库InterPro的ID |
Trans Membrane | 如果有已知跨膜结构域序列,则会注明 |
QTL. | 大鼠基因连锁数据库RatMap提供与疾病连锁相关的信息,只有大鼠芯片才有 |
Annotation Description. | 探针注释的方法,并且根据注释质量分为几个等级,A为最高等级 |
Annotation Transcript Cluster. | EntrezGene or UniGene transcript clusters available for the probe set. These records may represent families of transcripts and the strongest collection of evidence for a gene related to a probe set. After the accession, the number of matching probes is given in parentheses.(括号后是设计的探针种类数目 |
Transcript Assignments. | 非常长的注释信息 |
Annotation Notes. | 其他备注信息,包括Cross Hybridizing Probe Sets,Reverse Complement Probe Sets,Transcript Accessions的整合 |
3.3 GO(Gene Ontology)数据库
GO用有向无环图(DAG,directed acycilc graph)的形式,通过严格控制词汇对基因的功能进行描述
3.3.1 基本组成
GO数据库由两部分组成:
-
GO注释(GOA),由Entrez等数据库进行维护更新,每个基因都有很多个功能的注释,每个功能代表了一个GO term,因此一个基因可能对应多个term如下所示HELLS蛋白对应的多个GO term(也可以在官网查找:http://amigo.geneontology.org/amigo/search/annotation?q=*:*&fq=bioentity:%22UniProtKB:Q9NRZ9%22),其下载入口为:http://www.geneontology.org/page/download-go-annotations【
注意第3~5行都是同一个GO term,GO:000551,但是其PMID不同,也就是参考的文献不同(一般都是高通量实验文章
)】UniProtKB Q9NRZ9 HELLS GO:0000775 GO_REF:0000024 ISS UniProtKB:Q60848 C Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20061106 UniProt UniProtKB Q9NRZ9 HELLS GO:0004386 GO_REF:0000037 IEA UniProtKB-KW:KW-0347 F Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180324 UniProt UniProtKB Q9NRZ9 HELLS GO:0005515 PMID:17314511 IPI UniProtKB:P01106 F Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180326 IntAct UniProtKB Q9NRZ9 HELLS GO:0005515 PMID:17353931 IPI UniProtKB:P01106 F Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180326 IntAct UniProtKB Q9NRZ9 HELLS GO:0005515 PMID:22157815 IPI UniProtKB:O00716 F Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180326 IntAct UniProtKB Q9NRZ9 HELLS GO:0005524 GO_REF:0000037 IEA UniProtKB-KW:KW-0067 F Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180324 UniProt UniProtKB Q9NRZ9 HELLS GO:0005634 GO_REF:0000039 IEA UniProtKB-SubCell:SL-0191 C Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180324 UniProt UniProtKB Q9NRZ9 HELLS GO:0005721 GO_REF:0000024 ISS UniProtKB:Q60848 C Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20061106 UniProt UniProtKB Q9NRZ9 HELLS GO:0006346 GO_REF:0000024 ISS UniProtKB:Q60848 P Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20061106 UniProt UniProtKB Q9NRZ9 HELLS GO:0006351 GO_REF:0000037 IEA UniProtKB-KW:KW-0804 P Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180324 UniProt UniProtKB Q9NRZ9 HELLS GO:0007049 GO_REF:0000037 IEA UniProtKB-KW:KW-0131 P Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180324 UniProt UniProtKB Q9NRZ9 HELLS GO:0007275 GO_REF:0000024 ISS UniProtKB:Q60848 P Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20061106 UniProt UniProtKB Q9NRZ9 HELLS GO:0010216 GO_REF:0000024 ISS UniProtKB:Q60848 P Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20061106 UniProt UniProtKB Q9NRZ9 HELLS GO:0031508 GO_REF:0000024 ISS UniProtKB:Q60848 P Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20061106 UniProt UniProtKB Q9NRZ9 HELLS GO:0046651 GO_REF:0000024 ISS UniProtKB:Q60848 P Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20061106 UniProt UniProtKB Q9NRZ9 HELLS GO:0051301 GO_REF:0000037 IEA UniProtKB-KW:KW-0132 P Lymphoid-specific helicase HELLS_HUMAN|HELLS|PASG|SMARCA6|Nbla10143 protein taxon:9606 20180324 UniProt
-
Gene Ontology提供了各种生物学功能(GO term)的层次关系,用DAG表示,由Gene Ontology委员会维护,描述基因的功能及功能之间的联系,从以下三个方面(GO term的三个类别)来对基因功能进行描述:
- Biological process (what)
- Molecular function(how)
- Cellular component (where)
因此共有3个Ontology,这三个分别为各个Ontology的level 1 term,level越高,其描述的功能越具体详细
其下载入口为:<http://geneontology.org/page/download-ontology
更加直观的显示入口:http://amigo.geneontology.org/amigo/dd_browse
查看某个term包含的基因:http://amigo.geneontology.org/amigo/term/GO:0005515可视化入口:http://amigo.geneontology.org/visualize或http://amigo1.geneontology.org/cgi-bin/amigo/term_details?term=GO:0006346如:输入
{"GO:0006346":{ "fill": "blue"}}
,结果如下:** 越往下走level数越高 **,功能越具体

各GO terms的关系有两种,一是is_a(表特殊情况,Subclass),二是part_of(表组成部分,Membership)【5_prime_UTR is part_of a transcript, and mRNA is_a kind of transcript 】。在对基因进行GO注释时,注释在高level下的基因同时也能注释在该term的母节点上
3.3.2 证据的级别
证据质量的级别可以分为6个:
- IDA, TAS
- IMP,IPI,IGI
- ISS,IEP
- NAS
- IEA
- IC
证据代码 | 详细内容 |
---|---|
IDA(inferred from direct assay) | 有文献通过实验直接证明的功能 |
TAS(traceable author statement) | 综述或教科书中的描述,并且有相应参考文献 |
IMP(inferred from mutant phenotype) | 突变实验(敲除或敲降)证明 |
IPI(inferred from physical interaction) | 免疫共沉淀等方法证明有物理结合 |
IGI(inferred from genetic interaction) | 从协同致死作用或互补及抑制的遗传学实验证明 |
ISS(inferred from sequence or structure similarity) | 通过Blast比对推测,被综述提及 |
IEP(inferred from expression pattern) | 通过Norther,Western或芯片实验表明其表达的时期和部位信息 |
NAS(non-traceable author statement) | 在文章摘要,背景或讨论部分出现,但是没有原始引用 |
IEA(inferred from electronic annotation) | 根据序列相似性推测,但是没有被综述提及 |
IC(inferred by curator) | 仅仅是根据某种理由推测(如某物质存在与核内,推测其具有转录因子功能) |
ND(no biological data available) | nly used for annotations to ”unknown” |
NR (not recorded) | used only for annotations created before curators started adding evidence codes |
3.4 使用Gominer做GO富集分析(已经放弃,软件总是运行不了)
-
安装mysql数据库,并设置root密码为root
-
设置好环境变量后,在命令行输入
mysql -uroot -proot
进入mysql界面 -
在mysql中创建goDb数据库:
create database IF NOT EXISTS goDb; grant ALL on *.* to 'root'@% identified by 'root;
-
下载go数据库文件:http://archive.geneontology.org/,**go_daily-termdb-tables.tar.gz **,解压到go数据目录(自己创建的存放go数据文件的目录,如goData),并在goData目录下,创建loadDB.bat文件,文件内容如下:
for %%a in (%1\*.sql) do type %%a | mysql -u%2 -p%3 -D%4
for %%b in (%1\*.txt) do mysqlimport -L -u%2 -p%3 %4 %%b
- 在goData目录打开命令行,输入以下命令完成写入数据库操作
.\loadDB.bat . root root goDb
- 打开Gominer.jar文件,进入图形界面,【file】-【Load GO Terms】,
jdbc:mysql://10.10.23.200(我的电脑IP):3306/goDb
jdbc:mysql://localhost:3306/goDb
root
网友评论