美文网首页转录组蛋白质RNA-seq分析
基于blast进行GO功能注释

基于blast进行GO功能注释

作者: 斩毛毛 | 来源:发表于2020-07-04 21:54 被阅读0次

目前GO注释主要分为两种方法,其一,序列相似性即blast,其二,结构域相似性比对(InterProsScan),该方法在前面也提及过,本文就blast进行简要概述

所需文件

  • query 蛋白序列
  • swiss-prot 蛋白数据库
  • idmapping.tb.gz, 即GO和swiss-prot的对应关系,也包括GO与其他数据库的对应关系

简单操作

1. blast比对

对swiss-prot建库后,进行比对

blastp -outfmt 6 -query query_sequences_AA.fasta -db uniprot_swissprot.fasta -out query_vs_swissprot.txt

得到如下结果

YY_000250.1     Q8RXX9  38.728  173     75      5       24      178     14      173     1.29e-23        101     E3 ubiquitin-protein ligase ATL
YY_000260.1     Q9SK92  36.364  132     70      6       12      140     40      160     9.82e-12        69.3    E3 ubiquitin-protein ligase ATL
YY_000270.1     Q9SLC3  37.302  126     67      2       5       118     43      168     1.51e-23        98.6    E3 ubiquitin-protein ligase ATL
YY_000270.1     Q9SLC3  40.196  102     46      3       134     234     68      155     3.04e-14        73.2    E3 ubiquitin-protein ligase ATL
YY_000280.1     Q8W571  38.060  134     75      2       2       134     52      178     4.49e-23        95.5    RING-H2 finger protein ATL32 OS

其中第二列即为swiss-prot数据库中的ID

2. 下载GO对应关系

ftp://ftp.pir.georgetown.edu/databases/idmapping 下载 idmapping.tb.gz,该文件较大,也可选择Filezilla 进行下载,或

wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz

该文件均为一些对应关系,具体如下:

Q6GZX4  001R_FRG3G      2947773 YP_031579.1     81941549; 49237298              PF04947 GO:0046782                      UniRef100_Q6GZX4        UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4           654924                          15165820        AY548484        AAT09660.1
Q6GZX3  002L_FRG3G      2947774 YP_031580.1     49237299; 81941548              PF03003 GO:0033644; GO:0016021                  UniRef100_Q6GZX3        UniRef90_Q6GZX3 UniRef50_Q6GZX3 UPI00003B0FD5           654924                          15165820        AY548484        AAT09661.1
Q197F8  002R_IIV3       4156251 YP_654574.1     109287880; 123808694; 106073503                                         UniRef100_Q197F8        UniRef90_Q197F8 UniRef50_Q197F8 UPI0000D83464           345201                          16912294        DQ643392        ABF82032.1
  • (1) UniProtKB accession

  • (2) UniProtKB ID

  • (3) EntrezGene

  • (4) RefSeq

  • (5) NCBI GI number

  • (6) PDB

  • (7) Pfam

  • (8) GO

  • (9) PIRSF

  • (10) IPI

  • (11) UniRef100

  • (12) UniRef90

  • (13) UniRef50

  • (14) UniParc

  • (15) PIR-PSD accession

  • (16) NCBI taxonomy

  • (17) MIM

  • (18) UniGene

  • (19) Ensembl

  • (20) PubMed ID

  • (21) EMBL/GenBank/DDBJ

  • (22) EMBL protein_id

3. 对应关系转换

根据blast结果,根据蛋白数据库中的ID将其对应的GO 注释到对应的基因上

python UniProt2GO_annotate.py idmapping.tb.gz  blastoff output file

结果如下

c93619_g2_i1    GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
c93619_g2_i3    GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
c70056_g1_i1    GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874
c93748_g1_i1    GO:0006729,GO:0008124
c107639_g1_i1   GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789
c106424_g1_i1   GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351
c66585_g1_i1    GO:0005737,GO:0003746,GO:0003924,GO:0005525
c110618_g1_i8   GO:0015297,GO:0016021,GO:0015238

其中脚本UniProt2GO_annotate.py 下载
链接:http://pan.baidu.com/s/1kVjzJYv 密码:vigu

参考

欢迎扫码交流

相关文章

网友评论

    本文标题:基于blast进行GO功能注释

    本文链接:https://www.haomeiwen.com/subject/vfjpqktx.html