参考资料:
由于在GO数据库中并没有小麦的GO注释信息所以需要自己整理获得小麦中gene与GO对应关系。当然也可以利用TGT数据库网站的GOEnrichment项目进行GO富集分析。
自制GO注释文件过程具体如下:
1.下载小麦1.0版本基因注释信息表
#此处选的是高可信基因版本
wget https://urgi.versailles.inra.fr/download/iwgsc/IWGSC_RefSeq_Annotations/v1.0/iwgsc_refseqv1.0_FunctionalAnnotation_v1.zip
#解压
unzip iwgsc_refseqv1.0_FunctionalAnnotation_v1.zip
2. 编写perl脚本实现GO注释信息提取
Taes_GO_file_from_1.0HCTAB.pl内容如下:
#!/usr/bin/perl -w
use strict;
"usage: perl $0 TAB.file |sort |uniq > GO_file.txt\n" unless @ARGV==1;
open TAB,"$ARGV[0]" or die $!;
print "gene\tGO\tprocess\tdesp\n";
while(<TAB>){
chomp;
my @line=split/\t/;
#将那些没有注释到任何GO通路的基因过滤掉
next if $line[7] !~/GO:/;
#仅使用基因id,而不用转录本id
my $gene=(split/\./,$line[0])[0];
#将那些有多个GO注释过程的基因分割成多行,每行仅含一个过程
$line[7]=~s/;/\n$gene\t/g;
$line[7]=~s/\sMF:\s/\tMF\t/g;
$line[7]=~s/\sCC:\s/\tCC\t/g;
$line[7]=~s/\sBP:\s/\tBP\t/g;
print $gene,"\t",$line[7],"\n";
}
close TAB;
运行脚本获得GO_file.txt
#此处需要去除重复的行
perl Taes_GO_file_from_1.0HCTAB.pl iwgsc_refseqv1.0_FunctionalAnnotation_v1__HCgenes_v1.0.TAB |sort |uniq > GO_file.txt
GO_file.txt结果展示如下:
gene GO process desp
TraesCS1A01G001800 GO:0003735 MF structural constituent of ribosome
TraesCS1A01G001800 GO:0005622 CC intracellular
TraesCS1A01G001800 GO:0005840 CC ribosome
TraesCS1A01G001800 GO:0006412 BP translation
TraesCS1A01G002000 GO:0005515 MF protein binding
TraesCS1A01G002000 GO:0008270 MF zinc ion binding
TraesCS1A01G002400 GO:0005506 MF iron ion binding
网友评论