美文网首页注释和富集
当研究物种的GO和KEGG无参考数据集,该怎么办?

当研究物种的GO和KEGG无参考数据集,该怎么办?

作者: 食品猪的生信鸡 | 来源:发表于2021-07-16 19:17 被阅读0次

不用强调GO和KEGG分析在研究基因集功能上有多常用吧?

我们经常用到或者听到的网站:

1. DAVID (https://david.ncifcrf.gov/)
DAVID首页
2. PANTHER (http://pantherdb.org/webservices/go/overrep.jsp)
PANTHER首页
3. KAAS (https://www.genome.jp/tools/kaas/)
KAAS首页

这三个在线网站中DAVID最常用,它可以进行联合分析和个性化分析。后两个网站是GO和KEGG本源的信息网站,DAVID网站收录的信息中包括PANTHER中GO的信息和KAAS中KEGG的信息。

但是我这里还想给大家推荐一个研究pathway的网站:

4. KOBAS (http://kobas.cbi.pku.edu.cn/kobas3)
KOBAS首页
注:中美贸易战已经开始,贸易去美元化,华为被制裁,我们无法保证搞科研依赖的国外服务器网站以后不会被封禁,这个网站是中国自己团队研发的,应该支持中国在高精尖深领域自己的技术和研发

好的,我们现在回归正题,如何研究数据库中未包括GO和KEGG参考数据集的物种。

采用的核心思想就是:

A. 下载研究物种蛋白参考序列
B. 利用拟合算法进行比对

一. GO富集分析

PANTHER数据库为依托

1. 通过这个网址NCBI (https://www.ncbi.nlm.nih.gov/sites/batchentrez),可以根据蛋白对应的基因编号或者蛋白编号批量下载蛋白序列,得到这样的文件:

序列集

2. 下载PANTHER总参考数据集和基于linux系统的比对工具:

比对工具:
pantherScore2.2(ftp://ftp.pantherdb.org/hmm_scoring/current_release/pantherScore2.2/)
总参考数据集:
(ftp://ftp.pantherdb.org/hmm_scoring/current_release/)

比对工具和参考数据集

3. 根据pantherScore2.2工具的readme文件将

pantherScore2.2安装在lunux系统中

readme.txt
注:这里pantherScore2.2只是一个perl语言脚本,它以HMMER3软件为基础,因此因先将HMMER3安装在linux系统中。

4. 最后输入代码:

./pantherScore2.2.pl -l pather_hmm/PANTHER16.0 -D B -V -i pit.fasta -o outputfile/pit_gene_map_fil.txt -n
#pit.fasta即为蛋白序列的集合

得到文件:


output.txt

5. 将上述得到的结果文件输入到PANTHER中,进行基因集富集分析:

PANTHER Genetic Mapping

二. KEGG富集分析

KOBAS数据库为依托:

1. 通过这个网址NCBI (https://www.ncbi.nlm.nih.gov/sites/batchentrez),可以根据蛋白对应的基因号或者蛋白自身编号批量下载蛋白序列,得到这样的文件:

序列集

2. 直接将数据上传到KOBAS服务器中,得到富集结果:

既简单可操作的界面

参考文章

相关文章

网友评论

    本文标题:当研究物种的GO和KEGG无参考数据集,该怎么办?

    本文链接:https://www.haomeiwen.com/subject/wgybpltx.html