不用强调GO和KEGG分析在研究基因集功能上有多常用吧?
我们经常用到或者听到的网站:
1. DAVID (https://david.ncifcrf.gov/)
DAVID首页2. PANTHER (http://pantherdb.org/webservices/go/overrep.jsp)
PANTHER首页3. KAAS (https://www.genome.jp/tools/kaas/)
KAAS首页这三个在线网站中DAVID最常用,它可以进行联合分析和个性化分析。后两个网站是GO和KEGG本源的信息网站,DAVID网站收录的信息中包括PANTHER中GO的信息和KAAS中KEGG的信息。
但是我这里还想给大家推荐一个研究pathway的网站:
4. KOBAS (http://kobas.cbi.pku.edu.cn/kobas3)
KOBAS首页注:中美贸易战已经开始,贸易去美元化,华为被制裁,我们无法保证搞科研依赖的国外服务器、网站以后不会被封禁,这个网站是中国自己团队研发的,应该支持中国在高精尖深领域自己的技术和研发。
好的,我们现在回归正题,如何研究数据库中未包括GO和KEGG参考数据集的物种。
采用的核心思想就是:
A. 下载研究物种蛋白参考序列
B. 利用拟合算法进行比对
一. GO富集分析
以PANTHER数据库为依托
1. 通过这个网址NCBI (https://www.ncbi.nlm.nih.gov/sites/batchentrez),可以根据蛋白对应的基因编号或者蛋白编号批量下载蛋白序列,得到这样的文件:
序列集2. 下载PANTHER总参考数据集和基于linux系统的比对工具:
比对工具:
pantherScore2.2(ftp://ftp.pantherdb.org/hmm_scoring/current_release/pantherScore2.2/)
总参考数据集:
(ftp://ftp.pantherdb.org/hmm_scoring/current_release/)
3. 根据pantherScore2.2工具的readme文件将
pantherScore2.2安装在lunux系统中
注:这里pantherScore2.2只是一个perl语言脚本,它以HMMER3软件为基础,因此因先将HMMER3安装在linux系统中。
4. 最后输入代码:
./pantherScore2.2.pl -l pather_hmm/PANTHER16.0 -D B -V -i pit.fasta -o outputfile/pit_gene_map_fil.txt -n
#pit.fasta即为蛋白序列的集合
得到文件:
output.txt
5. 将上述得到的结果文件输入到PANTHER中,进行基因集富集分析:
PANTHER Genetic Mapping二. KEGG富集分析
以KOBAS数据库为依托:
网友评论