基本分析内容
- 数据库检索与成员鉴定
- 进化树构建
- 保守domain和motif分析
- 基因结构分析
- 转录组或荧光定量表达分析
数据库检索与成员鉴定
1. 数据库检索
一般在以下数据库进行检索:
- Brachypodiumdb:http://www.brachypodium.org/
- TAIR:http://www.arabidopsis.org/
- Rice Genome Annotation Project :http://rice.plantbiology.msu.edu/
- Phytozome:http://www.phytozome.net/
- Ensemble:http://ensembl.gramene.org/genome_browser/index.html
- NCBI基因组数据库:http://www.ncbi.nlm.nih.gov/assembly/?term=
已鉴定的家族成员的获取
获得已发表某个基因家族的所有成员?
- 下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。
- 对于没有全基因组鉴定的,从下列数据库中找:
- NCBI: nucleotide and protein db
- EBI: http://www.ebi.ac.uk/
- UniProtKB:http://www.uniprot.org/uniprot/
2. 比对工具
一般使用blast和hmmer,命令如下:
- localBLAST:
formatdb –i db.fas –p F/T
blastall –p blastp(orelse) –i known.fas –d db.fas –m 8 –b 2(or else) –e 1e-5 –o alignresult.txt.
-b:output two different members in subject sequences (db).
- Hmmer:
hmmbuild --informatafaknown.hmmalignknown.fa;
hmmsearch known.hmmdb.fas>align.out.
3. 过滤
- identity: 至少50%.
- Cover region: 也要超过50%或者蛋白结构域的长度.
- domain: 必须要有完整的该蛋白家族的。工具pfamdb 和NCBI Batch CD- search.
- EST 支持
- Blast and Hmmer同时检测到
进化树构建
1.基本步骤:
- 多序列比对
-
model选择
分别针对蛋白序列和核酸序列的模型选择程序。ProtTest program for protein and ModelTest or Jmodetlest for DNA - 算法选择:NJ,ML,BI。
-
软件选择
MEGA (bootstrap least 1000 replicates), phyML and Mrbayes - 进化树修饰
2. 具体步骤:
- 多序列比对 一般采用muscle。
-
模型选择
对于用蛋白序列构建进化树的可以采用一下命令
java -Xmx250m -classpath path/ProtTest.jar prottest.ProtTest -i alignmfile.phy
注意:
1)“.Phy” format. Only allow ten charaters.注意名字不能重复相同。
2)AIC: Akaike Information Criterion framework.
3)Gamma distribution parameter (G): gamma shape.
4)proportion of invariable sites: I.
- 构建进化树 一般ML树比较准确,但应结合方法,如NJ树,相互验证
意义:
- 聚类分析
- 亲缘关系鉴定
- 基因家族复制分析
进化部分分析,KaKs计算:
- 简单的方法. 可以使用下面的网页PAL2NAL
- 标准方法:.
a. ParaAT: ParaAT.pl-h test.homologs -n test.cds -a test.pep -p proc –f axt –k -o output
b. KaKs_Calculator –m NG(or else) -i test.axt -o test.axt.kaks
c.分歧时间计算:Divergenttime(T) calculation.
T=Ks/2λ. λ : mean 5.1-7.1×10-9 .
d. Ka/Ks意义:
Ka/Ks=1.中性进化。
Ka/Ks<1.纯化选择。
Ka/Ks>1.正选择。
基因结构分析
1.motif分析
使用MEME软件:
meme sample.fa -dna –revcomp -nmotifs 10 -mod zoops -minw 6-maxw 50>meme_htmlFormat.html
2.基因结构分布图
可以使用在线网站在线网站GSDS2.0
3.基因结构常见统计
a. The number of intron andexon.
b. The splicing intronpattern inculding 0,1,2 phase.
c. The marked region. Forexample kinase domain.
d. sequence length.
e. UTR
4. 启动子分析:
网站(主要做植物):http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
注意事项:
a. IE brower.
b. Only one sequence for oncesearch and the length was limited in 1000 bp.
c. DNA sequence origin: 1000 or1500 bp upstream of ATG of one gene.
网友评论