生物数据库

作者: Andy宇 | 来源:发表于2019-05-28 15:31 被阅读513次

生物数据库

基本序列格式

1.FASTA格式：首行为描述行，以>为起始，其后为描述信息；第二行即为原始序列。
2.FASTQ格式:FASTQ格式包括四部分信息：
第一行为包含序列名称及其他信息，以@开头。
第二行即为具体的碱基信息。
第三行内容与第一行相同，但以+开头，内容可以省略，但是+不可以省略！！！
第四行为序列的质量信息，即测序的质量评价，与第二行之碱基序列一一对应。
3.GFF格seqid式：

列1(seqid)	列2(source)	列3（type）	列4&5(start&end)
序列名称	软件来源	注释类型	起始和终止位置

列6(score)	列7(strand)	列8(phase)	列9(attributes)
得分(.表示空)	序列方向(？表示未知，+-表示正反)	相位	群(附属关系)

4.GBFF格式：GenBank专用格式。
此格式分为：描述部分、注释部分、序列部分
描述部分包括整个记录的相关信息：位置(LOCUS)、定义(DEFINITION)、检索号(ACCESSION)、
版本(VERSION)、关键词(KEYWORDS)、来源(SOURCE)、参考文献(REFERENCE)等。
注释部分(FEATURES)描述基因和基因产物以及与序列相关的生物学特征。
序列部分(ORIGIN)即核苷酸序列。
GEFF格式的结束符为//,所有的GEFF格式文件最后一行均以//结尾

常用数据库

核酸数据库

GenBank	ENA(EMBL)	DDBJ
https://www.ncbi.nlm.nih.gov/genbank/	https://www.ebi.ac.uk/ena	https://www.ddbj.nig.ac.jp/index-e.html

已测序生物https://zh.wikipedia.org/zh-hans/%E5%B7%B2%E6%B8%AC%E5%BA%8F%E7%9A%84%E7%94%9F%E7%89%A9
常用的基因组数据库：
Ensembl：人、鼠、脊椎动物和真核生物基因组http://asia.ensembl.org/index.html
Ensembl Genomes：细菌、原核生物、植物等http://ensemblgenomes.org/
Ensembl plants:植物基因组数据库http://plants.ensembl.org/index.html
UCSC：脊椎动物http://genome.ucsc.edu/
CAMERA:微生物http://www.camera.calit2.net/
NCBI genomes：整合数据库https://www.ncbi.nlm.nih.gov/genome
EcoCyc：大肠杆菌基因组机器转录调控数据库https://ecocyc.org/
TAIR:拟南芥资源信息数据库http://www.arabidopsis.org/
plantGDB：植物基因组数据库http://www.plantgdb.org/
CottonGen：棉花基因数据库https://www.cottongen.org
maizeGDB：玉米基因组数据库http://www.maizegdb.org/

非编码RNA数据库

非编码ENA包括rRNA,tRNA,snRNA,snoRNA,microRNA等，这些RNA不直接翻译成蛋白，但是都能转录，并在RNA水平上行使各自的功能。
1.非编码小RNA数据库：

miRBase	piRNAbank	GtRNAdb	SILVA
http://www.mirbase.org/	http://pirnabank.ibab.ac.in/	http://gtrnadb.ucsc.edu/	https://www.arb-silva.de/

2.长非编码RNA数据库：
LncRNAdb：真核生物http://www.lncrnadb.org/
LncRNAwiki：人类长非编码RNA数据库http://lncrna.big.ac.cn/index.php/Main_Page
3.非编码RNA家族数据库
Rfam：类似于Pfam的RNA家族注释数据库http://rfam.xfam.org/

蛋白质数据库

1.蛋白序列数据库：

Pfam	UniProt	PIR	Antibodies	BRENDA	HPRD
http://pfam.xfam.org/	https://www.uniprot.org/	http://www.proteininformationresource.org/	http://www.bioinf.org.uk/abs/	http://www.brenda-enzymes.org/	http://www.hprd.org/

InterPro	iProClass	PRF	REBASE	SwissProt
http://www.ebi.ac.uk/interpro/	http://pir.georgetown.edu/iproclass/	http://www.prf.or.jp/	http://rebase.neb.com/rebase/rebase.html	http://us.expasy.org/sprot/

2.蛋白质结构数据库：

PDB(已确定结构)	SCOP	CATH	PSI
http://www.rcsb.org/	http://scop.mrc-lmb.cam.ac.uk/scop/	http://www.cathdb.info/	http://www.uwstructuralgenomics.org/

3.PRIDE蛋白组数据库https://www.ebi.ac.uk/pride/archive/
4.蛋白质功能域数据库：

PROSITE(最全面)	Pfam(最专业)	ProDom	CCD
https://prosite.expasy.org/	http://pfam.xfam.org/	http://prodom.prabi.fr/	http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtm

Prints	SMART	TIGRFAM
http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/index.php	http://smart.embl-heidelberg.de/	http://www.tigr.org/TIGRFAMs/

5.蛋白互作数据库：

STRING	DIP	BioGRID	IntAct
https://string-db.org/	https://dip.doe-mbi.ucla.edu/dip/Main.cgi	https://thebiogrid.org/	https://www.ebi.ac.uk/intact/

代谢数据库

Pathguide通路数据库汇总网站（一站式查询）http://www.pathguide.org/
1.代谢途径数据库：

KEGG	GO	NCBI BioSystems
https://www.kegg.jp/	http://www.geneontology.org/	https://www.ncbi.nlm.nih.gov/biosystems

IMP	plantCyc	MANET	MetaNetX
http://imp.princeton.edu/	https://www.plantcyc.org/	https://manet.illinois.edu/	https://www.metanetx.org/

MapMan：一个功能强大的代谢途径查看和编辑的软件

2.代谢组学常用数据库：

MataboLights	HMDB	YMDB	ECMDB
https://www.ebi.ac.uk/metabolights/	http://www.hmdb.ca/	http://www.ymdb.ca/	http://ecmdb.ca/

3.表型数据库：

Planteome	dbGaP	IPPN
http://www.planteome.org/	https://www.ncbi.nlm.nih.gov/gap/	https://www.plant-phenotyping.org/

序列比对与基因预测、注释

多序列比对

同源性是指多条序列存在进化方面的关系，其由同一条共同的祖先序列进化而来；相似性仅仅表明多条序列间具有一定的相似程度。
Blast为多序列比对最常用的工具https://blast.ncbi.nlm.nih.gov/Blast.cgi
Clustal为最成功的多序列全局配联算法，其有Web工具和桌面版工具，且其结果可被MEGA直接读取http://www.clustal.org/

基因预测与功能注释

1.基因组基本知识：
一个生物的基因组指的是一套染色体中完整的DNA序列。真核生物基因组一般包含35-80%的重复序列和约5%的蛋白编码序列。一个蛋白的编码基因往往包含多个外显子或蛋白编码序列，外显子被非编码的内含子隔开。
蛋白质编码基因结构一般为包含编码和非编码序列，编码区（外显子）被非编码区（内含子）隔断，蛋白编码区（CDS）包括大部分外显子序列（除却两端的非翻译区-UTR）。
从蛋白合成的起始密码子到终止密码子的连续编码序列为一个开放阅读框（ORF）。基因表达后被转录成前体mRNA，经剪切切除内含子，并将外显子连接成成熟mRNA，并进一步翻译成蛋白质。

2.基因功能预测方法主要包括：同源比对方法和从头预测方法。
同源比对方法是利用近缘物种已知基因进行序列比对，发现同源序列，并结合基因信号进行基因预测的方法。
从头注释则是根据编码区统计特征和基因信号进行基因结构预测，目前最被接受的预测方法是隐马尔可夫模型（HMM）。

FGENESH	AUGUSTUS
http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind	http://bioinf.uni-greifswald.de/augustus/submission.php

GENESCAN	GeneMark	Glimmer
http://argonaute.mit.edu/GENSCAN.html	http://topaz.gatech.edu/GeneMark/	http://ccb.jhu.edu/software/glimmer/index.shtml

3.基因注释
少量基因功能注释可用Blast，Interproscan http://www.ebi.ac.uk/interpro/，
大量基因注释可选用NCBI提供的本地BLAST程序ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.9.0+-win64.exe
其他注释：
WEGO http://wego.genomics.org.cn/
KAAS https://www.genome.jp/tools/kaas/

4.基因结构预测和绘图
Exon-Intron Graphic Maker根据候选基因的外显子和内含子等信息绘制基因结构http://wormweb.org/exonintron
Blastp可在线获取蛋白结构域的注释和位置信息https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

5.同源基因分析
同源基因分析数据库 OrthoDB是直系同源物的综合目录https://www.orthodb.org/

6.蛋白二级三级结构预测及绘图
蛋白质二级结构（secondary structure of protein）是指蛋白质的多肽链中有规则重复的构象，限于主链原子的局部空间排列，不包括与肽链其他区段的相互关系及侧链构象。二级结构是通过骨架上的羰基和酰胺基团之间形成的氢键维持的，氢键是稳定二级结构的主要作用力。常见的二级结构主要有 α-螺旋、β-折叠、β-转角。蛋白质三级结构是指多肽链在二级结构或者超二级结构甚至结构域的基础上，进一步盘绕、折叠，通过次级键的维系固定所形成的特定空间结构。分析蛋白二级三级结构域，有助于解析蛋白的生化特性和分子功能。
CFSSP http://www.biogem.org/tool/chou-fasman/
SOPMA https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html
PredictProtein https://www.predictprotein.org/
SWISS-MODEL https://swissmodel.expasy.org/interactive

7.蛋白特性分析
蛋白特性分析是指蛋白的一些物理和化学参数，如分子量、等电点、氨基酸和原子组成、消光系数、半衰期、不稳定系数、脂肪族氨基酸指数、亲水性。这些参数，有助于进行蛋白的相关生化实验。比如在体外体系（大肠杆菌、酵母等）表达和纯化目的蛋白时，需要考虑蛋白的分子量、等电点、消光系数、不稳定系数和亲水性等。在酶活实验中，也需要根据这些参数优化实验体系。 ProtParam http://web.expasy.org/protparam/

8.蛋白亲疏水性分析
蛋白氨基酸的亲疏水性主要由其侧链基团R，如果R只是H或是C、H两元素组成的话，都是疏水的，如果含有极性侧链基团，如-OH、-SH、-COOH、-NH2 等，则就是极性的（亲水的）。疏水性氨基酸有酪氨酸、色氨酸、苯丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丙氨酸和蛋氨酸（甲硫氨酸）。疏水性氨基酸在蛋白质内部，在保持蛋白质的三级结构上，酶和基质、抗体和抗原间的相互作用等各种非共价键的分子结合方面，具有重要作用。
Protscale可对蛋白亲疏水性进行进一步分析（https://web.expasy.org/protscale/）。

9.跨膜结构分析
蛋白的跨膜结构分析对于预测蛋白的亚细胞定位密切相关。如果具有跨膜结构，蛋白很可能定位于细胞中与膜相关的结构，如细胞质膜、叶绿体膜或线粒体膜等内膜系统。此外，蛋白跨膜结构分析对于蛋白功能分析也有一定的帮助。比如某蛋白没有跨膜结构，但是亚细胞定位实验显示其可定位于膜相关结构，这说明该蛋白可能通过其他膜定位蛋白招募过去的。在线工具TMHMM对候选基因进行跨膜结构域分析http://www.cbs.dtu.dk/services/TMHMM/。

10.信号肽分析
信号肽是指引导新合成的蛋白质向分泌通路转移的短肽链，常位于蛋白的N-末端，负责把蛋白质引导到不同膜结构的亚细胞器内。编码分泌蛋白的mRNA在翻译时首先合成N末端的信号肽，它被信号肽识别蛋白(SRP)所识别，SRP将核糖体携带至内质网上，内质网膜上的 SPR 受体识别并与之结合。新合成蛋白在信号肽引导下到达内质网内腔，而信号肽则在信号肽酶的作用下被切除。由于它的引导，新生的多肽就能够通过内质网膜进入腔内，最终被分泌到胞外。在宿主菌中表达外源蛋白时，可用信号肽引导外源蛋白定位分泌到胞外，提高蛋白可溶性，在原核表达系统（大肠杆菌、芽孢杆菌等）和真核表达系统（如毕赤酵母）中均有应用。通过在线分析工具SignalP可对候选基因进行信号肽分析，峰信号位置为信号肽切割点，峰之前的序列为信号肽http://www.cbs.dtu.dk/services/SignalP/。

11.磷酸化位点分析
蛋白质磷酸化指由蛋白质激酶催化的把 ATP 的磷酸基转移到底物蛋白质氨基酸残基（丝氨酸、苏氨酸、酪氨酸）上的过程，或者在信号作用下结合 GTP（通常以 GTP 取代 GDP），是生物体内一种普通的调节方式，在细胞信号转导的过程中起重要作用。在信号达到时通过获得一个或几个磷酸集团而被激活，而在信号减弱时能去除这些集团，从而失去活性。有时某个信号蛋白磷酸化通常造成下游的蛋白依次发生磷酸化，形成磷酸化级联反应。
NetPhos http://www.cbs.dtu.dk/services/NetPhos-2.0/
NetPhos3.1 http://www.cbs.dtu.dk/services/NetPhos/
KinasePhos-2.0 http://kinasephos2.mbc.nctu.edu.tw/

12.亚细胞定位预测
PSORT Prediction http://psort1.hgc.jp/form.html

13.启动子分析
Plantcare http://bioinformatics.psb.ugent.be/webtools/plantcare/html/

14.调控目的基因的miRNA预测
psRNAtarget http://plantgrn.noble.org/psRNATarget/analysis?function=2

15.表达分析
在分析基因功能时，通常会参考基因的表达模式，即基因在植物不同组织不同发育时期的表达丰度变化。通过在线分析网站BAR对候基因进行表达分析。BAR 是一个植物生信分析资源网站，用该网站分析基因表达时，不仅可以获得基因表达模式的热图，还可以获得可视化的电子荧光图片，直观呈现基因在植物组织中的表达位置http://bar.utoronto.ca

生物数据库

生物数据库

基本序列格式

常用数据库

核酸数据库

非编码RNA数据库

蛋白质数据库

代谢数据库

序列比对与基因预测、注释

多序列比对

基因预测与功能注释

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

rice related analysis

Andy的学习笔记

生物信息学与算法

数据库

生信星球培训第十五期

生命科学-简书专题

生信基础知识

1 生物信息学