目前学习到的关于生物数据及数据库的基本知识有:
常用数据格式:
fasta, fastq, gff, GenBank
常用序列数据库:
美国国立生物技术信息中心(NCBI)
欧洲生物信息学中心(EBI)
DDBJ
常用基因功能数据库:
基因本体数据库(Gene Ontology)
京东基因与基因组百科全书(KEGG)
Interpro蛋白功能数据库
常用基因组数据库:
UCSC基因组浏览器
Ensembl 基因组注释数据库
Fasta格式:
描述行
“>” 分隔符
一般50-100个字符每行
没有标准的扩展名
Fastq格式:
与fasta格式类似
一条序列一般占用四行
序列和质量值各占一行
GenBank格式:
重要参数 | 含义 |
---|---|
LOCUS | 序列名称 |
ACCESSION | 序列编号 |
KEYWORDS | 与序列相关的关键字 |
SOURCE | 序列来源的物种名 |
ORGANISM | 序列来源的物种学名和分类学位置 |
COMMENT | 相关序列的注释信息 |
FEATURES | 序列特征表的起始 |
ORIGIN | 序列 |
数据的获取
通过学习黄勇平老师的简书文章,掌握了EDirect和Aspera两个小工具。
Aspera工具的安装与使用:
$ wget http://d3gcli72yxqn2z.cloudfront.net/connect/bin/aspera-connect-3.5.1.92523-linux-64.tar.gz
$ tar zxf aspera-connect-3.5.1.92523-linux-64.tar.gz
$ sh aspera-connect-3.5.1.92523-linux-64.sh
$ echo 'PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bashrc
$ source ~/.bashrc
在安装miniconda,创建了如bioinfo虚拟环境后,并且安装biostar课程软件后,即自带了EDirect软件。
常用的综合数据库
INSD:国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。
EMBL库:欧洲分子生物学实验室的DNA和RNA序列库。
http://www.ebi.ac.uk/embl.html
GenBank:美国国家生物技术信息中心(NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。http://www.ncbi.nlm.nih.gov/Web/Genbank/
DNA Databank of Japan (DDBJ),日本核酸数据库。
http://www.ddbj.nig.ac.jp/
GSDB是由美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。http://www.ncgr.org/gsdb/
TIGR DATAbase,是世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。http://www.tigr.org/tdb/hcd/overview.html
�
网友评论