美文网首页Biostar Handbook学习小组
Biostar handbook学习笔记四

Biostar handbook学习笔记四

作者: 简书蚕账号 | 来源:发表于2017-11-12 21:16 被阅读7次

    目前学习到的关于生物数据及数据库的基本知识有:

    常用数据格式:
    fasta, fastq, gff, GenBank

    常用序列数据库:
    美国国立生物技术信息中心(NCBI)
    欧洲生物信息学中心(EBI)
    DDBJ

    常用基因功能数据库:
    基因本体数据库(Gene Ontology)
    京东基因与基因组百科全书(KEGG)
    Interpro蛋白功能数据库

    常用基因组数据库:
    UCSC基因组浏览器
    Ensembl 基因组注释数据库

    Fasta格式:

    描述行
    “>” 分隔符
    一般50-100个字符每行
    没有标准的扩展名

    Fastq格式:

    与fasta格式类似
    一条序列一般占用四行
    序列和质量值各占一行

    GenBank格式:

    重要参数 含义
    LOCUS 序列名称
    ACCESSION 序列编号
    KEYWORDS 与序列相关的关键字
    SOURCE 序列来源的物种名
    ORGANISM 序列来源的物种学名和分类学位置
    COMMENT 相关序列的注释信息
    FEATURES 序列特征表的起始
    ORIGIN 序列

    数据的获取

    通过学习黄勇平老师的简书文章,掌握了EDirect和Aspera两个小工具。

    Aspera工具的安装与使用:
    $ wget http://d3gcli72yxqn2z.cloudfront.net/connect/bin/aspera-connect-3.5.1.92523-linux-64.tar.gz
    $ tar zxf aspera-connect-3.5.1.92523-linux-64.tar.gz
    $ sh aspera-connect-3.5.1.92523-linux-64.sh
    $ echo 'PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bashrc
    $ source ~/.bashrc

    在安装miniconda,创建了如bioinfo虚拟环境后,并且安装biostar课程软件后,即自带了EDirect软件。

    常用的综合数据库

    INSD:国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。

    EMBL库:欧洲分子生物学实验室的DNA和RNA序列库。
    http://www.ebi.ac.uk/embl.html

    GenBank:美国国家生物技术信息中心(NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。http://www.ncbi.nlm.nih.gov/Web/Genbank/

    DNA Databank of Japan (DDBJ),日本核酸数据库。
    http://www.ddbj.nig.ac.jp/

    GSDB是由美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。http://www.ncgr.org/gsdb/

    TIGR DATAbase,是世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。http://www.tigr.org/tdb/hcd/overview.html

    相关文章

      网友评论

        本文标题:Biostar handbook学习笔记四

        本文链接:https://www.haomeiwen.com/subject/owdomxtx.html