美文网首页python
利用python自NCBI下载fasta和genbank文件

利用python自NCBI下载fasta和genbank文件

作者: 小明的数据分析笔记本 | 来源:发表于2018-06-23 16:36 被阅读92次

    第一部分

    自习室网络出奇的差,有时想打开NCBI网页下载文件时会一直在那里转圈圈,本来很简单的一件事有时却要浪费好长时间;恰好最近在学习 Bioinformatics with python cookbook 这本书里的内容,其中一小部分提到利用Biopython访问genbank数据库,可以非常方便的解决自己在网络情况不佳时自NCBI下载fasta和genbank文件的问题,简单记录自己用到的代码。
    以下载http://biopython-cn.readthedocs.io/zh_CN/latest/cn/chr17.html教程中提到的鼠疫杆菌 Yersinia pestis biovar Microtus 的pPCP1质粒元数据文件NC_005816.gb为例

    from Bio import Entrez
    from Bio import SeqIO
    import os
    Entrez.email = "mingyan24@126.com"
    hd1 = Entrez.efetch(db="nucleotide",id=['NC_005816'],rettype='gb')
    seq = SeqIO.read(hd1,'gb')
    fw = open('NC_005816.gb','w')
    SeqIO.write(seq,fw,'gb')
    fw.close()
    os.getcwd()
    

    下载好的文件就存放在os.getcwd()输出的路径下,下载fasta格式的序列只需要将gb更改为fasta即可(邮箱地址可以替换为自己的邮箱)
    下载fasta序列

    from Bio import Entrez
    from Bio import SeqIO
    import os
    Entrez.email = "mingyan24@126.com"
    hd1 = Entrez.efetch(db="nucleotide",id=['NC_005816'],rettype='fasta')
    seq = SeqIO.read(hd1,'fasta')
    fw = open('NC_005816.fasta','w')
    SeqIO.write(seq,fw,'fasta')
    fw.close()
    os.getcwd()
    

    第二部分:将genbank格式文件转换成gff3格式文件

    最近发现了一个python模块 bcbio-gff 用来解析gff3文件(解析gff3还没有想明白怎么用)。同时可以非常方便的将genbank格式的文件转换为gff3格式,暂时还没有想到会有什么用处,不过以后可能会用到,记录在这里
    自己windows电脑上安装的是Anaconda3,所以直接在dos命令下通过easy_install bcbio-gff即可安装

    easy_install bcbio-gff
    

    以上一步下载的genbank文件为例,转换成gff3格式

    from BCBio import GFF
    from Bio import SeqIO
    if_file = "NC_005816.gb"
    out_file = "NC_005813.gff3"
    in_handle = open(in_file)
    out_handle = open(out_file,"w")
    GFF.write(SeqIO.parse(in_handle,'genbank'),out_handle)
    in_handle.close()
    out_handle.close()
    

    最后推荐一个网址,下载pdf格式的电子书可以尝试一下

    www.ebook777.com

    相关文章

      网友评论

        本文标题:利用python自NCBI下载fasta和genbank文件

        本文链接:https://www.haomeiwen.com/subject/igtdyftx.html