如何在NCBI批量下载基因家族序列?

作者: Ruta | 来源:发表于2020-04-20 12:35 被阅读0次

    在做生信下游基因分析的时候,我们通常需要下载兴趣基因的序列信息构建进化书什么的,如果兴趣基因比较少,那么可以直接在NCBI上搜索这个基因下载序列。但如果兴趣基因很多,如果逐个下载就会很麻烦了。这时候我们会很渴望一个可以批量下载基因序列的方法,那么,在不涉及到编程的情况下,这里推荐用NCBI自带的Batch entrez进行序列的批量下载。

    举个栗子🌰:师姐让帮忙下载拟南芥PP2C家族的全部蛋白序列,可以通过以下步骤实现:

    →获取拟南芥PP2C家族的全部基因信息

    这一步骤可以在Tair上实现,首先打开Tair网站,通过Browse选项找到gene family,找到PP2C基因家族,点进去发现PP2C家族有76个基因,Tair上还贴心地列出了参考文献和基因分组。


    Screenshot 2020-04-20 at 11.47.41.png Screenshot 2020-04-20 at 11.49.34.png Screenshot 2020-04-20 at 11.49.50.png

    初步了解PP2C家族的信息后,如果关注某一个基因可以直接点进去看。举例点开AHG1这个基因,可以看到这个基因的详细信息。如果要下载这个基因的蛋白序列可以通过点击protein选项获取基因序列,点击Send to Blast按扭,在弹出的页面中可以直接复制该序列粘贴到文本文件中去。这样就获得了AHG1基因的序列信息。


    Screenshot 2020-04-20 at 11.54.08.png Screenshot 2020-04-20 at 11.54.38.png Screenshot 2020-04-20 at 11.55.31.png

    上面这个方法是针对单个基因序列的。但如果想要下载全部PP2C基因家族的信息那就很繁琐了,而且很容易出错,网络不好的时候还容易气到自己。所以下面给大家推荐一个NCBI自带的批量下载基因序列的软件Batchentrez。

    Tair上提供了下载全集拟南芥基因家族信息的选项,我们先去把PP2C家族基因的accession numbers下载下来便于后续Batchentrez的分析。

    首先点开Tair上的Download-Gene选项,点进去发现可以直接下载拟南芥全部基因家族信息,右键点击下载后会得到一个txt文件,用Excel打开后,通过筛选就可以看到全部PP2C家族的基因信息了。同样的这个表格中给出了每个基因的accession numbers(表格中给的名字是Refseq_ID),复制PP2C家族基因的全部accession numbers,保存在一个txt文件里。


    Screenshot 2020-04-20 at 12.02.36.png Screenshot 2020-04-20 at 12.05.11.png Screenshot 2020-04-20 at 12.10.35.png Screenshot 2020-04-20 at 12.12.32.png

    →Batchentrez进行序列批量下载

    下面的步骤都转移到NCBI网站上进行。打开Batchentrez页面,点击Choose File选项上传我们刚刚创建的txt格式的文件,然后因为我们要下载的是蛋白序列,所以Database选项选protein,然后点击Retrieve选项。

    Screenshot 2020-04-20 at 12.14.32.png Screenshot 2020-04-20 at 12.18.06.png Screenshot 2020-04-20 at 12.19.02.png

    batchentrez会检查文件中序列ID信息,并且会去除重复,返回检索结果,如果有检索不到的序列会reject,在这里我们的序列都被检索到了,点击最下方的链接选项。

    可以看到我们检索的所有76个PP2C家族基因信息都列出来了。点击上方的Send to选项,选择file,fasta格式,然后点击Creat File选项就大功告成啦~

    点击后网站会提醒你下载文件,点击下载后会得到一个txt文件,这里就是我们全部基因的蛋白序列信息啦~


    Screenshot 2020-04-20 at 12.25.20.png Screenshot 2020-04-20 at 12.28.00.png

    参考资源:

    1. 生物信息神奇网站系列(九):批量下载序列
      链接:https://zhuanlan.zhihu.com/p/35850918
      来源:知乎

    相关文章

      网友评论

        本文标题:如何在NCBI批量下载基因家族序列?

        本文链接:https://www.haomeiwen.com/subject/qpsrihtx.html