美文网首页叶绿体基因组
将叶绿体基因组上传至NCBI

将叶绿体基因组上传至NCBI

作者: 路人里的路人 | 来源:发表于2022-08-19 11:25 被阅读0次

    目的

    将公司测序并筛选得到的叶绿体基因组上传至NCBI

    方法

    使用getorganelle,blastn,cpgavvs2,mpi,mega等一系列软件完成有关文件的准备。

    步骤

    使用getorganelle将下放的两条序列进行拼接得到fasta文件\rightarrow将fasta文件用NCBI的blastn功能进行比对得到近缘物种的gb文件\rightarrow将fasta文件与近缘物种gb文件在CPGAVS2网站上注释得到gbf和fasta文件\rightarrow在MPI网站上将gbf文件转化为TBL文件\rightarrow确认CDS与fasta碱基数是否一致并改名\rightarrow上传至NCBI

    叶绿体基因组拼接

    1.安装getorganelle(依赖的库较多如bowtie2,blast等)

    cd /home/monkeyflower/biosoft
    #我们实验室的生信软件都安装在这个文件夹中
    conda create -n getorganelle python=3.6.8
    #创建getoganelle的运行环境,可通过python3 -V查看当前的python版本,使用系统中存在的python版本
    conda install -n getorganelle -c bioconda getorganelle
    #安装getorganelle
    

    2.安装blast

    由于网速的原因,可先将blast的压缩包(ncbi-blast-2.13.0+-x64-linux.tar.gz)下载到Windows上,再上传到服务器的/home/monkeyflower/biosoft目录
    cd /home/monkeyflower/biosoft
    #转到将要安装的目录
    tar -zxvf ncbi-blast-2.13.0+-x64-linux.tar.gz
    #将提前放置在这个目录下的blast 解压
    export "PATH=/home/monkeyflower/biosoft/ncbi-blast-2.13.0+/bin:$PATH"
    #将blast添加到环境变量
    

    3.安装叶绿体基因组等数据库

    conda activate getorganelle
    #激活getorganelle(若要使用getorganelle,必须先激活环境)
    get_organelle_config.py --add embplant_pt
    #植物叶绿体基因组:embplant_pt,植物线粒体基因组:embplant_mt,植物核核糖体DNA片段:embplant_nr
    

    4.运行getorganelle

    先将需要拼接的序列文件传输到/home/monkeyflower/bioworkplace目录
    cd /home/monkeyflower/bioworkplace
    #转到工作目录
    
    

    5.拼接代码

    conda activate getorganelle
    #激活getorganelle
    get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 35,85,115 
    #-1和-2     正向和反向测序原始数据文件(如果是单向测序,-u且文件中不得有任何空格)
    #-F         设定要组装的基因组类型
    #-o         结果输出保存的目录(文件夹)名称
    #-R         提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)
    #-t         并行使用 CPU 的数量(多核可提速),默认值是1
    #-k         调用SPAdes进行 denovo组装的k-mer,数值必须是奇数,最大值是127
    get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68 
    #也可用上行代码缩短运行时间
    

    NCBI上获取近缘物种作为参照文件

    利用基因拼接得到的fasta文件在NCBI上比对寻找近缘物种以作为注释的参考文件。
    进入NCBI官网并点击blast功能。如图一红圈所示;

    图一
    选择Nucleotide BLAST
    图二
    点击选择文件上传需要比对的fasta文件然后再另一个窗口显示结果
    图三
    图四
    在比对结果中选择第一个作为参考物种。点击登录号(accession)进入详细界面,点击sent to,具体设置如图六,将参考物种保存为gb格式文件
    图五
    图六

    通过CPGAVS2网站注释得到gbf文件

    CPGAVS2网站:CPGAVAS2
    进入网站后,具体设置如图七,第一个圈中是我们需要注释物种的fasta文件(来源于第一步叶绿体基因组拼装的结果),第二个圈是设置文件格式,一般都要选3,第三个圈中是我们从NCBI上blast后得到的gb格式文件。然后点submit。

    图七
    图八
    submit后会产生一个ID号,如图九圈一所示,复制并记下这个ID号,过一段时间后(经验为2min左右),在圈二的submit粘贴ID号,查询结果。
    图九
    结果界面一直滑到最底部有Download选项,点击result,下载压缩包。
    图十

    通过GB2sequin网站转化gbf文件得到tbl文件

    GB2sequin网站:MPI-MP CHLOROBOX - GB2sequin (mpg.de)
    打开上一步的压缩文件,在解压的文件中找到结尾为.gbf,.fasta,.CDS.fasta,的文件(注意是那种数字后直接接文件格式的文件,如166091769884412.CDS.fasta)。
    将gbf文件上传至网站,具体参数设置如图十一,设置好后点start conversation,得到结果后点击图十二圈出的按钮,再点击图十三中的Download,即下载tbl文件

    图十一
    图十二
    图十三

    并确认压缩包中碱基数和原先fasta文件中的碱基数是否一致,改掉fasta和tbl文件中的物种名。

    在NCBI上上传叶绿体基因组

    见链接:https://zhuanlan.zhihu.com/p/422628637

    相关文章

      网友评论

        本文标题:将叶绿体基因组上传至NCBI

        本文链接:https://www.haomeiwen.com/subject/wqzygrtx.html