SCycDB使用

作者: 灵木er | 来源:发表于2021-03-10 22:33 被阅读0次

灵木er


  1. SCycDB–硫循环数据库介绍
  2. SCycDB–硫循环数据库安装
    2.1 SCycDB 克隆
    2.2 SCycDB 安装
  3. SCycDB–硫循环数据库使用

SCycDB–硫循环数据库介绍

手动管理的硫循环数据库(SCycDB),以描述鸟枪宏基因组的硫循环功能基因和分类组。数据库SCycDB包含207个基因家族和585,055个代表序列,它们与52个细菌门和2684个细菌/古细菌属相关,并且还包括了20,761个同源正交组,以减少假阳性序列的分配。SCycDB可应用于四个栖息地(淡水,温泉,海洋沉积物和土壤)的硫循环微生物群落的功能和分类学分析。

—选自科研 | Molecular Ecology Resources:SCycDB–硫循环途径宏基因组分析的功能基因数据库

—来自文献SCycDB: A curated functional gene database for metagenomic profiling of sulphur cycling pathways

详细内容请去阅读上面的公众号和文献原文。

SCycDB–硫循环数据库安装

SCycDB在GitHub上,安装也很简单,git colne下来阅读说明即可,这里简单记录一下。建议安装在服务器上,也可以安装到个人电脑上,不过个人电脑上只能使用功能富集,物种分类需要使用kraken2,kraken2怕是个人电脑运行不起来。推荐在Linux上安装,不建议在windows上安装,并不是说Windows不行,使用wsl安装应该也没问题。本人使用的是Linux系统,依赖软件通过conda安装,创建了SCycDB虚拟环境。

SCycDB克隆

Github存在访问慢,下载慢,甚至是不能访问的问题。这里先说下解决方法,解决方法有三个,分别是:

  1. 使用梯子
  2. 改hosts文件
  3. 借助gitee

第1个这里不谈,第2个凑合着能用,还需要借助油猴GitHub插件才可以快速下载,非常时期就不一定能用了,下面主要介绍第3个方法。

SCycDB的GitHub链接为:https://github.com/qichao1984/SCycDB

  • 注册gitee账号

  • 利用gitee的导入功能从GitHub导入

  • 从gitee克隆

注册账号大家都习以为常了,这里就不讲了,注册完成后在右上角头像的左边有一个+号,点击加号创建仓库,如图,

image.png

选择从Github/GitLab导入仓库,点击之后输入SCycDB的GitHub链接https://github.com/qichao1984/SCycDB,如图

image.png

然后点击导入即可,等一会儿就导入好了,可以选择私有还是公开。选择私有时,克隆需要配置ssh公钥或者使用密码,在gitee设置里添加公钥即可。

然后到自己的仓库复制下载链接,如图:

image.png

在terminal里面选择一个目录使用git clone url克隆所有文件

git clone git@gitee.com:YourName/SCycDB.git

SCycDB安装

切换到SCycDB目录,看看里面都有什么文件,如图:

image.png

README.md为使用说明,SCycDB_2020Mar.z是压缩的数据库,SCycDB.PL为使用脚本,分别是功能富集和物种分类的perl脚本,sampleinfo.txt为参考的样本和序列数对应的表。

解压数据库

由于数据库是zip压缩包,并且被分割成了多个文件,上图的SCycDB_2020Mar.z*等,需要先合并为一个再用unzip解压,也可以下载到Windows上解压SCycDB_2020Mar.zip文件,会自动解压,然后上传到服务器。解压后得到的是一个faa文件,需要去掉后缀名,不要问我为啥知道。

cd SCycDB
cat SCycDB_2020Mar.z* > SCycDB_2020Mar_all.zip
unzip SCycDB_2020Mar_all.zip
mv SCycDB_2020Mar.faa SCycDB_2020Mar

配置依赖

依赖参考README.md配置即可,首先是perl,然后是usearch、diamond、blast,最后是seqtk与kraken2。perl是必须的;usearch、diamond、blast有一个即可,也可以都配置上;seqtk与kraken2只有进行物种分类才需要。如果已经使用conda安装了kraken2虚拟环境或者宏基因组分析的虚拟环境,应该已经安装了部分软件,可以不用再创建新的环境,安装缺少的即可。可能有些软件已经安装,但还是找不到而报错,这些软件可能需要修改脚本,使用绝对路径。

# miniconda安装这里不说
conda config --add channels conda-forge 
conda config --add channels bioconda
# 也可以配置镜像
conda create -n SCycDB perl diamond blast seqtk kraken2
# 需要usearch的去官网下载放到某个路径,
# 修改脚本中usearch位置和版本
# usearch就是一个单独的可执行程序,给它可执行权限即可
# 如果conda安装的blasn不能用就去NCBI下载blast安装
# kraken2数据库配置这里不说,需要的自己查资料

# 不想使用conda的去下载对应软件安装好即可,
# 甚至一些Linux发行版仓库里就有某些软件,可以直接安装

SCycDB–硫循环数据库使用

使用参考README.md,有详细的参数说明

# using SCycDB_FunctionProfiler.PL
perl SCycDB_FunctionProfiler.PL -d <workdir> -m 
<diamond|usearch|blast> -f <filetype> -s <seqtype> 
-si <sample size info file> -rs <random sampling size> 
-o <outfile>

# using SCycDB_TaxonomyProfiler.PL
perl SCycDB_TaxonomyProfiler.PL -d <workdir> -m
<diamond|usearch|blast> -f <filetype> -s <seqtype> 
-si <sample size info file> -rs <random sampling size>

# 详细说明看README.md

# 具体例子
perl SCycDB_FunctionProfiler.PL -d seq -m diamond 
-f fa -s nucl -si sameinfo.tsv -o out.txt

perl SCycDB_TaxonomyProfiler.PL -d seq -m diamond 
-f fa -s nucl -si sameinfo.tsv 

# -rs参数可选
# seq为序列所在目录
# fa说明序列文件名的后缀为fa
# nucl说明是核酸序列

对于SCycDB_TaxonomyProfiler,建议使用diamond,usearch出来的结果太少了,不清楚什么原因,blast运行太慢,diamond运行挺快,结果也多。同一个文件, blast 运行数个小时都没结束,有输出了,比 usearch 多; usearch 是最快的,输出也是最少的,各位数。所以还是使用 diamond,也省事, blast 和 usearch 都需要改脚本,使用程序的绝对路径,尽管在终端 直接输程序名就可以。

SCycDB_FunctionProfiler.PL 输出的文件较少,只需要看-o 指定的输 出文件就够了, SCycDB_TaxonomyProfiler.PL 输出的文件较多,也没有-o 参数可以将文件输出到指定文件夹。

SCycDB_TaxonomyProfiler 输出结果 (部分):

random sampling:4567

Gene test

srC 1

betA 3

betB 1

cuyA 1

cysA 4

cysC 6

cysE 3

cysH 1

SCycDB_TaxonomyProfilers 输出结果 (部分):

门水平统计 (也有完整的 kraken2 report)

random sampling: 4567

Tax test

Actinobacteria 12

Bacteroidetes 3

Cyanobacteria 3

Deinococcus-Thermus 1

Euryarchaeota 2

Firmicutes 7

Nitrospirae 1

Planctomycetes 3

Proteobacteria 327

Verrucomicrobia 2

本人只使用了一个输入 fa 文件,多个文件输出结果是怎样的暂不清楚。

参考
http://mp.weixin.qq.com/s?__biz=MzUyMTkxNzc5MA==&mid=2247520870&idx=3&sn=c6d2274e575213d2c9d0363786950556&chksm=f9d11657cea69f41c8b85242fc86e77bfeafe82ac382b1036c32d065dd50e980814870df3297#rd.
https://onlinelibrary.wiley.com/doi/abs/10.1111/1755-0998.13306.DOI:10.1111/17550998.13306.
https://github.com/qichao1984/SCycDB.

相关文章

网友评论

    本文标题:SCycDB使用

    本文链接:https://www.haomeiwen.com/subject/axmgqltx.html