安装时间:2021.1.28
在线版本:TXSScan
本地版本:MacSyFinder
1. 简介
MacSyFinder用于预测细菌中是否存在蛋白分泌系统,其预测分泌系统类型和原理如下:
图片解释:
- 同一图片中,相同的颜色表示具有同源性;
- 实线方块说明该基因是成簇聚集的,虚线方块是指独立存在;
- d值表示相邻基因之间的间隔基因个数;
-
T1SS,以最主要的3个组成部分构建模型进行预测:
T1SS预测模型
-
T2SS,以最主要的13个组成部分构建模型进行预测:
T2SS预测模型
-
T3SS,以最主要的9个组成部分构建模型进行预测:
T3SS预测模型
-
T4SS,具有两种功能,分泌蛋白或者参与环境中DNA的接和或者分泌DNA到环境中。根据其作用构建了两种预测模型,其中分泌蛋白pT4SS结构较为固定,分为了两个子类型;而参与DNA结合的cT4SS分为了6种子类型:
T3SS预测模型
-
T5SS,分为了5个子类型,构建的模型可以预测其中3个研究最为广泛的分泌系统:
T5SS预测模型
-
T6SS,分为了3个子类型,其中T6SSi研究最多,根据其中14个保守组成部分建立了模型:
T6SS预测模型
-
T9SS,根据其中的11个关键蛋白构建预测模型:
T9SS预测模型
有关分泌系统那些事:
- T1SS和T5SS是分布最广的分泌系统;
2. 安装(mascyfinder_1.0.5)
2.1 利用conda建立环境,并安装相应依赖包
conda create -n mascyfinder_1.0.5 pyhon=2.7.15
conda activate mascyfinder_1.0.5
conda install blast=2.2.31
conda install hmmer
2.2 下载MacSyFinder_1.0.5并解压缩,解压缩后将其添加到环境变量中(或者直接将安装包移动到conda建立的mascyfinder_1.0.5环境目录下),之后进入该目录
python setup.py build
python setup.py test -vv
python setup.py install
注:
- 可能需要root权限;
- 执行
python setup.py install
时可能失败,此时添加python的绝对路径即可;
2.3下载并添加预测模板
下载全部Macsyfinder_models-master
code文件,找到Macsyfinder_models-master/models/TXSS/
目录下的文件definitions(包含*.xml文件)
以及profiles(包含*.hmm文件)
,并将这两个文件移动到任意工作目录。
3. 使用
根据上述原理可以预测:Flagellum
、T1SS
、T2SS
、T3SS
、pT4SSi
、pT4SSt
、T5aSS
、T5bSS
、T5cSS
、T6SSi
、T6SSii
、T6SSiii
、T9SS
macsyfinder all --db-type ordered_replicon -d definitions所在目录 -p profiles所在目录 --sequence-db protein.fa -o outfile
安装心得
- 在所有程序都正确的情况下,程序仍然安装失败,很有可能是用conda自动安装相应软件的时候,软件的版本没有符合要求。比如,此次用conda直接安装blast的时候安装的是blast=2.6.0版本,后续安装就遇到了问题。
2. 安装(macsyfinder2.0)
该版本改善了需要手动下载和添加分泌系统模板的问题,比之前要方便很多。
- 利用conda创建新环境,并下载依赖包
conda create -n macsyfinder2.0 python=3.7.10
conda activate macsyfinder2.0
conda install hmmer=3.3.2
- 下载安装mascyfinder2.0
git clone https://github.com/gem-pasteur/macsyfinder.git # 或者直接在github上下载macsyfinder,然后解压缩
cd macsyfinder
pip3 install .
用sudo apt install python3-pip,安装后pip3=20.0.2。(主要不要安装高版本的!!!最新的版本经常出现兼容性的问题),可用
python -m pip install pip==20.02
回退到低版本的pip3
- 下载所有可用模板
macsydata install TXSS
3. 使用(mascyfinder2.0)
macsyfinder --db-type ordered_replicon --sequence-db my_proteins.fasta --models TXSS all/T3SS
--db-type
选项有两种常用的选项:
unordered
:未进行组装的全基因组(这个意思有点模糊,是下机数据还是说草图?)ordered_replicon
:已经组装好的全基因组--e-value-search
:预测阈值(模式是0.1)-o
:结果输出的文件名
网友评论