文章信息:
文章:Bacteroidetes use thousands of enzyme combinations to break down glycans
中文:拟杆菌门利用数以千计的酶分解多糖
杂志:nc
时间:2019
摘要:
与蛋白质不同,多糖链不是由DNA直接编码的,而是由组装它们的酶的特异性编码的。理论计算提出了天文数字的可能异构体(> 10e12六糖),但实际聚糖结构的多样性在自然界中尚不清楚。拟杆菌门的细菌被认为是多糖的主要降解者,它们存在于所有的生态系统中。在拟杆菌门的基因组中,碳水化合物降解酶(CAZymes)排列在称为多糖利用位点(PULs)的基因簇中。拟杆菌门的PUL解聚需要定制的酶;相反,PUL中的酶组成可以提供有关目标聚糖结构的信息。在这里,我们根据拟杆菌门的CAZyme组成对964个拟杆菌门基因组编码的13,537个PUL进行分组。我们发现,拟杆菌门集体精心设计了几千种酶组合来分解多糖,这表明对多糖结构多样性的总体估计比理论估计要小得多。
一、PUL位点和多糖结构
二、PUL分析流程
PUL分析管道。a 从PULDB选择和排序数据。b 根据CAZyme组成进行PUL聚类。根据酶(亚)家族组成计算了每对PUL之间的距离。不同距离阈值的分层聚类(CAZyme组成中从0到50%不匹配)会产生一些在1200到2900之间的独特PUL。
三、SusC和SusD蛋白的系统发育树
串联重复SusC /D基因座编码SusC和SusD蛋白的系统发育树。SusC和SusD在两个系统发育树中形成了颜色编码的一致演化支。在重复序列中,每个分支的每个成员都有相同的基因组位置,显示出在每个trsusC/D组中严格的同源性。
cluster分析:
1 分析每个PUL位点中GH PL CE和 sulfatases (Sulf) peptidases (Pept) 的有无矩阵
2 用R vegan包计算Pairwise Jaccard distances
3 用hclust函数average方法进性Hierarchical clustering
4 用cutree函数和不同的Jaccard distance threshold定义不同的cluster高度
synteny(共线性)分析:
1 用stringdist R包
2 忽略PUL成分(GHs、PLs、硫酸酶、肽酶、转运体和调节因子)以外的蛋白质
3 stringsim R函数计算PUL模块相似性指数(0-1)
4 每对PUL计算一个synteny指数,计算PUL cluster所有PUL队中位数。
phylogeny(系统进化)分析:
1 用mafft进性alignment
2 用fastree进性最大似然分析
统计:
1 使用R使用chi2测试测试列联表的同质性
2 矫正标准残差
3 FactoMineR进性PCA
4 normality verification (Shapiro test)后使用t-test计算置信区间
5 non-parametric Wilcoxon test计算非正态分布置信区间
6 lm函数进性Polynomial regression多元回归
网友评论