1.Meta分析通过增加数据量是否可以组装出低丰度物种?
在Metagenome 中,高丰度物种和低丰度物种分布的具有不均匀性,物种的多样性会对组装过程造成困难,组装时若高丰度和低丰度物种差异太大,会把低丰度物种所属的kmer 作为分支也剪切掉,这时会造成低丰度的物种难以组装出来,这也是现在宏基因组研究中的一个难点。随着测序深度的增加,对于低丰度物种的组装能否有利,需要看该物种的具体的丰度情况,若丰度太低,即使增加数据量,也不一定能够组装出来。
2.为什么样品有污染的情况下组装结果会相对较差?
由于组装软件在组装过程中是将测序数据看作来自同一个基因组的前提下进行的,如果样品有外源DNA混杂,其中不同来源的DNA中会有不同程度的相似性序列和非相似性序列,这些复杂的关系会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列,而这也导致最终的组装只能拿到碎片化的序列,而失去了组装本身想要达到的效果。
3.宏基因组测序可以得到样本的完整序列么?
宏基因组二代测序长度约为 350bp 的片段,经过预处理后得到 Clean Data,进行组装分析得到scaftigs去冗余后的代表序列进行基因预测的到UniGene,使用Unigene进行后续的功能预测和物种注释,所以无法得到完整序列。
4 样品去宿主为什么要进行最大值均一化?
对于生物类样本,由于宏基因组测序过程中无法消除宿主序列的影响,部分样本的测序结果中可能会包含较多的宿主序列,去除宿主后序列损失较多。若采用最小值均一化,可能会导致其他样本有效序列大量损失,尤其是低丰度物种。
5.做基因预测的时候为什么使用cds序列与clean去比对,而不与scaftig序列去比对?
因为组装的形式得到scaftig是为了保证预测数据的准确性,反映了原始序列的真实组成情况,而我们的基因预测丰度计算既涉及到了测序的深度,又涉及到了序列的程度,clean序列含有多条重复片段,增加了测序的深度,体现在了量的反馈上,因此使用clean去比对能反馈数据丰度的真实情况。
6.如何根据结果中生成的CDS或者蛋白质的序列找到其相所属的物种的序列。
宏基因组测序实际是对复杂环境样本的微生物构成进行分析,由于测序深度和环境复杂度的影响,无法对样本的某种微生物基因组进行组装;所以CDS无法与具体的某个来源物种的DNA 序列进行对应。
7.真菌注释信息较少的原因是什么?
1)样本中真菌丰度低,测序深度有限造成真菌序列组装不起来而影响后续物种注释;
2)真菌基因组杂合度高,单个真菌组装难度就很大,而在宏基因组如此复杂环境中组装真菌序列难度更大,因此可能在组装时就只有很少的真菌序列被组装出来从而影响后续的注释;
3)基因预测软件对原核和真核基因的预测模型不同,而宏基因组基因预测软件(MetaGeneMark)偏向于原核生物的基因预测,所以在基因预测部分造成预测出来的 真菌基因偏少从而影响后续注释;
8.如何查找显著差异基因的具体序列
先根据结果文件中挑选出感兴趣的KO号,根据KO号在结果文件找到其对应的基因ID号,再根据其基因ID号在文件中寻找其具体的序列信息。
9.物种注释others比例高的问题
对于物种或者功能的注释结果,基本上是完全复制数据库中的信息,而这些信息也都是先前研究的结果,因此能够注释到的结果,均是选择了阈值范围之内得分最高的,结果比较可靠。
目前我们物种注释比对使用NR数据库,涵盖信息比较全,可能由于样品本身的特性,这些没有注释结果的序列有可能是未知生物,或者是已知生物,但数据库中信息太少。而我们由于受限于数据库中的相关信息,因此具体属于哪一类还不能明确。
10.物种及功能注释结果中others、Unclassified、Candidatus表示什么?
(1)others表示分类时,程序无法根据规则判断应该属于哪一类,可能是注释到该水平,注释信息却是Unclassified,也可能是没有注释到该水平;
(2)在种水平上能够有具体的注释信息,但是在上层水平上属Unclassified,这种情况一般表示在比对到的数据库的某一参考序列有具体的种水平注释信息,但是在上一层级的分类水平上却无法区分或所属上一层级没有定义好的注释名称(Un--s-),这种情况在微生物中较为常见;
(3)Candidatus也是微生物分类学中的一个分类层级,一般是不可培养的微生物,是一 种临时的分类层级;在二代测序中,即便是接近完整的16S 基因组,也有可能注释到Candidatus。
网友评论