美文网首页
扩增子大数据整合与机器学习在预测土传病害方面的研究

扩增子大数据整合与机器学习在预测土传病害方面的研究

作者: 19d858dc33a1 | 来源:发表于2020-09-20 11:05 被阅读0次

研究方法

image.png

数据收集

以文献开始:google
直接查找项目:NCBI、DDBJ

机器学习

  1. 随机森林:微生物生态领域应用较多,精度高、能处理大量的变量
  2. 支持向量机:其它领域常用,如人脸识别
  3. 逻辑回归:最传统
  4. 决策树:结构简单、效率高
  5. 朴素贝叶斯算法:被分类的每个特征都与其他特征值无关

数据整合与过滤

  • 样本过滤:将每个研究的样本数,过滤到一个较为一致的水平,以免该研究的样本对整体的分析影响过大


    image.png

OTU过滤

  1. 序列数少于2000条
  2. OTU在超过三分之一样本存在/三分之一研究中存在
  3. 但需要研究稀有物种时,这一步需要谨慎
  4. 该研究中,过滤之后alpha多样性改变了,但β和物种组成和过滤前没有显著影响,可以认为过滤是比较可靠的。

特征物种筛选

该研究中运用了随机森林支持向量机(SVM)逻辑回归(LR)三种机器学习算法进行模型建立。


根据准确度:随机森林
模型创建分类。

机器学习算法及物种分类水平的确定

该研究发现,在OTU水平上建模效果最佳。

验证

进行建模之后,应该要进行预测。
在不同作物,不同地点上进行验证。

交叉验证得到45个细菌特征OTU和40个真菌的OTU 可以进一步验证特征OTU,在发病过程中的作用。

数据整合的意义

  1. 获得普世结论
  2. 挖掘信息,为后续 研究提供思路。
  3. 佐证个人的案例研究。

扩增子数据整合过程的问题

  1. DNA提取,引物等不同
  2. 测序建库平台和深度不同
  3. 测序质量不同
  4. 数据存储形式,数据完整度

扩增子数据整合策略

  • 基于OTU水平的整合
    基于全长数据库(gg138)
    在OTU水平上寻找特征
    整合压力最小
    必须有原始数据
  • 基于其它分类水平的整合
    整合范围广(可以不需要原始数据)
    速度快,精度低,适合大生态

扩增子数据整合进一步探究


1.不同研究的批次效应等因素如何去除?
答:在患病与对照直接产生的差异,以及大数据的情况下,可以认为批次效应等因素被研究的主要问题掩盖,可以考虑。

相关文章

网友评论

      本文标题:扩增子大数据整合与机器学习在预测土传病害方面的研究

      本文链接:https://www.haomeiwen.com/subject/ziyuyktx.html