美文网首页
扩增子大数据整合与机器学习在预测土传病害方面的研究

扩增子大数据整合与机器学习在预测土传病害方面的研究

作者: 19d858dc33a1 | 来源:发表于2020-09-20 11:05 被阅读0次

    研究方法

    image.png

    数据收集

    以文献开始:google
    直接查找项目:NCBI、DDBJ

    机器学习

    1. 随机森林:微生物生态领域应用较多,精度高、能处理大量的变量
    2. 支持向量机:其它领域常用,如人脸识别
    3. 逻辑回归:最传统
    4. 决策树:结构简单、效率高
    5. 朴素贝叶斯算法:被分类的每个特征都与其他特征值无关

    数据整合与过滤

    • 样本过滤:将每个研究的样本数,过滤到一个较为一致的水平,以免该研究的样本对整体的分析影响过大


      image.png

    OTU过滤

    1. 序列数少于2000条
    2. OTU在超过三分之一样本存在/三分之一研究中存在
    3. 但需要研究稀有物种时,这一步需要谨慎
    4. 该研究中,过滤之后alpha多样性改变了,但β和物种组成和过滤前没有显著影响,可以认为过滤是比较可靠的。

    特征物种筛选

    该研究中运用了随机森林支持向量机(SVM)逻辑回归(LR)三种机器学习算法进行模型建立。


    根据准确度:随机森林
    模型创建分类。

    机器学习算法及物种分类水平的确定

    该研究发现,在OTU水平上建模效果最佳。

    验证

    进行建模之后,应该要进行预测。
    在不同作物,不同地点上进行验证。

    交叉验证得到45个细菌特征OTU和40个真菌的OTU 可以进一步验证特征OTU,在发病过程中的作用。

    数据整合的意义

    1. 获得普世结论
    2. 挖掘信息,为后续 研究提供思路。
    3. 佐证个人的案例研究。

    扩增子数据整合过程的问题

    1. DNA提取,引物等不同
    2. 测序建库平台和深度不同
    3. 测序质量不同
    4. 数据存储形式,数据完整度

    扩增子数据整合策略

    • 基于OTU水平的整合
      基于全长数据库(gg138)
      在OTU水平上寻找特征
      整合压力最小
      必须有原始数据
    • 基于其它分类水平的整合
      整合范围广(可以不需要原始数据)
      速度快,精度低,适合大生态

    扩增子数据整合进一步探究


    1.不同研究的批次效应等因素如何去除?
    答:在患病与对照直接产生的差异,以及大数据的情况下,可以认为批次效应等因素被研究的主要问题掩盖,可以考虑。

    相关文章

      网友评论

          本文标题:扩增子大数据整合与机器学习在预测土传病害方面的研究

          本文链接:https://www.haomeiwen.com/subject/ziyuyktx.html