研究方法
image.png数据收集
以文献开始:google
直接查找项目:NCBI、DDBJ
机器学习
- 随机森林:微生物生态领域应用较多,精度高、能处理大量的变量
- 支持向量机:其它领域常用,如人脸识别
- 逻辑回归:最传统
- 决策树:结构简单、效率高
- 朴素贝叶斯算法:被分类的每个特征都与其他特征值无关
数据整合与过滤
-
样本过滤:将每个研究的样本数,过滤到一个较为一致的水平,以免该研究的样本对整体的分析影响过大
image.png
OTU过滤
- 序列数少于2000条
- OTU在超过三分之一样本存在/三分之一研究中存在
- 但需要研究稀有物种时,这一步需要谨慎
- 该研究中,过滤之后alpha多样性改变了,但β和物种组成和过滤前没有显著影响,可以认为过滤是比较可靠的。
特征物种筛选
该研究中运用了随机森林、支持向量机(SVM)、逻辑回归(LR)三种机器学习算法进行模型建立。
根据准确度:随机森林
模型创建分类。
机器学习算法及物种分类水平的确定
该研究发现,在OTU水平上建模效果最佳。验证
进行建模之后,应该要进行预测。
在不同作物,不同地点上进行验证。
数据整合的意义
- 获得普世结论
- 挖掘信息,为后续 研究提供思路。
- 佐证个人的案例研究。
扩增子数据整合过程的问题
- DNA提取,引物等不同
- 测序建库平台和深度不同
- 测序质量不同
- 数据存储形式,数据完整度
扩增子数据整合策略
- 基于OTU水平的整合
基于全长数据库(gg138)
在OTU水平上寻找特征
整合压力最小
必须有原始数据 - 基于其它分类水平的整合
整合范围广(可以不需要原始数据)
速度快,精度低,适合大生态
扩增子数据整合进一步探究
1.不同研究的批次效应等因素如何去除?
答:在患病与对照直接产生的差异,以及大数据的情况下,可以认为批次效应等因素被研究的主要问题掩盖,可以考虑。
网友评论