记录在TCGA数据集构建机器学习模型预测患者亚型,然后在geo数据集检验。
假如我们在TCGA数据集上构建出亚型,同时想建立一个机器学习模型来预测未知数据集的亚型(基于表达量)。可以采用机器学习方法来完成这个任务。
- 由于不同表达量数据集batch effect的缘故,很难直接在A数据集构建模型,直接在B数据集检验。我给出来的解决方案有两个:
第一种方案
(1)将两个数据集同时且独立转换。如下图所示:
转换前:
记录在TCGA数据集构建机器学习模型预测患者亚型,然后在geo数据集检验。
假如我们在TCGA数据集上构建出亚型,同时想建立一个机器学习模型来预测未知数据集的亚型(基于表达量)。可以采用机器学习方法来完成这个任务。
(1)将两个数据集同时且独立转换。如下图所示:
转换前:
本文标题:在独立表达量数据集构建和验证机器学习(随机森林)
本文链接:https://www.haomeiwen.com/subject/ijxacltx.html
网友评论