美文网首页机器学习
技巧 - 特征工程 - 找出和真实数据最像的训练数据

技巧 - 特征工程 - 找出和真实数据最像的训练数据

作者: 白尔摩斯 | 来源:发表于2019-01-01 10:42 被阅读170次

如果参加一个比赛,我们会在模型训练的时候将数据分成训练集开发集。模型提交后,比赛方会提供测试集对结果进行预测。
一般来说我们训练集上的模型评分会在86 ~ 88%左右,开发集上的评分为82 ~ 84%,但是到了实际的测试集上,模型评分可能只有72%左右。
技巧来了:
1、一般来说测试集的数据是不带标签的,但是测试集依然有特征X。
2、我们都不考虑训练集和测试集的目标Y,人为创建一列目标值Z,将训练集中的Z都设为0,将测试集的目标Z都设为1。
3、寻找测试集的X和Z之间的映射。
4、根据这个X和Z之间的映射,使用训练集中的X预测Z,结果肯定是组0,1向量。
5、将预测值为1的数据提出来,作为我的开发集(用来验证我们模型的数据集合),剩下预测为0的数据作为训练集。在这个基础上对我的训练数据进行调优。

这是一个在不做任何特征的情况下对模型调优的一个技巧,一般可以将模型在真实环境中的评分提高一点点。大概72%提高到74%左右。

为什么?实际上我们做训练的目的是为了找一找比赛中人家提供给我们的训练数据和真实数据,哪些长得比较像。将更像真实测试数据的样本放到开发集中作为调参的标准,从而能够提高最终的评分。虽然没有什么科学依据,但是确实比较有效,不登大雅之堂。

相关文章

  • 技巧 - 特征工程 - 找出和真实数据最像的训练数据

    如果参加一个比赛,我们会在模型训练的时候将数据分成训练集和开发集。模型提交后,比赛方会提供测试集对结果进行预测。一...

  • lof算法

    转载: wangyibo0201 在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和...

  • 特征工程实践总结

    特征工程是将原始数据,通过业务逻辑理解、数据变换、特征交叉与组合等方式,量化成模型训练和预测可直接使用的特征的过程...

  • sklearn中的fit fit_transform和trans

    数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工...

  • 使用sklearn进行数据挖掘

    数据挖掘的步骤 数据挖掘通常包括数据采集、数据分析、特征工程、训练模型、模型评估等步骤。 sklearn工作流程 ...

  • 如何使用sklearn进行数据挖掘?

    1.1 数据挖掘的步骤  数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklear...

  • #Python3组数据挖掘实战总结 6、7章#

    数据挖掘实战 特征工程 数据处理 Data vs Feature 列:特征 从原始数据中提取特征供算法和模型使用 ...

  • 机器学习--回归问题、决策树、随机森林、GBDT、 XGBoos

    零、特征工程(数据-特征-模型) 1、数据特征处理 * 数据选择 /清洗 /采样 * 数据型 / 类别型 /日期型...

  • 机器学习:特征工程基本流程

    一、背景概述 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程,指的是把...

  • 特征工程

    1. 介绍 特征工程是对原始数据进行一系列工程处理,将其提炼为特征,作为输入。是一个表示和展示数据的过程,特征工程...

网友评论

    本文标题:技巧 - 特征工程 - 找出和真实数据最像的训练数据

    本文链接:https://www.haomeiwen.com/subject/eaqnlqtx.html