数据集划分方法

作者: 清梦载星河 | 来源:发表于2020-02-24 23:14 被阅读0次

数据集划分方法
数据集划分方法
sklearn数据集的获取与划分
决策树（二）
2018-04-25 第五周
评估方法与性能度量
数据集的划分&更改评估指标
数据集划分
数据集划分
决策树算法

问题：如何划分训练集和验证集，从而保证验证集上的表现能代表模型的泛化能力。

1. 划分的基本准则

基本准则：保持训练集和验证集之间数据互斥，即测试样本不出现在训练样本中。

2. 划分方法

留出法

直接将数据集划分为两个互斥的数据集，其中一个做训练集，另一个做验证集。
常见划分比例：7:3、7.5:2.5、8:2。
缺点：由于是随机取样数据，所以结果可能不具有代表性。
相关函数：from sklearn.model_selection import train_test_split

示例代码：

from sklearn.model_selection import train_test_split
train_set, test_set = train_test_split(df, test_size=0.25, random_state=42)

# 提取训练集中的数据
x_train = train_set.copy()[['col1','col2','col3']]
y_train = train_set.copy()['col4']

# 提取验证集中的数据
x_test = test_set.copy()[['col1','col2','col3']]
y_test = test_set.copy()['col4']

# 训练数据等。。。

交叉验证法（CV）

相关函数：
- from sklearn.model_selection import KFold
- 或from sklearn.model_selection import cross_val_score

示例代码：

from sklearn.model_selection import KFold

# n_splits指交叉验证子集数
# shuffle指每次取样后是否重新打乱再取样
kf = KFold(n_splits = 10, shuffle=True)

for train_index,test_index in kf.split(df):
    # 拆分
    x_traincv, x_testcv = x.loc[train_index], x.loc[test_index]
    y_traincv, y_testcv = y.loc[train_index], y.loc[test_index]
    
    # 训练。。。

网友评论

数据挖掘与机器学习

本文标题：数据集划分方法

本文链接：https://www.haomeiwen.com/subject/xwpgqhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据集划分方法

1. 划分的基本准则

2. 划分方法

留出法

交叉验证法（CV）

相关文章

数据集划分方法

数据集划分方法

sklearn数据集的获取与划分

决策树（二）

2018-04-25 第五周

评估方法与性能度量

数据集的划分&更改评估指标

数据集划分

数据集划分

决策树算法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据挖掘与机器学习