使用K折的原因:
在调节网络参数时,需要将数据划分为训练集和验证集。有时候,验证集较小,在我们划分不同的训练集和验证集时,会造成验证分数上有很大的方差。因此,最佳做法是,使用K折交叉验证。
K折交叉验证:将数据划分为 K 个分区(通常为4或5),实例化 K 个模型,每个模型在 K-1 个分区上进行训练,并在下一个分区进行评估。则模型的验证分数为 K 个验证分数的平均值。
3 折交叉验证.PNG
np.concatenate
表示数组拼接
import numpy as np
x = [[1, 2],
[3, 4]]
x1 = np.concatenate([x, x], axis=0)
x2 = np.concatenate([x, x], axis=1)
print(x)
print(x1)
print(x2)
[[1, 2], [3, 4]]
[[1 2]
[3 4]
[1 2]
[3 4]]
[[1 2 1 2]
[3 4 3 4]]
k 折验证
import numpy as np
k = 4 # 4折
num_val_sample = len(train_data) // 4
num_epochs = 100
all_scores = []
for i in range(k):
print('processing fold #', i)
# 准备验证数据,第k个分区的数据
val_data = train_data[i * num_val_sample: (i + 1) * num_val_sample]
val_targets = train_targets[i * num_val_sample: (i + 1) * num_val_sample]
# 准备训练数据:其它所有分区的数据
partial_train_data = np.concatenate([train_data[:i * num_val_sample],
train_data[(i + 1) * num_val_sample:]],
axis=0)
partial_train_targets = np.concatenate([train_targets[:i * num_val_sample],
train_targets[(i + 1) * num_val_sample:]],
axis=0)
model = build_model() # 构建Keras模型(已编译)
model.fit(partial_train_data, partial_train_targets,
epochs=num_epochs, batch_size=1, verbose=0) # 训练模型(静默模式,verbose=0)
val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0) # 在验证数据上评估模型
all_scores.append(val_mae)
print(all_scores)
print(np.mean(all_scores))
processing fold # 0
2019-03-20 21:48:12.341884: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2
processing fold # 1
processing fold # 2
processing fold # 3
[2.0433454017828008, 2.265371648391875, 2.940860136900798, 2.3155297182574133]
2.3912767263332215
表明预测的房价与实际价格平均相差2400美元,而实际10000到50000美元,差别还是挺大的。
verbose:日志显示
verbose = 0 为不在标准输出流输出日志信息
verbose = 1 为输出进度条记录
verbose = 2 为每个epoch输出一行记录
注意: 默认为 1
(https://www.jianshu.com/p/159a9ac413fa)
网友评论