使用 tf.contrib.learn 构建输入函数

作者: alvin2015 | 来源:发表于2017-11-26 22:36 被阅读38次

使用 tf.contrib.learn 构建输入函数
TensorFlow入门（五）tf.contrib.learn的
使用ComplexHeatmap包绘制热图
mysql的docker无法输入中文的解决办法
Python爬虫笔记
ceres solver 02 中代价函数和AutoDiffCo
python 脚本编写
十二、三图联动
JS-Object-创建对象实例
2018-07-14 函数和参数

我是一个很懒的人，我想试试

希望我能坚持到最后，把tensorflow的官方教程全部翻译出来

提高自己，也帮助他人

Building Input Functions with tf.estimator

本教程将向你介绍如何使用 tf.estimator 创建输入函数。你将了解如何构建一个 input_fn 来预处理并将数据传入你的模型中。然后你将使用 input_fn 将训练，评估和预测的数据传入到神经网络回归以便预测房屋的中位数价值。

Custom Input Pipelines with input_fn

input_fn 用于将特征和目标数据传递给 Estimator 的 train， evaluate和 predict 方法。用户可以在input_fn进行特征工程或者预处理。以下是从 tf.estimator Quickstart tutorial 得到的一个例子：

import numpy as np

training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)

train_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"x": np.array(training_set.data)},
    y=np.array(training_set.target),
    num_epochs=None,
    shuffle=True)

classifier.train(input_fn=train_input_fn, steps=2000)

Anatomy of an input_fn

以下代码说明了输入函数的基本框架：

def my_input_fn():

    # Preprocess your data here...

    # ...then return 1) a mapping of feature columns to Tensors with
    # the corresponding feature data, and 2) a Tensor containing labels
    return feature_cols, labels

输入函数的主题包含了预处理输入数据的特定逻辑，例如清理不好的样本或特征缩放。

输入函数必须返回以下两个值，这两个值是传递给你的模型的最终特征和标签数据(如上代码框架所示)：

feature_cols

键/值对的字典，映射包含了相对应的特征数据的特征 columns 名字到Tensor (或 SparseTensor) 中。
labels

Tensor 包含了你的标签(目标)值：这个值是你的模型需要预测的。

Converting Feature Data to Tensors

如果你的特征/标签数据是一个 python 数组或保存在 pandas 数据帧中或者 numpy 数组，你可以使用下面的方法构造 input_fn:

import numpy as np
# numpy input_fn.
my_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"x": np.array(x_data)},
    y=np.array(y_data),
    ...)

import pandas as pd
# pandas input_fn.
my_input_fn = tf.estimator.inputs.pandas_input_fn(
    x=pd.DataFrame({"x": x_data}),
    y=pd.Series(y_data),
    ...)

对于 sparse, categorical data (其中大部分数据值都是0)，你将使用SparseTensor，它使用三个参数实例化：

dense_shape

张量形状。获取一个列表指明每个维度的元素总数。例如，dense_shape=[3,6] 表示一个二维 3x6 张量，dense_shape=[2,3,4] 表示一个三维 2x3x4 张量，而 dense_shape=[9] 表示一个一维的包含9个元素的张量。
indices

张量中包含非零值的元素的索引。获取一个 terms 列表，每个 term 也是一个列表，包含了非零元素的索引。(元素为零的索引——例如[0,0]是一个二维张量第一行第一列的元素的索引值。) 例如，indices=[[1,3], [2,4]] 指索引为 [1,3] 和 [2,4] 的元素有非零值。
values

一维张量值。values 的 term i 对应于 indices 的 term i ，并指定它的值。例如，给定indices=[[1,3], [2,4]]，参数 values=[18, 3.6] 指定了张量元素 [1,3] 值为 18，张量元素 [2,4] 的值是 3.6。

以下代码定义了一个 3 行 5 列的二维 SparseTensor 。索引 [0,1] 的元素值为 6，索引 [2,4] 的元素值 0.5 (其他值为 0)：

sparse_tensor = tf.SparseTensor(indices=[[0,1], [2,4]],
                                values=[6, 0.5],
                                dense_shape=[3, 5])

对应下面的稠密 (dense) 张量：

[[0, 6, 0, 0, 0]
 [0, 0, 0, 0, 0]
 [0, 0, 0, 0, 0.5]]

欲了解更多 SparseTensor，请查阅 tf.SparseTensor 。

Passing input_fn Data to Your Model

提供数据给你的模型以便训练，你传递你创建的输入函数到你的 train 函数中，作为input_fn 参数的值，例如：

classifier.train(input_fn=my_input_fn, steps=2000)

注意input_fn 参数必须接收一个函数对象(例如，input_fn=my_input_fn)，而不是函数调用的返回值(input_fn=my_input_fn()) 。这意味着，如果你尝试在你的train 调用中传递值给input_fn ，如下代码，将产生 TypeError：

classifier.train(input_fn=my_input_fn(training_set), steps=2000)

然而，如果你想要能够参数化你的输入函数，还有其他的方法。你可以使用一个不带参数的 wrapper 函数作为你的 input_fn 。并使用它调用你的带有想要的参数的输入函数。例如：

def my_input_fn(data_set):
  ...

def my_input_fn_training_set():
  return my_input_fn(training_set)

classifier.train(input_fn=my_input_fn_training_set, steps=2000)

或者，你可以使用 Python 的 functools.partial 函数来构造一个所有参数值是固定的新的函数对象：

classifier.train(
    input_fn=functools.partial(my_input_fn, data_set=training_set),
    steps=2000)

第三个选项是将你的 input_fn 调用包装在 lambda 表达式中，并将其传递给 input_fn 参数：

classifier.train(input_fn=lambda: my_input_fn(training_set), steps=2000)

设计如上所示的输入管道来接收数据集的参数的一个巨大的优势，是你可以传递相同的input_fn 给 evaluate 和 predict 操作而只需要改变数据集参数，例如：

classifier.evaluate(input_fn=lambda: my_input_fn(test_set), steps=2000)

这种方法增强了代码的可维护性：不需要为每种操作定义多个input_fn (例如，input_fn_train, input_fn_test, input_fn_predict)。

最后，你可以使用 tf.estimator.inputs 中的方法来从 numpy 或者 pandas 数据集创建input_fn 。额外的好处是你可以使用更多的参数，比如 num_epochs 和 shuffle 来控制input_fn 如何迭代数据：

import pandas as pd

def get_input_fn_from_pandas(data_set, num_epochs=None, shuffle=True):
  return tf.estimator.inputs.pandas_input_fn(
      x=pdDataFrame(...),
      y=pd.Series(...),
      num_epochs=num_epochs,
      shuffle=shuffle)

import numpy as np

def get_input_fn_from_numpy(data_set, num_epochs=None, shuffle=True):
  return tf.estimator.inputs.numpy_input_fn(
      x={...},
      y=np.array(...),
      num_epochs=num_epochs,
      shuffle=shuffle)

A Neural Network Model for Boston House Values

在本教程剩余部分，你将写一个输入函数来预处理从 UCI Housing Data Set 提取出的波士顿房价的子集，并用它传递数据给一个神经网络回归，以便预测房价的中位数。

你将使用 Boston CSV data sets 来训练你的神经网络，包含了以下波士顿郊区的特征数据：

特征	描述
CRIM	Crime rate per capita
ZN	Fraction of residential land zoned to permit 25,000+ sq ft lots
INDUS	Fraction of land that is non-retail business
NOX	Concentration of nitric oxides in parts per 10 million
RM	Average Rooms per dwelling
AGE	Fraction of owner-occupied residences built before 1940
DIS	Distance to Boston-area employment centers
TAX	Property tax rate per $10,000
PTRATIO	Student-teacher ratio

你的模型预测的标签是 MEDV，自住住宅的价值的中位数，单位千美元。

Setup

下载以下数据集：boston_train.csv, boston_test.csv 和 boston_predict.csv 。

以下部分提供了逐步介绍如何创建一个输入函数，传递这些数据集给一个神经网络回归，训练和评估模型，并预测房价。最终完整的代码 available here 。

Importing the Housing Data

首先，设置 imports(包含 pandas 和 tensorflow) 并设置日志标志为 INFO以记录更多的输出：

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import itertools

import pandas as pd
import tensorflow as tf

tf.logging.set_verbosity(tf.logging.INFO)

在COLUMNS中定义数据集的列名。为了从标签中区分特征，还定义了FEATURES 和 LABEL。然后读取三个 CSV(tf.train, tf.test, 和predict) 到 pandas 的 DataFrame ：

COLUMNS = ["crim", "zn", "indus", "nox", "rm", "age",
           "dis", "tax", "ptratio", "medv"]
FEATURES = ["crim", "zn", "indus", "nox", "rm",
            "age", "dis", "tax", "ptratio"]
LABEL = "medv"

training_set = pd.read_csv("boston_train.csv", skipinitialspace=True,
                           skiprows=1, names=COLUMNS)
test_set = pd.read_csv("boston_test.csv", skipinitialspace=True,
                       skiprows=1, names=COLUMNS)
prediction_set = pd.read_csv("boston_predict.csv", skipinitialspace=True,
                             skiprows=1, names=COLUMNS)

Defining FeatureColumns and Creating the Regressor

接下来，为输入数据创建一列 FeatureColumn，它指定用于训练的特征 columns 。因为房屋数据集的所有特征含有连续值，可以使用tf.contrib.layers.real_valued_column() 函数创建它们的 FeatureColumn：

feature_cols = [tf.feature_column.numeric_column(k) for k in FEATURES]

注意：有关特征 columns 更深入的了解，请查看这个介绍，例如说明如何定义分类数据的FeatureColumns，请查阅线性模型教程。

现在，实例化神经网络回归模型 DNNRegressor 。这里你需要提供两个参数：hidden_units，一个超参数，指定每个隐藏层的节点数量(这里，两个包含 10 个节点的隐藏层)， feature_columns，包含你定义的一列的FeatureColumns ：

regressor = tf.estimator.DNNRegressor(feature_columns=feature_cols,
                                      hidden_units=[10, 10],
                                      model_dir="/tmp/boston_model")

Building the input_fn

传递输入数据给regressor，编写一个接收 pandas Dataframe 的工厂方法并返回一个input_fn：

def get_input_fn(data_set, num_epochs=None, shuffle=True):
  return tf.estimator.inputs.pandas_input_fn(
      x=pd.DataFrame({k: data_set[k].values for k in FEATURES}),
      y = pd.Series(data_set[LABEL].values),
      num_epochs=num_epochs,
      shuffle=shuffle)

请注意，输入数据使用data_set 参数传递给input_fn ，这意味着函数可以处理你导入的任意的DataFrame : training_set, test_set, 和prediction_set 。

提供另外两个参数：num_epochs：控制迭代所有数据的 epochs 次数。对于训练，设置这个值为 None，这样input_fn 保持返回数据知道达到所需的训练次数。对于评估和预测，设置这个值为 1，这样input_fn将迭代所有数据一次，然后产生OutOfRangeError错误。这个错误会告诉Estimator停止评估和预测。shuffle：是否打乱数据。对于评估和预测，设置为False，这样input_fn 将顺序迭代所有的数据。对于训练，设置为 True 。

Training the Regressor

为了训练神经网络回归器，运行将training_set 传递给input_fn 的train ，如下所示：

regressor.train(input_fn=get_input_fn(training_set), steps=5000)

你将看到类似下面的输入日志，记录了每一百次的训练损失：

INFO:tensorflow:Step 1: loss = 483.179
INFO:tensorflow:Step 101: loss = 81.2072
INFO:tensorflow:Step 201: loss = 72.4354
...
INFO:tensorflow:Step 1801: loss = 33.4454
INFO:tensorflow:Step 1901: loss = 32.3397
INFO:tensorflow:Step 2001: loss = 32.0053
INFO:tensorflow:Step 4801: loss = 27.2791
INFO:tensorflow:Step 4901: loss = 27.2251
INFO:tensorflow:Saving checkpoints for 5000 into /tmp/boston_model/model.ckpt.
INFO:tensorflow:Loss for final step: 27.1674.

Evaluating the Model

接下来，看看对于测试数据集训练模型的性能如何。运行evaluate，传递test_set 给input_fn ：

ev = regressor.evaluate(
    input_fn=get_input_fn(test_set, num_epochs=1, shuffle=False))

从ev 中取回损失并打印到输出端：

loss_score = ev["loss"]
print("Loss: {0:f}".format(loss_score))

你将看到类似下面的结果：

INFO:tensorflow:Eval steps [0,1) for training step 5000.
INFO:tensorflow:Saving evaluation summary for 5000 step: loss = 11.9221
Loss: 11.922098

Making Predictions

最后，你可以在prediction_set上使用模型预测房价的中位值，这六个样本包含了特征数据但是没有标签：

y = regressor.predict(
    input_fn=get_input_fn(prediction_set, num_epochs=1, shuffle=False))
# .predict() returns an iterator of dicts; convert to a list and print
# predictions
predictions = list(p["predictions"] for p in itertools.islice(y, 6))
print("Predictions: {}".format(str(predictions)))

你的结果应包含六个房价预测值，单位千美元，例如：

Predictions: [ 33.30348587  17.04452896  22.56370163  34.74345398  14.55953979
  19.58005714]

Additional Resources

本教程重点在于创建一个神经网络回归器的input_fn 。想要学习更多其他模型类型的input_fn ，请查看以下资源：

Large-scale Linear Models with TensorFlow: 对于线性模型，介绍了在 TensorFlow 中提供了一个高层次的特征 columns 的概述和技术转换输入数据。
TensorFlow Linear Model Tutorial: 本教程将介绍如何创建根据人口普查数据预测收入范围的线性分类模型的FeatureColumn 和 input_fn 。
TensorFlow Wide & Deep Learning Tutorial: 基于 Linear Model Tutorial ，本教程介绍使用结合了线性模型和使用DNNLinearCombinedClassifier神经网络的一个“又深又广”的模型，创建FeatureColumn 和 input_fn 。

使用 tf.contrib.learn 构建输入函数
我是一个很懒的人，我想试试希望我能坚持到最后，把tensorflow的官方教程全部翻译出来提高自己，也帮助他人 B...
TensorFlow入门（五）tf.contrib.learn的
Building Input Functions with tf.contrib.learn 这个教程将指引你构建...
使用ComplexHeatmap包绘制热图
加载所需R包构建测试数据集使用Heatmap函数绘制热图使用HeatmapAnnotation函数构建注释对...
mysql的docker无法输入中文的解决办法
mysql的bash无法输入中文的问题使用laradock构建mysql后，发现使用是正常的，但是无法输入中文，...
Python爬虫笔记
1.Cookies构建: 字典格式,使用函数 2.请求头构建: 构建成字典格式 3.requests.get方法:...
ceres solver 02 中代价函数和AutoDiffCo
使用ceres solver时发现，发现自定义代价函数和输入代价函数使用AutoDiffCostFunction的...
python 脚本编写
一、在脚本中接受原始输入使用内置函数 input 获取用户的原始输入， input() 函数接受一个标准输入数据...
十二、三图联动
1.准备输入数据 2.挑选感兴趣的基因构建coxph模型用survival::coxph()函数构建模型 3.模...
JS-Object-创建对象实例
1、使用构建函数这个构建函数是 JavaScript 版本的类。您会发现，它只定义了对象的属性和方法，除了没有明...
2018-07-14 函数和参数
自定义函数使用def语句自定义函数，其后为函数名（输入参数）：函数体在缩进块中编写。输入参数中，必选参数在前，...

使用 tf.contrib.learn 构建输入函数

Building Input Functions with tf.estimator

Custom Input Pipelines with input_fn

Anatomy of an input_fn

Converting Feature Data to Tensors

Passing input_fn Data to Your Model

A Neural Network Model for Boston House Values

Setup

Importing the Housing Data

Defining FeatureColumns and Creating the Regressor

Building the input_fn

Training the Regressor

Evaluating the Model

Making Predictions

Additional Resources

相关文章

使用 tf.contrib.learn 构建输入函数

TensorFlow入门（五）tf.contrib.learn的

使用ComplexHeatmap包绘制热图

mysql的docker无法输入中文的解决办法

Python爬虫笔记

ceres solver 02 中代价函数和AutoDiffCo

python 脚本编写

十二、三图联动

JS-Object-创建对象实例

2018-07-14 函数和参数

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

tensorflow官方教程

TensorFlow技术帖

我爱编程