一个关于tf.data的简介

作者: cheerss | 来源:发表于2018-07-12 21:11 被阅读0次

原视频地址在这儿：https://www.youtube.com/watch?v=uIcqeP7MFH0

视频中介绍了tf.data设计的一些原则和一些基本用法。设计的三个原则：

1. 快速高效

tf.data可以在每秒读取13000张图片，官网上有一页专门介绍输入数据pipeline的效率。输入输入的pipeline分为以下三步（ETL）

分别是从数据源头处读取数据（Extract）（比如内存，磁盘，远程服务器，云端）、对数据做一系列的变换（Transform）、载入CPU或者GPU（Load）等等，下面是一个例子，ETL分别代表这三个步骤：

小技巧

如果从云端或者多个来源读取数据，很显然并行读取可以提升读取效率，这个操作可以通过简单的num_parallel_reads参数来完成，如：tf.data.TFRecordDataset(files, num_parallel_reads=32)
利用contrib模块的一些函数，提高数据transform阶段的速度，这些函数可以将transform阶段的多个不同操作融合到一起来做，以提高运行效率，如：

dataset = dataset.apply(tf.contrib.data.shuffle_and_repeat(10000, NUM_EPOCHS))
dataset = dataset.apply(tf.contrib.data.map_and_batch(lambda x: ...., BATCH_SIZE))

利用GPU prefetch提前吧数据在使用前加载到GPU

dataset = dataset.apply(tf.contrib.data.prefetch_to_device('\gpu:0'))

dataset中的数据可以通过生成迭代器来访问，如：

iterator = dataset.make_one_shot_iterator()
data = iterator.get_next()

如果对数据的效率要求比较高，或者数据集很大，建议使用TFRecord等数据类型读取数据

2. 灵活

通过dataset.map函数可以对每条数据做自定义的transform
有一个接口Dataset.from_generator()可以把原本已经写好的python的读取数据集的函数包在里面，得到Tensorflow的数据集。

3. 易用

在tf.enable_eager_execution()模式下，dataset可以被看做简单的python可迭代对象，通过for..in..来访问，并且这种模式依然是支持prefetch_to_device的
可以用一个函数打包上述所说的载入数据的三个步骤：

tf.contrib.data.make_batched_features_dataset(file_pattern, BATCH_SIZE, features, num_epochs=NUM_EPOCHS)

tf.data和最新的高级API Estimator有着很好的兼容性，只要生成了数据，就可以直接灌数据而不需要任何的迭代器什么的。

关于tf.data的Example

网友评论

本文标题：一个关于tf.data的简介

本文链接：https://www.haomeiwen.com/subject/wnzrpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！