1.目前我们理解,Tensorflow倾向以Dataset作为数据标准,其他数据格式转到Dataset作处理
2. 文件类型.npy .npz 为numpy读取存储数据常用文件。常用函数为load save
实例
path = tf.keras.utils.get_file('mnist.npz', DATA_URL)
with np.load(path) as data:
train_examples = data['x_train']
train_labels = data['y_train']
test_examples = data['x_test']
test_labels = data['y_test']
3. numpy数据 转为 dataset
实例 train_dataset = tf.data.Dataset.from_tensor_slices((train_examples, train_labels))
4.pandas数据读取csv
读取文件 pd.read_csv
5.把字符对象转为数字值
df['thal'] = pd.Categorical(df['thal'])
df['thal'] = df.thal.cat.codes
6. 把某一列数据取出作为单独的数据片段
target = df.pop('target')
7. 用字典化的数据,方便做一些预处理 把特征数据作堆叠 作为“list”
inputs = {key: tf.keras.layers.Input(shape=(), name=key) for key in df.keys()}
x= tf.stack(list(inputs.values()), axis=-1)
8. 把字典化的数据 转为dataset
dict_slices = tf.data.Dataset.from_tensor_slices((df.to_dict('list'), target.values)).batch(16)
网友评论