本文原文参考http://ronny.rest/blog/post_2017_09_11_tf_metrics/
原文写的挺好的,建议可以自己看看。
1、基本概念
在我们实用TensorFlow高阶API estimator时我们需要对模型当前训练或者预测的效果进行评估,这个时候TensorFlow就给我们了一些常用的计算指标,放在metrics当中,包括accuracy、auc等等,
tf.metrics.accuracy(
labels,
predictions,
weights=None,
metrics_collections=None,
updates_collections=None,
name=None
)
常用的传入参数两个 label和predictions
返回值也有两个:
accuracy:Tensor表示准确性,值total除以count.
update_op:适当增加total和count变量并且其值与accuracy匹配的操作.
有很多人不知道这两个值的区别下面具体讲一讲
2、返回值的理解
这里先一句话总结一下:
accuracy返回的是当前第0到N-1轮这一批数据的准确率
update_op返回的是训练过程第0到N轮数据的总的准确率
a)实现原理
下面讲讲是这个操作是怎么实现的,在源代码accuracy的最后一步,调用了mean方法,mean方法中有两个变量定义
total = metric_variable([], dtypes.float32, name='total')
count = metric_variable([], dtypes.float32, name='count')
其中count是存放总的样本数,total存放label和predict的值相同的个数,那么 accuracy = total/count
但是呢,TensorFlow并没有直接这样返回,而是返回了两个值,其中的原因是当我们训练数据时并不是一次性的将所有的数据喂给模型,而是在一个epoch中将数据分成多个batch,所以我们如果我们每次训练完之后都在训练数据上计算一个accuracy那么就会导致准确率抖动很大,所以正确的姿势是计算一个epoch后计算整个epoch的准确率。下面我们看看是如何返回的两个值的。
源码如下:
# values:外部传入的数组,对于每一位上如果label和predict相同则为1不同则为0
#传入的label的size,总的数据大小
num_values = math_ops.to_float(array_ops.size(values))
# math_ops.reduce_sum(values):预测准确的个数,
#assign_add将total+ math_ops.reduce_sum(values)赋值给total和update_total_op
#(update_total_op 应该是会直接赋值,total会在下一轮得到更新。
update_total_op = state_ops.assign_add(total, math_ops.reduce_sum(values))
with ops.control_dependencies([values]):
#
update_count_op = state_ops.assign_add(count, num_values)
def compute_mean(_, t, c):
return math_ops.div_no_nan(t, math_ops.maximum(c, 0), name='value')
#所以这里的到的mean_t 就是前面0到N-1轮的值。
mean_t = _aggregate_across_replicas(
metrics_collections, compute_mean, total, count)
#update_op 就是0到N轮的值。
update_op = math_ops.div_no_nan(
update_total_op, math_ops.maximum(update_count_op, 0), name='update_op')
解析:
这里大家看看代码的注释应该就可以看懂了,比较重要的就是看看assign_add这个函数的使用方法。
最后那么我们是怎么在每个epoch开始训练时,将count和total局部变量重置呢?
这里可以在每个epoch开始是调用 tf.local_variables_initializer() 方法进行重新初始化。
参考文献:
https://zhuanlan.zhihu.com/p/41461872
网友评论