如何评估深度学习模型效果？阿里工程师这么做

作者: 阿里云云栖号 | 来源:发表于2019-02-22 13:41 被阅读34次

如何评估深度学习模型效果？阿里工程师这么做
2019-06-26
T4-深度学习介绍与反向传播机制
模型评估指标
Keras深度学习--评估模型
从数据的角度理解TensorFlow鸢尾花分类程序8
一文看懂分类模型的评估指标：准确率、精准率、召回率、F1、ROC
如何评价客户流失预测模型效果
【转】小常识-stacking和blending模型融合方法详解
如何学习评估效果

小叽导读：复杂的深度模型中，如果效果不好，是因为网络设计的欠缺？还是数据天然缺陷？是训练代码的bug？还是Tensorflow自身的问题？基于此，阿里工程师推出了DeepInsight深度学习质量平台，致力于解决当前模型调试和问题定位等一系列问题。接下来，阿里巴巴高级技术专家、DeepInsight深度学习质量平台技术负责人：孙凯（花名：路宸），带我们一起探索。

1. 背景

机器学习训练过程的调试、可视化以及训练效果的评估一直是业界难题。在数据较少，模型较简单，如LR、GBDT、SVM，超参不多的情况下，模型的可调性和可解释性都有一定保障，那么我们用简单的训练，再观察召回/精度/AUC等指标就可以应对。

而深度学习时代，模型的复杂性远远超乎想象，层层嵌套的网络结构，优化器和大量超参的选择，特征的连续化，一起构建了复杂的深度模型。如果效果不好，其原因是多样的，为了定位和解决这些问题，算法研发同学需要花费大量精力反复尝试，而且很可能得不到准确的答案。简单来说，网络模型近似于黑盒。

2. DeepInsight

通过研究，我们发现训练和评估过程中大量中间指标与模型效果能产生关系，通过系统的分析建模张量、梯度、权重和更新量，能够对算法调优、问题定位起到辅助决策作用。而且，通过改进AUC算法，分析ROC、PR、预估分布等更多评估指标，能够更全面地评估模型效果。

通过2个多月的努力，我们推出了DeepInsight平台，致力于解决当前模型调试和问题定位等一系列问题。提交模型开始训练之后，用户可以通过DeepInsight平台，能一站式查看并分析训练过程，从训练中间指标到预测指标，再到性能数据，一应俱全。对于训练中明显的问题，平台也会高亮给予提示。未来，我们希望平台能更好地帮助用户发现和定位训练中的问题，并能给予适当提示（如更改某些子网络的最优化算法、更改学习率动量等），就如同GDB之于C++一样。

2.1 目标

沉淀并持久化训练数据。深度学习的数据非常宝贵，每次训练的网络拓扑、参数、训练中间过程、模型评估指标都会持久存储，方便后续人工分析和二次建模；

沉淀对模型训练的认识，提供分析调优手段，辅助决策，同时规避各类已知问题；

利用大数据分析建模，寻找中间过程指标的关系，更好地辅助决策，我们称这个目标为Model on Model，即利用新的模型来分析评估深度模型；

在大数据分析建模的基础上，尝试对已有模型进行深度强化学习（DRL），提高深度学习调试效率。

2.2 架构

系统主要分为四层：输入层、解析层、评估层、输出层；

同时包括五大组件：Tensorboard+可视化分析；TensorViewer日志展示对比；TensorDealer集成配置；TensorTracer数据透出；TensorDissection分析调优。

2.3 进展

2.3.1 高性能可视化组件TensorBoard+

Google的TensorBoard（简称为TB）是TensorFlow（简称为TF）的可视化组件，可以查看深度学习的网络结构、中间指标等。原生的TB是单机版命令行方式运行，无法多用户使用；易用性差，每次切换日志路径都需要kill掉当前进程；同时性能也很差，加载工业模型数据立即卡死；指标分层混乱，几千个指标全都罗列，无法查看；用法复杂功能较弱，不支持已展示图形的二次数据对比，不支持X轴浮点数据展示等。

因此，我们重构了TB的核心代码，支持GB级日志加载和数据分层，将整个服务改造成多用户版本，利用Docker灵活管理资源并自动回收。UI上支持了高亮自定义指标、分层展示、数据对比、日志上传等，具体如下：

支持在线更改TF日志路径：

支持图形数据在线聚合对比：

支持X轴浮点数值类型展示：

支持图形数据Hightlight分维度显示：

支持手动调整前端定时刷新时间，实时展示数据：

2.3.2 集成配置日志管理系统TensorViewer

TF的任务缺乏有效管理，用户无法按需查看和分析数据，更无法回顾历史数据。我们打通了TF与DeepInsight的通路，收集了所有任务的信息，用户可以查看每次训练的实时数据和所有历史数据，支持多任务对比分析；同时支持一键跳转到Tensorboard+，直接对当前日志数据进行可视化展示。

2.3.3 改进TensorFlow的可视化数据透出

我们定义了一套数据透出方式，可以把所有内部数据透出成统一的Summary格式，并被Tensorboard+处理。由于PS架构没有Master集中处理中间数据，再加上张量、梯度等指标的透出是极为消耗资源的，所以，如何透出数据是值得深入研究的。当前我们在Worker0上透出数据，能满足一般模型训练的要求，未来，会研究Snapshot数据透出方案，在大规模网络下也能取得较好效果。

当前，我们已经初步解析了Tensorflow透出的过程指标，正在这些海量指标上进行有监督和无监督的建模探索。

2.3.4 改进模型评估指标

Tensorflow自带的AUC计算方式分桶较少，计算精度有bug，在处理大量数据时性能不够，而且，仅仅能计算AUC，无法绘制ROC、PR等曲线。

我们改进了计算方式，引入更多桶，并提升计算效率，同时，绘制了更多新的指标。当前绘制的指标包括AUC、ROC、PR、波动率、正负样本分桶分布。通过观察正负样本的分布，我们发现Tensorflow异步计算的缺陷，导致某些桶的样本数量有误差，会带来AUC上极小波动，这个bug目前尚未解决。所有的预估指标都无缝接入DeepInsight平台。

2.3.5 研究模型训练中间指标

通过深入观察和建模大规模Embedding子网络的训练指标，我们发现权重（偏置）值的变化可以反应出相关网络结构是否被有效训练。权重（偏置）值变化微弱的区域即为训练的“盲区”—该部分网络没有被训练起来。通过观察权重（偏置）的梯度，可以帮助我们诊断梯度弥散或梯度爆炸等问题，分析了解训练该部分网络的难易程度，有针对性地调整优化器以及学习率等设置。通过全面考察整个网络各部分的激活以及梯度，可以帮助我们深入了解整个网络前后向多路信息相互耦合、协同传导的复杂机制，从而更有效地进行模型结构的设计调优。

对中间指标的研究会沉淀回流到DeepInsight，在训练指标产出后，对用户给予提示，做到辅助决策的作用。

本文作者：孙凯

阅读原文

本文来自云栖社区合作伙伴“ 阿里技术”，如需转载请联系原作者。

如何评估深度学习模型效果？阿里工程师这么做
小叽导读：复杂的深度模型中，如果效果不好，是因为网络设计的欠缺？还是数据天然缺陷？是训练代码的bug？还是Tens...
2019-06-26
origin.attrs深度学习:函数(模型,评估)
T4-深度学习介绍与反向传播机制
深度学习采用深度神经网络作为模型进行学习。步骤选择神经网络模型评估选择最好结果反向传播通过链式法则，...
模型评估指标
评估指标用于反映模型效果。在预测问题中，要评估模型的效果，就需要将模型预测结果f(X)和真实标注Y进行比较，评估指...
Keras深度学习--评估模型
每一个深度学习模型的搭建是为了解决某项问题，我们有必要对模型进行评估，一方面给出具体参数有利于判断模型的学习效率，...
从数据的角度理解TensorFlow鸢尾花分类程序8
接上节，本节继续分析：5，评估模型的效果：评估指的是确定模型进行预测的效果。要确定鸢尾花分类模型的效果，需要将测...
一文看懂分类模型的评估指标：准确率、精准率、召回率、F1、ROC
机器学习模型需要有量化的评估指标来评估哪些模型的效果更好。本文将用通俗易懂的方式讲解分类问题的混淆矩阵和各种评估指...
如何评价客户流失预测模型效果
如何评价客户流失预测模型效果呢？用来评估客户流失预测模型预测效果好坏的一个重要指标就是提升度了。所谓提升度，简单...
【转】小常识-stacking和blending模型融合方法详解
对于机器学习和深度学习来说，用单模型的效果往往都没有进行模型融合后的效果好。对模型来说，我们需要选择具有多样性，...
如何学习评估效果
新知：学习要管理自己的情绪，要让积极的一面影响自己，不能拿自己的弱项和别人的强项比学习评估的维度:看看是不是让自...

如何评估深度学习模型效果？阿里工程师这么做

1. 背景

2. DeepInsight

相关文章

如何评估深度学习模型效果？阿里工程师这么做

2019-06-26

T4-深度学习介绍与反向传播机制

模型评估指标

Keras深度学习--评估模型

从数据的角度理解TensorFlow鸢尾花分类程序8

一文看懂分类模型的评估指标：准确率、精准率、召回率、F1、ROC

如何评价客户流失预测模型效果

【转】小常识-stacking和blending模型融合方法详解

如何学习评估效果

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

我是程序员

机器学习

深度学习·神经网络·计算机视觉

深度学习项目实践集

深度学习-推荐系统-CV-NLP

金融基础技术与业务