H2O操作记录 mnist深度学习

H2O操作记录 mnist深度学习

作者: yaoleiroyal | 来源:发表于2018-12-10 15:09 被阅读0次

H2O操作记录 mnist深度学习
h2o 机器学习平台
TensorFlow 2.0 Tutorial: 2 - 识别
tf.one_hot编码
深度学习系列-数据集介绍
Caffe学习笔记2：LeNet拒绝官方脚本！从数据准备到训练再
Python深度学习2
TensorFlow自学第2篇——线性回归
pytorch学习(十五)—自定义CNN网络训练FashionM
深度学习 - iOS使用Metal Performance Sh

今天详细研究一下h2o flow的操作流程，分析其中的关键步骤及界面要素，为后续改造做准备。

首先h2o flow有点类似于jupyter，是一个文本和代码混合的编辑器，这个思想目前在我们系统中应该不会去考虑！

2018-05-07-15-29-30.jpg

导入文件(Import Files)

h2o貌似支持导入多种文件格式，比如.gz、.zip、.csv、.txt等等，也可以直接导入一个文件目录。

我测试的时候，是直接使用.gz文件，里面其实是一个mnist的csv文件。

系统在导入一个文件之后，会为这个文件生成另外一个后缀为.hex的文件，后续解析文件以及建模都依赖于此。

解析文件(Parse File)

前面的导入文件只是第一步，而这一步解析文件很关键，一般情况下，h2o很智能，它知道怎么去解析文件，但是它也提供了解析文件的各种参数，方便用户选择。

2018-05-07-15-46-46.jpg

下面描述一下这些参数：

ID：就是之前说的，系统会为导入的文件起一个后缀为.hex的名字，这个名字在这里可以修改。
Parser：这个解析器，我的理解就是对应h2o支持的几种文件格式
- AUTO：由h2o来自动解析
- ARFF
- XLS
- XLSX
- CSV
- SVMLight
- ORC
- AVRO
- PARQUET
Separator：应该指的就是文件内列分隔的标识，一般像csv文件都是以,分隔的。下面截几个图示意一下，h2o里支持的分隔符非常多。

2018-05-07-16-04-31.jpg
2018-05-07-16-05-34.jpg

Column Headers：列头的解析规则，有的文件会在第一行标明列名信息，以有则不会，所以需要设置一下。h2o提供了参数选择，根据实际情况选择即可。
Options：其它一些参数配置，Enable single quotes as a field quotation character表示启用单引号表示引用字符。Delete on done应该是指解析完之后就删除导入数据，h2o建议是选中这个的。
EDIT COLUMN NAMES AND TYPES：这个是非常重要的设置，需要告诉解析器文件中每一列的列名以及列的数据类型。同样一般情况下，如果没有列名的话，h2o会自增设置，数据类型h2o也会自动判断，但是自动判断不见得都是正确的，最后用户还是需要检查一下，并将一些重要的列设置正确。比如对于分类问题，样本的标签值一般都是数字，但是用户需要在这里将其设置为枚举，即Enum。

h2o在解析文件时，会出来如下一个界面，显示解析的进度：

2018-05-07-16-22-00.jpg

在h2o中，基本每一个操作都会被当成一个Job。

点击View之后：

2018-05-07-16-22-57.jpg

可以看到数据集的详情，并且用户可以将标签列设置为枚举，当标签列设置为枚举之后，h2o会出现针对分类标签的统计图表：

2018-05-07-16-25-14.jpg

上图中的inspect中文含义是“检查”，可以理解为数据可视化，用户可以配置不同的参数，以查看到该标签列的数据分页图表。

2018-05-07-16-35-55.jpg

2018-05-07-16-36-24.jpg

2018-05-07-16-36-49.jpg

impute有点像是纠错的意思，用户可以修改某一列具体取值的计算规则：

2018-05-07-16-45-28.jpg

Column-C785+Method-Mean+Group By C1 C2，我个人理解，意思就是"把C785这一列的值，修改为依据C1和C2，取它们的平均值(Mean)"。

Method有三种取值：Mean（平均值），Median（中值），Mode（取模）

构建模型(Build Model)

第一步：选择模型算法

2018-05-07-16-59-21.jpg

2018-05-07-16-59-36.jpg

由于我现在做的是mnist示例，所以我选择Deep Learning，当选择了深度学习算法之后，会发现界面增加了大量的参数配置：

2018-05-07-17-02-48.jpg

2018-05-07-17-04-18.jpg

2018-05-07-17-04-45.jpg

2018-05-07-17-05-02.jpg

2018-05-07-17-05-36.jpg

下面按照官方说明，给出一些重要的参数说明：

2018-05-07-17-23-23.jpg

上图主要是设置训练数据集以及测试数据集，还有最终的分类列，即上图中的response_column。

2018-05-07-17-24-37.jpg

activation：设置激活函数
hidden：设置隐藏层的维度及神经元个数，这里的128,64，就表示设置了两个隐藏层，第一层有128个神经元，第二层有64个神经元
epochs：这个应该都能理解，就是训练的轮数
variable_importance：变量重要性，这个我不懂，不乱说

2018-05-07-17-28-37.jpg

adaptive_rate：自适应学习率，如果要手动设置的话，需要取消选中状态
input_dropout_ratio：这是一个防止过拟合的参数，这是设置输入层的比率，因为输入层只有一个，所以这里设置一个就行了
hidden_dropout_ratios：同上，这是设置隐藏层的比率，因为我们刚才设置了隐藏层是两个，所以这里以逗号分隔
l1与l2：这也是防止过拟合的参数，具体我不懂

2018-05-07-17-33-39.jpg

2018-05-07-17-34-02.jpg

这四个参数是设置early stop的参数，具体含义我不了解

2018-05-07-17-35-19.jpg

这些参数是设置随机因子、学习率、衰变率、动量因子等，具体看解释吧。

正式构建模型

点击Build Model：

2018-05-07-17-37-36.jpg

2018-05-07-19-12-25.jpg

点击上图中的超链接：

2018-05-07-17-42-27.jpg

可以看到h2o为模型提供了大量的可视化数据展示，以及功能按钮。上图展示了对一个模型可以进行的操作：

Refresh：刷新
Predict：预测
Download POJO：这个应该是下载模型对象，具体下载下来，会发现是一个Java文件，文件有3M多，大概10万多行。
Download Model Deployment Package(MOJO)：一个压缩包，我也不知道是什么东东。
Export：将模型导出到指定路径下。
Inspect：具体不知道。

2018-05-07-18-32-06.jpg

Delete：删除模型
Download Gen Model：一个可执行的jar包。

下面仔细看看具体的模型结果展示信息：

第一个是模型参数信息，即前面在构建模型前，所设置的自定义参数：

2018-05-07-18-09-47.jpg

下面这个不知道是什么意思，好像是把损失取了一下对数进行图表展示，但不知道具体有什么含义。

2018-05-07-19-28-46.jpg

下面这个是变量重要性，意思应该就是针对所有的特征列，它能计算出哪些对结果的影响更重要，会对这些特征做一个重要性排序。

2018-05-07-19-29-14.jpg

这应该就是一个训练的混淆矩阵，行是真实分类，列是预测分类，就是结果的展示，每个分类的错误率有多少。

2018-05-07-19-29-42.jpg

这也是一个验证的混淆矩阵，行是真实分类，列是预测分类，就是结果的展示，每个分类的错误率有多少。

2018-05-07-19-30-03.jpg

还有很多的模型结果展示，这里就不列举了。

今天有一个问题一直没有搞明白，无论我怎么修改参数，最终训练的轮数跟我设置的epoch都不一样，而且小非常多，不知道为什么。

相关文章

H2O操作记录 mnist深度学习
今天详细研究一下h2o flow的操作流程，分析其中的关键步骤及界面要素，为后续改造做准备。首先h2o flow...
h2o 机器学习平台
之前知道h2o是一个深度学习的框架，类似于tensorflow之类的深度学习框架。但是知道h2o的人不是那么多，然...
TensorFlow 2.0 Tutorial: 2 - 识别
本文要学习如何用 TensorFlow 2.0 识别 Fashion MNIST。 MNIST 可以说是深度学习里...
tf.one_hot编码
很多机器学习和深度学习很多是多分类问题，例如mnist手写数字识别0~9，mnist fasion要是识别10种衣...
深度学习系列-数据集介绍
MNIST深度学习领域的“Hello World!”，入门必备!MNIST是一个手写数字数据库，它有60000个训...
Caffe学习笔记2：LeNet拒绝官方脚本！从数据准备到训练再
作为深度学习界的“hello world！”，学习起来真没那么容易。接触深度学习，第一个接触的就是mnist。但是...
Python深度学习2
使用keras搭建CNN深度学习网络，使用mnist数据集。一、导入所需要的包二、载入数据集 mnist.lo...
TensorFlow自学第2篇——线性回归
很多道友都说，MNIST是深度学习领域的Hello World，我认为这种说法欠妥。应该这么说，线性回归是深度学习...
pytorch学习(十五)—自定义CNN网络训练FashionM
前言入门深度学习，一般都是跑最经典的MNIST+LeNet-5， LeNet-5网络结构简单，MNIST数据集...
深度学习 - iOS使用Metal Performance Sh
前言在上一篇深度学习 - Tensorflow on iOS 入门 + MNIST中，我们使用了TensorFl...

网友评论

本文标题：H2O操作记录 mnist深度学习

本文链接：https://www.haomeiwen.com/subject/ysrkhqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|H2O操作记录 mnist深度学习|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！