深度学习基本概念

作者: readilen | 来源:发表于2017-05-30 17:04 被阅读73次

数据流图

数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。例如TensorFlow等

image.png

张量

张量是所有深度学习框架中最核心的组件,因为后续的所有运算和优化算法都是基于张量进行的。几何代数中定义的张量是基于向量和矩阵的推广,通俗一点理解的话,我们可以将 标量视为零阶张量,矢量视为一阶张量,矩阵就是二阶张量。举例来说,我们可以将任意一张RGB彩色图片表示成一个三阶张量(三个维度分别是图片的高度、宽度和色彩数据)。如下图所示是一张普通的水果图片,按照RGB三原色表示,其可以拆分为三张红色、绿色和蓝色的灰度图片,如果将这种表示方法用张量的形式写出来,就是图中最下方的那张表格。


在python中:

  • 零阶张量,标量使用基本加减运算,对应单个Tensor
  • 一阶张量,矢量,使用list,tuple,numpy.array,binascii等,对应数组Tensor
  • 二阶张量,矩阵,使用numpy.matrix,pandas.series,对应二位Tensor
  • 三阶张量,如图,使用pandas.dataframe,对应一个二位加通道的Tensor

张量的阶数有时候也称为维度,或者轴,轴这个词翻译自英文axis。譬如一个矩阵[[1,2],[3,4]],是一个2阶张量,有两个维度或轴,沿着第0个轴(为了与python的计数方式一致,本文档维度和轴从0算起)你看到的是[1,2],[3,4]两个向量,沿着第1个轴你看到的是[1,3],[2,4]两个向量。

要理解“沿着某个轴”是什么意思,不妨试着运行一下下面的代码:

import numpy as np

a = np.array([[1,2],[3,4]])
s0 = np.sum(a, axis=0)
s1 = np.sum(a, axis=1)

print s0
print s1

data_format

在计算机中机器码的表示方式分为大端和小端,在数据的表达上也分大端和小端。例如如何表示一组彩色图片的问题上,Theano和TensorFlow发生了分歧,'th'模式,也即Theano模式会把100张RGB三通道的16×32(高为16宽为32)彩色图表示为下面这种形式(100,3,16,32),Caffe采取的也是这种方式。第0个维度是样本维,代表样本的数目,第1个维度是通道维,代表颜色通道数。后面两个就是高和宽了。这种theano风格的数据组织方法,称为“channels_first”,即通道维靠前。

而TensorFlow,的表达形式是(100,16,32,3),即把通道维放在了最后,这种数据组织方式称为“channels_last”。

Keras默认的数据组织形式在~/.keras/keras.json中规定,可查看该文件的image_data_format一项查看,也可在代码中通过K.image_data_format()函数返回,请在网络的训练和测试中保持维度顺序一致。

函数式模型

在Keras 0.x中,模型其实有两种,一种叫Sequential,称为序贯模型,也就是单输入单输出,层与层之间只有相邻关系,跨层连接统统没有。这种模型编译速度快,操作上也比较简单。第二种模型称为Graph,即图模型,这个模型支持多输入多输出,层与层之间想怎么连怎么连,但是编译速度慢。可以看到,Sequential其实是Graph的一个特殊情况。

在Keras1和Keras2中,图模型被移除,而增加了了“functional model API”,这个东西,更加强调了Sequential是特殊情况这一点。一般的模型就称为Model,然后如果你要用简单的Sequential,OK,那还有一个快捷方式Sequential。

由于functional model API在使用时利用的是“函数式编程”的风格,我们这里将其译为函数式模型。总而言之,只要这个东西接收一个或一些张量作为输入,然后输出的也是一个或一些张量,可以构建有向图,统统都称作“模型”。

batch

深度学习的优化算法,说白了就是梯度下降。每次的参数更新有两种方式。

  • 第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍,计算量开销大,计算速度慢,不支持在线学习,这称为Batch gradient descent,批梯度下降。

  • 另一种,每看一个数据就算一下损失函数,然后求梯度更新参数,这个称为随机梯度下降,stochastic gradient descent。这个方法速度比较快,但是收敛性能不太好,可能在最优点附近晃来晃去,hit不到最优点。两次参数的更新也有可能互相抵消掉,造成目标函数震荡的比较剧烈。

为了克服两种方法的缺点,现在一般采用的是一种折中手段,mini-batch gradient decent,小批的梯度下降,这种方法把数据分为若干个批,按批来更新参数,这样,一个批中的一组数据共同决定了本次梯度的方向,下降起来就不容易跑偏,减少了随机性。另一方面因为批的样本数与整个数据集相比小了很多,计算量也不是很大。

基本上现在的梯度下降都是基于mini-batch的,所以Keras的模块中经常会出现batch_size,就是指这个。

顺便说一句,Keras中用的优化器SGD是stochastic gradient descent的缩写,但不代表是一个样本就更新一回,还是基于mini-batch的。

epochs

epochs指的就是训练次数。

原文地址略有改动

相关文章

  • 深度学习-基本概念

    线性回归向非线性回归的转化 1. 线性回归 线性关系描述输入和输出的映射 2. 非线性回归 对线性模型引入一个激励...

  • 深度学习-基本概念

    --基本概念了解 天气:晴,阴,雨温度:暖,冷湿度:普通,大风力:强,弱水温:暖,冷预报:一样,变化 享受运动:是...

  • 深度学习基本概念

    数据流图 数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学...

  • 深度学习基本概念

    1. 什么是深度学习? 深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络算法为起源加之...

  • 深度学习:基本概念深度解析

    我们前面经过了三个实际项目的历练,在项目实践中我们其实在不自觉中经历了深度学习的重要步骤,以及践行了深度学习过程中...

  • 不败给名词! 了解特征工程

    机器学习 基本概念:人工智能 > 机器学习 > 深度学习机器学习:机器学习是从数据中自动分析获得规律(模型), 并...

  • 机器学习与深度学习入门(一)

    在深入研究机器学习与深度学习之前我们需要了解一些基本概念,机器学习中的很多公式就是从这些基本概念和基本公式中推演发...

  • 深度学习算法

    一、基本概念: 1、什么是深度学习? 深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络...

  • 学习深度学习--深度学习中的一些基本概念

    学习深度学习--深度学习中的一些基本概念 人类一直没有停止过探索世界的脚步,从古至今,我们一直渴望着能够找到一种方...

  • TensorFlow 深度学习基本概念

    1. 深度学习 特性: 多层:单层神经网络其实就是感知机(1958年由Frank Rosenblatt提出),感知...

网友评论

    本文标题:深度学习基本概念

    本文链接:https://www.haomeiwen.com/subject/ycerfxtx.html