美文网首页
9、模型层

9、模型层

作者: 是黄小胖呀 | 来源:发表于2020-12-14 10:17 被阅读0次

    首先暴露一个问题,对卷积的CNN和RNN不太熟悉,额哈哈~~~

    然后,深度学习模型一般由各种模型层组合而成。

    tf.keras.layers内置了非常丰富的各种功能的模型层。例如,

    layers.Dense,layers.Flatten,layers.Input,layers.DenseFeature,layers.Dropout

    layers.Conv2D,layers.MaxPooling2D,layers.Conv1D

    layers.Embedding,layers.GRU,layers.LSTM,layers.Bidirectional等等。

    如果这些内置模型层不能够满足需求,我们也可以通过编写tf.keras.Lambda匿名模型层或继承tf.keras.layers.Layer基类构建自定义的模型层。其中tf.keras.Lambda匿名模型层只适用于构造没有学习参数的模型层。

    1、基础层

    Dense:密集连接层。参数个数 = 输入层特征数× 输出层特征数(weight)+ 输出层特征数(bias)

    Activation:激活函数层。一般放在Dense层后面,等价于在Dense层中指定activation。

    Dropout:随机置零层。训练期间以一定几率将输入置0,一种正则化手段。

    BatchNormalization:批标准化层。通过线性变换将输入批次缩放平移到稳定的均值和标准差。可以增强模型对输入不同分布的适应性,加快模型训练速度,有轻微正则化效果。一般在激活函数之前使用。

    SpatialDropout2D:空间随机置零层。训练期间以一定几率将整个特征图置0,一种正则化手段,有利于避免特征图之间过高的相关性。

    Input:输入层。通常使用Functional API方式构建模型时作为第一层。

    DenseFeature:特征列接入层,用于接收一个特征列列表并产生一个密集连接层。

    Flatten:压平层,用于将多维张量压成一维。

    Reshape:形状重塑层,改变输入张量的形状。

    Concatenate:拼接层,将多个张量在某个维度上拼接。

    Add:加法层。

    Subtract: 减法层。

    Maximum:取最大值层。

    Minimum:取最小值层。

    卷积网络相关层

    Conv1D:普通一维卷积,常用于文本。参数个数 = 输入通道数×卷积核尺寸(如3)×卷积核个数

    Conv2D:普通二维卷积,常用于图像。参数个数 = 输入通道数×卷积核尺寸(如3乘3)×卷积核个数

    Conv3D:普通三维卷积,常用于视频。参数个数 = 输入通道数×卷积核尺寸(如3乘3乘3)×卷积核个数

    MaxPooling2D: 二维最大池化层。也称作下采样层。池化层无参数,主要作用是降维。

    AveragePooling2D: 二维平均池化层。

    GlobalMaxPool2D: 全局最大池化层。每个通道仅保留一个值。一般从卷积层过渡到全连接层时使用,是Flatten的替代方案。

    GlobalAvgPool2D: 全局平均池化层。每个通道仅保留一个值。

    循环网络相关层

    Embedding:嵌入层。一种比Onehot更加有效的对离散特征进行编码的方法。一般用于将输入中的单词映射为稠密向量。嵌入层的参数需要学习。

    LSTM:长短记忆循环网络层。最普遍使用的循环网络层。具有携带轨道,遗忘门,更新门,输出门。可以较为有效地缓解梯度消失问题,从而能够适用长期依赖问题。设置return_sequences = True时可以返回各个中间步骤输出,否则只返回最终输出。

    GRU:门控循环网络层。LSTM的低配版,不具有携带轨道,参数数量少于LSTM,训练速度更快。

    SimpleRNN:简单循环网络层。容易存在梯度消失,不能够适用长期依赖问题。一般较少使用。

    ConvLSTM2D:卷积长短记忆循环网络层。结构上类似LSTM,但对输入的转换操作和对状态的转换操作都是卷积运算。

    Bidirectional:双向循环网络包装器。可以将LSTM,GRU等层包装成双向循环网络。从而增强特征提取能力。

    RNN:RNN基本层。接受一个循环网络单元或一个循环单元列表,通过调用tf.keras.backend.rnn函数在序列上进行迭代从而转换成循环网络层。

    LSTMCell:LSTM单元。和LSTM在整个序列上迭代相比,它仅在序列上迭代一步。可以简单理解LSTM即RNN基本层包裹LSTMCell。

    GRUCell:GRU单元。和GRU在整个序列上迭代相比,它仅在序列上迭代一步。

    SimpleRNNCell:SimpleRNN单元。和SimpleRNN在整个序列上迭代相比,它仅在序列上迭代一步。

    AbstractRNNCell:抽象RNN单元。通过对它的子类化用户可以自定义RNN单元,再通过RNN基本层的包裹实现用户自定义循环网络层。

    Attention:Dot-product类型注意力机制层。可以用于构建注意力模型。

    AdditiveAttention:Additive类型注意力机制层。可以用于构建注意力模型。

    TimeDistributed:时间分布包装器。包装后可以将Dense、Conv2D等作用到每一个时间片段上。

    自定义模型层

    如果自定义模型层没有需要被训练的参数,一般推荐使用Lamda层实现。

    如果自定义模型层有需要被训练的参数,则可以通过对Layer基类子类化实现。

    Lamda层由于没有需要被训练的参数,只需要定义正向传播逻辑即可,使用比Layer基类子类化更加简单。

    Lamda层的正向逻辑可以使用Python的lambda函数来表达,也可以用def关键字定义函数来表达。

    for example:自定义模型呀~~~

    Layer的子类化一般需要重新实现初始化方法,Build方法和Call方法。下面是一个简化的线性层的范例,类似Dense.

    import tensorflow as tf

    from tensorflow.keras import layers,models,regularizers

     #Layer的子类化一般需要重新实现初始化方法,Build方法和Call方法。下面是一个简化的线性层的范例,类似Dense.

     15 class Linear(layers.Layer):

     16    def __init__(self, units=32, **kwargs):

     17        super(Linear, self).__init__(**kwargs)

     18        self.units = units

     19 

     20    #build方法一般定义Layer需要被训练的参数。   

     21    def build(self, input_shape):

     22        #求列数

     23        self.w = self.add_weight(shape=(input_shape[-1], self.units),

     24                                 initializer='random_normal',

     25                                 trainable=True)

     26        self.b = self.add_weight(shape=(self.units,),

     27                                 initializer='random_normal',

     28                                 trainable=True)

     29        super(Linear,self).build(input_shape) # 相当于设置self.built = True

     30 

     31    #call方法一般定义正向传播运算逻辑,__call__方法调用了它。   

     32    def call(self, inputs):

     33        return tf.matmul(inputs, self.w) + self.b

     34 

     35    #如果要让自定义的Layer通过Functional API 组合成模型时可以序列化,需要自定义get_config方法。

     36    def get_config(self):

     37        config =super(Linear, self).get_config()

     38        config.update({'units': self.units})

     39        return config

     40 

     41linear = Linear(units = 8)

     42print(linear.built)

     43#指定input_shape,显式调用build方法,第0维代表样本数量,用None填充

     44linear.build(input_shape = (None,16))

     45print(linear.built)

     46 

     47linear = Linear(units = 8)

     48print(linear.built)

     49linear.build(input_shape = (None,16))

     50print(linear.compute_output_shape(input_shape = (None,16)))

     51 

     52linear = Linear(units = 16)

     53print(linear.built)

     54#如果built = False,调用__call__时会先调用build方法, 再调用call方法。

     55linear(tf.random.uniform((100,64)))

     56print(linear.built)

     57config = linear.get_config()

     58print(config)

     59 

     60 

     61tf.keras.backend.clear_session()

     62 

     63model = models.Sequential()

     64#注意该处的input_shape会被模型加工,无需使用None代表样本数量维

     65model.add(Linear(units = 16,input_shape = (64,)))

     66print("model.input_shape: ",model.input_shape)

     67print("model.output_shape: ",model.output_shape)

     68model.summary()

    相关文章

      网友评论

          本文标题:9、模型层

          本文链接:https://www.haomeiwen.com/subject/ysypgktx.html