美文网首页
如何将Bert句向量应用于深度神经网络中

如何将Bert句向量应用于深度神经网络中

作者: 菜菜鑫 | 来源:发表于2019-08-11 19:21 被阅读0次

    Bert开源了预训练的中文模型,如果你想直接使用Bert模型生成句子向量(当做一个黑盒),并用于深度学习模型中,本文将给出一个作者亲自实践的实例.本文内容只针对于实践,并不会对Bert的模型和理论进行任何介绍.

    首先我们准备深度学习模型:
    https://github.com/gaussic/text-classification-cnn-rnn
    以该项目中的字符级CNN模型为例,下载数据后并根据Readme指导,模型很容易就能跑的通.

    接下来准备Bert生成句子向量的模型,选用调用比较简单的这个项目:
    https://github.com/terrifyzhao/bert-utils
    Bert中文模型的下载地址为:
    https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

    一切准备就绪后,开始改造模型.必须明确的思路为,我们需要改的是网络的输入层和数据的预处理部分
    text-classification-cnn-rnn中的cnn_model.py定义了网络的结构,我们先看网络的前几层

        def cnn(self):
            """CNN模型"""
            # 词向量映射
            with tf.device('/cpu:0'):
                embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
                embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)
    
            with tf.name_scope("cnn"):
                # CNN layer
                conv = tf.layers.conv1d(embedding_inputs, self.config.num_filters, self.config.kernel_size, name='conv')
                # global max pooling layer
                gmp = tf.reduce_max(conv, reduction_indices=[1], name='gmp')
    

    其中的输入层为:
    embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
    用于创建一个新的变量embedding,随机生成self.config.vocab_size*self.config.embedding_dim尺寸的词嵌入张量
    embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)
    用于将input_x映射为词向量的形式
    我们需要重新定义网络的输入,所以需要对这部分进行修改.

            with tf.device('/cpu:0'):
                # self.embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
                # self.embedding_inputs = tf.nn.embedding_lookup(self.embedding, self.input_x)
                self.embedding_inputs = tf.reshape(self.input_x, [-1,32,24])
    

    由于bert对于每一句话,生成768维的向量,我们将768维的向量分解为3224的形式(或者2432或者其他乘积为768的分解形式),第一个维度是由input_x的batch决定的,所以设为-1,让reshape自己进行计算(注意,tf.reshape中最多只有一个维度能被设置为-1)
    模型结构处理完之后,我们进行改造数据的预处理部分
    数据的预处理在text-classification-cnn-rnn项目cnews文件夹下的cnews_loader中

    from bert_utils.extract_feature import BertVector
    bert = BertVector()
    

    首先在cnews_loader中引入bert生成词向量的函数
    之后对 process_file函数进行改造

    def process_file(filename, word_to_id, cat_to_id, max_length=600):
        """将文件转换为id表示"""
        contents, labels = read_file(filename)
        x_pad = bert.encode(contents)
        data_id, label_id = [], []
        for i in range(len(contents)):
            # data_id.append([word_to_id[x] for x in contents[i] if x in word_to_id])
            label_id.append(cat_to_id[labels[i]])
    
        # 使用keras提供的pad_sequences来将文本pad为固定长度
        # x_pad = kr.preprocessing.sequence.pad_sequences(data_id, max_length)
        y_pad = kr.utils.to_categorical(label_id, num_classes=len(cat_to_id))  # 将标签转换为one-hot表示
    
        return x_pad, y_pad
    

    舍弃之前的字典映射方式,将x_pad改为bert生成词向量的形式
    之后对文件的读取函数进行改造

    def read_file(filename):
        """读取文件数据"""
        contents, labels = [], []
        with open_file(filename) as f:
            for line in f:
                try:
                    label = line.strip().split('\t')[0]
                    content = line.strip().split('\t')[2]
                    if content:
                        # normal
                        # contents.append(list(native_content(content)))
                        # bert
                        contents.append(content)
                        labels.append(native_content(label))
                except:
                    pass
        return contents, labels
    

    这样的话,数据预处理和模型结构就都改造完成了,整个项目就可以跑起来了

    Training and evaluating...
    Epoch: 1
    Iter:      0, Train Loss:    1.7, Train Acc:  28.12%, Val Loss:    1.7, Val Acc:  21.73%, Time: 0:00:01 *
    Iter:     40, Train Loss:    1.4, Train Acc:  41.41%, Val Loss:    1.4, Val Acc:  42.78%, Time: 0:00:02 *
    

    我也是第一次做这种尝试,经验就是,要一步一步查看原有网络的每一层的输出的张量格式.遇到错误不要放弃,去谷歌查找错误的来源,有耐心得去不断调试.

    \color{red}{(涉及公司机密,完整代码和数据无法提供,请见谅,纯原创,转载请注明来源)}

    相关文章

      网友评论

          本文标题:如何将Bert句向量应用于深度神经网络中

          本文链接:https://www.haomeiwen.com/subject/tnxhjctx.html