美文网首页python实现deep learningSwartz动物园
在TensorFlow中基于lstm构建分词系统笔记(二)

在TensorFlow中基于lstm构建分词系统笔记(二)

作者: MUTU洋 | 来源:发表于2017-04-30 19:51 被阅读404次

    上一节我们介绍了我们的模型部分,这一节来介绍下我们的数据来源和数据预处理。对初学者可能常常面临的问题的是模型的输入到底是怎样的,例如,在rnn可以处理任意长度的句子,所以很多初学者可能会认为是不是在TensorFlow中输入不需要特殊处理。理论上rnn是可以处理任意长度的句子,但在工程实现上考虑到效率等一些列问题,TensorFlow中的rnn(包括它的变形,lstm,gru...)需要把不同长度的句子pading到同一个长度,一种是把所有句子都处理成同一个长度,另一种是我们只需要在同一个batch中的句子同一个长度。本节采用第一种。

    数据

    一 数据来源

    这里我们自己构造了一份训练数据,我随意找了一份京东评论数据,你也可以采用其他的文本数据。然后利用jieba分词对这些文本进行分词。例如,有这样一句话,s1 = “迪士尼发行了四部票房超过10亿美元的电影”,我们对s1分词后成为s1_seg = ['迪士尼', '发行', '了', '电影'],其中,“迪士尼”就是一个词,我们把它处理成['B','I','I'],‘B’代表词的开始,‘I’代表词的中间。这样s1就可以标记为s1_tag=['B','I','I','B','I','B','B','I'],这样我们就可以得到我们的训练数据。注意,jieba本身就可能分错,我们这里只是想看下我们的模型能不能学习到训练数据的分布。

    二 数据预处理

    刚才我们已经得到我们的训练数据,现在我们要把它处理成符合输入要求的数据格式。为了简单,我这里把所以数据都处理成同样长度的序列(上一章中我们构建的模型就是要求的所有的序列长度一样)。由于在训练的时,我们需要在数据上不断的迭代更新参数。这里需要把数据处理成不同的batch,然后在每个batch上迭代。这里我们构造了一个类,这个类有一个next_batch方法。通过这个方法可以不断的产生batch_size的训练数据。

    
    class DataSet(object):
        def __init__(self,x_data,y_data,):
        #这个类主要用于不断产生训练数据
    
            self._x_data = np.array(x_data)
            self._y_data = np.array(y_data)
            self._epochs_completed = 0
            self._index_in_epoch = 0
            self._num_examples = len(x_data)
    
        @property
        def x_data(self):
            return self._x_data
    
        @property
        def y_data(self):
            return self._y_data
    
        @property
        def num_examples(self):
            return self._num_examples
    
        @property
        def epochs_completed(self):
            return self._epochs_completed
    
        def next_batch(self, batch_size, shuffle=True):
        """返回下一个`batch_size`数据"""
    
            start = self._index_in_epoch
            # 第一个epoch时做乱序处理
            if self._epochs_completed == 0 and start == 0 and shuffle:
                perm0 = np.arange(self._num_examples)
                np.random.shuffle(perm0)
                self._x_data = self.x_data[perm0]
                self._y_data = self.y_data[perm0]
                
            # 进入到下一个epoch
            if start + batch_size > self._num_examples:
                # Finished epoch
                self._epochs_completed += 1
                # Get the rest examples in this epoch
                rest_num_examples = self._num_examples - start
    
                x_rest_part = self._x_data[start:self._num_examples]
                y_rest_part = self._y_data[start:self._num_examples]
    
                # 数据乱序处理
                if shuffle:
                    perm = np.arange(self._num_examples)
                    np.random.shuffle(perm)
                    self._x_data = self._x_data[perm]
                    self._y_data = self._y_data[perm]
                
                # 开始下一个epoch
                start = 0
                self._index_in_epoch = batch_size - rest_num_examples
                end = self._index_in_epoch
                x_new_part = self._x_data[start:end]
                y_new_part = self._y_data[start:end]
                return np.concatenate((x_rest_part, x_new_part), axis=0), np.concatenate(
                    (y_rest_part, y_new_part), axis=0)
            else:
                self._index_in_epoch += batch_size
                end = self._index_in_epoch
                return self._x_data[start:end], self._y_data[start:end]
    
    def word_to_id(dict_data):
    #遍历所以的中文句子里的字符,建立一个Vocabulary,通过字符的频次把每个字符映射到一个数字
        counter = collections.Counter(''.join(dict_data.keys()))
        count_pairs = sorted(counter.items(), key=lambda x: (-x[1], x[0]))
        words, _ = list(zip(*count_pairs))
        word_id = dict(zip(words, range(3, len(words) + 3)))
        word_id['B'] = 1
        word_id['I'] = 2
        return word_id
    
    def datas(dict_data,num_step):
    #读取数据
        x_data = []
        y_data = []
        word_id = word_to_id(dict_data)
        for line in dict_data:
            x_list = [word_id[word] for word in list(line)][:num_step]
            y_list = [word_id[word] for word in dict_data[line]][:num_step]
            x_len = len(x_list)
            y_len = len(y_list)
            assert x_len == y_len
            if x_len<num_step:
                x_list.extend([0]*(num_step-x_len))
                y_list.extend([0]*(num_step-y_len))
            x_data.append(x_list)
            y_data.append(y_list)
        return x_data,y_data
    
    def read_data_sets(fileName,num_step):
    #通过调用这个函数不断的产生next batch的训练数据
    
        with open(fileName) as f:
            dict_data = json.load(f)
    
        x_data, y_data = datas(dict_data, num_step)
    
        return DataSet(x_data, y_data)
    

    通过调用read_data_sets来产生训练数据,注意这里的参数dict_data参数指的是,key是字符串,例如前面的s1,value是该字符串的标记,例如s1的标记是s1_tag。
    下一节我们将介绍训练过程。

    相关文章

      网友评论

      • d4da5bfb1e7d:请问楼主,训练过程呢。。。
      • Krystal_YI:我现在用的tf读取数据的第三种方式,从文件中读取,然而,太菜😳
        MUTU洋:参考下这个http://honggang.io/2016/08/19/tensorflow-data-reading/

      本文标题:在TensorFlow中基于lstm构建分词系统笔记(二)

      本文链接:https://www.haomeiwen.com/subject/sxvxtxtx.html