基于最大概率的汉语分词（下）具体实现

作者: 4v3r9 | 来源:发表于2019-01-13 18:58 被阅读12次

基于最大概率的汉语分词（下）具体实现
基于最大概率的汉语分词（上）理论背景
自然语言处理中的分词算法实现
中文分词的方法
结巴分词 java 高性能实现，优雅易用的 api 设计，性能优
Python基于规则的中文分词
词性标注-隐马尔科夫模型应用
Hanlp中使用纯JAVA实现CRF分词
[python]分词工具jieba
NLP-分词器设计

本学期（2018秋季学期）完成了基于最大概率的汉语分词实验，本文为博客第二部分，介绍具体实现过程。实验基于人民日报1998年1月中文语料库，使用Python语言进行中文分词实验。实验实现了FMM、BMM和Bigram算法的分词功能，其中Bigram算法借助前两者分词结果发现歧义，使用Laplace平滑计算最大概率。

1 数据准备

本实验使用人民日报1998年1月中文语料库，经过去除标点符号、词性标注等预处理步骤后共余下19347条。随机取80%作为训练集，余下作为验证集。

训练数据格式

2 构建字典

本实验需要构造两个字典，一个用来记录每个字典词出现的词频，另一个用来记录每个词后面出现过那些词（bigram组合）。其中前者使用TrieTree数据结构实现，后者使用Python字典实现。

TrieTree名为字典树、前缀树，用来保存字符串可以提高检索速度。其原理在于，前缀树每一个节点的子节点都拥有相同的前缀。字典树的特点在于每个节点都只含有一个字符，从根节点到某一个节点，路上经过的每个单个字符连起来为该节点对应的字符串。

字典树结构示意图

构建TrieTree字典树的过程如下：

    def dict_add(self,word):
        '''
        add 'word' to self.tree
        :param word: the word to be added
        :return: nothing; change the self.tree in-place
        '''
        tree = self.tree
        for char in word:
            if char in tree:
                tree = tree[char]
            else:
                tree[char] = {}
                tree = tree[char]

        if "freq" in tree:
            tree["freq"] +=1
        else:
            tree["freq"] =1

得到的字典树结构实例：

{'迈': {'向': {'freq': 1}}, '充': {'满': {'freq': 1}}, '希': {'望': {'freq': 1}}, '的': {'freq': 1}, '新': {'freq': 1, '年': {'freq': 1}}}

判断某词语是否在字典中时，需要递归遍历字典树：

    def dict_search(self,word):
        '''
        search word frequency in the self.tree
        :param word:
        :return: frequency
        '''
        tree = self.tree

        for char in word:
            if char in tree:
                tree = tree[char]
            else:
                return False

        if "freq" in tree and tree["freq"] >=1:
            return tree["freq"]
        else:
            return 0

对于记录Bigram组合的词典，其结构如下所示：

{“BEG”:{“你”:3, “今天”:2}, “你”:{“好”：６}}

3 FMM和BMM

正向最大匹配算法(FMM)是一种基于词典的分词方法。对于每个句子从左到右扫描寻找词的最大匹配，在这里限定匹配词语最大长度为４。而BMM算法则是从句子后往前遍历，仅仅是方向相反。

FMM匹配过程如下：

 def fmm(self,sent):
        thedict = self.tree
        MAXLEN = self.MAXLEN
        sent = sent.strip()
        ans = []
        while len(sent):
            for i in range(min(len(sent), MAXLEN), 0, -1):
                tomatch = sent[:i]
                if self.dict_search(tomatch):
                    ans.append(tomatch)
                    sent = sent[i:]
                    break
                elif len(sent[:i]) == 1:
                    ans.append(tomatch)
                    sent = sent[i:]
        return ans