Trie树

作者: wayyyy | 来源:发表于2017-10-21 19:17 被阅读0次

Trie树,即字典树,又称单词查找树。经常应用于字符串的统计与排序,经常被搜索引擎系统用于文本词频统计。

核心思想是:空间换时间,利用字符串的公共前缀,来降低查询时间的开销以达到提高效率的目的

一般有以下3个性质:

  • 根节点不包含字符,除根节点外每一个节点都只包含一个字符。
  • 从根节点到某一节点,路劲上经过的字符连接起来,为该节点对应的字符串。
  • 每个节点的所有子节点包含的字符都不相同。
Trie树.png
/* 结点 */
const int ALPHABET = 26;   //26个小写字母
struct TrieNode{
    size_t n;
    TrieNode* childrens[ALPHABET];  // 指针数组

    TrieNode(size_t n_ = 0): n(n_) {
        for (int i = 0; i != ALPHABET; i++)
            childrens[i] = nullptr;
    }
};

/* Trie树 */
class Trie
{
    ......
    private:
        TrieNode* root;    // 根节点
        size_t count;      // 记录单词的数量 
};
查找

在单词查找树中,查找分为3类情况:

  • 键的尾字符所对应的结点中的频率非0。(命中查找)
  • 键的尾字符所对应的结点中的频率为0。(未命中查找)
  • 查找结束于一条空的链接。 (未命中查找)
Trie查找.png
size_t Trie::find(const std::string &word) const {
    if (root == nullptr)
        return 0;
    
    TrieNodePtr cur = root;
    for (const auto& ch : word) {
        if ((cur->childrens)[ch-'a'] == nullptr)
            return 0;
        cur = (cur->childrens)[ch-'a'];
    }

    return cur->n;
}
插入

在插入之前要沿着进行一次查找,此时有可能出现2种情况:

  • 在到达键的尾字符之前就遇到了空的链接(没有"路径"),则要沿着新建节点建立"路径"
  • 在遇到空连接之前就到达了键的尾字符
Trie插入.png
void Trie::insert(const std::string &word) {
    if (word.empty())
        return;

    if (root == nullptr)
        root = new TrieNode();

    TrieNodePtr cur = root;
    for (const auto& ch : word) {
        if ((cur->childrens)[ch-'a'] == nullptr)
            (cur->childrens)[ch - 'a'] = new TrieNode();
        cur = (cur->childrens)[ch-'a'];
    }

    count++;
    cur->n++;
}
删除

从一棵单词查找树中删去一个键,第一步是找到该键对应的节点。

  • 如果该节点含有一个非空链接,那么就不需要其他操作。
  • 如果该节点的所有链接都为空,那么需要从单词查找树中删除该节点。如果删去该节点使该节点的父节点的链接也全部为空且该父节点不是单词,那么也需要删除它的父节点,并以此类推。
Trie删除.png
void Trie::remove(const std::string &word) {
    if (word.empty())
        return;
    root = remove(root, word, 0);
}

typename Trie::TrieNodePtr Trie::remove(TrieNodePtr x, const std::string& word, size_t len){
    if (x == nullptr)
        return nullptr;
    if (len == word.size()){
        if (x->n > 0) {
            x->n = 0;
            count--;
        }
    } else
        (x->childrens)[word[len]-'a'] = remove((x->childrens)[word[len]-'a'], word, len+1);

    if (x->n > 0)
        return x;

    for(int i = 0; i != ALPHABET; i++)
        if ((x->childrens)[i] != nullptr)
            return x;

    delete x;
    return nullptr;
}
遍历
Trie遍历.png
void Trie::collect(TrieNodePtr cur, std::string& tmp, std::vector<std::string> &result){
    if (cur->n > 0)
        result.push_back(tmp);

    for (int i = 0; i != ALPHABET; i++) {
        if ((cur->childrens)[i] != nullptr) {
            tmp.append(1, static_cast<char>('a' + i));
            collect(cur->childrens[i], tmp, result);
            tmp.erase(tmp.end()-1);
        }
    }
}

性能分析

  • 在单词查找树中查找1个word或是插入1个word时,时间复杂度为O(word.size())

  • 字母表大小为R,在一棵由N各随机键构成的的单词查找树中,未命中的查找平均所需的结点数量为~logR(N)(查找未命中的成本与键的长度无关)。

    
    
  • 一棵单词查找树中的链接总数在RN到RNw之间,w为单词的平均长度。

    
    

应用

  • 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
  • 1000万字符串,其中有些是重复的,需要把重复的全部去掉,保留没有重复的字符串。请怎么设计和实现?
  • 一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。
  • 寻找热门查询:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复读比较高,虽然总数是1千万,但是如果去除重复和,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。
    (1) 请描述你解决这个问题的思路;
    (2) 请给出主要的处理流程,算法,以及算法的复杂度。

相关文章

  • trie树

    文章内容来自 Trie树:应用于统计和排序Trie树 trie树又称:字典树、单词查找树、前缀树等,总之是一种树状...

  • 树结构之Trie

    1. 什么是trie树 1.Trie树 (特例结构树)Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈...

  • 实现 Trie

    数据结构之Trie树Trie树:应用于统计和排序

  • Trie树

    一、定义 Trie树,又称为单词查找树,是一种树形结构(Trie一词源于单词Retrieval-取出)。Trie树...

  • leetcode——字典树(Trie树)的实现

    leetcode——实现Trie(前缀树) 题目 实现一个 Trie (前缀树),包含 insert, searc...

  • 算法笔记 - Trie 树

    Trie树是一种非常常见的算法 Trie树的主要用途是快速地匹配字符串 Tire树可以记录数值 Trie树的实现成...

  • 以太坊详解 之 Merkle Patricia Tree

    基础知识 Trie树 Trie是一种搜索树,又称字典树(digital tree)和前缀树(prefix tree...

  • 数据结构与算法笔记day21:Trie树|AC自动机

    1Trie树 这节课学习了一种特殊的树,Trie树。Trie树是一种解决字符串快速匹配问题的数据结构。如果用来...

  • Leetcode 208 实现 Trie (前缀树)

    实现 Trie (前缀树) 题目 实现一个 Trie (前缀树),包含 insert, search, 和 sta...

  • 208-实现Trie(前缀树)

    实现Trie(前缀树) 题目 实现一个 Trie (前缀树),包含 insert, search, 和 start...

网友评论

      本文标题:Trie树

      本文链接:https://www.haomeiwen.com/subject/lhlmuxtx.html