字典树(Trie)

作者: 雨落八千里 | 来源:发表于2019-08-04 21:48 被阅读0次

数据结构与算法（十一）Trie字典树
【数据结构 & 算法】—— 高级数据结构
LeetCode 208.实现Trie(字典树) - JavaS
数据结构之Trie字典树
trie树
数据结构必知 --- 前缀树
以太坊详解之 Merkle Patricia Tree
树结构之Trie
字典树
数据结构——Trie

字典树，是一种树形结构，是一种哈希树的变种。经常被搜索引擎系统用于文本词频统计。
对cat，cash，app，apple，aply，ok 建一颗字典树，建成之后如下图所示

思路

从图中可以直观看出，从左到右扫这个单词，如果字母在相应根节点下没有出现过，就插入这个字母；否则沿着字典树往下走，看单词的下一个字母。
这就产生一个问题：往哪儿插？计算机不会自己选择位置插，我们需要给它指定一个位置，那就需要给每个字母编号。
我们设数组 $trie[i][j]=k$ ，表示编号为 $i$ 的节点的第 $j$ 个孩子是编号为 $k$ 的节点。
什么意思呢？
这里有2种编号，一种是 $i，k$ 表示节点的位置编号，这是相对整棵树而言的；另一种是 $j$ ，表示节点 $i$ 的第 $j$ 的孩子，这是相对节点 $i$ 而言的。
不理解？看图
还是单词cat，cash，app，apple，aply，ok
我们就按输入顺序对其编第一种号，红色表示编号结果。因为先输入的cat，所以c，a，t分别是1,2,3，然后输入的是cash，因为c，a是公共前缀，所以从s开始编，s是4，以此类推。
注意这里相同字母的编号可能不同(因为它们的父节点不同）

第二种编号，相对节点的编号，紫色表示编号结果。
因为每个节点最多有26个子节点，我们可以按他们的字典序从0——25编号，也就是他们的ASCLL码-a的ASCLL码。
注意这里相同字母的编号相同（减去‘a'肯定一样啊）

回到数组 $trie[i][j]=k$ 。数组 $trie[i][j]=k$ ，表示编号为 $i$ 的节点的第 $j$ 个孩子是编号为 $k$ 的节点。
那么第二种编号即为 $j$ ，第一种编号即为 $i，k$
字母编号之所以从节点1开始，是因为节点0的第i个孩子是新单词的开始

构建字典树

void init( )
{
    pos=1;//初始化，编号为1开始
    memset(tree,0,sizeof(tree));//初始化
    memset(num,0,sizeof(num));
    memset(vis,0,sizeof(vis));
}
void insert(string s)
{
    int len=s.size( );
    //int len=strlen(s);
    int root=0;//新单词root为0，表明是一个新单词，现在知道图中编号要从1开始了吧！！
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            tree[root][x]=pos;
            pos++;
        }
        root=tree[root][x];
        num[root]++;//经过这个节点的单词加一
    }
   vis[root]=1;//以这个结尾的是一个完整的单词
}

查询

1. 查询在字符串集合中是否有以字符串s为前缀的字符串

int find(char *s)//查找是否有以字符串s为前缀的单词
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            return 0;
        }
        root=tree[root][x];
    }
    return 1;
}

2. 查询在字符串集合中有多少个以字符串s为前缀的字符串

int findsum(char *s)//查找以字符串s为前缀的单词有多少个
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            return 0;
        }
        root=tree[root][x];
    }
    return num[root];
}

3. 查找并输出每个字符串在字符串集合里面唯一确定的最短前缀（前缀不能有歧义）
Shortest Prefixes

void findminpre(string s)//查找字符串s唯一可以确定的最短前缀
{
    //int len=strlen(s);
    int len=s.size( );
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        root=tree[root][x];
        printf("%c",s[i]);
        if(num[root]==1)
        {
            return ;
        }
    }
}

4. 判断字符串集合中的字符串否是字符串集合其他字符串的前缀
Phone List

bool judgepremix(char *s)//判断字符串是不是字符串集某个字符串的前缀
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        root=tree[root][x];
        if(num[root]==1)
        {
            return 1;//不是某个字符串的前缀
        }
    }
    return 0;
}

5.判断字符串集合中的字符串是否是字符串集合其他两个字符合并的
Hat’s Words

bool findprefix(char *s)//判断字符串是否由串集里的两个字符串构成
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            return 0;
        }
        root=tree[root][x];
    }
    return vis[root];
}

完整代码

#include<iostream>
#include<map>
#include<cstring>
#include<cstdio>
using namespace std;
const int M=10010;
int tree[M][26];
int pos;
int num[M];
int vis[M];
map<int,string>mp;
void init( )
{
    pos=1;
    memset(tree,0,sizeof(tree));
    memset(num,0,sizeof(num));
    memset(vis,0,sizeof(vis));
}
void insert(string s)
{
    int len=s.size( );
    //int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            tree[root][x]=pos;
            pos++;
        }
        root=tree[root][x];
        num[root]++;
    }
   vis[root]=1;//以这个结尾的是一个完整的单词
}
int findsum(char *s)//查找以字符串s为前缀的单词有多少个
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            return 0;
        }
        root=tree[root][x];
    }
    return num[root];
}
int find(char *s)//查找是否有以字符串s为前缀的单词
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            return 0;
        }
        root=tree[root][x];
    }
    return 1;
}
void findminpre(string s)//查找字符串s唯一可以确定的最短前缀
{
    //int len=strlen(s);
    int len=s.size( );
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        root=tree[root][x];
        printf("%c",s[i]);
        if(num[root]==1)
        {
            return ;
        }
    }
}
bool judgepremix(char *s)//判断字符串是不是字符串集某个字符串的前缀
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        root=tree[root][x];
        if(num[root]==1)
        {
            return 1;//不是某个字符串的前缀
        }
    }
    return 0;
}

bool findprefix(char *s)//判断字符串是否由串集里的两个字符串构成
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            return 0;
        }
        root=tree[root][x];
    }
    return vis[root];
}
int main( )
{
    //char s[15];
    string s;
    init( );
    int cnt=0;
    while(cin>>s)
    {
        insert(s);
        mp[++cnt]=s;
    }
    for(int i=1;i<=cnt;i++)
    {
        cout<<mp[i]<<" ";
        findminpre(mp[i]);
        cout<<endl;
    }
    return 0;

}

数据结构与算法（十一）Trie字典树
本文主要包括以下内容： Trie字典树的基本概念 Trie字典树的基本操作插入查找前缀查询删除基于链表的Trie...
【数据结构 & 算法】—— 高级数据结构
思维导图 1/3：trie树（字典树）的基础知识 trie树，又称字典树或前缀树，是一种有序的、用于统计、排序和存...
LeetCode 208.实现Trie(字典树) - JavaS
?Blog ：《LeetCode 208.实现Trie(字典树) - JavaScript》实现一个 Trie ...
数据结构之Trie字典树
什么是Trie字典树 Trie 树，也叫“字典树”或“前缀树”。顾名思义，它是一个树形结构。但与二分搜索树、红黑树...
trie树
文章内容来自 Trie树：应用于统计和排序Trie树 trie树又称：字典树、单词查找树、前缀树等，总之是一种树状...
数据结构必知 --- 前缀树
写在前什么是字典树？Trie树，即字典树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。Trie 一...
以太坊详解之 Merkle Patricia Tree
基础知识 Trie树 Trie是一种搜索树，又称字典树（digital tree）和前缀树（prefix tree...
树结构之Trie
1. 什么是trie树 1.Trie树（特例结构树）Trie树，又称单词查找树、字典树，是一种树形结构，是一种哈...
字典树
字典树 Trie 在计算机科学中，Trie 又称前缀树或字典树，是一种有序树，用于保存关联数组，其中的键通常是字...
数据结构——Trie
一、Trie 字典树在计算机科学中，trie，又称前缀树或字典树，是一种有序树，用于保存关联数组，其中的键通常是...