字典树进行大数据次数的统计

作者: Tim在路上 | 来源:发表于2018-11-08 07:04 被阅读2次

提起字典我们首先想到的就是小时候使用的新华字典，字典的好处就是把大量的汉字，组织到了一本书中，安装一定的顺序方便了我们进行快速的查找。

1、给出n个单词和m个询问，每次询问一个单词，回答这个单词是否在单词表中出现过，以及出现的次数。

如果内存可以存储下，可以直接使用hashmap进行处理，key存储当前的单词，value存储出现的次数。时间复杂度为把单词放入的时间O(n)

2.给出n个单词和m个询问，每次询问一个前缀，回答询问是多少个单词的前缀。

可以把单词都按前缀拆分开，并全部都放到map中即可
abnormal a ab abn abno ... 都是其前缀

字典树

定义树节点

private int SIZE = 26;
private TrieNode root;// 字典树的根
class TrieNode // 字典树节点
    {
        private int num;// 有多少单词通过这个节点,即由根至该节点组成的字符串模式出现的次数
        private TrieNode[] son;// 所有的儿子节点
        private boolean isEnd;// 是不是最后一个节点
        private char val;// 节点的值
        //对每一个节点的初始化
        TrieNode()
        {
            num = 1;
            son = new TrieNode[SIZE];
            isEnd = false;
        }
    }

注意这里每一个孩子节点都有26个，正好表示26个字母，只要求每一个字母的代表的数字，就可以只有孩子节点的位置。

初始化字典树

Trie() // 初始化字典树
    {
        root = new TrieNode();
    }

创建字典树

 // 建立字典树
    public void insert(String str) // 在字典树中插入一个单词
    {
        if (str == null || str.length() == 0)
        {
            return;
        }
        TrieNode node = root;
        char[] letters = str.toCharArray();//将目标单词转换为字符数组
        for (int i = 0, len = str.length(); i < len; i++)
        {
            int pos = letters[i] - 'a';
            if (node.son[pos] == null)  //如果当前节点的儿子节点中没有该字符，则构建一个TrieNode并复值该字符
            {
                node.son[pos] = new TrieNode();
                node.son[pos].val = letters[i];
            }
            else   //如果已经存在，则将由根至该儿子节点组成的字符串模式出现的次数+1
            {
                node.son[pos].num++;
            }
            //孩子节点变为node节点
            node = node.son[pos];
        }
        node.isEnd = true;
    }

计算单词前缀的数量
前缀的数量就是当前节点前一个节点上所记录的数据的量

    public int countPrefix(String prefix)
    {
        if(prefix==null||prefix.length()==0)
        {
            return-1;
        }
        TrieNode node=root;
        char[]letters=prefix.toCharArray();
        for(int i=0,len=prefix.length(); i<len; i++)
        {
            int pos=letters[i]-'a';
            if(node.son[pos]==null)
            {
                return 0;
            }
            else
            {
                node=node.son[pos];
            }
        }
        return node.num;
    }

打印指定前缀的单词

    public String hasPrefix(String prefix)
    {
        if (prefix == null || prefix.length() == 0)
        {
            return null;
        }
        TrieNode node = root;
        char[] letters = prefix.toCharArray();
        for (int i = 0, len = prefix.length(); i < len; i++)
        {
            int pos = letters[i] - 'a';
            if (node.son[pos] == null)
            {
                return null;
            }
            else
            {
                node = node.son[pos];
            }
        }
        preTraverse(node, prefix);
        return null;
    }
// 遍历经过此节点的单词.
    public void preTraverse(TrieNode node, String prefix)
    {
        if (!node.isEnd)
        {
            for (TrieNode child : node.son)
            {
                if (child != null)
                {
                    preTraverse(child, prefix + child.val);
                }
            }
            return;
        }
        System.out.println(prefix);
    }

在字典树中查找一个完全匹配的单词.

   public boolean has(String str)
   {
       if(str==null||str.length()==0)
       {
           return false;
       }
       TrieNode node=root;
       char[]letters=str.toCharArray();
       for(int i=0,len=str.length(); i<len; i++)
       {
           int pos=letters[i]-'a';
           if(node.son[pos]!=null)
           {
               node=node.son[pos];
           }
           else
           {
               return false;
           }
       }
       //走到这一步，表明可能完全匹配，可能部分匹配，如果最后一个字符节点为末端节点，则是完全匹配，否则是部分匹配
       return node.isEnd;
   }

   // 前序遍历字典树.
   public void preTraverse(TrieNode node)
   {
       if(node!=null)
       {
           System.out.print(node.val+"-");
           for(TrieNode child:node.son)
           {
               preTraverse(child);
           }
       }
   }

 public TrieNode getRoot()
    {
        return this.root;
    }
    public static void main(String[]args) throws IOException
    {
        Trie tree=new Trie();
        String[] dictionaryData= {"hello","student","computer","sorry","acm","people","experienced","who","reminds","everyday","almost"};
        //构建字典
        for(String str:dictionaryData)
        {
            tree.insert(str);
        }
        String filePath="C:\\Users\\Administrator\\Desktop\\sourceFile.txt";
        File file=new File(filePath);
        if(file.isFile() && file.exists())
        {
            InputStreamReader read = new InputStreamReader(new FileInputStream(file));
            BufferedReader bufferedReader = new BufferedReader(read);
            String lineTxt = null;
            Map<String,Integer> countMap=new HashMap<String,Integer>();
            while((lineTxt = bufferedReader.readLine())!= null)
            {
                if(tree.has(lineTxt))
                {
                    if(countMap.containsKey(lineTxt))
                    {
                        countMap.put(lineTxt, countMap.get(lineTxt)+1);
                    }
                    else
                    {
                        countMap.put(lineTxt, 1);
                    }
                }
                else
                {
                    System.out.println(lineTxt+"不在字典中！");
                }
            }
            for(String s:countMap.keySet())
            {
                System.out.println(s+"出现的次数"+countMap.get(s));
            }
            read.close();
        }
    }

}

字典树进行大数据次数的统计

1、给出n个单词和m个询问，每次询问一个单词，回答这个单词是否在单词表中出现过，以及出现的次数。

2.给出n个单词和m个询问，每次询问一个前缀，回答询问是多少个单词的前缀。

字典树

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

玩转大数据

算法与实战

@IT·大数据

大数据

大数据爬虫Python AI Sql

大数据&云计算

字典树进行大数据次数的统计

1、给出n个单词和m个询问，每次询问一个单词，回答这个单词是否在单词表中出现过，以及出现的次数。

2.给出n个单词和m个询问，每次询问一个前缀，回答询问是多少个单词的前缀。

字典树

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

玩转大数据

算法与实战

@IT·大数据

大数据

大数据 爬虫Python AI Sql

大数据&云计算

大数据爬虫Python AI Sql