美文网首页算法相关
3种方法:实现单词的压缩编码

3种方法:实现单词的压缩编码

作者: suoxd123 | 来源:发表于2020-03-28 10:49 被阅读0次

    题目

    NO. 820

    给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。

    例如,如果这个列表是 ["time", "me", "bell"],我们就可以将其表示为 S = "time#bell#" 和 indexes = [0, 2, 5]。

    对于每一个索引,我们可以通过从字符串 S 中索引的位置开始读取字符串,直到 "#" 结束,来恢复我们之前的单词列表。

    那么成功对给定单词列表进行编码的最小字符串长度是多少呢?

    示例:

    输入: words = ["time", "me", "bell"]
    输出: 10
    说明: S = "time#bell#" , indexes = [0, 2, 5] 。

    提示:

    1 <= words.length <= 2000
    1 <= words[i].length <= 7
    每个单词都是小写字母 。


    解法一(暴力法)

    思路:对列表中所有字符串进行两两对比,如果字符串A属于字符串B的尾巴,则删除字符串A,统计最后剩余的字符串的总长度,即为题目所求。

    1. 对列表中字符串按字符串长度,由大到小排序
    2. 依次对所有字符串进行两两比较,对于每个母串,需要增加一个#分隔符
    3. 统计所有母串长度,并累计分隔符个数
    • 时间复杂度:O(N2)
    • 空间复杂度:O(N)
    # author: suoxd123@126.com
    class Solution:
        def minimumLengthEncoding(self, words: List[str]) -> int:
            words = list(set(words)) #去重
            words.sort(key = lambda x:len(x), reverse=True)#按长度右大到小排序
            rstCnt, wordsCnt = 0, len(words)
            wordsLen = [len(x) for x in words]#获取长度,减少循环中多次获取
            for i in range(0,wordsCnt):
                if len(words[i]) == 0:#字符串已经被删除
                    continue
                rstCnt += wordsLen[i] + 1# 1是井号分隔符
                for j in range(i+1,wordsCnt):
                    if len(words[j]) == 0:
                        continue
                    if words[i][wordsLen[i] - wordsLen[j]:] == words[j]:#j是i的尾巴
                        words[j] = ''
            return rstCnt
    

    解法二(后缀清除)

    思路:对列表中的每个字符串,删除其后缀中包含的所有其它字符串,统计最后剩余的字符串长度

    1. 将列表转换为集合,可以去重
    2. 利用集合的discard函数,删除所有匹配到后缀的字符串集合
    3. 统计最后剩余字符串的长度,并增加井号分隔符个数
    • 时间复杂度:O(N len(N))
    • 空间复杂度:O(N)
    # author: suoxd123@126.com
    class Solution:
        def minimumLengthEncoding(self, words: List[str]) -> int:
            wordSet = set(words) #清除重复字符串,并返回set集合
            for word in words:
                for i in range(1,len(word)):
                    wordSet.discard(word[i:]) #删除当前字符串所有后缀相同的子串集合
            rstCnt = sum([len(x) + 1 for x in wordSet])
            return rstCnt
    

    解法三(字典树)

    思路:将所有字符串组成一个字典树,统计所有树枝对应字符串长度,由于是对字符串后缀匹配,所以将字符串反转后构建字典树。

    1. 首先对原始数据去重,并对字符串反转
    2. 构建字典树,并存储当前节点深度
    3. 遍历字典树,累计叶子节点深度值
    • 时间复杂度:O(N len(N))
    • 空间复杂度:O(N)
    # author: suoxd123@126.com
    class TrieNode:
        def __init__(self):
            self.children = {}
            self.dept = 0 # 叶子节点深度
    
        #构建字典树
        def addWord(self,word:str, idx: int):
            if idx >= len(word):
                return
            tmpNode =  self.children[word[idx]] if self.children.__contains__(word[idx]) else TrieNode()
            tmpNode.dept = idx + 1 
            tmpNode.addWord(word,idx+1) #递归构建
            self.children[word[idx]] = tmpNode 
    
        #统计树中节点个数
        def count(self):
            rst = 0 
            for k in self.children:
                rst += self.children[k].count() #递归累加        
            if not self.children :# 统计所有叶子节点的深度,1是井号分隔符
                return self.dept + 1
            return rst
    
    class Solution:
        def minimumLengthEncoding(self, words: List[str]) -> int:
            words = [word[::-1] for word in set(words)]#去重,反转
            trie = TrieNode()
            for word in words:
                trie.addWord(word,0)
            return trie.count()
    

    相关文章

      网友评论

        本文标题:3种方法:实现单词的压缩编码

        本文链接:https://www.haomeiwen.com/subject/yijjuhtx.html