美文网首页算法相关
3种方法:实现单词的压缩编码

3种方法:实现单词的压缩编码

作者: suoxd123 | 来源:发表于2020-03-28 10:49 被阅读0次

题目

NO. 820

给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。

例如,如果这个列表是 ["time", "me", "bell"],我们就可以将其表示为 S = "time#bell#" 和 indexes = [0, 2, 5]。

对于每一个索引,我们可以通过从字符串 S 中索引的位置开始读取字符串,直到 "#" 结束,来恢复我们之前的单词列表。

那么成功对给定单词列表进行编码的最小字符串长度是多少呢?

示例:

输入: words = ["time", "me", "bell"]
输出: 10
说明: S = "time#bell#" , indexes = [0, 2, 5] 。

提示:

1 <= words.length <= 2000
1 <= words[i].length <= 7
每个单词都是小写字母 。


解法一(暴力法)

思路:对列表中所有字符串进行两两对比,如果字符串A属于字符串B的尾巴,则删除字符串A,统计最后剩余的字符串的总长度,即为题目所求。

  1. 对列表中字符串按字符串长度,由大到小排序
  2. 依次对所有字符串进行两两比较,对于每个母串,需要增加一个#分隔符
  3. 统计所有母串长度,并累计分隔符个数
  • 时间复杂度:O(N2)
  • 空间复杂度:O(N)
# author: suoxd123@126.com
class Solution:
    def minimumLengthEncoding(self, words: List[str]) -> int:
        words = list(set(words)) #去重
        words.sort(key = lambda x:len(x), reverse=True)#按长度右大到小排序
        rstCnt, wordsCnt = 0, len(words)
        wordsLen = [len(x) for x in words]#获取长度,减少循环中多次获取
        for i in range(0,wordsCnt):
            if len(words[i]) == 0:#字符串已经被删除
                continue
            rstCnt += wordsLen[i] + 1# 1是井号分隔符
            for j in range(i+1,wordsCnt):
                if len(words[j]) == 0:
                    continue
                if words[i][wordsLen[i] - wordsLen[j]:] == words[j]:#j是i的尾巴
                    words[j] = ''
        return rstCnt

解法二(后缀清除)

思路:对列表中的每个字符串,删除其后缀中包含的所有其它字符串,统计最后剩余的字符串长度

  1. 将列表转换为集合,可以去重
  2. 利用集合的discard函数,删除所有匹配到后缀的字符串集合
  3. 统计最后剩余字符串的长度,并增加井号分隔符个数
  • 时间复杂度:O(N len(N))
  • 空间复杂度:O(N)
# author: suoxd123@126.com
class Solution:
    def minimumLengthEncoding(self, words: List[str]) -> int:
        wordSet = set(words) #清除重复字符串,并返回set集合
        for word in words:
            for i in range(1,len(word)):
                wordSet.discard(word[i:]) #删除当前字符串所有后缀相同的子串集合
        rstCnt = sum([len(x) + 1 for x in wordSet])
        return rstCnt

解法三(字典树)

思路:将所有字符串组成一个字典树,统计所有树枝对应字符串长度,由于是对字符串后缀匹配,所以将字符串反转后构建字典树。

  1. 首先对原始数据去重,并对字符串反转
  2. 构建字典树,并存储当前节点深度
  3. 遍历字典树,累计叶子节点深度值
  • 时间复杂度:O(N len(N))
  • 空间复杂度:O(N)
# author: suoxd123@126.com
class TrieNode:
    def __init__(self):
        self.children = {}
        self.dept = 0 # 叶子节点深度

    #构建字典树
    def addWord(self,word:str, idx: int):
        if idx >= len(word):
            return
        tmpNode =  self.children[word[idx]] if self.children.__contains__(word[idx]) else TrieNode()
        tmpNode.dept = idx + 1 
        tmpNode.addWord(word,idx+1) #递归构建
        self.children[word[idx]] = tmpNode 

    #统计树中节点个数
    def count(self):
        rst = 0 
        for k in self.children:
            rst += self.children[k].count() #递归累加        
        if not self.children :# 统计所有叶子节点的深度,1是井号分隔符
            return self.dept + 1
        return rst

class Solution:
    def minimumLengthEncoding(self, words: List[str]) -> int:
        words = [word[::-1] for word in set(words)]#去重,反转
        trie = TrieNode()
        for word in words:
            trie.addWord(word,0)
        return trie.count()

相关文章

  • 3种方法:实现单词的压缩编码

    题目 NO. 820 给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。 例如,如果这...

  • 特征工程

    一、目录1、onehot编码(1)单词级ont-hot编码(2)字符级ont-hot编码(3)keras实现单词级...

  • 基于哈夫曼算法的压缩解压缩程序--python实现

    一.实现效果 【压缩】 【解压缩】 【压缩效率】 二.哈夫曼算法 哈夫曼又称霍夫曼编码,是一种编码方式,哈夫曼编码...

  • 8.6 有序集合对象

    有序集合对象的编码可以是ziplist或者skiplistziplist编码的压缩列表对象使用压缩列表作为底层实现...

  • 单词的压缩编码

    给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。 例如,如果这个列表是 ["time...

  • 单词的压缩编码

    题目: 题目的理解: 将重复的单词压缩,也就是先将长度长的单词拼接成字符串,然后短的字符串来判断是否已经有存在的,...

  • 单词的压缩编码

    附上一道shell编程,关于识别有效电话号码。解题思路很简单,使用正则即可。 题目描述:给定一个包含电话号码列表(...

  • 单词的压缩编码-13.字典树

    820. 单词的压缩编码[https://leetcode.cn/problems/short-encoding-...

  • 《算法》笔记 17 - 数据压缩

    读写二进制数据 基因组数据的压缩 游程编码位图 霍夫曼压缩前缀码和单词查找树构造前缀码的单词查找树写入和读取单词查...

  • 视频编码(H264概述)

    视频压缩编码的目标 1)保证压缩比例2)保证恢复的质量3)易实现,低成本,可靠性 压缩的出发点(可行性) 1)时间...

网友评论

    本文标题:3种方法:实现单词的压缩编码

    本文链接:https://www.haomeiwen.com/subject/yijjuhtx.html