美文网首页
算法之散列表

算法之散列表

作者: 非问 | 来源:发表于2018-07-16 15:26 被阅读0次

    散列表——最有用的基本数据结构之一,用途广泛。

    散列表的内部机制:实现、冲突和散列函数。

    假设你在一家杂货店上班。有顾客来买东西时,你得在一个本子中查找价格。如果本子的内容不是按字母顺序排列的,你可能为查找苹果 (apple)的价格而浏览每一行,这需要很长的时间。

    散列函数

    无论你给它什么数据,它都还你一个数字。散列函数将输入映射到数字

    实散列函数必须满足一些要求。它必须是一致的。
    最理想的情况是,将不同的输入映射到不同的数字。

    散列表 (hash table)的数据结构。种包含额外逻辑的数据结构。

    数组和链表都被直接映射到内存,但散列表更复杂,它使用散列函数来确定元素的存储位置。

    散列表由组成。

    将散列表用于查找

    假设你要创建一个类似这样的电话簿,将姓名映射到电话号码。该电话簿需要提供如下功能。添加联系人及其电话号码。通过输入联系人来获悉其电话号码。

    phone_book = dict()
    phone_book["jenny"] = 8675309
    phone_book["emergency"] = 911
    print phone_book["jenny"]
    #8675309  
    

    如果要求你使用数组来创建电话簿,你将如何做呢?

    散列表被用于大海捞针式的查找。访问网站时,计算机必须将adit.io转换为IP地址。无论你访问哪个网站,其网址都必须转换为IP地址。这不是将网址映射到IP地址吗?好像非常适合使用散列表啰!这个过程被称为DNS解析 (DNS resolution),散列表是提供这种功能的方式之一。

    防止重复

    假设你负责管理一个投票站。显然,每人只能投一票,但如何避免重复投票呢?有人来投票时,你询问他的全名,并将其与已投票者名单进行比对。如果名字在名单中,就说明这个人投过票了,因此将他拒之门外!

    voted = {}
    def check_voter(name):  
      if voted.get(name):    
        print "kick them out!"  
      else:    
        voted[name] = True    
        print "let them vote!"
    

    将散列表用作缓存

    假设你访问网站facebook.com。
    (1) 你向Facebook的服务器发出请求。
    (2) 服务器做些处理,生成一个网页并将其发送给你。
    (3) 你获得一个网页。

    缓存的工作原理:网站将数据记住,而不再重新计算。
    缓存是一种常用的加速方式,所有大型网站都使用缓存,而缓存的数据则存储在散列表中!

    当你访问Facebook的页面时,它首先检查散列表中是否存储了该页面。

    cache = {}
    def get_page(url):  
      if cache.get(url):    
        return cache[url]  # 返回缓存的数据  
      else:    
        data = get_data_from_server(url)    
        cache[url] = data  # 先将数据保存到缓存中    
        return data
    

    冲突

    给两个键分配的位置相同,这种情况被称为冲突(collision):

    如果两个键映射到了同一个位置,就在这个位置存储一个链表。

    散列函数将所有的键都映射到一个位置,而最理想的情况是,散列函数将键均匀地映射到散列表的不同位置。

    着无论散列表包含一个元素还是10亿个元素,从其中获取数据所需的时间都相同。

    而要避免冲突,需要有:

    • 较低的填装因子;
    • 良好的散列函数。

    填装因子

    散列表的填装因子很容易计算。散列表使用数组来存储数据,因此你需要计算数组中被占用的位置数。
    填装因子度量的是散列表中有多少位置是空的。

    填装因子大于1意味着商品数量超过了数组的位置数。一旦填装因子开始增大,你就需要在散列表中添加位置,这被称为调整长度

    填装因子越低,发生冲突的可能性越小,散列表的性能越高。

    一个不错的经验规则是:一旦填装因子大于0.7,就调整散列表的长度。


    良好的散列函数

    良好的散列函数让数组中的值呈均匀分布。糟糕的散列函数让值扎堆,导致大量的冲突。

    什么样的散列函数是良好的呢?你根本不用操心——天塌下来有高个子顶着。

    相关文章

      网友评论

          本文标题:算法之散列表

          本文链接:https://www.haomeiwen.com/subject/gfrbpftx.html