美文网首页
第十九节-散列表(中)

第十九节-散列表(中)

作者: wean_a23e | 来源:发表于2018-11-09 22:58 被阅读10次

    如何设计散列函数

    散列函数的设计的好坏,决定了散列冲突的概率大小,也直接决定了散列表的性能。

    好的散列函数,应该有以下特点

    • 散列函数的设计不能太过复杂。

    过于复杂的散列函数,会消耗过多的计算时间,也就间接影响到散列表的性能。

    • 散列函数生成的值应该尽可能随机且均匀分布

    这样才能避免或者最小化散列冲突。即便是出现冲突,散列到每个槽的数据也会分布得比较均匀,不会出现某个槽内的数据特别多的情况。

    • 实际工作中还需要综合考虑各种因素。

    这些因素有关键字的长度、特点、分布、还有散列表的大小等。

    常用、简单的散列函数设计方法

    • 数据分析法

    通过分析传入散列函数的 key 的特征规律,设计相应的专用散列函数。比如处理使用散列函数处理手机号码,考虑到手机号码前几位重复性很大,后几位比较随机,我们就可以取手机号码后几位作为散列值。

    • 进位相加

    比如对字符串进行散列,可以将字符串中每个字母的 ASCII 值进行“进位”相加,然后再跟散列表的大小求余、取模,作为散列值。比如,对因为单词 nice 进行散列:
    hash("nice")=(("n" - "a") * 26*26*26 + ("i" - "a")*26*26 + ("c" - "a")*26+ ("e"-"a")) / 78978

    • 直接寻址法、平方取中法、折叠法、随机数法等

    装载因子过大了怎么办

    装载因子的定义为 散列表的装载因子 = 填入表中的元素个数 / 散列表的长度,根据这个公式,可以推出,装载因子越大且散列表的长度不变,则散列表中的元素越多,空闲位置越少,散列冲突的概率会变大。不仅插入数据的过程要多次寻址或者拉很长的链,查找的过程也会因此变得很慢。

    对没有频繁插入和删除的静态数据集合来说,我们很容易根据数据的特点、分布等,设计出完美的、极少冲突的散列函数。

    对于动态散列表来说,数据集合频繁变动,负载因子可能随着时间不断变大。这时就要动态扩容。

    动态扩容的过程,简单来说,就是申请一个新的散列表,然后把原来的数据搬运到新的散列表中,但是不是简单的搬运,而是每个元素都要根据新的散列表重新存储位置。

    这个过程,运用平摊分析法,每个插入操作的时间复杂度仍是 O(1)。

    扩展一下,当散列表的装载因子小于某个阈值时,我们也可以依样画葫芦,进行动态缩容。

    如何避免低效扩容

    大部分情况下,动态扩容的散列表插入一个数据都很快,但在特殊情况下,装载因子达到扩容的阈值,此时,再插入数据,就会触发漫长的扩容过程,在特定的场合,这样漫长的等待过程是不可接受的。

    举个直观的例子,假设原来散列表有 1GB 的数据,现在进行扩容,就需要对这 1GB 的数据进行再散列,这个扩容的时间,看起来就很耗时。

    在这种情况下,“一次性”扩容的机制就不适合了。此时,我们可以将扩容操作穿插在插入操作的过程中,分批完成。当装载因子达到扩容的阈值后,我们只申请新空间,但不立即将老的数据全部搬移到新的散列表中。

    当有新的数据插入时,我们就将新数据插入新散列表中,同时从旧散列表中拿出一个数据放入到新的散列表。每次插入一个数据到散列表,我们都重复以上的过程。经过多次操作后,老的散列表中的数据就一点一点全部搬移到新的散列表中了。没有了一次性全部搬移,插入操作就不会出现一次很慢的情况了。

    这期间的插入操作,可以先从新的散列表中查,查不到再去旧的散列表中查。甚至,可以在每次查询操作中也穿插一条数据搬移。

    如何选择散列冲突的解决方法

    上节讲了两种主要的散列冲突的解决办法,开放寻址法和链表法。这两种冲突的解决办法在实际的软件开发中很常用。比如, Java 中的 LinkedHashMap 就采用了链表法解决冲突,ThreadLocalMap 是通过线性探测的开放寻址法来解决冲突。

    1. 开放寻址法

    这种实现方式,散列表中的数据都存放在数组中,可以有效利用 CPU 的缓存加快查询速度。序列化过程比较简单。链表法包含指针,序列化就比较麻烦。

    缺点是,删除数据比较麻烦,需要使用特殊标记。所有数据都存在一个数组中,冲突的代价很大。

    总结,数据量小、装载因子小,适合开放寻址法。这也是 ThreadLocalMap 采用开放寻址法解决散列冲突的原因。

    1. 链表法

    链表法的优点是内存利用率高。链表节点可以在需要的时候再创建,并不需要想开放寻址法那样实现申请好。

    链表法对冲突的容忍性更高,装在因子可以大于 1,甚至再散列冲突很平均的情况下,即使装载因子达到 10,查找效率也不会大幅度衰退。更进一步,对链表法进行改造,使用红黑树或者跳表解决散列冲突,那即使是极端情况下,所有数据都存放在一个槽内,查询时间也是衰退到 O(logn) 的数量级。

    缺点是,需要维持链表的指针引用,若是存放小对象,那么指针占用的内存就会对比起来挺多,而且链表法也容易造成内存碎片。

    总结起来就是,基于链表法的散列冲突方法适合存储大对象、大数据量的散列表,而且比起开放寻址法,它更加灵活,支持更多的优化策略。

    工业级散列表举例分析

    分析 HashMap

    1. 初始大小

    HashMap 的初始大小是 16,当然这个默认值是可以设置的,如果事先知道大概的数据量多少,就可以依此设置合适的初始容量。

    1. 装载因子和动态扩容

    最大装载因子默认是 0.75。当 HashMap 中元素个数超过 0.75 * capacity 时,就会启动扩容,每次扩容后的容量是原来的两倍。

    关于 0.75 这个数字的由来,可以查看这篇文章 https://blog.csdn.net/reliveIT/article/details/82960063

    1. 散列冲突解决办法

    HashMap 底层采用链表法解决冲突。在 JDK 1.8 之前,冲突的元素插入链表首端,在 JDK 1.8 之后,插入尾端。

    另外,在 JDK 1.8 之后,当链表长度超过 8 时,会启动树化,当树中元素少于 6 个时,会退化回链表。

    1. 散列函数

    HashMap 的二次哈希,使用的是除留余数法。

    因为 A % B = A & (B - 1),所以,(h ^ (h >>> 16)) & (capitity -1) = (h ^ (h >>> 16)) % capitity。

    工业级散列表应该具有的特征

    • 支持快速的查询、插入、删除操作
    • 内存占用合理,不能浪费过多内存
    • 性能稳定,极端情况下也不会性能退化到无法接受

    设计这样的散列表应该从三个方面考虑

    • 设计合适的散列函数
    • 定义合适的装载因子
    • 合适的动态扩容策略
    • 合适的散列冲突解决办法

    相关文章

      网友评论

          本文标题:第十九节-散列表(中)

          本文链接:https://www.haomeiwen.com/subject/ciaoxqtx.html