美文网首页
数据结构与算法:散列表

数据结构与算法:散列表

作者: yangfei02821 | 来源:发表于2022-03-28 04:30 被阅读0次
    定义

    是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表

    散列表的由来?

    1.散列表来源于数组,它借助散列函数对数组这种数据结构进行扩展,利用的是数组支持按照下标随机访问元素的特性。
    2.通过散列函数把元素的键值映射为下标,然后将数据存储在数组中对应下标的位置。

    如何设计一个散列表呢?

    1.设计一个合适的散列函数;
    2.定义装载因子阈值,并且设计动态扩容策略;
    3.选择合适的散列冲突解决方法。

    如何设计散列函数?

    总结3点设计散列函数的基本要求
    1.散列函数计算得到的散列值是一个非负整数。
    2.若key1=key2,则hash(key1)=hash(key2)
    3.若key1≠key2,则hash(key1)≠hash(key2)
    正是由于第3点要求,所以产生了几乎无法避免的散列冲突问题。

    设计原则

    1.要尽可能让散列后的值随机且均匀分布,这样会尽可能减少散列冲突,即便冲突之后,分配到每个槽内的数据也比较均匀。
    2.除此之外,散列函数的设计也不能太复杂,太复杂就会太耗时间,也会影响到散列表的性能。
    3.常见的散列函数设计方法:直接寻址法、平方取中法、折叠法、随机数法等。

    散列冲突的解决方法?

    1.常用的散列冲突解决方法有2类:
    开放寻址法(open addressing)
    链表法(chaining)

    2.开放寻址法

    ①核心思想:如果出现散列冲突,就重新探测一个空闲位置,将其插入。
    ②线性探测法(Linear Probing):
    插入数据:当我们往散列表中插入数据时,如果某个数据经过散列函数之后,存储的位置已经被占用了,我们就从当前位置开始,依次往后查找,看是否有空闲位置,直到找到为止。
    查找数据:我们通过散列函数求出要查找元素的键值对应的散列值,然后比较数组中下标为散列值的元素和要查找的元素是否相等,若相等,则说明就是我们要查找的元素;否则,就顺序往后依次查找。如果遍历到数组的空闲位置还未找到,就说明要查找的元素并没有在散列表中。
    删除数据:为了不让查找算法失效,可以将删除的元素特殊标记为deleted,当线性探测查找的时候,遇到标记为deleted的空间,并不是停下来,而是继续往下探测。
    结论:最坏时间复杂度为O(n)
    ③二次探测(Quadratic probing):线性探测每次探测的步长为1,即在数组中一个一个探测,而二次探测的步长变为原来的平方。
    ④双重散列(Double hashing):使用一组散列函数,直到找到空闲位置为止。
    ⑤线性探测法的性能描述:
    用“装载因子”来表示空位多少,公式:散列表装载因子=填入表中的个数/散列表的长度。
    装载因子越大,说明空闲位置越少,冲突越多,散列表的性能会下降。

    3.链表法(更常用)

    插入数据:当插入的时候,我们需要通过散列函数计算出对应的散列槽位,将其插入到对应的链表中即可,所以插入的时间复杂度为O(1)。
    查找或删除数据:当查找、删除一个元素时,通过散列函数计算对应的槽,然后遍历链表查找或删除。对于散列比较均匀的散列函数,链表的节点个数k=n/m,其中n表示散列表中数据的个数,m表示散列表中槽的个数,所以是时间复杂度为O(k)。

    开放寻址法和链表法适用场景

    1、大部分情况下,链表法更加普适。而且,我们还可以通过将链表法中的链表改造成其他动态查找数据结构,比如红黑树、跳表,来避免散列表时间复杂度退化成O(n),抵御散列冲突攻击。
    2、对于小规模数据、装载因子不高的散列表,比较适合用开放寻址法。

    思考

    1.Word文档中单词拼写检查功能是如何实现的?
    字符串占用内存大小为8字节,20万单词占用内存大小不超过20MB,所以用散列表存储20万英文词典单词,然后对每个编辑进文档的单词进行查找,若未找到,则提示拼写错误。
    2.假设我们有10万条URL访问日志,如何按照访问次数给URL排序?
    字符串占用内存大小为8字节,10万条URL访问日志占用内存不超过10MB,通过散列表统计url访问次数,然后用TreeMap存储散列表的元素值(作为key)和数组下标值(作为value)
    3.有两个字符串数组,每个数组大约有10万条字符串,如何快速找出两个数组中相同的字符串?(同理两个单链表判断是否相交也可以这么做)
    分别将2个数组的字符串通过散列函数映射到散列表,散列表中的元素值为次数。注意,先存储的数组中的相同元素值不进行次数累加。最后,统计散列表中元素值大于等于2的散列值对应的字符串就是两个数组中相同的字符串。

    相关文章

      网友评论

          本文标题:数据结构与算法:散列表

          本文链接:https://www.haomeiwen.com/subject/wctyjrtx.html