散列表

作者: zhengqiuliu | 来源:发表于2019-05-06 10:08 被阅读3次

散列表又名哈希表，这种数据结构也是在日常开发中使用非常频繁的数据结构。如Java使用HashMap，TreeMap，LinkedMap，ConcurrentHashMap 等类型都是散列表结构。

一，散列表为什么可以做到基于Key值随机访问？

散列表底层的数据结构依然是数组，如果没有数组就没有散列表。散列表的Key值相当于数组的下标，数组的下标=hash(key)，只能是大于等于0的整数。散列表的value值相当于数组下标对应的value数据。所以通过key可以直接获取其对应的value=arr[hash(key)]。

二，该如何构造散列函数，散列函数满足的基本要求？

1，散列函数得到的值应该是一个非负整数。

2，如果key1 = key2 那么 hash(key1) = hash(key2)。

3，如果key1 != key2 那么 hash(key1) != hash(key2)。

上面1和2都比较好理解，对于3要想找到一个不同的key对应散列值都不一样的散列函数，几乎是不可能的。像业界著名的MD5，SHA，CRC等哈希算法，也无法完全避免散列冲突。既然无法避免，那么如何通过其他途径解决。

三，如何解决hash冲突？

目前主要的方法有两种一种是开放寻址法，还一种是链表法。

开放寻址法又可以分为：线性探测，二次探测和双重探测。

线性探测：如果往散列表中插入数据时，如果某个数据经过散列函数之后，存储位置已经被占用，那我们从当前位置开始，依次向后寻找，第一次hash(key) + 1,第二次 hash(key) + 2。当哈希表中的数据越来越多，空闲位置越来越少时，出现冲突的可能就越大，最坏情况的时间复杂度=O(n)

二次探测：出现冲突，我们从当前位置开始，第一次hash(key) + 1^2, 第二次hash(key) + 2^2。

双重探测：出现冲突，我们从当前位置开始，使用一组散列函数，第一次hash1(key)，第二次hash2(key)。

开放寻址三种方法，当散列表中的空闲位置不多时，散列冲突的概率就会大大提高。一般情况我们会保证散列表中有一定比例的空闲空间，我们使用装载因子表示填入元素的多少。

装载因子 = 填入表中的元素 / 散列表长度

链表法：更加常用的解决散列冲突的办法。在散列表中，每个bucket都会对应一条链表，所有散列值相同的元素我们都放在相同bucket对应的链表中。

当插入一个元素存在冲突，或者删除一个元素时，其时间复杂度是多少呢？

链表的长度k = n/m，n表示散列中数据个数，m表示bucket的个数。所以插入和删除操作的时间复杂度就是O(k)。

网友评论

本文标题：散列表

本文链接：https://www.haomeiwen.com/subject/wpploqtx.html

散列表