HashMap解析

作者: Aisen | 来源:发表于2019-01-20 22:04 被阅读9次

【16】 hashmap
Java HashMap和线程安全Map
HashMap源码解析
HashMap内部原理解析
面试准备
ConcurrentHashMap 原理解析（JDK1.8）
HashMap原理解析
Java基础之LinkedList源码解析
Java基础之ArrayList源码解析
Java基础之HashTable源码解析

来源声明：本文是整理微信公众号[程序员小灰]的漫画系列文章

什么是HashMap

HashMap是一个用于存储Key-Value键值对的集合，每一个键值对也叫做Entry。这些键值对（Entry）分散存储在一个数组中，这个数组就是HashMap的主干。

HashMap数组每一个元素的初始值都是Null。

image.png

对于HashMap，我们最常使用的是两个方法：Get和Put。

1.Put方法的原理

例如，调用hashMap.put("apple", 0)，插入一个Key为“apple”的元素。这时候我们需要利用一个哈希函数来确定Entry的插入位置（index）：

index = Hash("apple")

假定最后计算出的index是2，那么结果如下：

image.png

但是，因为HashMap的长度是有限的，当插入的Entry越来越多时，再完美的Hash函数也难免会出现index冲突的情况。比如下面这样：

image.png

这时候怎么办呢？我们可以利用链表来解决。

HashMap数组的每一个元素不止是一个Entry对象，也是一个链表的头结点。每一个Entry对象通过Next指针指向它打的下一个Entry节点。当新来的Entry映射到冲突的数组位置时，只需要插入到对应的链表即可：

image.png

需要注意的是，新来的Entry节点插入链表时，使用的是“头插法”。之所以用“头插法”，是因为HashMap的发明者认为，后插入的Entry被查找的可能性更大。

2.Get方法的原理

使用Get方法根据Key来查找Value的时候，发生了什么呢？

首先会把输入的Key做一次Hash映射，得到对应的index：

index = Hash("apple")

由于刚才所说的Hash冲突，同一个位置有可能匹配到多个Entry，这时候就需要顺着对应链表的头节点，一个一个向下来查找。假设我们要查找的Key是“apple”:

image.png

第一步，我们查看的是头节点Entry6，Entry6的Key是banana，显然不是我们要找的结果。

第二步，我们查看的是Next节点Entry1，Entry1的Key是apple，正是我们要找的结果。

扩展

1、Hashmap的初始长度？为什么这么定

HashMap的默认初始长度是16，并且每次自动扩展或是手动初始化时，长度必须是2的幂。

之所以选择16，是为了服务于从Key映射到index的Hash算法，实现一个尽量均匀分布的Hash函数。

上面提到，从Key映射到HashMap数组的对应位置，会用到一个Hash函数：

index = Hash("apple")

如何实现一个尽量均匀分布的Hash函数呢？我们通过利用Key的HashCode值来做某种运算，HashMap的发明者采用了位运算的方式。

如何进行位运算呢？有如下的公式（Length是HashMap的长度）：

index = HashCode(Key) & (Length - 1)

举例，以值为“book”的Key来演示整个过程：

1、计算book的hashcode，结果为十进制的3029737，二进制的101110001110101110 1001。

2、假定HashMap长度是默认的16，计算Length-1的结果为十进制的15，二进制的1111。

3、把以上两个结果做与运算，101110001110101110 1001 & 1111 = 1001，十进制是9，所以 index=9。

可以说，Hash算法最终得到的index结果，完全取决于Key的HashCode值的最后几位。

为什么HashMap初始长度采用16呢？我们可以对比长度是10的情况。

重复刚才的运算步骤：

image.png

单独看这个结果，表面上并没有问题。我们再来尝试一个新的HashCode 101110001110101110 1011:

image.png

我们再换一个HashCode 101110001110101110 1111试试：

image.png

对比结果可以看到，虽然HashCode的倒数第二位、第三位从0变成了1，但是运算的结果都是1001。也就是说，当HashMap长度为10的时候，有些index结果的出现几率会更大，而有些index结果永远不会出现（比如0111）。

这样，显然不符合Hash算法均匀分布的原则。

反观长度16或其他2的幂，Length-1的值是所有二进制全为1，这种情况下，index的结果等同于HashCode后几位的值。只要输入的HashCode本身分布均匀，Hash算法的结果就是均匀的。

2、高并发下的HashMap

(1) Hashmap在插入元素过多的时候需要进行Resize，Resize的条件是

HashMap.size >= Capacity * LoadFactor

其中，Capacity是HashMap的当前长度，HashMap的长度是2的幂。
LoadFactor是HashMap负载因子，默认值为0.75f。

（2） HaspMap的Resize包含两个步骤：

一是扩容。创建一个新的Entry空数组，长度是原数组的2倍。

二是ReHash，遍历原Entry数组，把所有的Entry重新Hash到新数组。

需要注意的是，ReHash在并发的情况下可能形成链表环。

参考

漫画：什么是HashMap？

漫画：高并发下的HashMap

网友评论

本文标题：HashMap解析

本文链接：https://www.haomeiwen.com/subject/kdbfjqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

HashMap解析

什么是HashMap

1.Put方法的原理

2.Get方法的原理

扩展

1、Hashmap的初始长度？为什么这么定

2、高并发下的HashMap

参考

相关文章

【16】 hashmap

Java HashMap和线程安全Map

HashMap源码解析

HashMap内部原理解析

面试准备

ConcurrentHashMap 原理解析（JDK1.8）

HashMap原理解析

Java基础之LinkedList源码解析

Java基础之ArrayList源码解析

Java基础之HashTable源码解析

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读