Java HashMap详解（基于JDK8及以上）

作者: mumuxi_ | 来源:发表于2022-03-09 21:18 被阅读0次

Java HashMap详解（基于JDK8及以上）
java中HashMap详解
两年程序员面试要求--little fish
3年Java程序员面试集锦-Java基础
Java程序员面试指南（建议Mark一下）
2019金三银四你准备好了没，这些Java后端面试知识点掌握了吗
2019金三银四你准备好了没，这些Java后端面试知识点掌握了吗
Java程序员面试指南（建议Mark一下）
为什么 Map 桶中超过 8 个才转为红黑树？
[Java 8 HashMap 详解系列] 2.HashMap

一、基本原理

HashMap 的内部可以看做数组+链表的复合结构。数组被分为一个个的桶(bucket)。哈希值决定了键值对在数组中的寻址。具有相同哈希值的键值对会组成链表。需要注意的是当链表长度超过阈值(默认是8)的时候可能会触发树化（触发树化还需要看桶的长度是否已经达到预期值，否则只会触发扩容），链表会变成树形结构。

把握HashMap的原理需要关注4个方法：hash、put、get、resize。

hash方法。将 key 的 hashCode 值的高位数据移位到低位进行异或运算。这么做的原因是有些 key 的 hashCode 值的差异集中在高位，而哈希寻址是忽略容量以上高位的，这种做法可以有效避免哈希冲突。

put 方法。 put 方法主要有以下几个步骤：

通过 hash 方法获取 hash 值，根据 hash 值寻址。
如果未发生碰撞，直接放到桶中。
如果发生碰撞，则以链表形式放在桶后。
当链表长度大于阈值后会将会考虑改为红黑树，如果桶数组长度小于常量MIN_TREEIFY_CAPACITY时，不会变为红黑树，而是调用resize()方法进行扩容。MIN_TREEIFY_CAPACITY的默认值是64。
如果集合中元素的个数达到阈值（默认是数组的长度*loadFactor），会调用 resize 方法扩展容量。

get方法。 get 方法主要有以下几个步骤：

通过 hash 方法获取 hash 值，根据 hash 值寻址。
如果与寻址到桶的 key 相等，直接返回对应的 value。
如果发生冲突，分两种情况。如果是树，则调用 getTreeNode 获取 value；如果是链表则通过循环遍历查找对应的 value。

resize 方法。 resize 做了两件事：

将原数组扩展为原来的 2 倍。
重新计算 index 索引值，将原节点重新放到新的数组中。这一步可以将原先冲突的节点分散到新的桶中。

二、进阶

2.1Hashmap的初始化优化：

由于HashMap 的 put方法存在扩容的情况，在我们初始化HaspMap时，如果已经知道需要放到HashMap中元素个数时，就有必要在初始化时指定数组大小。

分析：

2.1.1 HashMap put()

 public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
 }

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //这里先判断了数组是否为空
        if ((tab = table) == null || (n = tab.length) == 0)
           //数组为空，调用resize()对数组进行初始化。
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            //如果添加的元素的key本来就已经在Hashmap 里面的，会直接返回原来的值，不会进行扩容判断
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
       //这里进行了扩容判断，所以threshold 是用来扩容判断的，size 就是集合中元素的个数，只有在添加了新元素的情况下才会进行扩容判断。
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

2.1.2 HashMap resize()

final Node<K,V>[] resize() {
        //对oldTab 赋值，这里的table 就是 HashMap 内的桶数组。
        Node<K,V>[] oldTab = table;
        //获取桶数组的长度
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        //获取原来用于扩容判断的阈值
        int oldThr = threshold;
        int newCap, newThr = 0;
        //如果桶数组的长度大于0，则表明之前已经初始化
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                    oldCap >= DEFAULT_INITIAL_CAPACITY)
                //将原数组和扩容判断的阈值扩展为原来的 2 倍。
                newThr = oldThr << 1; // double threshold
        }
        /**
         * 桶数组的长度小于0，oldThr 这里已经代表threshold (用于扩容判断的阈值)，
         * threshold默认值为0，但是这里threshold 大于0，这表明hashmap 
         * 未添加过元素，但是在实例化hashmap 时已经传入了数组的大小范围数值。
         * 这种情况下，threshold 代表的就是初始化数组大小的范围。
         */
        else if (oldThr > 0) // initial capacity was placed in threshold
            //这里赋予了数组大小的范围。
            newCap = oldThr;
        else { // zero initial threshold signifies using defaults
            /**
             * 这里代表haspmap 的桶数组为空，阈值也为0，
             * 走hashmap 默认初始化的数组大小的值 和 阈值 ，16 和 16*0.75 = 12；
             */
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR *
                    DEFAULT_INITIAL_CAPACITY);
        }
       //对扩容的值进行初始化，loadFactor
        if (newThr == 0) {
          /*从这里和 下面的threshold = newThr 赋值 可以知道 
            threshold = 数组大小*loadFactor，结合之前的put方法就表明
            当hashmap中的元素个数超过数组大小*loadFactor时，就会进行数组扩容。
            */
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                    (int)ft : Integer.MAX_VALUE);
        }
        //这里给threshold 赋最新的值
        threshold = newThr;
        //这里进行了数组的实例化
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        if (oldTab != null) {
           /* 篇幅过长，省略掉，这里进行的是重新计算 index 索引值，
             将原节点重新放到新的数组中。这一步可以将原先冲突的节点分散到新的桶中。*/
        }
        return newTab;
    }

2.1.3 HashMap 构造函数

 /**
     * The next size value at which to resize (capacity * load factor).
     *
     * @serial
     */
    int threshold;

    /**
     * The load factor for the hash table.
     *
     * @serial
     */
    final float loadFactor;
    //默认装载因子数值
    static final float DEFAULT_LOAD_FACTOR = 0.75f;
   
    public HashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
    }

    public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }

    public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY) initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " + loadFactor);
        this.loadFactor = loadFactor;
        /**
         * tableSizeFor的功能（不考虑大于最大容量的情况）是返回
         * 大于或等于输入参数且最近的2的整数次幂的数，意思是假如你
         * 传入的数组大小是10，但是hashmap会强制给你设置成16
         */
        this.threshold = tableSizeFor(initialCapacity);
    }

2.1.4 tableSizeFor()
分析参考 https://www.cnblogs.com/loading4/p/6239441.html

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

详解如下：

先来分析有关n位操作部分：先来假设n的二进制为01xxx...xxx。接着
对n右移1位：001xx...xxx，再位或：011xx...xxx
对n右移2为：00011...xxx，再位或：01111...xxx
此时前面已经有四个1了，再右移4位且位或可得8个1
同理，有8个1，右移8位肯定会让后八位也为1。
综上可得，该算法让最高位的1后面的位全变为1。
最后再让结果n+1，即得到了2的整数次幂的值了。

现在回来看看第一条语句：

int n = cap - 1;

让cap-1再赋值给n的目的是另找到的目标值大于或等于原值。例如二进制1000，十进制数值为8。如果不对它减1而直接操作，将得到答案10000，即16。显然不是结果。减1后二进制为111，再进行操作则会得到原来的数值1000，即8。

总结：

结合上面HashMap的方法的分析，我们知道了当hashmap中的元素个数超过数组大小 * loadFactor时，就会进行数组扩容，loadFactor的默认值为0.75，也就是说，默认情况下，数组大小为16，那么当hashmap中元素个数超过16 * 0.75=12的时候，就把数组的大小扩展为2 * 16=32，即扩大一倍，然后重新计算每个元素在数组中的位置，而这是一个非常消耗性能的操作，所以如果我们已经预知hashmap中元素的个数，那么预设元素的个数能够有效的提高hashmap的性能。比如说，我们有16个元素new HashMap(15), 但是理论上来讲new HashMap(16)是最合适的，不过上面已经分析过，即使是15，hashmap也自动会将其设置为16。但是new HashMap(16)还不是更合适的，因为0.75*16< 15, 也就是说为了让0.75 * 数组长度> 15, 我们必须这样new HashMap(32)才最合适，避免了resize的问题。

2.2 HashMap和红黑树

从JDK1.8开始，在HashMap里面定义了一个常量TREEIFY_THRESHOLD，默认为8。当链表中的节点数量大于TREEIFY_THRESHOLD时，链表将会考虑改为红黑树，代码是在上面putVal()方法的这一部分：

for (int binCount = 0; ; ++binCount) {
    if ((e = p.next) == null) {
        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
        break;
    }
    if (e.hash == hash &&
        ((k = e.key) == key || (key != null && key.equals(k))))
        break;
    p = e;
}

其中的treeifyBin()方法就是链表转红黑树的方法，这个方法的代码是这样的：

final void treeifyBin(Node<K,V>[] tab, int hash) {
        int n, index; Node<K,V> e;
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        else if ((e = tab[index = (n - 1) & hash]) != null) {
            TreeNode<K,V> hd = null, tl = null;
            do {
                TreeNode<K,V> p = replacementTreeNode(e, null);
                if (tl == null)
                    hd = p;
                else {
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;
            } while ((e = e.next) != null);
            if ((tab[index] = hd) != null)
                hd.treeify(tab);
        }
    }

可以看到，如果table长度小于常量MIN_TREEIFY_CAPACITY时，不会变为红黑树，而是调用resize()方法进行扩容。MIN_TREEIFY_CAPACITY的默认值是64。显然HashMap认为，虽然链表长度超过了8，但是table长度太短，只需要扩容然后重新散列一下就可以。

2.3 HashMap扩容机制

resize()方法如下,截取关键部分分析，关于桶是树节点情况下的扩容较为复杂就不多讲了，有兴趣的自行了解。

    final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)                      //注释1
                newThr = oldThr << 1; // double threshold
        }
        ........
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {                                 //注释2
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)                                        //注释3
                        newTab[e.hash & (newCap - 1)] = e;
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);      //注释10
                    else { // preserve order
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {                      //注释4
                                if (loTail == null)                            //注释5
                                    loHead = e;
                                else
                                    loTail.next = e;                           //注释6
                                loTail = e;                                    //注释7
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {                                  /注释8
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

代码解析：

1，在resize()方法中，定义了oldCap参数，记录了原table的长度，定义了newCap参数，记录新table长度，newCap是oldCap长度的2倍（注释1），同时扩展点也乘2。

2，注释2是循环原table，把原table中的每个链表中的每个元素放入新table。

3，注释3，e.next==null，指的是链表中只有一个元素，所以直接把e放入新table，其中的e.hash & (newCap - 1)就是计算e在新table中的位置。

4，注释// preserve order，这个注释是源码自带的，这里定义了4个变量：loHead，loTail，hiHead，hiTail，看起来可能有点眼晕，其实这里体现了JDK1.8对于计算节点在table中下标的新思路：

正常情况下，计算节点在table中的下标的方法是：hash&(oldTable.length-1)，扩容之后，table长度翻倍，计算table下标的方法是hash&(newTable.length-1)，也就是hash&(oldTable.length*2-1)，于是我们有了这样的结论：这新旧两次计算下标的结果，要不然就相同，要不然就是新下标等于旧下标加上旧数组的长度。这种情况下我们就可以把链表内的节点分成两种，"新下标等于旧下标" 或者 "新下标等于旧下标加上旧数组的长度",把这两种节点重新组成不同的新链表，再把表头赋值给对应的桶就好了。

举个例子，假设table原长度是16，扩容后长度32，那么一个hash值在扩容前后的table下标是这么计算的：

image.png

hash值的每个二进制位用abcde来表示，那么，hash和新旧table按位与的结果，最后4位显然是相同的，唯一可能出现的区别就在第5位，也就是hash值的b所在的那一位，如果b所在的那一位是0，那么新table按位与的结果和旧table的结果就相同，反之如果b所在的那一位是1，则新table按位与的结果就比旧table的结果多了10000（二进制），而这个二进制10000就是旧table的长度16。

换言之，hash值的新散列下标是不是需要加上旧table长度，只需要看看hash值第5位是不是1就行了，位运算的方法就是hash值和10000（也就是旧table长度）来按位与，其结果只可能是10000或者00000。

所以，注释4处的e.hash & oldCap，就是用于计算位置b到底是0还是1用的，只要其结果是0，则新散列下标就等于原散列下标，否则新散列坐标要在原散列坐标的基础上加上原table长度。

理解了上面的原理，这里的代码就好理解了，代码中定义的四个变量：

loHead，下标不变情况下的链表头
loTail，下标不变情况下的链表尾
hiHead，下标改变情况下的链表头
hiTail，下标改变情况下的链表尾

而注释4处的(e.hash & oldCap) == 0，就是代表散列下标不变的情况，这种情况下代码只使用了loHead和loTail两个参数，由他们组成了一个链表，否则将使用hiHead和hiTail参数。

注释5 到注释 7 就是链表的尾插法，这里就不再多讲了。

代码到注释8这里就好理解了，

只要loTail不是null，说明链表中的元素在新table中的下标没变，所以新table的对应下标中放的是loHead，另外把loTail的next设为null

反之，hiTail不是null，说明链表中的元素在新table中的下标，应该是原下标加原table长度，新table对应下标处放的是hiHead，另外把hiTail的next设为null。

再讲一下注释10部分的桶节点是树节点情况下的扩容，有了上面的基础，这里不会讲太详细。

final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
            TreeNode<K,V> b = this;
            // Relink into lo and hi lists, preserving order
            //第一部分
            TreeNode<K,V> loHead = null, loTail = null;
            TreeNode<K,V> hiHead = null, hiTail = null;
            int lc = 0, hc = 0;
            for (TreeNode<K,V> e = b, next; e != null; e = next) {
                next = (TreeNode<K,V>)e.next;
                e.next = null;
                if ((e.hash & bit) == 0) {
                    if ((e.prev = loTail) == null)
                        loHead = e;
                    else
                        loTail.next = e;
                    loTail = e;
                    //记录元素的个数
                    ++lc;
                }
                else {
                    if ((e.prev = hiTail) == null)
                        hiHead = e;
                    else
                        hiTail.next = e;
                    hiTail = e;
                    //记录元素的个数
                    ++hc;
                }
            }
             //第二部分
            if (loHead != null) {
                if (lc <= UNTREEIFY_THRESHOLD)
                    tab[index] = loHead.untreeify(map);   //注释1
                else {
                    tab[index] = loHead;
                    if (hiHead != null) // (else is already treeified) //注释2
                        loHead.treeify(tab);  //注释3
                }
            }
            if (hiHead != null) {
                if (hc <= UNTREEIFY_THRESHOLD)
                    tab[index + bit] = hiHead.untreeify(map);
                else {
                    tab[index + bit] = hiHead; //注释4
                    if (loHead != null)  //注释5
                        hiHead.treeify(tab);
                }
            }
        }

根据上面的代码，第一部分和第二部分的code 就是把整棵树的节点分成两种，
"新下标等于旧下标" 或者 "新下标等于旧下标加上旧数组的长度" ，可以看出是以双向链表的方式存储的，并且保存了这两种节点的元素个数。

第二部分之后的代码

先看注释1 ，这里先对新下标等于旧下标链表的元素个数进行了判断，如果小于UNTREEIFY_THRESHOLD （默认值是6），则做了去树化的动作。

注释3，则是做了树化的动作。

注释2的判断条件是为什么了，假设hiHead ==null ，就意味着上面节点的分类只有一种，就是 "新下标等于旧下标"，那这种情况下就不用再进行树化了，因为原来就是树了。

注释4就是把链表头先放到桶内，再去判断是否树化。

注释5就是注释2一样的解析了。

Java HashMap详解（基于JDK8及以上）
一、基本原理 HashMap 的内部可以看做数组+链表的复合结构。数组被分为一个个的桶(bucket)。哈希值决定...
java中HashMap详解
java中HashMap详解
两年程序员面试要求--little fish
一、java基础 1. HashMap1.1 HashMap的实现原理，jdk8中对hashmap做了怎样的优化...
3年Java程序员面试集锦-Java基础
Java基础 1.HashMap的源码，实现原理，JDK8中对HashMap做了怎样的优化。 Hashtable、...
Java程序员面试指南（建议Mark一下）
Java基础 HashMap的源码，实现原理，JDK8中对HashMap做了怎样的优化。 HaspMap扩容是怎样...
2019金三银四你准备好了没，这些Java后端面试知识点掌握了吗
Java基础 1、HashMap的源码，实现原理，JDK8中对HashMap做了怎样的优化。 2、HaspMa...
2019金三银四你准备好了没，这些Java后端面试知识点掌握了吗
Java基础 1、HashMap的源码，实现原理，JDK8中对HashMap做了怎样的优化。 2、HaspMap扩...
Java程序员面试指南（建议Mark一下）
Java基础 HashMap的源码，实现原理，JDK8中对HashMap做了怎样的优化。 HaspMap扩容是怎样...
为什么 Map 桶中超过 8 个才转为红黑树？
HashMap 底层实现原理及JDK8 的一些优化 JDK 1.8 的 HashMap 和 ConcurrentH...
[Java 8 HashMap 详解系列] 2.HashMap
[Java 8 HashMap 详解系列] 文章目录 1.HashMap 的存储数据结构 2.HashMap 中...