美文网首页
HashMap源码分析

HashMap源码分析

作者: 陈兄 | 来源:发表于2022-01-11 17:35 被阅读0次

    HashMap源码刨析

    Map接口的基于哈希表的实现。

    此文章参考连接

    官网解释

    image

    剖析解析

    重点一

    默认初始容量 (16) 和默认负载因子 (0.75) 的空HashMap,最大容量,在两个带参数的构造函数中的任何一个隐式指定更高的值时使用。 必须是 2 的幂 <= 1<<30 (1073741824)。

    构造函数

    /**
    *最大容量,在两个带参数的构造函数中的任何一个隐式指定更高的值时使用。 必须是 2 的幂 <= 1<<30。
    */ 
    static final int MAXIMUM_CAPACITY = 1 << 30;
    /**
     * 构造一个具有指定初始容量和负载因子的空HashMap 。
     * 参数:
     *
     * initialCapacity – 初始容量
     * loadFactor – 负载因子
     * 抛出:
     * IllegalArgumentException – 如果初始容量为负或负载因子为非正
     */
    public HashMap(int initialCapacity, float loadFactor) {
        //初始容量小于0,则抛出异常
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        //初始容量最大MAXIMUM_CAPACITY
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }
    
    /**
     * 实现了把一个数变为最接近的2的n次方
     * 如果传入A,当A大于0,小于定义的最大容量时,
     * 如果A是2次幂则返回A,否则将A转化为一个比A大且差距最小的2次幂。  
     * 例如传入7返回8,传入8返回8,传入9返回16
     * cap=7 代码逻辑如下
     * n|=n代表或运算 0对应0则是0 否则1
     */
    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1; //n|(n>>>1)  6|6>>>1   00000110|00000110>>>1  00000110|00000011 =00000111  n=7
        n |= n >>> 2; //n|(n>>>2)  7|7>>>2   00000111|00000111>>>2  00000111|00000001 =00000111  n=7
        n |= n >>> 4; //n|(n>>>4)  7|7>>>4   00000111|00000111>>>4  00000111|00000000 =00000111  n=7
        n |= n >>> 8; //n|(n>>>8)  7|7>>>8   00000111|00000111>>>8  00000111|00000000 =00000111  n=7
        n |= n >>> 16;//n|(n>>>16) 7|7>>>16  00000111|00000111>>>16 00000111|00000000 =00000111  n=7
        //(n < 0) =false
        //(n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1
        //(n >= 1<<30) n>=1073741824 = false
        //false 得 n+1 = 8
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }
    

    核心函数put函数

    put函数
    /**
     * put函数
     */
    public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }
    
    /**
     * 获取hash值
     */
    static final int hash(Object key) {
        int h;
        //^异或运算:相同置0,不同置1
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }
    
    为什么要右移16位?
    • 保证高16位也参与计算, 我们直到int占4字节 32位,16是中位数
    • 因为大部分情况下,都是低16位参与运算,高16位可以减少hash冲突
    putVal函数
    /**
     * 表,在第一次使用时初始化,并根据需要调整大小。 分配时,长度始终是 2 的幂。 (我们还在某些操作中容忍长度为零,以允许当前不需要的引导机制。)
     */
    transient Node<K,V>[] table;
    
    /**
     * 使用树而不是列表的 bin 计数阈值。 将元素添加到至少具有这么多节点的 bin 时,bin 会转换为树。 该值必须大于 2 且至少应为 8,以与树移除中关于在收缩时转换回普通 bin 的假设相匹配。
     */
    static final int TREEIFY_THRESHOLD = 8;
    
    /**
     * 创建新的node
     */
    Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
        return new Node<>(hash, key, value, next);
    }
    
    /**
     * 参数:
     *   hash – 密钥的散列
     *   value – 要放置的值
     *   onlyIfAbsent – 如果为真,则不更改现有值
     *   evict – 如果为 false,则表处于创建模式。
     * 返回:
     *   以前的值,如果没有,则为 null
     */
    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //1、如果主干tab等于null或者tab长度为0 则调用resize()方法获取长度。
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        //2、数组长度与计算得出的hash进行比较
        if ((p = tab[i = (n - 1) & hash]) == null)//如果位置空,则将i位置值赋值给新的一个node对象
            tab[i] = newNode(hash, key, value, null);
        else {//3、位置不为空
            Node<K,V> e; K k;
            if (p.hash == hash &&//4、p旧节点与新添加元素完相同
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;//则将旧节点赋值给新节点
            else if (p instanceof TreeNode)//5、如果p已经是树节点的一个实例,既这里已经是树了
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {//p旧节点与e新节点完全不相同,p也不是树节点treenode实例
                for (int binCount = 0; ; ++binCount) {//死循环
                    if ((e = p.next) == null) {//e新节点=p旧节点.next下一个节点等于空
                        p.next = newNode(hash, key, value, null);//则赋值新的节点
                        if (binCount >= TREEIFY_THRESHOLD - 1) // 如果链表长度大于等于8
                            treeifyBin(tab, hash);//将链表转为红黑树
                        break;//跳出循环
                    }
                    //如果遍历过程中链表中的元素与新添加的元素完全相同,则跳出循环
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;//跳出循环
                    p = e;//则将遍历节点元素赋值给新节点
                }
            }
            if (e != null) { //这个判断中代码作用为:如果添加的元素产生了hash冲突,那么调用
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)//如果元素数量大于临界值,则进行扩容
            resize();
        afterNodeInsertion(evict);
        return null;
    }
    
    为什么会考虑红黑树?

    链表过长则使用红黑树,提高查找效率。

    HashMap链表转红黑树为什么是8?

    对此源码也做了解释。

         * Because TreeNodes are about twice the size of regular nodes, we
         * use them only when bins contain enough nodes to warrant use
         * (see TREEIFY_THRESHOLD). And when they become too small (due to
         * removal or resizing) they are converted back to plain bins.  In
         * usages with well-distributed user hashCodes, tree bins are
         * rarely used.  Ideally, under random hashCodes, the frequency of
         * nodes in bins follows a Poisson distribution
         * (http://en.wikipedia.org/wiki/Poisson_distribution) with a
         * parameter of about 0.5 on average for the default resizing
         * threshold of 0.75, although with a large variance because of
         * resizing granularity. Ignoring variance, the expected
         * occurrences of list size k are (exp(-0.5) * pow(0.5, k) /
         * factorial(k)). The first values are:
         *
         * 0:    0.60653066
         * 1:    0.30326533
         * 2:    0.07581633
         * 3:    0.01263606
         * 4:    0.00157952
         * 5:    0.00015795
         * 6:    0.00001316
         * 7:    0.00000094
         * 8:    0.00000006
         * more: less than 1 in ten million
    

    上面这段话的意思是,如果 hashCode 分布良好,也就是 hash 计算的结果离散好的话,那么红黑树这种形式是很少会被用到的,因为各个值都均匀分布,很少出现链表很长的情况。在理想情况下,链表长度符合泊松分布,各个长度的命中概率依次递减,当长度为 8 的时候,概率仅为 0.00000006。这是一个小于千万分之一的概率,通常我们的 Map 里面是不会存储这么多的数据的,所以通常情况下,并不会发生从链表向红黑树的转换。
    此问题参考连接

    resize扩容函数(源码详解)
     
     //2的幂数
     static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
    
     //要调整大小的下一个大小值(容量 * 负载因子)。
     int threshold;
     
     final Node<K,V>[] resize() {
            //主干table赋值给oldTab   
            Node<K,V>[] oldTab = table;
            //获取原哈希表容量  如果哈希表为空则容量为0 ,否则为原哈希表长度
            int oldCap = (oldTab == null) ? 0 : oldTab.length;
            //获取原生的扩容标准(容量16 * 负载因子0.75)
            int oldThr = threshold;
            //初始化新容量和新扩容门槛为0
            int newCap, newThr = 0;
            if (oldCap > 0) {
                if (oldCap >= MAXIMUM_CAPACITY) {
                    threshold = Integer.MAX_VALUE;//当容量超过最大值时,临界值设置成int最大值
                    return oldTab;
                }
                else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY)//未达到1<<30,则进行扩容操作
                    newThr = oldThr << 1; // 容量扩充到2倍
            }
            else if (oldThr > 0) //不执行
                newCap = oldThr;
            else {               // 零初始阈值表示使用默认值
                newCap = DEFAULT_INITIAL_CAPACITY;
                newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
            }
            if (newThr == 0) {//不执行
                float ft = (float)newCap * loadFactor;
                newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                          (int)ft : Integer.MAX_VALUE);
            }
            threshold = newThr;//将新的临界值赋值给threshold
            @SuppressWarnings({"rawtypes","unchecked"})
                Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
            table = newTab;//新的数组赋值给table
             //扩容后,重新计算元素新的位置
            if (oldTab != null) {
                //循环老的容量
                for (int j = 0; j < oldCap; ++j) {
                    Node<K,V> e;
                    if ((e = oldTab[j]) != null) {
                        oldTab[j] = null;
                        if (e.next == null)
                            newTab[e.hash & (newCap - 1)] = e;
                        else if (e instanceof TreeNode)
                            //当前index对应的节点为红黑树,当树的个数小于等于UNTREEIFY_THRESHOLD则转成链表
                            ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                        else { // preserve order
                            //分成两个链表,减少扩容的迁移量
                             //loHead,下标不变情况下的链表头
                             //loTail,下标不变情况下的链表尾
                             //hiHead,下标改变情况下的链表头
                             //hiTail,下标改变情况下的链表尾
                            Node<K,V> loHead = null, loTail = null;
                            Node<K,V> hiHead = null, hiTail = null;
                            Node<K,V> next;
                            do {
                                next = e.next;
                                if ((e.hash & oldCap) == 0) {//散列下标不变
                                    if (loTail == null)
                                        loHead = e;//设置链头
                                    else
                                        loTail.next = e;
                                    loTail = e;//设置链尾
                                }
                                else {//散列下标改变
                                    if (hiTail == null)
                                        hiHead = e;//设置链头
                                    else
                                        hiTail.next = e;
                                    hiTail = e;//设置链尾
                                }
                            } while ((e = next) != null);
                            if (loTail != null) {
                                loTail.next = null;
                                newTab[j] = loHead;
                            }
                            if (hiTail != null) {
                                hiTail.next = null;
                                // 扩容长度为当前index位置+旧的容量
                                newTab[j + oldCap] = hiHead;
                            }
                        }
                    }
                }
            }
            return newTab;
        }
    
    什么时候进行扩容?

    hashMap中元素个数超过【数组长度(容量)*localFactor(负载因子)】时,就会进行数组扩容。

    • localFactor(负载因子)默认0.75
    • 容量默认16,也就是说0.7516=12,超过12,就会把数组大小扩容为212=32,扩容一倍。然后重新计算每个元素的仔数组中的位置。
    扩容限制机制?
    • 限制扩容大小不能大于1<<30(1073741824),最低16。
    • 扩容倍数是最接近2的幂次,例如:new HashMap(13) 最终仍会是16长度。
    步骤

    1、定义了oldCap原table长度,newCap新table长度,newCap是oldCap的两倍。
    2、循环原table,获取链上元素存入新table
    3、计算新旧下标结果,要么相同,要么新下标=旧下标+旧小标数组长度。

    hashMap是先插入还是先扩容?

    1、初始容量,是先扩容在插入,后续就是先插入后扩容,因为resize()会进行新旧table做比较。

    结合源码说说HashMap在高并发场景中为什么会出现死循环?
    • jdk1.7,hashMap容量是有限的,高并发下,多元素插入,hashMap会达到一定的饱和程度。
    • 就会进行resize扩容。
    • 扩容后将rehash遍历数组数据,把所有的数据数据重新刷新到新数组。
    jdk1.8的优化?
    • JDK 8 中采用的是位桶 + 链表/红黑树的方式,当某个位桶的链表的长度超过 8 的时候,这个链表就将转换成红黑树。
    HashMap和HashTable有何不同?
    • hashMap适合单线程,允许key/value为空
    • hashTable适合多线程,不许key/value为空

    相关文章

      网友评论

          本文标题:HashMap源码分析

          本文链接:https://www.haomeiwen.com/subject/rqxicrtx.html