Map集合源码解析与对比

作者: 魏树鑫 | 来源:发表于2019-04-22 17:36 被阅读0次

Map集合源码解析与对比
史上最详尽 Java 8 集合类 HashMap : 底层实现和
集合和MAP源码解析
Java基础之LinkedList源码解析
Java基础之ArrayList源码解析
Java基础之HashTable源码解析
Java基础之LinkedHashMap源码解析
js中的map用法
Java 基础（七）集合源码解析 Map
Map集合Map<Integer,String> m

HashMap数据结构

HashMap是基于hashing的原理； value>插到table[i]中，如果有两个不同的key被算在了同一个i，那么就叫冲突，又叫碰撞，这样会在table[i]上形成一个链表
扩容原理：HashMap的扩容因子或负载因子为0.75，初容量1<<4=16，最大容量1<<30= 2^30 ；当一个map填满了75%的bucket时候，和其它集合类(如ArrayList等)一样，将会创建原来HashMap大小的两倍的bucket数组，来重新调整map的大小，并将原来的对象放入新的bucket数组中，也就是作rehashing，因为它调用hash方法找到新的bucket位置；
存储原理：put(key, value)方法存储时，会先对key调用hashCode()方法，返回的hashCode，然后根据table的长度进行取模，用于找到bucket位置来储存Entry对；
查找原理：拿key的hashCode来找到bucket位置，然后将会遍历链表,调用keys.equals()方法去找到链表中正确的节点，最终找到要找的值对象;

JDK1.7的HashMap数据结构图

HashMap指针碰撞问题

因为有equals()和hashCode()两个方法，所以两个对象就算hashcode相同，但是它们可能并不相等；
出现Hash碰撞后，两个值对象会存在同一个bucket中，并使用链表存储Map.Entry对象，这个Entry(包含有键值对的Map.Entry对象)会存储在链表中；

HashMap线程安全问题

当多线程的情况下，可能产生条件竞争(race condition)；
当重新调整HashMap大小的时候，存在条件竞争，因为如果两个线程都发现HashMap需要重新调整大小了，它们会同时试着调整大小。在调整大小的过程中，存储在链表中的元素的次序会反过来，因为移动到新的bucket位置的时候，HashMap并不会将元素放在链表的尾部，而是放在头部，这是为了避免尾部遍历(tail traversing)。如果条件竞争发生了，那么就死循环了；

Key不可变对象的好处

hashCode()方法在存取时都会用到，但是equals()方法仅仅在获取值对象的时候才出现，所以使用不可变的、声明作final的对象，并且采用合适的equals()和hashCode()方法的话，将会减少碰撞的发生，提高效率
因为String是不可变的，也是final的，而且已经重写了equals()和hashCode()方法了，不可变性使得能够缓存不同键的hashcode，这将提高整个获取对象的速度，例如Interger其他的wrapper类也有这个特点。
不可变性是必要的，因为为了要计算hashCode()，就要防止键值改变，如果键值在放入时和获取时返回不同的hashcode的话，那么就不能从HashMap中找到你想要的对象。
因为获取对象的时候要用到equals()和hashCode()方法，那么键对象正确的重写这两个方法是非常重要的。如果两个不相等的对象返回不同的hashcode的话，那么碰撞的几率就会小些，这样就能提高HashMap的性能。
使用自定义对象作为key，要注意重写equals()和hashCode()方法，要保证插入到map中后就不会在改变，否则会出现get时找不到值；

Collections对HashMap实现同步

Collections.synchronizedMap可以实现对HashMap线程同步，返回的是一个Collections.SynchronizedMap类，直接将读写操作加了synchronized

HashMap 和 Hashtable

HashMap初始容量16，Hashtable 11；
HashMap扩容是oldCap << 1，扩容一倍，Hashtable(oldCapacity << 1) + 1，扩容大小不一致是因为index计算方式不同，并且一定是要对奇数取膜；
HashMap的index计算是e.hash & (newCap - 1)，Hashtable(e.hash & 0x7FFFFFFF) % newCapacity，实际e.hash & (newCap - 1) == e.hash % newCap
HashMap可以接受null键值和值，而Hashtable则不能；
HashMap是非synchronized，Hashtable是线程安全的，所以在单线程情况下，HashMap效率更高；
HashMap的iterator在多线程下操作可能会抛出ConcurrentModificationException异常，因为Collection的Iterator使用了fail-fast机制；
http://www.importnew.com/24822.html

HashMap 和 LinkedHashMap

LinkedHashMap 继承自HashMap，内部又维护了一条双向链表，此链接列表定义了迭代顺序，该迭代顺序可以是插入顺序或者是访问顺序；
LinkedHashMap 遍历时遍历的记录顺序的双向链表，所以先得到的记录肯定是先插入的；
LinkedHashMap 也可以在构造时带参数，按照应用次数排序；
LinkedHashMap 数据量大时在查找的时候会比HashMap慢，因为HashMap会先找到bucket位，然后遍历链表，hash均匀时时间复杂度可能是O(1)

HashMap 和 TreeMap

TreeMap 基于NavigableMap实现的红黑树
TreeMap 实现SortMap接口，能够把它保存的记录根据键排序；
TreeMap 默认是按键值的升序排序，也可以指定排序的比较器，当用Iterator 遍历TreeMap时，得到的记录是排过序的

HashMap 和 HashSet

HashSet是通过HashMap实现的,TreeSet是通过TreeMap实现的,只不过Set用的只是Map的key

HashMap 和 SparseArray

SparseArray相比ArrayList查找时采用binary search查找key；
数据量特别大时性能不如HashMap,数据量超过几百时，性能差距不到50%；
SparseArray在remove时，只是做了逻辑删除，key还是可以重用的；

SparseArray.java
private void gc() {
        // Log.e("SparseArray", "gc start with " + mSize);
        int n = mSize;
        int o = 0;
        int[] keys = mKeys;
        Object[] values = mValues;

        for (int i = 0; i < n; i++) {
            Object val = values[i];

            if (val != DELETED) {
                if (i != o) {
                    keys[o] = keys[i];
                    values[o] = val;
                    values[i] = null;
                }
                o++;
            }
        }
        mGarbage = false;
        mSize = o;
        // Log.e("SparseArray", "gc end with " + mSize);
}

HashMap和ArrayMap

主要是节省空间，因为内部用了4个数组维护，并且空间进行了复用，扩容时是通过index+index>>1，并不会扩容一倍
mHashes的存在，主要是用来找到mArray中的key的hash值的index，因为mArray中是将key和value一起存入的，所以将index<<1+1就找到了value在mArray中的位置；
查找时使用二分查找，尽可能提高效率，在数据量大的情况下，如不HashMap
ArrayMap原理具体可参考：https://www.cnblogs.com/huanyou/p/5985303.html

ConcurrentHashMap

JDK1.7 的整个 ConcurrentHashMap 由一个个 Segment 组成，Segment 代表”部分“或”一段“的意思，所以很多地方都会将其描述为分段锁。
简单理解就是，ConcurrentHashMap 是一个 Segment 数组，Segment 通过继承 ReentrantLock 来进行加锁，所以每次需要加锁的操作锁住的是一个 segment，这样只要保证每个 Segment 是线程安全的，也就实现了全局的线程安全
JDK1.8 的ConcurrentHashMap 取消segments字段，直接采用transient volatile HashEntry<K,V>[] table保存数据，采用table数组元素作为锁，从而实现了对每一行数据进行加锁，进一步减少并发冲突的概率
ConcurrentHashMap基于ReentrantLock实现分段锁，所以ConcurrentHashMap在并发条件下性能相比Hashtable更好；

JDK1.7 的ConcurrentHashMap数据结构图

为什么Hashtable、ConcurrentHashmap不支持key或者value为null

ConcurrentHashmap、Hashtable不支持key或者value为null，而HashMap是支持的。为什么会有这个区别？在设计上的目的是什么？

在网上找到了这样的解答:
ConcurrentHashmap和Hashtable都是支持并发的，这样会有一个问题，当你通过get(k)获取对应的value时，如果获取到的是null时，你无法判断，它是put（k,v）的时候value为null，还是这个key从来没有做过映射。HashMap是非并发的，可以通过contains(key)来做这个判断。而支持并发的Map在调用m.contains（key）和m.get(key),m可能已经不同了。
另外HashTable在计算hash值时没有进行非空校验，为Null会报异常

JDK1.8新特性

hash算法优化，通过hashCode()的高16位异或低16位实现的，1.7 使用hashCode() + 4次位运算 + 5次异或运算（9次扰动）
resize优化，数据量过大或者运气不佳的情况下，还是会存在一些队列长度过长的情况，如果还是采用单向列表方式，那么查询某个节点的时间复杂度为O(n)；因此，对于个数超过8(默认值)的列表，jdk1.8中采用了红黑树的结构，那么查询的时间复杂度可以降低到O(logN)，可以改进性能。
通过增加tail指针，既避免了死循环问题（让数据直接插入到队尾），又避免了尾部遍历，但仍是非线程安全的，多线程时可能会造成数据丢失问题
ConcurrentHashmap 取消segments字段，直接采用transient volatile HashEntry<K,V>[] table保存数据

计算index一定是对奇数取膜

length为2的整数次幂的话，则一定为偶数，那么 length-1 一定为奇数，奇数的二进制的最后一位是1，这样便保证了 h&(length-1) 的最后一位可能为0，也可能为1（这取决于h的值），即与后的结果可能为偶数，也可能为奇数，这样便可以保证散列的均匀，而如果length为奇数的话，很明显 length-1 为偶数，它的最后一位是0，这样 h&(length-1) 的最后一位肯定为0，即只能为偶数，这样导致了任何hash值都只会被散列到数组的偶数下标位置上，浪费了一半的空间，因此length取2的整数次幂，是为了使不同hash值发生碰撞的概率较小，这样就能使元素在哈希表中均匀地散列

JDK1.8 HashMap 部分关键源码

//计算Hash
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

//put操作
final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) {
    Node<K, V>[] tab; //table数组
    Node<K, V> p;//数组中链表的尾指针
    int n, i;
    //如果table为空，初始化table
    if ((tab = table) == null || (n = tab.length) == 0) {
        n = (tab = resize()).length;
    }
    //如果table中计算的hash没有冲突，直接放入数组最后一个
    if ((p = tab[i = (n - 1) & hash]) == null) {
        tab[i] = newNode(hash, key, value, null);
    }
    //出现hash冲突；一种情况是key相同替换，还可能是hash冲突，但是key不同
    else {
        Node<K, V> e;//待插入node的临时变量
        K k;
        //如果Hash值相同，比较key是否相同，如果相同，直接将尾指针赋给临时变量，用于后面的替换value
        if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) {
            e = p;
        }
        //否则是放入新的key、value
        //如果node是TreeNode，则是红黑树实现
        else if (p instanceof TreeNode) {
            e = ((TreeNode<K, V>) p).putTreeVal(this, tab, hash, key, value);
        } else {
            //遍历链表
            for (int binCount = 0; ; ++binCount) {
                //找到根结点
                if ((e = p.next) == null) {
                    //添加到链表中
                    p.next = newNode(hash, key, value, null);
                    //TREEIFY_THRESHOLD默认为8，节点超过8，转成红黑树
                    if (binCount >= TREEIFY_THRESHOLD - 1) {// -1 for 1st
                        treeifyBin(tab, hash);
                    }
                    break;
                }
                //如果是key相同，直接跳出，替换尾指针
                if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) {
                    break;
                }
                p = e;
            }
        }
        //临时变量赋值value，并调插入，如果key相同返回旧的值，key不同oldValue就为null
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null) {
                e.value = value;
            }
            //LinkedHashMap使用的
            afterNodeAccess(e);
            return oldValue;
        }
    }
    //modCount是用来操作计数的，在foreach或者其他操作中出现modCount不一致时用来抛出ConcurrentModificationException，fail-fast机制
    ++modCount;
    if (++size > threshold) {
        resize();
    }
    //LinkedHashMap使用的
    afterNodeInsertion(evict);
    return null;
}

//查找
final HashMap.Node<K, V> getNode(int hash, Object key) {
    HashMap.Node<K, V>[] tab;
    HashMap.Node<K, V> first, e;
    int n;
    K k;
    //table不为空
    //计算index，index = (n - 1) & hash，找到bucket位
    //first 链表的第一个节点
    if ((tab = table) != null && (n = tab.length) > 0 && (first = tab[(n - 1) & hash]) != null) {
        //先检查第一个节点
        if (first.hash == hash && // always check first node
                ((k = first.key) == key || (key != null && key.equals(k)))) {
            return first;
        }
        //遍历链表
        if ((e = first.next) != null) {
            if (first instanceof HashMap.TreeNode) {
                return ((HashMap.TreeNode<K, V>) first).getTreeNode(hash, key);
            }
            do {
                if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k)))) {
                    return e;
                }
            } while ((e = e.next) != null);
        }
    }
    return null;
}

JDK1.8 SynchronizedMap部分源码

private static class SynchronizedMap<K,V> implements Map<K,V>, Serializable {
        private final Map<K,V> m;     // Backing Map
        final Object  mutex;        // Object on which to synchronize
        SynchronizedMap(Map<K,V> m) {
            this.m = Objects.requireNonNull(m);
            mutex = this;
        }
        SynchronizedMap(Map<K,V> m, Object mutex) {
            this.m = m;
            this.mutex = mutex;
        }
        public V get(Object key) {
            synchronized (mutex) {return m.get(key);}
        }
        public V put(K key, V value) {
            synchronized (mutex) {return m.put(key, value);}
        }
        public V remove(Object key) {
            synchronized (mutex) {return m.remove(key);}
        }
        ... ...
}

参考

JDK1.7 的ConcurrentHashMap的设计可参考 http://www.importnew.com/28263.html
JDK1.8 Hashing优化可参考 https://www.jianshu.com/p/8324a34577a0
JDK1.8 Map的红黑树具体参考 https://mp.weixin.qq.com/s/l7Dg5TwfQCHZjjxMPJuAFw
JDK1.8 修复HashMap并发可能导致的死循环和尾部遍历问题可参考 https://www.cnblogs.com/gxyandwmm/p/9537669.html

Map集合源码解析与对比
HashMap数据结构 HashMap是基于hashing的原理； value>插到table[i]中，如果有两个...
史上最详尽 Java 8 集合类 HashMap : 底层实现和
史上最详尽 Java 8 集合类 HashMap : 底层实现和原理学习笔记（源码解析） Java中Map接口集合...
集合和MAP源码解析
数组 1 长度开始必须指定，一旦指定不能修改 2 保存的必须为同一类型元素 3 使用数字增加删除比较麻烦集合好...
Java基础之LinkedList源码解析
Java集合源码解析系列 Java基础之HashMap源码解析 Java基础之LinkedHashMap源码解析 ...
Java基础之ArrayList源码解析
Java集合源码解析系列 Java基础之HashMap源码解析 Java基础之LinkedHashMap源码解析 ...
Java基础之HashTable源码解析
Java集合源码解析系列 Java基础之HashMap源码解析 Java基础之LinkedHashMap源码解析 ...
Java基础之LinkedHashMap源码解析
Java集合源码解析系列 Java基础之HashMap源码解析 Java基础之HashTable源码解析 Java...
js中的map用法
java和javascript的map集合对比（仅供自己学习记录）
Java 基础（七）集合源码解析 Map
Map 我们都知道 Map 是键值对关系的集合，并且键唯一，键一对一对应值。关于 Map 的定义，大概就这些吧，...
Map集合Map<Integer,String> m
01Map集合概述 A:Map集合概述:我们通过查看Map接口描述,发现Map接口下的集合与Collection接...

Map集合源码解析与对比

HashMap数据结构

HashMap指针碰撞问题

HashMap线程安全问题

Key不可变对象的好处

Collections对HashMap实现同步

HashMap 和 Hashtable

HashMap 和 LinkedHashMap

HashMap 和 TreeMap

HashMap 和 HashSet

HashMap 和 SparseArray

HashMap和ArrayMap

ConcurrentHashMap

为什么Hashtable、ConcurrentHashmap不支持key或者value为null

JDK1.8新特性

计算index一定是对奇数取膜

JDK1.8 HashMap 部分关键源码

JDK1.8 SynchronizedMap部分源码

参考

相关文章

Map集合源码解析与对比

史上最详尽 Java 8 集合类 HashMap : 底层实现和

集合和MAP源码解析

Java基础之LinkedList源码解析

Java基础之ArrayList源码解析

Java基础之HashTable源码解析

Java基础之LinkedHashMap源码解析

js中的map用法

Java 基础（七）集合源码解析 Map

Map集合Map<Integer,String> m

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读