说是第一次,可是断断续续的也看了一些,今天就是对之前自己对HashMap认识的一个总结吧!
Map作为我们在开发过程中使用频率较高的一个接口,我们用到的最多的应该是HashMap了吧,用的最多,但是最亲密的事物往往最容易被忽略。今天,不管是为了接下来出去面试,还是在今后的使用过程中去提高使用它的效率,我们都有必要去进一步深入了解它。
话不多说,我们先去看看Map这个大家庭常见的成员都有什么吧!
![](https://img.haomeiwen.com/i6897204/30f6955fc7302932.png)
常见的就是这些了,大家有时间可以自己去看看,今天,HashMap才是主角!
我们先去看看HashMap中的一些常量,存在即合理,看看他们究竟有什么作用!先上图:
![](https://img.haomeiwen.com/i6897204/b4fe462eab6dddc3.png)
接下来我们去认识每一个常量:
1、DEFAULT_INITIAL_CAPACITY:这个指的是默认初始容量为1<<4,也就是16,这个值必须是2的幂次方,至于为什么后边会做解答。
也许有的人看着有点懵(对位运算不是很了解),这里稍作解释,大神可以直接略过。
移运算就是在二进制的基础上对数字进行平移。1对应的二进制数为0000000000000001,然后对这个值进行位运算(<<就是向左移),左移4位后得到的二进制数位0000000000010000,即16,。为什么就是16呢,说一下,0001对应的是2的0次幂,就是1;0010对应的就是2的1次幂,就是2;以此类推,0100就是4,1000就是8,10000就是16了,具体的算法就是底数是2,指数为1所在的位数-1(或者说就是右移几位,就是几次方),得到的就是我们计算的结果。所以说16就是这么来的。
2、MAXIMUM_CAPACITY:这个指的是最大容量为1<<30,也就是2的30次方。
3、DEFAULT_LOAD_FACTOR:这个指的是默认的负载因子的值为0.75。
负载因子:指的是一个散列表的空间的使用程度。在HashMap中利用DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR去计算HashMap的大小(threshold,也就是常说的阈值),就是超过这个值就需要扩容了。换句话来说,当你的负载因子足够大时,需要扩容的机会就比较小,所以空间上相对占用的内存就比较少,导致每个Entry的链表上的元素就会增多,查询效率就降低了。反之,当你的负载因子较小时,需要扩容的机会就会比较多,所以空间上占用的内存相对较多,Entry链上的元素较少,查询效率就比较高。所以从理论上来说,在设置负载因子的时候你要考虑是追求时间上的效率还是空间上的效率。
4、TREEIFY_THRESHOLD:这个指的是链表转成树的一个临界值,就是java8以后,每个桶的链表上的元素>8的时候,就会转换成树。
5、UNTREEIFY_THRESHOLD:这个指的是如果发现链表长度小于 6,则会由树重新再转化为链表。
6、MIN_TREEIFY_CAPACITY: 在链表转变成树之前会进行判断,如果HashMap中的大小>=64才会转换为树,否则只会扩容。这是为了避免在哈希表建立初期,多个键值对恰好被放入了同一个链表中而导致不必要的转化。
好了,再去看看HashMap的构造方法吧!
![](https://img.haomeiwen.com/i6897204/b7a63274260cbe7c.png)
我们通过对上边的常量进行介绍,很多逻辑已经一目了然了吧,现在就去看一看一些比较中重要的方法吧:
1、首先是this.threshold =tableSizeFor(initialCapacity);我们点进去看一下:
![](https://img.haomeiwen.com/i6897204/9141d743cc4fa5a5.png)
这个方法是我们在初始化HashMap的时候,由于HashMap的CAPACITY都是2的幂,因此这个方法用于找到大于等于初始Capacity的最小的2的幂。下面对这个运算稍作解释:
假设传入的cap为20:
![](https://img.haomeiwen.com/i6897204/b50ee40b4e6fa103.png)
再看看上边最后的三元运算,得到的就是32了吧,是不是大于等于初始Capacity的最小的2的幂呢?
2、然后就是最后一个构造器中的putMapEntries(m, false);点进去看一下其实就是把另一个Map的值映射到当前的新Map中。
![](https://img.haomeiwen.com/i6897204/004985db755edd07.png)
接下里,我们去看看HashMap的内部结构:
![](https://img.haomeiwen.com/i6897204/760e13866f27309f.png)
HashMap从宏观的角度是由数组+链表+红黑树三种数据解构实现的。首先,HashMap主要会通过计算key的HashCode()方法来获取存储位置(将key的Hash值对桶的个数进行取模:hash%length),但是由于Hash函数有几率促使多个key的hashCode一样的情况,导致了一个数组的一个位置会出现多条记录(Hash冲突),这种现象无法避免,于是提出了开放地址法(发生冲突,继续寻找下一块未被占用的存储地址),再散列函数法,链地址法。HashMap采用了链地址法,将hashCode相同的记录放在数组下标相同位置上,多个hashCode相同的记录被存储在一条链表上,由于链表的查询速度随着元素的增多会不断降低,当元素数量足够多的时候,就会严重影响到查询效率,于是HashMap在链表的长度大于8的时候就会将链表转换为红黑树。
为什么链表会转红黑树呢?因为Map中桶的元素初始化是链表保存的,其查找性能是O(n),而树结构能将查找性能提升到O(log(n))。当链表长度很小的时候,即使遍历,速度也非常快,但是当链表长度不断变长,肯定会对查询性能有一定的影响,所以才需要转成树(这块的解释可能不是很清晰,需要大家去深究一下数据结构了)。
Map中元素的结构(Node):
![](https://img.haomeiwen.com/i6897204/33f0751f2e415405.png)
这个地方的hash()方法,返回的只是一个hash值,首先计算key的hashCode,然后再将这个值右移16位(二进制),最后用key计算的hashCode和友谊16位后的结果进行异或运算,得到了结果,怎么去得到存储位置,我们下边再介绍。
![](https://img.haomeiwen.com/i6897204/3a66d51b4b024e7a.png)
接下来我们看一下HashMap中一些常用的方法(讲道理,源码这个编码习惯个人实在是受不了,给人乱七八糟的感觉,大神都这样吗?):
get方法:
![](https://img.haomeiwen.com/i6897204/9541aae6e370f675.png)
put方法:
![](https://img.haomeiwen.com/i6897204/a2e2d65cd71a7e2d.png)
resize方法:
![](https://img.haomeiwen.com/i6897204/0ba4832f6b8034a0.png)
remove方法:
![](https://img.haomeiwen.com/i6897204/c4fdbd9c8d209ea2.png)
HashMap里边的东西还是挺多的,这里只是对一些比较表面,比较基础的东西介绍了一下,还有一些方法这里没有涉及,比如一些关于红黑树和链表之间的转换也是很重要的,但是涉及到了数据结构这一块多少有点虚,还得学啊!希望后边有机会再和大家交流吧!这次的分享就到这里吧,不知道这里对您有没有帮助,希望大家多多批评指正吧!是学习也是蜕变,不驰于空想,不骛于虚声 !
网友评论