散列表

作者: 某昆 | 来源:发表于2017-03-12 13:10 被阅读90次

    目录:

    1、前言
    2、散列表性质
    3、HashMap源码解析

    前言

    散列表,也称哈希表,是一种常见的数据结构。相信很多同学在面试的时候会遇到如下问题,本文介绍的散列表可以解决。

    一个很大的文件中,有较多的相同词汇,如何统计排名前k的词汇出现的次数?

    散列表从组织列式上看,是键值对的集合,它是数组的一种延伸。但数组最大的优势就是,直接寻址,知道了元素的索引,只需要花费O(1)的时间就能找到此元素。但在日常生活中往往不知道元素的具体索引,比如说要在成绩系统中找出张三的语文成绩,关键字为“张三”,但“张三”具体在成绩表中的第几栏不清楚,还是得花费O(N)时间查找。

    是否有办法,知道关键字就能知道元素索引?如果两个关键字对应的索引一致(冲突)该怎么办?

    散列表性质

    散列表是一种特殊的数据结构,希望在任何时候查找的效率都为O(1)。它的底层是由数组和链表实现的。

    散列表对关键字进行哈希求值,哈希值即是元素在数组中的索引。求取哈希值,再根据索引在数组中获取对应的元素,这样查找的效率就是O(1)了。

    如果两个关键字哈希值一致,此时生成一个链表,链表的头结点在数组中,链表中的元素则为其它哈希值为此索引的元素。

    image.png

    可以将数组中的每个位置称为槽,如果此槽位已经存在元素了,则将此槽位上的元素next指针指向新元素

    由以上定义可知,散列表理想情况下,查找效率为o(1),最差情况则是,所以元素的哈希值都相同,全部在链表上,此时查找效率为O(N),所以散列表中,哈希算法非常重要,每个关键字的哈希值必须唯一,且不能存在较多不同关键字对应着同一个哈希值的现象

    常见的哈希算法为:

    • 除法散列,h(k)= k mod m,m值不能太小且不能为2的幂,算法简单甚至简陋
    • 乘法散列,h(k)=floor(m(kA mod 1)),此方法比除法稍好点,但也很简单
    • 全域散列法,具体而言就是随机选取一种哈希算法

    关于哈希算法,本文不再过多讨论,java选手这点比较好,哈希算法java中已经有比较成熟的应用了,不需要自己动手再写了。关于散列表相关的其它推导,定理之类的本文也不再复述,有兴趣者去看算法导论吧

    HashMap源码解析

    先看看HashMap中的关键成员变量。

      //存储元素的数组
      transient Node<K,V>[] table;
      //默认的负载因子,如果(负载因子)x(容量)>(Map 大小),则调整 Map 大小
      static final float DEFAULT_LOAD_FACTOR = 0.75f;
      //散列表的默认大小上限值,如果大于此则调整散列表大小
      static final int TREEIFY_THRESHOLD = 8;
    
    
      //数组中存放的元素类,注意看next,是不是相当眼熟,链表的组织形式
      static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;
        ......
      }
      //根据关键字计算哈希值
      static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }
    

    HashMap中最重要的便是两个方法,插入元素和查找元素,下面我们来看看散列表是如何插入元素和查找元素的吧

    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //如果内部数组为空或长度为0,则初始化内部数组
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        //根据哈希值找到的数组中的槽位,如果槽位上的元素为null,则说明此槽位没有已插入元素,
        //直接插入新元素即可
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            //如果根据哈希找到的槽位已经有元素了,且关键字和待插入元素关键字一致,
            //则将已有元素的value更新成待插入元素的value
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            //如果数组中存放的是TreeNode,则另行讨论
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
            //如果找到的元素槽位已有元素,且关键字和待插入元素不一致,则将已有元素
            //当成链表的头结点,插入到此链表中
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            //对应第一种最简单的情况,更新已有元素的value值
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        //直接插入新元素后,增大size,如果size大于临界值,则数组扩容
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }
    

    查找元素也类似于插入操作,先求关键字的哈希值,再去对应槽位中查找,如果关键字相同找返回要找的元素,如果不同则去链表查找或其它。

    //hash参数是已经计算好的key的哈希值
    //哈希值为hash,则在数组中的位置为[(n - 1) & hash]
    final Node<K,V> getNode(int hash, Object key) {
        Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
        if ((tab = table) != null && (n = tab.length) > 0 &&
            (first = tab[(n - 1) & hash]) != null) {
            //最顺利情况,[(n - 1) & hash]上的索引即为需要查找的元素
            if (first.hash == hash && // always check first node
                ((k = first.key) == key || (key != null && key.equals(k))))
                return first;
            if ((e = first.next) != null) {
                //TreeNode使用其它方法查找,它是使用树实现的,本文中暂不讨论
                if (first instanceof TreeNode)
                    return ((TreeNode<K,V>)first).getTreeNode(hash, key);
                do {
                //链表搜索法,不停查找结点的next节点,如果关键字相同则返回
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        return e;
                } while ((e = e.next) != null);
            }
        }
        return null;
    }
    

    从以上代码中也可以看出HashMap是非线程安全的,在插入过程中并未加同步锁,只是将关键成员变量设置成transient 而已,然后transient 并不能代替同步锁。

    整个HashMap源码暂时分析到这,其它的操作,诸如扩充数组,计算大小,都相对比较简单了,阅读源码只要不被代码吓住,慢慢看,分解看,还是相当容易的。

    相关文章

      网友评论

        本文标题:散列表

        本文链接:https://www.haomeiwen.com/subject/mhptnttx.html