数据结构之散列表

作者: david161 | 来源:发表于2022-04-30 22:20 被阅读0次

学习JavaScript数据结构与算法(第2版)
数据结构之散列表
数据结构之散列表
数据结构之散列表
数据结构之散列表
算法图解-散列表
散列表
散列表下
散列表下
基础概念

散列表也叫作哈希表（hash table），这种数据结构提供了键（Key）和值（Value）的映射关系。只要给出一个Key，就可以高效查找到它所匹配的Value，时间复杂度接近于O(1)。

image.png

存储原理

哈希函数，散列表在本质上也是一个数组，散列表的Key是以字符串类型为主的，通过hash函数把Key和数组下标进行转换，作用是把任意长度的输入通过散列算法转换成固定类型、固定长度的散列值。

image.png

以Java为例：

//数组下标=取key的hashcode模数组的长度后的余数 
index = HashCode (Key) % Array.length 
int index=Math.abs("Hello".hashCode())%10; （0-9）

这是最简单的计算方式
还有很多hash函数：CRC16、CRC32、siphash 、murmurHash、times 33等
此种Hash计算方式为固定Hash方式，也称为传统Hash
该方式在数组固定时，可以快速检索
但当数组长度变化时，需要重新计算数组下标，此时根据key检索将出现问题
所以说传统Hash法虽然比较简单，但不利于扩展，如果要扩展可以采用一致性Hash法

操作

1）写操作（put）
写操作就是在散列表中插入新的键值对（在JDK中叫作Entry或Node）第1步，通过哈希函数，把Key转化成数组下标
第2步，如果数组下标对应的位置没有元素，就把这个Entry填充到数组下标的位置。

image.png

2）Hash冲突（碰撞）
由于数组的长度是有限的，当插入的Entry越来越多时，不同的Key通过哈希函数获得的下标有可能是相同的，这种情况，就叫作哈希冲突。

image.png
解决哈希冲突的方法主要有两种：

开放寻址法

开放寻址法的原理是当一个Key通过哈希函数获得对应的数组下标已被占用时，就寻找下一个空档位置

image.png

在Java中，ThreadLocal所使用的就是开放寻址法

链表法

数组的每一个元素不仅是一个Entry对象，还是一个链表的头节点。每一个Entry对象通过next指针指向它的下一个Entry节点。当新来的Entry映射到与之冲突的数组位置时，只需要插入到对应的链表中即可，默认next指向null

image.png

在Entry中保存key和值，以及next指针

Entry{
    int key; 
    Object value; 
    Entry next; 
}

当根据key查找值的时候，在index=2的位置是一个单链表
遍历该单链表，再根据key即可取值
1）读操作（get）
读操作就是通过给定的Key，在散列表中查找对应的Value
第1步，通过哈希函数，把Key转化成数组下标
第2步，找到数组下标所对应的元素，如果key不正确，说明产生了hash冲突，
则顺着头节点遍历该单链表，再根据key即可取值

image.png

2）Hash扩容（resize）
散列表是基于数组实现的，所以散列表需要扩容
当经过多次元素插入，散列表达到一定饱和度时，Key映射位置发生冲突的概率会逐渐提高。这样一来，大量元素拥挤在相同的数组下标位置，形成很长的链表，对后续插入操作和查询操作的性能
都有很大影响
影响扩容的因素有两个
Capacity：HashMap的当前长度
LoadFactor：HashMap的负载因子（阈值），默认值为0.75f
当HashMap.Size >= Capacity×LoadFactor时，需要进行扩容
扩容的步骤：

扩容，创建一个新的Entry空数组，长度是原数组的2倍
重新Hash，遍历原Entry数组，把所有的Entry重新Hash到新数组中

image.png

关于HashMap的实现，JDK 8和以前的版本有着很大的不同。当多个Entry被Hash到同一个数组下标位置时，为了提升插入和查找的效率，HashMap会把Entry的链表转化为红黑树这种数据结构。
JDK1.8前在HashMap扩容时，会反序单链表，这样在高并发时会有死循环的可能

实现代码

package com.david.ds.hashmap; 

/**
* 结点 
*/ 
public class Node { 
    String key; 
    String value; 
    
    // 指向下一个结点 
    Node next; 
    
    public Node(String key, String value, Node next) { 
        this.key = key; 
        this.value = value; 
        this.next = next; 
    } 
    
}

/**
* 单链表 
*/ 
public class ListNode { 
    Node head; //头结点 
    
    /**
    * 添加单链表结点 
    *
    * @param key
    * @param value
    */
    public void addNode(String key, String value) {
        //在外界设置好head了
        if (head == null) return;
        //  创建结点
        Node node = new Node(key, value, null);
        // 临时变量
        Node tmp = head;

        //循环单链表
        while (true) {
            //key相同覆盖值，从head开始
            if (key.equals(tmp.key)) {
                tmp.value = value;
            }

            if (tmp.next == null) {
                break;
            }

            //指向下一个
            tmp = tmp.next;
        }

        //在循环外挂载最后一个结点
        tmp.next = node;
    }


    /**
    * 获得值
    * 
    * @param key
    * @return
    */
    public String getVal(String key) {
        if (head == null) return null;
        //只有一个结点
        if (head.next == null) {
            return head.value;
        }
        //遍历单链表
        else {
            Node tmp = head;
            while (tmp != null) {
                //找到匹配的key
                if (key.equals(tmp.key)) {
                    return tmp.value;
                }
                //指向下一个
                tmp = tmp.next;
            }
            return null;
        }
    }
}

/**
* 手动HashMap
*/
public class MyHashMap {
    //数组初始化，2的n次方
    ListNode[] map = new ListNode[8];
    //ListNode的个数
    int size;

    final double factor = 0.75;

    /**
    * 设置值
    * @param key
    * @param value
    */
    public void put(String key, String value) {
        //该扩容了
        if(size >= map.length * factor) {
            System.out.println("map need resize");
            return;
        }
        //计算索引数组下标
        int index = Math.abs(key.hashCode()) % map.length;
        //获得该下标处的ListNode
        ListNode ln = map[index];

        //该下标处无值
        if (ln == null) {
            //创建单链表
            ListNode lnNew = new ListNode();
            //创建头节点
            Node head = new Node(key, value, null);
            //挂载头节点
            lnNew.head = head;
            //把单链放到数组里
            map[index] = lnNew;
            size++;
        }
        //该下标有值，hash碰撞
        else {
            //单链表挂结点
            ln.addNode(key, value);
        }
    }

    /**
    * 取值
    * @param key
    * @return
    */
    public String get(String key) {
        int index = Math.abs(key.hashCode()) % map.length;
        ListNode ln = map[index];
        if (ln == null) return null;
        return ln.getVal(key);
    }

    public static void main(String[] args) {
        MyHashMap hashMap = new MyHashMap();
        hashMap.put();
        hashMap.put();
        hashMap.put();
        System.out.println(hashMap.get("c1"));
    }
}

时间复杂度

写操作： O(1) + O(m) = O(m) m为单链元素个数
读操作：O(1) + O(m) m为单链元素个数
Hash冲突写单链表：O(m)
Hash扩容：O(n) n是数组元素个数 rehash
Hash冲突读单链表：O(m) m为单链元素个数

优缺点

优点：读写快
缺点：哈希表中的元素是没有被排序的、Hash冲突、扩容重新计算

应用

HashMap

JDK1.7中HashMap使用一个table数组来存储数据，用key的hashcode取模来决定key会被放到数组里的位置，如果hashcode相同，或者hashcode取模后的结果相同，那么这些key会被定位到Entry数组的同一个格子里，这些key会形成一个链表，在极端情况下比如说所有key的hashcode都相同，将会导致这个链表会很长，那么put/get操作需要遍历整个链表，那么最差情况下时间复杂度变为O（n）。
扩容死链
针对JDK1.7中的这个性能缺陷，JDK1.8中的table数组中可能存放的是链表结构，也可能存放的是红黑树结构，如果链表中节点数量不超过8个则使用链表存储，超过8个会调用treeifyBin函数，将链表转换为红黑树。那么即使所有key的hashcode完全相同，由于红黑树的特点，查找某个特定元素，也只需要O（logn）的开销。

image.png

字典

Redis字典dict又称散列表（hash），是用来存储键值对的一种数据结构。
Redis整个数据库是用字典来存储的。（K-V结构）
对Redis进行CURD操作其实就是对字典中的数据进行CURD操作。
Redis字典实现包括：字典(dict)、Hash表(dictht)、Hash表节点(dictEntry)。

image.png

布隆过滤器

布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机hash映射函数。
布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法。

image.png

布隆过滤器的原理是，当一个元素被加入集合时，通过K个Hash函数将这个元素映射成一个数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

位图

Bitmap 的基本原理就是用一个 bit 来标记某个元素对应的 Value，而 Key 即是该元素。由于采用一个bit 来存储一个数据，因此可以大大的节省空间。
Java 中 int 类型占用 4 个字节，即 4 byte，又 1 byte = 8 bit，所以一个 int 数字的表示大概如下:

image.png

试想以下，如果有一个很大的 int 数组，如 10000000，数组中每一个数值都要占用 4 个字节，则一共需要占用 10000000 * 4 = 40000000 个字节，即 40000000 / 1024.0 / 1024.0 = 38 M如果使用 bit 来存放上述 10000000 个元素，只需要 10000000 个 bit 即可， 10000000 / 8.0 / 1024.0/ 1024.0 = 1.19 M 左右，可以看到 bitmap 可以大大的节约内存。
使用 bit 来表示数组 [1, 2, 5] 如下所示，可以看到只用 1 字节即可表示：

image.png