美文网首页
Java 线性表 ArrayList

Java 线性表 ArrayList

作者: 星邪Ara | 来源:发表于2022-03-28 07:52 被阅读0次

    数组

    • 简单:数组是一种最简单的数据结构
    • 占据连续内存:数组空间连续,按照申请的顺序存储,但是必须制定数组大小
    • 数组空间效率低:数组中经常有空闲的区域没有得到充分的应用
    • 操作麻烦:数组的增加和删除操作很麻烦

    ArrayList 应用场景

    优点:尾插效率高,支持随机访问。
    缺点:中间插入或者删除效率低。

    排序不要使用 ArrayList,经常增删改变位置不要用 ArrayList,效率很低。
    只存放,随机访问,可以使用 ArrayList。
    ArrayList 顺序删除节点要用迭代器从尾部往前删,如果从前往后删的话,会频繁触发 System.arraycopy。
    遍历 ArrayList 尽量使用迭代器。

    优化ArrayList

    如果我们要在集合中添加一百万个数据,它只能是通过每次扩容1.5倍,每次将原数组数据放入新的数组,很明显非常消耗资源。

    构造方法

    在构造ArrayList时传入一个整型,就会直接构造一个该长度的集合,避免一直扩容造成的资源浪费。

    使用普通方法

    还可以使用ensureCapacity(int minCapacity)方法。参数为扩容为目标大小。
    如果要加入大量的数据,这种方式可以比传统方式快10倍以上,加入数据越多,越明显。

    线性表

    为了应对数组的缺点,可以使用线性表。
    按物理结构划分:顺序存储结构(顺序表)、链式存储结构。

    顺序表(ArrayList)

    a1 是 a2 的前驱,ai+1 是 ai 的后继,a1 没有前驱,an 没有后继。
    n 为线性表的长度 ,若 n==0 时,线性表为空表。
    它继承于AbstractList,实现了List、RandomAccess、Cloneable、 Serializable等接口。

    ArrayList不是线程安全的,只能用在单线程环境下,多线程环境下可以考虑用Collections.synchronizedList(List l)函数返回一个线程安全的ArrayList类,也可以使用concurrent并发包下的CopyOnWriteArrayList类。

    ArrayList实现了RandmoAccess接口,即提供了随机访问功能。RandomAccess是java中用来被List实现,为List提供快速访问功能的。在ArrayList中,我们可以通过元素的序号快速获取元素对象,这就是快速随机访问;实现了Cloneable接口,能被克隆;实现了Serializable接口,因此它支持序列化,能够通过序列化传输。

    封装了数组:

    public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable {
        transient Object[] elementData;
        private int size;
    }
    

    ArrayList源码详解

    ArrayList内部通过一个Object数组来存储数据:

    transient Object[] elementData;
    

    ArrayList使用size变量来表示实际存储的元素个数:

    private int size;
    

    ArrayList有以下三个构造方法:

    // 根据initialCapacity来创建具有指定初始容量的ArrayList
    public ArrayList(int initialCapacity)
    // 创建一个默认的ArrayList
    public ArrayList()
    // 根据其他集合来创建ArrayList
    public ArrayList(Collection<? extends E> c)
    

    详细看一下这三个构造方法:

    public ArrayList(int initialCapacity) {
        // 创建指定初始容量的ArrayList
        if (initialCapacity > 0) {
            this.elementData = new Object[initialCapacity];
        }
        // 初始化容量指定为0,则用EMPTY_ELEMENTDATA数组
        else if (initialCapacity == 0) {
            this.elementData = EMPTY_ELEMENTDATA;
        }
        // 否则,抛出IllegalArgumentException异常
        else {
            throw new IllegalArgumentException("Illegal Capacity: "+
                                                initialCapacity);
        }
    }
    

    EMPTY_ELEMENTDATA定义如下(即长度为0的Object数组):

    private static final Object[] EMPTY_ELEMENTDATA = {};
    
    public ArrayList() {
        // 默认ArrayList的内部数组是DEFAULTCAPACITY_EMPTY_ELEMENTDATA
        this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
    }
    

    DEFAULTCAPACITY_EMPTY_ELEMENTDATA声明如下:

    private static final Object[] DEFAULTCAPACITY_EMPTY_ELEMENTDATA = {};
    

    DEFAULTCAPACITY_EMPTY_ELEMENTDATA和EMPTY_ELEMENTDATA是一样的,都是定义为了长度为0的Object数组,那它们有什么区别呢?它们两个的主要区别在于添加第一个元素时,若elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA ,则程序会将其扩充为容量为DEFAULT_CAPACITY的数组,DEFAULT_CAPACITY定义为10,即通过默认的构造方法创建的ArrayList的初始容量是10。我们后面会详细介绍数组的扩容。

    public ArrayList(Collection<? extends E> c) {
        elementData = c.toArray();
        if ((size = elementData.length) != 0) {
            // 通过反射获取数组类型,判定c.toArray类型是否为Object[]类型
            if (elementData.getClass() != Object[].class)
                elementData = Arrays.copyOf(elementData, size, Object[].class);
        } else {
            // 若c为空,则内部数组为EMPTY_ELEMENTDATA
            this.elementData = EMPTY_ELEMENTDATA;
        }
    }
    

    add方法

    ArrayList有两个重载的Add方法:

    // 在数组elementData尾部添加一个元素
    public boolean add(E e)
    // 在数组elementData指定位置index处添加元素
    public void add(int index, E element)
    

    add(E e)方法

    我们先来看add(E e)方法,源码如下:

    // 在数组elementData尾部添加一个元素
    public boolean add(E e) {
        // 容量大小判断
        ensureCapacityInternal(size + 1);  // Increments modCount!!
        elementData[size++] = e;
        return true;
    }
    

    该方法首先要判断elementData数组的容量是否能够容纳新的元素,若不能,则需要进行扩容操作,然后将元素e放置在数组的size位置。ensureCapacityInternal(int)方法源码如下:

    private void ensureCapacityInternal(int minCapacity) {
        // 若elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA
        if (elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA) {
            // minCapacity = max(10, minCapacity)
            minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity);
        }
        // 针对数组最小容量,决定是否扩容
        ensureExplicitCapacity(minCapacity);
    }
    

    前面讲到的DEFAULTCAPACITY_EMPTY_ELEMENTDATA,在这里就起到作用了,若elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA,则会将数组的最小容量设置为10。然后通过ensureExplicitCapacity(int)方法来判断是否要扩容:

    private void ensureExplicitCapacity(int minCapacity) {
        // 增加修改次数
        modCount++;
     
        // overflow-conscious code
        // 增加元素后,ArrayList中要存储的元素个数为minCapacity
        // 若此时minCapacity > elementData原始的容量,则要按照minCapacity进行扩容
        if (minCapacity - elementData.length > 0)
            grow(minCapacity);
    }
    

    扩容的最终操作是通过grow(int)方法来实现的:

    private void grow(int minCapacity) {
        // overflow-conscious code
        // 获取elementData的原始容量
        int oldCapacity = elementData.length;
        // 计算新的容量
        // 若原数组长度为偶数,那么新数组长度就恰好是原数组长度的1.5倍
        // 若原数组长度为奇数,那么新数组长度就恰好是原数组长度的1.5倍 - 1
        int newCapacity = oldCapacity + (oldCapacity >> 1);
        // 若按照1.5倍进行扩容后,capacity仍然比实际需要的小,则新容量更改为实际需要的大小,即minCapacity
        if (newCapacity - minCapacity < 0)
            newCapacity = minCapacity;
        // 如果新数组的长度比虚拟机能够提供给数组的最大存储空间大,则将新数组长度更改为最大正数:Integer.MAX_VALUE
        if (newCapacity - MAX_ARRAY_SIZE > 0)
            newCapacity = hugeCapacity(minCapacity);
        // minCapacity is usually close to size, so this is a win:
        // 按照新的容量newCapacity创建一个新数组,然后再将原数组中的内容copy到新数组中
        elementData = Arrays.copyOf(elementData, newCapacity);
    }
    

    扩容函数整体比较好理解,需要注意的是,若新容量过大,则会通过hugeCapacity(int)方法来进行容量判断:

    private static int hugeCapacity(int minCapacity) {
        // minCapacity < 0则表明数组容量已经超过了虚拟机所能表示的最大容量,抛出OutOfMemoryError
        if (minCapacity < 0) // overflow
            throw new OutOfMemoryError();
        // 否则,若minCapacity > MAX_ARRAY_SIZE,则数组容量为Integer.MAX_VALUE,否则为MAX_ARRAY_SIZE(Integer.MAX_VALUE - 8)
        return (minCapacity > MAX_ARRAY_SIZE) ?
            Integer.MAX_VALUE :
            MAX_ARRAY_SIZE;
    }
    

    add(int index, E element)方法

    add(int index, E element)方法源码如下:

    public void add(int index, E element) {
        // 判断下标index的合法性
        rangeCheckForAdd(index);
     
        // 数组容量判断
        ensureCapacityInternal(size + 1);  // Increments modCount!!
        // 数组拷贝,将index到末尾的元素拷贝到index + 1到末尾的位置,将index的位置留出来
        System.arraycopy(elementData, index, elementData, index + 1,
                            size - index);
        elementData[index] = element;
        size++;
    }
    

    该方法与add(E e)方法类似,只是元素的插入位置不同,该方法需要调用rangeCheckForAdd(int)方法来对index进行合法检验:

    private void rangeCheckForAdd(int index) {
        if (index > size || index < 0)
            throw new IndexOutOfBoundsException(outOfBoundsMsg(index));
    }
    

    若index下标不合法,则抛出IndexOutOfBoundsException异常。

    remove方法

    remove方法在ArrayList中同样有两种实现方式:

    // 根据index下标删除元素
    public E remove(int index)
    // 根据元素删除
    public boolean remove(Object o)
    

    remove(int index)方法

    remove(int index)方法源码如下:

    public E remove(int index) {
        // 下标合法性检验
        rangeCheck(index);
     
        // 修改次数加1
        modCount++;
        // 获取旧的元素值
        E oldValue = elementData(index);
     
        // 计算需要移动的元素个数
        int numMoved = size - index - 1;
        // 将元素向前移动
        if (numMoved > 0)
            System.arraycopy(elementData, index+1, elementData, index,
                                numMoved);
        // 将最后的元素值设置为null
        elementData[--size] = null; // clear to let GC do its work
     
        return oldValue;
    }
    

    这里需要注意一点的就是rangeCheck(int)方法:

    private void rangeCheck(int index) {
        // 若index下标超出size,则抛出IndexOutOfBoundsException异常
        if (index >= size)
            throw new IndexOutOfBoundsException(outOfBoundsMsg(index));
    }
    

    这里只判断了index超出了size,而不需要判断index为负数的情况,这是为什么呢?

    因为该方法总是在访问数组之前被调用,在访问数组时,会对下标为负数进行判断,如果index为负数,则会抛出ArrayIndexOutOfBoundsException异常,所以在这里就没有必要判断了,避免冗余。

    remove(Object o)方法

    remove(Object o)方法源码如下:

    public boolean remove(Object o) {
        // 若删除的元素为null
        if (o == null) {
            for (int index = 0; index < size; index++)
                // 若数组元素为null,则调用fastRemove方法快速删除
                if (elementData[index] == null) {
                    fastRemove(index);
                    return true;
                }
        } 
        // 若删除的元素不为null
        else {
            for (int index = 0; index < size; index++)
                // 找到要删除的元素,调用fastRemove方法快速删除
                if (o.equals(elementData[index])) {
                    fastRemove(index);
                    return true;
                }
        }
        return false;
    }
    

    ArrayList删除元素时,是分为元素为null和不为null两种方式来判断的,这也说明ArrayList允许添加null元素;同时,如果这个元素在ArrayList中存在多个,则只会删除最先出现的那个。

    删除元素,采用了fastRemove(int)方法来快速删除:

    private void fastRemove(int index) {
        // 修改次数加1
        modCount++;
        // 计算需要移动的元素数目
        int numMoved = size - index - 1;
        // 将index之后的元素向前移动一位
        if (numMoved > 0)
            System.arraycopy(elementData, index+1, elementData, index,
                                numMoved);
        // 将数组最后一位置为null
        elementData[--size] = null; // clear to let GC do its work
    }
    

    其他相关方法介绍

    trimToSize()

    trimToSize()源码如下:

    public void trimToSize() {
        // 修改次数加1
        modCount++;
        // trim
        if (size < elementData.length) {
            elementData = (size == 0)
                ? EMPTY_ELEMENTDATA
                : Arrays.copyOf(elementData, size);
        }
    }
    

    该方法的主要工作就是将数组容量修改为size大小,若size为0,则将数组设置为EMPTY_ELEMENTDATA,否则,通过Arrays.copyOf方法来创建新的数组。

    该方法的主要存在意义就是:如果capacity被分配过大,那么可以通过这个方法,将ArrayList实例的capacity的大小修改为数组存储元素的个数,从而缩减ArrayList的存储空间。

    contains(Object o)

    public boolean contains(Object o) {
        return indexOf(o) >= 0;
    }
     
    public int indexOf(Object o) {
        if (o == null) {
            for (int i = 0; i < size; i++)
                if (elementData[i]==null)
                    return i;
        } else {
            for (int i = 0; i < size; i++)
                if (o.equals(elementData[i]))
                    return i;
        }
        return -1;
    }
    

    toArray()

    public Object[] toArray() {
        return Arrays.copyOf(elementData, size);
    }
    

    该方法有可能会抛出java.lang.ClassCastException异常,如果直接用向下转型的方法,将整个ArrayList集合转变为指定类型的Array数组,便会抛出该异常,而如果转化为Array数组时不向下转型,而是将每个元素向下转型,则不会抛出该异常,显然对数组中的元素一个个进行向下转型,效率不高,且不太方便。

    toArray(T[] a)

    public <T> T[] toArray(T[] a) {
        if (a.length < size)
            // Make a new array of a's runtime type, but my contents:
            return (T[]) Arrays.copyOf(elementData, size, a.getClass());
        System.arraycopy(elementData, 0, a, 0, size);
        if (a.length > size)
            a[size] = null;
        return a;
    }
    

    该方法可以直接将ArrayList转换得到的Array进行整体向下转型(转型其实是在该方法的源码中实现的),且从该方法的源码中可以看出,参数a的大小不足时,内部会调用Arrays.copyOf方法,该方法内部创建一个新的数组返回,因此对该方法的常用形式如下:

    public static Integer[] toArray(ArrayList<Integer> v) {
        Integer[] array = (Integer[])v.toArray(new Integer[0]);
        return array;
    }
    

    Arrays.copyOf()、System.arraycopy()

    ArrayList的源码中大量地调用了Arrays.copyof()和System.arraycopy()方法,我们下面深入详解一下这两个方法:

    ArrayList中用的比较多的Arrays.copyOf()方法定义如下:

    public static <T> T[] copyOf(T[] original, int newLength) {
        return (T[]) copyOf(original, newLength, original.getClass());
    }
    

    该方法调用了其重载方法:

    public static <T,U> T[] copyOf(U[] original, int newLength, Class<? extends T[]> newType) {
        @SuppressWarnings("unchecked")
        T[] copy = ((Object)newType == (Object)Object[].class)
            ? (T[]) new Object[newLength]
            : (T[]) Array.newInstance(newType.getComponentType(), newLength);
        System.arraycopy(original, 0, copy, 0,
                            Math.min(original.length, newLength));
        return copy;
    }
    

    该方法实际上是在其内部又创建了一个长度为newlength的数组,调用System.arraycopy()方法,将原来数组中的元素复制到了新的数组中,下面来看System.arraycopy()方法:

    public static native void arraycopy(Object src, 
                                            int  srcPos,
                                            Object dest, int destPos,
                                            int length);
    

    该方法被标记了native,调用了系统的C/C++代码,在JDK中是看不到的,但在openJDK中可以看到其源码:

    static void pd_conjoint_oops_atomic(oop* from, oop* to, size_t count) {
      // Do better than this: inline memmove body  NEEDS CLEANUP
      if (from > to) {
        while (count-- > 0) {
          // Copy forwards
          *to++ = *from++;
        }
      } else {
        from += count - 1;
        to   += count - 1;
        while (count-- > 0) {
          // Copy backwards
          *to-- = *from--;
        }
      }
    }
    

    JVM源码主要思想就是,创建一个新的数组,然后通过上述方法将原数组的数据移动到新数组中。从注释中可以看到,这种实现方式要优于C语言的memmove()方法,因为memmove()方法还需要进行内存清理工作。

    该方法可以保证同一个数组内元素的正确复制和移动,比一般的复制方法的实现效率要高很多,很适合用来批量处理数组。Java强烈推荐在复制大量数组元素时用该方法,以取得更高的效率。

    fail-fast机制

    在ArrayList的源码中,我们经常会看到modCount++这样的代码,其实,modCount是用来实现fail-fast机制的,fail-fast机制是Java集合中的一种错误机制,当多个线程对同一个集合的内容进行操作时,就会发生fail-fast事件,它是一种错误检测机制,只能被用来检测错误,因为JDK并不一定保证fail-fast机制一定会发生。fail-fast机制会尽最大努力来抛出ConcurrentModificationException异常。

    fail-fast机制产生的最初原因是在于程序在对Collection进行迭代时,某个线程对该Collection的结构进行了修改。这时迭代器会抛出ConcurrentModificationException异常,从而产生fail-fast事件。如果单线程违法了规则,也同样会抛出此异常。

    迭代器在调用next()、remove()等方法时都要调用checkForComodification()方法:

    final void checkForComodification() {
        if (modCount != expectedModCount)
            throw new ConcurrentModificationException();
    }
    

    该方法主要是检测modCount是否等于expectedModCount,若不等于,则抛出ConcurrentModificationException异常。

    在创建迭代器时,会将modCount的值赋给expectedModCount,所以在迭代期间,expectedModCount不会改变,在ArrayList中,无论add、remove还是clear方法,只要改变了ArrayList的元素个数,都会导致modCount改变,从而可能导致fail-fast产生。

    fail-fast解决方案

    1、在遍历过程中,所有涉及到改变modCount的地方全部加上synchronized或直接使用Collections.SynchronizedList。但不推荐该方案,因为增删产生的同步锁可能会阻塞遍历操作。

    2、使用CopyOnWriteArrayList来替换ArrayList,比较推荐该方案。

    CopyOnWriteArrayList是 ArrayList的一个线程安全的变体,其中所有可变操作(add、remove等)都是通过对底层数组的一次复制来进行操作的,在以下情况很适用:

    • 在不能或不想进行同步遍历,但是又需要从并发中消除冲突时;
    • 遍历操作的数量大大超过了可变操作的数量,即读多写少时。
      CopyOnWriteArrayList在copy的数组上进行修改,这样就不会影响原数组中的数据,修改完之后,改变原有数据的引用即可。

    对CopyOnWriteArrayList采用了一种读写分离的思想,对CopyOnWriteArrayList进行读取操作不需要加锁。但它存在以下缺点:

    • 因为要复制一份底层数组,所以内存占用比较多;
    • CopyOnWriteArrayList只能保证数据的最终一致性,不能保证数据的实时一致性。

    所以,编写程序时,要进行权衡利弊来选择合适的数据结构。

    原文链接:Java集合之ArrayList详解_DivineH的博客-CSDN博客
    参考:Java 线性表——ArrayList & LinkedList - 少元 - 博客园 (cnblogs.com)

    相关文章

      网友评论

          本文标题:Java 线性表 ArrayList

          本文链接:https://www.haomeiwen.com/subject/eqzkjrtx.html