Android 句柄泄露调查

作者: ade_zhang | 来源:发表于2020-05-14 00:01 被阅读0次

句柄

句柄(file descriptor)即文件描述符，具体解释详见File descriptor，以下简称fd。在android系统中，每个进程最多可以使用1024个fd, 任何一个IO操作都会使用一个fd，比如socket, open file , pipe等等。

句柄泄露

句柄泄露是指程序中已分配的fd由于某种原因未释放或者无法释放，造成fd句柄占用越来越多，当达到上限1024后，程序将发生崩溃。常见的句柄泄露崩溃可能有如下错误日志：

*   Could not read input channel file descriptors from parcel
*   Too many open files
*   file descriptor >= FD_SETSIZE

句柄泄漏调查

在我们的App中，近期发现句柄泄露的问题较严重，故专门针对句柄泄露做了个调查，下面分享一下调查过程。

1 确定问题

针对怀疑的操作过程，反复操作，确定句柄数是否上涨，在android系统中，/proc/pid/为当前进程的一些状态描述信息，/proc/pid/fd下面为句柄信息，一般可通过两种方式查看：

在adb shell中，可通过ls -all /proc/{pid}/fd查看句柄信息，执行该操作需要root后的手机
对于未root的手机，可在程序中读取/proc/self/fd来查看句柄信息，下面是一段在程序中读取并保存为文件的代码

   FileOutputStream os = new FileOutputStream(saveFile);
·       File fddir = new File("/proc/self/fd");
·       int count = 0;
·       for (File ff : fddir.listFiles()) {
·           Date lastModified = new Date(ff.lastModified());
·           String line = String.format("%s -> %s -> %s\n", ff.getName(), lastModified.toString(), ff.getCanonicalPath());
·           os.write(line.getBytes());
·           count += 1;
·       }
·       os.close();

首先保存开始测试时当前的句柄信息到文件，然后开始测试，等测试结束时，再保存对应的句柄信息到文件，对比两个文件的差别，查看增加是否明显，有明显增加，表明存在句柄泄漏。

2 调查泄漏的句柄类型

通过步骤2，可以得到增加的句柄信息，常见的内容如下：

        28 -> /system/framework/smartfaceservice.jar
        280 -> pipe:[572698]
        283 -> anon_inode:dm
        67 -> /storage/emulated/0/example/logs/sdklog/log.txt
        84 -> /data/data/com.example.mobile/databases/accs.db
        96 -> socket:[566584]
        98 -> pipe:[563797]
        99 -> anon_inode:[eventpoll]

针对上面的主要类型做个简单说明：

28、67、84为打开还未关闭的文件句柄，创建方式为下层统一调用libc的open、create及opendir。
280 98 pipe为管道句柄，创建方式为下层统一调用libc的pipe函数
99 anon_inode:[eventpoll]通常为epoll或select创建，创建方式为下层统一调用libc的pipe函数
96 socket为网络连接使用，创建方式下层统一调用libc的socket和socketpair

对比测试发现，我们APP在使用中这三类句柄（socket, pipe , anon_inode）同步增加较多。

3 查找泄漏的代码位置

我们知道，存在泄漏是因为打开了未关闭导致一直增加，那我们要查找具体的代码位置，可以监控每次句柄的创建跟关闭，最后查看剩下的是什么地方创建的即可。在这里可以一类一类追踪，比如针对socket句柄，可以监控socket及socketpair函数来调查、针对pipe可以监控pipe函数来调查，所有句柄关闭均调用libc的close函数，统一监控。

我们调查中统一使用hook 对应libc函数的方式进行监控，针对如何做hook，这里不再详细阐述，外面的hook库也比较多，比如elfhook、xhook等，大家根据喜好，都可以拿来使用。

这里我们最先调查的是pipe的增加，通过上面的方式，在对应的函数里面打印调用堆栈，通过测试完成后，发现增加的pipe均是由下面的堆栈创建：

12-28 17:24:28.005 16150 16813 W System.err: java.lang.Throwable: AM_IN_LIKEVIEW
12-28 17:24:28.005 16150 16813 W System.err:    at android.os.MessageQueue.nativeInit(Native Method)
12-28 17:24:28.015 16150 16813 W System.err:    at android.os.MessageQueue.<init>(MessageQueue.java)
12-28 17:24:28.015 16150 16813 W System.err:    at android.os.Looper.<init>(Looper.java)
12-28 17:24:28.015 16150 16813 W System.err:    at android.os.Looper.prepare(Looper.java)
12-28 17:24:28.015 16150 16813 W System.err:    at android.os.Looper.prepare(Looper.java)
12-28 17:24:28.015 16150 16813 W System.err:    at android.os.HandlerThread.run(HandlerThread.java)
12-28 17:24:28.015 16150 16813 W DX_UTIL: HOOK user call pipe[300, 302]

可以看出，泄漏的pipe是由Looper使用，它是在Looper.prepare的时候创建，这里Throwable里面的字符串为我们自己输出的线程名，可以看出线程为AM_IN_LIKEVIEW，由线程名可以定位到具体代码为视频播放界面里的DrawThread。

4 分析泄漏原因

查看DrawThread代码， DrawThread为一个HandlerThread，初步调查并无异常，并且每次退出有调用quit，进一步分析DrawThread，会发现存在一个可疑对象ValueAnimator， ValueAnimator一般为主线程使用，而这里在非主线程使用是否会存在问题，于是测试去掉ValueAnimator，发现句柄不再泄漏，那可以确定就是ValueAnimator的问题。

接下来查看ValueAnimator源码：

    public class ValueAnimator extends Animator {
 
    // The static sAnimationHandler processes the internal timing loop on which all animations
    // are based
    /**
    * @hide
    */
    protected static ThreadLocal<AnimationHandler> sAnimationHandler = new ThreadLocal<AnimationHandler>();

再看AnimationHandler如下：

    protected static class AnimationHandler implements Runnable {
 
    private final Choreographer mChoreographer;
 
    private AnimationHandler() {
        mChoreographer = Choreographer.getInstance();
    }

Choreographer如下：

    public final class Choreographer {
 
    private final Looper mLooper;
 
    // Thread local storage for the choreographer.
    private static final ThreadLocal<Choreographer> sThreadInstance =
        new ThreadLocal<Choreographer>() {
            @Override
            protected Choreographer initialValue() {
                Looper looper = Looper.myLooper();
                if (looper == null) {
                    throw new IllegalStateException("The current thread must have a looper!");
                }
                return new Choreographer(looper);
            }
    };
 
 
    /**
    * Gets the choreographer for the calling thread.  Must be called from
    * a thread that already has a {@link android.os.Looper} associated with it.
    *
    * @return The choreographer for this thread.
    * @throws IllegalStateException if the thread does not have a looper.
    */
    public static Choreographer getInstance() {
        return sThreadInstance.get();
    }

到这里就清晰了，我们知道，ThreadLocal维护变量时，为每个使用该变量的线程提供独立的变量副本，因此，当前调用线程的looper都会被一个静态变量引用，并且一直不会释放，导致了looper不会被回收，进而导致了相关资源的泄漏。

注：这里解释一下Looper跟上面泄漏的三类句柄（socket, pipe , anon_inode）的关系：
      Looper在创建消息循环时，会使用pipe, socketpair创建流管道，anon_inode为做消息监听，因此会创建对应句柄。

5 修复问题：

从4可以知道ValueAnimator都会导致对应的线程looper被保存，从而导致当前线程不能被回收，所以，ValueAnimator应该在主线程使用或者开一个一直存在的单独线程运行，不能每次都创建一个线程。

网友评论

Android相关

本文标题：Android 句柄泄露调查

本文链接：https://www.haomeiwen.com/subject/euganhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！