移动端监控体系之技术原理剖析

作者: Joy___ | 来源:发表于2017-02-24 21:55 被阅读9706次

在这样一个注重用户体验的时代,APM 技术快速发展,国内更是百花齐放,最近对各个公司的 APM 产品有一个调研,并在此基础上进行了自己的实践。这里就从 iOS 的角度出发,谈谈自己对移动端 APM 的技术上的理解,并提供相对应的实例。

何为 APM

APM 的全称是Application performance management,即应用性能管理,通过对应用的可靠性、稳定性等方面的监控,进而达到可以快速修复问题、提高用户体验的目的。

国内各大公司都有自己的一套监控体系,这个系统可能是自己研发,也可能是第三方提供,当然对于这个数据为王的时代,很多有实力的公司倾向于自主研发,掌握核心数据。比较有代表性的 APM 产品有:听云、阿里百川、腾讯 bugly、NewRelic、OneAPM、网易云捕等

说到监控,那么指标是我们所关注的呢?如下所示

  • 网络请求:成功率、状态码、流量、网络响应时间、HTTP与HTTPS的 DNS 解析、TCP握手、SSL握手(HTTP除外)、首包时间等时间
  • 界面卡顿、卡顿堆栈
  • 崩溃率、崩溃堆栈
  • Abort 率:也就是由于内存过高的等原因,被系统杀死的情况
  • 交互监控:页面加载时间、页面的交互痕迹
  • 维度信息:地域、运营商、网络接入方式、操作系统、应用版本等
  • 其他:内存、帧率、CPU使用率、启动时间、电量等

聊聊原理

卡顿检测

当应用发生卡顿的时候,一般会伴随着掉帧,所以帧率是最容易想到的指标来判断卡顿。对于线下的测试环境,我们可以使用帧率来对开发做一些提示,告诉他们可能发生了卡顿。但是帧率不稳定性较高,所以一般会采取另一种方式来做卡顿检测。那就是Runloop,对于细节可以查看 Runloop 源码,会发现对于事件的处理主要就是在kCFRunLoopBeforeSourceskCFRunLoopBeforeWaiting状态之间,还有kCFRunLoopAfterWaiting之后。那我们就可以对两个状态进行监控,如果消耗时间太久,就代表着卡顿的发生。

阿里百川

上图摘自阿里百川,如图所示,我们会对卡顿次数做一个判断,如果次数为1,但时间超时,则为单次耗时较长的卡顿,如果次数到达阀值,则证明是连续短时间卡顿。

当卡顿发生之后,我们为了定位,会收集当时的一个堆栈情况,在此你可以使用 PLCrashReporter 来做,也可以自己研发一个堆栈收集库(可参考这里来做

对于实例,网上已经有很多开源的项目,你可以参考这个

崩溃检测

对于崩溃的情况,一般是由 Mach异常或 Objective-C 异常(NSException)引起的。我们可以针对这两种情况抓取对应的 Crash 事件。

Mach 异常捕获

如果想要做mach 异常捕获,需要注册一个异常端口,这个异常端口会对当前任务的所有线程有效,如果想要针对单个线程,可以通过 thread_set_exception_ports注册自己的异常端口,发生异常时,首先会将异常抛给线程的异常端口,然后尝试抛给任务的异常端口,当我们捕获异常时,就可以做一些自己的工作,比如,当前堆栈收集等。

对于如何注册一个异常端口,这里有示意图和 PLCrashReporter 可以参考

Unix 信号捕获

对于Mach 异常,操作系统会将其转换为对应的 Unix信号,所以如果你对Mach不熟悉的话,也可以通过注册signalHandler的方式来做信号异常。对于实例,你可以参考这里

signal(SIGHUP, signalHandler);
signal(SIGINT, signalHandler);
signal(SIGQUIT, signalHandler);
   
signal(SIGABRT, signalHandler);
signal(SIGILL, signalHandler);
signal(SIGSEGV, signalHandler);
signal(SIGFPE, signalHandler);
signal(SIGBUS, signalHandler);
signal(SIGPIPE, signalHandler);

NSException 捕获

对于NSException异常,也比较容易处理,通过注册NSUncaughtExceptionHandler捕获异常信息即可,将拿到的NSException细节写入Crash日志,上传到后台做数据分析

 // register the uncaught exception handler
 NSSetUncaughtExceptionHandler(&handler);

Abort 率检测

目前对于内存过高被杀死的情况是没有办法直接统计的,一般通过排除法来做百分比的统计,原理如下

  • 程序启动,设置标志位
  • 程序正常退出,清楚标志
  • 程序Crash,清楚标志
  • 程序电量过低导致关机,这个也没办法直接监控,可以加入电量检测来辅助判断
  • 第二次启动,标志位如果存在,则代表Abort一次,上传后台做统计
阿里百川

交互监控

对于页面的加载时间,这个比较容易实现,直接通过Runtime hook对应的生命周期方法即可,比如 viewDidLoadviewWillAppear

对于用户的交互痕迹,比如点击了那个按钮、跳转到了那个页面,这些信息偏于用户行为的收集,我们也独立研发了一个无埋点的SDK,专门来做用户行为数据的收集与分析,核心也是基于 hook AOP的思想。细节可以参考我同事的作品

网络监控

对于成功率、状态码、流量,以及网络的响应时间之类的,我们可以主要可以通过两种方式来做

  • 针对URLConnectionCFNetworkNSURLSession三种网络做Hookhook的具体技术可以是method swizzle 也可以是ProxyFishhook之类的
  • 也可以使用 NSURLProtocol 对网络请求的拦截,进而得到流量、响应时间等信息,但是NSURLProtocol有自己的局限,比如NSURLProtocol只能拦截NSURLSessionNSURLConnection以及UIWebView,但是对于CFNetwork则无能为力

对于第一种方式可以Hook哪些方法的,可以参考这个图

对于 HTTP与HTTPS 的 DNS 解析、TCP握手、SSL握手(HTTP除外)、首包时间等时间的统计,稍有难度

但是,因为我们所使用的URLConnectionCFNetworkNSURLSession底层都是 BSDSocket,所以可以尝试在socket上动手脚来实现效果,类似于通过ViewController的生命周期方法来统计页面加载时间的做法,我们Hook socket相关的方法来做,比如通过hook socket连接时的 connect方法,拿到tcp握手的起始时间,通过hook SSLHandshake方法,在SSLHandshake执行的时候拿到 SSL握手的起始时间等。目前听云已经提供了 HTTP 的分段时间查询功能,大家去体验下

int connect(int, const struct sockaddr *, socklen_t) __DARWIN_ALIAS_C(connect);

OSStatus SSLHandshake(SSLContextRef ctx) 

但是对于 iOS 9 Apple 加入 ATS 新特性,并要求开发者使用 HTTPS,我在 iOS9、10上对 HTTPS 网络请求Hook socket方法时候,有一些方法hook 失效,猜想应该是Apple 进行了加固、加密,导致一些系统方法没办法hook,所以在 iOS9、10 上无法通过socket来取得HTTPS网络的分段时间(纠正:fishhook 无法 hook socket 的原因:https://github.com/facebook/fishhook/issues/40

不过apple在 iOS 10 推出一个API,可以在 iOS10 版本以上进行网络信息的收集

- (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didFinishCollectingMetrics:(NSURLSessionTaskMetrics *)metrics 

打印结果如下

(Fetch Start) 2017-02-24 09:03:06 +0000
(Domain Lookup Start) 2017-02-24 09:03:06 +0000
(Domain Lookup End) 2017-02-24 09:03:06 +0000
(Connect Start) 2017-02-24 09:03:14 +0000
(Secure Connection Start) 2017-02-24 09:03:14 +0000
(Secure Connection End) 2017-02-24 09:03:16 +0000
(Connect End) 2017-02-24 09:03:16 +0000
(Request Start) 2017-02-24 09:03:16 +0000
(Request End) 2017-02-24 09:03:16 +0000
(Response Start) 2017-02-24 09:03:16 +0000
(Response End) 2017-02-24 09:03:16 +0000

当然,对于网络各层次的时间获取,如果你有好的方案,希望您可以留言告知。同时对于一些维度信息和内存等基础指标,很容易获取,这里就不细谈了

大礼包

在调研和学习APM技术的过程中,发现了很多优秀的博客,所以在此推荐给大家,有需要的可以自取

相关文章

  • 移动端性能监控

    1.移动端监控体系之技术原理剖析2.iOS KSCrash的使用3.OOMDetectorOOMDetector是...

  • bugly的原理

    1.检测卡顿的原理 2.检测崩溃的原理 3.符号化 移动端监控体系之技术原理剖析[https://www.jian...

  • iOS文章 - 收藏集 - 掘金

    移动端监控体系之技术原理剖析 - iOS - 掘金在这样一个注重用户体验的时代,APM 技术快速发展,国内更是百...

  • 移动端监控体系之技术原理剖析

    在这样一个注重用户体验的时代,APM 技术快速发展,国内更是百花齐放,最近对各个公司的 APM 产品有一个调研,并...

  • 卡顿检测资料

    微信iOS卡顿监控系统 卡顿方案思考 卡顿检测 移动端监控体系之技术原理 iOS性能检测

  • 移动客户端开发笔记3

    数据 2016 移动应用质量大数据报告 主要是针对Crash和ANR的统计。 文章推荐 移动端监控体系之技术原理剖...

  • 移动端监控体系

    https://www.jianshu.com/p/8123fc17fe0e

  • 微信小程序底层原理剖析

    微信小程序底层原理剖析 随着前端技术的不断演进,目前市面上的移动端产品有像大前端转换的趋势。开发一个产品主流上大致...

  • 原理剖析(第 010 篇)Netty之服务端启动工作原理分析(上

    原理剖析(第 010 篇)Netty之服务端启动工作原理分析(上) 一、大致介绍 二、简单认识Netty 2.1 ...

  • 车牌识别技术的前世今生

    手机也能用的移动端车牌识别技术 核心技术:移动车牌识别技术,ios车牌识别,车牌识别技术移动端,移动端车牌识别技术...

网友评论

  • halohily:跟着Joy总能学到新知识:clap:
  • allen8300:您好,有一个细节问题需要请教:
    假如现在我有个图片App,每张图片都用SDWebImage来获取;
    那么,我怎么知道究竟是哪个“子线程”加载"卡顿"呢?
    Joy___:@allen8300 我觉得如果不考虑包大小,推荐 PL 吧 很多第三方crash采集框架都是基于PL 的,至于 BSBacktraceLogger 可以阅读源码学习思路,堆栈信息我没有详细比较过
    allen8300:@Joy___ sorry, 我刚描述的有点问题;
    我分别尝试了下面两个比较出名的堆栈收集库:
    https://github.com/bestswifter/BSBacktraceLogger
    https://github.com/plausiblelabs/plcrashreporter

    但为什么搜集出来的Thread堆栈信息不一致呢?想请教下
    Joy___:@allen8300 现在的卡顿主要是监控的主线程
    。。。。
  • d3fbd01ed4f9:你好,最近想要获取http的首包时间,TCP握手等时间, 可否咨询下你呢?
    sjwu:iOS10 系统及以下, 如何获取DSN TCP握手时间? 方便告知一二吗?
    Joy___:@顺其自然12 私信
  • AppleIdGX:刷新UI不应该是beforeWaiting和exit时吗?请问为什么阿里百川图上标的是5和9?
  • ppsheep:hello,最近有个需求,是需要收集首包时间,TCP握手等,能否细聊一下实现细节呢
    Joy___:@嘘_sheep_Code 可以,私聊
  • d42ef29c526e:请问在网络监控方面用NSURLProtocol的方式还是Hook API的方式性能高?
    d42ef29c526e:@Joy___ 嗯嗯,麻烦啦
    Joy___:@love_376e 这个没有测试:joy:测试了再来回复哈
  • adanchou:底层的dns,sslhandshake 等等 hook住后,怎么和上层的http请求对应上啊 ?

    比如,你怎么知道这个dns解析时间是属于那一个http请求的?
    Joy___:你可以为 NSURLRequest 写个 category 增加一个 requestID,每个 id 用你自己的一套方式,时间戳或者什么的生成唯一的标识,然后根据 id 来作为上下层交流的纽带
  • 李剑飞的简书:大礼包不得了!:wink:
    Joy___:@李剑飞的简书 :stuck_out_tongue_winking_eye:
  • 7emini:卧槽。 看完居然不懵逼了。:+1:
  • Lion_Liu:又发现了一条路,才刚刚到起点,架构 Joy 带我飞奔:kissing_heart:
    Joy___:@Lion_Liu :ghost:
  • Enum:讲的好清楚,连我这种APM菜鸟都能看得懂。架构joy强无敌。
    Joy___:@Enum 嗯嗯
    Enum:@Joy___ 我觉得看完我就有一个概念了。之前关于APM只听迪哥讲过几句,并没有概念。这下有点概念了。:+1:
    Joy___:@Enum :wink:其实很多细节都没讲,就是讲个大概思路:smile:
  • 一缕殇流化隐半边冰霜:架构Joy太强了!!
    阿拉斯加的狗:@一缕殇流化隐半边冰霜 带我飞啊 大牛哎

本文标题:移动端监控体系之技术原理剖析

本文链接:https://www.haomeiwen.com/subject/aoowwttx.html