美文网首页
机器学习在移动端的使用,Tensorflow + BroadCa

机器学习在移动端的使用,Tensorflow + BroadCa

作者: sands_yu | 来源:发表于2019-11-20 21:44 被阅读0次

前言

传统的移动端爬虫一般是基于webView,通过注入JS的方式,获取登录后的cookie让服务端使用无头浏览器模拟登录状态爬取数据。

这种方式简单有效,但是对于有做反爬(IP限制,是否模拟器,是否处于异常环境)的网站,爬取难度大,甚至无法爬取。

业务驱动技术,在移动端爬虫的演进过程中经历了四个阶段

  • cookie爬取(早期网站都没有反爬的机制)
  • cookie + 本地爬取(部分网站出现反爬,无法通过服务端爬取,则本地获取HTML解析)
  • cookie + 本地爬取 + 截图认证(针对反爬严重,无法通过webView登录采集的业务采用跳转APP,截图OCR的方式爬取)
  • Tensorflow + BroadCast Extension(通过录屏获取实时界面内容,Tensorflow做图像识别获取关键页面内容,无视反爬机制)

什么是BroadCast Upload Extension?

BroadCast Upload Extension在iOS10的时候推出,当时只能in-APP BroadCast,即录制当前APP。

在WWDC2018中,苹果发布的ReplayKit2中升级了这个扩展,做到了iOS System BroadCast,即录制iOS系统界面,不限制与某个APP,但此时需要从控制中心唤起录屏,任然有些麻烦。

image-20191118182045340.png

在iOS12中,iOS又推出了RPSystemBroadcastPickerView类,可以在APP内通过按钮唤起控制中心的录屏选择界面。

image-20191118182105865.png

客户端流程:

image-20191118165847233.png

架构:

image-20191118151036879.png
  • 录屏插件:iOS原生录屏插件,获取最新的录屏帧,传递给中间件。
  • 中间件:保存插件传递的最新一帧内容,负责对帧对象的处理,消息的发送(心跳请求,帧请求)。
  • APP端:负责对收到的图片对象进行classify,根据结果进行步骤匹配(是否需要服务端OCR,下一个关键页面是什么)。

​ 插件端不停的将最新视频帧给到中间件,中间件在上一次post请求完毕后获取最新的一帧转换成图片对象并发送,配置文件中设置字段控制上一次post请求完毕到下一次图片转换之间的dealy时间。

​ 将帧处理成图片后做一次图片压缩(TensorFlow对图片进行检测前也会做一次压缩,这里提前做掉),保证post请求的大小和速度。

​ 为了尽量低的内存占用(录屏插件最大可使用的内存50MB,超过就会崩),控制图片转换的频率,压缩图片请求,将图片转换放到autoreleasepool中。

录屏插件端

录屏插件使用的是iOS系统自带的BroadCast Upload Extension,可以在project - target + Application Extension中添加。

image-20191118173254281.png

添加后项目中会多一个BroadCast的target,自带一个SampleHandler类,用于接收系统录屏插件的回调。

#import "SampleHandler.h"

@interface SampleHandler()
@end

@implementation SampleHandler

//开始录屏
- (void)broadcastStartedWithSetupInfo:(NSDictionary<NSString *,NSObject *> *)setupInfo {
    NSLog(@"APP录屏开始");
}

//录屏中切换APP iOS > 11.2
- (void)broadcastAnnotatedWithApplicationInfo:(NSDictionary *)applicationInfo {
    NSLog(@"录屏中切换APP");
}

//录屏结束
- (void)broadcastFinished {
    NSLog(@"APP录屏结束");
}

//获取录屏帧信息
- (void)processSampleBuffer:(CMSampleBufferRef)sampleBuffer withType:(RPSampleBufferType)sampleBufferType {
    switch (sampleBufferType) {
        case RPSampleBufferTypeVideo://录屏图像信息回调
            //在这里将获取到的图像信息传递给中间类处理
            break;
            
        case RPSampleBufferTypeAudioApp://录屏音频信息回调
            // Handle audio sample buffer for app audio
            break;
        case RPSampleBufferTypeAudioMic://录屏声音输入信息回调
            // Handle audio sample buffer for mic audio
            break;
            
        default:
            break;
    }
}

@end

这一块做的事非常少,只是单纯的将获取到的视频帧信息传递给中间类,刷新中间类保存的最后一帧信息。

中间件

中间件负责做的事情比较多,状态同步,图片转换还要考虑内存占用问题。

  • CMSampleBufferRef转UIImage对象
  • 控制buffer转image的频率
  • 通过HTTP请求的方式将图片发送到主APP
  • 发送心跳包告知APP插件存活
//
//  MXSampleBufferManager.m
//  
//  buffer转UIImage对象
//  Created by joker on 2018/9/18.
//  Copyright © 2018 Scorpion. All rights reserved.
//

#import "MXSampleBufferManager.h"
#import <VideoToolbox/VideoToolbox.h>

#define clamp(a)                        (a>255?255:(a<0?0:a))

@implementation MXSampleBufferManager

+ (UIImage*)getImageWithSampleBuffer:(CMSampleBufferRef)sampleBuffer{
    CVImageBufferRef imageBuffer = CMSampleBufferGetImageBuffer(sampleBuffer);
    CVPixelBufferLockBaseAddress(imageBuffer,0);

    size_t width = CVPixelBufferGetWidth(imageBuffer);
    size_t height = CVPixelBufferGetHeight(imageBuffer);
    uint8_t *yBuffer = CVPixelBufferGetBaseAddressOfPlane(imageBuffer, 0);
    size_t yPitch = CVPixelBufferGetBytesPerRowOfPlane(imageBuffer, 0);
    uint8_t *cbCrBuffer = CVPixelBufferGetBaseAddressOfPlane(imageBuffer, 1);
    size_t cbCrPitch = CVPixelBufferGetBytesPerRowOfPlane(imageBuffer, 1);

    int bytesPerPixel = 4;
    uint8_t *rgbBuffer = malloc(width * height * bytesPerPixel);

    for(int y = 0; y < height; y++) {
        uint8_t *rgbBufferLine = &rgbBuffer[y * width * bytesPerPixel];
        uint8_t *yBufferLine = &yBuffer[y * yPitch];
        uint8_t *cbCrBufferLine = &cbCrBuffer[(y >> 1) * cbCrPitch];

        for(int x = 0; x < width; x++) {
            int16_t y = yBufferLine[x];
            int16_t cb = cbCrBufferLine[x & ~1] - 128;
            int16_t cr = cbCrBufferLine[x | 1] - 128;

            uint8_t *rgbOutput = &rgbBufferLine[x*bytesPerPixel];

            int16_t r = (int16_t)roundf( y + cr *  1.4 );
            int16_t g = (int16_t)roundf( y + cb * -0.343 + cr * -0.711 );
            int16_t b = (int16_t)roundf( y + cb *  1.765);

            rgbOutput[0] = 0xff;
            rgbOutput[1] = clamp(b);
            rgbOutput[2] = clamp(g);
            rgbOutput[3] = clamp(r);
        }
    }

    CGColorSpaceRef colorSpace = CGColorSpaceCreateDeviceRGB();
    CGContextRef context = CGBitmapContextCreate(rgbBuffer, width, height, 8, width * bytesPerPixel, colorSpace, kCGBitmapByteOrder32Little | kCGImageAlphaNoneSkipLast);
    CGImageRef quartzImage = CGBitmapContextCreateImage(context);
    UIImage *image = [UIImage imageWithCGImage:quartzImage];

    CGContextRelease(context);
    CGColorSpaceRelease(colorSpace);
    CGImageRelease(quartzImage);
    free(rgbBuffer);

    CVPixelBufferUnlockBaseAddress(imageBuffer, 0);

    return image;
    
    
}

@end

主APP端

主APP端更多的是跟业务相关的操作

  • 开启HTTP Serve接收请求(GCDAsyncSocket)
  • 获取到图片进行TensorFlow识别,输出classify的结果。
  • 根据识别结果和获取的配置信息进行match,目标关键帧则上传服务端OCR
  • 录屏插件存活检测

模型怎么训练?

参考链接:https://codelabs.developers.google.com/codelabs/tensorflow-for-poets/index.html#0
可以用官网提供的训练工程来简单的训练模型。
demo工程中会带一个训练过的微信的模型。

使用效果

通讯录页面识别度77% 发现页面识别度97% 我的页面识别度100%

可以看到,在模型训练好的情况下,实时录屏的识别度是非常高的,配合服务端OCR可以获取任何出现在屏幕上的内容。

Demo

https://github.com/yushengchu/broadCastSpider

相关文章

网友评论

      本文标题:机器学习在移动端的使用,Tensorflow + BroadCa

      本文链接:https://www.haomeiwen.com/subject/wokaictx.html