Vision架构看我就够了

作者: bigParis | 来源:发表于2017-11-30 21:42 被阅读95次

    我们学习CoreML, 除了学习一种新的解决问题的思维外, 对于程序员, 一定要学习苹果对于CoreML的架构, 以Vision为例, 看看苹果是如何进行架构的.

    Vision常用类结构图.png

    乍一看去, 有点懵逼, 下面来用一个小demo演示下

    let handler = VNImageRequestHandler(cgImage: image.cgImage!, options: [:])
    do {
      let request = VNDetectFaceLandmarksRequest(completionHandler: handleFaceLandmarks)
      try handler.perform([request])
    } catch {
      print(error)
    }
    
    func handleFaceLandmarks(request: VNRequest, error: Error?) {
            guard let observations = request.results as? [VNFaceObservation] else {
                fatalError("could not get result from request")
            }
       
            for vm in self.buttonOriginalImage.subviews where vm.tag == 10 {
                vm.removeFromSuperview()
            }
            
            var landmarkRegions : [VNFaceLandmarkRegion2D] = []
            
            for faceObservation in observations {
                landmarkRegions = self.addFaceFeature(forObservation: faceObservation, toView: self.buttonOriginalImage)
                self.selectedImage = self.drawOnImage(source: self.selectedImage, boundingRect: faceObservation.boundingBox, faceLandmarkRegions: landmarkRegions)
            }
            self.buttonOriginalImage.setBackgroundImage(self.selectedImage, for: .normal)
        }
    
        func addFaceFeature(forObservation face: VNFaceObservation, toView view: UIView) ->[VNFaceLandmarkRegion2D]{
    
            guard let landmarks = face.landmarks else { return [] }
            print("confidence1:\(face.landmarks?.confidence ?? 0), confidence2:\(face.confidence)")
            var landmarkRegions: [VNFaceLandmarkRegion2D] = []
            
            if let allPoints = landmarks.allPoints {
                landmarkRegions.append(allPoints)
            }
         
            return landmarkRegions
        }
    

    好了, 上面的代码就是一个简单的人脸识别的代码片段, 里面已经几乎涉及了Vision中所有常用的类.

    首先, VNImageRequestHandler是用来处理图片的, 通过perform方法, 我们可以对训练好的模型发送请求, 这里的请求就和我们平常客户端服务器开发一样, 只不过客户端是我们程序员, 服务器是训练好的模型, 对我们来说是个黑盒, 而这个request就是对请求参数封装好的类.

    看下我们平时都怎么发送Http请求, 以AFN为例

    NSURLSessionConfiguration *configuration = [NSURLSessionConfiguration defaultSessionConfiguration];
    AFURLSessionManager *manager = [[AFURLSessionManager alloc] initWithSessionConfiguration:configuration];
    
    NSURL *URL = [NSURL URLWithString:@"http://example.com/download.zip"];
    NSURLRequest *request = [NSURLRequest requestWithURL:URL];
    
    NSURLSessionDownloadTask *downloadTask = [manager downloadTaskWithRequest:request progress:nil destination:^NSURL *(NSURL *targetPath, NSURLResponse *response) {
        NSURL *documentsDirectoryURL = [[NSFileManager defaultManager] URLForDirectory:NSDocumentDirectory inDomain:NSUserDomainMask appropriateForURL:nil create:NO error:nil];
        return [documentsDirectoryURL URLByAppendingPathComponent:[response suggestedFilename]];
    } completionHandler:^(NSURLResponse *response, NSURL *filePath, NSError *error) {
        NSLog(@"File downloaded to: %@", filePath);
    }];
    [downloadTask resume];
    

    这里AFN对我们来说是黑盒, 我们把request传递给函数downloadTaskWithRequest, 然后在completionHandler里面取出我们需要的数据, 在Vision中, perform方法就相当于AFN中的downloadTaskWithRequest方法, 而最终结果是在设置request参数的时候就设置好的函数回调handleFaceLandmarks. 模型返回给我的数据保存在request.results中, 这里是个数组, 数组的类型是VNObservation.

    响应
    • VNObservation就是用来存储检测结果的数据结构, 里面存在confidence属性, 用来保存检测结果的可信度, 对于物件检测结果保存为VNDetectedObjectObservation, 特别的, 人脸检测对应的类为VNFaceObservation.
    • 在人脸检测结果中, 保存了VNFaceLandmarks2D, 表示的是检测到的人脸的全部特征
    • 特征用VNFaceLandmarkRegion2D表示, 继承自VNFaceLandmarkRegion, 里面有confidence属性, 用来保存当前特征的可信度.
    • 每个特征中又保存了CGPoint类型的数组normalizedPoints, 意思是每个面部特征(如嘴巴, 鼻子, 眼睛等)又是由若干特征点组成的.

    对于自己创建的模型, 我们完全可以自定义检测结果类来继承VNObservation, 里面可以保存3D, 4D甚至ND的数据, 对于图片的人脸特征检测, 2D就已经是完全满足要求的了, 所以Vision如此设计.

    请求
    • 说完响应, 再来看下请求, 所有的请求都继承自VNRequest, 对于不同的检测, VNRequest大同小异, 基于图片的检测通常继承VNImageBasedRequest, 这也是我们最常用的, 因为大多数时候我们使用Vision, 还是把图片作为输入参数的. VNImageBasedRequest的几个子类就不一一介绍了, 看名字就知道是干什么的. 如果我们也想封装图片处理请求参数, 我们也可以继承VNImageBasedRequest类, 实际上VNRequest里面并没让我做什么事情, 只是让我们传递一个结果处理函数, 我们也可以设置usesCPUOnly, 是否只用CPU对图片进行处理, 默认是NO. VNImageBasedRequest加多了一个参数, 让我们设置感兴趣的区域regionOfInterest, 这样可以提高识别的速度, 试想, 一张非常大的图片, 处理起来必然特别慢, 而合理设置感兴趣区域可以让模型只对感兴趣区域进行检测(还没实践过).
    • VNImageRequestHandler是对所有请求的封装, 这里要求输入参数是UIImage, 并将这之前设置的请求参数结构传递给perform方法, 就完成了请求.

    如果不是(可能性不大)图片的输入, 我们可以自己封装一个VNDataRequestHandler, 输入可以是数组, 因为图片本身是个矩阵, 矩阵降维就成了数组, 不过这里Vision可能是为了方便, 还是直接让我们输入UIImage, 如果我们需要处理类似天气预报这种数据, 可能会需要用到数组.

    总结

    从整体上看, Vision架构主要有3个类

    • VNImageRequestHandler 发送请求
    • VNRequest 封装请求参数
    • VNFaceObservation 保存响应结果

    那在实际开发中, 我们有无数的业务请求, 是否也能用类似的方法进行封装呢?

    首先我们定义一个类, MFRequestHandler(MF是业务前缀), 提供一个方法sendRequest, 要求输入请求参数MFRequest, 结果通过MFResponse返回:

    • MFRequest 类中存请求的uri, appid, serviceType(http or protobuf), data等
    • MFResponse 类中存响应的uri, appid, serviceType(http or protobuf), errCode, data等.

    这样做的好处是, 发送请求的时候, 我们只需要构造好请求参数, 所有请求都调用相同的请求接口. 而响应也都是继承自MFResponse的, 通过层层的解析, 来到具体的业务模块. 而具体的请求执行在MFRequestHandler中, MFRequestHandler会根据请求参数的appid, uri, serviceType等, 将数据发送到不同的服务器.

    相关文章

      网友评论

      本文标题:Vision架构看我就够了

      本文链接:https://www.haomeiwen.com/subject/vdebbxtx.html