美文网首页
计算机视觉发展

计算机视觉发展

作者: Alfie20 | 来源:发表于2020-09-11 14:30 被阅读0次

    1. 概览

    1.1 定义及历史

    • 赋予机器自然视觉能力的学科,给机器装上眼睛(成像设备)和大脑(算法);
    • 计算机视觉是一门综合性的学科,涵盖信号处理,神经认知学,应用数学和统计学等;
    • 经历了4个主要阶段,研究内容大体分为物体视觉和空间视觉

    1.2 计算机视觉 vs人工智能

    人工智能范畴 计算机视觉知识树

    1.3 整体概览

    2. 计算机视觉进展

    2.1 图像分类

    2.1.1 发展历程
    网络越深,精度越高 轻量化网络,ShuffleNet-V2,准确性和效率均最好
    2.1.2 挑战

    人识别一个物体特别简单,但是计算机处理起来却不是件容易的事,需要应对多方面的因素变化

    • 遮挡
    • 视角
    • 光照
    • 尺度
    • 变形
    • 背景干扰


    2.1.3 典型框架

    深度学习成为主流之后,网络设计的思路:网络加深、网络加宽,为了提高效率,网络也向轻量化发展。

    2.2 物体检测

    2.2.1 发展历程

    2.2.2 挑战

    平衡两方面因素

    • 精度
    • 速度
    2.2.3 典型框架
    • Two-stage:1.提取候选框;2.对候选框提取特征并分类;3.精度高但速度慢


    • One-stage:端到端框架,精度低但速度快


    2.2.4 发展趋势

    物体检测的发展趋势:Anchor-Free、关系推理、弱监督检测和轻量化

    2.3 图像分割

    2.3.1 定义


    语义分割
    实例分割
    3D分割
    视频分割

    2.3.2 分割质量评价指标

    • Pixel Accuracy,标记正确的像素占总像素的比例


    • mIoU(Mean Intersection over Union),平均交并比,各类真实值和预测值的交集和并集之比的均值


    2.3.3 发展历程

    2.3.4 典型算法

    2.3.5 挑战

    • 难点A:如何表示高度抽象的语义信息



    • 难点B:场景复杂,存在遮挡,阴影等因素



    • 难点C:边缘和微小物体等细节部分易丢失



    2.3.6 数据集

    • 通用场景分割
      1.PASCAL VOC分割数据集,20类, 2913张图片(VOC 2012)。
      2.MS COCO分割数据集,80类, 122218张图片(COCO instances 2017))
    • 道路场景分割数据集
      1. Cityscapes,
      2. Mapillary Vistas,
      3. ApolloScape
      4. BDD100K等

    2.3 视频分析

    2.3.1 发展历程

    • 双流网络:融合空间与时序变化的信息进行分析


    • 利用人体骨架/关节点/姿态信息预测人体行为



    • STN利用稀疏采样处理长视频分析,其他改进还有TRN和ECO等


    • 3D卷积网络直接抽取信息,2D CNN的推广,后续改进有I3D,P3D,Non-local 3D等


      image.png

    2.3.2 典型算法

    • C3D: Tran等人提出,将3x3卷积扩展到3x3x3卷积,2x2 Pooling扩展到2x2x2 Pooling。



    • I3D: Carreira等人提出,把Two-Stream结构中的2D卷积扩展为3D卷积。


    • P3D: Z. Qiu等人提出,用一个1x3x3的空间方向卷积和一个3x1x1的时间方向卷积近似原3x3x3卷积。


    • Two Stream: Simonyan等人提出,采用两个卷积分支,一个分支提取RGB图像中的空间信息,另一个分支处理光流运动场,用于提取帧之间的运动信息。


    • TSN/TRN/ECO: L. Wang等人提出。这三个模型研究视频特征在时间上的传播关系,从而对视频进行稀疏采样,在避免冗余信息的同时可以处理长距离依赖。



      image.png
    • SlowFastNet: Feichtenhofer等人提出,SlowFast网络中Slow分支用于捕获语义信息,而Fast分支用于捕获运动信息,这和Two-Stream网络的思路类似。


    2.3.3 挑战

    • 难点1:空间信息和时间信息的融合。如何将每帧图片中的空间信息和帧序列间的时间信息有效融合,提取出动作意图,目前还没有明确理论。


    • 难点2:动作边界不明确。现实中一件事情往往没有明确的开始点和结束点,从而导致目前行为识别和检测的mAP偏低。



    • 难点3:时间跨度大。同一个动作,可能持续几秒钟,也可能持续几十秒,从而使得提取Proposal的变得异常艰难。



    2.3.4 相关数据集



    2.4 SLAM

    2.4.1 知识树

    2.4.2 经典算法

    2.4.3 发展趋势

    • 多传感器融合(GPS/IMU/Camera/Lidar/Radar)


    • 深度学习替换SLAM中的模块(特征提取和匹配/无监督深度学习的单目视觉里程计)



    • 语义SLAM(半稠密语义建图/稠密3D语义建图)



    • 端到端SLAM(基于增强学习的自主导航/感知建图和规划)



    2.5 人机交互

    2.5.1 定义

    视觉感知是人机交互的一个重要手段,如人脸、眼球、手势、体控等多种探测与交互的应用。在这些应用中,视觉产品扮演着计算机输入设备的作用。


    人脸交互 表情识别/眼球追踪/头部姿态
    手势交互
    体控交互

    2.5.2 面部表情

    • 表情识别发展
      方法从手工特征到深度神经网络
      数据从粗分类到精细表情分类


    • 识别流程


    • 应用场景


      智能监控
      智能机器人
      虚拟现实

    2.5.2 手势

    • 应用场景


    • 优劣势
      优势
      识别人的自然手势
      可以脱离实体接触,实现远距离控制
      交互动作更加丰富和自然
      劣势
      成本相对高
      识别手势有限
    • 技术实现
      Depth Camera
      RGB-D Camera
      Monocular RGB

    2.5.3 人体

    • 类型


      2D Human Pose
      3D Human Pose
    • 应用场景


      体感游戏
      辅助裁判
      自动驾驶
    • 优劣势
      优势
      技术成熟
      落地应用越来越多
      交互动作更加丰富和自然
      劣势
      使用场景要覆盖全身,遮挡条件下效果不好
      应用环境要求较高

    2.6 OCR & STR

    OCR 光学字符识别,起源于上世纪50年代,如今技术成熟。STR自然场景文本识别,尽管有深度学习加成,仍是热点与难点问题

    2.6.1 发展历程

    2.6.2 定义


    文本检测
    SWT:基于笔画特征
    MSER:基于稳定区域
    FCN+RNN:基于分割的方式
    SSD-based:基于深度检测的方式
    文本识别
    字符识别:HOG、SIFT特征
    单词识别:CNN分类
    文本行识别:CNN + LSTM + CTC

    2.6.3 挑战与难点


    多种语言文本混合
    文本方向多样性
    文字变形(透视、仿射变换)、残缺、模糊等现象
    自然场景图像的背景极其多样
    光照变化、遮挡问题

    2.6.4 发展趋势

    2.7 机器学习

    2.7.1 定义

    机器学习为计算机视觉提供了理论与方法基石,同时,新兴方向已经正在影响并有可能引领视觉应用的未来
    对抗生成学习 GANs
    强化学习
    Automl


    2.7.2 生成对抗网络

    深度卷积网络与博弈论的结合诞生了GANs

    • 目标是模拟图像的高维分布,以生成“真实”的图像,


    • 与图像处理 (超分、inpainting等)和合成等问题结合,提升视觉效果


    • 图像生成方面,从早期的Deep dream,到去年底的高清人脸生成



    • 数据增广与增强深度网络对噪声样本鲁棒


    2.7.3 强化学习

    研究学习器在与环境的交互过程中,如何学习到一种行为策略,以最大化得到的累积奖赏


    • 面向特定任务的机械控制,路径规划


    • 自主搜索更优的深度网络结构


    • 策略游戏AI,媲美或超越人类顶级高手


    2.7.4 Automl

    • 自动化实现高性能的模型构建和超参数调整
      目标是降低模型设计的难度,但需要大量的算力来支撑
      前沿课题,发展迅速,需要紧密观察
      在部分任务性能表现上,已经跟上甚至超越当前最优人工设计的深度网络


    • 在检测任务上的测评表现(NAS为automl模型)


    相关文章

      网友评论

          本文标题:计算机视觉发展

          本文链接:https://www.haomeiwen.com/subject/hjfmhctx.html