本文首次发表于译言网,翻译自Technet.com,为[机器学习]系列文章之一。
发表地址:http://article.yeeyan.org/view/243697/442652
本文由英国剑桥和微软研究院的Jamie Shotton,Antonio Criminisi和Sebastian Nowozin合著。
在上一篇文章中,我们向你介绍了计算机视觉领域,并讨论了使用决策森林的像素分类这个非常强大的手段,它在医学成像和Kinect中都得到了广泛的应用。在本文中,我们将看一些最近围绕深度神经网络的热点以及它们在计算机视觉上的成功,然后对计算机视觉与机器学习的未来予以展望。
深度神经网络
近几年,我们作为视觉研究者可使用的训练数据集,在质与量上的迅猛发展,都是有目共睹的。这些改善很大程度源于众包模式(群外众包)的采用,使我们能够将我们的数据集扩至百万级的标记图像。一个具有挑战性的数据集ImageNet(一个图片数据库),包含了在数以万计的类别中无数以图像级标签标记的图像。
在经过ImageNet数据集社区内几年缓慢的发展后,在2012年Krizhevsky et al.的出现在该领域引起轰动。他们展示了与一些看似细微的算法变化结合后,通用的GPU(图形处理器)计算是如何被用于比之前更深入地训练卷积神经网络。在ImageNet 1000个类别的图像分类测试中,这个结果的准确度得到了显著的阶跃变化。这也获得了大众媒体的广泛关注,甚至产生了几桩对创业公司较大的收购案。随着近期论文向目标定位、人脸识别和人体姿态估计方面的研究拓展,“深度学习”从那时起,便在计算机视觉领域成为热门话题。
未来
既然深度卷积神经网络如此强大,那它会是计算机视觉技术发展的终点吗?我们可以确定的是,未来几年它们将继续流行并推出更尖端的技术,但我们认为还会有另外一两个阶跃变化出现。虽然我们只能猜测这些变化会是什么,但我们可以通过突出一些我们所见机遇的曝光度来完成此事。
表述:这些网络学习去预测图像内容的一个相对简单的表述。而对图像中单个对象的存在位置、它们和另一个对象或是我们生活中的特定对象的关联方式,并没有深度理解(例如,我们无法轻易地把一个人的头发看起来有些光泽这个线索和他们正拿着吹风机这个实际情况结合在一起,来给出他们的头发是湿的这个能让自己信服的判断)。如Microsoft CoCo的新数据集,通过提供“非标志性”图像(即有超过一个对象且不位于前端中央的图像)之中单个对象分割的详细标记,可能有助于推动这项工作—。
效率:虽然用一个测试图像对深度网络的评估过程,即使平行运作也能相对快速地完成,但神经网络不具有我们在上一篇文章中所遭遇的条件计算的概念:每一个测试样本都要遍历完该网络中 的每一个单个节点来输出其结果。此外,训练一个网络,甚至使用高速的GPU,也得耗费数日或数周,而这正限制了迅速进行的能力。
结构学习:深度卷积网络目前拥有一个人工精心设计的刚性结构,并由数年的研究演化而来。换句话说,一个特定层的大小或层数对预测器质量可以产生不利影响。除了仅仅用蛮力扫描参数来优化网络形式之外,我们希望有机会来直接从数据当中学习一个更灵活的网络结构。
最近,我们已经朝探索这些机遇,尤其是后两个的方向上前进了几小步。我们为我们近期在决策丛林上的工作感到尤为兴奋:有根的决策有向无环图(DAG)的集合体。你可以把一个决策有向无环图视作一个决策树,其子节点被合并在一起以便使节点允许拥有多个双亲节点。相较于决策树,我们已经证实他们能够减少一个数量级的内存消耗,同时还大幅度提升概括能力。一个有向无环图初看还像一个神经网络,但这里有两处重要差异:首先,该结构与其模型的参数会被共同学习;其次,有向无环图保留了来自高效条件计算的决策树的理念:一个单独的测试样本遵循着一个贯穿有向无环图的单独的路径,而不是神经网络那样遍历所有节点的情况。我们正积极地调研,决策丛林或与包括堆叠和纠缠技术的深度学习的其它形式一同协力,是否能够对深度神经网络提供一个高效的替代选项。
如果你有兴趣试着用决策丛林解决你的问题,Azure ML(Azure 机器学习)的Gemini功能模块将令你的研究更为深入。
总之,前途光明的计算机视觉很大程度上归功于机器学习。视觉领域近期的迅猛发展已经很出色,但我们相信计算机视觉研究的未来仍然是一本令人振奋的摊开之书。
Jamie, Antonio和Sebastian
网友评论