未来式"谷歌搜索"——计算机视觉

作者: JasonLee_7641 | 来源:发表于2017-04-25 11:00 被阅读0次

未来式"谷歌搜索"——计算机视觉
各类工具网站
opencv+python学习记录(一)---Anaconda3
LeetCode初级算法--树02：验证二叉搜索树
剑指Offer（二十三）：二叉搜索树的后序遍历序列
谷歌简单粗暴“复制-粘贴”数据增广，刷新COCO目标检测与实例分
得到直播：吴军的谷歌方法论直播
谷歌访问助手安装教程
LeetCode初级算法--链表01：反转链表
《机器学习实战》2.1.超详细的k-近邻算法KNN（附Pytho

李运泽 14020199014

嵌牛导读

科技的进步使得机器广泛走出室内，来到户外，面对外界的视觉信息，计算机视觉技术可以使得机器更智能地为我们提供搜索服务，我们可以从一款名叫"Alice Who"的APP开始，来窥见计算机视觉的强大。它能为我们带来什么样的便捷呢，它是如何突破某些技术难点的呢？

嵌牛鼻子

点状云数据库数据标签策略

嵌牛正文

在旧金山街头，会有人使用一个叫“Alice Who”（神马爱丽丝）的APP。你只要把手机摄像头对准一栋建筑，或一家餐厅，“Alice Who”就会告诉你，这是什么地方，这家餐厅叫什么名字；“Alice Who”还能够帮你链接去美国版的大众点评网Yelp，FourSquare等，让你能够了解这家餐厅的详细信息和评价。

未来式"谷歌搜索"——计算机视觉有了Alice Who，地方搜索变得异常简单，就像有一个当地的好友在身边，你眼睛看向哪儿，这位当地朋友就能告诉你看到的是什么。这或许就是未来的搜索体验吧！

未来式"谷歌搜索"——计算机视觉

看似简单的应用，背后包含了复杂的技术。对于户外环境中建筑、店面的识别，一直是计算机视觉的难点。如何让计算机看清楚，看得准？即使户外的光线千变万化，即使环境中存在众多干扰因素？

这归功于独辟蹊径的计算机视觉技术

计算机视觉（Computer Vision）是近年来大家谈的较多的话题。无人驾驶汽车、无人机等产品渐渐进入大众视野，如何让机器能够像人一样，有看见、辨识周围环境的能力，成为这些产品成功的关键。

随着计算机视觉技术的发展，人们开发了不同的手段来帮助机器“看见”物体。大部分技术是基于同一基础的，那就是点状云（Point Cloud）。通过3D扫描物体，构建点状云，然后用点状云训练机器的算法，让机器能够辨识出这个物体。

未来式"谷歌搜索"——计算机视觉

（Point Cloud 示意）

但是，这种标准的技术，在室内适用，识别物体、人脸都很给力，却不擅长识别户外建筑。在户外，随着光线的变化，不但建筑反光的颜色和强度会变化，阴影会变化；此外，建筑物周围的行人、停靠的车辆，也会影响识别。

而计算机视觉技术，主要集中于应对这些挑战。算法专注于把握建筑的几何形状，而非整体和细节。也就是说，通过把握建筑的门、窗及主要结构，避开光线和干扰物的影响。

其实，“Alice Who”APP只是该科技公司推出的一款展示用APP。其真正的商业模式，是通过提供API或SDK为客户提供服务。

目前，目标客户包含三类。

第一类是地区搜索引擎，如Yelp、大众点评、Trip Advisor等，让这些搜索引擎的用户，能够非常简便的用手机摄像头识别周围环境，提供不一样的搜索体验。

第二类目标客户是品牌和公司，这些公司希望通过分析其用户在社交媒体上发布的照片的地理位置，来获得商业洞察。例如，这些公司的用户，通过社交媒体发布了自己的照片，但并没有注明拍摄地址。该应用帮助客户分析这个图片，告诉客户，这是什么地方，从而帮助客户分析其用户的行为模式和喜好。

而第三类，当然是国防和安全行业了。

客户群体的扩大必将伴随着技术难度的提高，那么该如何快速地进行图像识别呢？

通常，该应用会把用户通过手机摄像头捕捉到的图像，与数据库中的图像进行比较、匹配。那么，如何将一个图像，与云上的成千上万张图像比较，并且快速、精准？背后的两个关键词是：数据库和标签策略。

数据库来源分为两类。对于一些客户，例如国防安全类的，客户会负责提供图像数据库。但也能够自己抓取公开网络上的图像，快速形成图像数据库。例如，Yelp，Trip Advisor等网站上，有用户上传的大量图片，包含了建筑外观，并有相应的地点信息。在制作“Alice Who”APP时，该公司建立了整个旧金山的商业类建筑的数据库，包括所有的餐厅、酒吧等，只用了2到3天的时间。目前，这个公开网络数据抓取的能力，还不是全自动的。下一步，就是研发能全自动的从浩瀚的网页上抓取图像，形成数据库的解决方案。

不过，如果每次都要将一个图像与云上的成千上万张图像比较、匹配，可能会减缓识别的速度。所以该公司配合使用了标签（signature）策略，让计算机算法根据某类标签，先进行预筛选，然后再匹配识别，以配合现有的电脑处理的条件。

例如，地址可以作为一种标签。当用户在某一个地点用摄像头捕捉图像时，用户的手机会上传地理位置信息就能根据这个地理位置信息，先筛选出数据库里附近的建筑的图像，再与用户手机捕捉到的图像进行匹配，从而更快、更准的得到结果。

数据库里关于被拍摄建筑的图像越多，就能越快、越准确的得到答案。对于小型的建筑，例如一个咖啡馆，只要云端数据库上有10到20张图像，Fringefy就能很准确的辨识出这个建筑。而对于中央火车站这样的大型建筑，大约需要500张左右的数据库图像。目前Fringefy能够做到的程度是，在80%的实验中，能准确的辨识出建筑，没有任何错误。

最后，谈谈它的潜力。

谷歌开创了一个时代。在那个时代里，谷歌将网络上的文字内容贴上标签（index），通过标签进行搜索，使得搜索引擎成为可能。而渐渐的，随着移动设备的普及，人们更多的开始在户外使用搜索引擎，而非在办公室和家里。并且，移动设备上的摄像机越来越强大，使得机器“看见”世界成为可能。