我吧,通俗来讲,是搞数据科学的,我向别人介绍自己时,通常会被问到“你们和机器学习有嘛区别啊”“你的工作是不是就是人工智能啊”诸如此类问题,我每次的回复嘛,也很简单,总结起来就三点。
首先来讲,这三个领域的确有一定的交叉,同时,因为市场营销的关系,这些领域都存在一定的炒作,由此界限更模糊了。但它们还是有着不可替换的部分的,这些领域的从业人士都清楚哪些工作属于数据科学,哪些属于机器学习和人工智能,却很难用语言表达出来。
因此在本文中,我将提出一个关于这三个领域简单明了的界定。
数据科学产生洞察力(是直接的结果,看到什么就是什么)。
机器学习产生预测(要根据已有的数据进行一定的分析、预测)。
人工智能产生行动(进行了分析、预测之后进行下一步的行动)。
需要说明一下,上面这些并不是充分条件:也就是说,符合上面的条件不一定就是那个领域的东西(就比如,算命先生会做预测,但我们不能说他从事的是机器学习领域吧)。这也不能用来确定某个人的名头或职称,归根结底是工作重点和经验的问题(比如,写作是我工作的一部分,但我并不是一名职业作家)。
话又说回来,我觉得这个定义用来划分三个领域还是蛮有用的,尤其在你谈论这三个领域时,可以避免闹出笑话。值得注意的是,我采取的是描述型而不是规定型的方法:我说的不是这个行业应该做什么,而是这个行业里的人大多在做什么。
数据科学产生洞察力
数据科学有别于另外两个领域,因为它做的属于人类能力的特殊范畴,即洞察力和理解力。Jeff·Leek对数据科学实现这一功能有着很好的定义,其中包括描述性(“70%的普通客户会选择更新”)、探索性(“不同销售员,手底下客户有着不同的更新频率”)和因果性(“可以通过随机试验看出,分配给Alice的客户更新的可能性比分配给Bob的更大”)。
同样,并不是所有产生洞察力的东西都是数据科学(数据科学的经典定义是,它融合了统计、软件工程和行业知识的内容)。但是我们可以用这个定义将它与机器学习、人工智能进行区别。主要的区别在于,在数据科学中,总有人在做具体工作:正在理解某些洞见,观察指标,或从结论中受益。如果只是说“我们的国际象棋算法使用数据科学选择下一步”或“谷歌地图使用数据科学来推荐驾驶方向”,而没有人在做,那没有意义。
因此,数据科学的这个定义强调以下几点:
·统计推断
·数据可视化
·实验设计
·领域知识
·沟通
数据科学专家可以使用简单的方法:提供含有百分比的数据报告,并使用SQL(结构化查询语言)生成图表;也可以使用非常复杂的方法:例如,使用分布式数据存储来分析数万亿条记录,开发尖端的统计技术并构建可视化的交互界面。无论他们使用什么,目标都是为了更好地理解数据。
机器学习产生预测
我认为机器学习的目标是预测:“在给定的具有特定特性的实例X中,产生预测Y。”这些预测可能是关于未来的(预测这个病人在将来是否会患上败血症),但也可能是关于现在(计算机无法立即发现)的一些特性(预测这个图像中是否有一只鸟)。几乎所有的Kaggle竞赛都符合这些特性:提供一些训练数据,看看参赛者是否能对新情况做出准确的预测。
数据科学和机器学习之间也会有许多重合的地方。例如,逻辑回归可以用来分析因果关系(用户越富有,他们就越有可能购买我们的产品,所以我们应该改变营销策略),也可以进行预测(这个用户有53%的机会购买我们的产品,所以我们应该向此用户推荐我们的产品)。
“随机森林”模型的可解释性稍差一点,不过它更适用于“机器学习”。深度学习的概念众所周知很难解释了,不过如果你的目标是获取洞察力,而不是做出预测,那它可能会阻碍你的计划。因此,我们可以想象数据科学和机器学习的“分工”,即更多的可解释性模型倾向于数据科学方面,而更多的“黑箱”模型倾向于机器学习方面。
大多数从业者可以很自在地在这两个任务之间来回切换。我的工作既会用到机器学习,也会用到数据科学:我可能会用Stack Overflow(热门IT技术问答网站)的流量数据做一个模型,预测哪些用户可能在找工作(机器学习),然后形成结论并将其可视化,以检查模型为什么有效(数据科学)。这是发现模型缺陷和克服算法误差的一个重要方法。这也是为什么数据科学专家通常也会负责产品开发中的机器学习工作。
人工智能产生行动
人工智能在三个名词中,是存在时间最久,并得到最广泛认可的,但它是最难定义的。多亏了研究人员、媒体和各种想用人工智能的公司,这个名词才被大量宣传。
尽管引起了强烈的反响,但我觉得这是一种不幸,因为这意味着一些工作,可能应该被称为人工智能,却没有被包含进去。一些研究人员甚至抱怨人工智能这一名词的影响:“我们做的不是人工智能,那什么是呢?”
放开来讲,什么工作属于人工智能范畴呢?
在“人工智能”(AI)的诸多定义中,一个常用的定义是,一个自动代理执行或推荐一些行动(例如1998年的Poole、Mackworth和Goebel,2003年的Russell和Norvig)。我认为能称得上人工智能的包括以下几种:
·游戏运行算法(深蓝,AlphaGo)
·机器人学和控制理论(运动规划,两足机器人行走)
·提供优化选择(谷歌地图选择路线)
·自然语言处理(bots)
·强化学习
注:这里提到的bot指的是解释自然语言然后做出相应反应的系统。它与文本挖掘不同,文本挖掘的目标是提取洞察(数据科学)或文本分类,它的目标是对文档进行分类(机器学习)。
同样,我们可以看到AI与其他领域的重叠。深度学习就跨越了机器学习和人工智能。典型的用例是对数据进行训练,产生预测,然后在AlphaGo这样的游戏运行算法中显示出巨大的成功。(这与早期的游戏系统如深蓝形成对比,后者更侧重于探索和优化下一步)。
但AI与其他领域之间又有区别。如果我分析一些销售数据,发现来自特定行业的客户选择更新的更多(根据洞察力),产生一些数字和图表,而不是一个特定的行动(行政人员可能会利用这些结论改变销售策略,但这种行为不是自主的),这意味着我的工作属于数据科学领域。如果我强行说我在“利用人工智能提高销量”,那就没什么好说的了。
人工智能和机器学习之间的区别比较微妙,历史上机器学习通常被认为是AI的一个子领域(尤其是计算机视觉是一个经典的AI问题)。但我认为机器学习领域基本上与AI“脱离”了,一部分原因是上面那个定义带来的反作用:大多数研究预测问题的人不喜欢把自己定义成AI研究者。(许多重要的机器学习成果靠统计数据取得突破,而后者在AI领域应用较少)。这意味着,如果你的工作是“从X预测Y”,那么我建议你就不要用AI研究者这一称呼了。
案例:三者如何有机结合?
假设我们正在制造一辆自动驾驶汽车,具体来讲是让汽车停在停车标志前。我们需要从这三个领域汲取技能为自己所用。
机器学习:这辆车必须能使用照相机并识别出停车标志。我们构建了一个包含数百万张街边物体照片的数据库,并做出了一个算法来分析其中是否有停车标志。
人工智能:一旦我们的汽车能识别停车标志,它就需要决定什么时候采取刹车行动。太早或太迟刹车都是有危险的,我们需要它来处理各种不同的道路状况(例如,在湿滑的路上,迅速降低车速),这是控制学理论的问题。
数据科学:在街道测试中,我们发现这辆车的性能不够好,而且有些错误的非指令性行动,在某种情况下,它“看不见”停车标志,直接行驶。通过对街道测试数据的分析,我们得出了这种错误取决于时间:在日出前或日落后,汽车更有可能错过停车标志。因此,我们认识到,大多现有数据只包括全白昼的情况,所以我们构建了一个包括夜间图像的数据库,之后又进入机器学习领域,对这个更全面的数据库进行算法分析。
作者简介:
David Robinson是 Stack Overflow的数据科学家。
来源:VARIANCE EXPLAINED
作者:David Robinson
智能观 编译
—完—
亲爱的朋友:
数据科学、机器学习、人工智能,这些词在2017年似乎忽然出现在了大众的视野里。我们频繁听说,但并不明白它们的区别与关系。
作者深入浅出地介绍了这一问题。希望能让对此感兴趣的你有所受益。
祝安!
智能观 一米
2018-1-18 于北京中关村
想知道AI加教育领域有哪些最新研究成果?
想要AI领域更多的干货?
想了解更多专家的“智能观”?
请在对话界面点击“找找看”,去获取你想要的内容吧。
声明:
编译文章旨在帮助读者了解行业新思想、新观点及新动态,为原作者观点,不代表智能观观点。
网友评论