自由数据：AI背后的数据科学

作者: 勤智数码 | 来源:发表于2017-08-01 10:44 被阅读0次

自由数据：AI背后的数据科学
大数据的预测实力，这15个有趣的数据集，你可能闻所未闻
数据科学家需要了解的 5 种采样方法
如何在未来的大数据和机器学习领域，获得一份不错的工作？
如何在未来的大数据和机器学习领域，获得一份不错的工作？
如何在未来的大数据和机器学习领域，获得一份不错的工作？
【AI数据建设2】数据存储
英伟达开源GPU加速库RAPIDS
轻松五步创建高效的移动产品管理看板
【AI数据建设1】数据收集

1、什么是AI？

“人工智能”一词最初是在1956年Dartmouth学会上提出的。从那以后，研究者们发展了众多理论和原理，人工智能的概念也随之扩展。人工智能（Artificial Intelligence），英文缩写为AI。

它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

2、AI只是数据科学部件的总和

构成AI的数据科学“部件”分为以下几类。这里有所重叠：

·深度学习

·自然语言处理

·图像识别

·强化学习

·问答机

·对抗性训练

·机器人

这些都是独立的学科（好吧，深度学习的类别实际上还包含一些其他）。AI只是这些部件的总和。它们只是由一大批创业公司和主要参与者创造的一些真正奇妙的应用非常松散地结合在一起。

当它们一起工作时，例如Watson、或Echo/Alexa、或者在使用自驾车，那么它们应该可以超过组成它们的部分的总和，然而情况并非如此。如何集成这些不同技术仍然是最大的挑战之一。

3、我们的AI必须做什么？

从AI需要具备什么类似人类能力的拟人化描述开始的话，还是有所帮助的。

·观看：这是定格画面和视频图像的识别。

·听取：通过文本或口头语言接收输入。

·说话：以相同的语言或甚至外语有意义地响应我们的输入。

·像人类一样做出决定：提供建议或新知识。

·学习：根据其环境中的更改来改变其行为。

·移动：以及操作物理对象。

你可以立即开始看到，当今新兴的AI许多商业应用，只有这些能力中的一部分。但我们期待的是，未来有更复杂的应用能具备几乎所有这些能力。

今天出现的许多AI的商业应用程序只需要这些功能中的一些。但是我们期待的更复杂的应用程序将需要几乎所有这些。

4、数据科学的简要讨论

在本文中，将给你最简略描述，以及一些能查看更为完整信息的链接。

卷积神经网络（CNN）：CNN是所有类型的图像和视频识别、面部识别、图像标记的核心，并可在帮助自动驾驶在行人中识别停车标志。它们非常复杂，难以训练，而你不需要指定具体的功能（像猫有毛皮、尾巴、四条腿等那样），你需要在一个CNN上按字面意思展示数百万猫科的示例就可以成功。海量的训练数据是一个巨大的障碍。

递归神经网络(递归)：RNN是自然语言处理（NLP）的中心，也是游戏和类似的逻辑问题的中心。与CNN不同，它们将信息处理为时间序列，其中每个随后的数据片段在某种程度上依赖于之前的片段。它可能不明显，但语言属于此类别，因为下一个字符或下一个字在逻辑上与前一个字符相关。RNN可以工作在字符、字或甚至长段级别，这使得它们能够完美提供可预期的长篇回答您的客户服务问题。RNN处理文本问题的理解以及形成复杂的响应，包括翻译成外语。计算机能够赢得国际象棋和围棋，RNN功不可没。

生成式对抗神经网络（GANN）：CNN和RNN都受到同样问题的困惑，即需要庞大的、繁重的数据量以便训练，要么识别停车标志（图像），要么了解如何回答您关于如何打开该帐户（语音和文本）的问题。GANN能够保证显著减少训练数据并提高精度。他们通过互相较量。这里有一个好故事，关于训练卷积神经网来识别假法国印象派的艺术赝品。简而言之，一个CNN被真正的法国印象派画作来训练，所以它应该认识真品。其他对抗性CNN，称为生成式对抗神经网络，实际上被赋予创造印象派绘画赝品的任务。

CNN通过将像素值转换为复杂的数值向量来执行图像识别的任务。如果你向后运行它们，那就是从随机数值向量开始，它们可以创建一个图像。在这种情况下，NN生成赝品创造图像，试图欺骗尝试学习如何检测赝品的CNN。他们互相较量，直到生成器（赝品制造者）产生的图像如此完美，以至于CNN无法将它们从原件和已经扳平的两个对抗网络区分出来。同时，设计用于确定来自赝品的原件的CNN已经在检测赝品方面进行了极好的培训，而没有对数百万伪造的法国印象派大师进行训练这一不切实际的要求。总之，它们就是从其所在的环境中学习。

问答机（QAM）：QAM，是我们为像IBM的Watson之类起的一个相当不起眼的名字。这些都是海量知识库，经过训练，可以在其知识库中找到独特关联，并为它们以前从未见过的复杂问题提供答案。当普通搜索返回您潜在答案的列表时，QAM必须返回单一的最佳答案。

这是一个NLP和复杂搜索的混搭，其中QAM构建关于问题的可能含义的多个假设，并且基于加权证据算法返回最佳响应。

QAM需要人类加载大量关于需要研究的主题的数据，并且人类必须训练并维护知识库。然而，一旦建立完成，它们已被证明是在癌症检测（与CNNs结合）领域的专家、医学诊断、发现材料和化学品的独特组合，甚至教高中学生如何编程。总之，无论有大量的知识需要专家解释，QAM可以是大脑或至少是我们AI的关联记忆。

5、跟上AI的发展

跟随这些技术和这两个趋势来与AI俱进：

1.AI的商业化，目前由于它（第二代）的存在，使得一切实际上几乎和专业一样快速，而且大量初创公司涌入这一市场。有可能会像美国在20世纪20年代的电气化一样普遍。

2.注意脉冲神经网络的进步，使这一切都更令人惊叹。

网友评论

本文标题：自由数据：AI背后的数据科学

本文链接：https://www.haomeiwen.com/subject/ghzdlxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

自由数据：AI背后的数据科学

相关文章