美文网首页
数据科学基础之管道

数据科学基础之管道

作者: Nefelibatas | 来源:发表于2022-05-08 20:27 被阅读0次

理解管道(Pipeline)

要支持工业级的人工智能产品,一个最基本的概念就是,需要搭建一个管道让你的环境是动态的、闭环的。

在英文的语言背景里,“管道”这个词很形象地说明了这个环境的特点。

把数据想象成“管道”里的水,这里面的一个核心思想,就是数据从一个环节到下一个环节,源源不断。再把最终的产品,也就是这个管道的末端,和最开始的数据采集部分,也就是这个管道的开始端,结合起来思考,这就是一个闭合的环路。

理解数据产品的核心,就要理解它是一个闭合环路。

几乎关于数据产品的一切难点、问题以及解决方案都可以从这个闭合环路中产生。从一个静态的机器学习流程到一个动态的管道似的闭合环路,这是一个质变,对整个环节上的所有步骤都有全新的要求。

静态的流程中,不需要太过关注这个数据集的来源。甚至采集数据集的代码或者脚本都可以是一次性的,可以不具备重复使用的价值。但是这种情况在管道的环境中是不可能的。

在管道中,采集数据的可靠性和可重复性是非常重要的步骤,这就对采集数据所采用的代码有不一样的要求。这部分代码需要被反复检验,每一步都需要人工智能工程师和数据科学家进行检验。

如果把这个例子扩展到数据管道的其他部分,就可以很清楚地看到,数据管道对于构建一个机器学习流程所带来的根本变化。

管道的另外一个重要特性是自动化,一个不能自动化的管道是不能被称为管道

这里的自动化有两层意思,

一层意思是指数据本身可以被自动采集、整理、分析,然后自动流入机器学习部分,有结果后自动输出并能被线上的系统使用;

另一层意思是指,每一个环节本身都不需要人工干预,或者仅需极少数的人工,自身可以高可靠地运行。

由此可见,管道的自动化对每个环节的技术选择和实现都有非常高的要求。

相关文章

  • 数据科学基础之管道

    理解管道(Pipeline) 要支持工业级的人工智能产品,一个最基本的概念就是,需要搭建一个管道让你的环境是动态的...

  • Kaggle|Courses|Pipelines

    管道机制。管道捆绑了 预处理 和 建模 的步骤,可以使代码更简单和井井有条。虽然有一些数据科学家不使用管道,但是使...

  • 源码|HDFS之DataNode:写数据块(3)

    源码|HDFS之DataNode:写数据块(1)、源码|HDFS之DataNode:写数据块(2)分别分析了无管道...

  • 第七章 数据科学理论与工具

    数据科学理论基础 1.数据科学概念2.数据科学预测预警分析3.商业智能与数据科学 数据科学研究的重要角色 1.数据...

  • Linux之bash

    bash的基础特性之 IO重定向及管理 ] IO重定向: 输入重定向: 管道 bash基础特性之自动补充命令 ba...

  • Python线性优化基础讲解/贪心学院

    目前,各组织正在利用数据科学和机器学习来解决各种业务问题。为了创造一个真正的业务影响,如何弥合数据科学管道和业务决...

  • 【R数据科学读书笔记】R语言中的管道操作

    R语言中的管道操作 这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用...

  • 【2020-06-16】sqlite3和sqlitebrowse

    SQL取数重要性 数据分析是数据科学家基础 SQL取数是数据分析基础 数据科学家、模型开发人员、数据分析师80%的...

  • 管道机制

    本文摘抄自linux基础编程 管道指的是从一个进程连接数据流到另一个进程。它具有以下特点: 管道是半双工的,数据只...

  • R语言基础--数据类型-总结

    R语言基础--数据类型-总结 1、R语言基础--数据类型之向量 2、R语言基础--数据类型之因子 3、R语言基础-...

网友评论

      本文标题:数据科学基础之管道

      本文链接:https://www.haomeiwen.com/subject/rmaqurtx.html