美文网首页
SKIL/工作流程/资源

SKIL/工作流程/资源

作者: hello风一样的男子 | 来源:发表于2019-04-20 21:34 被阅读0次

    资源

    当今世界,我们收集越来越多的增长和复杂的数据集,这些数据集往往需要使用复杂的模型。更重要的是,大型和非结构化的数据并没有一个适合所有存储解决方案。

    要在有趣的现实问题上进行机器学习,需要适应大量(分布式)数据库、云服务和连接器。随着大型数据集的出现,需要大量的计算能力。

    鉴于上述问题,模型开发平台必须具备必要的工具来利用外部存储和计算资源,以帮助数据科学家更快地获得结果。

    从1.2版开始,SKIL支持在外部资源上运行spark作业。外部资源可以是本地拥有的Spark集群,也可以是云服务提供商资源,如AWS弹性Map Reduce、S3或谷歌DataProc等。

    以下是与SKIL资源相关的重要概念:

    资源

    资源提供了一种使用主要云平台或本地Spark集群执行训练和推理作业的简单方法。SKIL中的资源分为两类:

    1. 计算
      • EMR - AWS 弹性Map Reduce
      • DataProc - Google 太数据计算引擎
      • HDInsight - Azure计算
      • Local Spark - 使用YARN作业调度
    2. 存储
      • S3 - AWS简单存储服务
      • Google Storage - Google 云存储
      • Azure Storage - Azure 块存储
      • HDFS - 本地Hadoop

    资源与其相应的凭证连接,SKIL需要与其连接的存储和计算资源,才能成功执行作业。
    请注意,为了执行作业,存储资源和计算资源都应该属于同一个供应商。例如,作业可以使用AWS资源(EMR用于计算,S3用于存储),但不能将Google的DataProc与S3一起作为计算资源。

    资源组
    资源组是资源的逻辑分组,通常用于组织和访问管理。资源和资源组之间为多对多关系。即一个资源组可以包含多个资源,一个资源可以属于多个资源组。

    注意

    请注意,资源名称和资源ID是全局唯一的-资源组名称和组ID也是如此

    作业

    作业是在连接的SKIL资源的后台运行的计算。作业可以有两种类型:

    1. 训练
    2. 推理

    凭证
    凭证存储在一起(在JSON文件或数据库中),用于使用相应的资源API对连接的资源执行特权请求。例如,要与S3和EMR通信,凭证文件应具有以下格式的访问密钥和关联的安全密钥:

    {
      "accessKey": "<access_key>",
      "secretKey": "<secret_key>" 
    }
    
    image.gif

    相关文章

      网友评论

          本文标题:SKIL/工作流程/资源

          本文链接:https://www.haomeiwen.com/subject/wuscgqtx.html