资源
当今世界,我们收集越来越多的增长和复杂的数据集,这些数据集往往需要使用复杂的模型。更重要的是,大型和非结构化的数据并没有一个适合所有存储解决方案。
要在有趣的现实问题上进行机器学习,需要适应大量(分布式)数据库、云服务和连接器。随着大型数据集的出现,需要大量的计算能力。
鉴于上述问题,模型开发平台必须具备必要的工具来利用外部存储和计算资源,以帮助数据科学家更快地获得结果。
从1.2版开始,SKIL支持在外部资源上运行spark作业。外部资源可以是本地拥有的Spark集群,也可以是云服务提供商资源,如AWS弹性Map Reduce、S3或谷歌DataProc等。
以下是与SKIL资源相关的重要概念:
资源
资源提供了一种使用主要云平台或本地Spark集群执行训练和推理作业的简单方法。SKIL中的资源分为两类:
- 计算
- EMR - AWS 弹性Map Reduce
- DataProc - Google 太数据计算引擎
- HDInsight - Azure计算
- Local Spark - 使用YARN作业调度
- 存储
- S3 - AWS简单存储服务
- Google Storage - Google 云存储
- Azure Storage - Azure 块存储
- HDFS - 本地Hadoop
资源与其相应的凭证连接,SKIL需要与其连接的存储和计算资源,才能成功执行作业。
请注意,为了执行作业,存储资源和计算资源都应该属于同一个供应商。例如,作业可以使用AWS资源(EMR用于计算,S3用于存储),但不能将Google的DataProc与S3一起作为计算资源。
资源组
资源组是资源的逻辑分组,通常用于组织和访问管理。资源和资源组之间为多对多关系。即一个资源组可以包含多个资源,一个资源可以属于多个资源组。
注意
请注意,资源名称和资源ID是全局唯一的-资源组名称和组ID也是如此
作业
作业是在连接的SKIL资源的后台运行的计算。作业可以有两种类型:
- 训练
- 推理
凭证
凭证存储在一起(在JSON文件或数据库中),用于使用相应的资源API对连接的资源执行特权请求。例如,要与S3和EMR通信,凭证文件应具有以下格式的访问密钥和关联的安全密钥:
{
"accessKey": "<access_key>",
"secretKey": "<secret_key>"
}
image.gif
网友评论