多服务器要求
SKIL可以在单节点和多节点配置中工作。在多节点设置中,你可以利用不同的机器扩展模型服务或训练,以满足你的业务需求。
对于所有多服务器(群集)设置,应将以下软件版本与SKIL一起使用:
软件 版本
Apache Spark 1.6.x
ZooKeeper 3.4.x
SKIL训练与推理集群
用于训练的SKIL集群允许组织架构中的不同分组共享计算资源进行深度学习,并提供一个一致的框架来访问经过训练的应用程序模型。
深度学习模型的训练过程可以计算,有时内存使用很多,因此建议使用更高性能的系统。这些节点通常包含大量RAM和GPU和/或高CPU核心计数。SKIL可以配置为在Hadoop集群内工作,并利用Spark和HDFS进行培训或进行高性能批处理推理。
64-128GB的RAM (专门用于训练)
500GB-1TB 磁盘间 (推荐SSD)
1-8 x NVIDIA Tesla P100 或 V100 GPUs
10Gbps 以太网或光纤通道网络连接。
SKIL 推理集群
推理集群是为使用简单的REST API为你的模型评分而优化的。他们还可以根据应用程序的需要运行转换并执行KNN查找。你可以将SKIL配置为仅在推理模式下运行,并将其扩展以满足性能目标。
推理集群所需的规范取决于所服务模型的复杂性。较大的模型可能需要GPU来确保模型评分有足够的响应时间。对于不太复杂的模型,大量只使用CPU的小型机器就足够了。这里并没有详细介绍如何为集群确定正确的节点大小,但是这里有一些典型的配置:
仅CPU集群节点:
四核处理器
16-128GB 的 RAM
最小1Gbps网络连接
100GB-1TB 磁盘空间
经典的GPU集群:
四核处理器
64-128GB 的 RAM
最小1Gbps网络连接
500GB-1TB磁盘空间
1-4 NVIDIA Tesla P100/V100 GPU
网友评论