美文网首页
SKIL/开始/系统要求/多服务器要求

SKIL/开始/系统要求/多服务器要求

作者: hello风一样的男子 | 来源:发表于2019-04-23 16:43 被阅读0次

    多服务器要求
    SKIL可以在单节点和多节点配置中工作。在多节点设置中,你可以利用不同的机器扩展模型服务或训练,以满足你的业务需求。
    对于所有多服务器(群集)设置,应将以下软件版本与SKIL一起使用:

    软件 版本
    Apache Spark 1.6.x
    ZooKeeper 3.4.x
    SKIL训练与推理集群
    用于训练的SKIL集群允许组织架构中的不同分组共享计算资源进行深度学习,并提供一个一致的框架来访问经过训练的应用程序模型。
    深度学习模型的训练过程可以计算,有时内存使用很多,因此建议使用更高性能的系统。这些节点通常包含大量RAM和GPU和/或高CPU核心计数。SKIL可以配置为在Hadoop集群内工作,并利用Spark和HDFS进行培训或进行高性能批处理推理。

    64-128GB的RAM (专门用于训练)
    500GB-1TB 磁盘间 (推荐SSD)
    1-8 x NVIDIA Tesla P100 或 V100 GPUs
    10Gbps 以太网或光纤通道网络连接。

    SKIL 推理集群
    推理集群是为使用简单的REST API为你的模型评分而优化的。他们还可以根据应用程序的需要运行转换并执行KNN查找。你可以将SKIL配置为仅在推理模式下运行,并将其扩展以满足性能目标。

    推理集群所需的规范取决于所服务模型的复杂性。较大的模型可能需要GPU来确保模型评分有足够的响应时间。对于不太复杂的模型,大量只使用CPU的小型机器就足够了。这里并没有详细介绍如何为集群确定正确的节点大小,但是这里有一些典型的配置:
    仅CPU集群节点:

    四核处理器
    16-128GB 的 RAM
    最小1Gbps网络连接
    100GB-1TB 磁盘空间
    经典的GPU集群:

    四核处理器
    64-128GB 的 RAM
    最小1Gbps网络连接
    500GB-1TB磁盘空间
    1-4 NVIDIA Tesla P100/V100 GPU

    相关文章

      网友评论

          本文标题:SKIL/开始/系统要求/多服务器要求

          本文链接:https://www.haomeiwen.com/subject/jzfbgqtx.html