教程:使用R进行可扩展数据分析

作者: Liam_ml | 来源:发表于2018-12-23 23:22 被阅读18次

    在最近在圣何塞举行的Strata会议上,Microsoft数据科学团队的几位成员提出了使用R进行可扩展数据分析的教程:单机到Spark集群。这些材料都可以在线获取,包括演示幻灯片动手实践的R脚本。您可以使用Data Science Virtual Machine for Linux来跟踪家中的资料,它提供了Spark和Microsoft R Server等所有必需的组件。(如果您还没有Azure帐户,则可以通过Azure免费试用获得200美元的赠送金额。)

    本教程涵盖了大规模训练预测模型的许多不同技术,并将训练过的模型部署为生产环境中的预测引擎。您将使用的技术包括在Spark上运行的Microsoft R ServerSparkR包sparklyr包和H20(通过rsparkling包)。它还涉及一些非Spark方法,例如R 的bigmemoryff包(以及使用它们的各种其他包),以及使用foreach包进行粗粒度并行计算。您还将学习如何使用mrsdeploy包从这些训练模型创建预测引擎。

    image.png

    本教程还包括用于比较这些不同技术的性能脚本,用于训练预测模型:

    image.png

    并用于从训练模型生成预测:

    image.png

    (上述测试使用了4个工作节点和1个边缘节点,全部带有16个内核和112Gb RAM。)

    可以在下面的链接中找到教程详细信息,包括幻灯片和脚本。

    Strata + Hadoop World 2017,San Jose:使用R进行可扩展的数据分析:从单机到Hadoop Spark集群

    相关文章

      网友评论

        本文标题:教程:使用R进行可扩展数据分析

        本文链接:https://www.haomeiwen.com/subject/jvbokqtx.html