关于Spark的机器学习库Smile的应用及记录

关于Spark的机器学习库Smile的应用及记录

作者: bensonrachel | 来源:发表于2021-04-15 17:24 被阅读0次

关于Spark的机器学习库Smile的应用及记录
第六篇|Spark MLlib机器学习(1)
基于Spark的机器学习实践 (二) - 初识MLlib
精彩博客收集
机器学习的发展史
Spark的数据戏法
Spark机器学习实战（一）Spark的环境搭建与简单销售统计应
Spark实战（2）_Spark内核架构剖析
2018-11-12Pyspark win环境配置参考
14.spark mllib之快速入门

Smile官方地址、需要VPN才能访问的官方文档

构建Spark+smile项目，但是smile这个库目前还在更新和迭代阶段，很多由于版本和库对不上，比较多的功能只在文档里有，但是正式的github上下载的包却没有能使用的方法。

Smile机器学习库是Github上的开源的由开发者haifengl开发的一款适用于Scala项目的统计机器智能和学习引擎。Smile涵盖了机器学习的各个方面，包括分类，回归，聚类，关联规则挖掘，特征选择，流形学习，多维缩放，遗传算法，缺失值插补，有效的最近邻搜索等。在需要在maven项目添加相关依赖，即可使用调用相关的分类聚类等方法等。不过，此项目一直还在更新改进，可以说是处于实验阶段的项目。但是，凭借先进的数据结构和算法，Smile可提供最先进的性能。 Smile实现以下主要的机器学习算法：包括分类，回归，聚类，关联规则挖掘，特征选择，流形学习，自然语言处理等等。Smile库是基于java和scala的，因此可以很好与Spark结合起来，更进一步地和RSP-Spark结合起来用于大规模数据的机器学习。

最新的进展（已经可实现的工作），之前一直想实现如何可视化聚类的结果，然而官网的代码以及从GitHub上下载的最新2.6.0版本都使用不了可视化的这个功能。

最近在官网的栏目上发现了这个，是一个在线的jupyter-notebook编辑器，有Scala好几个版本的内核，而且似乎是不需要翻墙访问的。名字叫mybinder.org。

它的使用方法是在Scala交互环境中，直接import的时候帮你自动下载各种依赖和库包，通过这个方法import的smile却是可以使用可视化的功能。

然后我就想是否在本机安装Scala交互的notebook之后也可以使用这个方法进行使用。于是就找到两种可以使用Scala加spark的内核，一个是almond（原来的jupyter-Scala）需要

使用命令行下载，多试几次，我试了好几次才装上，最好指定版本，有对应的版本的支持列表，我的是Scala2.11.12，spark是2.4.0。一个spylon-kernel，这个也是可以的，装完能直接使用spark和scala交互。然后我就测试了一波，发现果然可以。Almond：如果安装了不对的版本，可以直接加上--force 参数安装就可以直接替换掉之前的内核。

smile有一套自己的read方法以及一套自己的可视化方法。如果使用不了的话就只能使用自己的方法。如下：

对比一下结果，发现是正确的。

可以使用predict函数做预测的。输入为一个一维的double数组。

相关文章

关于Spark的机器学习库Smile的应用及记录
Smile官方地址[https://github.com/haifengl/smile]、需要VPN才能访问的官方...
第六篇|Spark MLlib机器学习(1)
MLlib是Spark提供的一个机器学习库，通过调用MLlib封装好的算法，可以轻松地构建机器学习应用。它提供了非...
基于Spark的机器学习实践 (二) - 初识MLlib
1 MLlib概述 1.1 MLlib 介绍 ◆ 是基于Spark core的机器学习库,具有Spark的优点 ◆...
精彩博客收集
1、Spark MLlib机器学习：黄美灵2、Spark 应用：祝威廉3、Spark 系列：heayin1234、...
机器学习的发展史
关于机器学习的详细内容：机器学习入门：概念原理及常用算法（本课程主要讲解机器学习的概念、原理和应用场景，以及机器...
Spark的数据戏法
聚焦在 Twitter 上关于Apache Spark的数据，目标是准备将来用于机器学习和流式处理应用的数据。 ...
Spark机器学习实战（一）Spark的环境搭建与简单销售统计应
Spark机器学习实战（一）Spark的环境搭建与简单销售统计应用之前写了一个从零开始学习Spark的系列，一共...
Spark实战（2）_Spark内核架构剖析
Standalone模式提交Spark应用的机器，Application（自己的Spark程序），spark-s...
2018-11-12Pyspark win环境配置参考
Anaconda中配置Pyspark的Spark开发环境 Spark搭建机器学习系统 Spark机器学习 win+...
14.spark mllib之快速入门
简介 MLlib是Spark提供提供机器学习的库，专为在集群上并行运行的情况而设计。MLlib包含很多机器学习算法...

网友评论

本文标题：关于Spark的机器学习库Smile的应用及记录

本文链接：https://www.haomeiwen.com/subject/ipbdlltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|关于Spark的机器学习库Smile的应用及记录|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！