Spark提供了三种主要的与数据相关的API: RDD DataFrame DataSet 下面详细介绍下各自的特...[作者空间]
Spark的MLlib专门设计了一些工具用来对ML算法和Pipeline进行调优。比如内置的交叉验证和其他工具能够...[作者空间]
Spark的MLlib实现了协同过滤(Collaborative Filtering)这个功能。官网文档链接 熟悉...[作者空间]
介绍 本篇文章主要摘自Spark官网的Spark Programming Guide,在之前的一篇文章中已经有对这...[作者空间]
之前阅读了Spark的ML API文档,也看了里面介绍的example,正好之前自己写过Logistic Regr...[作者空间]
本章节介绍了分类和回归的算法。它还包括讨论特定类别的算法部分,如:线性方法,树和集成。下面是整个API Doc中的...[作者空间]
Extracting, transforming and selecting features 这一大章节讲的内容...[作者空间]
MLlib是Spark的机器学习lib,目的是让机器学习的实践变得更加简单,总的来说它提供了以下几种工具: ML算...[作者空间]
以下内容主要基于Spark2.1.0版本的Spark Streaming内容学习得到。 还是先把Maven的依赖加...[作者空间]
本内容主要来自当前Spark最新版2.1.0的官方文档sql-programming-guide,以及一些其他阅读...[作者空间]
从Spark官网以及《Spark最佳实践》中整理得到,其中主要是给自己做记录笔记用,难免因为初学的原因有很多过时或...[作者空间]
一、安装虚拟机及Ubuntu 虚拟机选择VirtualBox,操作系统选择Ubuntu的server版。 这两个软...[作者空间]