《Spark认知学习》专题

专题列表页

个人Spark学习内容笔记，如有可能也欢迎指正，共同学习和进步。（加上认知两个字感觉和内容更加确切一些，因为内容实在是简陋了些。）

Spark提供了三种主要的与数据相关的API： RDD DataFrame DataSet 下面详细介绍下各自的特...[作者空间]

Spark的MLlib专门设计了一些工具用来对ML算法和Pipeline进行调优。比如内置的交叉验证和其他工具能够...[作者空间]

Spark的MLlib实现了协同过滤（Collaborative Filtering）这个功能。官网文档链接熟悉...[作者空间]

介绍本篇文章主要摘自Spark官网的Spark Programming Guide，在之前的一篇文章中已经有对这...[作者空间]

之前阅读了Spark的ML API文档，也看了里面介绍的example，正好之前自己写过Logistic Regr...[作者空间]

本章节介绍了分类和回归的算法。它还包括讨论特定类别的算法部分，如：线性方法，树和集成。下面是整个API Doc中的...[作者空间]

Extracting, transforming and selecting features 这一大章节讲的内容...[作者空间]

MLlib是Spark的机器学习lib，目的是让机器学习的实践变得更加简单，总的来说它提供了以下几种工具： ML算...[作者空间]

以下内容主要基于Spark2.1.0版本的Spark Streaming内容学习得到。还是先把Maven的依赖加...[作者空间]

本内容主要来自当前Spark最新版2.1.0的官方文档sql-programming-guide，以及一些其他阅读...[作者空间]

从Spark官网以及《Spark最佳实践》中整理得到，其中主要是给自己做记录笔记用，难免因为初学的原因有很多过时或...[作者空间]

一、安装虚拟机及Ubuntu 虚拟机选择VirtualBox，操作系统选择Ubuntu的server版。这两个软...[作者空间]