美文网首页
Spark入门网络课程推荐

Spark入门网络课程推荐

作者: 简简单单书写 | 来源:发表于2015-08-05 20:30 被阅读0次

    现在大数据处理领域最火爆的非Spark莫属,今年夏天Berkeley大学开放了两门Spark入门网络课程。跟着学习了一下,感觉非常适合入门,课程同时会涉及到数据分析方法、ML的一些基础算法。

    两门课程如下:
    第一门 CS100 《BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark
    第二门CS190 《BerkeleyX: CS190.1x Scalable Machine Learning

    从这两门课程的参与人数上也可以看出来spark到底有多火热:

    CS100

    The over 70,000 students from over 170 countries who enrolled in this course:10,700 students finished lab 1, 8,700 lab 2, 7,400 lab 3, and 6,800 lab 4.

    CS190

    Nearly 50,000 students from 163 countries are enrolled in this course

    个人比较推荐的2个理由:

    1. 课程提供一套环境,在自己PC上安装VBox,vagrant后,本机上就有一个Spark环境,方便学习;
    2. 课程的作业设计非常好,循序渐进,有难度。总共5周的教学,有4 个lab要做。 每个 lab 会由浅至深介绍spark的各种用法,并且以实际应用为主。整个做下来对 Spark RDD操作,Python 数据处理,mllib 都会有所了解。

    课程目录:

    CS100:

    lab1 学习 Spark模型、transformation、action、 word count 程序;
    lab2 应用 Spark 进行日志分析,数据统计,画图;
    lab3 实现文本分析,介绍TF-IDF算法,并进行算法评估;
    lab4 介绍机器学习 用协同过滤算法实现电影推荐

    CS190:

    lab1 python,Numpy 介绍
    lab2 同CS100 lab1,Spark RDD操作,wordcount 实现
    lab3 线性回归 算法预测 歌曲发型年份
    lab4 逻辑回归 进行CTR预测
    lab5 PCA算法

    相关文章

      网友评论

          本文标题:Spark入门网络课程推荐

          本文链接:https://www.haomeiwen.com/subject/mftbqttx.html