现在大数据处理领域最火爆的非Spark莫属,今年夏天Berkeley大学开放了两门Spark入门网络课程。跟着学习了一下,感觉非常适合入门,课程同时会涉及到数据分析方法、ML的一些基础算法。
两门课程如下:
第一门 CS100 《BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark》
第二门CS190 《BerkeleyX: CS190.1x Scalable Machine Learning》
从这两门课程的参与人数上也可以看出来spark到底有多火热:
CS100
The over 70,000 students from over 170 countries who enrolled in this course:10,700 students finished lab 1, 8,700 lab 2, 7,400 lab 3, and 6,800 lab 4.
CS190
Nearly 50,000 students from 163 countries are enrolled in this course
个人比较推荐的2个理由:
- 课程提供一套环境,在自己PC上安装VBox,vagrant后,本机上就有一个Spark环境,方便学习;
- 课程的作业设计非常好,循序渐进,有难度。总共5周的教学,有4 个lab要做。 每个 lab 会由浅至深介绍spark的各种用法,并且以实际应用为主。整个做下来对 Spark RDD操作,Python 数据处理,mllib 都会有所了解。
课程目录:
CS100:
lab1 学习 Spark模型、transformation、action、 word count 程序;
lab2 应用 Spark 进行日志分析,数据统计,画图;
lab3 实现文本分析,介绍TF-IDF算法,并进行算法评估;
lab4 介绍机器学习 用协同过滤算法实现电影推荐
CS190:
lab1 python,Numpy 介绍
lab2 同CS100 lab1,Spark RDD操作,wordcount 实现
lab3 线性回归 算法预测 歌曲发型年份
lab4 逻辑回归 进行CTR预测
lab5 PCA算法
网友评论