流程
- selenium爬取慕课网的课程、章节、评论数据集分别存两个地方:mysql数据库[便于后期选装推荐、预测算法、知识图谱、后台]、.csv文件;【需要注意的是慕课网评分不准,需要使用深度学习知识NLP模型进行文本分类、情感分析!!!】
- 将.csv上传到hdfs中,并使用hive建表后导入.csv数据;
- 9个指标,一半使用spark/scala去做实时计算分析。一半使用hive_sql进行分层离线处理计算,并使用sqoop把hive分析结果导入mysql;
-
最终使用flask+echarts制作可视化统计大屏图;
1.png
![](https://img.haomeiwen.com/i21576447/1941b42077c0ecae.png)
![](https://img.haomeiwen.com/i21576447/babb061781ba3ada.png)
![](https://img.haomeiwen.com/i21576447/9e9b7268bc359333.png)
![](https://img.haomeiwen.com/i21576447/6160a8592e05eceb.png)
创新点
NLP模型进行文本分类情感分析、Python爬虫采集50万+数据集、可视化大屏、spark+hive离线计算实时计算混合开发双实现防止被导师喷
注意:如果导师或者你个人还觉的这个项目工作量不够,可以选装推荐系统、预测系统、知识图谱、后台管理,我保证无缝衔接1秒内安装+选装成功!因为下面的系统和现在的可视化系统是姊妹关系,共用数据库表、CSV等,直接可以对接上!如下↓
![](https://img.haomeiwen.com/i21576447/3392084e3b7d2636.png)
![](https://img.haomeiwen.com/i21576447/f01e416f6501cf46.png)
![](https://img.haomeiwen.com/i21576447/43d0ed03b3ef43a0.png)
![](https://img.haomeiwen.com/i21576447/61937636b26b43bc.png)
![](https://img.haomeiwen.com/i21576447/874ae4c9687dbb41.png)
![](https://img.haomeiwen.com/i21576447/73cfbdead5b0e021.png)
![](https://img.haomeiwen.com/i21576447/11210b0bb55ed35c.png)
![](https://img.haomeiwen.com/i21576447/9c6e81cbd3751060.png)
![](https://img.haomeiwen.com/i21576447/c8f868beb971bf79.png)
![](https://img.haomeiwen.com/i21576447/afbf2ab57b5ef435.png)
![](https://img.haomeiwen.com/i21576447/36905a02216ad354.png)
![](https://img.haomeiwen.com/i21576447/102409fee825c59c.png)
网友评论