流程
1.Python采集拉勾网约100万招聘职位数据存入mysql数据库;
2.使用hadoop+mapreduce对mysql中的数据进行清洗转为.csv文件上传hadoop的hdfs集群;
3.使用hive数仓工具建库建表导入.csv数据集;
4.一半指标使用hive_sql离线分析得出,一半分析指标使用Spark之Cala实时分析得出;
5.分析结果使用sqoop导入mysql;
6.使用Flask+echarts搭建可视化大屏吊炸天;
1.png 2.png 3.png 4.png 5.png 6.png 7.png
创新点
Python爬虫、海量数据集、可视化炫酷大屏
选装
可选装推荐系统、知识图谱、后台管理(0秒无缝衔接选装对接安装上立刻使用):
可选装项目模块如下:
1.推荐系统(4种深度学习推荐算法 协同过滤基于用户 基于物品 SVD神经网络 MLP)。附带AI、支付、短信、lstm情感分析。
2.预测系统(KNN CNN RNN卷积神经预测 K-means 线性回归)。
3.知识图谱neo4j可视化关系网络图。
4.后台管理系统。
网友评论