美文网首页
计算机毕业设计吊打导师hadoop+spark+hive动漫推荐

计算机毕业设计吊打导师hadoop+spark+hive动漫推荐

作者: 计算机毕业设计大全 | 来源:发表于2024-01-30 18:59 被阅读0次

    流程:
    1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
    2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
    3.hive建库建表导入.csv动漫数据;
    4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
    5.sqoop对分析结果导入mysql数据库;
    6.Flask+echarts搭建可视化大屏;
    创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现


    1.png 2.png 3.png 4.png 5.png 13.png 14.png 15.png 17.png 21.png 22.png 23.png 26.png 27.png 29.png 30.png 31.png 32.png 33.png 34.png 35.png 36.png 37.png 38.png 39.png 40.png

    相关文章

      网友评论

          本文标题:计算机毕业设计吊打导师hadoop+spark+hive动漫推荐

          本文链接:https://www.haomeiwen.com/subject/bjcoodtx.html