美文网首页嵌牛IT观察
优秀的 Java 爬虫项目

优秀的 Java 爬虫项目

作者: 博伟_409f | 来源:发表于2019-12-10 20:08 被阅读0次

    优秀的 Java 爬虫项目

    姓名:陈博伟

    学号:19021210926

    转载源:https://www.zhihu.com/question/31427895/answer/925220585

    嵌牛导读:给大家介绍一些优秀的 Java 爬虫项目。

    嵌牛鼻子:Java 爬虫项目

    嵌牛提问:GitHub 上有哪些优秀的 Java 爬虫项目?

    嵌牛正文:

    1.webporter

    star:2.1k

    webporter 是一个基于垂直爬虫框架webmagic的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。

    目前提供了知乎用户数据的爬虫示例,作者还在不定时进行调整和补充。

    2.XueQiuSuperSpider

    star:1.1k

    股票信息的超级爬虫。雪球网、东方财富、同花顺目前已经提供了很多种股票筛选方式,但是筛选方式是根据个人操作风格来定义的,三个网站有限的筛选方式显然不能满足广大股民、程序员特别是数据分析控的要求。

    而XueQiuSuperSpider是一个可以任意拓展,实现任意数据搜集与分析的爬虫程序。

    3.gecco

    star:1.8k

    Gecco是使用Java语言开发的易于使用的轻量级Web爬虫。使用Geccointegriert jsoup,httpclient,fastjson,spring,htmlunit,redission ausgezeichneten框架,配置多个jQuery样式选择器就可以快速地编写爬虫了。

    4.SeimiCrawler

    star:1.5k

    SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架。能降低新手开发一个替代高且性能不差的爬虫系统的门性能,并提高开发爬虫系统的开发效率。

    在设计思想上受Python的爬虫框架Scrapy启发,同时融合了Java语言本身的特点。

    5.电影推荐系统

    star:1.1k

    这个项目是基于大数据过滤引擎的电影推荐系统,包含爬虫,电影网站(前端和对准),后台管理系统以及推荐系统(Spark)。

    6.spring-boot-quick

    star:1.1k

    基于springboot的快速学习示例,还整合了一些开源框架,如:rabbitmq(延迟队列)、Kafka、jpa、redies、oauth2、swagger、jsp、docker、spring-batch、异常处理、日志输出、多模块开发、多环境打包、缓存cache、爬虫、jwt、dubbo和Async等等。

    7.知乎crawler

    一个基于Java的高性能,免费HTTP代理池,支持横向扩展,分布式抓取爬虫项目。主要功能是抓取知乎用户,主题,问题,答案,文章等数据。比如:

    8.FreeBook

    基于MVP模式开发的带缓存网络爬虫,采用最流行框架构造,可以免费下载电子书,非常适合准备毕业设计的同学~

    最后,提醒大家,如果你没有打好Java基础,这些爬虫项目做起来会比较难。在做之前,你可以再去学习一遍Java基础,以达到事半功倍的效果:

    Java基础入门知识讲解

    戳链接免费试听后加微信jiuzhangsuanfa5,发送课程试听截图+【知乎Java】,还能免费获取Java大礼包哟~

    相关文章

      网友评论

        本文标题:优秀的 Java 爬虫项目

        本文链接:https://www.haomeiwen.com/subject/nntngctx.html