美文网首页大数据 爬虫Python AI Sql
爬虫实时监控 1000 家中国企业新闻动态

爬虫实时监控 1000 家中国企业新闻动态

作者: lazycat_zzz | 来源:发表于2017-10-11 15:34 被阅读0次

    大家好~
    你想第一时间获取企业信息吗?
    欢迎使用我的Python代码
    Github地址

    此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。

    采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。

    方法简单粗暴 优点:实时性可以保障

    欢迎fork, star。

    相关文章

      网友评论

        本文标题:爬虫实时监控 1000 家中国企业新闻动态

        本文链接:https://www.haomeiwen.com/subject/ltywyxtx.html