美文网首页大数据 爬虫Python AI Sql
爬虫实时监控 1000 家中国企业新闻动态

爬虫实时监控 1000 家中国企业新闻动态

作者: lazycat_zzz | 来源:发表于2017-10-11 15:34 被阅读0次

大家好~
你想第一时间获取企业信息吗?
欢迎使用我的Python代码
Github地址

此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。

采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。

方法简单粗暴 优点:实时性可以保障

欢迎fork, star。

相关文章

网友评论

    本文标题:爬虫实时监控 1000 家中国企业新闻动态

    本文链接:https://www.haomeiwen.com/subject/ltywyxtx.html