微博爬虫技术方案

作者: 6017e164c325 | 来源:发表于2018-08-15 10:02 被阅读4次

技术选型

  • 目的:实现爬取相关微博的评论、转发、点赞等信息
  • 方案:
    • 在网上搜索了一遍后,相对觉得python比较好用。现存的解决方案多,实现爬虫开发速度快,且开源项目也多,但大多数都是娱乐性质的
    • 又找了一遍后,觉得WeiboSpider这个项目相对可以商业化,就基于这个项目来实现吧
    • WeiboSpider使用到的工具:python3.5、mysql、redis

技术架构

  • 原WeiboSpider架构,主要使用技术celery库,分成三个部分

    • 使用定时器触发事件:如每隔20小时登录一次,每隔5分钟执行一次抓取评论、抓发和点赞信息,定时器有以下2中方法
      • crontab,定时调用下python脚本
      • 使用celery功能,如"celery beat -A tasks.workers -l info"
    • 使用celery爬取微博:celery会把触发事件插入到redis,celery开启工作线程执行爬取
      • "celery -A tasks.workers -l info"
    • 工作线程把爬取的内容插入到数据库,目前使用的是mysql
  • 在原来的基础上,加了两个服务

    • 爬虫前端服务:
      • 提供微博的实时接口,如查询等功能,这些功能因为数据量太大,就直接转向微博
      • 定时触发事件功能
    • 接口服务:
      • 多种接入协议支持,如http,ws等
      • 转发微博的实时接口,对接到爬虫前端服务
      • 这层接口更加业务化,它从数据库组织数据,发送给应用端

注意的问题

  • WeiboSpider中需要注意的问题
    • 数据库连接不支持多线程
    • 数据库连接长时间没有操作,会失去连接

相关文章

  • 微博爬虫技术方案

    技术选型 目的:实现爬取相关微博的评论、转发、点赞等信息 方案:在网上搜索了一遍后,相对觉得python比较好用。...

  • 【工具】echarts+kuno+分词

    数据: python爬虫:微博爬虫、借助'出书啦'爬微信知乎Java爬虫:Java微博爬虫 时间轴: JAVA时间...

  • 微博爬虫

    WeiBoSpider 简介一个基于 python3.6.8 和 splinter 的微博爬虫,可以爬取指定日期...

  • 新浪微博爬虫

    layout: posttitle: 新浪微博爬虫categories: Spiderdescription: 微...

  • 如何采集新浪微博数据?

    本文主要介绍神箭手“新浪微博采集爬虫”(以下简称“微博爬虫”)的使用教程以及注意事项。 新浪微博中有大量高价值的软...

  • 数据采集与存储(一、数据接入消息队列)

    项目采集端通过爬虫采集微博相关数据,需要提供对数据的接入、清洗和存储。技术上实施流程为,爬虫将采集数据发送到消息队...

  • 采集时被封ip的解决方法(下)

    0x00 前言 一直以来,爬虫与反爬虫技术都时刻进行着博弈,而新浪微博作为一个数据大户更是在反爬虫上不遗余力。常规...

  • 微博爬虫-发布微博以及获取微博资料

    微博爬虫-发布微博以及获取微博资料 1.发布微博 为了减少限制我们使用移动版本登录首先登录微博,这里我采用cook...

  • python大牛一个小时爬去新浪微博千万数据是这样做到的

    爬虫功能: 此项目和QQ空间爬虫类似,主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注(详细见此)。 代码获取...

  • 土地分类 微博爬虫 本地处理modis数据

网友评论

    本文标题:微博爬虫技术方案

    本文链接:https://www.haomeiwen.com/subject/vbyibftx.html