美文网首页
bugly_爬虫

bugly_爬虫

作者: shuimoyer | 来源:发表于2020-03-07 17:02 被阅读0次

很简单 三步走  过程中遇到问题查阅资料

获取数据=>存储数据=>可视化数据

获取数据:

工具

1. python  

    插件requests

        优点:很容易模拟网络请求,cookies自动持久化

        缺点:安全性比较高的网站 登陆请求的参数很难尽知,我们只知道账号密码

    插件selenium:模拟用户点击操作,类似自动化测试工具airtest,按键精灵

          功能:能获取有限的信息:浏览器解析后的xml,cookies

          优点:只要知道账号密码就行,不关心网站的加密策略       

           缺点:比如请求头,响应头,报文主体 无法获取 

    插件seleniumwire: pip install selenium-wire

        seleniumwire是对selenium的封装,

        优点:可以获取请求头,响应头,报文主体

        缺点:还是模拟点击,效率比requests低

2. 浏览器google 

3.chromedriver

我们的方案:

1.seleniumwire+selenium+chromedriver 实现自动化登陆获取cookies,headers缓存到本地

2.再利用requests直接请求想要的数据 

3.多线程+多进程 来提高获取数据的效率

存储数据:

工具:python

    插件:pymongo    

数据库:mongodb  存储的数据结构没有限制,很符合bugly上报日志的复杂

    可以申请免费的云数据库耍耍

可视化数据:

1.MongoDB Compass (官方)

    支持各种查询

2.python强大的库: plotly_express+pandas+pymongo

    pymongo:访问数据库

    pandas:构造符合标准的数据

    plotly_express:画图        

相关文章

  • bugly_爬虫

    很简单 三步走 过程中遇到问题查阅资料 获取数据=>存储数据=>可视化数据 获取数据: 工具 1.python 插...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • 爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索...

  • (了解)通用爬虫和聚焦爬虫--爬虫基础教程(python)(二)

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.我们主要写通用爬虫。 通用爬虫 通...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

网友评论

      本文标题:bugly_爬虫

      本文链接:https://www.haomeiwen.com/subject/jalarhtx.html