bugly_爬虫

作者: shuimoyer | 来源:发表于2020-03-07 17:02 被阅读0次

bugly_爬虫
11.20-11.26
爬虫入门基础
01-认识爬虫
爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫
（了解）通用爬虫和聚焦爬虫--爬虫基础教程（python）（二）
Python 网络爬虫（一）
7.爬虫概述
1-基本概念
认识爬虫

很简单三步走过程中遇到问题查阅资料

获取数据=>存储数据=>可视化数据

获取数据：

工具

1. python

插件requests:

优点：很容易模拟网络请求，cookies自动持久化

缺点：安全性比较高的网站登陆请求的参数很难尽知，我们只知道账号密码

插件selenium：模拟用户点击操作，类似自动化测试工具airtest，按键精灵

功能：能获取有限的信息：浏览器解析后的xml，cookies

优点：只要知道账号密码就行，不关心网站的加密策略

缺点：比如请求头，响应头，报文主体无法获取

插件seleniumwire: pip install selenium-wire

seleniumwire是对selenium的封装，

优点：可以获取请求头，响应头，报文主体

缺点：还是模拟点击，效率比requests低

2. 浏览器google

3.chromedriver

我们的方案：

1.seleniumwire+selenium+chromedriver 实现自动化登陆获取cookies，headers缓存到本地

2.再利用requests直接请求想要的数据

3.多线程+多进程来提高获取数据的效率

存储数据：

工具：python

插件：pymongo

数据库：mongodb 存储的数据结构没有限制，很符合bugly上报日志的复杂

可以申请免费的云数据库耍耍

可视化数据：

1.MongoDB Compass （官方）

支持各种查询

2.python强大的库： plotly_express+pandas+pymongo

pymongo：访问数据库

pandas：构造符合标准的数据

plotly_express：画图

网友评论

本文标题：bugly_爬虫

本文链接：https://www.haomeiwen.com/subject/jalarhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

bugly_爬虫

很简单三步走过程中遇到问题查阅资料

获取数据：

存储数据：

可视化数据：

相关文章

bugly_爬虫

11.20-11.26

爬虫入门基础

01-认识爬虫

爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

（了解）通用爬虫和聚焦爬虫--爬虫基础教程（python）（二）

Python 网络爬虫（一）

7.爬虫概述

1-基本概念

认识爬虫

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

bugly_爬虫

很简单 三步走 过程中遇到问题查阅资料

获取数据：

存储数据：

可视化数据：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

很简单三步走过程中遇到问题查阅资料