很简单 三步走 过程中遇到问题查阅资料
获取数据=>存储数据=>可视化数据
获取数据:
工具
1. python
插件requests:
优点:很容易模拟网络请求,cookies自动持久化
缺点:安全性比较高的网站 登陆请求的参数很难尽知,我们只知道账号密码
插件selenium:模拟用户点击操作,类似自动化测试工具airtest,按键精灵
功能:能获取有限的信息:浏览器解析后的xml,cookies
优点:只要知道账号密码就行,不关心网站的加密策略
缺点:比如请求头,响应头,报文主体 无法获取
插件seleniumwire: pip install selenium-wire
seleniumwire是对selenium的封装,
优点:可以获取请求头,响应头,报文主体
缺点:还是模拟点击,效率比requests低
2. 浏览器google
我们的方案:
1.seleniumwire+selenium+chromedriver 实现自动化登陆获取cookies,headers缓存到本地
2.再利用requests直接请求想要的数据
3.多线程+多进程 来提高获取数据的效率
存储数据:
工具:python
插件:pymongo
数据库:mongodb 存储的数据结构没有限制,很符合bugly上报日志的复杂
可以申请免费的云数据库耍耍
可视化数据:
1.MongoDB Compass (官方)
支持各种查询
2.python强大的库: plotly_express+pandas+pymongo
pymongo:访问数据库
pandas:构造符合标准的数据
plotly_express:画图
网友评论