爬虫的套路

作者: MkTom | 来源:发表于2018-07-25 18:44 被阅读0次

准备URL

分析,找出我们需要URL
如果当前URL对应的内容就是我们需要的数据, 直接用这个URL了
如果这个URL不是我们要的数据, 需要使用network拦截数据
请求列表从上向下看, 除了图片,js,css意外的响应内容, 找需要的请求
使用search all files 搜索
事件监听
准备URL列表:
页码数固定
URL规律明显
先准备开始URL
页码数不固定, URL规律不是很明显.
如果是html数据,从数据中提取下一页的URL
如果是json数据, 提取: 总页数,每页多少条,当前页,根据这些信息生成一个下一页URL
发送请求,获取响应数据

随机User-Agent, 反反爬虫
随机代理, 反反爬虫
如果上面处理依然不行, 就可以多带些请求头,比如Reference,
如果请求需不要带cookie就不要带cookie
如果请求中必须要带上cookie, 可以使用代理, 并且要降低请求速度
使用seesion来登录, 以后就可以使用该session访问该网站登录后的资源了.
提取数据

确定数据所在位置
如果需要的内容在列表页, 就不要去请求详情页了
如果需要的数据在详情页
获取详情页的URL
发送请求,获取详情页数据
提取详情页数据
返回详情页数据
提取数据

如果是HTML/xml页面
正则表达式, 提取某一个特定内容. 比如: 提取页面中的json,max_page, ...
使用xpath, 先分组, 在提取数据
如果是json
使用json模块进行解析
保存数据

保存到本地文件中: .txt, .json, .csv
保存到数据库中

网友评论

本文标题：爬虫的套路

本文链接：https://www.haomeiwen.com/subject/hzdmmftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫的套路

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读