美文网首页
爬虫的套路

爬虫的套路

作者: MkTom | 来源:发表于2018-07-25 18:44 被阅读0次

    准备URL

    分析,找出我们需要URL
    如果当前URL对应的内容就是我们需要的数据, 直接用这个URL了
    如果这个URL不是我们要的数据, 需要使用network拦截数据
    请求列表从上向下看, 除了图片,js,css意外的响应内容, 找需要的请求
    使用search all files 搜索
    事件监听
    准备URL列表:
    页码数固定
    URL规律明显
    先准备开始URL
    页码数不固定, URL规律不是很明显.
    如果是html数据,从数据中提取下一页的URL
    如果是json数据, 提取: 总页数,每页多少条,当前页,根据这些信息生成一个下一页URL
    发送请求,获取响应数据

    随机User-Agent, 反反爬虫
    随机代理, 反反爬虫
    如果上面处理依然不行, 就可以多带些请求头,比如Reference,
    如果请求需不要带cookie就不要带cookie
    如果请求中必须要带上cookie, 可以使用代理, 并且要降低请求速度
    使用seesion来登录, 以后就可以使用该session访问该网站登录后的资源了.
    提取数据

    确定数据所在位置
    如果需要的内容在列表页, 就不要去请求详情页了
    如果需要的数据在详情页
    获取详情页的URL
    发送请求,获取详情页数据
    提取详情页数据
    返回详情页数据
    提取数据

    如果是HTML/xml页面
    正则表达式, 提取某一个特定内容. 比如: 提取页面中的json,max_page, ...
    使用xpath, 先分组, 在提取数据
    如果是json
    使用json模块进行解析
    保存数据

    保存到本地文件中: .txt, .json, .csv
    保存到数据库中

    相关文章

      网友评论

          本文标题:爬虫的套路

          本文链接:https://www.haomeiwen.com/subject/hzdmmftx.html