美文网首页
2017.07.19

2017.07.19

作者: 铁拳宝宝爱芝麻 | 来源:发表于2017-07-20 14:18 被阅读0次

    make plans as Bullet Journal

    scrapy crawl zhihu.com:

    1. login
      header
      post_data: {
      username:
      password:
      captcha:
      }
      验证码模拟登陆

    2. 解析
      itemloader
      解析question
      解析answer
      注意:问题url中,知乎现在有两个版本,一个是 url 中只有 question_id,另一个版本是带有answer和 answer_id 的url,这两个版本均解析正常

    3. create table in mysql

    4. 没完成:将 item 数据通过 pipeline 保存到 mysql 中

    scrapy 是基于 twisted 的异步框架,所有使用 Request 时,必须指定一个回调函数 callback,默认调用parse

    如果Request函数中的回调函数没有调用,可能的愿意就是被 scrapy 中默认的 Offsite Spider Middleware 过滤掉了,只需要加上 dont_filter=True 参数即可,或者将 allowed_domains 设置为空

    相关文章

      网友评论

          本文标题:2017.07.19

          本文链接:https://www.haomeiwen.com/subject/pzgdkxtx.html