2017.07.19

2017.07.19

作者: 铁拳宝宝爱芝麻 | 来源:发表于2017-07-20 14:18 被阅读0次

make plans as Bullet Journal

scrapy crawl zhihu.com:

login
header
post_data: {
username:
password:
captcha:
}
验证码模拟登陆
解析
itemloader
解析question
解析answer
注意：问题url中，知乎现在有两个版本，一个是 url 中只有 question_id，另一个版本是带有answer和 answer_id 的url，这两个版本均解析正常
create table in mysql
没完成：将 item 数据通过 pipeline 保存到 mysql 中

scrapy 是基于 twisted 的异步框架，所有使用 Request 时，必须指定一个回调函数 callback，默认调用parse

如果Request函数中的回调函数没有调用，可能的愿意就是被 scrapy 中默认的 Offsite Spider Middleware 过滤掉了，只需要加上 dont_filter=True 参数即可，或者将 allowed_domains 设置为空

相关文章

网友评论

本文标题：2017.07.19

本文链接：https://www.haomeiwen.com/subject/pzgdkxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|2017.07.19|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！