美文网首页我爱编程
allitbooks网站爬取

allitbooks网站爬取

作者: 沉思故事 | 来源:发表于2018-06-20 23:45 被阅读50次

目标:获取allitbooks网站的书籍信息,特别是书名和下载直链,存到cassandra或者scylla中

github主页:https://github.com/baiwfg2/scrapy-examples/tree/master/allitbooks

get到所有大主题

response.css('div ul#menu-categories li a::text').extract()

1.png

get所有的大主题url

response.css('div ul#menu-categories li a::attr(href)').extract()

1.5.png

get database页面下的总页数:

response.css('div.pagination a::text').extract()[-1]

2.png

get database/page/3下的所有book link,

response.css('h2.entry-title a::attr(href)').extract()

3.png

get one book的作者,可能有多个

response.css('div.book-detail dl').xpath('.//dt[text()="Author:"]/following-sibling::dd')[0].css('a::text').extract()

4.png

效果图:

5.png

遗憾的是,只爬取到143条数据。日后在诊断原因……

搜索的主键name太长,需要模糊查找!!


clipboard.png

相关文章

网友评论

    本文标题:allitbooks网站爬取

    本文链接:https://www.haomeiwen.com/subject/nuvtyftx.html