美文网首页我爱编程
allitbooks网站爬取

allitbooks网站爬取

作者: 沉思故事 | 来源:发表于2018-06-20 23:45 被阅读50次

    目标:获取allitbooks网站的书籍信息,特别是书名和下载直链,存到cassandra或者scylla中

    github主页:https://github.com/baiwfg2/scrapy-examples/tree/master/allitbooks

    get到所有大主题

    response.css('div ul#menu-categories li a::text').extract()

    1.png

    get所有的大主题url

    response.css('div ul#menu-categories li a::attr(href)').extract()

    1.5.png

    get database页面下的总页数:

    response.css('div.pagination a::text').extract()[-1]

    2.png

    get database/page/3下的所有book link,

    response.css('h2.entry-title a::attr(href)').extract()

    3.png

    get one book的作者,可能有多个

    response.css('div.book-detail dl').xpath('.//dt[text()="Author:"]/following-sibling::dd')[0].css('a::text').extract()

    4.png

    效果图:

    5.png

    遗憾的是,只爬取到143条数据。日后在诊断原因……

    搜索的主键name太长,需要模糊查找!!


    clipboard.png

    相关文章

      网友评论

        本文标题:allitbooks网站爬取

        本文链接:https://www.haomeiwen.com/subject/nuvtyftx.html