[Python爬虫练习] 豆瓣图书TOP250

作者: 向右奔跑 | 来源:发表于2017-01-23 08:58 被阅读1255次

Python学习
练习：豆瓣电影TOP250爬虫
[Python爬虫练习] 豆瓣图书TOP250
Python学习
Python3操作Excel-以豆瓣图书Top250为例
豆瓣爬虫实践-python版
python爬虫练习-爬取豆瓣图书top250
Python爬虫实战，requests模块，抓取豆瓣读书Top2
Python第三天（spider_豆瓣）
最简单的爬虫入门

本文没有什么新的内容，方法步骤都可以参考我之前写的文章。都说豆瓣（图书、电影、小组）、知乎的内容是爬虫学习最好的练习，整理一下作为刚开始学习童鞋的资料，也回答一下之前有同学留言的问题，看代码就行了。另外把之前没有整理的代码，抽这几天时间集中整理一下。

豆瓣图书TOP250 URL

https://book.douban.com/top250

要抓取的字段

    bookname = Field()
    author = Field()
    rating_nums = Field() #豆瓣评分
    quote = Field()  # 一句话介绍、推荐
    comment_nums = Field() # 评价人数
    pubday = Field()
    price = Field()
    url = Field()

依然是关键三步：

分析页面，确定循环抓取点，解析字段

 selector = Selector(response)

 infos = selector.xpath('//tr[@class="item"]')

 item = DoubanItem()

 for info in infos:
     bookname = info.xpath('td/div/a/@title').extract()[0]
     url = info.xpath('td/div/a/@href').extract()[0]

确定分页的方式

for i in range(25,250,25):
          url = 'https://book.douban.com/top250?start=%s'%i
          yield Request(url,callback=self.parse)

保存数据
数据比较少，保存为csv，分析起来方便。在配置文件settings.py中两行代码：

FEED_URI=u'/Users/apple/Desktop/douban-top250.csv'
FEED_FORMAT='CSV'

代码Github地址

豆瓣图书TOP250数据

把这些书都读完需要RMB 7688.55元，要多长时间不知道

最贵的一本（套）书是《明朝那些事儿（1-9）》358.20元
最便宜的一本书是《呐喊》0.36元（现在肯定不是这个价吧）
最新的一本书是《无声告白》[美] 伍绮诗 2015-7
上榜推荐图书最多的作家是 村上春树
推荐入选图书3本以上的作家还有以下：
豆瓣评分最高的三本书都是9.5分
红楼梦 [清] 曹雪芹著
灌篮高手31 [日] 井上雄彦
海贼王尾田荣一郎
可以对比一下简书上的读书推荐。2016你读了哪些书？-- 简书·读书
豆瓣图书Top250