requests库实战-爬取豆瓣top250的图书

requests库实战-爬取豆瓣top250的图书

作者: 5a41eb2ceec6 | 来源:发表于2019-02-09 10:12 被阅读1次

BeautifulSoup库实战-爬取豆瓣top250图书
requests库实战-爬取豆瓣top250的图书
爬取豆瓣TOP250图书榜的出版社分布(一)-urllib2
scrapy爬取豆瓣电影
Python爬虫(四) 豆瓣电影top250
爬虫爬取豆瓣top250
Python爬虫实战——豆瓣图书TOP250信息（基于lxml和
Python学习
node.js一个爬虫实例
Python爬虫系列(七)豆瓣图书排行榜（数据存入到数据库）

日拱一卒|数据挖掘012

推文对应的代码链接：https://github.com/piyixiaeco/daily-code/blob/master/requests-douban%20book%20Top250.ipynb

参照“手把手教你爬豆瓣Top250的电影”，本篇推送将爬取豆瓣Top250图书，练习requests库的使用。

整体思路：

得到豆瓣Top250图书的所有网页链接
从每个网页中获取源代码内容
提取网页中符合要求的数据
将三个函数整合成一个函数

一、得到所有网址链接

第一页网址：
https://book.douban.com/top250?start=
第二页网址：
https://book.douban.com/top250?start=25
第三页网址：
https://book.douban.com/top250?start=50

从中我们可以发现网址链接规律：

只有start=后面的数字会发生变化，而且是有规律地变化，规律为25x（i-1），其中i为当前的页码

将爬取相应网页链接的函数命名为allurl()，具体如下：

1

二、从每个网页中获取源代码内容

首先通过requests.get()的方法得到关于本次请求的返回包，并放在r这个变量中。通过r的属性r.status_code或者r.reason，获取本次请求的状态

2

我们可以看到返回的状态码是200，OK，说明我们可以顺利地访问这个网页。

3

为了保证运行时的稳定性，加入try和except。如果try部分的代码运行正常，则在执行完毕后不会执行except内的内容，如果出现各种类型的ERROR，则会执行except下代码，而不会因为报错而终止程序的运行。

三、提取网页中符合要求的数据

对于r.text源码有两种通常的处理方法，一种是使用html解析引擎解析，如BeautifulSoup，一种是使用正则表达式匹配文本。

正则表达式的优势在于不需要知道这个源代码结构，只需要找到相关信息前后的唯一标签即可，方便了操作。

通过Chrome浏览器检查选项

4

可知：图书的名称都保存在title="..."\n这个标签中

5

同理得到评分和评价人数

6

7

然而这并不是最终想要的结果，还需要剔除掉尖括号和其中的内容，保留我们所需的信息。

8

9

10

将信息储存到字典中

11

通过pandas中的DataFrame构建一个表格型数据结构

12

将这些步骤封装成一个函数

13

四、将三个函数整合成一个函数

将三个函数整合成一个函数(main(filename))
首先创建一个同类型的空的DataFrame名为all，以便在后续的循环添加内容

14

对每个网页都通过gethtmltext(url)的方法得到源代码，对每个源代码都通过getbookinfo(url)的方法获得frame。

15

最后将爬取下来的数据写入到Excel进行保存

16

17

将以上的整合有：

18

爬取豆瓣图书Top250任务大功告成~

参考资料：
手把手教你爬豆瓣Top250的电影
 手把手教你爬豆瓣Top250的电影（二）
使用python抓取豆瓣top250电影数据进行分析

相关文章

BeautifulSoup库实战-爬取豆瓣top250图书
日拱一卒|数据挖掘016 之前写过一篇用基于正则表达式来爬取豆瓣图书信息：requests库实战-爬取豆瓣top2...
requests库实战-爬取豆瓣top250的图书
日拱一卒|数据挖掘012 推文对应的代码链接：https://github.com/piyixiaeco/dail...
爬取豆瓣TOP250图书榜的出版社分布(一)-urllib2
爬取豆瓣TOP250图书榜的出版社分布(一)-urllib2 0. 需求现在准备爬取豆瓣上的图书TOP250然后...
scrapy爬取豆瓣电影
scrapy爬取豆瓣电影，存储在MongoDB 本节分享用的Scrapy爬取豆瓣电影Top250的实战。本节要实...
Python爬虫(四) 豆瓣电影top250
目标：爬取豆瓣电影top250，将数据保存为Excel表格！用到的第三方库有：requests Beautifu...
爬虫爬取豆瓣top250
爬虫爬取豆瓣top250并保存到mongoDB数据库中
Python爬虫实战——豆瓣图书TOP250信息（基于lxml和
目标爬取豆瓣图书TOP250的图书信息，包括书名(name)、书本的URL链接(url)、作者(author)、...
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
node.js一个爬虫实例
爬取豆瓣top250 测试
Python爬虫系列(七)豆瓣图书排行榜（数据存入到数据库）
网址：豆瓣图书 Top250 爬取的数据：每本书的名字，作者，评分，书中名言,需要用到的库lxml，大家对xpat...

网友评论

本文标题：requests库实战-爬取豆瓣top250的图书

本文链接：https://www.haomeiwen.com/subject/wszvsqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

Python小小白

可爱的爬虫

数据分析啦

热点阅读

大数据爬虫Python AI Sql

Python小小白

可爱的爬虫

数据分析啦

爬虫专题

关于我们|服务条款|联系我们|requests库实战-爬取豆瓣top250的图书|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！