美文网首页互联网科技
用python爬取豆瓣读书TOP250榜单

用python爬取豆瓣读书TOP250榜单

作者: 唐宇钥 | 来源:发表于2018-05-03 10:10 被阅读63次

唐宇钥/文

用python爬取豆瓣读书TOP250榜单

主要运用requests+xpath完成。(time主要用于规避网站的反爬虫机制)

用python爬取豆瓣读书TOP250榜单

下面是主代码:

用python爬取豆瓣读书TOP250榜单

爬取结果:

用python爬取豆瓣读书TOP250榜单

总结:

1、在发送请求,获取响应方面有了初步印象和理解。

2、对xpath暂时未能理解,个人目前认为其和正则表达式有某种潜在的联系,尚未学习。

3、利用循环遍历所有url不熟练,需要多加练习。(深入理解range()函数)。

4、etree不明。

5、正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。(来自百度百科)

相关文章

网友评论

    本文标题:用python爬取豆瓣读书TOP250榜单

    本文链接:https://www.haomeiwen.com/subject/dokkrftx.html