美文网首页与Linda一起100天写作爬虫Scrapy
Day3-用request爬百度贴吧图片

Day3-用request爬百度贴吧图片

作者: 小红鱼 | 来源:发表于2017-03-06 12:47 被阅读58次

最近姐姐我也掉《三生三世十里桃花》的坑里了,所以今天来爬点美图,这次用requests。

1.目标网站

分析目标网站https://tieba.baidu.com/p/5008608157,发现这个帖子一共有5页,可以以url?pn=x访问。

代码如下,其中spider是我们要写的爬虫函数:

2.写爬虫

我们写爬虫的时候,要从爬下来的源代码提取需要的信息,可以用re正则表达式。但是正则表达式使用起来不那么方便,容易写错,我们试一下更强大更简单的XPATH。XPATH是一种语言,用来在XML文档中查找信息,支持HTML。具体的写法参考XPATH的语法http://www.w3school.com.cn/xpath/xpath_syntax.asp

在python里使用XPATH,需要安装lxml库。lxml是Python语言中处理XML和HTML功能最丰富,最易于使用的库。

>pip install lxml

运行脚本:

我需要的图片已经被爬下来啦:

欣赏一下姑姑的美照:

相关文章

网友评论

    本文标题:Day3-用request爬百度贴吧图片

    本文链接:https://www.haomeiwen.com/subject/eygygttx.html