头条上有很多大佬分享心得,我也每天都在更新,有目录式的:一篇一篇,由浅入深;
有项目式的,一篇一个项目。今天小弟我,分享一下Python爬取煎蛋网的妹子图心得!
第一步:
进cmd建立一个scrapy项目,然后再创建一个spider,语法可以在网上查到。在item中创建我们需要取到的信息对象
这里我就创建了两个,在爬虫spider里就是重头戏了,使用xpath,css等选择器爬取网页中有用的信息,如下:
下面的一个next_url,存在不足,就是在第一页的时候不能够找到这个标签。。(也没有报错不知道为啥)
其实重点也就是,图片链接被js文件中的函数进行加密了而已,使用到了两个函数。
在这里我们发现只需要base64库中的函数进行解码就可以
最后是保存了,在pipeline中函数如下:
代码的可变性比较大,比如说图片的命名,保存路径等。
主要自己对煎蛋网的网页源代码摸得不太熟,希望钻研过的朋友可以不吝赐教。
网友评论