美文网首页python热爱者
Python爬虫似懂非懂?这个煎蛋网的零基础爬虫再合适不过!

Python爬虫似懂非懂?这个煎蛋网的零基础爬虫再合适不过!

作者: 48e0a32026ae | 来源:发表于2018-09-26 13:59 被阅读5次

头条上有很多大佬分享心得,我也每天都在更新,有目录式的:一篇一篇,由浅入深;

有项目式的,一篇一个项目。今天小弟我,分享一下Python爬取煎蛋网的妹子图心得!

第一步:

进cmd建立一个scrapy项目,然后再创建一个spider,语法可以在网上查到。在item中创建我们需要取到的信息对象

这里我就创建了两个,在爬虫spider里就是重头戏了,使用xpath,css等选择器爬取网页中有用的信息,如下:

下面的一个next_url,存在不足,就是在第一页的时候不能够找到这个标签。。(也没有报错不知道为啥)

其实重点也就是,图片链接被js文件中的函数进行加密了而已,使用到了两个函数。

在这里我们发现只需要base64库中的函数进行解码就可以

最后是保存了,在pipeline中函数如下:

代码的可变性比较大,比如说图片的命名,保存路径等。

主要自己对煎蛋网的网页源代码摸得不太熟,希望钻研过的朋友可以不吝赐教。

相关文章

网友评论

    本文标题:Python爬虫似懂非懂?这个煎蛋网的零基础爬虫再合适不过!

    本文链接:https://www.haomeiwen.com/subject/ofidoftx.html