美文网首页Python
凌晨一点肝文1920×1080高清必应壁纸爬取,只为爬虫小白们入

凌晨一点肝文1920×1080高清必应壁纸爬取,只为爬虫小白们入

作者: Code皮皮虾 | 来源:发表于2021-07-29 12:08 被阅读0次

    本文作者: Code皮皮虾,CSDN、掘金等各大平台同名,有兴趣的小伙伴可以点一波关注😁,感谢您的支持!
    公众号:JavaCodes

    爬虫仅供学习,其余概不负责!!!


    前言

    今天这个爬虫是一个很简单的爬虫,只要稍微有一点基础就能看懂,加油,奥里给,干就完事了!!!

    在这里插入图片描述

    网页分析


    多页爬取URL部分

    进入首页一看就知道是精品

    在这里插入图片描述

    滑到底部,好家伙,162页,(●ˇ∀ˇ●),够我玩的了!

    在这里插入图片描述

    好了,话不多说,想要爬取,首先要弄懂URL

    这是第一页的URL

    在这里插入图片描述

    第二页

    在这里插入图片描述

    第三页

    在这里插入图片描述

    这规律不用我多说把,根据当前页数修改p的值就OK了,但有的小伙伴可能会说:第一次没有p=1啊?

    在这里插入图片描述

    可以看见我们去手动进行p=1访问第一页也是可以成功访问的

    在这里插入图片描述

    小伙伴们要记号哦!

    image.png

    图片下载URL部分

    本文对于数据解析使用的是Beautiful Soup,没了解过的小伙伴可见我的这篇好文!

    <font size="4">Python爬虫利器之Beautiful Soup入门详解,实战总结!!!

    打开控制台

    可见,一个图片对应一个class值为item的div

    在这里插入图片描述

    标题

    标题是在class值为item的div标签下的子class值为description的div标签下的h3标签中

    在这里插入图片描述

    下载URL

    在这里插入图片描述
    def getUrl(curPage,data,page_path):
        # BeautifulSoup进行解析
        data = BeautifulSoup(data,"html.parser")
        div_list = data.find_all(class_="item")
        for div in div_list:
            #拼接URL
            img_url = "https://bing.ioliu.cn" + div.find(class_="ctrl download")["href"]
            # 获取标题
            title = div.find(class_="description").find("h3").text
            # 因为保存图片名为标题,所以对标题的特俗字符进行处理
            title = replaceTitle(title)
            downLoadImg(curPage,title,img_url,page_path)
    

    图片下载

    def downLoadImg(curPage,title,img_url,page_path):
        print("正在爬取第" + str(curPage) + "页:" + title)
        # .content 二进制字节流
        img_res = requests.get(url=img_url,headers=headers).content
        # 保存为jpg图片,也可以为png哦!
        with open(page_path + "/" + title + ".jpg","wb") as f:
            f.write(img_res)
        f.close()
    

    爬取结果(高清大图,看着都是享受)

    因为测试,所以只怕爬取了两页

    在这里插入图片描述

    ==都是1920×1080的哦!觉得不错的小伙伴可以给个三连,感谢支持😁==

    在这里插入图片描述

    最后

    我是 Code皮皮虾,一个热爱分享知识的 皮皮虾爱好者,未来的日子里会不断更新出对大家有益的博文,期待大家的关注!!!

    创作不易,如果这篇博文对各位有帮助,希望各位小伙伴可以==一键三连哦!==,感谢支持,我们下次再见~~~

    ⭐完整代码可以加QQ:1130828717,并备注来源即可!⭐

    分享大纲

    大厂面试题 - 专题 - 简书 (jianshu.com)


    Java从入门到入坟学习路线目录索引


    开源爬虫实例教程目录索引

    相关文章

      网友评论

        本文标题:凌晨一点肝文1920×1080高清必应壁纸爬取,只为爬虫小白们入

        本文链接:https://www.haomeiwen.com/subject/qmuzmltx.html