Python爬虫入门【15】：煎蛋网XXOO图片抓取

作者: IT派森 | 来源:发表于2019-07-23 22:52 被阅读2次

今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx，这个网站其实还是有点意思的，网站很多人写了N多的教程了，各种方式的都有，当然网站本身在爬虫爱好者的不断进攻下，也在不断的完善，反爬措施也很多，今天我用selenium在揍他一波。

整体看上去，煎蛋网的妹子图质量还是可以的，不是很多，但是还蛮有味道的，这可能也是爬虫er，一批一批的奔赴上去的原因。

1. 网站分析

这个网站如果用 selenium 爬取，其实也没什么要分析的,模拟访问就行，导入必备的模块。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
import requests

import time

我使用的是PhantomJS 去加载浏览器，关于这个PhantomJS，去互联网搜索一下吧，资料大把，会看的很爽的，总之呢，它可以模拟一个真实的浏览器做任何事情，得到你想要的数据。

browser = webdriver.PhantomJS()
browser.set_window_size(1366, 768)  # 这个地方需要设置一下浏览器的尺寸
wait = WebDriverWait(browser,10)
browser.get("http://jandan.net/ooxx")
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

2. 分析数据

程序获取到数据之后就可以对数据进行处理了，编写一个get_content函数，用来处理网页源码。

def get_content():

    try:

        wait.until(
            EC.presence_of_element_located((By.XPATH,'//*[@id="comments"]/ol'))
        )
        #
        print("正在爬取{}".format(browser.current_url))
        page_source = browser.page_source  # 获取网页源码
        html = etree.HTML(page_source)  # 解析源码
        imgs = html.xpath("//li[contains(@id,'comment')]//img/@src")  # 匹配图片
        download(imgs)

    except Exception as e:
        print("错误")
        print(e)
    finally:
        browser.close()

图片获取到之后，在上面的代码中，注意有一个地方调用了一个 download函数，这个函数就是用来下载图片的


def download(imgs):
    path = "./xxoo/{}"  # 路径我写死了
    for img in imgs:
        try:
            res = requests.get(img)
            content = res.content
        except Exception as e:
            print(e)
            continue

        file_name = img.split("/")[-1] # 获取文件名

        with open(path.format(file_name),"wb") as f:
            f.write(content)
            print(file_name,"成功下载文件")
            time.sleep(0.3)

    # 循环下载完毕，进行翻页操作 previous-comment-page
    next = wait.until(
        EC.presence_of_element_located((By.XPATH, '//*[@id="comments"]//a[@class="previous-comment-page"]'))
    )
    next.click()
    return get_content()  # 继续调用上面的网页源码分析流程
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

网友评论

本文标题：Python爬虫入门【15】：煎蛋网XXOO图片抓取

本文链接：https://www.haomeiwen.com/subject/tcpalctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬虫入门【15】：煎蛋网XXOO图片抓取

1. 网站分析

2. 分析数据

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql

Python，web开发，前端技术分享

互联网科技

码农的世界

Python爬虫入门【15】：煎蛋网XXOO图片抓取

1. 网站分析

2. 分析数据

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据 爬虫Python AI Sql

Python，web开发，前端技术分享

互联网科技

码农的世界

大数据爬虫Python AI Sql