抓取某网站妹子图

作者: 小董不太懂 | 来源:发表于2019-06-01 13:03 被阅读5次

抓取某网站妹子图
爬取头条街拍
Python抓取妹子图
Scrapy抓取多层网页结构详解(三)
Python 3 实战Scrapy爬取美女壁纸图
安卓手机运行python程序的软件：Termux
scrapy爬取妹子图
TCPdump抓包参数和示例
抓取之IP伪装
scrapy里面item传递数据后数据不正确的问题

第一次做爬虫小项目，代码很粗糙，而且我只抓取了第一页上的所有图片集
其实也可以翻页抓，只是觉得太麻烦，学精了之后再抓吧，再说了抓那么多浪费电脑存储空间，妹子图什么的哪里有实战好，有那个时间看黄图，不如撩妹，谈个女朋友天天实战。
废话到此截止：

爬取网址为：https://www.mzitu.com/tag/youhuo/
我们先打开网站主页：

妹子很多，很好看，我不挑，给我哪个我都要。
按部就班，打开开发页面：

蓝色部分就是我们要提取的第一个图集的地址，下面的href依次为第二个第三个.......，代码如下：

import requests
from requests.exceptions import RequestException

headers = {'If-None-Match': 'W/"5cc2cd8f-2c58"',
           "Referer": "http://www.mzitu.com/all/",
           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
#请求头的这个Referer一定要加，妹子网有反爬，反正粘贴复制就行，多加几个信息无所谓
def get_page(url):
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            print(response.text)
            return response.text
        return None
    except RequestException:
        print('获取索引页失败')
        return None

def main():
    url = 'https://www.mzitu.com/tag/youhuo/'
    get_page(url)


if __name__ == '__main__':
    main()

很容易我们就获得了输出：

分析一个得到的这段HTML，红框框显然就是我们要得到的每一个图集的地址。
我们引"靓汤"，开始提取图集地址：

import requests
from requests.exceptions import RequestException
from bs4 import BeautifulSoup

headers = {'If-None-Match': 'W/"5cc2cd8f-2c58"',
           "Referer": "http://www.mzitu.com/all/",
           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

def get_page(url):
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            print(response.text)
            return response.text
        return None
    except RequestException:
        print('获取索引页失败')
        return None

def parse_page(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.select('#pins li')
    for link in items:
        href = link.a['href']
        print(href)
    # print(items)


def main():
    url = 'https://www.mzitu.com/tag/youhuo/'
    html = get_page(url)
    parse_page(html)


if __name__ == '__main__':
    main()

BeautifulSoup库很强大，我决定多多学习，靓汤的输出书一个list,必须先先遍历才能输出*，输入如下：

我们得到了每一个图集的地址，打开一个图集看看：

每个图集的详情页里只有一张图，不过下边有一个索引，这时就需要考虑一下详情页中的翻页问题：

图集中第三幅图的地址

不同图集存在相同的地址排列方式，我们就可以创建一个循环列表来进行每个图集的同图片的详情页获取：

import requests
from requests.exceptions import RequestException
from bs4 import BeautifulSoup

headers = {'If-None-Match': 'W/"5cc2cd8f-2c58"',
           "Referer": "http://www.mzitu.com/all/",
           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

def get_page(url):
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            print(response.text)
            return response.text
        return None
    except RequestException:
        print('获取索引页失败')
        return None

def parse_page(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.select('#pins li')
    for link in items:
        href = link.a['href']
        get_detail_page(href)

    # print(items)

def get_detail_page(href):
    for i in range(1,100):
        detail_url = href + '/' + str(i)
        if requests.get(detail_url, headers=headers).status_code == 200:
            print(detail_url)
        else:
            print('已至末尾页')
            return None

    response = requests.get()

def main():
    url = 'https://www.mzitu.com/tag/youhuo/'
    html = get_page(url)
    parse_page(html)


if __name__ == '__main__':
    main()

我稍微解释一下，我设置的是循环到100，因为有的图片只有46页嘛，我就加了一个网页状态码判断，如果返回200,就是正常网址，不是200我就终止网址获取，这样我们就可以将每个图片集内，所有详情页的网址取出来了：

下一步就是通过网址获得网址对应的html：

import requests
from requests.exceptions import RequestException
from bs4 import BeautifulSoup

headers = {'If-None-Match': 'W/"5cc2cd8f-2c58"',
          "Referer": "http://www.mzitu.com/all/",
          'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

def get_page(url):
   try:
       response = requests.get(url, headers=headers)
       if response.status_code == 200:
           # print(response.text)
           return response.text
       return None
   except RequestException:
       print('获取索引页失败')
       return None

def parse_page(html):
   soup = BeautifulSoup(html, 'lxml')
   items = soup.select('#pins li')
   for link in items:
       href = link.a['href']
       get_detail_page(href)

   # print(items)

def get_detail_page(href):
   for i in range(1,100):
       detail_url = href + '/' + str(i)
       if requests.get(detail_url, headers=headers).status_code == 200:
           parse_detail_page(detail_url)
       else:
           print('已至末尾页')
           return None

def parse_detail_page(detail_url):
   try:
       response = requests.get(detail_url, headers=headers)
       if response.status_code == 200:
           print('获取详情页成功')
           detail_html = response.text
           print(detail_html)
           # get_image(detail_html)
       return None
   except RequestException:
       print('获取详情页失败')
       return None

# def get_image(detail_html):


def main():
   url = 'https://www.mzitu.com/tag/youhuo/'
   html = get_page(url)
   parse_page(html)




if __name__ == '__main__':
   main()

获得每个详情页的html:

再用美丽汤解析出即可：

import requests
from requests.exceptions import RequestException
from bs4 import BeautifulSoup

headers = {'If-None-Match': 'W/"5cc2cd8f-2c58"',
           "Referer": "http://www.mzitu.com/all/",
           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

def get_page(url):
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            # print(response.text)
            return response.text
        return None
    except RequestException:
        print('获取索引页失败')
        return None

def parse_page(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.select('#pins li')
    for link in items:
        href = link.a['href']
        get_detail_page(href)

    # print(items)

def get_detail_page(href):
    for i in range(1,100):
        detail_url = href + '/' + str(i)
        if requests.get(detail_url, headers=headers).status_code == 200:
            parse_detail_page(detail_url)
        else:
            print('已至末尾页')
            return None

def parse_detail_page(detail_url):
    try:
        response = requests.get(detail_url, headers=headers)
        if response.status_code == 200:
            print('获取详情页成功')
            detail_html = response.text
            # print(detail_html)
            get_image(detail_html)
        return None
    except RequestException:
        print('获取详情页失败')
        return None

def get_image(detail_html):
    soup = BeautifulSoup(detail_html, 'lxml')
    items= soup.select('.main-image')
    # print(items)
    for item in items:
        return item.img['src']


def main():
    url = 'https://www.mzitu.com/tag/youhuo/'
    html = get_page(url)
    parse_page(html)




if __name__ == '__main__':
    main()

下面就是保存图片了，下面是完整的代码，代码的模块化不高，后期再改进。

import requests
import os
from hashlib import md5
from requests.exceptions import RequestException
from bs4 import BeautifulSoup

headers = {'If-None-Match': 'W/"5cc2cd8f-2c58"',
          "Referer": "http://www.mzitu.com/all/",
          'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 SafarMozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

def get_page(url):
   try:
       response = requests.get(url, headers=headers)
       if response.status_code == 200:
           # print(response.text)
           return response.text
       return None
   except RequestException:
       print('获取索引页失败')
       return None

def parse_page(html):
   soup = BeautifulSoup(html, 'lxml')
   items = soup.select('#pins li')
   for link in items:
       href = link.a['href']
       get_detail_page(href)

   # print(items)

def get_detail_page(href):
   for i in range(1,100):
       detail_url = href + '/' + str(i)
       if requests.get(detail_url, headers=headers).status_code == 200:
           parse_detail_page(detail_url)
       else:
           print('已至末尾页')
           return None

def parse_detail_page(detail_url):
   try:
       response = requests.get(detail_url, headers=headers)
       if response.status_code == 200:
           print('获取详情页成功')
           detail_html = response.text
           # print(detail_html)
           get_image(detail_html)
       return None
   except RequestException:
       print('获取详情页失败')
       return None

def get_image(detail_html):
   soup = BeautifulSoup(detail_html, 'lxml')
   items= soup.select('.main-image')
   # print(items)
   for item in items:
       image = item.img['src']
       save_image(image)

def save_image(image):
   response = requests.get(image,headers=headers)
   if response.status_code == 200:
       data = response.content
       file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(data).hexdigest(), 'jpg')
       print(file_path)
       if not os.path.exists(file_path):
           with open(file_path, 'wb') as f:
               f.write(data)
               f.close()
               print('保存成功')
   else:
       print('保存失败')
       return None


def main():
   url = 'https://www.mzitu.com/tag/youhuo/'
   html = get_page(url)
   parse_page(html)




if __name__ == '__main__':
   main()

讲实话，我个人比较排斥YY，想实战，哈哈哈

抓取某网站妹子图
第一次做爬虫小项目，代码很粗糙，而且我只抓取了第一页上的所有图片集其实也可以翻页抓，只是觉得太麻烦，学精了之后再抓...
爬取头条街拍
之前第一个项目应该是做这个头条街拍图的抓取，无奈自己LOW抓了几次不成功，就放弃了头条街拍转而去抓取妹子图网站，今...
Python抓取妹子图
目标抓取全站妹子封面图片全部爬下来以图片标题命名分析网页数据结构妹子图首页接下来找张图片右击点击检查想要数据 ...
Scrapy抓取多层网页结构详解(三)
昨晚在群里看到一朋友问用scrapy框架抓取妹子图网站，抓到的总是一个页面，清明期间理顺了数据存储关系就写下练手，...
Python 3 实战Scrapy爬取美女壁纸图
简介之前写了一篇爬妹子图的文章《Python 3 实战Scrapy爬取妹子图》，但是有点粗糙，几乎都是无差别抓取...
安卓手机运行python程序的软件：Termux
用电脑写了一段python程序抓取某网站的数据。网站数据每天更新，每天的数据都不一样，如果当天没有抓取保存数据，第...
scrapy爬取妹子图
废话不多说，爬取妹子图片使用scrapy深度爬取，抓取妹子图全站图片 1.首先确认开发环境使用scrapy框架，...
TCPdump抓包参数和示例
tcpdump命令参数 tcpdump命令示例抓取包含某宝网站http协议数据包将原始数据包存入文件中抓取包...
抓取之IP伪装
当你需要固定抓取某个某网站内容时，降低抓取速度防止IP被封是第一要做的事情。但有的时候，你又必须提升你的抓取速度的...
scrapy里面item传递数据后数据不正确的问题
在上篇文章《python3 + scrapy 爬取妹子图 (meizitu.com)》中，我爬取了妹子图网站的图片...