爬取今日头条街拍图

作者: xieys | 来源:发表于2017-09-17 16:14 被阅读141次

利用Python3解析Ajax爬取今日头条图集
爬取今日头条街拍图
2019-04-29
爬取今日头条街拍图片
爬取头条街拍
Python爬虫之四：下载今日头条街拍美图
爬取今日头条的街拍
爬取今日头条街拍图片
Python爬虫——selenium爬取当当畅销图书排行
Ajax爬取今日头条街拍美女

运行环境： python : 3.5.2 requests：2.11.1 pymongo：3.5.1 MongoDB：3.4.7

项目目的：爬取今日头条中关于“街拍”图集中的图片，并保存相关数据到数据库

项目中需要用到的包

import re
from hashlib import md5
import pymongo
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import requests
from config import *
from multiprocessing import Pool

下面来一个一个解释：

json：本次爬取的数据多为 json 格式，所以需要將数据转换为 json 再进行下一步处理。
md5：下载图片给图片命名时，有可能有些图片会重复，为了避免重复下载，使用 hashlib 模块的 md5 方法根据图片的内容给图片命名。（需要了解 hashlib 可点击这里）
pymongo：python 连接 mongodb 的包
RequestException：在进行网页请求时，可能会发生一些错误，在这里直接抛出
requests：请求库
config：代码中的一些配置信息
Pool：多线程提高代码运行效率

网站分析

网站图集中不是采用翻页，而是随鼠标的下滑自动加载，其中只有请求参数 “offset” 改变（0、20、40递增）
每个图片集的 url 在 data 当中，如图

每张图片的 url 在网页文档的 gallery 中，可以采用正则获取 url

代码详情

一、请求索引页并解析

请求索引页

def get_page_index(offset, keyword):
    '''返回请求索引页的代码详情'''

    #请求参数设置
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': 20,
        'cur_tab': 3
    }
    url = 'http://www.toutiao.com/search_content/?' + urlencode(data)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print("请求索引页出错")
        return None

解析索引页

def parse_page_index(html):
'''解析索引页，获取页面url'''

    # 將 html 转换为 json 格式的数据
    data = json.loads(html)
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')

二、请求详情页并解析

请求详情页

def get_page_detail(url):
'''获取详情页的代码'''

    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求详情页出错', url)
        return None

解析页面，获取图集名称和每张图片 url

def parse_page_detail(html, url):
'''解析详情页的代码，获取每张图片的 url '''

soup = BeautifulSoup(html, 'lxml')
title = soup.title.text
# 或者 title = soup.select('title')[0].get_text()
# print(title)
images_pattern = re.compile('gallery:(.*?)\ssiblingList:', re.S)
result = re.search(images_pattern, html)
if result:
    # print(result.group(1)[:-5])
    # 把结果转换为课处理的 json 格式
    data = json.loads(result.group(1)[:-5])
    if data and 'sub_images' in data.keys():
        images = [item.get('url') for item in data.get('sub_images')]
        for image in images:
            download_imgae(image)
        return {
            'title': title,
            'url': url,
            'images': images
        }

三、將数据保存到数据库

数据库配置信息

MONGO_URL = 'localhost'   #数据库地址
MONGO_DB = 'toutiao'      #数据库名称
MONGO_TABLE = 'toutiao'   #表名称

连接数据库

client = pymongo.MongoClient(MONGO_URL, connect=False)
db = client[MONGO_DB]

將数据保存到数据库

def save_to_mongo(resutl):
'''把结果存储到 mongodb 数据库中'''
    
    if db[MONGO_TABLE].insert(resutl):
        print('存储到MongoDB成功', resutl)
        return True
    return False

下载图片并保存图片

下载图片

def download_imgae(url):
'''解析图片url'''

    print('正在下载：', url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            save_image(response.content)
        return None
    except RequestException:
        print('请求图片出错', url)
        return None

保存图片到当前目录

def save_image(content):
'''保存文件'''

    file_path = '{0}\{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')
    if not os.path.exists(file_path):
        with open(file_path, 'wb') as f:
            f.write(content)

四、主函数

主函数

def main(offset):
'''主函数'''

html = get_page_index(offset, KEYWORD)
# print(html)
for url in parse_page_index(html):
    html = get_page_detail(url)
    if html:
        result = parse_page_detail(html, url)
        # print(result)
        if result:
            save_to_mongo(result)

程序入口

if __name__ == '__main__':
    groups = [x * 20 for x in range(GROUP_START, GROUP_END)]
    pool = Pool()
    pool.map(main, groups)

参数说明

#需要爬取的页数配置参数
GROUP_START = 1
GROUP_END = 20

#爬取关键词
KEYWORD = '街拍'

巨坑之处

正则获取 gallery 内容时， gallery 是以 ， 结束，我当时匹配时无法用逗号作为匹配结束，只能再加上下一行的 siblingList: ，但是这样的话就有空白符需要匹配，所以需要加上空白匹配符 \s 。此时获得的数据最后为逗号，还不能直接转换为 json 格式的数据。这是本想着直接使用切片（[:-1]）即可去除逗号,然而事情并不是如此的简单，怎么都没想多逗号后面竟然还有四个空格（此处请容许我说句MMP）。现在在去分析，空白匹配符 \s 没有匹配到换行符，难道 siblingList: 前面还有空格！！！
启用多线程时，连接数据库会发生一个错误，此时就需要在连接数据库时添加参数connect=False
在解析页面时，有些页面不是我们需要的，无法解析到我们想要的结果。因此在执行下一步时就需要判断解析页面的结果。

结果展示

在短短的几分钟就下载了将近六百张图片，效率还是可以的

下载图片部分截图

数据库内容部分截图

温馨提示：启动程序前记得启动数据库

完整代码和输出文件请访问：[https://github.com/xieys/python_spyder/tree/master/jiepai) 欢迎Follow和star

网友评论

4550a0f88b3d:你好，我是python小白，想请教一下遇到的问题：
在images_pattern = re.compile('gallery:(.*?)\ssiblingList:', re.S)中
我在审查的页面，通过ctrl+F，并没有查到gallery和siblingList这两个元素，其实这个问题困扰我半个月，
因为我是看崔大的视频，但是“今日头条”现在更新了，所以找不到gallery这个字典

因此，我按照你的代码images_pattern = re.compile('gallery:(.*?)\ssiblingList:', re.S）···print(result.group(1)[:-5])运行成功，想问，怎样找到gallery和siblingList的？
麻烦了，谢谢你。
xieys: @小白basic 可以的，有问题可以一起交流
4550a0f88b3d: @xieys 解决了，谢谢你。我以为是所以图片都可以用，原来只有爬图集才可以找到那个gallery。
我可以继续加你QQ号码吗，之后遇到实在不能解决的问题，还可以留言给你？
xieys: @小白basic 在“图集”栏目下随便选一篇街拍图文章进去，同样的在network中，刷新页面，gallery就在该页面的源代码中。如果还不清楚的话可以加我qq 1196445325联系我

本文标题：爬取今日头条街拍图

本文链接：https://www.haomeiwen.com/subject/rhfmsxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬取今日头条街拍图

项目中需要用到的包

网站分析

代码详情

一、请求索引页并解析

二、请求详情页并解析

三、將数据保存到数据库

下载图片并保存图片

四、主函数

巨坑之处

结果展示

相关文章

利用Python3解析Ajax爬取今日头条图集

爬取今日头条街拍图

2019-04-29

爬取今日头条街拍图片

爬取头条街拍

Python爬虫之四：下载今日头条街拍美图

爬取今日头条的街拍

爬取今日头条街拍图片

Python爬虫——selenium爬取当当畅销图书排行

Ajax爬取今日头条街拍美女

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python数据采集与爬虫

Python爬虫

大数据爬虫Python AI Sql

python爬虫日记本