美文网首页python_爬虫
python带你采集各种表情包,做群里最靓的崽~

python带你采集各种表情包,做群里最靓的崽~

作者: 颜狗一只 | 来源:发表于2022-07-22 19:12 被阅读0次

前言

大家早好、午好、晚好吖~

环境使用:

  • Python 3.8
  • Pycharm 2021.2版本

模块使用:

  • import requests >>> pip install requests
  • import re

爬虫的基本套路

一. 数据来源分析

  1. 明确自己需求
  2. url 唯一资源定位符 <图片 视频 音频 都是唯一url地址>

二. 代码实现步骤

  1. 发送请求, 用python代码模拟浏览器对于url地址发送请求
  2. 获取数据, 获取服务器返回响应数据
  3. 解析数据, 提取我们想要图片url以及图片的标题
  4. 保存数据, 图片内容保存本地文件夹

代码

import requests  # 数据请求模块
import re  # 正则表达式
import time  # 时间模块
import concurrent.futures

def get_response(html_url):
    """
    发送请求函数
    :param html_url: 形式参数, 不具备实际意义
    :return:
    某些你不加伪装,也可以得到数据 <网站反爬>
    headers 字典数据类型,
    Cookie 用户信息, 常用于检测是否有登陆账号  <需要你登陆账号之后才能看到数据>
    User-Agent: 用户代理 表示浏览器基本身份标识
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response  # <Response [200]> 响应对象, 200表示状态码 请求成功

源码、解答、教程加Q裙:832157862
def get_img_info(html_url):
    """
    获取图片信息函数
    :param html_url: 网址
    :return:
    """
    response = get_response(html_url=html_url)  # 调用函数
    # print(response.text)
    # <a href=".*?" title="(.*?)">  () 表示精确匹配, 我们想要数据内容  .*? 通配符 可以匹配任意字符 除了(\n换行符)
    # 正则表达式就是复制粘贴 想要的数据用(.*?)表示就可以了
    title_list = re.findall('<a href=".*?" title="(.*?)">', response.text)
    url_list = re.findall('<img class="ui image lazy" data-original="(.*?)"', response.text)
    zip_data = zip(title_list, url_list)  # zip() 内置函数, 可以把两个列表数据打包放到一起返回zip对象
    return zip_data  # <zip object at 0x000001B6B38A8900>


def save(title, img_url):
    """
    保存数据
    :param title: 图片标题
    :param img_url: 图片网址
    :return:
    """
    # 保存数据, 一定有数据
    title = re.sub(r'[\/:*?"<>|\n]', '', title)
    img_content = get_response(html_url=img_url).content  # 调用前面定义好的发送请求函数 .content 获取图片二进制数据内容
    with open('img\\' + title + '.' + img_url.split('.')[-1], mode='wb') as f:
        f.write(img_content)
    print(title, '保存成功')
源码、解答、教程加Q裙:832157862

def main(link):
    """
    主函数, 整合上面所有功能
    :param link:
    :return:
    """
    zip_data = get_img_info(html_url=link)
    for title, img_url in zip_data:
        save(title, img_url)


if __name__ == '__main__':
    # 采集多页数据内容, 可以分析请求url地址变化规律
    # 爬虫思路可以通用, 但是代码是不能通用
    # 每个网站数据结构不一样, 代码写法就不一样
    time_1 = time.time()
    exe = concurrent.futures.ProcessPoolExecutor(max_workers=7)
    for page in range(1, 201):
        url = f'https://fabiaoqing.com/biaoqing/lists/page/{page}.html'
        exe.submit(main, url)
    exe.shutdown()
    time_2 = time.time()
    use_time = int(time_2) - int(time_1)
    print('总计耗时: ', use_time)


#  单线程 采集20页数据 总计耗时:  71
#  多线程 采集20页数据 总计耗时:  14
#  青灯讲过爬虫 100多个案例 不同平台 网站 <学了不用担心 不会写代码 实践案例管饱...>

尾语

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

相关文章

  • python带你采集各种表情包,做群里最靓的崽~

    前言 大家早好、午好、晚好吖~ 环境使用: Python 3.8 Pycharm 2021.2版本 模块使用: i...

  • 天冷

    穿上大袄子,我就是长沙最靓的崽| ू•ૅω•́)ᵎᵎᵎ~~~

  • 斗图宝典

    是不是因为没有合适表情包错过了和小哥哥小姐姐聊天的机会, 是不是还在到各个群里搜集表情包。XXX帮你搜集当下最火最...

  • 2019-04-17

    压住离合器 多思考 我就是最靓的崽

  • 游戏和学习相关吗?

    这几天因为一个妈妈在qq群里发飙变成了各种新闻,段子,表情包。 有人把这个妈妈的语音和痛述变成文字,加工成表情包。...

  • 你是最靓的崽

    你是最靓的崽。请把这句话星火相传出去,你是最靓的崽。 最早听到这句话,不记得是哪里了。当时没有任何触动,就好比一般...

  • 撩妹专用表情包,聊天斗图小程序,你值得拥有!

    提问:聊天群里最刺激的事情是什么? 回答:表情包大战。 这年头,没有几个压箱底的表情包,真不好意思和别人交流。你能...

  • 你的头像我来画

    新风格 喜欢戳我哦~ 让你成为最靓的崽

  • 2019-10-14

    海贼王表情包 群话有趣表情包群话有趣表情包 侵图必删

  • 表情包群

    喜欢搜集表情包的小可爱们 要不要一起进群斗图呀 嘻嘻嘻

网友评论

    本文标题:python带你采集各种表情包,做群里最靓的崽~

    本文链接:https://www.haomeiwen.com/subject/fhfvirtx.html