美文网首页
Python爬虫进阶:搭建属于自己的美少女图片站

Python爬虫进阶:搭建属于自己的美少女图片站

作者: 不学无术丶 | 来源:发表于2019-09-24 16:45 被阅读0次

    关注我的你应该已经学会了:爬取妹子图整站数据(教程已下架)

    于是有人不禁会问:拿几十G的图片有什么用呢?

    有什么用呢?我也自问。于是下面这个网站就诞生了......

    小姐姐 ( 施工重地,闲人免入!女生请绕道~)

    如果你想通过爬虫自动采集数据(比如:mm131、mmjpg、妹子图等各大美女图片站),并与前端网页对接,将采集到的数据自动呈现到网页上,从而搭建一个属于自己的图片站。那么,以下内容就是为你准备的!按着步骤来一定可以实现你想要的,当你对这个项目有了自己的认知后,就可以考虑二次开发精进创作~

    (以下操作默认你已经拥有域名、服务器,安装了宝塔面板以及能通过Xshell连接,我也写了一篇小白教程帮你解决这些问题)

    准备好就开始吧!

    解析域名

    (以我在用的GoDaddy域名为例)

    • 访问GoDaddy官网并登录
    • 打开域名管理器-DNS管理-添加记录
      类型:A
      主机:随意(比如:mm)
      指向:填入服务器的ip地址
      TTL:1/2小时

    创建站点

    • 进入宝塔面板,添加站点
      设置根目录为:/root/94imm,同时创建MySQL数据库,PHP版本设置为纯静态

    • 进入网站根目录,上传源代码文件
      修改silumz文件夹下settings.py文件中的数据库配置,将程序目录下的silumz.sql文件导入数据库

    DATABASES = {
        'default': {
            'ENGINE': 'django.db.backends.mysql',
            'NAME': '数据库名',
            'USER': '数据库用户名',
            'PASSWORD': '数据库密码',
            'HOST': '127.0.0.1',
            'PORT': '3306',
        }
    }
    

    启动项目

    • 打开Xshell,进入程序目录
      安装所需的Python第三方库:pip3 install -r requirements.txt
    • 执行启动命令:uwsgi --ini uwsgi.ini

    反向代理

    • 进入宝塔面板,管理创建的站点
    • 设置反向代理,目标URL为:http://127.0.0.1:8000

    到这一步,项目网站就搭建好了,但此时网站还没有数据,需要运行爬虫程序爬取。爬虫程序位于crawler目录下,每一个文件都是独立的,可单独执行。第一次运行时,可修改爬虫参数采集全站,之后修改参数为采集第一页,配合定时任务,实现自动采集和发布

    自动采集和发布

    (以crawler_mm131.py爬虫程序为例)

    • 修改程序中的数据库配置
    dbhost = {
        "host": "127.0.0.1",
        "dbname": "数据库名",
        "user": "数据库用户名",
        "password": "数据库密码"
    }
    
    • 打开Xshell,进入程序目录
      启动爬虫:python3 crawler_mm131.py
    • 配合宝塔面板设置自动采集


    • 重启网站:sh /root/94imm/restart.sh
      完成采集后清空cache文件或重启网站就能生效哦~

    进阶技巧

    1.网站采集数据后,如果点击图集无法跳转,则需要在数据库中手动添加图片分类

    • 进入宝塔面板,找到相应的数据库,点击“管理”
    • 点击“images_type”-“插入”-在字段id和type的对应框中输入数字和图片类型


      在爬虫文件中可以找到需要输入的信息,比如crawler_mm131.py中有性感美女和清纯妹子两个分类,分类id分别为1和3


    2.发布本地图片

    • 进入爬虫程序目录crawler,运行AutoPost.py,根据提示输入本地图片所在路径,输入自动发布时间

    3.图片压缩

    • 部分网站可能未对图片进行压缩,一张图1M甚至几M,既降低传输速度又占空间
    • 进入爬虫程序目录crawler,运行Compress.py,根据提示输入,默认10个线程压缩,如果服务器配置高可适当增加,只压缩图片质量,尺寸不变

    4.删除图集

    • 进入爬虫程序目录crawler,运行delete_img.py,根据提示输入图集链接“/article/59885/”中的数字59885即可,会同时删除数据库记录和采集的图片

    5.下载采集未完成的图片

    • 进入爬虫程序目录crawler,运行down_img.py,自动查找数据库中存在但static/images目录中不存在的记录重新下载。并删除只有采集记录没有图片的数据
    项目源码

    https://pan.baidu.com/s/1Gj7UJ0XWuh2bI9IIZnv4ZA 提取码:72oo

    相关文章

      网友评论

          本文标题:Python爬虫进阶:搭建属于自己的美少女图片站

          本文链接:https://www.haomeiwen.com/subject/idhructx.html