关注我的你应该已经学会了:爬取妹子图整站数据(教程已下架)
于是有人不禁会问:拿几十G的图片有什么用呢?
有什么用呢?我也自问。于是下面这个网站就诞生了......
小姐姐 ( 施工重地,闲人免入!女生请绕道~)
如果你想通过爬虫自动采集数据(比如:mm131、mmjpg、妹子图等各大美女图片站),并与前端网页对接,将采集到的数据自动呈现到网页上,从而搭建一个属于自己的图片站。那么,以下内容就是为你准备的!按着步骤来一定可以实现你想要的,当你对这个项目有了自己的认知后,就可以考虑二次开发精进创作~
(以下操作默认你已经拥有域名、服务器,安装了宝塔面板以及能通过Xshell连接,我也写了一篇小白教程帮你解决这些问题)
准备好就开始吧!
解析域名
(以我在用的GoDaddy域名为例)
- 访问GoDaddy官网并登录
- 打开域名管理器-DNS管理-添加记录
类型:A
主机:随意(比如:mm)
指向:填入服务器的ip地址
TTL:1/2小时
创建站点
-
进入宝塔面板,添加站点
设置根目录为:/root/94imm,同时创建MySQL数据库,PHP版本设置为纯静态 -
进入网站根目录,上传源代码文件
修改silumz文件夹下settings.py文件中的数据库配置,将程序目录下的silumz.sql文件导入数据库
DATABASES = {
'default': {
'ENGINE': 'django.db.backends.mysql',
'NAME': '数据库名',
'USER': '数据库用户名',
'PASSWORD': '数据库密码',
'HOST': '127.0.0.1',
'PORT': '3306',
}
}
启动项目
- 打开Xshell,进入程序目录
安装所需的Python第三方库:pip3 install -r requirements.txt
- 执行启动命令:
uwsgi --ini uwsgi.ini
反向代理
- 进入宝塔面板,管理创建的站点
- 设置反向代理,目标URL为:http://127.0.0.1:8000
到这一步,项目网站就搭建好了,但此时网站还没有数据,需要运行爬虫程序爬取。爬虫程序位于crawler目录下,每一个文件都是独立的,可单独执行。第一次运行时,可修改爬虫参数采集全站,之后修改参数为采集第一页,配合定时任务,实现自动采集和发布
自动采集和发布
(以crawler_mm131.py爬虫程序为例)
- 修改程序中的数据库配置
dbhost = {
"host": "127.0.0.1",
"dbname": "数据库名",
"user": "数据库用户名",
"password": "数据库密码"
}
- 打开Xshell,进入程序目录
启动爬虫:python3 crawler_mm131.py
-
配合宝塔面板设置自动采集
- 重启网站:
sh /root/94imm/restart.sh
完成采集后清空cache文件或重启网站就能生效哦~
进阶技巧
1.网站采集数据后,如果点击图集无法跳转,则需要在数据库中手动添加图片分类
- 进入宝塔面板,找到相应的数据库,点击“管理”
-
点击“images_type”-“插入”-在字段id和type的对应框中输入数字和图片类型
在爬虫文件中可以找到需要输入的信息,比如crawler_mm131.py中有性感美女和清纯妹子两个分类,分类id分别为1和3
2.发布本地图片
- 进入爬虫程序目录crawler,运行AutoPost.py,根据提示输入本地图片所在路径,输入自动发布时间
3.图片压缩
- 部分网站可能未对图片进行压缩,一张图1M甚至几M,既降低传输速度又占空间
- 进入爬虫程序目录crawler,运行Compress.py,根据提示输入,默认10个线程压缩,如果服务器配置高可适当增加,只压缩图片质量,尺寸不变
4.删除图集
- 进入爬虫程序目录crawler,运行delete_img.py,根据提示输入图集链接“/article/59885/”中的数字59885即可,会同时删除数据库记录和采集的图片
5.下载采集未完成的图片
- 进入爬虫程序目录crawler,运行down_img.py,自动查找数据库中存在但static/images目录中不存在的记录重新下载。并删除只有采集记录没有图片的数据
网友评论