连续好几天不更新了,以后坚持每周更新两篇,要养成一个自律的好习惯,才有可能摆脱一个菜鸟
本章实现的是一个简单的爬虫,爬取贴吧图片
首先还是简单介绍一下本章使用的三个库
1.urllib 上一弹简单介绍过 是用来进行url请求的库
2.re 库 是用来从html 库中解析获取图片的
3.os库是系统库,获取系统的某些信息
主要分为一下几个步骤
1.根据url获取网页html内容
2.从html中解析出所有的jpg 或者png图片的url
3.用图片url下载图片并保存成指定的文件名
第一步 根据url获取网页html内容
第二步 从html中解析出所有jpg或者png图片的url
备注:在解析图片url的时候使用到了 正则表达式 (非常重要的东西) 以后网络爬取的时候会经常用到
第三步 用图片url下载图片并保存成指定文件名
以下是完整的代码
代码很简单,多多练习熟能生巧,每天学习一点新东西,早日摆脱菜鸟,做一名合格的程序猿,加油~~~
网友评论