美文网首页编程之美-Pyhon
使用python3进行优雅的爬虫(一)爬取图片

使用python3进行优雅的爬虫(一)爬取图片

作者: 十年之前i | 来源:发表于2016-11-05 23:54 被阅读23822次

先从一个最简单的页面开始爬起

这是一个只有照片的页面

现在我要做的时把它从网页是爬下来,贴出代码

运行

值得注意的是对文件操作是尽量使用with open 方法这样就避免了直接使用open方法需要使用      .close()方法关闭文件的繁琐

然后就可以看到本地文件夹下多出来了一张图片

到这里一张图片的爬取就完成了,是不是觉得很简单呢,接下来就是对宅男们比较感兴趣的爬一堆美女图片

直接贴上裸奔版的代码

关于下载图片,也可以使用urllib.request.urlretrieve(img,'%s.jpg'%num)方法

运行

然后回到文件夹下就会发现一堆美女图片已经躺在那了

妹子的话就转变一下去爬一些帅哥型男的图片咯

但是往往裸奔版对一些网站是爬不了的,这时就需要对爬虫进行一些伪装了。伪装浏览器或者加入延时。

伪装的话直接把request请求改成

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) '

'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}

request = urllib.request.Request(url,headers=headers)

这样就成功完成伪装了

相关文章

网友评论

  • a312b7185348:大佬,想问一下怎么修改图片的保存路径呀?感谢
  • Eugene1024:大佬问下,我对这些代码能看懂大概,但是自己不能写出来,是不是应该去看下python基础啊
  • cc5486c112bf:大佬,请问一下,如果我要爬的图片把协议头隐藏了或者是格式后面加了后缀,我要怎么改呢?我是小白,刚刚入门的。我已经研究了一上午了。。。要么是运行没反应,要么是报错提醒我加协议头,将协议头设置成变量加进去也没用。。。求解
  • 黑夜与繁星:只能下载一张图片
  • 今天又懒得加班:不太懂,为什么我只能爬23张照片呢?
  • 701623062c9d:程序运行没有错误,但是抓不到图片是什么情况...
    9ad2e1a6e20c:@超超人归来不不不会飞 在关键节点下print一下,看看是哪一步没有生效
    701623062c9d:@小丑3389 不太清楚是哪方面的配置问题呢?求赐教一下😁😁😁
    小丑3389:配置还是有问题
  • 魂牵如梦:爬了大概4张图片就报错。
    十年之前i:@魂牵如梦 报的是什么错误呢?

本文标题:使用python3进行优雅的爬虫(一)爬取图片

本文链接:https://www.haomeiwen.com/subject/toicettx.html