美文网首页Ethical Hackers
Java爬虫之爬取图片

Java爬虫之爬取图片

作者: Koali啦 | 来源:发表于2017-03-06 20:38 被阅读276次

在研究一个Android Demo的时候,我发现了Demo里面的图片源很不错,看到这么多的照片,一张张下载太麻烦了,所以我决定用爬虫来爬。

Paste_Image.png

因为本人对Python只有“Hello world”的水平,所以只能用Java来爬取。首先Java对Html的处理有一个很好的开源工具Jsoup

Paste_Image.png

我用的是这个Jar,百度一下就有了。
在Chrome浏览器或者FireFox浏览器按F12,查看网页Html,我们可以发现:

Paste_Image.png

图中画红线的就是每一个界面图片的源啦。然后我们根据源就能下载图片了,所以再写一个下载图片的代码,这样就可以批量下载。

Paste_Image.png

好了,关键代码就有上面这些。


Paste_Image.png

目录为空的啦,现在我们运行
后台输出:

Paste_Image.png

pic文件夹:

Paste_Image.png

爬取成功,本次爬取没有遇到异步,所以相对很简单,如果有兴趣的可以尝试爬取百度图片。
源码地址:https://github.com/Elricyo/SpiderFromMeizi

相关文章

网友评论

  • 雨果是程序员:楼主,你好,根据你github中的代码,出现如下异常:
    Exception in thread "main" org.jsoup.HttpStatusException: HTTP error fetching URL. Status=514, URL=http://www.mzitu.com/86778/13
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:682)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:629)
    at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:261)
    at org.jsoup.helper.HttpConnection.get(HttpConnection.java:250)
    at com.crawler.image.SpiderUtil.getSrc(SpiderUtil.java:51)
    at com.crawler.image.SpiderImageTest.main(SpiderImageTest.java:18)
    十分疑惑,Test.java中注释的内容,执行出现异常如上。希望帮忙解答一下。十分感谢!
    Koali啦:@生活用来品 你好!出现这个问题是因为SpiderUtils中的getSrc方法中的Jsoup.connect(url).get()里面的url是null导致的,所以可以捕获异常,如果出异常就返回空。但是这样还是报错,引文在SaveImage方法中。URL oneUrl = new URL(url)里面如果url还是空的话会报错,同样可以捕获异常continue。还有因为目标网页不是一层不变的,所以爬虫过段时间会没有用的!如果可以请给我项目点个star!这是对我的支持!:wink:
  • 昵称的简书:根据你的思路试试,去做个爬图展示下载的apk去,没做过类似的东西。
    昵称的简书:@Koali啦 哈哈,那感情好啊,做出来的话咱们可以交流交流哈,我也很爱看小说的。
    Koali啦: @prpr894 我也有这个想法,我想做个小说的app

本文标题:Java爬虫之爬取图片

本文链接:https://www.haomeiwen.com/subject/sqgugttx.html