Java爬虫之爬取图片

作者: Koali啦 | 来源:发表于2017-03-06 20:38 被阅读276次

python-爬虫学习（文字、图片、视频）
python爬虫学习（文字、图片、视频）
使用Java写一个简单爬虫爬取单页面
用Java实现网络爬虫三之开始爬取
Java爬虫之爬取图片
java spring+mybatis整合实现爬虫之《今日头条》
Python·爬取当当网图书信息
Python学习
Java爬虫爬取图片脚本
Python爬虫实战之爬取链家广州房价_03存储

在研究一个Android Demo的时候，我发现了Demo里面的图片源很不错，看到这么多的照片，一张张下载太麻烦了，所以我决定用爬虫来爬。

Paste_Image.png

因为本人对Python只有“Hello world”的水平，所以只能用Java来爬取。首先Java对Html的处理有一个很好的开源工具Jsoup

Paste_Image.png

我用的是这个Jar，百度一下就有了。
在Chrome浏览器或者FireFox浏览器按F12，查看网页Html，我们可以发现：

Paste_Image.png

图中画红线的就是每一个界面图片的源啦。然后我们根据源就能下载图片了，所以再写一个下载图片的代码，这样就可以批量下载。

Paste_Image.png

好了，关键代码就有上面这些。

Paste_Image.png

目录为空的啦，现在我们运行
后台输出：

Paste_Image.png

pic文件夹：

Paste_Image.png

爬取成功，本次爬取没有遇到异步，所以相对很简单，如果有兴趣的可以尝试爬取百度图片。
源码地址：https://github.com/Elricyo/SpiderFromMeizi

python-爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取
python爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取
使用Java写一个简单爬虫爬取单页面
使用Java爬虫爬取人民日报公众号页面图片使用Java框架Jsoup和HttpClient实现，先看代码爬取目标...
用Java实现网络爬虫三之开始爬取
title: 用Java实现网络爬虫三之开始爬取tags: Java 网络爬虫 Spider Crawlercat...
Java爬虫之爬取图片
在研究一个Android Demo的时候，我发现了Demo里面的图片源很不错，看到这么多的照片，一张张下载太麻烦了...
java spring+mybatis整合实现爬虫之《今日头条》
java spring+mybatis整合实现爬虫之《今日头条》搞笑动态图片爬取（详细）原文地址原博客地址先上...
Python·爬取当当网图书信息
爬虫实践爬取当当网图书信息爬取豆瓣即将上映电影爬虫 1)爬取常用的数据结构模型 2)图片爬取 3）批量命名图片
Python学习
python爬虫(六) python爬取图片素材通过爬虫爬取图片的地址以及电影的名称，然后将图片素材命名为电影名...
Java爬虫爬取图片脚本
import java.io.*;import java.net.URL;import java.net.URLC...
Python爬虫实战之爬取链家广州房价_03存储
问题引入系列目录： Python爬虫实战之爬取链家广州房价_01简单的单页爬虫 Python爬虫实战之爬取链家广...

网友评论

雨果是程序员:楼主，你好，根据你github中的代码，出现如下异常：
Exception in thread "main" org.jsoup.HttpStatusException: HTTP error fetching URL. Status=514, URL=http://www.mzitu.com/86778/13
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:682)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:629)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:261)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:250)
at com.crawler.image.SpiderUtil.getSrc(SpiderUtil.java:51)
at com.crawler.image.SpiderImageTest.main(SpiderImageTest.java:18)
十分疑惑，Test.java中注释的内容，执行出现异常如上。希望帮忙解答一下。十分感谢！

Koali啦:@生活用来品你好！出现这个问题是因为SpiderUtils中的getSrc方法中的Jsoup.connect(url).get()里面的url是null导致的，所以可以捕获异常，如果出异常就返回空。但是这样还是报错，引文在SaveImage方法中。URL oneUrl = new URL（url）里面如果url还是空的话会报错，同样可以捕获异常continue。还有因为目标网页不是一层不变的，所以爬虫过段时间会没有用的！如果可以请给我项目点个star！这是对我的支持！

昵称的简书:根据你的思路试试，去做个爬图展示下载的apk去，没做过类似的东西。

昵称的简书:@Koali啦哈哈，那感情好啊，做出来的话咱们可以交流交流哈，我也很爱看小说的。

Koali啦: @prpr894 我也有这个想法，我想做个小说的app

雨果是程序员:楼主，你好，根据你github中的代码，出现如下异常：
Exception in thread "main" org.jsoup.HttpStatusException: HTTP error fetching URL. Status=514, URL=http://www.mzitu.com/86778/13
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:682)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:629)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:261)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:250)
at com.crawler.image.SpiderUtil.getSrc(SpiderUtil.java:51)
at com.crawler.image.SpiderImageTest.main(SpiderImageTest.java:18)
十分疑惑，Test.java中注释的内容，执行出现异常如上。希望帮忙解答一下。十分感谢！
Koali啦:@生活用来品你好！出现这个问题是因为SpiderUtils中的getSrc方法中的Jsoup.connect(url).get()里面的url是null导致的，所以可以捕获异常，如果出异常就返回空。但是这样还是报错，引文在SaveImage方法中。URL oneUrl = new URL（url）里面如果url还是空的话会报错，同样可以捕获异常continue。还有因为目标网页不是一层不变的，所以爬虫过段时间会没有用的！如果可以请给我项目点个star！这是对我的支持！
昵称的简书:根据你的思路试试，去做个爬图展示下载的apk去，没做过类似的东西。
昵称的简书:@Koali啦哈哈，那感情好啊，做出来的话咱们可以交流交流哈，我也很爱看小说的。
Koali啦: @prpr894 我也有这个想法，我想做个小说的app

Java爬虫之爬取图片

相关文章

python-爬虫学习（文字、图片、视频）

python爬虫学习（文字、图片、视频）

使用Java写一个简单爬虫爬取单页面

用Java实现网络爬虫三之开始爬取

Java爬虫之爬取图片

java spring+mybatis整合实现爬虫之《今日头条》

Python·爬取当当网图书信息

Python学习

Java爬虫爬取图片脚本

Python爬虫实战之爬取链家广州房价_03存储

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Ethical Hackers