在研究一个Android Demo的时候,我发现了Demo里面的图片源很不错,看到这么多的照片,一张张下载太麻烦了,所以我决定用爬虫来爬。
data:image/s3,"s3://crabby-images/d4e85/d4e85bf2ab39f357d86bf8deea315cb3f64dca5a" alt=""
因为本人对Python只有“Hello world”的水平,所以只能用Java来爬取。首先Java对Html的处理有一个很好的开源工具Jsoup
data:image/s3,"s3://crabby-images/c4245/c4245addea4fce688cc46ef3b4c98bf221ace6fa" alt=""
我用的是这个Jar,百度一下就有了。
在Chrome浏览器或者FireFox浏览器按F12,查看网页Html,我们可以发现:
data:image/s3,"s3://crabby-images/ad2a8/ad2a8dbc8eb4a37bdc4d5f184d479abcaa4e42ca" alt=""
图中画红线的就是每一个界面图片的源啦。然后我们根据源就能下载图片了,所以再写一个下载图片的代码,这样就可以批量下载。
data:image/s3,"s3://crabby-images/b9145/b914593ba3eb483f01b01910bc68ef6eb9724eeb" alt=""
好了,关键代码就有上面这些。
data:image/s3,"s3://crabby-images/f1bbc/f1bbc114377279bc2c2a8040ac6cd2415547325d" alt=""
目录为空的啦,现在我们运行
后台输出:
data:image/s3,"s3://crabby-images/e4262/e4262c1bdff2345649c39212731b38afe2004e70" alt=""
pic文件夹:
data:image/s3,"s3://crabby-images/d4464/d44649608dd25704cfb7a69ba8afe1542854b3a1" alt=""
爬取成功,本次爬取没有遇到异步,所以相对很简单,如果有兴趣的可以尝试爬取百度图片。
源码地址:https://github.com/Elricyo/SpiderFromMeizi
网友评论
Exception in thread "main" org.jsoup.HttpStatusException: HTTP error fetching URL. Status=514, URL=http://www.mzitu.com/86778/13
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:682)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:629)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:261)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:250)
at com.crawler.image.SpiderUtil.getSrc(SpiderUtil.java:51)
at com.crawler.image.SpiderImageTest.main(SpiderImageTest.java:18)
十分疑惑,Test.java中注释的内容,执行出现异常如上。希望帮忙解答一下。十分感谢!