抓取NBA图片新闻有很多种方式,最常见用Python做爬虫较多。本文介绍用Java来抓取网页内容,用到的工具:jsoup-1.11.2.jar
首先进入NBA官方网站新闻页,
查看网页源代码,找到以下标签
java代码
循环遍历该 news-wrap 下所包含的内容:img[data-original]为图片路径信息,a[href]为该条新闻的路径,i为此条新闻的发布日期时间。
对于NBA官方网站只需要这样简单的爬虫就可以爬到内容了。对于某些防爬强的网站可以:1,设置代理IP地址。2,使线程睡眠
附:根据网络url下载图片到本地,抓取新闻内容 java代码
下载网络图到本地 新闻内容以上是爬取新闻信息的全部过程,爬取图片与之大部分相同。
打开图片栏,查看源代码,按照目录结构,网页与新闻相似。直接上java代码。
爬图先到这里,改日再聊。
网友评论