美文网首页
利用jsoup爬取NBA官方网站新闻

利用jsoup爬取NBA官方网站新闻

作者: 我是条狗thing | 来源:发表于2018-04-20 17:54 被阅读0次

    抓取NBA图片新闻有很多种方式,最常见用Python做爬虫较多。本文介绍用Java来抓取网页内容,用到的工具:jsoup-1.11.2.jar

    首先进入NBA官方网站新闻页,

    查看网页源代码,找到以下标签

    java代码

    循环遍历该 news-wrap 下所包含的内容:img[data-original]为图片路径信息,a[href]为该条新闻的路径,i为此条新闻的发布日期时间。

    对于NBA官方网站只需要这样简单的爬虫就可以爬到内容了。对于某些防爬强的网站可以:1,设置代理IP地址。2,使线程睡眠

    附:根据网络url下载图片到本地,抓取新闻内容 java代码

    下载网络图到本地 新闻内容

    以上是爬取新闻信息的全部过程,爬取图片与之大部分相同。

    打开图片栏,查看源代码,按照目录结构,网页与新闻相似。直接上java代码。

    爬图

    先到这里,改日再聊。

    相关文章

      网友评论

          本文标题:利用jsoup爬取NBA官方网站新闻

          本文链接:https://www.haomeiwen.com/subject/ybepkftx.html