美文网首页开源工程程序员Java学习笔记
用JSOUP抓取某报广告版,很美的JSOUP选择器

用JSOUP抓取某报广告版,很美的JSOUP选择器

作者: 毛三十 | 来源:发表于2017-03-13 08:05 被阅读392次

    1.jsoup简要介绍

    jsoup 是一款用Java语言实现的的HTML工具,它提供了一套非常方便的API用于HTML的数据的操作和抽取,其最优美和强大的地方就是DOM选择器部分。相较于HtmlUnit,在选择器使用上jsoup真的是要好上太多。要想学习和使用jsoup,强烈建议您阅读官方文档。

    jsoup网站:jsoup.org

    www.jsoup.org

    2.jsoup示例程序

    本程序的主要功能是利用jsoup连接某报纸电子版某天的头版页面,解析其版面目录并取得广告版的地址,连接并解析广告版页面,并将其广告图片以日期和版号命名保存到E盘的paper目录下。本程序除用到了jsoup的JAR包以外,还用到了apahce的Lang和IO两个JAR工具包,分别用来修剪字符串(trim)和拷贝图片到本地(copyURLToFile)。你可以利用maven引入JAR包,也可以自行下载JAR到类目录下。

    jsoup下载地址:jsoup-1.10.2.jar

    commons下载地址:Apache Commons

    maven依赖:

    maven依赖

    示例程序:

    jsoup示例程序

    3.简要补充

    程序的关键部分在于对Dom文档部分的选择,即doc.select("div[class=right_title-name] a"),通过变换不同的表达式从而取得Dom的不同部分。

    为表达方便,示例程序中把日期写死在程序里面,如果想取得所有日期的数据,遍历日期即可达到目的,即DateFormatdf1=newSimpleDateFormat("yyyy-MM/dd")。

    从以上程序不难看出JSOUP选择器是多么的简捷和美丽。

    本示例程序只是为学习和交流,不能用于其它目的,下载的广告图片版权归属原单位。

    相关文章

      网友评论

        本文标题:用JSOUP抓取某报广告版,很美的JSOUP选择器

        本文链接:https://www.haomeiwen.com/subject/soqfnttx.html