Jsoup爬虫

作者: 耳_总 | 来源:发表于2017-02-15 14:55 被阅读152次

Jsoup爬虫
java爬虫基础--jsoup
Java爬虫实战—利用xpath表达式抓取页面信息
Maven dependencies
爬虫三--Jsoup
利用jsoup爬虫
Jsoup 网络爬虫
爬虫之Jsoup
Java爬虫（Jsoup）
Java爬虫入门简介（二） —— Jsoup解析HTML页面

Jsoup的使用

（1）获取HTML

jsoup提供两种网络请求，get和post，使用代码也及其简单，我们首先爬取糗事百科首页的HTML。注意：由于是网络请求操作，必须放在子线程中运行，否则4.4以上的版本会报错。

① get方式

② post方式

这里对post的参数介绍一下
connect：设置连接的Url

data：设置post的键值对数据

userAgent：设置用户代理（请求头的东西，可以判断你是PC还是Mobile端）

cookie：设置缓存

timeout：设置请求超时

post：发送post请求

既然已经获取HTML的Document对象了，接下来就是分析Html元素的时候了

（2）获取Html元素

① 网页端

以糗事百科为例子，我们查看糗事百科首页的数据对应的Html元素是什么，我们可以通过F12，找到对应的Html元素

可以看到一个a标签就是文章详情的内容，我们可以通过这个a标签的class=”contentHerf”作为唯一标识来获取该链接，获取之后，继续爬取详情页的文章详细内容，所以我们通过爬取的a标签的链接进入该文章的详情页

当然也有一些详情页有图片的，我们可以通过图片的的class=”thumb”作为唯一标识来爬取图片里面的链接

由于糗事百科采用分页加载的情况，我们需要在爬取完第一张内容后，接着爬取第二章的内容，下面是糗事百科的分页Url的规则，很简单，我们可以通过一个循环就可以了。
http://www.qiushibaike.com/8hr/page/1/http://www.qiushibaike.com/8hr/page/2/http://www.qiushibaike.com/8hr/page/3/http://www.qiushibaike.com/8hr/page/4/http://www.qiushibaike.com/8hr/page/5/

好了，分析完网页端之后，就应该在我们的Android端采用代码，将上面的步骤实现出来了。

（3）Android端实现

通过上面的分析后，可以总结我们需要实现的步骤有：
爬取主页的详情页url

1 进入详情页爬取内容和图片

2 循环爬取第二页、第三页…

聪明的你，可能会想到第四步第五步…
1 封装Bean对象

2 使用ListView填充内容

3 爬取日期、作者、评论等内容完善项目

1）爬取主页的详情页url

爬取主页的url可以通过a标签的class=”contentHerf”，我们通过jsoup的属性选择器来实现，这里会用到css知识，jsoup中文文档也有很详细的介绍

这里对使用到的对象进行介绍

Document：相当于一个Html文件
Elements：相当于一个标签的集合
Element：相当于一个标签

这里要注意Elements与Element的toString()方法和text()方法

toString()：打印出来的是标签的Html内容
text()：打印出来的是（<span>）标签对应的文本内容

css选择器

select()：Document、Elements共同拥有的方法，获取符合属性选择器要求的标签内容（什么是标签？）

document.select(".thumb img[src$=jpg]") 表示获取thumb标签下的img标签

或getElementById：获取符合ID选择器要求的标签内容
或getElementsByTag：获取符合Tag选择器要求的标签内容
ele.attr("xxx"):根据标签的属性获取标签的内容

2）进入详情页爬取内容和图片
这段代码也相当简单，这里就不多解释了

3）循环爬取第二页、第三页…
这里只需要嵌套一个循环进去就可以了，完整代码如下

4）当然，我们爬取到的内容之后，毫无疑问就是要封装成对象，通过ArrayList存储起来，这样你的数据源就解决了
public class Xiaohua { private String content; private String title; private String url; private String userName; private String date;}

5）后面爬取作者、日期、评论等信息就由你们去练习了，然后界面一仿，项目就出来了