有时候可能我们会有这样的需求,拿到一个url链接,然后获取到里面的数据,再转换成原生来实现这个html页面。实现要解析html,应该和xml解析类似,先获取标签,再对标签里面的内容进行解析,一层层嵌套。
Jsoup用法:
1.在工程gradle中allprojects中加入下面这句话
maven { url "https://jsoup.org/" }
2.在项目gradle中引入
" api 'org.jsoup:jsoup:1.12.1'"
目前最新版本就是1.12.1,这样就可以在项目中引用jsoup了。
这里我们用简书首页文章列表为例:
打开简书首页,在页面上右键,打开源码页面,我们首先来分析一下简书的源码,
image.png
通过观察可以知道文章列表是放在id为list-container的div标签下面,然后再继续往下看,发现每个item是由<li/>标签包含在一起的,li标签下面包含了一个div.content和a.wrap-img标签,content里面又同时包含了标题,内容,简书钻等信息。a.wrap-img标签包含了图片的链接等信息,这样我们就可以根据jsoup提供的查询方法来查询出来对应的相关信息了。
我们可以先获取列表的根节点,然后拿到列表节点的集合,通过遍历,拿到我们需要的数据,比如标题,内容,图片地址,和简书钻等等。具体代码:
Observable.create<Document> {
val doc = Jsoup.connect("https://www.jianshu.com/").get()
it.onNext(doc)
it.onComplete()
}.subscribeOn(Schedulers.newThread())
.observeOn(AndroidSchedulers.mainThread())
.subscribe {
val elements = it.select("div#list-container ul li")
for (element in elements) {
LogUtils.d(
"element_tittle=${element.select("div.content a").text()}\n" +
"content=${element.select("div.content p").text()}\n" +
"简书钻=${element.select("div.content div.meta span.jsd-meta").text()}\n" +
"作者=${element.select("div.content div.meta a").text()}\n" +
"图片=https:${element.select("a.wrap-img img").attr("src")}"
)
}
}
通过Jsoup.connect()方法可以将url链接转换成一个Document的对象,这里要注意一点,这个方法一定要异步请求,不能再主线程中进行,因为这里相当于一个网络请求,android里面是不能再主线程中处理网络请求的。我这里使用了RxJava进行了线程的转换。下面订阅成功返回后解析Document的对象,具体语法可以参考
jsoup官网:https://jsoup.org/
jsoup中文网:https://www.open-open.com/jsoup/
上面代码运行后,打印出来结果见下图:
可以很清楚的看到我们已经拿到简书列表item里面的所有数据,这样就可以直接展示在我们RecycleView中了。
网友评论