美文网首页AndroidAndroid网络
Android使用Jsoup来解析html

Android使用Jsoup来解析html

作者: 儿歌八万首 | 来源:发表于2019-09-18 17:51 被阅读0次

    有时候可能我们会有这样的需求,拿到一个url链接,然后获取到里面的数据,再转换成原生来实现这个html页面。实现要解析html,应该和xml解析类似,先获取标签,再对标签里面的内容进行解析,一层层嵌套。
    Jsoup用法:
    1.在工程gradle中allprojects中加入下面这句话

       maven { url "https://jsoup.org/" }
    

    2.在项目gradle中引入

    " api 'org.jsoup:jsoup:1.12.1'"
    

    目前最新版本就是1.12.1,这样就可以在项目中引用jsoup了。
    这里我们用简书首页文章列表为例:
    打开简书首页,在页面上右键,打开源码页面,我们首先来分析一下简书的源码,


    image.png

    通过观察可以知道文章列表是放在id为list-container的div标签下面,然后再继续往下看,发现每个item是由<li/>标签包含在一起的,li标签下面包含了一个div.content和a.wrap-img标签,content里面又同时包含了标题,内容,简书钻等信息。a.wrap-img标签包含了图片的链接等信息,这样我们就可以根据jsoup提供的查询方法来查询出来对应的相关信息了。
    我们可以先获取列表的根节点,然后拿到列表节点的集合,通过遍历,拿到我们需要的数据,比如标题,内容,图片地址,和简书钻等等。具体代码:

     Observable.create<Document> {
                val doc = Jsoup.connect("https://www.jianshu.com/").get()
                it.onNext(doc)
                it.onComplete()
            }.subscribeOn(Schedulers.newThread())
                .observeOn(AndroidSchedulers.mainThread())
                .subscribe {
                    val elements = it.select("div#list-container ul li")
                    for (element in elements) {
                        LogUtils.d(
                            "element_tittle=${element.select("div.content a").text()}\n" +
                                    "content=${element.select("div.content p").text()}\n" +
                                    "简书钻=${element.select("div.content div.meta span.jsd-meta").text()}\n" +
                                    "作者=${element.select("div.content div.meta a").text()}\n" +
                                    "图片=https:${element.select("a.wrap-img img").attr("src")}"
                        )
                    }
                }
    
    

    通过Jsoup.connect()方法可以将url链接转换成一个Document的对象,这里要注意一点,这个方法一定要异步请求,不能再主线程中进行,因为这里相当于一个网络请求,android里面是不能再主线程中处理网络请求的。我这里使用了RxJava进行了线程的转换。下面订阅成功返回后解析Document的对象,具体语法可以参考
    jsoup官网:https://jsoup.org/
    jsoup中文网:https://www.open-open.com/jsoup/
    上面代码运行后,打印出来结果见下图:

    image.png
    可以很清楚的看到我们已经拿到简书列表item里面的所有数据,这样就可以直接展示在我们RecycleView中了。

    相关文章

      网友评论

        本文标题:Android使用Jsoup来解析html

        本文链接:https://www.haomeiwen.com/subject/yhmhyctx.html