百度百科:jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。
之前一直看郭霖老师的《第一行代码》,里面讲述了XML和JSON格式的解析方法,我们经常遇到HTML的网页,这时候利用Jsoup可以方便抓取网页资源。
Jsoup网站:https://jsoup.org/
Android Studio可以通过Gradle方法添加依赖库
![](https://img.haomeiwen.com/i10339582/24ebcfe06ce9e2ae.png)
我们以简书首页为例,https://www.jianshu.com/
按F12打开开发者工具,就可以看见网页源码
![](https://img.haomeiwen.com/i10339582/4a36db5da79bb7fc.png)
假如我们想获取如下标签的内容,我们可以在元素上右键选择检查(Chrome),快速看见对应的源码。
![](https://img.haomeiwen.com/i10339582/7e75ca990852859d.png)
![](https://img.haomeiwen.com/i10339582/d95ff563e6c733a6.png)
贴代码:
![](https://img.haomeiwen.com/i10339582/28a1e19daa972417.png)
查看LogCat:
![](https://img.haomeiwen.com/i10339582/5c6d0b919b4724b5.png)
Jsoup要在子线程中进行,不然会报错,别忘了申请网络权限。
抓取到了文字,接下来我们试着获取图片地址
![](https://img.haomeiwen.com/i10339582/c8119065ff38fae1.png)
图片的地址正是在img src处,这里以div class="banner"为节点,修改我们的代码
![](https://img.haomeiwen.com/i10339582/ce200521097afefc.png)
![](https://img.haomeiwen.com/i10339582/bb4a752c0dd5804b.png)
用强大的Glide来加载其中一个地址:
![](https://img.haomeiwen.com/i10339582/9cb9965ca2b38b06.png)
![](https://img.haomeiwen.com/i10339582/5d928832bc96da06.png)
大功告成!
网友评论