Jsoup学习小案例

作者: 蒲小帅丶 | 来源:发表于2018-09-20 15:20 被阅读0次

Jsoup学习小案例
2018-01-05
Jsoup 学习
Randall | 四、Jsoup
Jsoup学习总结
Android jsoup解析html、ncx文件
Jsoup 解析html 根据节点获取内容
Jsoup 网络爬虫
java爬虫Jsoup简单学习
Android端 WebView动态注入js

使用Jsoup我们的目的就是要获取网页的数据
根据中文文档学习

主要是数据的抽取：

1.使用dom方法来遍历一个Document对象

api

1)遍历DOM查找元素

getElementById(String id)：通过id来获取
getElementsByTag(String tagName)：通过标签名字来获取
getElementsByClass(String className)：通过类名来获取
getElementsByAttribute(String key)：通过属性名字来获取
getElementsByAttributeValue(String key, String value)：通过指定的属性名字，属性值来获取
getAllElements()：获取所有元素

元素数据.png

2)选择器查找

######## public Elements select(String cssQuery)
选择器的更多语法(可以在org.jsoup.select.Selector中查看到更多关于选择器的语法)：

tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 <fb:name> 元素
井id: 通过ID查找元素，比如：#logo
class: 通过class名称查找元素，比如：.masthead.
其他不常用的就在文首的连接中去查询。

使用案例

感谢 jsoup案例

我们来爬取下蝉游记

网站图.png

爬取效果图：

效果爬取图.png

观察网页解构

网页解构图.png

在图中我们可以看到每个article标志就是每篇文章的信息。每篇article外层是被 class名为" trip-list-v2 clearfix "的div包裹。每个article下还有一层div,该div下有多个child(div.h1.p.a这些标签都是属于文章的儿子)。分析之后。我们就可以根据他们的id名，或者class名，属性来抽取我们想要的值。

代码

你可以在Activity中爬取，也可以创建一个类，创建main(String[] args)入口来进行测试爬取。

public class JsoupData {
    public static void main(String[] args) throws IOException {
        String neutrl = "http://chanyouji.com/";
        String userAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3423.2 Safari/537.36";
        Connection connect = Jsoup.connect(neutrl);
        connect.header("User-Agent", userAgent);
        Document doc = connect.timeout(5 * 1000).get();
        Element elementDiv = doc.getElementsByClass("trip-list-v2 clearfix").first();
        Elements elementsArticle = elementDiv.getElementsByTag("article");
        for (int i = 0; i < elementsArticle.size(); i++) {
            Element eles = elementsArticle.get(i).child(0);//在article下有多个child
            Elements children = eles.children();
            String title = children.get(1).text();
            String conment = eles.getElementsByTag("p").text();
            String img = children.get(0).select("img").attr("src");
            System.out.print(title + "\n" + conment + "\n" + img + "\n");
        }
    }
}

代码讲解

1.创建类，并创建main方法入口。
2.设置自己想爬取的网址
3.设置userAgent，设置伪装成浏览器。
userAgent的地址。打开自己的浏览器。按f12。

image.png

。复制下就可以了。
4.开始抽取，前面我们都分析过了。

Element elementDiv = doc.getElementsByClass("trip-list-v2 clearfix").first();

根据“trip-list-v2 clearfix”这个类名，获取到Elements列表。我们取他第一个，这样子我们就拿到了trip-list-v2 clearfix名的div容器。里面包含很多aricle。

 Elements elementsArticle = elementDiv.getElementsByTag("article");

这样我们就拿到了文章列表。循环遍历每篇文章，获取文章中的信息。
开始遍历

 for (int i = 0; i < elementsArticle.size(); i++) {
            Element eles = elementsArticle.get(i).child(0);//在article下的第一个div class=inner的
            Elements children = eles.children();//获取class=inner的儿子们
            String title = children.get(1).text();//标题在class=inner的第二个儿子，下标为1。
            String conment = eles.getElementsByTag("p").text();//也可以不用class=inner的儿子的位置来索引。直接用p这个标签来索引是一样的。
            String img = children.get(0).select("img").attr("src");//图片的地址在class=inner的第一个儿子div下。用 children.get(0)获取到这个div.用select("img")，这个选择器来选择img.并获取到src属性下的地址。
            System.out.print(title + "\n" + conment + "\n" + img + "\n");
        }

遍历的分析在上面的代码中。
5.运行该类。就能得到我们想要的数据了。

实例2

爬取美食天下地址

目标图.png
网页分析

image.png

爬取效果图

image.png

代码

public class JsoupData {
    public static void main(String[] args) throws IOException {

        String userAgent="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36";
        Connection connection= Jsoup.connect("https://home.meishichina.com/show-top-type-recipe-page-1.html");
        connection.header("User-Agent",userAgent);
        Document document=connection.timeout(5*1000).get();
        Element div_ul = document.getElementById("J_list");
        Element ul = div_ul.getElementsByTag("ul").first();
        Elements li = ul.getElementsByTag("li");
        for (int i = 0; i < li.size(); i++) {
            Element childpic = li.get(i).child(0);//第一个div
            String pic= childpic.getElementsByTag("img").attr("data-src");//获取图片地址，虽然有多层级，但是img的标签只有一个，可以直接来获取
            Element childdetails = li.get(i).child(1);//这是细节div
            String title = childdetails.getElementsByTag("h2").text();//在细节div下找到h2标签
            String who=childdetails.getElementsByClass("subline").first().getElementsByTag("a").text();
            String yuanliao = childdetails.getElementsByClass("subcontent").text();
            System.out.print(title+"\n原料:"+yuanliao+"\n图片地址:"+pic+"\n"+"发布者:"+who+"\n");
        }
    }
}

注意:

image.png

上面获取图片写src，是获取不到完整的，断点调试发现用data-src能获取到。

网友评论

本文标题：Jsoup学习小案例

本文链接：https://www.haomeiwen.com/subject/ybcpnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Jsoup学习小案例

主要是数据的抽取：

1.使用dom方法来遍历一个Document对象

1)遍历DOM查找元素

2)选择器查找

使用案例

我们来爬取下蝉游记

爬取效果图：

观察网页解构

代码

代码讲解

实例2

爬取效果图

代码

相关文章