Jsoup 学习

作者: 真晓白 | 来源:发表于2017-07-27 16:03 被阅读0次

2018-01-05
Jsoup 学习
Randall | 四、Jsoup
Jsoup学习总结
Android jsoup解析html、ncx文件
Jsoup 解析html 根据节点获取内容
Jsoup 网络爬虫
java爬虫Jsoup简单学习
Android端 WebView动态注入js
Java爬虫jsoup工具类

了解Jsoup

Jsoup使用一个解析HTML文件的Java包。利用Jsoup，可以实现以下内容的抽取

文本抽取
链接抽取
资源抽取（图像和声音等资源）
链接检查
站点检查

Jsoup.connect(String url) 方法创建一个新链接。get()方法取得并解析一个HTML文件。如果发生错误，就抛出一个IOException。从一个URl解析HTML 的代码如下:


        String url = "http://www.baidu.com";
        Document doc = Jsoup.connect(url).get(); // 解析的结果就是一个文档对象

返回的Document对象中包含了Elements 和TextNodes。当然Document也可以认为是一个特殊的Element,因为Document本身就是继承自Element。

设置链接参数


    Document doc2 =  (Document) Jsoup.connect("http://www.baidu.com/")
                .data("query","java")    // 请求参数
                .userAgent("jsoup")      // 设置User-Agent
                .cookie("auth", "token") // 设置Cookie
                .timeout(3000)           // 设置连接超时时间
                .post();                 // 使用post 方法访问URl

在Jsoup 中得到并处理响应状态码


        Connection.Response response = Jsoup.connect("http://www.baidu.com")
                .userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
                .timeout(10000)
                .execute();
        
        int statusCode = response.statusCode();
        if(statusCode == 200){
            Document doc = connection.get();
            Elements element = doc.select("loc");
            for(Element urls :element){
                System.out.println(urls.text());
            }
        }else {
            System.out.println("recevied error code : "+ statusCode);
        }

也可以直接从网友内容字符串得到文档对象

        String html = "<html><head><title>First parse</title></head>"
                + "<body><p>Parsed HTML into a doc.</p></body></html>";
        Document doc = Jsoup.parse(html);
        System.out.println(doc);

如果本地硬盘中的一个文件缓存了HTML页面，可以加载这个文件并解析内容

        File input = new File("d:index.html");
        Document doc2 = Jsoup.parse(input, "UTF-8", "http://www.baidu.com");
        System.out.println(doc2);

Jsoup.connect下载网页没有多次重试功能，可以使用HTTPClient下载网页后把字符串传递给Jsoup解析

Document doc = Jsoup.parse(html);```


###得到网页标题
```java
      Document doc3 = (Document) Jsoup.connect("http://www.baidu.com").get();
        String title = doc3.title(); //取出网页标题
        System.out.println(title);

Element.text()方法输出节点对应的文本。例如:对于HTML文本<p>Hello <b>there<b/> now!</p>。调用p.text()方法，返回 “Hello there now!”
Element.html() 返回这个节点代表的整个HTML，会保留换行符。Element.outerHtml()则会返回包含描述Element标签在内的所有HTML内容
Jsoup 支持使用DOM来查找、取出数据。可以使用CSS来选择器来查找、取出数据。例如选出带有href属性的a类型的标签

Elements links = doc.select("a[href]"); // 带有href属性a标签

提取网页中的链接的完整例子

        String url = "http://www.baidu.com";
        Document doc5 = Jsoup.connect(url).get();
        Elements links = doc5.select("a[href]");  // 带有href属性的a标签
        for(Element link : links){                  // 遍历每个链接
            String linkHref = link.attr("href");    // 得到href属性中的值，也就是url地址
            String linkText = link.text();          // 得到锚点上的文字说明
            System.out.println(linkHref + " " + linkText);  // 输出
        }

除了CSS选择器，Jsoup还提供了类似于jQuery的操作方法来取出和操作数据。getElementById和 getElementsByTag 方法跟JavaScript中方法名称是一样的，功能也完全一致，可以根据节点名称或者HTML元素的ID来获取对应的元素或者元素列表。

        File input = new File("D:index.html");
        Document doc = Jsoup.parse(input, "UTF-8", "http://www.baidu.com");
        Element content = doc.getElementById("wrapper"); // 通过id名称来获取对应的元素
        Elements links = content.getElementsByTag("a");  // 通过类型获取元素列表
        
        for(Element link : links){                  // 遍历每个链接
            String linkHref = link.attr("href");    // 得到href属性中的值，也就是url地址
            String linkText = link.text();          // 得到锚点上的文字说明
            System.out.println(linkHref + " " + linkText);  // 输出
        }

可以通过class 或者ID 信息来选取元素。例如，选择商品名称所在的Div区域<div class="p-name">

Element content = document.select("div.p-name").first();// 通过class来选取元素

想要选择<div id ="content">,可以使用CSS ID 选择器采用格式“#id ”

Element content  = doucment.select("#content").first();

``是网页中的注释标签。注释是节点，用节点名#comment标识。

注释节点的三个node属性——nodeType、nodeName、nodeValue
分别是8、'#comment'和注释的内容，
其父节点parentNode可能是Document或Element
注释节点没有子节点去打注释节点的代码如下


public class RemoveComments {
    public static void main(String[] args) {
        String h = "<html><head></head><body>"
                + "<div><!-- foo --><p>bar<!-- baz--></div><!-- qux--></body></html>";
        Document doc = Jsoup.parse(h);
        System.out.println(doc);
        removeComments(doc);
        System.out.println(doc.html());
    }
    private static void removeComments(Node node){
        for(int i = 0 ; i < node.childNodes().size();){
            System.out.println(node.childNodes().size());
            Node child = node.childNode(i);
            System.out.println(child.nodeName());
            if(child.nodeName().equals("#comment")){
                child.remove();
            }else{
                removeComments(child);
                i++;
            }
        }
    }
}

每个一个节点在DOM树中都有一个特定的位置。Node接口中有一些发现一个指定节点周边节点的方法
Jsoup 提供了图形化方式导航：parent()得到父亲节点，children()得到所有的孩子节点，`child(int index)得到指定的孩子节点。

String html = "<div id ="demo"><span style="color:red;"><h1>hello world!</h1></span><div id="innerDiv"> inner div</div></div>"

NodeVisitor 接口用来遍历DOM树中的节点，这个接口提供了两个方法：
一个叫作head，另一个叫作tail。当第一次看到节点时，调用head方法，当这个节点所有的孩子都已经被访问过以后，调用tail方法。
例如，可以使用head创建一个节点的开始标签，用tail创建结束标签


//      用一个NodeVisitor 对象构造一个NodeTraversor
        NodeTraversor nd = new NodeTraversor(new NodeVisitor() {
            
            public void tail(Node node, int depth) {
                // TODO Auto-generated method stub
                处理代码
            }
            
            public void head(Node node, int depth) {
                // TODO Auto-generated method stub
                
            }
        });
        nd.traverse(doc.body());

可以使用HttpClient实现下载网页,而用Jsoup解析网页。集成Jsoup和HttpClient的example 如下

        String url = "http://www.baidu.com";
        
        // 创建httpget实例
        HttpGet get = new HttpGet(url);
        
        // 创建httpClient实例
        CloseableHttpClient httpclient = HttpClients.createDefault();
        // 执行http get请求
        CloseableHttpResponse  response = httpclient.execute(get);
        HttpEntity entity = response.getEntity(); //获取返回实体
        String  responseBody =  EntityUtils.toString(entity, "utf-8"); // 获取页面内容
        
        Document document = Jsoup.parse(responseBody);
        Elements links = document.select("a[href]");
        for(Element link :links){
            String title = link.text();
            System.out.println(title);
        }

2018-01-05
今日学习内容一、获取初始页面二、Jsoup模拟浏览器 Document doc = Jsoup.connect...
Jsoup 学习
了解Jsoup Jsoup使用一个解析HTML文件的Java包。利用Jsoup，可以实现以下内容的抽取文本抽取 ...
Randall | 四、Jsoup
一、Jsoup是什么？引用Jsoup官网的介绍： jsoup: Java HTML Parser jsoup i...
Jsoup学习总结
转自Jsoup学习总结——我家有个艳
Android jsoup解析html、ncx文件
android studio 引用jsoup compile 'org.jsoup:jsoup:1.10.3'js...
Jsoup 解析html 根据节点获取内容
import org.jsoup.Jsoup; Document doc = Jsoup.parse(file...
Jsoup 网络爬虫
1. Jsoup下载地址： http://jsoup.org/packages/jsoup-1.8.1.jar 或...
java爬虫Jsoup简单学习
啥是jsoup？ jsoup我就不巴拉巴拉了，具体介绍百度或者去官网查看。 jsoup怎么用？ jsoup和jqu...
Android端 WebView动态注入js
首先导入工具类：implementation 'org.jsoup:jsoup:1.14.3'当使用jsoup做爬...
Java爬虫jsoup工具类
一、定义 jsoup官网[https://jsoup.org/cookbook/]，jsoup是一个用于处理HTM...

Jsoup 学习

了解Jsoup

Jsoup使用一个解析HTML文件的Java包。利用Jsoup，可以实现以下内容的抽取

文本抽取

链接抽取

资源抽取（图像和声音等资源）

链接检查

站点检查

设置链接参数

在Jsoup 中得到并处理响应状态码

也可以直接从网友内容字符串得到文档对象

如果本地硬盘中的一个文件缓存了HTML页面，可以加载这个文件并解析内容

Jsoup.connect下载网页没有多次重试功能，可以使用HTTPClient下载网页后把字符串传递给Jsoup解析

提取网页中的链接的完整例子

相关文章

2018-01-05

Jsoup 学习

Randall | 四、Jsoup

Jsoup学习总结

Android jsoup解析html、ncx文件

Jsoup 解析html 根据节点获取内容

Jsoup 网络爬虫

java爬虫Jsoup简单学习

Android端 WebView动态注入js

Java爬虫jsoup工具类

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Jsoup 学习

了解Jsoup

Jsoup使用一个解析HTML文件的Java包。利用Jsoup，可以实现以下内容的抽取

文本抽取

链接抽取

资源抽取 （图像和声音等资源）

链接检查

站点检查

设置链接参数

在Jsoup 中得到并处理响应状态码

也可以直接从网友内容字符串得到文档对象

如果本地硬盘中的一个文件缓存了HTML页面，可以加载这个文件并解析内容

Jsoup.connect下载网页没有多次重试功能，可以使用HTTPClient下载网页后把字符串传递给Jsoup解析

提取网页中的链接的完整例子

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

资源抽取（图像和声音等资源）