美文网首页
Jsoup解析html页面,爬虫必备

Jsoup解析html页面,爬虫必备

作者: 三招六式一把铁斧 | 来源:发表于2018-03-30 12:05 被阅读0次
介绍

Jsoup用于解析html页面,对于爬虫来说,会有大量的html页面反馈回来,解析出特定的信息和内容是非常繁琐的,Jsoup是解析html的神奇工具,可以大大减少工作量

使用方式
  1. Jsoup将html封装成为document,操作起来像 js 和 jqurey 一样,可以使用document.getElementById()、document.getElementsByTagName()等等一系列命令都可以在jsoup中使用
  2. 具有完备的 api 文档
    地址:https://jsoup.org/apidocs/org/jsoup/nodes/Element.html
    ps:可以利用浏览器的翻译变成中文哦~
  3. maven依赖
<!-- html页面解析依赖 -->
<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.7.2</version>
</dependency>
示例
//将html页面解析成document
Document userDocument = Jsoup.parse(html);
        //获取所有tagname为table的元素
        Elements tableElements = userDocument.getElementsByTag("table");
        for(Element tableElement : tableElements){
            //获取所有table元素下的子元素(不包括孩子的孩子)
            Elements tbodyElements = tableElement.children();
            for(Element tbodyElement : tbodyElements){
                Elements trElements = tbodyElement.children();
                for(Element trElement : trElements){
                    Elements tdElements = trElement.children();
                    String key = tdElements.get(0).text();
                    String value = tdElements.get(1).text();
                    System.out.println("key=="+key.trim());
                    System.out.println("value=="+value);
                }
            }
        }

控台输出结果

key==  余额:
value==259.01
key==  上笔发生日:
value==2018-03-21
key==  未登折笔数:
value==2
key==  账户状态:
value==正常
常用api
1. Jsoup.parse(String html);//解析一个html页面,返回document类型
eg:Document document = Jsoup.parse(html);
2.通过tagname获取所有相同标签document.getEleementsByTag(String name);
 Elements elements = document.getElementsByTag("table");
3. element.children();//获取所有的子元素
eg:Elements elements = element.children();
4.element.attributies();// 获取当前元素的属性
eg: Attributes attributes = element.attributies();
//遍历属性并获得属性名和值
for(Attribute attr : attributes){
  //属性名
  String propertyName = attr.getKey();
  //属性值
  String propertyValue = attr.getVlaue();
}
(未完待续)

相关文章

  • Jsoup解析html页面,爬虫必备

    介绍 Jsoup用于解析html页面,对于爬虫来说,会有大量的html页面反馈回来,解析出特定的信息和内容是非常繁...

  • Java爬虫入门简介(二) —— Jsoup解析HTML页面

    Java爬虫入门简介(二) —— Jsoup解析HTML页面 原文链接:http://blog.csdn.net/...

  • java爬虫基础--jsoup

    java爬虫框架---jsoup 在实际的开发过程中,jsoup仅仅作为对html界面解析的工具 一、解析URL ...

  • 记一次jsoup的使用

    Jsoup是用于解析HTML,就类似XML解析器用于解析XML。 Jsoup它解析HTML成为真实世界的HTML。...

  • HTML&XML解析器--Jsoup

    HTML&XML解析器 一.Jsoup概述 Jsoup简介jsoup是一款Java的HTML解析器,可直接解析某个...

  • 第一课 jsoup教程

    jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用HttpC...

  • jsoup教程

    jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用Htt...

  • Jsoup

    jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用HttpC...

  • Spring Boot 菜鸟教程 11 html页面解析-jso

    需求 需要对一个页面进行数据抓取,并导出doc文档 html解析器 jsoup 可直接解析某个URL地址、HTML...

  • linux 下使用 python 和 pdfkit 来转换 ht

    前言 在前面,我们已经演示过如何下载 html 页面内容,并且通过 jsoup 来解析 html 的内容。那么现在...

网友评论

      本文标题:Jsoup解析html页面,爬虫必备

      本文链接:https://www.haomeiwen.com/subject/jxzbcftx.html