java爬虫框架之jsoup的使用

作者: SunY7 | 来源:发表于2023-05-08 16:04 被阅读0次

使用Java写一个简单爬虫爬取单页面
java爬虫基础--jsoup
java爬虫入门jsoup 框架
Java爬虫实战—利用xpath表达式抓取页面信息
Java爬虫（Jsoup）
Java爬虫入门简介（二） —— Jsoup解析HTML页面
基于docker容器，搭建可视化监控系统，容器资源监控 & 业务
Jsoup 学习
Java爬虫之Jsoup 基础语法
爬虫之Jsoup

虽然python爬虫的首要选择语言，但也有一些人会选择使用java,并且对于长期使用java做编程的程序猿应该知道，java支持的爬虫框架还是有很多的，如：ebMagic、Spider、Jsoup等。今天我们就用Jsoup来实现一个小小的爬虫程序，Jsoup作为kava的HTML解析器，可以直接对某个URL地址、HTML文本内容进行解析。
我们可以使用Jsoup快速地掌握爬取页面数据的技巧。 Jsoup如此强大的关键在于Jsoup对常用的api做了很好的封装，并且通俗易懂，小白上手也很快，下面就主要介绍下常用的对象及API，网络请求，jsoup封装了http请求所涉及的几乎所有api，在Jsoup.connect()方法返回的对象Connection对象中，封装了http请求的常见操作。比如cookie，IP等。
这里我们要实践的项目是利用Jsoup爬取百度关键词的相关数据，经过简单的分析发现百度还是有些反爬机制的，所以这里我们也可以分享下如何在爬虫程序里面添加爬虫ip进行数据爬取的过程。爬虫程序添加IP是最基本的技术，相对技术来说优质代理IP的选择要有难道些，有太多的代理商，代理我们需要从厂家的IP池大小，IP的延迟高低，访问目标网站速度快慢，抓取数据成功率等多方面进行考察，对很多爬虫工作者来说这很费时间和精力，所以这里推荐亿牛云提供的爬虫隧道代理，经过多年项目使用质量一直稳定，这里我们也分享下通过添加他们的爬虫加强版隧道代理来访问百度的效果，代码实现过程如下：
import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class Demo
{
// 代理验证信息
final static String ProxyUser = "SWDWFD";
final static String ProxyPass = "488756";

// 代理服务器(产品官网 www.16yun.cn)
final static String ProxyHost = "t.16yun.cn";
final static Integer ProxyPort = 31111;

// 设置IP切换头
final static String ProxyHeadKey = "Proxy-Tunnel";


public static String getUrlProxyContent(String url)
{
    Authenticator.setDefault(new Authenticator() {
        public PasswordAuthentication getPasswordAuthentication()
        {
            return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
        }
    });
    // 设置Proxy-Tunnel
    Random random = new Random();
    int tunnel = random.nextInt(10000);
    String ProxyHeadVal = String.valueOf(tunnel);

    Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));

    try
    {
        // 处理异常、其他参数
        Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();

        if(doc != null) {
            System.out.println(doc.body().html());
        }
    }
    catch (IOException e)
    {
        e.printStackTrace();
    }

    return null;
}

public static void main(String[] args) throws Exception
{
    // 要访问的目标页面
    String targetUrl = "https://www.baidu.com/";


    getUrlProxyContent(targetUrl);
}

}

网友评论

本文标题：java爬虫框架之jsoup的使用

本文链接：https://www.haomeiwen.com/subject/acslsdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

java爬虫框架之jsoup的使用

相关文章

使用Java写一个简单爬虫爬取单页面

java爬虫基础--jsoup

java爬虫入门jsoup 框架

Java爬虫实战—利用xpath表达式抓取页面信息

Java爬虫（Jsoup）

Java爬虫入门简介（二） —— Jsoup解析HTML页面

基于docker容器，搭建可视化监控系统，容器资源监控 & 业务

Jsoup 学习

Java爬虫之Jsoup 基础语法

爬虫之Jsoup

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读