jsoup解析中文乱码

作者: 菜菜___ | 来源:发表于2019-09-19 12:40 被阅读0次

在使用jsoup爬取网页内容的时候发现获取到的中文有乱码问题,如下所示:

String getUrl = "http://xxxxx.html";
Document doc = Jsoup.connect(getUrl).get();

一般出现这个情况是由于url指向的页面,实际编码与html中描述的编码不符导致。如:开发时用的GBK编码编写,但html中却写UTF-8。典型的就是在中文Windows下用记事本,写一个UTF-8的html就会出现这个问题。

解决办法:设置编码格式
String getUrl = "http://xxxxx.html";
Document doc =  Jsoup.parse(new URL(getUrl).openStream(), "GBK", getUrl);

原文作者技术博客:https://www.jianshu.com/u/ac4daaeecdfe

相关文章

  • jsoup解析中文乱码

    在使用jsoup爬取网页内容的时候发现获取到的中文有乱码问题,如下所示: 一般出现这个情况是由于url指向的页面,...

  • HTML&XML解析器--Jsoup

    HTML&XML解析器 一.Jsoup概述 Jsoup简介jsoup是一款Java的HTML解析器,可直接解析某个...

  • 记一次jsoup的使用

    Jsoup是用于解析HTML,就类似XML解析器用于解析XML。 Jsoup它解析HTML成为真实世界的HTML。...

  • 第一课 jsoup教程

    jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用HttpC...

  • jsoup教程

    jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用Htt...

  • Jsoup

    jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用HttpC...

  • Mybatis 插入TDgenine 数据库中文报错和中文乱码问

    1 : Mybatis 插入TDengine 数据库中文报错 中文被解析成乱码的 导致长度不够 2:插入TDeng...

  • Java爬虫之Jsoup 基础语法

    Jsoup介绍: Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。...

  • java爬虫基础--jsoup

    java爬虫框架---jsoup 在实际的开发过程中,jsoup仅仅作为对html界面解析的工具 一、解析URL ...

  • iOS URL处理

    今天讲三个关于 URL 处理的小技巧 URL中含有中文导致无法解析怎么办 URL中文乱码如何处理 URL如何解析参...

网友评论

    本文标题:jsoup解析中文乱码

    本文链接:https://www.haomeiwen.com/subject/vsczkctx.html