jsoup解析中文乱码

作者: 菜菜___ | 来源:发表于2019-09-19 12:40 被阅读0次

    在使用jsoup爬取网页内容的时候发现获取到的中文有乱码问题,如下所示:

    String getUrl = "http://xxxxx.html";
    Document doc = Jsoup.connect(getUrl).get();
    

    一般出现这个情况是由于url指向的页面,实际编码与html中描述的编码不符导致。如:开发时用的GBK编码编写,但html中却写UTF-8。典型的就是在中文Windows下用记事本,写一个UTF-8的html就会出现这个问题。

    解决办法:设置编码格式
    String getUrl = "http://xxxxx.html";
    Document doc =  Jsoup.parse(new URL(getUrl).openStream(), "GBK", getUrl);
    

    原文作者技术博客:https://www.jianshu.com/u/ac4daaeecdfe

    相关文章

      网友评论

        本文标题:jsoup解析中文乱码

        本文链接:https://www.haomeiwen.com/subject/vsczkctx.html