美文网首页
node.js cheerio爬虫乱码问题

node.js cheerio爬虫乱码问题

作者: 倔强的满腔热血 | 来源:发表于2019-09-30 13:55 被阅读0次

用cheerio爬取某小说网站数据时,出现中文乱码问题,这里记录一下解决方法.

1 查看网站编码

按f12查看网站源文件,然后搜索charset, 后面的内容就是该网站的编码,如下图, 可知该网站编码为'gbk'.


网站编码.png

2 使用如下两个库

(1) request 用于发起http请求

  • 重点在于options内一定要配置encoding.
options = {
    url: 'https://m.biquge5200.cc/',
    encoding: null,
  }

(2) iconv 用于转码, 使用方法如下

const iconv = require('iconv-lite');
iconv.decode(
html, // request请求的返回值
'gbk' // 第一步查看到的网页编码
);

最终结果

转码前.png 转码后.png

相关文章

网友评论

      本文标题:node.js cheerio爬虫乱码问题

      本文链接:https://www.haomeiwen.com/subject/swgcpctx.html