BeautifulSoup爬取网页过程中会出现乱码

作者: 五月笑忘 | 来源:发表于2021-01-26 13:34 被阅读0次

BeautifulSoup爬取网页过程中会出现乱码
Python实战 - 第2节：解析网页中的元素
Python爬虫--真实世界的网页解析
py爬取的html中文乱码
爬虫精进(八) ------ selenium
【Python爬虫】BeautifulSoup爬取豆瓣电影短评
爬虫从零开始--爬取静态网站
第一周作业，爬取58同城相关数据
用beautifulsoup爬取微信公号的二手房信息
第一个小爬虫代码

问题描述

在尝试爬取小说时，发现爬取到的正文格式是正确的，但是章节列表会出现乱码，经过仔细搜索终于解决，特此记录

运行时可以看到，文字都是乱码

源代码

      req = requests.get(url=self.target)
      bf = BeautifulSoup(req.text, 'html.parser')
      div = bf.findAll('div', class_='listmain')
      a_bf = BeautifulSoup(str(div[0]), "html.parser")
      a = a_bf.findAll('a')
      print(a[0].)

解决方案

确定当前网页的编码格式，可以在控制台中查看，在console中输入

document.charset

下图可以看出，该网页是采用GBK编码

控制台输出结果，GBK

添加代码，将编码格式设置为对应的编码格式

 req = requests.get(url=self.target)
 req.encoding = 'GBK' //将编码格式设置为网页对应的格式，在这里就是GBK
 bf = BeautifulSoup(req.text, 'html.parser')

问题解决

增加代码后，文字显示正确

网友评论

本文标题：BeautifulSoup爬取网页过程中会出现乱码

本文链接：https://www.haomeiwen.com/subject/nllgzktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

BeautifulSoup爬取网页过程中会出现乱码

问题描述

源代码

解决方案

相关文章

BeautifulSoup爬取网页过程中会出现乱码

Python实战 - 第2节：解析网页中的元素

Python爬虫--真实世界的网页解析

py爬取的html中文乱码

爬虫精进(八) ------ selenium

【Python爬虫】BeautifulSoup爬取豆瓣电影短评

爬虫从零开始--爬取静态网站

第一周作业，爬取58同城相关数据

用beautifulsoup爬取微信公号的二手房信息

第一个小爬虫代码

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读