问题描述:爬虫从网络上爬取的 HTML 文件中含有一段疑似乱码的文字(应该是由于转换编码格式导致的乱码),在使用 python 读取改文件时尝试使用了多种编码格式,均报错。
环境:python3.8.0

使用 Notepad ++ 打开后右下角显示编码格式为 GB2312,但使用代码读取时依然报错:




后来发现在 Windows 下使用 ANSI 竟然可以正常读取,但是查询电脑默认编码格式:
C:\Users\Administrator>chcp
活动代码页: 936
936 即代表 GBK,但直接使用 GBK 去读取却仍然报错,这点让我困惑,而且我最终使用环境为 Linux, 就没有再追下去。
最后的解决方式:

网友评论