美文网首页
解决pycharm的爬虫乱码问题(初步了解各种编码格式)

解决pycharm的爬虫乱码问题(初步了解各种编码格式)

作者: Orzsl | 来源:发表于2019-01-17 21:25 被阅读0次
  • Ascii码(American Standard Code for Information Interchange,美国信息互换标准代码):
    最初计算机只在美国使用时,只用8位的字节来组合出256(2的8次方)种不同的状态,把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,
  • 拓展字符集:世界各地的都开始使用计算机,一直把序号编到了最后一个状态255。从128到255这一页的字符集被称"扩展字符集"。
  • GB2312:
    GB2312 是对 ASCII 的中文扩展。当计算机传入中国后,规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。这种方案叫做GB2312。
  • GBK:
    后来GB2312方案的汉字不够用了,干脆不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
  • GB18030:
    后来又加入了加入了几千个少数民族的字,拓展成为GB18030
  • UNICODE:但全世界各种编码方式无法通行,于是出现了一种无视各种地区编码的世界统一的编码方式~Unicode。在Unicode中,一个字符就是两个字节。规定必须用两个字节,也就是16位来统一表示所有的字符,对于ascii里的那些“半角”字符,UNICODE 包持其原编码不变,只是将其长度由原来的8位扩展为16位,而其他文化和语言的字符则全部重新统一编码。
  • UTF-8:
    前面介绍的都是字符集,而UTF-8,UTF-16则是一种编码规则。因为Unicode字符集都是用两个字节来存储的,所以在传输信息的过程中对资源浪费很大,就像原来Ascii码中的字符只需要一个字节来传递。于是出现了UTF-8这种变长的编码规则。
    因此UTF-8是基于Unicode的一种编码规则,因此现在最常用的便是UTF-8编码方式。

补充一点:
1.将字符转换为字节的方式称为编码
2.将字节转换为字符的方式称为解码


接下来介绍用pycharm来写爬虫时遇到的乱码问题:

首先打开file中的setting 再找到Editor中的File Encodings

将其中的GlobalEncoding和Project Encoding改为UTF-8即可。
为了以防万一,也可以将文件的编码方式也改为utf-8


pycharm右下角可以更改文件的编码方式 或者在setting中将文件编码改为utf-8

相关文章

  • 解决pycharm的爬虫乱码问题(初步了解各种编码格式)

    Ascii码(American Standard Code for Information Interchange...

  • html相关知识——网页乱码问题,严格模式和混杂模式

    网页乱码问题的原因及解决办法网页产生乱码的根本原因:文件保存的编码格式和浏览器解析时的编码格式不匹配; 解决乱码问...

  • 任务4

    问答 网页乱码的问题是如何产生的?怎么解决?乱码原因:保存文件的编码格式和浏览器解析时解码格式不匹配造成的。解决办...

  • HTML1

    1.网页乱码的问题是如何产生的?怎样解决 乱码产生的原因:页面编辑后保存的编码格式和浏览器解析文件时的编码格式不一...

  • 任务4-HTML-1

    1.网页乱码的问题是如何产生的?怎样解决 答:乱码产生的原因是编辑器所保存的编码格式与浏览器解析所使用的编码格式不...

  • python读取文本文件报错:UnicodeDecodeErro

    问题描述:爬虫从网络上爬取的 HTML 文件中含有一段疑似乱码的文字(应该是由于转换编码格式导致的乱码),在使用 ...

  • unicode编码 转 中文

    方法一:格式化 方法二:先编码再解码 scrapy 爬虫返回json格式内容unicode编码转换为中文的问题解决

  • 4.HTML基础

    1、网页乱码的问题是如何产生的?解决方法? ①保存的编码格式和浏览器解析时的解码格式不匹配导致的。将保存的编码格式...

  • 插入数据库出现中文乱码问题

    插入数据库出现中文乱码问题 出现这种乱码问题,肯定是编码除了问题,编码和解码不是同一种编码格式就会出现乱码情况! ...

  • HTML标签使用总结

    1.head标签 meta 标签a: 主要用来设置编码格式 可以解决乱码问题b: c: title 标签 设...

网友评论

      本文标题:解决pycharm的爬虫乱码问题(初步了解各种编码格式)

      本文链接:https://www.haomeiwen.com/subject/hqhwdqtx.html