一、爬虫
1.简单爬虫某个网页 很简单,已经会了 后面再说
2.调整格式
回归正题,虽然我们已经成功获取了信息,但是显然他们都是二进制的乱码,看起来很不方便。我们怎么办呢?
我们可以通过简单的```decode()```命令将网页的信息进行解码,并显示出来,我们新创建一个文件,命名为urllib_test02.py,编写如下代码(还是以百度翻译网站fanyi.baidu.com为例):
查找源代码中格式,搜索"charset",即可获得。一般中文都是"utf-8"

but,上述方法不方便,想下自动化。写个脚本获得即可
遗留问题是
通过上述链接中方法
# -*- coding: UTF-8 -*-
from urllib import request
import chardet
if __name__ == "__main__":
response = request.urlopen("http://fanyi.baidu.com/")
html = response.read()
charset = chardet.detect(html)
print(charset)
打印出来的 不是utf-8 而是 windows1254 language Turkish
问题 if name == "main": 这句神马意思 之前学的都是def定义
如果还是看不出问题
试试另一种方式
网友评论