下载:http://download.csdn.net/download/aqwd2008/4256178
官方地址:http://pypi.python.org/pypi/chardet
如果采用源代码安装方法,有可能会提示缺少setuptools这个模块。因此这里我们采用另外一种更为方便的安装方法,不论你选择哪种安装包,将它解压得到其中的文件夹【chardet】将这个文件夹复制到【python安装根目录\Lib\site-packages】下,确保这个位置可以被python引用到。如果不能被引用到请加入环境变量。
测试网页编码
importurllib
rawdata = urllib.urlopen('http://gs.amac.org.cn/amac-infodisc/res/pof/manager/138.html').read()
importchardet
fencoding= chardet.detect(rawdata)
print fencoding
另外一个高级的代码
importurllib
fromchardet.universaldetectorimportUniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
#创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
#分块进行测试,直到达到阈值
detector.feed(line)
ifdetector.done:break
#关闭检测对象
detector.close()
usock.close()
#输出检测结果
printdetector.result
运行结果:
{'confidence':0.99,'encoding':'GB2312'}
网友评论