使用chardet检测网页的编码

作者: SaveTheWorld | 来源:发表于2017-03-01 15:04 被阅读0次

    下载:http://download.csdn.net/download/aqwd2008/4256178

    官方地址:http://pypi.python.org/pypi/chardet

    如果采用源代码安装方法,有可能会提示缺少setuptools这个模块。因此这里我们采用另外一种更为方便的安装方法,不论你选择哪种安装包,将它解压得到其中的文件夹【chardet】将这个文件夹复制到【python安装根目录\Lib\site-packages】下,确保这个位置可以被python引用到。如果不能被引用到请加入环境变量。

    测试网页编码

    importurllib

    rawdata = urllib.urlopen('http://gs.amac.org.cn/amac-infodisc/res/pof/manager/138.html').read()

    importchardet

    fencoding= chardet.detect(rawdata)

    print fencoding

    另外一个高级的代码

    importurllib

    fromchardet.universaldetectorimportUniversalDetector

    usock = urllib.urlopen('http://www.baidu.com/')

    #创建一个检测对象

    detector = UniversalDetector()

    for line in usock.readlines():

    #分块进行测试,直到达到阈值

    detector.feed(line)

    ifdetector.done:break

    #关闭检测对象

    detector.close()

    usock.close()

    #输出检测结果

    printdetector.result

    运行结果:

    {'confidence':0.99,'encoding':'GB2312'}

    相关文章

      网友评论

        本文标题:使用chardet检测网页的编码

        本文链接:https://www.haomeiwen.com/subject/qbaqgttx.html