美文网首页
lxml的使用方法

lxml的使用方法

作者: 戌时说 | 来源:发表于2018-08-07 17:59 被阅读17次

    使用lxml解析HTML代码

    1.解析html字符串:使用lxml.etree.HTML进行解析,示例代码如下:

    htmlElement  = etree.HTML(text)
    print (etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))
    

    2.解析html文件:使用lxml.etree.parse进行解析,示例代码如下:

    htmlElement = etree.parse('tencent.html')
    print (etree.tostring(htmlElement,encoding = 'utf-8').decode('utf-8'))
    

    这个函数默认使用的是xml解释器,所以碰到一些不规范的html代码的时候就会有解析错误,此时需要自己创建html解释器:

    parser = etree.HTMLParser(encoding = 'utf-8') #parser为自己创建的解释器
    htmlElement = etree.parse(encoding = 'utf-8',parser = parser)
    print (etree.tostring(htmlElement,encoding = 'utf-8').decode('utf-8'))
    

    相关文章

      网友评论

          本文标题:lxml的使用方法

          本文链接:https://www.haomeiwen.com/subject/pavavftx.html