使用lxml解析HTML代码
1.解析html字符串:使用lxml.etree.HTML
进行解析,示例代码如下:
htmlElement = etree.HTML(text)
print (etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))
2.解析html文件:使用lxml.etree.parse
进行解析,示例代码如下:
htmlElement = etree.parse('tencent.html')
print (etree.tostring(htmlElement,encoding = 'utf-8').decode('utf-8'))
这个函数默认使用的是xml
解释器,所以碰到一些不规范的html
代码的时候就会有解析错误,此时需要自己创建html
解释器:
parser = etree.HTMLParser(encoding = 'utf-8') #parser为自己创建的解释器
htmlElement = etree.parse(encoding = 'utf-8',parser = parser)
print (etree.tostring(htmlElement,encoding = 'utf-8').decode('utf-8'))
网友评论