lxml里面xpath获取结果不完整解决办法
去掉html里面内容为\x00
的部分
r = requests.get(url)
body = r.text.strip().replace('\x00', '').encode('utf8') or b'<html/>'
root = etree.fromstring(body, parser=etree.HTMLParser(recover=True, encoding='utf8'))
root.xpath(...)
request传输编码为Transfer-Encoding: chunked
时乱码问题
当传输编码为Transfer-Encoding: chunked
时,requests返回的text无法解析,此时修改requests的header,把accept-encoding
修改成空即可,例如:
accept-encoding:''
附:推荐html数据解析库parsel,基于lxml和cssselect,同时支持xpath和css方法。
版权声明:本文为「txfly」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://www.jianshu.com/p/eacf77df3c3b
网友评论