美文网首页Python工作笔记
lxml和requests问题记录

lxml和requests问题记录

作者: txfly | 来源:发表于2019-01-16 16:59 被阅读0次

    lxml里面xpath获取结果不完整解决办法

    去掉html里面内容为\x00的部分

    r = requests.get(url)
    body = r.text.strip().replace('\x00', '').encode('utf8') or b'<html/>'
    root = etree.fromstring(body, parser=etree.HTMLParser(recover=True, encoding='utf8'))
    root.xpath(...)
    

    request传输编码为Transfer-Encoding: chunked时乱码问题

    当传输编码为Transfer-Encoding: chunked时,requests返回的text无法解析,此时修改requests的header,把accept-encoding修改成空即可,例如:

    accept-encoding:''
    

    附:推荐html数据解析库parsel,基于lxml和cssselect,同时支持xpath和css方法。

    版权声明:本文为「txfly」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://www.jianshu.com/p/eacf77df3c3b

    相关文章

      网友评论

        本文标题:lxml和requests问题记录

        本文链接:https://www.haomeiwen.com/subject/zfwmdqtx.html