美文网首页
解决pyspider使用response.doc 节点等于Non

解决pyspider使用response.doc 节点等于Non

作者: UU小宝 | 来源:发表于2018-08-24 17:44 被阅读0次

今天遇到一个页面,明明 有内容,可是用response.doc节点,就是解析不出内容,显示的是None。

经过排查,是因为这个页面里有一些特殊字符(乱码),pyspider内置的pyquery没能正确转码页面。

解决办法:

手动转码一次,然后忽略错误编码字符:

response.content = (response.content).decode('gbk', errors='ignore') #目标站是GBK 编码

相关文章

网友评论

      本文标题:解决pyspider使用response.doc 节点等于Non

      本文链接:https://www.haomeiwen.com/subject/ccjiiftx.html