2019-05-07

2019-05-07

作者: 沙漏如心 | 来源:发表于2019-05-08 15:17 被阅读0次

❄️翠叶复含宿雨
2019-05-08
2019-05-07开始打卡
卖萌的ScalersTalk第四轮新概念朗读持续力训练Day19
SQL注入之WAF-Bypass
聊聊副业
2019-5-7晨间日记
真正的慈悲不是行善，而是唤醒
放下
Oracle基础

2019-05-07随笔，今天又又又遇到了一个比较奇葩得问题。

是关于python得xpath工具lxml得。众所周知lxml集成了xpath,于是成为了众多python爬虫无望而不利得超级利器！

而今天这个呢，就是一个lxml得一个bug！如果不是亲自遇到了我都不会想到，lxml会出现这么个低级错误！

自己所写的使用lxml进行解析的代码

上面呢，没啥好说的就是一个简单页面，解析，接下来，是重头戏！

这个是etree.HTML(str) 之后的页面内容！

这个是str的内容

认真看，发现什么了没？

没错，两者不一样？

在这里，我特意将两个都拉出来作为对比

可以看到，经过lxml转化之后，页面，少了一部分！

而在查阅众多博客尝试众多方法之后，发现只有如下理论才是真正正确的，并且是可以解决这个问题的。

那就是页面被 unicode 编码格式的空格，给隔断了！在这里，只需要 str.replace("\u0000","") 将这部分替换掉，就可以正常执行了，页面内容也不会缺失了！

另外还有一个小bug.

如图，这个xpath 是可以查询到数据的

而这个就查不到了

众所周知，class 属性是一个 html 中一个非全局唯一性的属性！也就是说，这个可以出现多个，多次。而 lxml 在是用class查询的时候，如果需要将他们全部class 属性都添加上去的话？恐怕？不太好吧！

这边呢，就是我在7号，写东西发现的全部的内容了！

欢迎各位大佬积极拍砖！

相关文章

❄️翠叶复含宿雨
2019-05-07
2019-05-08
2019-05-07 胖姑字数 429 · 阅读 0 2019-05-07 23:13 三亚蔚蓝时代实业有限公司...
2019-05-07开始打卡
2019-05-07 没有刷新闻
卖萌的ScalersTalk第四轮新概念朗读持续力训练Day19
练习材料： [Day 1685 2019-05-07] L53-2: In the public interest...
SQL注入之WAF-Bypass
title: SQL注入之WAF Bypassdate: 2019-05-07 12:00:26tags:- My...
聊聊副业
胡辰俊熙关注 31.797 · 字数 577 · 阅读 9622 2019-05-07 10:21 今天跟大家聊...
2019-5-7晨间日记
2019-05-07 【践行人员】袁顺娟【践行天数】188/1000 【今日天气】阴【昨日早睡】23：00 【...
真正的慈悲不是行善，而是唤醒
云水行者关注 1.012 · 字数 707 · 阅读 154 2019-05-07 20:26 很多人都只看见慈...
放下
兰妮宝贝字数 444 · 阅读 2 2019-05-07 19:29 每个人所见所遇到的冥冥中都早有...
Oracle基础
2019-05-07 Oracle常用命令查看当前连接用户 show user; 查看全局数据库名与SID 清空...

网友评论

本文标题：2019-05-07

本文链接：https://www.haomeiwen.com/subject/xygmoqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|2019-05-07|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！