美文网首页
lxml.etree之tbody坑

lxml.etree之tbody坑

作者: 随风而去_c0e8 | 来源:发表于2017-09-02 23:04 被阅读0次

学习lxml和xpath

以上资料借鉴而已


今天写个简单的静态的爬虫爬取IP ip网址

以下我们观察一下网页HTML

1504363816(1).png
//*[@id="gallery"]/div[2]/div[1]/div[2]/div[2]/table/tbody/tr[1]/td[2]

这是我用浏览器自带工具提取的xpath大家应该发现了其中带有tobody,做过爬虫的大家都知道,一般tobody是浏览器自动产生的,一般情况要去掉,为此我耽误三个小时调试,一直匹配不到数据,后来我打印了request反应的网页源码,里面就是有tobody的


爬取的截图.png
尼玛

请别拦着我,我要砍死这个网页的程序猿!!!!(你们怎么不拦我…………)
后来改了一下匹配的格式就爽了

代码.png

代码的路,坑坑不绝,坑坑不休------------
好了,以上就写这么多了,当作笔记。
对了,最后放个养眼的图片

相关文章

网友评论

      本文标题:lxml.etree之tbody坑

      本文链接:https://www.haomeiwen.com/subject/pzxdjxtx.html