以上资料借鉴而已

今天写个简单的静态的爬虫爬取IP ip网址
以下我们观察一下网页HTML

//*[@id="gallery"]/div[2]/div[1]/div[2]/div[2]/table/tbody/tr[1]/td[2]
这是我用浏览器自带工具提取的xpath大家应该发现了其中带有tobody,做过爬虫的大家都知道,一般tobody是浏览器自动产生的,一般情况要去掉,为此我耽误三个小时调试,一直匹配不到数据,后来我打印了request反应的网页源码,里面就是有tobody的


请别拦着我,我要砍死这个网页的程序猿!!!!(你们怎么不拦我…………)
后来改了一下匹配的格式就爽了

代码的路,坑坑不绝,坑坑不休------------
好了,以上就写这么多了,当作笔记。
对了,最后放个养眼的图片

网友评论