首先强调本人依然是个小白,依然四个菜鸟,这次依然是下载漫画, 因为目标网站采取的是单张图片显示,一张一张打开看实在太累了 所以决定用python爬下来看,然后又因为该网站采用的js加载图片的方式所以获取图片链接的难度有所提高,不过总归有办法——利用senium 的伪装浏览器实现加载js后的网页,之后在网页内爬取图片链接。
前面几步实现不难,最后倒在获取章节内漫画名称,以及章节名上,这里遇到的问题主要是find_elements_by_xpath和find_element_by_xpath差异上。
dr.find_elements_by_xpath("//div[@class='w996 title pr']/h1/a")[0].text \ + dr.find_elements_by_xpath("//div[@class='w996 title pr']/h2")[0].text
dr.find_element_by_xpath("//div[@class='w996 title pr']/h1/a")[0].text \ + dr.find_element_by_xpath("//div[@class='w996 title pr']/h2")[0].text
这两段唯一的差异是一个是elements,另一个是element ,前者表示网页中多元素,后一个表示单一元素(一知半解的理解),就是这小小的s 让我折腾了三个小时,还是偶然间发现曾经没问题的一个脚本也有这行代码,最终对比发现问题,学习任重道远,经验总会随着踩的坑多了慢慢增加,加油!
网友评论