用xpath和lxml翻页爬取煎蛋

作者: Rain师兄 | 来源:发表于2020-11-29 10:07 被阅读0次

用xpath和lxml翻页爬取煎蛋
爬虫篇（2）——爬取博客内容
python网络爬虫-爬取网页的三种方式（2）
python学习笔记之七[斗图网爬虫]
2019-05-31 爬虫同一格式
爬虫学习（二）数据解析
from lxml import etree ImportErr
爬虫秘籍第二式
2020-11-28

import requests

from lxml import etree

from urllib import request

url = 'http://i.jandan.net/ooxx'

headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36'}

def get_next_page(url):

resp = requests.get(url, headers=headers)

r_path = etree.HTML(resp.text)

r_Xpath = r_path.xpath("//a[@title='Older Comments']/@href")

return 'http:'+r_Xpath[0]

def parse_urls(url):

resp = requests.get(url, headers=headers)

r_path = etree.HTML(resp.text)

r_Xpath = r_path.xpath("//div[@class='commenttext']//a/@href")

for i in r_Xpath:

title = i.split('/')[-1]

htmls = 'http:'+ i

request.urlretrieve(htmls,title)

href = []

while True:

number = input('enter a word: ')

if number != 'q':

html = get_next_page(url)

href.append(html)

print(url)

parse_urls(url)

url = href[-1]

else:

break

这个没有那么复杂，只用了requests，lxml的etree，urllib的request.

urlretrieve.

原来这么好玩。我膨胀了。

每一次循环我都要输入一个字母，字母只要不是q，就能运行一次循环，下载图片，现在就是输入一个字母下载一页，并且把图片来源网址打印出来。

运行，打印网址，并且下载网址的图片

然后看看有没有下载图片

网友评论

本文标题：用xpath和lxml翻页爬取煎蛋

本文链接：https://www.haomeiwen.com/subject/kynhwktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

用xpath和lxml翻页爬取煎蛋

相关文章