美文网首页
用xpath和lxml翻页爬取煎蛋

用xpath和lxml翻页爬取煎蛋

作者: Rain师兄 | 来源:发表于2020-11-29 10:07 被阅读0次

import requests

from lxml import etree

from urllib import request

url = 'http://i.jandan.net/ooxx'

headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36'}

def get_next_page(url):

        resp = requests.get(url, headers=headers)

        r_path = etree.HTML(resp.text)

        r_Xpath = r_path.xpath("//a[@title='Older Comments']/@href")

return 'http:'+r_Xpath[0]

def parse_urls(url):

        resp = requests.get(url, headers=headers)

        r_path = etree.HTML(resp.text)

        r_Xpath = r_path.xpath("//div[@class='commenttext']//a/@href")

for i in r_Xpath:

            title = i.split('/')[-1]

htmls = 'http:'+ i

            request.urlretrieve(htmls,title)

href = []

while True:

number = input('enter a word: ')

if number != 'q':

        html = get_next_page(url)

        href.append(html)

        print(url)

        parse_urls(url)

        url = href[-1]

else:

break

这个没有那么复杂,只用了requests,lxml的etree,urllib的request.

urlretrieve.

原来这么好玩。我膨胀了。

每一次循环我都要输入一个字母,字母只要不是q,就能运行一次循环,下载图片,现在就是输入一个字母下载一页,并且把图片来源网址打印出来。

运行,打印网址,并且下载网址的图片

然后看看有没有下载图片

相关文章

网友评论

      本文标题:用xpath和lxml翻页爬取煎蛋

      本文链接:https://www.haomeiwen.com/subject/kynhwktx.html