美文网首页
python爬虫 初步抓取缩略图片

python爬虫 初步抓取缩略图片

作者: Zero_0_0 | 来源:发表于2018-10-27 16:38 被阅读0次

    爬虫数据一般分为三步

    1.获取网页 2.提取信息 3.保存信息

    开始爬虫

    我们需要一个爬取的目标网站:http://www.netbian.com/
    我们爬虫的一般步骤是:

    1.分析网页 ,写出网页的xpath路径
    2.利用requests库获取网页
    3.使用lxml解析网页
    4.通过xpath获取图片的链接
    5.下载图片
    6.命名并保存图片
    

    我们想要爬取我网页上面的所有的图片,我们需要先找到图片xpath的共性,总结出规律。

    代码:

    #-*- coding: utf-8 -*
    import requests
    from lxml import etree
    
    #网站地址
    url = 'http://www.netbian.com/'
    
    #获取网页
    r = requests.get(url)
    r.encoding = r.apparent_encoding
    #解析网页
    dom = etree.HTML(r.text)
    #获取图片 img标签
    #先获取图片所在的 img标签在分别获取图片链接和名字
    img_path = '//a[@title]/img'
    imgs = dom.xpath(img_path)
    
    #获取图片的链接和名字 并下载 命名 保存
    for img in imgs:
        #xpath 的相对路径 “.” 代表上一级标签
        #不要忘记 xpath返回的总是列表!
        src = img.xpath('./@src')[0]
        name = img.xpath('./@alt')[0]
         #下载图片
        image = requests.get(src)
        #命名并保存图片
        with open('G:\\python代码\\121212\\' + name +'.jpg' ,'wb') as f:
            f.write(image.content)
    

    思考:我们想要将图片放在我们理想的路径下,
    with open('路径' + name +'文件格式' ,'wb') as f:
    f.write(image.content)

    相关文章

      网友评论

          本文标题:python爬虫 初步抓取缩略图片

          本文链接:https://www.haomeiwen.com/subject/vbudtqtx.html