美文网首页
碧玉爬虫程序

碧玉爬虫程序

作者: 冬天到了春天还会远吗 | 来源:发表于2017-04-23 19:08 被阅读12次

    '''这是打开了一个有关碧玉盆栽的介绍的网站,里面的图片分为碧玉图片和广告图片,根据性质的不同,

    将他们下载下来,自动保存到两个不同的文件夹里'''

    from urllib.request import urlopen

    from urllib.request import urlretrieve

    from bs4 import BeautifulSoup

    import re

    import os

    html=urlopen("http://www.pchouse.com.cn/baike/shenghuo/2745/")

    bsObj=BeautifulSoup(html,"html.parser")

    #获取网站中所有碧玉的图片

    Biyus=bsObj.findAll("p",{"style":re.compile("^text-align")})

    for i,x in enumerate(Biyus):

         print(x.find("img").attrs["src"])

         directory=os.path.dirname("/D:/image/mqq"+str[i]+".jpg")

         if not os.path.exists(directory):

                os.makedirs(directory)

        urlretrieve(x.find("img").attrs["src"],directory)

    #获取所有广告类图片

    Ads=bsObj.findAll("img",{"width":{"120","310"}})

    for i,ad in enumerate(Ads):

         print(ad.attrs["src"])

        directory=os.path.dirname("Ads/mqq"+str([i])+".jpg")

        if not os.path.exists(directory):

             os.makedirs(directory)

             urlretrieve(ad.attrs["src"],directory)

    相关文章

      网友评论

          本文标题:碧玉爬虫程序

          本文链接:https://www.haomeiwen.com/subject/osmyzttx.html