美文网首页
下载美丽的沙滩(1_4)

下载美丽的沙滩(1_4)

作者: 木马音响积木 | 来源:发表于2016-12-04 08:43 被阅读0次

    一、总结:需要老师了,
    0,我通过简书提交作业,如何看您的点评,我给您发微博了
    1,代理这个地方,需要老师指导,window 和ubuntu 下,蓝灯的安装和使用。
    2,urllib.request.urlretrieve(url, path + url.split('/')[-2] + url.split('/')[-1]) #这个地方如何改写为支持代理,需要老师指点
    如何能支持代理,特别是蓝灯代理,以及蓝灯应该如何设置。我现在是firefox 能上国外网站的。
    3,wb_data = requests.get(full_url,proxies=proxies) 使用代理马上soup 中什么也没有了,我用的代理是蓝灯,window环境,需要老师指点。

    二、成果展示

    week1-4-2.jpg week1-4.jpg

    三代码

    #!C:\Python35\python.exe
    # coding=utf-8
    import requests
    from bs4 import BeautifulSoup
    import urllib.request
    # 此网站会有针对 ip 的反爬取,可以采用代理的方式
    proxies = {"http":"127.0.0.1:61070"}
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
    }
    
    
    # 'http://weheartit.com/inspirations/beach?page=8' full url
    
    base_url = 'http://weheartit.com/search/entries?utf8=%E2%9C%93&ac=0&query=beach&page='
    #http://weheartit.com/search/entries?utf8=%E2%9C%93&ac=0&query=beach&page=
    path = './aaa/'  # the last / can not lost
    
    def get_image_url(num):
        img_urls = []
        for page_num in range(1,num+1):
            full_url = base_url + str(page_num)
            #wb_data  = requests.get(full_url,proxies=proxies)  使用代理马上soup 中什么也没有了,我用的代理是蓝灯,window环境,需要老师指点
            wb_data = requests.get(full_url)
            soup = BeautifulSoup(wb_data.text,'lxml')
            print(soup)
            #imgs = soup.select('img.entry_thumbnail')
            #entry-thumbnail
            imgs = soup.select('#content > div.grid-thumb.grid-responsive > div > div > div > a > img')
            #content > div.grid-thumb.grid-responsive > div > div > div > a > img
            print("55555")
            for i in imgs :
                img_urls.append(i.get('src'))
    
        print((len(img_urls)),'images shall be downloaded!')
        return img_urls
    
    # get_image_url(1)
    
    # 'http://data.whicdn.com/images/268835689/superthumb.jpg'
    def dl_image(url):
        urllib.request.urlretrieve(url, path + url.split('/')[-2] + url.split('/')[-1])  #这个地方如何改写为支持代理,需要老师指点
        print('Done')
    
    #
    for url in get_image_url(3):
        dl_image(url)
    
    
    
    

    相关文章

      网友评论

          本文标题:下载美丽的沙滩(1_4)

          本文链接:https://www.haomeiwen.com/subject/rschmttx.html