美文网首页
第一个爬虫

第一个爬虫

作者: BiiHug | 来源:发表于2017-08-12 21:03 被阅读0次
    这是我的第一个python爬虫,抓取了好奇心主页实时滚动的五篇文章中的背景图。
    import urllib.request
    import os
    
    def url_open(url):
       req=urllib.request.Request(url)
       req.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.13 Safari/537.36')
       response=urllib.request.urlopen(req)
    
       return(response)
       
    def download_hqx(folder='article_jpg',pages=10):
       os.mkdir(folder)
       os.chdir(folder)
    
       url='http://www.qdaily.com'
       response=url_open(url)
       html=response.read().decode('utf-8')
    
       for i in range(5):
           a=html.find('pc:click:banner'+str(i)+'" href="')+24
           b=html.find('"',a)
           xu=html[a:b]
    
           nurl=url+xu
           nresponse=url_open(nurl)
           nhtml=nresponse.read().decode('utf-8')
    
           na=nhtml.find('full-banner-bd imgcover"><img src="')+35
           nb=nhtml.find('.jpg',na)+4
    
           jpgurl=nhtml[na:nb]
    
           if len(jpgurl)>100:
               nb=nhtml.find('.jpeg',na)+5
               jpgurl=nhtml[na:nb]
    
           filename=jpgurl.split('/')[-1]
    
           print(jpgurl)
    
           with open(filename, 'wb') as f:
               img=url_open(jpgurl).read()
               f.write(img)
           
    if __name__=='__main__':
      html=download_hqx()
    

    相关文章

      网友评论

          本文标题:第一个爬虫

          本文链接:https://www.haomeiwen.com/subject/elnjrxtx.html