第一个爬虫

作者: BiiHug | 来源:发表于2017-08-12 21:03 被阅读0次

第一个爬虫
Java爬虫：用java爬取小说
scrapy自定义Pipline
入门python爬虫
Scrapy爬虫入门
Python爬虫之《电影天堂》电影详情+下载地址爬取
Python网络爬虫2 - 爬取新浪微博用户图片
Scrapy 爬虫的基本使用
【爬虫1】TED演讲
爬虫正传-江湖路远-0101-刀未佩妥，出门已是江湖

这是我的第一个python爬虫，抓取了好奇心主页实时滚动的五篇文章中的背景图。

import urllib.request
import os

def url_open(url):
   req=urllib.request.Request(url)
   req.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.13 Safari/537.36')
   response=urllib.request.urlopen(req)

   return(response)
   
def download_hqx(folder='article_jpg',pages=10):
   os.mkdir(folder)
   os.chdir(folder)

   url='http://www.qdaily.com'
   response=url_open(url)
   html=response.read().decode('utf-8')

   for i in range(5):
       a=html.find('pc:click:banner'+str(i)+'" href="')+24
       b=html.find('"',a)
       xu=html[a:b]

       nurl=url+xu
       nresponse=url_open(nurl)
       nhtml=nresponse.read().decode('utf-8')

       na=nhtml.find('full-banner-bd imgcover"><img src="')+35
       nb=nhtml.find('.jpg',na)+4

       jpgurl=nhtml[na:nb]

       if len(jpgurl)>100:
           nb=nhtml.find('.jpeg',na)+5
           jpgurl=nhtml[na:nb]

       filename=jpgurl.split('/')[-1]

       print(jpgurl)

       with open(filename, 'wb') as f:
           img=url_open(jpgurl).read()
           f.write(img)
       
if __name__=='__main__':
  html=download_hqx()

网友评论

本文标题：第一个爬虫

本文链接：https://www.haomeiwen.com/subject/elnjrxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第一个爬虫

这是我的第一个python爬虫，抓取了好奇心主页实时滚动的五篇文章中的背景图。

相关文章

第一个爬虫

Java爬虫：用java爬取小说

scrapy自定义Pipline

入门python爬虫

Scrapy爬虫入门

Python爬虫之《电影天堂》电影详情+下载地址爬取

Python网络爬虫2 - 爬取新浪微博用户图片

Scrapy 爬虫的基本使用

【爬虫1】TED演讲

爬虫正传-江湖路远-0101-刀未佩妥，出门已是江湖

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读