美文网首页
Spider_days01

Spider_days01

作者: ZJXianG | 来源:发表于2018-05-28 22:11 被阅读0次

主要内容

爬虫概述:了解什么是爬虫
   
   爬虫就是将网络中非结构数据转化问结构数据化的工具
   通俗来讲:将网页数据存储到数据库的过程
   
爬虫的分类
   
   分为通用爬虫和聚焦爬虫
   
   通用爬虫:一般用在搜索引擎中,针对所有数据进行广泛采集
   搜索引擎必须遵守爬虫采集数据的约定协议
   民间组织约定的爬虫采集数据协议:ROBOT协议
   
聚焦爬虫:也称为定向爬虫,针对目标数据进行定向数据采集[深度]
   
关于历史数据的处理
   
   分为增量爬虫和累积爬虫
   增量爬虫:需要实时对历史采集数据进行更新[历史数据会发生变化]
   累积爬虫:历史数据不会发生变化,一旦数据执行完成,数据就是固定的。
   
简单开发流程
   
   第一行:生命编码格式,支持中文的# coding:utf-8
   
   第一步:
   创建目标地址:
   如: target_url = ‘www.baidu.com
   第二步:
   设置请求头:
   如:headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', }
第三步:
   a.构造请求对象,我们经常在爬去数据过程中会对请求对象做一定的设置进行伪装
   如:resquest=urllib2.Resquest(target_url,headers=headers)
   
   b.构造操作对象(支持代理操作)
   如:proxy_handler=urllib2.ProxyHandler({'http':'ip:post'})
   
   c.得到opener对象
   如:proxy_opener=urllib2.build_opener(proxy_handler)

第四步:
   发送请求,得到服务器数据
   response = proxy_opener.open(request)
   
第五步:
   把文件写入本地
   with open ('文件名',’wb‘) as f:
    f.write (response.read())

相关文章

  • Spider_days01

    主要内容 爬虫概述:了解什么是爬虫爬虫就是将网络中非结构数据转化问结构数据化的工具通俗来讲:将网页数据存储到数据库...

网友评论

      本文标题:Spider_days01

      本文链接:https://www.haomeiwen.com/subject/hspnjftx.html